Acções do Documento

Dia 1 - 14 de Setembro

 

Dia 14 - Processamento de Linguagem Natural

 

9h00 Sessão de Abertura
9h30 Search engines as a linguistic resource - Enrique Alfonseca
10h30 Coffee break
11h00 Learning from the web: The wealth of data and its consequences - Philipp Koehn
12h00 O PLN que anda por aí - José Carlos Medeiros
12h30 Transcrição Grafema-Fone para sistemas de Síntese da Fala em Português Europeu - Daniela Braga



Anfiteatro B1 - 9h00-9h30

Sessão de abertura

Com a participação de: 

  • Prof. Guimarães Rodrigues - Reitor da Universidade do Minho; *
  • Prof. António Cunha - Presidente da Escola de Engenharia;
  • Prof. Rui Ralha - Vice-Presidente da Escola de Ciências;
  • Prof. Rosa Vasconcelos - Presidente do Conselho de Cursos de Engenharia;
  • Prof. Elisabete Oliveira - Presidente do Conselho de Cursos de Ciências;
  • Prof. José Barros - Director do Departamento de Informática;
  • Prof. Alcino Cunha- Director de Curso da LEI;
  • Prof. Carla Mendes - Directora de Curso da LCC;
  • Sérgio Viana - Presidente do CESIUM;
  • Adriana Cunha - Presidente do NECC;
  • Hugo Macedo - Presidente do Núcleo ACM.

* Presença a confirmar.


Anfiteatro B1 - 9h30 - 10h30

Search engines as a linguistic resource - Enrique Alfonseca

Resumo: This talk will introduce several applications of search engines as a resource to solve linguistically motivated problems, from syntactic analysis to many other areas included but not limited to word sense disambiguation, information retrieval, information extraction or machine translation. Up to the 90s, traditional systems for natural language processing have relied on small annotated corpora on which to train classifiers, but the availability of the web and large amounts of unannotated data and computational resources able to process them has motivated the development of weakly-supervised and unsupervised systems. In this talk we explore different directions that can be taken using the result pages from search engines as an additional processing resource.

Biografia: Enrique Alfonseca is a researcher at Google Zurich.


Anfiteatro B1 - 11h00-12h00

Learning from the web: The wealth of data and its consequences - Philipp Koehn

Resumo: An explosive amount of data in textual form is available on the internet, ranging from official announcement and news in many languages all the way to human interactions (Facebook, Twitter). This allows for the first time to obtain large-scale empirical evidence of human behaviour or even current and past social events and views. Such data are met by increasing computing power and new methods that enable applications such as trend spotting or tracking public opinion but also (using translated texts) automatic translation between languages.

Biografia: Philipp Koehn is a lecturer at the University of Edinburgh


Anfiteatro B1 - 12h00-12h30

O PLN que anda por aí - José Carlos Medeiros

Resumo: Desde a edição de 2003 que a Diciopédia tem um módulo de perguntas e respostas cuja interacção com o utilizador é feita através de linguagem natural. A palestra abordará a forma como foi resolvido o problema quer ao nível da compreensão das perguntas, quer ao nível da representação dos dados bem como a escolha das tecnologias usadas.

Biografia: José Carlos Medeiros licenciou-se em Matemática/Informática na UBI, em 1989. No estágio teve o primeiro contacto com o PLN, no projecto de tradução automática do Grupo Científico IBM-Inesc e desde aí manteve sempre algum contacto com a área. Foi assistente estagiário na UBI até 1992 e entre 92 e 1996 foi investigador do grupo de linguagem natural do Inesc, período em que se dedicou mais à morfologia e à correcção ortográfica do Português. Em 1996 entrou para a Porto Editora onde teve oportunidade de liderar a equipa de programadores de produtos multimédia que, para além de várias edições da Diciopédia, desenvolveram outros produtos de referência como a História da Literatura ou a Enciclopédia de História, passando pelos dicionários electrónicos. Desde de 2004 é responsável pelo Núcleo de Investigação e Desenvolvimento, que se tem dedicado principalmente ao desenvolvimento de ferramentas de tratamento de dicionários.


Anfiteatro B1 - 12h30-13h00

Transcrição Grafema-Fone para sistemas de Síntese da Fala em Português Europeu - Daniela Braga

Resumo: A questão da conversão grafema-fone em Síntese da Fala é um assunto que está longe de estar resolvido, como se poderá verificar pelo grande número de publicações sobre o tema na comunidade científica lusófona. Incluímos no conversor grafema-fone os seguintes sub-módulos: o divisor silábico, o marcador de sílaba tónica e o transcritor fonético. Apresentaremos nesta comunicação alguns detalhes da construção das regras de transcrição grafema-fone em Português Europeu e como a abordagem por regras linguísticas pode ser tão bem-sucedida em línguas com a regularidade fonética e fonológica do Português e com uma ortografia de base fonológica. Esta abordagem é mais económica do ponto de vista computacional, exigindo menos processamento e menos corpora de treino prévio, sendo muito adequada para tecnologias em ambiente móvel, em que a memória computacional é mais reduzida.

Biografia: Daniela Braga trabalha no Centro Microsoft para o Desenvolvimento da Linguagem em Portugal.