Processamento Estruturado de Documentos
Sumários
28 de Setembro de 2009
- Apresentação do Módulo de PED:
- Apresentação da Equipe Docente, dos Objectivos e do modo de Funcionamento e Avaliação;
- Introdução e Motivação para a área de Processamento Estruturado de Documentos.
12 Outubro de 2009
- I - Introdução ao XML
- Representação de informação (muito ou pouco estruturada)
- Noção de documento bem-formado
- Noção de documento válido
- Instalação de um editor grátis de XML "http://sourceforge.net/projects/xml-copy-editor"
- Instalação de um editor não grátis de XML Oxygen
-
- Exercício anárquico para chegar à necessidade de um DTD ou Schema *1) Escrever um livro de receitas *2) Criar um DTD para o livro de receitas
- II - XPath
- Extrair informação dos documentos
- Exercício com o Arquivo Sonoro de Ernesto Veiga de Oliveira
- Utilização dos editores
- Utilização do Saxon na linha de comandos
$ java -cp /usr/share/java/saxonb.jar net.sf.saxon.Query -s arq-son-EVO.xml jesus.xq
ou
$ saxonb-xquery -s arq-son-EVO.xml jesus.xq
- III - Incluir XML no LaTeX
- Escrita do sumário da aula, incluindo o XML dos dois exercícios realizados.
- Utilização dos módulos: url; listings; graphicx; hyperref
19 de Outubro de 2009
- A aula foi usada para avançar com o Projecto integrado.
26 de Outubro de 2009
- A aula foi usada para avançar com o Projecto integrado.
02 de Novembro de 2009 (aula dada por PRH)
- Linguagens de Anotação de Documentos:
- a noção de texto semi-estruturado por contra-ponto com texto completamente estruturado (frases de uma linguagem formal) e texto não-estruturado (frases de uma linguagem natural);
- os princípos por trás da anotação de documentos; um pouco de histórica -- as linguagens de anotação LaTeX, SGML, HTML e XML;
- análise de exemplos concretos de documentos históricos e sua interpretação -- a definição de marcas que explicitem a forma de interpretar diversos termos (simples e compostos);
- o princípio básico de separar a anotação do seu processamento.
- A Linguagem de Anotação XML:
- XML como uma meta-linguagem para definir linguagens de anotação -- os dialectos XML e dos DTDs;
- XML como a linguagem franca ou o esperanto dos Sistemas de Informação -- interoperabilidade entre bases de dados e outras aplicações.
- Sistemas de Produção:
- as 3 componentes básicas: base de regras de reacção "condição/acção" + base de factos + motor de produção;
- conceitos e exemplos (Prolog, Lex/Flex, Awk, Perl, XSL).
- Enunciado de um Trabalho Prático para a próxima aula -- verna rúbrica "Questões, Fichas Práticas e Notas"