|
clique para imprimir este documento
Corpus Informatizado do Português Medieval - CIPM
Constituição e Processamento Automático Maria Francisca Xavier e Maria de Lourdes Crispim
Universidade Nova de Lisboa Na Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa teve início, em 1993, a constituição de um corpus informatizado de textos do português medieval - CIPM1. O objectivo fundamental deste trabalho relaciona-se com a necessidade de recolher dados fiáveis para diferentes estudos, dos quais se destaca a realização de análises estruturais e lexicais, que contribuam para um melhor conhecimento do período referido - o português medieval. Foi decidido, desde o início, proceder à informatização de textos dos três primeiros séculos do Português histórico, pelo que, naturalmente, se começou o trabalho informatizando o texto da Notícia de Torto [1214?], a partir da edição preparada por Luís Filipe Lindley Cintra (1990), e as duas versões do Testamento de D. Afonso II (1214) editadas pelo Pe. Avelino de Jesus da Costa (1979). A estes primeiros textos juntaram-se outros, também de tipo notarial, já publicados ou fornecidos pelos próprios editores e, alargando a tipologia, crónicas e textos de prosa didáctico-moralista. Assim, neste momento, fazem parte do CIPM os seguintes textos, que totalizam 2 200 108 palavras:
Tendo em vista o interesse deste corpus para estudos de linguística diacrónica, considerou-se importante incluir tanto uma amostragem de textos medio-latinos anteriores ao século XIII como de textos portugueses do século XVI, pelo que foram já incorporados no CIPM os textos abaixo indicados:
A metodologia seguida para a constituição do CIPM compreende essencialmente duas fases: (i) Fase de digitalização simples - os textos obtidos em versão informatizada são arquivados na versão dos editores; - quando se tem acesso apenas a edições em papel, procede-se à leitura óptica dos textos seguindo-se a revisão para a correcção dos erros produzidos pela deficiente interpretação automática de caracteres. (ii) Fase de informatização adaptada - a partir do momento em que os textos se encontram informatizados nas versões editadas, é necessário proceder à introdução de um conjunto de referências e comentários e à adaptação das normas de transcrição utilizadas pelos autores das edições a fim de preparar os textos para tratamentos automáticos de etiquetagem e de segmentação. As referências, em número de dez e notadas entre ângulos, são, no essencial, localizadores de época, de autor, de lugar, de partes do texto, etc. e são acrescentadas a todos os textos. Esquematicamente temos:
Quanto aos comentários, notados através de duplos parênteses curvos, separam quaisquer informações fornecidas pelos editores, assim como as indicações de linha ou página, do corpo do texto informatizado e, obviamente, só acompanham os textos que apresentam essas informações.
Adaptação de Normas de Transcrição Embora se procure respeitar as normas de transcrição seguidas pelos editores, há necessidade de algumas adaptações, essencialmente exigidas pelo suporte lógico, que vão permitir não só o tratamento automático do corpus como a obtenção de dados mais diferenciados. Grosso modo, as principais adaptações consistem em substituições e uniformizações de sinais de notação em casos como : - o suporte lógico utilizado para a análise automática não lê itálicos ou sublinhados pelo que, quando estes figuram nas edições, têm de ser substituídos por notações que a máquina descodifique (uso de ( ) para desenvolvimento de abreviaturas, por exemplo); - se algumas destas notações tiverem sido utilizadas pelos editores para outros fins, será necessário estabelecer uma lista de correspondências que tornem a leitura da máquina unívoca; - para possibilitar a recolha fina de dados, por exemplo em relação aos diacríticos que nas versões apenas digitalizadas figuram sobre os caracteres, apresentam-se, na versão informatizada, à direita do carácter de modo a permitir o seu isolamento e eventual contagem. - quando são usados apóstrofos, inclui-se um espaço à sua direita para o separar da palavra seguinte; - sobretudo devido a problemas de suporte lógico, procede-se também à adaptação de grafemas Exemplo: sinal tironiano ® & caldeirão ® $ A comparação entre duas versões do mesmo texto, no exemplo a Notícia de Torto, permite a observação rápida do que se acaba de descrever: Exemplo Notícia de Torto (ca. 1214) in Cintra (1990)
Parte dos textos do CIPM foram já utilizados para estudos linguísticos de diferentes tipos (Fiéis 1996), (Lima 1997), (Silva 1997), (Lemos 1997), (Castro 1998), (Silva 1998) entre outros, e alguns foram utilizados na elaboração de vários dicionários: um Dicionário de Verbos Portugueses do Século 13, que está em fase de publicação, e dicionários de nomes próprios, nomes comuns, termos notariais, etc. O Dicionário de Verbos do Português Medieval possui actualmente 578 entradas do século XIII, que foram introduzidas numa base de dados construída no Access (Xavier, Vicente e Crispim 1999). As fichas lexicográficas do Dicionário de Verbos apresentam a organização seguinte: Campos:
O Dicionário de Nomes, cujos campos estão a ser estudados, apresenta actualmente a estrutura seguinte: Suclasses de Nomes: - Nomes próprios NP – Deus, Santa Trindade NPA – Nome próprio de pessoa (antropónimo) Ex.: dona Marina Perez, São João... NPT – Nome próprio de lugar (topónimo) Ex.: Monte Mayor o Velho, freguesia de Santa Maria Madalena... NPC – Nome próprio de instituições, etc. Ex.: ordem de Avis, concelho de Monsaraz… NA – Nome designativo de pessoa específica com propriedades descritivas e que inclui um NP. Ex.: abadessa de Achelas, mestre de Avis... NT – Nome designativo de lugar específico, sendo duvidoso se se trata de nome próprio ou de descrição definida. Ex.: fonte do álamo, lagoa grande, lagoa segunda... ND – Datas: dias, meses, anos, dias festivos… Ex.: dia de natal, II de agosto da era de MCCXLII, São Miguel de Outubro... - Nomes comuns NC – nomes comuns gerais. Ex.: água, amor, terra… NCp – nomes de profissões/profissionais, cargos/detentores desses cargos, parentesco/parentes. Ex.: chanceler, mestre, pais, prestameiro, herdeiro, sucessor, povoador. NCa – nomes de animais. Ex.: porco, galinha... NCt – nomes topográficos. Ex.: campo, herdade, fonte, leira, povoação, vereda... NCm – nomes metrológicos. Ex.: moio, spadoa... Adaptação, desenvolvimento e utilização de ferramentas informáticas - Etiquetagem Morfossintáctica Automática Além da constituição de um corpus digitalizado de textos medievais e da preparação dos dicionários, que acabam de ser descritos, a equipa da FCSH tem como objectivo o tratamento automático do mesmo. Para as primeiras tentativas de adaptação de um etiquetador morfossintáctico utilizando redes neuronais e a sua aplicação a textos portugueses medievais, foi necessário constituir uma equipa interdisciplinar que integra um grupo de informáticos da FCT-UNL, liderado por Gabriel Lopes (v. Marques e Lopes 1996a,b). Esta equipa de linguistas e informáticos trabalha em conjunto desde 1995. Aos informáticos cabe a tarefa de desenvolver um sistema que permite converter textos anotados para um formato compatível com o etiquetador automático e experimentá-lo, enquanto os linguistas se ocupam de diferentes aspectos relevantes para a sua utilização: (i) definição do conjunto de etiquetas a utilizar, tendo em vista as necessidades da investigação linguística a desenvolver futuramente; (ii) preparação dos textos, já anteriormente referida, através de conversão da notação dos textos para um formato compatível com o sistema, (iii) criação de um corpus de treino etiquetado manualmente, (iv) correcção manual dos erros da etiquetagem automática e (v) avaliação dos resultados de diferentes aplicações do etiquetador, tendo em conta diversos factores, nomeadamente o número de etiquetas, o tipo de dicionário, o tipo e a dimensão dos textos e o volume de palavras ambíguas. Os primeiros resultados da aplicação do etiquetador a textos do mesmo tipo, dos três séculos, mantendo o número de etiquetas (sem a análise das contracções) e reduzindo ao mínimo o volume das palavras ambíguas, foram divulgados em Xavier, Vicente e Silva (1997). A percentagem de acerto então obtida variava entre 81 e 93,5, sendo a percentagem mais alta correspondente a um texto do século XIII cujos vocábulos e respectivas variantes se encontravam já no dicionário do etiquetador. Estes resultados foram considerados animadores ao ponto de se ter decidido avançar na aplicação da etiquetagem a outros textos do século XIII. No entanto, os erros remanescentes e a impossibilidade de o sistema analisar as contracções, atribuindo-lhes, por defeito, a etiqueta CW, obrigou à correcção manual dos textos a fim de poderem ser utilizados para outros estudos. Neste momento, o corpus disponível, etiquetado (pelo método que acabamos de descrever) e inteiramente corrigido, é constituido por cerca de 81.000 palavras correspondentes a textos do século XIII que integram o CIPM. Exemplo de etiquetagem automática (com correcção posterior):
A dificuldade de análise das contracções não só tornou difícil e moroso o processo de constituição de um corpus etiquetado como demonstrou a insuficiência do sistema. Assim, foi tentada a aplicação de outro sistema de etiquetagem morfossintáctica automática que permite analisar as contracções, implementado também por Marques e Lopes (1997), e aplicado com sucesso a corpora portugueses da Agência Lusa. As várias tentativas de afinação desta ferramenta para ser utilizada em corpora do Português Medieval (PM), porém, levaram à conclusão de que havia necessidade de repensar todo o sistema. Com efeito, para a equipa de informáticos cujo objectivo principal é a implementação de um sistema completamente automático que funcione com qualquer língua, as dificuldades surgidas com a aplicação deste etiquetador na análise dos textos portugueses mais antigos revelam que o mesmo ainda não se encontra em condições de satisfazer tal objectivo. O novo sistema deverá estar associado a um léxico que incorpore lexias complexas, locuções e morfologia flexional, deverá ser capaz de analisar as contracções e deverá, igualmente, permitir uma percentagem de acerto melhor e mais estável, independentemente dos diferentes factores que actualmente interferem nos resultados. Análise Sintáctica Automática Um outro objectivo desta equipa interdisciplinar é a construção de um analisador sintáctico ('chart parser', ou analisador por grafo (Allen 1987) e (Rocio e Lopes 1998)) com vista à segmentação e etiquetagem sintáctica de textos em Português Medieval (PM). Numa primeira fase, o trabalho consistiu na tentativa, por parte do grupo de linguistas da FCSH, de elaboração de regras que dessem conta da estrutura sintáctica superficial das frases que ocorrem nos textos medievais. O resultado deste trabalho foi a conclusão de que, no essencial, essa descrição coincide com a do Português Contemporâneo (PC), com algumas particularidades, nomeadamente o facto de certas ordens de palavras - como a ordem Sujeito - Objecto - Verbo - serem mais frequentes em PM. Foi, então, decidido adoptar outra metodologia: o PM seria analisado com base numa gramática elaborada para o PC, associando-se-lhe um léxico do PM, nesta fase ainda sem informação flexional associada. O primeiro texto analisado estava etiquetado com etiquetas morfossintácticas, de acordo com os critérios então adoptados pelo grupo da FCSH para essa etiquetagem: as palavras operadores (palavras de tipo-Q como quando, quem, onde, etc.) tinham a etiqueta _QU; o pronome relativo ‘que’ era etiquetado como C e a pontuação não era etiquetada. De imediato os membros da equipa da FCT reagiram: a utilização da gramática elaborada para o PC implicava a adopção das etiquetas nela assumidas, pelo que a etiqueta _QU foi automaticamente convertida para _C e a pontuação etiquetada por defeito: vírgula e ponto e vírgula como _C, ponto como _terminador e dois pontos como _DPTO. O resultado da aplicação do analisador sintáctico revelou lacunas a vários níveis. Por um lado, o facto de o léxico não incluir informação flexional leva o analisador a aceitar como frases bem-formadas sequências de sn e sv com traços de concordância incompatíveis. Por outro lado, a identificação, por defeito, dos sinais de pontuação levou a que as vírgulas fossem todas etiquetadas como conjunções (coordenativas), dando origem a que todos os grupos nominais que integram um ou mais apostos - e esses grupos são muito frequentes nos textos notariais - fossem interpretados como coordenações de sns. Revelou-se ainda que o léxico precisava de ser aumentado, pois muitas palavras eram desconhecidas, impedindo a sua integração numa estrutura sintáctica, o que resultou numa forte granularidade, ou seja, numa grande quantidade de arcos que não revelam a arquitectura da estrutura. Outros problemas detectados foram atribuídos a deficiências da própria gramática, como foi o caso da não identificação de svs e de sps coordenados. Procedeu-se, posteriormente, a uma modificação das etiquetas, distinguindo os pronomes relativos com a etiqueta _PR (reconhecida na gramática do analisador) e atribuindo aos sinais de pontuação um triplo estatuto, correspondente à sua função efectiva: _C no caso de coordenação assindética, _SS quando não é clara nem parece relevante a sua utilização do ponto de vista da estrutura sintáctica, e a etiqueta correspondente ao sinal de pontuação enquanto tal. Por parte do grupo de informática, a gramática foi ligeiramente alterada, por forma a identificar constituintes verbais e preposicionais com coordenação interna. Apesar de estar em curso a elaboração de um analisador lexical para o PM, e de os dados morfológicos relevantes terem já sido recolhidos e estarem a ser objecto de tratamento, os resultados não estavam ainda devidamente implementados, nesta fase, para poderem ser integrados. No entanto, a comparação dos resultados das experiências revelou já resultados interessantes, apesar de em alguns casos a granularidade ter aumentado. É o que podemos ver pela análise dos seguintes exemplos, cuja única diferença reside no tratamento diferenciado da vírgula que, encontrando-se entre parênteses curvos em (ib) é ignorada pelo analisador sintáctico e, assim, impede a análise em sns coordenados que se verifica na aplicação a (ia): (i) a. Aras Dias , filo de Diago La'á b. Aras Dias ((,)) filo de Diago La'á - Análise sintáctica de (ia): < Aras Diaz, filo de Diago La'á > [sn (name(det([ ]),[Aras, Diaz]), [ ]),[ ]),sn(núcleo(det([ ]), [ ],filo,[ ),[sp(de,[sn(name(det([ ]), [Diago La´á])] A análise mostra que a sequência (ia) 'Aras Diaz, filo de Diago La'a´' foi identificada como um constituinte, um sn, ao passo que a sequência (ib) foi analisada como dois sns independentes, não tendo o analisador conseguido associar 'Aras Diaz' ao aposto 'filo de Diago La'a´': - Análise sintáctica de (ib): < Aras Diaz > *** < filo de Diago La'á > [sn (name(det([ ])),[Aras, Diaz])] *** *** [sn(núcleo(det([ ])),filo),[sp(de,[sn(name(det([ ])),[Diago, La'á])])]] Acontece que a associação dos dois sns feita na primeira análise assentou num erro - o de considerar que se tratava de dois sns coordenados, com base na etiqueta _C da vírgula que os ligava, enquanto a segunda análise é estruturalmente preferível e aponta para a necessidade de tratar as adjunções. Assim, nesta fase, maior granularidade não é, necessariamente, um defeito. Em contrapartida, a coordenação de sps e svs (ou verbos) foi, efectivamente, conseguida, como se pode ver num segundo exemplo: (ii) este scripto uire~ y oyre~ - Análise sintáctica de (ii): <este scripto uire~ y oyre~> [f[sn(núcleo(det(este)),scripto)],verbo([uire~,oyre~],activa)] Nas primeiras análises, a sequência ‘este scripto uire~ y oyre~’ que foi identificada como uma frase constituída por um sn – interpretado como sujeito – e um sv, é agora distribuída por dois arcos. O aumento da granularidade corresponde, efectivamente, à integração de informação morfológica que revela que ‘este scripto’ não pode ser sujeito de ‘uire~ y oyre~’ devido à incompatibilidade de traços de número (Rocio et al. 1999). Falta, naturalmente, desenvolver a gramática por forma a que o sn e/ou o sp à esquerda de um verbo possam ser interpretados como complementos por ele seleccionados, trabalho que envolverá também o registo no léxico dos traços de subcategorização dos predicados lexicais. Extracção automática de unidades multipalavra ou expressões relevantes Neste momento, a equipa de informáticos da FCT está a trabalhar no sentido do aperfeiçoamento do conhecimento lexical, preparando ferramentas que permitam facilitar a elaboração de índices, glossários, terminologias e dicionários (históricos). Algumas experiências apontam, também aqui, para resultados animadores (Silva et al. 1999) como podemos constatar pelo seguinte exemplo de extracção automática de expressões relevantes (estatisticamente) – unidades multi-palavra – da Crónica Geral de Espanha:
É interessante observar que o bom funcionamento tanto do sistema computacional que está a ser desenvolvido para a análise de línguas naturais como do sistema mental dos falantes de qualquer língua implica a existência de um léxico que contém as palavras com as respectivas flexões e também algumas categorias vazias. Na realidade, o que se espera é que em ambas as situações estes dois módulos - a rede neuronal e o léxico - vão sendo desenvolvidos progressivamente até se atingir a maturação prevista. Referências bibliográficas J. Allen, Natural Language Understanding. The Benjamin/Cummings Pu. Co., Inc. 1987. Ana Castro, "Sintagmas Nominais e Subida de N. Estudo Comparativo do Italiano, Português Europeu Contemporâneo e Português Antigo", Actas do XIV Encontro da Associação Portuguesa de Linguística (Aveiro, 1998). (No prelo). Maria Alexandra Fiéis, Clíticos num Corpus do Português Medieval, Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, 1996. (Dissertação de Mestrado). José Pires de Lima, "Caminhos Semântico-Pragmáticos da Gramaticalização: o Caso de ‘Embora’", Sentido que a Vida Faz. Estudos para Óscar Lopes. Porto, Campo das Letras, 1998, p. 643-655. Nunes Marques e José Gabriel Lopes, "Interface para um Etiquetador Morfo-sintáctico baseado em Redes Neuronais", Actas do Workshop Taggers para o Português (Lisboa, ILTEC, 1997). (No prelo). Nuno Marques e José Gabriel Lopes, "Using Neural Nets for Portuguese Part-of-Speech Tagging", Proceedings of the 5th International Conference on the Cognitive Science of Natural Language Processing, Dublin, Dublin City University, 1966a. Nuno Marques e José Gabriel Lopes, "Using Neural Network Approach to Part-of-Speech Tagging", Actas do II Encontro para o Processamento de Português Escrito e Falado. Curitiba, 1996b. Carlos Rocha, "A Distribuição de Conhecer num Corpus de Português Medieval", Actas do XIV Encontro da Associação Portuguesa de Linguística (Aveiro, 1998). (No prelo). Vítor Rocio e José Gabriel Lopes, A Layered Approach to Robust Syntactic Parsing, FCT-UNL, 1998. (Policopiado). Vítor Rocio, Mário Alves, José Gabriel Lopes, Maria Francisca Xavier e Graça Vicente, "Automated Creation of a Partially Annotated Corpus of Medieval Portuguese Using Contemporary Portuguese Resources", Corpus Annotés pour la Syntax (A. Abeille, org.), Paris, Atala, 1999. (No prelo). Augusto Soares Silva, A Semântica de Deixar. Uma Contribuição para a Abordagem Cognitiva em Semântica Lexical, Braga, Universidade Católica, 1997. (Dissertação de Doutoramento). Joaquim Ferreira da Silva, José Gabriel Lopes, Maria Francisca Xavier e Graça Vicente, "Relevant Expressions in Large Corpora", Paris, Atala, 1999. (No prelo). Maria Cristina Silva, "Entre o Latim Medieval e o Português Medieval: a Complementação Infinitiva", Actas do XIV Encontro da Associação Portuguesa de Linguística (Aveiro, 1998). (No prelo). Maria Francisca Xavier, Graça Vicente, Maria de Lourdes Crispim, Dicionário de Verbos do Século 13. Lisboa, Linha de Investigação 1, Centro de Linguística–FCSH, UNL, 1999. Maria Francisca Xavier, Graça Vicente, Maria Cristina Silva 1997, "Aplicações de um Etiquetador Morfossintáctico a Textos Portugueses Medievais", Actas do Workshop Taggers para o Português (Lisboa, ILTEC, 1997). (No prelo). Referências dos textos do cipm Maria Teresa Brocardo, Crónica do Conde D. Pedro de Menezes. Gomes Eanes de Zurara. Edição e Estudo, Lisboa, Fundação Calouste Gulbenkian/Junta Nacional de Investigação Científica, 1997. Luís Filipe Lindley Cintra, "Sobre o mais Antigo Texto Não-literário Português: a 'Noticia de Torto'. Leitura Crítica, Data, Lugar de Redacção e Comentário Linguístico", Boletim de Filologia. 31, (Lisboa, 1990) 21-37. Avelino Jesus da Costa, "Os mais Antigos Documentos Escritos em Português. Revisão de um Problema Histórico-Linguístico", Revista Portuguesa de História 17, (Coimbra, 1979) 263-340. Maria de Lourdes Crispim, Christine de Pizan. O Livro das Tres Vertudes ou O Espelho de Cristina. Edição Crítica da Tradução Quatrocentista de Le Livre des Trois Vertus e Estudo Linguístico de algumas Construções Nominais da Versão Manuscrita, Lisboa, Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, 1995. (Dissertação de Doutoramento). João Alves Dias, Chancelaria de D. Duarte, Lisboa, Centro de Estudos Históricos da UNL, 1999, vol. I, tomos I e II. Luiz Fagundes Duarte, Os documentos em Português da Chancelaria de D. Afonso III. Edição, Faculdade de Letras da Universidade de Lisboa, 1986. (Dissertação de Mestrado). José de Azevedo Ferreira, "Edição e Estudo Linguístico dos 'Tempos dos Preitos", Jacobo de Junta. Summa de los Nueve Tiempos de los Pleitos. Edition et Etude d'une Variation sur un Thème, (J. Roudil,), Paris, Klincksieck, 1986. José de Azevedo Ferreira, Afonso X. Foro Real. Edição, Estudo Linguístico e Glossário, Lisboa, INIC, 1987, vol. 1. Maria Helena Gravão, Foros de Garvão. Edição e Estudo Linguístico, Faculdade de Letras da Universidade de Lisboa, 1992. (Dissertação de Mestrado). Alexandre Herculano (dir.), Portugali³ Monumenta Historica a S³ culo Octavo post Christum usque ad Quintum Decimum – Diplomata et Chart³ , Lisboa, Academia Portuguesa de História, 1867-1873. Aida P. Sampaio de Lemos, Primeira Partida de Afonso X – Glossário. Contributos para o Estudo Linguístico, Universidade do Minho, 1997. (Dissertação de Mestrado). Clarinda Azevedo Maia, História do Galego-Português. Estudo Linguístico da Galiza e do Noroeste de Portugal do Século XIII ao Século XVI, Coimbra, INIC, 1986. Bertil Maler, Orto do Esposo. Rio de Janeiro, Instituto Nacional do Livro, 1965. Ana Maria Martins, Clíticos na História do Português. Apêndice Documental, Lisboa, Faculdade de Letras da Universidade de Lisboa, 1984, vol. 2. (Dissertação de Doutoramento). João Aantónio Neto, Duas Leituras do Tratado Ascético-Místico Castelo Perigoso, Universidade de S. Paulo, 1997. (Dissertação de Doutoramento). José Maria Piel, Leal Conselheiro o qual Fez Dom Eduarte Rey de Portugal e do Algarve e Senhor de Cepta. Lisboa, Livraria Bertrand, 1942. José Maria Piel, Livro da Ensinança de Bem Cavalgar Toda Sela que Fez El-Rey Dom Eduarte. Lisboa, Imprensa Nacional-Casa da Moeda, 1986.
Nota 1. O CIPM tem sido desenvolvido no âmbito de projectos de investigação dirigidos por Maria Francisca Xavier e financiados pela JNICT/FCT (Projecto PCSM/C/LIN/778/95 e Projecto PRAXIS XXi 2/2.1/CSH/778/95). |