O Corpus de Português Escrito em Periódicos - CoPEP

Authors

  • Tanara Zingano Kuhn Centro de Estudos de Linguística Geral e Aplicada (CELGA-ILTEC), Universidade de Coimbra
  • José Pedro Ferreira Centro de Estudos de Linguística Geral e Aplicada (CELGA-ILTEC), Universidade de Coimbra

Keywords:

corpus multivariedade, compilação de corpus, discurso acadêmico, língua portuguesa

Abstract

O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase fi nal de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

Published

2021-02-08

How to Cite

Kuhn, T. Z., & Ferreira, J. P. (2021). O Corpus de Português Escrito em Periódicos - CoPEP. DELTA: Documentação E Estudos Em Linguística Teórica E Aplicada, 36(2). Retrieved from https://revistas-anterior.pucsp.br/index.php/delta/article/view/52552

Issue

Section

Articles