Incorporan 21 millones de nuevas formas ortográficas al Español

Imprimir
Inicio desactivadoInicio desactivadoInicio desactivadoInicio desactivadoInicio desactivado
 
Valoración:
( 0 Rating )
*Roberto Pérez Betancourt.

La Real Academia Española (RAE), en colaboración con la Asociación de Academias de la Lengua Española (Asale), ha presentado una nueva actualización del Corpus del Español del Siglo XXI (Corpes XXI) con la incorporación de más de 21 millones de nuevas formas ortográficas, en relación con la versión anterior, publicada en mayo de 2020.

Refiere el sitio web de la RAE que la más reciente versión de la herramienta, la 0.93, cuenta con más de 316 000 documentos, que suman algo más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales.

NOVEDADES DE LA VERSIÓN 0.93

Precisa la fuente que más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, youtube, etc.), y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del video, de acuerdo con la procedencia del texto fuente.

En bloques de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas de Corpes sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología…) se acercan a los 238 millones.

Los textos procedentes de libros suponen casi 166 millones de formas; las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea, aclara la nota informativa de la RAE.

El equilibrio previsto entre España y América (30 %-70 %) se mantiene: las formas correspondientes a textos generados en España suponen algo más del 30 % y los de América superan los 217 millones de formas. Además, el CORPES contiene textos procedentes de Filipinas y Guinea Ecuatoria, precisa la fuente. 

HERRAMIENTA FUNDAMENTAL DE LA LINGÜÍSTICA

En su nota de prensa, la RAE precisa: “El Corpus del Español del Siglo XXI (Corpes XXI) es, al igual que el CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

“Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.” (TVY)(24/02/21)