La idea para el AbreDatos es basicamente liberar el diccionario de la RAE y construir un API sobre el mismo. Forma parte de mi ganas/plan sobre como renovar los diccionarios y adaptarlos al siglo XXI.

Hay cosas superbasicas que a dia de hoy siguen sin estar disponibles:

  • Búsquedas simples por prefijos o sufijos.
  • Acceso a todos los términos relacionados con una categoria
    semantica: e.g. química, botanica, nautica…
  • Acceso a todos los términos en base a su origen linguistico: e.g.
    árabe, euskera, ingles, frances (para una mejor visualización de las
    vinculaciones y las aportaciones de otros lenguajes al nuestro).
  • Acceso a todos los términos bajo un contexto geografico: e.g.
    acepción de una palabra en Mexico, Argentina, etc. (la RAE asocia a 22
    países y sin embargo el diccionario es imposible de acceder de manera vertical)
  • Evolución cronologica del léxico (en base a ediciones del
    diccionario pero tambien a traves de abreviaturas com “p. us.”(poco
    usado) o arcaismo que indican palabras que están en peligro de
    desaparecer).

Todo esto son cosas que ya debería tener el diccionario de por si y
que desgraciadamente no tiene. Si se construye un API sobre los datos, que permita esas consultas básicas, con su mezcla y conjunción con otros servicios se pueden generar infinitos servicios:

  • Análisis estadísticos sobre el uso del lenguaje y su evolución.
  • Discusión y propuestas de adición o supresión de artículos por los usuarios.
  • Herramientas para los Filólogos, periodistas, escritores y en
    general cualquier profesional de la palabra
  • Construcción sobre esos análisis de subdiccionarios de tamaño y
    contenido variable al vuelo (e.g. 500 primeras palabras a aprender en
    castellano, diccionario basico de castellano para ingenieros, etc…)
  • Aplicaciones de uso morfologico y semantico de textos (e.g. banear
    comentarios con un porcentaje de palabras “vulg.” (vulgarismos) por
    encima de un threshold, calculo de matchings de complejidad, afinidad y x-dad de textos, etc.)
  • Proyectos digitales artísticos que usen el lenguaje como base… o
    sea todos XD.