Atribución de autoría mediante clasificación automática en corpus multicontexto.
Palabras clave:
Atribución de autoría, Aprendizaje automático, Corpus multicontexto, Clasificación automática de textosResumen
Los estudios de atribución de autoría han implementado diversas técnicas de inteligencia artificial y métodos de procesamiento del lenguaje natural para obtener el estilo de escritura de un autor y así poder determinar la atribución de autoría de obras literarias, estudios científicos, notas periodísticas, revistas, blog, entre otros [1][2][3]. Sin embargo, aunque las técnicas aplicadas a esta tarea han sido diversas, todos los estudios tienen algo en común: el corpus, la revisión de la literatura muestra que han utilizado corpus de un solo contexto, es decir, conformados por noticias, tweets, correos electrónicos, o textos de foros, entre otros. De lo anterior, se puede observar que un área de oportunidad en la tarea de atribución de autoría es el uso de corpus multicontexto, en la presente investigación se desarrolla un corpus multicontexto y un sistema de clasificación automática de textos, utilizando como método de aprendizaje supervisado máquina de soporte vectorial y regresión logística. Se analizaron diferentes contextos como Blogs, Periódicos y Twitter los cuales forman parte de los contenidos corpus, se presentaron diversos resultados, el más significativo supera el 70% de exactitud. Los resultados obtenidos en la presente investigación demuestran que es posible determinar la atribución de autoría con diferente contexto siendo esta un área de oportunidad en la tarea de atribución de autoría.