ANÁLISE COMPARATIVA ENTRE TÉCNICAS DE NORMALIZAÇÃO DE ERROS TEXTUAIS PROPOSITAIS NO TWITTER
Palavras-chave:
Processamento de Linguagem Natural, Redes Sociais, Correção Textual Automatizada, N-Grama, Medida de Distância de LevenshteinResumo
Durante a pandemia da COVID-19, a expansão tecnológica resultou no aumento do uso de redes sociais e comunicação à distância, onde foram evidenciados diversos benefícios e malefícios de seu uso contínuo. Neste contexto, foi observada a tendência da utilização de expressões escritas propositalmente de maneira errada como forma de comunicação. Foram-se categorizados os erros intencionais mais comuns encontrados na rede social Twitter, tais como: a troca de números por letras com a mesma fonética e a substituição do acento agudo pela letra “h”. O objetivo deste trabalho foi analisar a eficácia da correção dessas expressões utilizando as técnicas encontradas na literatura: N-Grama e Medida de Distância de Levenshtein. Após a extração de tweets e implementação das técnicas, foram realizados testes alterando os parâmetros para avaliar a eficácia. Embora os testes demonstraram acurácia de 100% para ambas as técnicas na categoria 2, foi possível concluir que a Medida de Distância de Levenshtein foi a mais adequada para corrigir erros intencionais nas diversas categorias estudadas, obtendo acurácias de 100% em diferentes parâmetros.