ChatPaper.aiChatPaper

Wikipedia en la Era de los LLM: Evolución y Riesgos

Wikipedia in the Era of LLMs: Evolution and Risks

March 4, 2025
Autores: Siming Huang, Yuliang Xu, Mingmeng Geng, Yao Wan, Dongping Chen
cs.AI

Resumen

En este artículo, presentamos un análisis exhaustivo del impacto de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en Wikipedia, examinando la evolución de Wikipedia a través de datos existentes y utilizando simulaciones para explorar riesgos potenciales. Comenzamos analizando las visualizaciones de páginas y el contenido de los artículos para estudiar los cambios recientes en Wikipedia y evaluar el impacto de los LLMs. Posteriormente, evaluamos cómo los LLMs afectan diversas tareas de Procesamiento del Lenguaje Natural (NLP) relacionadas con Wikipedia, incluyendo la traducción automática y la generación aumentada por recuperación (RAG, por sus siglas en inglés). Nuestros hallazgos y resultados de simulación revelan que los artículos de Wikipedia han sido influenciados por los LLMs, con un impacto de aproximadamente 1%-2% en ciertas categorías. Si el punto de referencia de traducción automática basado en Wikipedia se ve influenciado por los LLMs, las puntuaciones de los modelos podrían inflarse y los resultados comparativos entre modelos podrían cambiar también. Además, la efectividad de RAG podría disminuir si la base de conocimiento se contamina con contenido generado por LLMs. Aunque los LLMs aún no han cambiado completamente las estructuras lingüísticas y de conocimiento de Wikipedia, creemos que nuestros hallazgos empíricos señalan la necesidad de considerar cuidadosamente los riesgos potenciales en el futuro.
English
In this paper, we present a thorough analysis of the impact of Large Language Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through existing data and using simulations to explore potential risks. We begin by analyzing page views and article content to study Wikipedia's recent changes and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect various Natural Language Processing (NLP) tasks related to Wikipedia, including machine translation and retrieval-augmented generation (RAG). Our findings and simulation results reveal that Wikipedia articles have been influenced by LLMs, with an impact of approximately 1%-2% in certain categories. If the machine translation benchmark based on Wikipedia is influenced by LLMs, the scores of the models may become inflated, and the comparative results among models might shift as well. Moreover, the effectiveness of RAG might decrease if the knowledge base becomes polluted by LLM-generated content. While LLMs have not yet fully changed Wikipedia's language and knowledge structures, we believe that our empirical findings signal the need for careful consideration of potential future risks.

Summary

AI-Generated Summary

PDF222March 5, 2025