ChatPaper.aiChatPaper

Wikipedia nell'era degli LLM: Evoluzione e Rischi

Wikipedia in the Era of LLMs: Evolution and Risks

March 4, 2025
Autori: Siming Huang, Yuliang Xu, Mingmeng Geng, Yao Wan, Dongping Chen
cs.AI

Abstract

In questo articolo, presentiamo un'analisi approfondita dell'impatto dei Large Language Models (LLM) su Wikipedia, esaminando l'evoluzione di Wikipedia attraverso dati esistenti e utilizzando simulazioni per esplorare potenziali rischi. Iniziamo analizzando le visualizzazioni delle pagine e il contenuto degli articoli per studiare i recenti cambiamenti di Wikipedia e valutare l'impatto degli LLM. Successivamente, valutiamo come gli LLM influenzino varie attività di Natural Language Processing (NLP) relative a Wikipedia, tra cui la traduzione automatica e la generazione aumentata dal recupero (RAG). I nostri risultati e le simulazioni rivelano che gli articoli di Wikipedia sono stati influenzati dagli LLM, con un impatto di circa l'1%-2% in determinate categorie. Se il benchmark di traduzione automatica basato su Wikipedia viene influenzato dagli LLM, i punteggi dei modelli potrebbero risultare gonfiati e i risultati comparativi tra i modelli potrebbero subire variazioni. Inoltre, l'efficacia della RAG potrebbe diminuire se la base di conoscenza viene contaminata da contenuti generati dagli LLM. Sebbene gli LLM non abbiano ancora completamente modificato le strutture linguistiche e di conoscenza di Wikipedia, riteniamo che i nostri risultati empirici segnalino la necessità di una considerazione attenta dei potenziali rischi futuri.
English
In this paper, we present a thorough analysis of the impact of Large Language Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through existing data and using simulations to explore potential risks. We begin by analyzing page views and article content to study Wikipedia's recent changes and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect various Natural Language Processing (NLP) tasks related to Wikipedia, including machine translation and retrieval-augmented generation (RAG). Our findings and simulation results reveal that Wikipedia articles have been influenced by LLMs, with an impact of approximately 1%-2% in certain categories. If the machine translation benchmark based on Wikipedia is influenced by LLMs, the scores of the models may become inflated, and the comparative results among models might shift as well. Moreover, the effectiveness of RAG might decrease if the knowledge base becomes polluted by LLM-generated content. While LLMs have not yet fully changed Wikipedia's language and knowledge structures, we believe that our empirical findings signal the need for careful consideration of potential future risks.

Summary

AI-Generated Summary

PDF222March 5, 2025