Attribuzione dell'autore nell'era degli LLM: Problemi, Metodologie e Sfide
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges
August 16, 2024
Autori: Baixiang Huang, Canyu Chen, Kai Shu
cs.AI
Abstract
L'attribuzione accurata della paternità è cruciale per mantenere l'integrità dei contenuti digitali, migliorare le indagini forensi e mitigare i rischi di disinformazione e plagio. Affrontare l'imperativa necessità di una corretta attribuzione della paternità è essenziale per sostenere la credibilità e la responsabilità dell'autentica paternità. I rapidi progressi dei Modelli Linguistici di Grande Scala (LLM) hanno offuscato i confini tra la paternità umana e quella delle macchine, ponendo sfide significative ai metodi tradizionali. Presentiamo una revisione completa della letteratura che esamina le ultime ricerche sull'attribuzione della paternità nell'era degli LLM. Questo studio esplora sistematicamente il panorama di questo campo categorizzando quattro problemi rappresentativi: (1) Attribuzione di Testi Scritti da Umani; (2) Rilevamento di Testi Generati da LLM; (3) Attribuzione di Testi Generati da LLM; e (4) Attribuzione di Testi Co-scritti da Umani e LLM. Discutiamo inoltre le sfide legate a garantire la generalizzazione e l'interpretabilità dei metodi di attribuzione della paternità. La generalizzazione richiede la capacità di generalizzare attraverso vari domini, mentre l'interpretabilità enfatizza la fornitura di approfondimenti trasparenti e comprensibili sulle decisioni prese da questi modelli. Valutando i punti di forza e le limitazioni dei metodi e dei benchmark esistenti, identifichiamo i principali problemi aperti e le future direzioni di ricerca in questo campo. Questa revisione della letteratura funge da roadmap per ricercatori e professionisti interessati a comprendere lo stato dell'arte in questo campo in rapida evoluzione. Risorse aggiuntive e una lista curata di articoli sono disponibili e regolarmente aggiornate su https://llm-authorship.github.io.
English
Accurate attribution of authorship is crucial for maintaining the integrity
of digital content, improving forensic investigations, and mitigating the risks
of misinformation and plagiarism. Addressing the imperative need for proper
authorship attribution is essential to uphold the credibility and
accountability of authentic authorship. The rapid advancements of Large
Language Models (LLMs) have blurred the lines between human and machine
authorship, posing significant challenges for traditional methods. We presents
a comprehensive literature review that examines the latest research on
authorship attribution in the era of LLMs. This survey systematically explores
the landscape of this field by categorizing four representative problems: (1)
Human-written Text Attribution; (2) LLM-generated Text Detection; (3)
LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution.
We also discuss the challenges related to ensuring the generalization and
explainability of authorship attribution methods. Generalization requires the
ability to generalize across various domains, while explainability emphasizes
providing transparent and understandable insights into the decisions made by
these models. By evaluating the strengths and limitations of existing methods
and benchmarks, we identify key open problems and future research directions in
this field. This literature review serves a roadmap for researchers and
practitioners interested in understanding the state of the art in this rapidly
evolving field. Additional resources and a curated list of papers are available
and regularly updated at https://llm-authorship.github.io