Attribution d'auteurs à l'ère des LLM : Problèmes, Méthodologies et Défis
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges
August 16, 2024
Auteurs: Baixiang Huang, Canyu Chen, Kai Shu
cs.AI
Résumé
L'attribution précise de la paternité d'un texte est cruciale pour préserver l'intégrité des contenus numériques, améliorer les investigations médico-légales et atténuer les risques de désinformation et de plagiat. Répondre à l'impératif d'une attribution correcte de la paternité est essentiel pour maintenir la crédibilité et la responsabilité des auteurs authentiques. Les avancées rapides des modèles de langage à grande échelle (LLMs) ont brouillé les frontières entre la paternité humaine et machine, posant des défis majeurs aux méthodes traditionnelles. Nous présentons une revue de littérature exhaustive qui examine les dernières recherches sur l'attribution de la paternité à l'ère des LLMs. Cette étude explore systématiquement le paysage de ce domaine en catégorisant quatre problèmes représentatifs : (1) l'attribution de textes écrits par des humains ; (2) la détection de textes générés par des LLMs ; (3) l'attribution de textes générés par des LLMs ; et (4) l'attribution de textes co-écrits par des humains et des LLMs. Nous discutons également des défis liés à la généralisation et à l'explicabilité des méthodes d'attribution de la paternité. La généralisation nécessite la capacité à s'adapter à divers domaines, tandis que l'explicabilité met l'accent sur la fourniture d'éclairages transparents et compréhensibles sur les décisions prises par ces modèles. En évaluant les forces et les limites des méthodes et benchmarks existants, nous identifions les principaux problèmes ouverts et les futures directions de recherche dans ce domaine. Cette revue de littérature sert de feuille de route pour les chercheurs et praticiens souhaitant comprendre l'état de l'art dans ce domaine en évolution rapide. Des ressources supplémentaires et une liste de publications soigneusement sélectionnées sont disponibles et régulièrement mises à jour à l'adresse https://llm-authorship.github.io.
English
Accurate attribution of authorship is crucial for maintaining the integrity
of digital content, improving forensic investigations, and mitigating the risks
of misinformation and plagiarism. Addressing the imperative need for proper
authorship attribution is essential to uphold the credibility and
accountability of authentic authorship. The rapid advancements of Large
Language Models (LLMs) have blurred the lines between human and machine
authorship, posing significant challenges for traditional methods. We presents
a comprehensive literature review that examines the latest research on
authorship attribution in the era of LLMs. This survey systematically explores
the landscape of this field by categorizing four representative problems: (1)
Human-written Text Attribution; (2) LLM-generated Text Detection; (3)
LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution.
We also discuss the challenges related to ensuring the generalization and
explainability of authorship attribution methods. Generalization requires the
ability to generalize across various domains, while explainability emphasizes
providing transparent and understandable insights into the decisions made by
these models. By evaluating the strengths and limitations of existing methods
and benchmarks, we identify key open problems and future research directions in
this field. This literature review serves a roadmap for researchers and
practitioners interested in understanding the state of the art in this rapidly
evolving field. Additional resources and a curated list of papers are available
and regularly updated at https://llm-authorship.github.ioSummary
AI-Generated Summary