Atribución de autoría en la era de los LLM: Problemas, Metodologías y Desafíos
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges
August 16, 2024
Autores: Baixiang Huang, Canyu Chen, Kai Shu
cs.AI
Resumen
La atribución precisa de la autoría es crucial para mantener la integridad del contenido digital, mejorar las investigaciones forenses y mitigar los riesgos de desinformación y plagio. Abordar la necesidad imperativa de una adecuada atribución de la autoría es esencial para mantener la credibilidad y responsabilidad de la autenticidad de la autoría. Los avances rápidos de los Modelos de Lenguaje Extensos (MLE) han difuminado las líneas entre la autoría humana y la automática, planteando desafíos significativos para los métodos tradicionales. Presentamos una revisión exhaustiva de la literatura que examina las últimas investigaciones sobre atribución de autoría en la era de los MLE. Esta encuesta explora sistemáticamente el panorama de este campo al categorizar cuatro problemas representativos: (1) Atribución de Texto Escrito por Humanos; (2) Detección de Texto Generado por MLE; (3) Atribución de Texto Generado por MLE; y (4) Atribución de Texto Coescrito por Humano y MLE. También discutimos los desafíos relacionados con garantizar la generalización y explicabilidad de los métodos de atribución de autoría. La generalización requiere la capacidad de generalizar a través de diversos dominios, mientras que la explicabilidad enfatiza proporcionar información transparente y comprensible sobre las decisiones tomadas por estos modelos. Al evaluar las fortalezas y limitaciones de los métodos y referencias existentes, identificamos problemas abiertos clave y futuras direcciones de investigación en este campo. Esta revisión de la literatura sirve como una hoja de ruta para investigadores y profesionales interesados en comprender el estado del arte en este campo en constante evolución. Recursos adicionales y una lista seleccionada de artículos están disponibles y se actualizan regularmente en https://llm-authorship.github.io.
English
Accurate attribution of authorship is crucial for maintaining the integrity
of digital content, improving forensic investigations, and mitigating the risks
of misinformation and plagiarism. Addressing the imperative need for proper
authorship attribution is essential to uphold the credibility and
accountability of authentic authorship. The rapid advancements of Large
Language Models (LLMs) have blurred the lines between human and machine
authorship, posing significant challenges for traditional methods. We presents
a comprehensive literature review that examines the latest research on
authorship attribution in the era of LLMs. This survey systematically explores
the landscape of this field by categorizing four representative problems: (1)
Human-written Text Attribution; (2) LLM-generated Text Detection; (3)
LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution.
We also discuss the challenges related to ensuring the generalization and
explainability of authorship attribution methods. Generalization requires the
ability to generalize across various domains, while explainability emphasizes
providing transparent and understandable insights into the decisions made by
these models. By evaluating the strengths and limitations of existing methods
and benchmarks, we identify key open problems and future research directions in
this field. This literature review serves a roadmap for researchers and
practitioners interested in understanding the state of the art in this rapidly
evolving field. Additional resources and a curated list of papers are available
and regularly updated at https://llm-authorship.github.ioSummary
AI-Generated Summary