Атрибуция авторства в эпоху LLM: Проблемы, методологии и вызовы
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges
August 16, 2024
Авторы: Baixiang Huang, Canyu Chen, Kai Shu
cs.AI
Аннотация
Точное определение авторства является ключевым для поддержания целостности цифрового контента, улучшения судебных расследований и смягчения рисков дезинформации и плагиата. Решение неотложной потребности в правильном определении авторства существенно для поддержания доверия и ответственности за подлинное авторство. Быстрое развитие крупных языковых моделей (LLM) размыло границы между человеческим и машинным авторством, ставя перед традиционными методами значительные вызовы. Мы представляем обширный обзор литературы, который исследует последние исследования по определению авторства в эпоху LLM. Этот обзор систематически исследует ландшафт этой области, категоризируя четыре представительных проблемы: (1) Определение текста, написанного человеком; (2) Обнаружение текста, созданного LLM; (3) Определение текста, созданного LLM; и (4) Определение текста, написанного совместно человеком и LLM. Мы также обсуждаем вызовы, связанные с обеспечением обобщения и объяснимости методов определения авторства. Обобщение требует способности обобщения по различным областям, в то время как объяснимость подчеркивает предоставление прозрачных и понятных идей о решениях, принятых этими моделями. Оценивая сильные и слабые стороны существующих методов и бенчмарков, мы выявляем ключевые открытые проблемы и направления для будущих исследований в этой области. Этот обзор литературы служит картой пути для исследователей и практиков, заинтересованных в понимании передовых достижений в этой быстро развивающейся области. Дополнительные ресурсы и отобранный список статей доступны и регулярно обновляются на https://llm-authorship.github.io
English
Accurate attribution of authorship is crucial for maintaining the integrity
of digital content, improving forensic investigations, and mitigating the risks
of misinformation and plagiarism. Addressing the imperative need for proper
authorship attribution is essential to uphold the credibility and
accountability of authentic authorship. The rapid advancements of Large
Language Models (LLMs) have blurred the lines between human and machine
authorship, posing significant challenges for traditional methods. We presents
a comprehensive literature review that examines the latest research on
authorship attribution in the era of LLMs. This survey systematically explores
the landscape of this field by categorizing four representative problems: (1)
Human-written Text Attribution; (2) LLM-generated Text Detection; (3)
LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution.
We also discuss the challenges related to ensuring the generalization and
explainability of authorship attribution methods. Generalization requires the
ability to generalize across various domains, while explainability emphasizes
providing transparent and understandable insights into the decisions made by
these models. By evaluating the strengths and limitations of existing methods
and benchmarks, we identify key open problems and future research directions in
this field. This literature review serves a roadmap for researchers and
practitioners interested in understanding the state of the art in this rapidly
evolving field. Additional resources and a curated list of papers are available
and regularly updated at https://llm-authorship.github.ioSummary
AI-Generated Summary