Autorenschaftszuweisung im Zeitalter von LLMs: Probleme, Methodologien und Herausforderungen
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges
August 16, 2024
Autoren: Baixiang Huang, Canyu Chen, Kai Shu
cs.AI
Zusammenfassung
Die genaue Zuordnung der Autorschaft ist entscheidend, um die Integrität digitaler Inhalte zu wahren, forensische Untersuchungen zu verbessern und die Risiken von Fehlinformationen und Plagiaten zu mindern. Die Bewältigung des dringenden Bedarfs an angemessener Autorschaftszuordnung ist entscheidend, um die Glaubwürdigkeit und Verantwortlichkeit der authentischen Autorschaft aufrechtzuerhalten. Die raschen Fortschritte von Large Language Models (LLMs) haben die Grenzen zwischen menschlicher und maschineller Autorschaft verwischt und stellen traditionelle Methoden vor erhebliche Herausforderungen. Wir präsentieren eine umfassende Literaturübersicht, die die neuesten Forschungen zur Autorschaftszuordnung im Zeitalter von LLMs untersucht. Diese Umfrage erkundet systematisch die Landschaft dieses Feldes, indem sie vier repräsentative Probleme kategorisiert: (1) Autorschaftszuordnung von menschlich verfassten Texten; (2) Erkennung von von LLMs generierten Texten; (3) Autorschaftszuordnung von von LLMs generierten Texten; und (4) Autorschaftszuordnung von gemeinsam von Mensch und LLM verfassten Texten. Wir diskutieren auch die Herausforderungen im Zusammenhang mit der Gewährleistung der Verallgemeinerung und Erklärbarkeit von Autorschaftszuordnungsmethoden. Verallgemeinerung erfordert die Fähigkeit, über verschiedene Domänen hinweg zu generalisieren, während Erklärbarkeit darauf abzielt, transparente und verständliche Einblicke in die Entscheidungen dieser Modelle zu bieten. Durch die Bewertung der Stärken und Grenzen bestehender Methoden und Benchmarks identifizieren wir zentrale offene Probleme und zukünftige Forschungsrichtungen in diesem Bereich. Diese Literaturübersicht dient als Leitfaden für Forscher und Praktiker, die sich für den Stand der Technik in diesem schnelllebigen Bereich interessieren. Zusätzliche Ressourcen und eine kuratierte Liste von Papieren sind verfügbar und werden regelmäßig aktualisiert unter https://llm-authorship.github.io.
English
Accurate attribution of authorship is crucial for maintaining the integrity
of digital content, improving forensic investigations, and mitigating the risks
of misinformation and plagiarism. Addressing the imperative need for proper
authorship attribution is essential to uphold the credibility and
accountability of authentic authorship. The rapid advancements of Large
Language Models (LLMs) have blurred the lines between human and machine
authorship, posing significant challenges for traditional methods. We presents
a comprehensive literature review that examines the latest research on
authorship attribution in the era of LLMs. This survey systematically explores
the landscape of this field by categorizing four representative problems: (1)
Human-written Text Attribution; (2) LLM-generated Text Detection; (3)
LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution.
We also discuss the challenges related to ensuring the generalization and
explainability of authorship attribution methods. Generalization requires the
ability to generalize across various domains, while explainability emphasizes
providing transparent and understandable insights into the decisions made by
these models. By evaluating the strengths and limitations of existing methods
and benchmarks, we identify key open problems and future research directions in
this field. This literature review serves a roadmap for researchers and
practitioners interested in understanding the state of the art in this rapidly
evolving field. Additional resources and a curated list of papers are available
and regularly updated at https://llm-authorship.github.ioSummary
AI-Generated Summary