Frankentext: Das Zusammenfügen zufälliger Textfragmente zu langen narrativen Formen
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Autoren: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Zusammenfassung
Wir stellen Frankentexte vor, eine neue Art von langen Erzählungen, die von LLMs unter der extremen Einschränkung erzeugt werden, dass die meisten Tokens (z. B. 90%) wortwörtlich aus menschlichen Schriften kopiert werden müssen. Diese Aufgabe stellt eine anspruchsvolle Prüfung der kontrollierbaren Generierung dar, da die Modelle einen Schreibanlass erfüllen, disparate Textfragmente integrieren und dennoch eine kohärente Erzählung produzieren müssen. Um Frankentexte zu generieren, weisen wir das Modell an, einen Entwurf durch die Auswahl und Kombination von menschlich geschriebenen Passagen zu erstellen und diesen Entwurf dann iterativ zu überarbeiten, während ein benutzerdefiniertes Kopierverhältnis beibehalten wird. Wir bewerten die resultierenden Frankentexte entlang drei Achsen: Schreibqualität, Befolgung der Anweisungen und Erkennbarkeit. Gemini-2.5-Pro schneidet bei dieser Aufgabe überraschend gut ab: 81 % seiner Frankentexte sind kohärent und 100 % relevant für den Anlass. Bemerkenswerterweise werden bis zu 59 % dieser Ausgaben von Detektoren wie Pangram fälschlicherweise als menschlich geschrieben eingestuft, was die Grenzen von KI-Textdetektoren aufzeigt. Menschliche Annotatoren können Frankentexte manchmal anhand ihrer abrupten Tonwechsel und inkonsistenten Grammatik zwischen den Segmenten identifizieren, insbesondere bei längeren Generierungen. Über die Präsentation einer herausfordernden Generierungsaufgabe hinaus laden Frankentexte zur Diskussion über den Aufbau effektiver Detektoren für diese neue Grauzone der Autorschaft ein, bieten Trainingsdaten für die Erkennung gemischter Autorschaft und dienen als Sandkasten für die Untersuchung von Mensch-KI-Co-Schreibprozessen.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.