Frankentext : Assemblage de fragments textuels aléatoires en récits de longue haleine
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Auteurs: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Résumé
Nous introduisons les Frankentextes, un nouveau type de récits longs produits par des modèles de langage (LLMs) sous la contrainte extrême que la plupart des tokens (par exemple, 90 %) doivent être copiés textuellement à partir d'écrits humains. Cette tâche constitue un test exigeant de génération contrôlée, nécessitant que les modèles satisfassent une consigne d'écriture, intègrent des fragments de texte disparates, et produisent tout de même un récit cohérent. Pour générer des Frankentextes, nous demandons au modèle de produire une ébauche en sélectionnant et en combinant des passages écrits par des humains, puis de réviser itérativement cette ébauche tout en maintenant un ratio de copie spécifié par l'utilisateur. Nous évaluons les Frankentextes résultants selon trois axes : la qualité de l'écriture, l'adhésion aux instructions, et la détectabilité. Gemini-2.5-Pro se montre étonnamment performant dans cette tâche : 81 % de ses Frankentextes sont cohérents et 100 % pertinents par rapport à la consigne. Fait notable, jusqu'à 59 % de ces productions sont mal classées comme étant écrites par des humains par des détecteurs comme Pangram, révélant ainsi les limites des détecteurs de texte IA. Les annotateurs humains peuvent parfois identifier les Frankentextes grâce à leurs changements de ton abrupts et à leur grammaire incohérente entre les segments, en particulier dans les générations plus longues. Au-delà de la présentation d'une tâche de génération complexe, les Frankentextes ouvrent la discussion sur la construction de détecteurs efficaces pour cette nouvelle zone grise de paternité, fournissent des données d'entraînement pour la détection de paternité mixte, et servent de terrain d'étude pour les processus de co-écriture humain-IA.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.