Frankentext: Het aan elkaar naaien van willekeurige tekstfragmenten tot langere verhalen
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Auteurs: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Samenvatting
We introduceren Frankenteksten, een nieuw type langere verhalen geproduceerd door
LLM's onder de extreme beperking dat de meeste tokens (bijvoorbeeld 90%) letterlijk
moeten worden gekopieerd uit menselijke geschriften. Deze taak vormt een uitdagende
test voor beheersbare tekstgeneratie, waarbij modellen een schrijfprompt moeten
volgen, uiteenlopende tekstfragmenten moeten integreren en toch een coherent verhaal
moeten produceren. Om Frankenteksten te genereren, instrueren we het model om een
concept te maken door menselijke tekstpassages te selecteren en te combineren, en
vervolgens het concept iteratief te reviseren terwijl een door de gebruiker
gespecificeerde kopieerratio wordt aangehouden. We evalueren de resulterende
Frankenteksten langs drie assen: schrijfkwaliteit, naleving van instructies en
detecteerbaarheid. Gemini-2.5-Pro presteert verrassend goed bij deze taak: 81% van
zijn Frankenteksten is coherent en 100% relevant voor de prompt. Opmerkelijk is dat
tot 59% van deze uitvoer verkeerd wordt geclassificeerd als menselijk geschreven door
detectors zoals Pangram, wat beperkingen in AI-tekstdetectors aan het licht brengt.
Menselijke annotatoren kunnen Frankenteksten soms identificeren door abrupte
toonwisselingen en inconsistente grammatica tussen segmenten, vooral bij langere
generaties. Naast het presenteren van een uitdagende generatietaak, nodigen
Frankenteksten uit tot discussie over het bouwen van effectieve detectors voor deze
nieuwe grijze zone van auteurschap, bieden ze trainingsdata voor detectie van gemengd
auteurschap en dienen ze als een sandbox voor het bestuderen van mens-AI
samenwerkingsprocessen bij het schrijven.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.