Frankentext: Cucire frammenti di testo casuali in narrazioni di lunga durata
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Autori: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Abstract
Introduciamo i Frankentexts, un nuovo tipo di narrazioni lunghe prodotte da LLM sotto il vincolo estremo che la maggior parte dei token (ad esempio, il 90%) debba essere copiata letteralmente da scritti umani. Questo compito rappresenta una prova impegnativa per la generazione controllata, richiedendo ai modelli di soddisfare un prompt di scrittura, integrare frammenti di testo disparati e produrre comunque una narrazione coerente. Per generare i Frankentexts, istruiamo il modello a produrre una bozza selezionando e combinando passaggi scritti da esseri umani, per poi revisionare iterativamente la bozza mantenendo un rapporto di copia specificato dall'utente. Valutiamo i Frankentexts risultanti lungo tre assi: qualità della scrittura, aderenza alle istruzioni e rilevabilità. Gemini-2.5-Pro si comporta sorprendentemente bene in questo compito: l'81% dei suoi Frankentexts è coerente e il 100% rilevante rispetto al prompt. È degno di nota che fino al 59% di questi output venga erroneamente classificato come scritto da esseri umani da rilevatori come Pangram, rivelando limitazioni nei rilevatori di testo AI. Gli annotatori umani possono talvolta identificare i Frankentexts attraverso i loro bruschi cambi di tono e la grammatica incoerente tra i segmenti, specialmente nelle generazioni più lunghe. Oltre a presentare un compito di generazione impegnativo, i Frankentexts invitano a discutere sulla costruzione di rilevatori efficaci per questa nuova zona grigia di paternità, forniscono dati di addestramento per il rilevamento di paternità mista e fungono da sandbox per studiare i processi di co-scrittura uomo-AI.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.