Frankentext: Cucire frammenti di testo casuali in narrazioni di lunga durata

Abstract

Introduciamo i Frankentexts, un nuovo tipo di narrazioni lunghe prodotte da LLM sotto il vincolo estremo che la maggior parte dei token (ad esempio, il 90%) debba essere copiata letteralmente da scritti umani. Questo compito rappresenta una prova impegnativa per la generazione controllata, richiedendo ai modelli di soddisfare un prompt di scrittura, integrare frammenti di testo disparati e produrre comunque una narrazione coerente. Per generare i Frankentexts, istruiamo il modello a produrre una bozza selezionando e combinando passaggi scritti da esseri umani, per poi revisionare iterativamente la bozza mantenendo un rapporto di copia specificato dall'utente. Valutiamo i Frankentexts risultanti lungo tre assi: qualità della scrittura, aderenza alle istruzioni e rilevabilità. Gemini-2.5-Pro si comporta sorprendentemente bene in questo compito: l'81% dei suoi Frankentexts è coerente e il 100% rilevante rispetto al prompt. È degno di nota che fino al 59% di questi output venga erroneamente classificato come scritto da esseri umani da rilevatori come Pangram, rivelando limitazioni nei rilevatori di testo AI. Gli annotatori umani possono talvolta identificare i Frankentexts attraverso i loro bruschi cambi di tono e la grammatica incoerente tra i segmenti, specialmente nelle generazioni più lunghe. Oltre a presentare un compito di generazione impegnativo, i Frankentexts invitano a discutere sulla costruzione di rilevatori efficaci per questa nuova zona grigia di paternità, forniscono dati di addestramento per il rilevamento di paternità mista e fungono da sandbox per studiare i processi di co-scrittura uomo-AI.

English

We introduce Frankentexts, a new type of long-form narratives produced by LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied verbatim from human writings. This task presents a challenging test of controllable generation, requiring models to satisfy a writing prompt, integrate disparate text fragments, and still produce a coherent narrative. To generate Frankentexts, we instruct the model to produce a draft by selecting and combining human-written passages, then iteratively revise the draft while maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts along three axes: writing quality, instruction adherence, and detectability. Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts are coherent and 100% relevant to the prompt. Notably, up to 59% of these outputs are misclassified as human-written by detectors like Pangram, revealing limitations in AI text detectors. Human annotators can sometimes identify Frankentexts through their abrupt tone shifts and inconsistent grammar between segments, especially in longer generations. Beyond presenting a challenging generation task, Frankentexts invite discussion on building effective detectors for this new grey zone of authorship, provide training data for mixed authorship detection, and serve as a sandbox for studying human-AI co-writing processes.

Frankentext: Cucire frammenti di testo casuali in narrazioni di lunga durata

Frankentext: Stitching random text fragments into long-form narratives

Abstract

Support