Frankentext: Uniendo fragmentos de texto aleatorios en narrativas de largo formato
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Autores: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Resumen
Introducimos los Frankentextos, un nuevo tipo de narrativa extensa generada por LLMs bajo la extrema restricción de que la mayoría de los tokens (por ejemplo, el 90%) deben copiarse textualmente de escritos humanos. Esta tarea representa un desafío complejo para la generación controlada, ya que requiere que los modelos satisfagan una consigna de escritura, integren fragmentos de texto dispares y, aun así, produzcan una narrativa coherente. Para generar Frankentextos, instruimos al modelo a producir un borrador seleccionando y combinando pasajes escritos por humanos, y luego revisamos iterativamente el borrador mientras mantenemos una proporción de copia especificada por el usuario. Evaluamos los Frankentextos resultantes en tres ejes: calidad de escritura, adherencia a las instrucciones y detectabilidad. Gemini-2.5-Pro se desempeña sorprendentemente bien en esta tarea: el 81% de sus Frankentextos son coherentes y el 100% relevantes para la consigna. Notablemente, hasta el 59% de estas salidas son mal clasificadas como escritas por humanos por detectores como Pangram, lo que revela limitaciones en los detectores de texto generado por IA. Los anotadores humanos pueden identificar a veces los Frankentextos a través de sus cambios abruptos de tono y gramática inconsistente entre segmentos, especialmente en generaciones más largas. Más allá de presentar una tarea de generación desafiante, los Frankentextos invitan a la discusión sobre la construcción de detectores efectivos para esta nueva zona gris de autoría, proporcionan datos de entrenamiento para la detección de autoría mixta y sirven como un entorno de pruebas para estudiar los procesos de co-escritura humano-IA.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.