Frankentext: Costurando fragmentos de texto aleatórios em narrativas de longa duração
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Autores: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Resumo
Apresentamos os Frankentexts, um novo tipo de narrativa longa produzida por LLMs sob a extrema restrição de que a maioria dos tokens (por exemplo, 90%) deve ser copiada literalmente de escritos humanos. Essa tarefa representa um teste desafiador de geração controlada, exigindo que os modelos atendam a um prompt de escrita, integrem fragmentos de texto díspares e ainda produzam uma narrativa coerente. Para gerar Frankentexts, instruímos o modelo a produzir um rascunho selecionando e combinando passagens escritas por humanos, e então revisamos iterativamente o rascunho enquanto mantemos uma proporção de cópia especificada pelo usuário. Avaliamos os Frankentexts resultantes em três eixos: qualidade da escrita, aderência às instruções e detectabilidade. O Gemini-2.5-Pro se sai surpreendentemente bem nessa tarefa: 81% de seus Frankentexts são coerentes e 100% relevantes ao prompt. Notavelmente, até 59% dessas saídas são erroneamente classificadas como escritas por humanos por detectores como o Pangram, revelando limitações nos detectores de texto de IA. Anotadores humanos podem, às vezes, identificar Frankentexts por meio de suas mudanças abruptas de tom e gramática inconsistente entre segmentos, especialmente em gerações mais longas. Além de apresentar uma tarefa de geração desafiadora, os Frankentexts convidam à discussão sobre a construção de detectores eficazes para essa nova zona cinzenta de autoria, fornecem dados de treinamento para detecção de autoria mista e servem como um ambiente de testes para estudar processos de coescrita humano-IA.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.