Франкентекст: Сшивание случайных текстовых фрагментов в длинные повествования
Frankentext: Stitching random text fragments into long-form narratives
May 23, 2025
Авторы: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer
cs.AI
Аннотация
Мы представляем Frankentexts — новый тип длинных повествований, создаваемых крупными языковыми моделями (LLM) при крайнем ограничении, согласно которому большинство токенов (например, 90%) должны быть дословно скопированы из человеческих текстов. Эта задача представляет собой сложный тест на управляемую генерацию, требующий от моделей выполнения письменного задания, интеграции разрозненных текстовых фрагментов и создания при этом связного повествования. Для генерации Frankentexts мы инструктируем модель создавать черновик, выбирая и комбинируя фрагменты, написанные человеком, а затем итеративно дорабатывать его, сохраняя заданный пользователем уровень копирования. Мы оцениваем полученные Frankentexts по трем критериям: качество текста, соблюдение инструкций и обнаруживаемость. Gemini-2.5-Pro демонстрирует удивительно хорошие результаты в этой задаче: 81% Frankentexts являются связными и 100% соответствуют заданию. Примечательно, что до 59% таких текстов ошибочно классифицируются детекторами, такими как Pangram, как написанные человеком, что выявляет ограничения современных детекторов ИИ-текстов. Человеческие аннотаторы иногда могут распознать Frankentexts по резким сменам тона и несогласованности грамматики между сегментами, особенно в более длинных текстах. Помимо представления сложной задачи генерации, Frankentexts стимулируют обсуждение создания эффективных детекторов для этой новой серой зоны авторства, предоставляют данные для обучения моделей обнаружения смешанного авторства и служат полигоном для изучения процессов совместного написания текстов человеком и ИИ.
English
We introduce Frankentexts, a new type of long-form narratives produced by
LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied
verbatim from human writings. This task presents a challenging test of
controllable generation, requiring models to satisfy a writing prompt,
integrate disparate text fragments, and still produce a coherent narrative. To
generate Frankentexts, we instruct the model to produce a draft by selecting
and combining human-written passages, then iteratively revise the draft while
maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts
along three axes: writing quality, instruction adherence, and detectability.
Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts
are coherent and 100% relevant to the prompt. Notably, up to 59% of these
outputs are misclassified as human-written by detectors like Pangram, revealing
limitations in AI text detectors. Human annotators can sometimes identify
Frankentexts through their abrupt tone shifts and inconsistent grammar between
segments, especially in longer generations. Beyond presenting a challenging
generation task, Frankentexts invite discussion on building effective detectors
for this new grey zone of authorship, provide training data for mixed
authorship detection, and serve as a sandbox for studying human-AI co-writing
processes.