Исследование скрытых возможностей языковых моделей для одношаговой генерации текста
Exploring the Latent Capacity of LLMs for One-Step Text Generation
May 27, 2025
Авторы: Gleb Mezentsev, Ivan Oseledets
cs.AI
Аннотация
Недавнее исследование показало, что крупные языковые модели (LLM) способны восстанавливать удивительно длинные тексты — до тысяч токенов — с помощью авторегрессивной генерации всего из одного специально обученного входного эмбеддинга. В данной работе мы исследуем, возможно ли такое восстановление без использования авторегрессии. Мы демонстрируем, что замороженные LLM могут генерировать сотни точных токенов всего за один прямой проход, когда им предоставляются только два обученных эмбеддинга. Это раскрывает удивительную и малоизученную способность LLM — генерацию множества токенов без итеративного декодирования. Мы исследуем поведение этих эмбеддингов и даем представление о типе информации, которую они кодируют. Также мы эмпирически показываем, что, хотя эти представления не являются уникальными для заданного текста, они образуют связанные и локальные области в пространстве эмбеддингов — свойство, которое указывает на потенциал обучения специализированного кодировщика в это пространство.
English
A recent study showed that large language models (LLMs) can reconstruct
surprisingly long texts - up to thousands of tokens - via autoregressive
generation from just one specially trained input embedding. In this work, we
explore whether such reconstruction is possible without autoregression. We show
that frozen LLMs can generate hundreds of accurate tokens in just one forward
pass, when provided with only two learned embeddings. This reveals a surprising
and underexplored capability of LLMs - multi-token generation without iterative
decoding. We investigate the behaviour of these embeddings and provide insight
into the type of information they encode. We also empirically show that
although these representations are not unique for a given text, they form
connected and local regions in embedding space - a property that suggests the
potential of learning a dedicated encoder into that space.Summary
AI-Generated Summary