Исследование скрытых возможностей языковых моделей для одношаговой генерации текста

Аннотация

Недавнее исследование показало, что крупные языковые модели (LLM) способны восстанавливать удивительно длинные тексты — до тысяч токенов — с помощью авторегрессивной генерации всего из одного специально обученного входного эмбеддинга. В данной работе мы исследуем, возможно ли такое восстановление без использования авторегрессии. Мы демонстрируем, что замороженные LLM могут генерировать сотни точных токенов всего за один прямой проход, когда им предоставляются только два обученных эмбеддинга. Это раскрывает удивительную и малоизученную способность LLM — генерацию множества токенов без итеративного декодирования. Мы исследуем поведение этих эмбеддингов и даем представление о типе информации, которую они кодируют. Также мы эмпирически показываем, что, хотя эти представления не являются уникальными для заданного текста, они образуют связанные и локальные области в пространстве эмбеддингов — свойство, которое указывает на потенциал обучения специализированного кодировщика в это пространство.

English

A recent study showed that large language models (LLMs) can reconstruct surprisingly long texts - up to thousands of tokens - via autoregressive generation from just one specially trained input embedding. In this work, we explore whether such reconstruction is possible without autoregression. We show that frozen LLMs can generate hundreds of accurate tokens in just one forward pass, when provided with only two learned embeddings. This reveals a surprising and underexplored capability of LLMs - multi-token generation without iterative decoding. We investigate the behaviour of these embeddings and provide insight into the type of information they encode. We also empirically show that although these representations are not unique for a given text, they form connected and local regions in embedding space - a property that suggests the potential of learning a dedicated encoder into that space.

Исследование скрытых возможностей языковых моделей для одношаговой генерации текста

Exploring the Latent Capacity of LLMs for One-Step Text Generation

Аннотация

Support