Explorando a Capacidade Latente de LLMs para Geração de Texto em Uma Única Etapa
Exploring the Latent Capacity of LLMs for One-Step Text Generation
May 27, 2025
Autores: Gleb Mezentsev, Ivan Oseledets
cs.AI
Resumo
Um estudo recente mostrou que modelos de linguagem de grande escala (LLMs) podem reconstruir textos surpreendentemente longos - até milhares de tokens - por meio de geração autoregressiva a partir de apenas um embedding de entrada especialmente treinado. Neste trabalho, exploramos se tal reconstrução é possível sem autoregressão. Demonstramos que LLMs congelados podem gerar centenas de tokens precisos em apenas uma passada direta, quando fornecidos com apenas dois embeddings aprendidos. Isso revela uma capacidade surpreendente e pouco explorada dos LLMs - geração de múltiplos tokens sem decodificação iterativa. Investigamos o comportamento desses embeddings e fornecemos insights sobre o tipo de informação que eles codificam. Também mostramos empiricamente que, embora essas representações não sejam únicas para um determinado texto, elas formam regiões conectadas e locais no espaço de embedding - uma propriedade que sugere o potencial de aprender um codificador dedicado para esse espaço.
English
A recent study showed that large language models (LLMs) can reconstruct
surprisingly long texts - up to thousands of tokens - via autoregressive
generation from just one specially trained input embedding. In this work, we
explore whether such reconstruction is possible without autoregression. We show
that frozen LLMs can generate hundreds of accurate tokens in just one forward
pass, when provided with only two learned embeddings. This reveals a surprising
and underexplored capability of LLMs - multi-token generation without iterative
decoding. We investigate the behaviour of these embeddings and provide insight
into the type of information they encode. We also empirically show that
although these representations are not unique for a given text, they form
connected and local regions in embedding space - a property that suggests the
potential of learning a dedicated encoder into that space.