Explorando la Capacidad Latente de los LLM para la Generación de Texto en un Solo Paso

Resumen

Un estudio reciente demostró que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden reconstruir textos sorprendentemente largos —de hasta miles de tokens— mediante generación autoregresiva a partir de un único embedding de entrada especialmente entrenado. En este trabajo, exploramos si dicha reconstrucción es posible sin autoregresión. Mostramos que los LLMs congelados pueden generar cientos de tokens precisos en un solo paso hacia adelante, cuando se les proporcionan únicamente dos embeddings aprendidos. Esto revela una capacidad sorprendente y poco explorada de los LLMs: la generación de múltiples tokens sin decodificación iterativa. Investigamos el comportamiento de estos embeddings y ofrecemos una visión sobre el tipo de información que codifican. También demostramos empíricamente que, aunque estas representaciones no son únicas para un texto dado, forman regiones conectadas y locales en el espacio de embeddings, una propiedad que sugiere el potencial de aprender un codificador dedicado para ese espacio.

English

A recent study showed that large language models (LLMs) can reconstruct surprisingly long texts - up to thousands of tokens - via autoregressive generation from just one specially trained input embedding. In this work, we explore whether such reconstruction is possible without autoregression. We show that frozen LLMs can generate hundreds of accurate tokens in just one forward pass, when provided with only two learned embeddings. This reveals a surprising and underexplored capability of LLMs - multi-token generation without iterative decoding. We investigate the behaviour of these embeddings and provide insight into the type of information they encode. We also empirically show that although these representations are not unique for a given text, they form connected and local regions in embedding space - a property that suggests the potential of learning a dedicated encoder into that space.

Explorando la Capacidad Latente de los LLM para la Generación de Texto en un Solo Paso

Exploring the Latent Capacity of LLMs for One-Step Text Generation

Resumen

Support