Generación de Texto Más Allá del Muestreo Discreto de Tokens
Text Generation Beyond Discrete Token Sampling
May 20, 2025
Autores: Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao
cs.AI
Resumen
En la generación autoregresiva estándar, un LLM predice la distribución del siguiente token, muestrea un token discreto y luego descarta la distribución, pasando solo el token muestreado como nueva entrada. Para preservar la rica información de esta distribución, proponemos Mezcla de Entradas (MoI), un método sin entrenamiento para la generación autoregresiva. Después de generar un token siguiendo el paradigma estándar, construimos una nueva entrada que combina el token generado con la distribución de tokens previamente descartada. Específicamente, empleamos un método de estimación bayesiana que trata la distribución de tokens como el prior, el token muestreado como la observación, y reemplaza el vector one-hot convencional con la expectativa posterior continua como la nueva entrada del modelo. MoI permite que el modelo mantenga una representación interna más rica durante todo el proceso de generación, lo que resulta en una mejora en la calidad del texto y las capacidades de razonamiento. En tareas de razonamiento matemático, generación de código y preguntas de nivel de doctorado, MoI mejora consistentemente el rendimiento en múltiples modelos, incluyendo QwQ-32B, Nemotron-Super-49B, Gemma-3-27B y DAPO-Qwen-32B, sin entrenamiento adicional y con un costo computacional insignificante.
English
In standard autoregressive generation, an LLM predicts the next-token
distribution, samples a discrete token, and then discards the distribution,
passing only the sampled token as new input. To preserve this distribution's
rich information, we propose Mixture of Inputs (MoI), a training-free method
for autoregressive generation. After generating a token following the standard
paradigm, we construct a new input that blends the generated discrete token
with the previously discarded token distribution. Specifically, we employ a
Bayesian estimation method that treats the token distribution as the prior, the
sampled token as the observation, and replaces the conventional one-hot vector
with the continuous posterior expectation as the new model input. MoI allows
the model to maintain a richer internal representation throughout the
generation process, resulting in improved text quality and reasoning
capabilities. On mathematical reasoning, code generation, and PhD-level QA
tasks, MoI consistently improves performance across multiple models including
QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional
training and negligible computational overhead.Summary
AI-Generated Summary