Geração de Texto Além da Amostragem de Tokens Discretos
Text Generation Beyond Discrete Token Sampling
May 20, 2025
Autores: Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao
cs.AI
Resumo
Na geração autoregressiva padrão, um LLM prevê a distribuição do próximo token, amostra um token discreto e, em seguida, descarta a distribuição, passando apenas o token amostrado como nova entrada. Para preservar as ricas informações dessa distribuição, propomos o Método de Mistura de Entradas (MoI), uma técnica livre de treinamento para geração autoregressiva. Após gerar um token seguindo o paradigma padrão, construímos uma nova entrada que combina o token gerado com a distribuição de tokens previamente descartada. Especificamente, empregamos um método de estimativa bayesiana que trata a distribuição de tokens como a priori, o token amostrado como a observação, e substitui o vetor one-hot convencional pela expectativa contínua da posterior como a nova entrada do modelo. O MoI permite que o modelo mantenha uma representação interna mais rica ao longo do processo de geração, resultando em uma melhoria na qualidade do texto e nas capacidades de raciocínio. Em tarefas de raciocínio matemático, geração de código e perguntas e respostas de nível de doutorado, o MoI melhora consistentemente o desempenho em vários modelos, incluindo QwQ-32B, Nemotron-Super-49B, Gemma-3-27B e DAPO-Qwen-32B, sem treinamento adicional e com sobrecarga computacional insignificante.
English
In standard autoregressive generation, an LLM predicts the next-token
distribution, samples a discrete token, and then discards the distribution,
passing only the sampled token as new input. To preserve this distribution's
rich information, we propose Mixture of Inputs (MoI), a training-free method
for autoregressive generation. After generating a token following the standard
paradigm, we construct a new input that blends the generated discrete token
with the previously discarded token distribution. Specifically, we employ a
Bayesian estimation method that treats the token distribution as the prior, the
sampled token as the observation, and replaces the conventional one-hot vector
with the continuous posterior expectation as the new model input. MoI allows
the model to maintain a richer internal representation throughout the
generation process, resulting in improved text quality and reasoning
capabilities. On mathematical reasoning, code generation, and PhD-level QA
tasks, MoI consistently improves performance across multiple models including
QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional
training and negligible computational overhead.