Geração de Texto Além da Amostragem de Tokens Discretos

Resumo

Na geração autoregressiva padrão, um LLM prevê a distribuição do próximo token, amostra um token discreto e, em seguida, descarta a distribuição, passando apenas o token amostrado como nova entrada. Para preservar as ricas informações dessa distribuição, propomos o Método de Mistura de Entradas (MoI), uma técnica livre de treinamento para geração autoregressiva. Após gerar um token seguindo o paradigma padrão, construímos uma nova entrada que combina o token gerado com a distribuição de tokens previamente descartada. Especificamente, empregamos um método de estimativa bayesiana que trata a distribuição de tokens como a priori, o token amostrado como a observação, e substitui o vetor one-hot convencional pela expectativa contínua da posterior como a nova entrada do modelo. O MoI permite que o modelo mantenha uma representação interna mais rica ao longo do processo de geração, resultando em uma melhoria na qualidade do texto e nas capacidades de raciocínio. Em tarefas de raciocínio matemático, geração de código e perguntas e respostas de nível de doutorado, o MoI melhora consistentemente o desempenho em vários modelos, incluindo QwQ-32B, Nemotron-Super-49B, Gemma-3-27B e DAPO-Qwen-32B, sem treinamento adicional e com sobrecarga computacional insignificante.

English

In standard autoregressive generation, an LLM predicts the next-token distribution, samples a discrete token, and then discards the distribution, passing only the sampled token as new input. To preserve this distribution's rich information, we propose Mixture of Inputs (MoI), a training-free method for autoregressive generation. After generating a token following the standard paradigm, we construct a new input that blends the generated discrete token with the previously discarded token distribution. Specifically, we employ a Bayesian estimation method that treats the token distribution as the prior, the sampled token as the observation, and replaces the conventional one-hot vector with the continuous posterior expectation as the new model input. MoI allows the model to maintain a richer internal representation throughout the generation process, resulting in improved text quality and reasoning capabilities. On mathematical reasoning, code generation, and PhD-level QA tasks, MoI consistently improves performance across multiple models including QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional training and negligible computational overhead.

Geração de Texto Além da Amostragem de Tokens Discretos

Text Generation Beyond Discrete Token Sampling

Resumo

Support