離散的なトークンサンプリングを超えたテキスト生成
Text Generation Beyond Discrete Token Sampling
May 20, 2025
著者: Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao
cs.AI
要旨
標準的な自己回帰生成では、LLMは次のトークンの分布を予測し、離散的なトークンをサンプリングし、その後その分布を破棄して、サンプリングされたトークンのみを新しい入力として渡します。この分布の豊富な情報を保持するために、我々は訓練不要の自己回帰生成手法であるMixture of Inputs(MoI)を提案します。標準的なパラダイムに従ってトークンを生成した後、生成された離散トークンと以前に破棄されたトークン分布を組み合わせた新しい入力を構築します。具体的には、トークン分布を事前分布として、サンプリングされたトークンを観測値として扱い、従来のワンホットベクトルを連続的な事後期待値に置き換えて新しいモデル入力とするベイズ推定手法を採用します。MoIにより、モデルは生成プロセス全体を通じてより豊かな内部表現を維持することができ、テキストの品質と推論能力が向上します。数学的推論、コード生成、博士レベルのQAタスクにおいて、MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルで一貫して性能を向上させ、追加の訓練や計算オーバーヘッドをほとんど必要としません。
English
In standard autoregressive generation, an LLM predicts the next-token
distribution, samples a discrete token, and then discards the distribution,
passing only the sampled token as new input. To preserve this distribution's
rich information, we propose Mixture of Inputs (MoI), a training-free method
for autoregressive generation. After generating a token following the standard
paradigm, we construct a new input that blends the generated discrete token
with the previously discarded token distribution. Specifically, we employ a
Bayesian estimation method that treats the token distribution as the prior, the
sampled token as the observation, and replaces the conventional one-hot vector
with the continuous posterior expectation as the new model input. MoI allows
the model to maintain a richer internal representation throughout the
generation process, resulting in improved text quality and reasoning
capabilities. On mathematical reasoning, code generation, and PhD-level QA
tasks, MoI consistently improves performance across multiple models including
QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional
training and negligible computational overhead.Summary
AI-Generated Summary