Textgenerierung jenseits der diskreten Token-Stichprobenentnahme

papers.abstract

Bei der standardmäßigen autoregressiven Generierung sagt ein großes Sprachmodell (LLM) die nächste Token-Verteilung voraus, zieht ein diskretes Token und verwirft dann die Verteilung, wobei nur das gezogene Token als neue Eingabe weitergegeben wird. Um die umfangreichen Informationen dieser Verteilung zu bewahren, schlagen wir Mixture of Inputs (MoI) vor, eine trainingsfreie Methode für die autoregressive Generierung. Nachdem ein Token gemäß dem Standardparadigma generiert wurde, konstruieren wir eine neue Eingabe, die das generierte diskrete Token mit der zuvor verworfenen Token-Verteilung kombiniert. Konkret verwenden wir eine Bayes'sche Schätzmethode, die die Token-Verteilung als Prior, das gezogene Token als Beobachtung behandelt und den konventionellen One-Hot-Vektor durch die kontinuierliche Posterior-Erwartung als neue Modelleingabe ersetzt. MoI ermöglicht es dem Modell, während des gesamten Generierungsprozesses eine reichhaltigere interne Repräsentation beizubehalten, was zu einer verbesserten Textqualität und besseren Fähigkeiten im logischen Schlussfolgern führt. Bei mathematischem Denken, Code-Generierung und PhD-Level-Frage-Antwort-Aufgaben verbessert MoI durchgängig die Leistung über mehrere Modelle hinweg, darunter QwQ-32B, Nemotron-Super-49B, Gemma-3-27B und DAPO-Qwen-32B, ohne zusätzliches Training und mit vernachlässigbarem Rechenaufwand.

English

In standard autoregressive generation, an LLM predicts the next-token distribution, samples a discrete token, and then discards the distribution, passing only the sampled token as new input. To preserve this distribution's rich information, we propose Mixture of Inputs (MoI), a training-free method for autoregressive generation. After generating a token following the standard paradigm, we construct a new input that blends the generated discrete token with the previously discarded token distribution. Specifically, we employ a Bayesian estimation method that treats the token distribution as the prior, the sampled token as the observation, and replaces the conventional one-hot vector with the continuous posterior expectation as the new model input. MoI allows the model to maintain a richer internal representation throughout the generation process, resulting in improved text quality and reasoning capabilities. On mathematical reasoning, code generation, and PhD-level QA tasks, MoI consistently improves performance across multiple models including QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional training and negligible computational overhead.

Textgenerierung jenseits der diskreten Token-Stichprobenentnahme

Text Generation Beyond Discrete Token Sampling

papers.abstract

Support