Große Sprachmodelle erkunden durch latentes Distillieren
Large Language Models Explore by Latent Distilling
April 27, 2026
Autoren: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI
Zusammenfassung
Die Erzeugung vielfältiger Antworten ist entscheidend für die Skalierung großer Sprachmodelle (LLMs) zur Testzeit, doch standardmäßiges stochastisches Sampling erzeugt meist nur oberflächliche lexikalische Variation, was die semantische Erkundung einschränkt. In diesem Artikel schlagen wir Exploratory Sampling (ESamp) vor, einen Dekodierungsansatz, der semantische Vielfalt während der Generierung explizit fördert. ESamp wird durch die bekannte Beobachtung motiviert, dass neuronale Netze tendenziell Vorhersagen mit geringerem Fehler auf Eingaben machen, die ähnlich zu vorher gesehenen sind, und höhere Vorhersagefehler bei neuartigen Eingaben auftreten. Aufbauend auf dieser Eigenschaft trainieren wir zur Testzeit einen leichten Distiller, der tiefe verborgene Repräsentationen des LLMs aus seinen flachen Schichtrepräsentationen vorhersagt, um die tiefenabhängigen Repräsentationsübergänge des LLMs zu modellieren. Während der Dekodierung passt sich der Distiller kontinuierlich an die durch den aktuellen Generierungskontext induzierten Abbildungen an. ESamp nutzt den Vorhersagefehler als Neuheitssignal, um Kandidatentokenerweiterungen neu zu gewichten, die auf dem aktuellen Präfix konditioniert sind, und lenkt so die Dekodierung hin zu weniger erkundeten semantischen Mustern. ESamp wird mit einer asynchronen Trainings-Inferenz-Pipeline implementiert, mit einem Overhead von weniger als 5 % im Worst Case (1,2 % in der optimierten Version). Empirische Ergebnisse zeigen, dass ESamp die Pass@k-Effizienz von Reasoning-Modellen signifikant steigert und eine überlegene oder vergleichbare Leistung zu starken stochastischen und heuristischen Baselines aufweist. Bemerkenswerterweise erreicht ESamp eine robuste Generalisierung über Mathematik-, Wissenschafts- und Code-Generierungs-Benchmarks hinweg und durchbricht den Zielkonflikt zwischen Vielfalt und Kohärenz beim kreativen Schreiben. Unser Code wurde unter https://github.com/LinesHogan/tLLM veröffentlicht.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.