Les grands modèles de langage explorent par distillation latente
Large Language Models Explore by Latent Distilling
April 27, 2026
Auteurs: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI
Résumé
La génération de réponses diverses est cruciale pour la mise à l'échelle au moment des tests des grands modèles de langage (LLM), mais l'échantillonnage stochastique standard produit principalement des variations lexicales superficielles, limitant l'exploration sémantique. Dans cet article, nous proposons l'Échantillonnage Exploratoire (ESamp), une approche de décodage qui encourage explicitement la diversité sémantique lors de la génération. ESamp est motivé par l'observation bien connue que les réseaux de neuronaux ont tendance à faire des prédictions avec une erreur plus faible sur des entrées similaires à celles rencontrées auparavant, et engendrent une erreur de prédiction plus élevée sur des entrées nouvelles. S'appuyant sur cette propriété, nous entraînons un Distillateur léger au moment du test pour prédire les représentations internes des couches profondes du LLM à partir de ses représentations des couches superficielles, afin de modéliser les transitions de représentations en fonction de la profondeur du LLM. Pendant le décodage, le Distillateur s'adapte continuellement aux mappings induits par le contexte de génération actuel. ESamp utilise l'erreur de prédiction comme un signal de nouveauté pour repondérer les extensions de tokens candidates conditionnées par le préfixe actuel, biaisant ainsi le décodage vers des motifs sémantiques moins explorés. ESamp est implémenté avec un pipeline asynchrone entraînement–inférence, avec une surcharge maximale inférieure à 5% (1,2% dans la version optimisée). Les résultats empiriques montrent qu'ESamp améliore significativement l'efficacité Pass@k des modèles de raisonnement, affichant des performances supérieures ou comparables à celles de bases de référence stochastiques et heuristiques solides. Notamment, ESamp réalise une généralisation robuste sur des benchmarks de génération en mathématiques, sciences et code, et brise le compromis entre diversité et cohérence dans l'écriture créative. Notre code est disponible à l'adresse : https://github.com/LinesHogan/tLLM.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.