Крупные языковые модели исследуют пространство через латентное дистиллирование
Large Language Models Explore by Latent Distilling
April 27, 2026
Авторы: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI
Аннотация
Генерация разнообразных ответов крайне важна для масштабирования больших языковых моделей (БЯМ) на этапе тестирования, однако стандартная стохастическая выборка в основном дает поверхностные лексические вариации, ограничивая семантическое исследование. В данной статье мы предлагаем Эксплоративную выборку (ESamp) — подход к декодированию, который явно поощряет семантическое разнообразие в процессе генерации. ESamp мотивирован известным наблюдением, что нейронные сети склонны делать прогнозы с меньшей ошибкой на входах, похожих на ранее встречавшиеся, и допускают большую ошибку прогнозирования на новых. Опираясь на это свойство, мы обучаем легковесный Дистиллятор на этапе тестирования, чтобы предсказывать глубинные скрытые представления БЯМ по ее поверхностным представлениям, моделируя переходы между представлениями разной глубины в БЯМ. Во время декодирования Дистиллятор непрерывно адаптируется к отображениям, индуцированным текущим контекстом генерации. ESamp использует ошибку прогнозирования как сигнал новизны для перевзвешивания кандидатных токенов-продолжений, условленных на текущем префиксе, тем самым смещая декодирование в сторону менее изученных семантических паттернов. ESamp реализован с помощью асинхронного конвейера обучения-вывода с накладными расходами не более 5% в худшем случае (1.2% в оптимизированной версии). Эмпирические результаты показывают, что ESamp значительно повышает эффективность Pass@k для моделей логического вывода, демонстрируя превосходную или сопоставимую производительность с сильными стохастическими и эвристическими базовыми методами. Примечательно, что ESamp достигает robustного обобщения на математических, научных и кодогенерационных бенчмарках и ломает компромисс между разнообразием и связностью в творческом письме. Наш код доступен по адресу: https://github.com/LinesHogan/tLLM.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.