Grandes Modelos de Linguagem Exploram por Meio da Destilação Latente
Large Language Models Explore by Latent Distilling
April 27, 2026
Autores: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI
Resumo
A geração de respostas diversificadas é crucial para a escalabilidade de modelos de linguagem de grande escala (LLMs) durante o teste, mas a amostragem estocástica padrão produz principalmente variações lexicais superficiais, limitando a exploração semântica. Neste artigo, propomos a Amostragem Exploratória (ESamp), uma abordagem de decodificação que incentiva explicitamente a diversidade semântica durante a geração. A ESamp é motivada pela observação bem conhecida de que redes neurais tendem a fazer previsões com menor erro em entradas semelhantes às encontradas anteriormente e incorrem em maior erro de previsão em entradas novas. Com base nessa propriedade, treinamos um Destilador leve durante o teste para prever as representações ocultas de camadas profundas do LLM a partir de suas representações de camadas superficiais, modelando assim as transições de representação em profundidade do LLM. Durante a decodificação, o Destilador adapta-se continuamente aos mapeamentos induzidos pelo contexto de geração atual. A ESamp utiliza o erro de previsão como um sinal de novidade para reponderar as extensões de tokens candidatos condicionadas ao prefixo atual, direcionando assim a decodificação para padrões semânticos menos explorados. A ESamp é implementada com um pipeline assíncrono de treinamento-inferência, com menos de 5% de sobrecarga no pior caso (1,2% na versão otimizada). Resultados empíricos mostram que a ESamp aumenta significativamente a eficiência Pass@k de modelos de raciocínio, apresentando desempenho superior ou comparável a bases estocásticas e heurísticas robustas. Notavelmente, a ESamp alcança generalização robusta em benchmarks de geração de matemática, ciência e código e quebra o compromisso entre diversidade e coerência na escrita criativa. Nosso código foi liberado em: https://github.com/LinesHogan/tLLM.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.