Los Modelos de Lenguaje a Gran Escala Exploran Mediante Destilación Latente

Resumen

La generación de respuestas diversas es crucial para el escalado en tiempo de prueba de los modelos de lenguaje grandes (LLM), sin embargo, el muestreo estocástico estándar produce principalmente variación léxica superficial, lo que limita la exploración semántica. En este artículo, proponemos Muestreo Exploratorio (ESamp), un enfoque de decodificación que fomenta explícitamente la diversidad semántica durante la generación. ESamp se motiva por la observación bien conocida de que las redes neuronales tienden a hacer predicciones con menor error en entradas similares a las encontradas previamente, e incurren en un error de predicción mayor en entradas novedosas. Basándonos en esta propiedad, entrenamos un Destilador ligero en tiempo de prueba para predecir las representaciones ocultas de capas profundas del LLM a partir de sus representaciones de capas superficiales, modelando así las transiciones de representación en profundidad del LLM. Durante la decodificación, el Destilador se adapta continuamente a las mapeos inducidos por el contexto de generación actual. ESamp utiliza el error de predicción como una señal de novedad para reponderar las extensiones de tokens candidatos condicionadas al prefijo actual, sesgando así la decodificación hacia patrones semánticos menos explorados. ESamp se implementa con una canalización asíncrona de entrenamiento-inferencia, con una sobrecarga máxima de menos del 5% (1.2% en la versión optimizada). Los resultados empíricos muestran que ESamp mejora significativamente la eficiencia Pass@k de los modelos de razonamiento, mostrando un rendimiento superior o comparable al de líneas base estocásticas y heurísticas sólidas. Notablemente, ESamp logra una generalización robusta en benchmarks de generación de matemáticas, ciencias y código, y rompe la compensación entre diversidad y coherencia en la escritura creativa. Nuestro código ha sido liberado en: https://github.com/LinesHogan/tLLM.

English

Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.

Los Modelos de Lenguaje a Gran Escala Exploran Mediante Destilación Latente

Large Language Models Explore by Latent Distilling

Resumen

Support