Grote Taalmodellen Verkennen door Latente Destillatie
Large Language Models Explore by Latent Distilling
April 27, 2026
Auteurs: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI
Samenvatting
Het genereren van diverse antwoorden is cruciaal voor het schalen van grote taalmodellen (LLM's) tijdens testtijd, maar standaard stochastische sampling levert voornamelijk oppervlakkige lexicale variatie op, wat de semantische verkenning beperkt. In dit artikel stellen we Exploratory Sampling (ESamp) voor, een decodeerbenadering die expliciet semantische diversiteit tijdens de generatie aanmoedigt. ESamp is gemotiveerd door de bekende observatie dat neurale netwerken de neiging hebben voorspellingen met lagere foutmarges te maken op inputs die vergelijkbaar zijn met eerder geziene inputs, en hogere voorspellingsfouten te maken op nieuwe inputs. Voortbordurend op deze eigenschap trainen we tijdens testtijd een lichtgewicht Distiller om diepe verborgen representaties van het LLM te voorspellen op basis van zijn ondiepe laagrepresentaties, om zo de dieptegewijze representatietransities van het LLM te modelleren. Tijdens het decoderen past de Distiller zich continu aan aan de mappingen die worden geïnduceerd door de huidige generatiecontext. ESamp gebruikt de voorspellingsfout als een nieuwheidssignaal om kandidaat-tokenuitbreidingen, geconditioneerd op het huidige prefix, opnieuw te wegen, waardoor het decoderen wordt gebiasseerd naar minder verkende semantische patronen. ESamp wordt geïmplementeerd met een asynchrone trainings-inferentiepijplijn, met minder dan 5% overhead in het slechtste geval (1,2% in de geoptimaliseerde release). Empirische resultaten tonen aan dat ESamp de Pass@k-efficiëntie van redeneermodellen aanzienlijk verbetert, met superieure of vergelijkbare prestaties ten opzichte van sterke stochastische en heuristische basislijnen. Opmerkelijk is dat ESamp robuuste generalisatie bereikt op wiskundige, wetenschappelijke en code-generatiebenchmarks en de afweging tussen diversiteit en coherentie in creatief schrijven doorbreekt. Onze code is vrijgegeven op: https://github.com/LinesHogan/tLLM.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.