ChatPaper.aiChatPaper

잠재적 증류를 통한 대규모 언어 모델의 탐색

Large Language Models Explore by Latent Distilling

April 27, 2026
저자: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren
cs.AI

초록

대규모 언어 모델(LLM)의 테스트 시 확장을 위해 다양한 응답을 생성하는 것은 중요하지만, 표준 확률적 샘플링은 주로 표층적인 어휘적 변이만을 생성하여 의미론적 탐색을 제한합니다. 본 논문에서는 생성 과정에서 의미론적 다양성을 명시적으로 장려하는 디코딩 접근법인 탐색적 샘플링(ESamp)을 제안합니다. ESamp는 신경망이 이전에 접한 입력과 유사한 경우 예측 오류가 낮고, 새로운 입력에서는 예측 오류가 높아지는 잘 알려진 현상에 기반합니다. 이 특성을 바탕으로, 우리는 테스트 시간에 경량 Distiller를 학습시켜 LLM의 얕은 층 표현으로부터 깊은 층 은닉 표현을 예측하여 LLM의 깊이별 표현 전이를 모델링합니다. 디코딩 과정에서 Distiller는 현재 생성 컨텍스트에 의해 유도된 매핑에 지속적으로 적응합니다. ESamp는 이 예측 오류를 새로움 신호로 사용하여 현재 접두사에 조건부인 후보 토큰 확장의 가중치를 재조정함으로써, 덜 탐색된 의미 패턴으로 디코딩을 편향시킵니다. ESamp는 비동기적 학습-추론 파이프라인으로 구현되며, 최악의 경우 5% 미만(최적화 버전 기준 1.2%)의 오버헤드만을 발생시킵니다. 실험 결과는 ESamp가 추론 모델의 Pass@k 효율을 크게 향상시키며, 강력한 확률적 및 휴리스틱 베이스라인 대비 우수하거나 비슷한 성능을 보임을 입증합니다. 특히 ESamp는 수학, 과학, 코드 생성 벤치마크 전반에 걸쳐 견고한 일반화 성능을 달성하고 창의적 글쓰기에서 다양성과 일관성 간의 트레이드오프를 깨뜨립니다. 우리의 코드는 https://github.com/LinesHogan/tLLM 에 공개되었습니다.
English
Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.
PDF524May 1, 2026