ChatPaper.aiChatPaper

언제 앙상블할 것인가: 안정적이고 빠른 LLM 앙상블을 위한 토큰 수준 지점 식별

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

October 17, 2025
저자: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI

초록

대규모 언어 모델(LLM) 앙상블은 개별 모델의 상호 보완적 강점을 활용하여 성능을 뛰어넘는 유망한 접근법으로 주목받고 있습니다. 특히, 모델들의 다음 토큰 확률 분포를 집계하여 다음 토큰을 선택하는 방식이 다양한 과제에서 효과적인 것으로 입증되었습니다. 그러나 이 방식은 짧은 형식의 답변에서는 성공적이었지만, 긴 형식의 생성 작업에 대한 적용은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 기존 앙상블 방법을 긴 형식 생성에 적용할 때 모든 토큰에서 앙상블을 수행하는 표준 관행이 오히려 성능을 저하시킬 수 있으므로, 앙상블 위치를 신중하게 선택해야 함을 보여줍니다. 우리는 이러한 위치를 결정하는 두 가지 핵심 요소를 식별했습니다: 모델 간 토큰화 불일치와 다음 토큰 확률 분포의 일치도입니다. 이를 바탕으로, 우리는 이러한 요소들을 종합적으로 고려하여 선택적으로 앙상블을 수행하는 SAFE(Stable And Fast LLM Ensembling) 프레임워크를 제안합니다. 안정성을 더욱 개선하기 위해, 동일한 단어를 나타내는 여러 하위 단어 토큰에 분산된 확률을 단일 대표 토큰으로 통합하는 확률 선명화 전략을 도입했습니다. MATH500 및 BBH를 포함한 다양한 벤치마크에서의 실험 결과, SAFE는 정확도와 효율성 모두에서 기존 방법을 능가하며, 1% 미만의 토큰만 앙상블하더라도 성능 향상을 달성함을 입증했습니다.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
PDF283October 21, 2025