ChatPaper.aiChatPaper

いつアンサンブルを行うか:安定かつ高速なLLMアンサンブルのためのトークンレベルポイントの特定

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

October 17, 2025
著者: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI

要旨

大規模言語モデル(LLM)のアンサンブルは、個々のモデルの補完的な強みを活用することで、単一モデルの性能を超える有望なアプローチとして注目を集めています。特に、次のトークンを選択するためにモデルの次トークン確率分布を集約する方法は、さまざまなタスクで有効であることが示されています。しかし、短い回答では成功しているものの、長文生成への応用はまだ十分に検討されていません。本論文では、既存のアンサンブル手法を長文生成に適用する際には、アンサンブルを行う位置の慎重な選択が必要であることを示します。なぜなら、すべてのトークンでアンサンブルを行う標準的な手法は、しばしば性能を低下させるからです。我々は、これらの位置を決定するための2つの重要な要因を特定しました:モデル間のトークン化の不一致と、次トークン確率分布における合意です。これに基づいて、これらの要因を同時に考慮して選択的にアンサンブルを行うSAFE(Stable And Fast LLM Ensembling)フレームワークを提案します。さらに安定性を向上させるために、同じ単語を表す複数のサブワードトークンに分散した確率を単一の代表トークンに統合する確率シャープニング戦略を導入します。MATH500やBBHを含む多様なベンチマークでの実験により、SAFEが既存の手法を精度と効率の両面で上回り、1%未満のトークンをアンサンブルする場合でも性能向上を達成することを実証しました。
English
Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
PDF283October 21, 2025