ChatPaper.aiChatPaper

Wanneer te ensemblen: Het identificeren van token-niveau punten voor stabiel en snel LLM-ensembling

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

October 17, 2025
Auteurs: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI

Samenvatting

Het combineren van grote taalmodellen (LLM's) heeft aandacht gekregen als een veelbelovende aanpak om de prestaties van individuele modellen te overtreffen door gebruik te maken van hun complementaire sterktes. In het bijzonder is het samenvoegen van de volgende-token waarschijnlijkheidsverdelingen van modellen om de volgende token te selecteren effectief gebleken in diverse taken. Echter, hoewel succesvol voor korte antwoorden, blijft de toepassing ervan bij lange tekstgeneratie onderbelicht. In dit artikel tonen we aan dat het gebruik van bestaande ensemblemethoden bij lange tekstgeneratie een zorgvuldige keuze van ensembleposities vereist, aangezien de standaardpraktijk van ensemblen bij elke token vaak de prestaties verslechtert. We identificeren twee belangrijke factoren voor het bepalen van deze posities: tokenisatiemismatch tussen modellen en consensus in hun volgende-token waarschijnlijkheidsverdelingen. Op basis hiervan stellen we SAFE voor (Stable And Fast LLM Ensembling), een raamwerk dat selectief ensembleert door gezamenlijk rekening te houden met deze factoren. Om de stabiliteit verder te verbeteren, introduceren we een strategie voor waarschijnlijkheidsscherping die waarschijnlijkheden die verspreid zijn over meerdere sub-woordtokens die hetzelfde woord vertegenwoordigen, consolideert in één representatieve token. Onze experimenten op diverse benchmarks, waaronder MATH500 en BBH, tonen aan dat SAFE bestaande methoden overtreft in zowel nauwkeurigheid als efficiëntie, met verbeteringen die worden bereikt zelfs wanneer minder dan 1% van de tokens wordt geënsembleerd.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
PDF333December 23, 2025