Wann Ensembling sinnvoll ist: Identifizierung von Token-Level-Punkten für stabiles und schnelles LLM-Ensembling
When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling
October 17, 2025
papers.authors: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI
papers.abstract
Das Ensembling von Large Language Models (LLMs) hat als vielversprechender Ansatz Aufmerksamkeit erregt, um die Leistung einzelner Modelle durch die Nutzung ihrer komplementären Stärken zu übertreffen. Insbesondere hat sich die Aggregation der nächsten Token-Wahrscheinlichkeitsverteilungen der Modelle zur Auswahl des nächsten Tokens in verschiedenen Aufgaben als effektiv erwiesen. Während dies jedoch bei kurzen Antworten erfolgreich ist, bleibt die Anwendung bei der langen Textgenerierung weitgehend unerforscht. In diesem Artikel zeigen wir, dass die Verwendung bestehender Ensemble-Methoden bei der langen Textgenerierung eine sorgfältige Auswahl der Ensembling-Positionen erfordert, da die gängige Praxis des Ensemblings bei jedem Token oft die Leistung beeinträchtigt. Wir identifizieren zwei Schlüsselfaktoren für die Bestimmung dieser Positionen: Tokenisierungsunterschiede zwischen den Modellen und die Übereinstimmung in ihren nächsten Token-Wahrscheinlichkeitsverteilungen. Basierend darauf schlagen wir SAFE (Stable And Fast LLM Ensembling) vor, ein Framework, das selektiv ensembelt, indem es diese Faktoren gemeinsam berücksichtigt. Um die Stabilität weiter zu verbessern, führen wir eine Wahrscheinlichkeitsverschärfungsstrategie ein, die Wahrscheinlichkeiten, die über mehrere Sub-Word-Tokens verteilt sind, die dasselbe Wort repräsentieren, in einen einzigen repräsentativen Token konsolidiert. Unsere Experimente auf verschiedenen Benchmarks, einschließlich MATH500 und BBH, zeigen, dass SAFE bestehende Methoden sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft, wobei Gewinne selbst dann erzielt werden, wenn weniger als 1 % der Tokens ensembled werden.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising
approach to surpass the performance of individual models by leveraging their
complementary strengths. In particular, aggregating models' next-token
probability distributions to select the next token has been shown to be
effective in various tasks. However, while successful for short-form answers,
its application to long-form generation remains underexplored. In this paper,
we show that using existing ensemble methods in long-form generation requires a
careful choice of ensembling positions, since the standard practice of
ensembling at every token often degrades performance. We identify two key
factors for determining these positions: tokenization mismatch across models
and consensus in their next-token probability distributions. Based on this, we
propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively
ensembles by jointly considering these factors. To further improve stability,
we introduce a probability sharpening strategy that consolidates probabilities
spread across multiple sub-word tokens representing the same word into a single
representative token. Our experiments on diverse benchmarks, including MATH500
and BBH, demonstrate that SAFE outperforms existing methods in both accuracy
and efficiency, with gains achieved even when ensembling fewer than 1% of
tokens.