ChatPaper.aiChatPaper

Wann Ensembling sinnvoll ist: Identifizierung von Token-Level-Punkten für stabiles und schnelles LLM-Ensembling

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

October 17, 2025
papers.authors: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI

papers.abstract

Das Ensembling von Large Language Models (LLMs) hat als vielversprechender Ansatz Aufmerksamkeit erregt, um die Leistung einzelner Modelle durch die Nutzung ihrer komplementären Stärken zu übertreffen. Insbesondere hat sich die Aggregation der nächsten Token-Wahrscheinlichkeitsverteilungen der Modelle zur Auswahl des nächsten Tokens in verschiedenen Aufgaben als effektiv erwiesen. Während dies jedoch bei kurzen Antworten erfolgreich ist, bleibt die Anwendung bei der langen Textgenerierung weitgehend unerforscht. In diesem Artikel zeigen wir, dass die Verwendung bestehender Ensemble-Methoden bei der langen Textgenerierung eine sorgfältige Auswahl der Ensembling-Positionen erfordert, da die gängige Praxis des Ensemblings bei jedem Token oft die Leistung beeinträchtigt. Wir identifizieren zwei Schlüsselfaktoren für die Bestimmung dieser Positionen: Tokenisierungsunterschiede zwischen den Modellen und die Übereinstimmung in ihren nächsten Token-Wahrscheinlichkeitsverteilungen. Basierend darauf schlagen wir SAFE (Stable And Fast LLM Ensembling) vor, ein Framework, das selektiv ensembelt, indem es diese Faktoren gemeinsam berücksichtigt. Um die Stabilität weiter zu verbessern, führen wir eine Wahrscheinlichkeitsverschärfungsstrategie ein, die Wahrscheinlichkeiten, die über mehrere Sub-Word-Tokens verteilt sind, die dasselbe Wort repräsentieren, in einen einzigen repräsentativen Token konsolidiert. Unsere Experimente auf verschiedenen Benchmarks, einschließlich MATH500 und BBH, zeigen, dass SAFE bestehende Methoden sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft, wobei Gewinne selbst dann erzielt werden, wenn weniger als 1 % der Tokens ensembled werden.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
PDF283October 21, 2025