ChatPaper.aiChatPaper

Quand utiliser l'assemblage : Identification des points au niveau des tokens pour un assemblage stable et rapide de modèles de langage de grande taille

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

October 17, 2025
papers.authors: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI

papers.abstract

L'assemblage de grands modèles de langage (LLM) a suscité un intérêt croissant en tant qu'approche prometteuse pour dépasser les performances des modèles individuels en exploitant leurs forces complémentaires. En particulier, l'agrégation des distributions de probabilité des tokens suivants des modèles pour sélectionner le prochain token s'est avérée efficace dans diverses tâches. Cependant, bien que cette méthode soit couronnée de succès pour les réponses courtes, son application à la génération de textes longs reste peu explorée. Dans cet article, nous montrons que l'utilisation des méthodes d'assemblage existantes pour la génération de textes longs nécessite un choix minutieux des positions d'assemblage, car la pratique standard consistant à assembler à chaque token dégrade souvent les performances. Nous identifions deux facteurs clés pour déterminer ces positions : les incompatibilités de tokenisation entre les modèles et le consensus dans leurs distributions de probabilité des tokens suivants. Sur cette base, nous proposons SAFE (Stable And Fast LLM Ensembling), un cadre qui assemble de manière sélective en prenant en compte conjointement ces facteurs. Pour améliorer davantage la stabilité, nous introduisons une stratégie d'accentuation des probabilités qui regroupe les probabilités réparties sur plusieurs sous-tokens représentant le même mot en un seul token représentatif. Nos expériences sur divers benchmarks, dont MATH500 et BBH, démontrent que SAFE surpasse les méthodes existantes à la fois en précision et en efficacité, avec des gains obtenus même en assemblant moins de 1 % des tokens.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.
PDF283October 21, 2025