Cuándo ensamblar: Identificación de puntos a nivel de token para un ensamblaje de LLM estable y rápido
When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling
October 17, 2025
Autores: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang
cs.AI
Resumen
El ensamblaje de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha captado atención como un enfoque prometedor para superar el rendimiento de modelos individuales al aprovechar sus fortalezas complementarias. En particular, se ha demostrado que la agregación de las distribuciones de probabilidad del siguiente token de los modelos para seleccionar el siguiente token es efectiva en diversas tareas. Sin embargo, aunque ha tenido éxito en respuestas de formato corto, su aplicación en la generación de contenido de formato largo sigue siendo poco explorada. En este artículo, mostramos que el uso de métodos de ensamblaje existentes en la generación de formato largo requiere una elección cuidadosa de las posiciones de ensamblaje, ya que la práctica estándar de ensamblar en cada token a menudo degrada el rendimiento. Identificamos dos factores clave para determinar estas posiciones: la falta de coincidencia en la tokenización entre modelos y el consenso en sus distribuciones de probabilidad del siguiente token. Basándonos en esto, proponemos SAFE (Stable And Fast LLM Ensembling), un marco que ensambla de manera selectiva al considerar conjuntamente estos factores. Para mejorar aún más la estabilidad, introducimos una estrategia de afilado de probabilidades que consolida las probabilidades distribuidas en múltiples sub-tokens que representan la misma palabra en un único token representativo. Nuestros experimentos en diversos puntos de referencia, incluyendo MATH500 y BBH, demuestran que SAFE supera a los métodos existentes tanto en precisión como en eficiencia, logrando mejoras incluso cuando se ensamblan menos del 1% de los tokens.
English
Ensembling Large Language Models (LLMs) has gained attention as a promising
approach to surpass the performance of individual models by leveraging their
complementary strengths. In particular, aggregating models' next-token
probability distributions to select the next token has been shown to be
effective in various tasks. However, while successful for short-form answers,
its application to long-form generation remains underexplored. In this paper,
we show that using existing ensemble methods in long-form generation requires a
careful choice of ensembling positions, since the standard practice of
ensembling at every token often degrades performance. We identify two key
factors for determining these positions: tokenization mismatch across models
and consensus in their next-token probability distributions. Based on this, we
propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively
ensembles by jointly considering these factors. To further improve stability,
we introduce a probability sharpening strategy that consolidates probabilities
spread across multiple sub-word tokens representing the same word into a single
representative token. Our experiments on diverse benchmarks, including MATH500
and BBH, demonstrate that SAFE outperforms existing methods in both accuracy
and efficiency, with gains achieved even when ensembling fewer than 1% of
tokens.