ChatPaper.aiChatPaper

Optimización de la Diversidad y la Calidad mediante la Colaboración de Modelos Alineados con la Base

Optimizing Diversity and Quality through Base-Aligned Model Collaboration

November 7, 2025
Autores: Yichen Wang, Chenghao Yang, Tenghao Huang, Muhao Chen, Jonathan May, Mina Lee
cs.AI

Resumen

La alineación ha mejorado enormemente la calidad de las salidas de los grandes modelos de lenguaje (LLM) a costa de la diversidad, produciendo resultados muy similares entre generaciones. Proponemos Base-Aligned Model Collaboration (BACo), un marco de colaboración entre modelos a nivel de token durante la inferencia que combina dinámicamente un LLM base con su contraparte alineada para optimizar la diversidad y la calidad. Inspirado por trabajos previos (Fei et al., 2025), BACo emplea estrategias de enrutamiento que determinan, para cada token, de qué modelo decodificar basándose en la incertidumbre de la predicción del siguiente token y el rol semántico del contenido predicho. Los métodos previos para promover la diversidad, como el reentrenamiento, la ingeniería de prompts y los métodos de muestreo múltiple, mejoran la diversidad pero a menudo degradan la calidad o requieren procesos costosos de decodificación o post-entrenamiento. En contraste, BACo logra simultáneamente alta diversidad y calidad *post hoc* en una sola pasada, ofreciendo además una fuerte controlabilidad. Exploramos una familia de estrategias de enrutamiento; a través de tres tareas de generación abierta y 13 métricas que cubren diversidad y calidad, BACo supera consistentemente los métodos de última generación en el momento de inferencia. Con nuestro mejor enrutador, BACo logra una mejora conjunta del 21.3% en diversidad y calidad. Las evaluaciones humanas también reflejan estas mejoras. Los resultados sugieren que la colaboración entre modelos base y alineados puede optimizar y controlar la diversidad y la calidad.
English
Alignment has greatly improved large language models (LLMs)' output quality at the cost of diversity, yielding highly similar outputs across generations. We propose Base-Aligned Model Collaboration (BACo), an inference-time token-level model collaboration framework that dynamically combines a base LLM with its aligned counterpart to optimize diversity and quality. Inspired by prior work (Fei et al., 2025), BACo employs routing strategies that determine, at each token, from which model to decode based on next-token prediction uncertainty and predicted contents' semantic role. Prior diversity-promoting methods, such as retraining, prompt engineering, and multi-sampling methods, improve diversity but often degrade quality or require costly decoding or post-training. In contrast, BACo achieves both high diversity and quality post hoc within a single pass, while offering strong controllability. We explore a family of routing strategies, across three open-ended generation tasks and 13 metrics covering diversity and quality, BACo consistently surpasses state-of-the-art inference-time baselines. With our best router, BACo achieves a 21.3% joint improvement in diversity and quality. Human evaluations also mirror these improvements. The results suggest that collaboration between base and aligned models can optimize and control diversity and quality.
PDF42December 2, 2025