Muestreo Verbalizado: Cómo Mitigar el Colapso Modal y Desbloquear la Diversidad en los Modelos de Lenguaje de Gran Escala
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
October 1, 2025
Autores: Jiayi Zhang, Simon Yu, Derek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi
cs.AI
Resumen
La alineación posterior al entrenamiento a menudo reduce la diversidad de los modelos de lenguaje grandes (LLM), lo que conduce a un fenómeno conocido como colapso de modos. A diferencia de trabajos previos que atribuyen este efecto a limitaciones algorítmicas, identificamos un factor fundamental y omnipresente a nivel de datos: el sesgo de tipicidad en los datos de preferencia, mediante el cual los anotadores favorecen sistemáticamente textos familiares como resultado de hallazgos bien establecidos en psicología cognitiva. Formalizamos teóricamente este sesgo, lo verificamos empíricamente en conjuntos de datos de preferencia y demostramos que desempeña un papel central en el colapso de modos. Motivados por este análisis, introducimos el Muestreo Verbalizado (Verbalized Sampling, VS), una estrategia simple y libre de entrenamiento para evitar el colapso de modos. VS solicita al modelo que verbalice una distribución de probabilidad sobre un conjunto de respuestas (por ejemplo, "Genera 5 chistes sobre café y sus probabilidades correspondientes"). Experimentos exhaustivos muestran que VS mejora significativamente el rendimiento en escritura creativa (poemas, historias, chistes), simulación de diálogos, preguntas y respuestas de tipo abierto y generación de datos sintéticos, sin sacrificar la precisión factual ni la seguridad. Por ejemplo, en escritura creativa, VS aumenta la diversidad entre 1.6 y 2.1 veces en comparación con el enfoque de solicitud directa. Además, observamos una tendencia emergente en la que los modelos más capaces se benefician más de VS. En resumen, nuestro trabajo ofrece una nueva perspectiva centrada en los datos sobre el colapso de modos y un remedio práctico en tiempo de inferencia que ayuda a desbloquear la diversidad generativa preentrenada.
English
Post-training alignment often reduces LLM diversity, leading to a phenomenon
known as mode collapse. Unlike prior work that attributes this effect to
algorithmic limitations, we identify a fundamental, pervasive data-level
driver: typicality bias in preference data, whereby annotators systematically
favor familiar text as a result of well-established findings in cognitive
psychology. We formalize this bias theoretically, verify it on preference
datasets empirically, and show that it plays a central role in mode collapse.
Motivated by this analysis, we introduce Verbalized Sampling, a simple,
training-free prompting strategy to circumvent mode collapse. VS prompts the
model to verbalize a probability distribution over a set of responses (e.g.,
``Generate 5 jokes about coffee and their corresponding probabilities'').
Comprehensive experiments show that VS significantly improves performance
across creative writing (poems, stories, jokes), dialogue simulation,
open-ended QA, and synthetic data generation, without sacrificing factual
accuracy and safety. For instance, in creative writing, VS increases diversity
by 1.6-2.1x over direct prompting. We further observe an emergent trend that
more capable models benefit more from VS. In sum, our work provides a new
data-centric perspective on mode collapse and a practical inference-time remedy
that helps unlock pre-trained generative diversity.