Transformando la Deriva en Restricción: Alineación Robusta del Razonamiento en Entornos No Estacionarios

Resumen

Este artículo identifica un desafío crítico y poco explorado en la alineación del razonamiento a partir de múltiples modelos de lenguaje grandes multimodales (MLLMs, por sus siglas en inglés): en entornos no estacionarios, las diversas distribuciones de razonamiento de los modelos fuente a menudo evolucionan de manera impredecible, transmitiendo sesgos sistemáticos y deriva (*drift*) al modelo objetivo. Para abordar esto, formulamos la alineación del razonamiento multi-fuente como un problema de satisfacción de restricciones bajo la teoría de la deriva de concepto. Proponemos la Optimización Autónoma de Preferencias (APO, por sus siglas en inglés), un marco novedoso que trata las divergencias entre modelos no como ruido, sino como restricciones negativas dinámicas. APO opera mediante un protocolo de dos etapas: primero, un arranque supervisado proyecta el modelo objetivo hacia la unión de capacidades de los modelos fuente; segundo, una optimización consciente de las restricciones sintetiza una variedad de consenso consistente mediante la supresión explícita de trayectorias de deriva a través de un objetivo de Plackett-Luce multi-negativo. Experimentos exhaustivos en la interpretación de radiografías de tórax demuestran que nuestro modelo de 7B logra una robustez superior, superando incluso a los modelos fuente propietarios en precisión promedio. Además, publicamos CXR-MAX, un benchmark a gran escala que comprende 170.982 trayectorias de razonamiento de siete MLLMs a gran escala, para facilitar la investigación sobre la alineación del razonamiento bajo deriva. El código y los datos están disponibles en: https://github.com/XiaoyuYoung/APO.

English

This paper identifies a critical yet underexplored challenge in reasoning alignment from multiple multi-modal large language models (MLLMs): In non-stationary environments, the diverse reasoning distributions of source models often evolve unpredictably, transmitting systematic biases and drift to the target model. To address this, we formulate multi-source reasoning alignment as a constraint satisfaction problem under concept drift theory. We propose Autonomous Preference Optimization (APO), a novel framework that treats inter-model divergences not as noise, but as dynamic negative constraints. APO operates via a two-stage protocol: first, supervised bootstrapping projects the target model into the capability union of source models; second, constraint-aware optimization synthesizes a consistent consensus manifold by explicitly suppressing drifting trajectories via a multi-negative Plackett-Luce objective. Extensive experiments on chest X-ray interpretation demonstrate that our 7B model achieves superior robustness, outperforming even proprietary source models in average accuracy. Furthermore, we release CXR-MAX, a large-scale benchmark comprising 170,982 reasoning trajectories from seven large-scale MLLMs to facilitate research on reasoning alignment under drift. Code and data are available at: https://github.com/XiaoyuYoung/APO.

Transformando la Deriva en Restricción: Alineación Robusta del Razonamiento en Entornos No Estacionarios

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments

Resumen

Support