Transformer la dérive en contrainte : alignement robuste du raisonnement dans des environnements non stationnaires

Résumé

Ce document identifie un défi critique mais sous-exploré dans l'alignement du raisonnement à partir de multiples modèles de langage multimodaux de grande taille (MLLM) : dans des environnements non stationnaires, les distributions de raisonnement diverses des modèles sources évoluent souvent de manière imprévisible, transmettant des biais systématiques et une dérive au modèle cible. Pour résoudre ce problème, nous formulons l'alignement du raisonnement multi-source comme un problème de satisfaction de contraintes sous la théorie de la dérive conceptuelle. Nous proposons l'Optimisation Autonome des Préférences (APO), un cadre novateur qui traite les divergences inter-modèles non pas comme du bruit, mais comme des contraintes négatives dynamiques. APO fonctionne via un protocole en deux étapes : premièrement, un amorçage supervisé projette le modèle cible dans l'union des capacités des modèles sources ; deuxièmement, une optimisation consciente des contraintes synthétise une variété de consensus cohérente en supprimant explicitement les trajectoires de dérive via un objectif multi-négatif de Plackett-Luce. Des expériences approfondies sur l'interprétation de radiographies pulmonaires démontrent que notre modèle de 7B atteint une robustesse supérieure, surpassant même les modèles sources propriétaires en précision moyenne. De plus, nous publions CXR-MAX, un benchmark à grande échelle comprenant 170 982 trajectoires de raisonnement issues de sept MLLM à grande échelle, pour faciliter la recherche sur l'alignement du raisonnement sous dérive. Le code et les données sont disponibles à l'adresse : https://github.com/XiaoyuYoung/APO.

English

This paper identifies a critical yet underexplored challenge in reasoning alignment from multiple multi-modal large language models (MLLMs): In non-stationary environments, the diverse reasoning distributions of source models often evolve unpredictably, transmitting systematic biases and drift to the target model. To address this, we formulate multi-source reasoning alignment as a constraint satisfaction problem under concept drift theory. We propose Autonomous Preference Optimization (APO), a novel framework that treats inter-model divergences not as noise, but as dynamic negative constraints. APO operates via a two-stage protocol: first, supervised bootstrapping projects the target model into the capability union of source models; second, constraint-aware optimization synthesizes a consistent consensus manifold by explicitly suppressing drifting trajectories via a multi-negative Plackett-Luce objective. Extensive experiments on chest X-ray interpretation demonstrate that our 7B model achieves superior robustness, outperforming even proprietary source models in average accuracy. Furthermore, we release CXR-MAX, a large-scale benchmark comprising 170,982 reasoning trajectories from seven large-scale MLLMs to facilitate research on reasoning alignment under drift. Code and data are available at: https://github.com/XiaoyuYoung/APO.

Transformer la dérive en contrainte : alignement robuste du raisonnement dans des environnements non stationnaires

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments

Résumé

Support