Превращение дрейфа в ограничение: обеспечение устойчивого согласования рассуждений в нестационарных средах

Аннотация

В данной статье рассматривается важная, но недостаточно изученная проблема согласования рассуждений от нескольких мультимодальных больших языковых моделей (MLLM): в нестационарных средах разнородные распределения рассуждений исходных моделей часто эволюционируют непредсказуемо, передавая систематические смещения и дрейф целевой модели. Для решения этой проблемы мы формулируем задачу многоканального согласования рассуждений как проблему удовлетворения ограничений в рамках теории концептуального дрейфа. Мы предлагаем Автономную Оптимизацию Предпочтений (APO) — новую структуру, которая трактует межмодельные расхождения не как шум, а как динамические негативные ограничения. APO функционирует по двухэтапному протоколу: сначала контролируемая начальная загрузка проецирует целевую модель в объединение возможностей исходных моделей; затем оптимизация с учетом ограничений синтезирует согласованное многообразие консенсуса за счет явного подавления дрейфующих траекторий с помощью многонегативной функции потерь Плэккетта-Льюса. Обширные эксперименты по интерпретации рентгенограмм грудной клетки демонстрируют, что наша 7-миллиардная модель достигает превосходной устойчивости, превосходя по средней точности даже проприетарные исходные модели. Кроме того, мы публикуем CXR-MAX — крупномасштабный бенчмарк, содержащий 170 982 траектории рассуждений от семи крупных MLLM, для содействия исследованиям по согласованию рассуждений в условиях дрейфа. Код и данные доступны по адресу: https://github.com/XiaoyuYoung/APO.

English

This paper identifies a critical yet underexplored challenge in reasoning alignment from multiple multi-modal large language models (MLLMs): In non-stationary environments, the diverse reasoning distributions of source models often evolve unpredictably, transmitting systematic biases and drift to the target model. To address this, we formulate multi-source reasoning alignment as a constraint satisfaction problem under concept drift theory. We propose Autonomous Preference Optimization (APO), a novel framework that treats inter-model divergences not as noise, but as dynamic negative constraints. APO operates via a two-stage protocol: first, supervised bootstrapping projects the target model into the capability union of source models; second, constraint-aware optimization synthesizes a consistent consensus manifold by explicitly suppressing drifting trajectories via a multi-negative Plackett-Luce objective. Extensive experiments on chest X-ray interpretation demonstrate that our 7B model achieves superior robustness, outperforming even proprietary source models in average accuracy. Furthermore, we release CXR-MAX, a large-scale benchmark comprising 170,982 reasoning trajectories from seven large-scale MLLMs to facilitate research on reasoning alignment under drift. Code and data are available at: https://github.com/XiaoyuYoung/APO.

Превращение дрейфа в ограничение: обеспечение устойчивого согласования рассуждений в нестационарных средах

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments

Аннотация

Support