漂流を制約へ:非定常環境におけるロバストな推論整合性の実現
Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments
May 2, 2026
著者: Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
cs.AI
要旨
本論文は、複数のマルチモーダル大規模言語モデル(MLLM)からの推論アラインメントにおける、重要でありながら十分に探究されていない課題を明らかにする。非定常環境下では、ソースモデル群の多様な推論分布が予測不能に進化し、体系的バイアスとドリフトをターゲットモデルに伝達するという問題である。この問題に対処するため、我々はマルチソース推論アラインメントを、コンセプトドリフト理論に基づく制約充足問題として定式化する。提案手法であるAutonomous Preference Optimization(APO)は、モデル間の差異をノイズではなく動的負制約として扱う新規フレームワークである。APOは2段階のプロトコルで動作する。第1段階では、教師ありブートストラップによりターゲットモデルをソースモデル群の能力和集合へ射影する。第2段階では、制約認識最適化により、マルチ負例Plackett-Luce目的関数を通じてドリフト軌跡を明示的に抑制することで、一貫した合意多様体を合成する。胸部X線画像解読における大規模実験により、提案した7Bパラメータモデルが優れたロバスト性を達成し、平均精度においてプロプライエタリなソースモデル群さえ凌駕することを実証した。さらに、ドリフト下での推論アラインメント研究を促進するため、7つの大規模MLLMから得られた170,982の推論軌跡から構成される大規模ベンチマークCXR-MAXを公開する。コードとデータは以下で公開されている:https://github.com/XiaoyuYoung/APO。
English
This paper identifies a critical yet underexplored challenge in reasoning alignment from multiple multi-modal large language models (MLLMs): In non-stationary environments, the diverse reasoning distributions of source models often evolve unpredictably, transmitting systematic biases and drift to the target model. To address this, we formulate multi-source reasoning alignment as a constraint satisfaction problem under concept drift theory. We propose Autonomous Preference Optimization (APO), a novel framework that treats inter-model divergences not as noise, but as dynamic negative constraints. APO operates via a two-stage protocol: first, supervised bootstrapping projects the target model into the capability union of source models; second, constraint-aware optimization synthesizes a consistent consensus manifold by explicitly suppressing drifting trajectories via a multi-negative Plackett-Luce objective. Extensive experiments on chest X-ray interpretation demonstrate that our 7B model achieves superior robustness, outperforming even proprietary source models in average accuracy. Furthermore, we release CXR-MAX, a large-scale benchmark comprising 170,982 reasoning trajectories from seven large-scale MLLMs to facilitate research on reasoning alignment under drift. Code and data are available at: https://github.com/XiaoyuYoung/APO.