Abdrift in Begrenzung verwandeln: Robuste Ausrichtung des Denkens in nicht-stationären Umgebungen

Zusammenfassung

Dieses Arbeit identifiziert eine kritische, aber bislang wenig erforschte Herausforderung bei der Reasoning-Alignment von mehreren multimodalen Large Language Models (MLLMs): In nicht-stationären Umgebungen entwickeln sich die diversen Reasoning-Verteilungen der Quellmodelle oft unvorhersehbar und übertragen systematische Verzerrungen und Drift auf das Zielmodell. Um dies zu adressieren, formulieren wir Multi-Source-Reasoning-Alignment als ein Constraint-Satisfaction-Problem unter der Theorie des Concept Drifts. Wir schlagen Autonomous Preference Optimization (APO) vor, einen neuartigen Rahmen, der intermodelle Divergenzen nicht als Rauschen, sondern als dynamische Negative Constraints behandelt. APO operiert über ein zweistufiges Protokoll: Zuerst projiziert ein supervidiertes Bootstrapping das Zielmodell in die Fähigkeitsunion der Quellmodelle; anschließend synthetisiert eine constraint-bewusste Optimierung eine konsistente Konsensus-Mannigfaltigkeit, indem driftende Trajektorien explizit durch ein multi-negatives Plackett-Luce-Ziel unterdrückt werden. Umfangreiche Experimente zur Interpretation von Thorax-Röntgenaufnahmen zeigen, dass unser 7B-Modell eine überlegene Robustheit erreicht und sogar proprietäre Quellmodelle in der durchschnittlichen Genauigkeit übertrifft. Darüber hinaus veröffentlichen wir CXR-MAX, einen großen Benchmark mit 170.982 Reasoning-Trajektorien von sieben großskaligen MLLMs, um die Forschung zu Reasoning-Alignment unter Drift zu erleichtern. Code und Daten sind verfügbar unter: https://github.com/XiaoyuYoung/APO.

English

This paper identifies a critical yet underexplored challenge in reasoning alignment from multiple multi-modal large language models (MLLMs): In non-stationary environments, the diverse reasoning distributions of source models often evolve unpredictably, transmitting systematic biases and drift to the target model. To address this, we formulate multi-source reasoning alignment as a constraint satisfaction problem under concept drift theory. We propose Autonomous Preference Optimization (APO), a novel framework that treats inter-model divergences not as noise, but as dynamic negative constraints. APO operates via a two-stage protocol: first, supervised bootstrapping projects the target model into the capability union of source models; second, constraint-aware optimization synthesizes a consistent consensus manifold by explicitly suppressing drifting trajectories via a multi-negative Plackett-Luce objective. Extensive experiments on chest X-ray interpretation demonstrate that our 7B model achieves superior robustness, outperforming even proprietary source models in average accuracy. Furthermore, we release CXR-MAX, a large-scale benchmark comprising 170,982 reasoning trajectories from seven large-scale MLLMs to facilitate research on reasoning alignment under drift. Code and data are available at: https://github.com/XiaoyuYoung/APO.

Abdrift in Begrenzung verwandeln: Robuste Ausrichtung des Denkens in nicht-stationären Umgebungen

Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments

Zusammenfassung

Support