ChatPaper.aiChatPaper

X-Reasoner: Auf dem Weg zu generalisierbarem Denken über Modalitäten und Domänen hinweg

X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6, 2025
Autoren: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI

Zusammenfassung

Aktuelle proprietäre Modelle (z. B. o3) haben begonnen, starke multimodale Fähigkeiten im Bereich des logischen Denkens zu demonstrieren. Dennoch konzentriert sich die Mehrheit der bestehenden Open-Source-Forschung auf das Training von Modellen, die ausschließlich auf Text basieren, wobei die Evaluierungen hauptsächlich auf mathematische und allgemeine Aufgaben beschränkt sind. Daher bleibt unklar, wie man die Fähigkeiten des logischen Denkens effektiv über Texteingaben und allgemeine Domänen hinaus erweitern kann. Diese Arbeit untersucht eine grundlegende Forschungsfrage: Ist logisches Denken über Modalitäten und Domänen hinweg verallgemeinerbar? Unsere Ergebnisse unterstützen eine bejahende Antwort: Nachträgliches Training auf allgemeinen Textdaten kann ein solch starkes verallgemeinerbares Denken ermöglichen. Basierend auf dieser Erkenntnis stellen wir X-Reasoner vor, ein Vision-Sprache-Modell, das ausschließlich auf allgemeinen Textdaten nachtrainiert wurde, um verallgemeinerbares Denken zu ermöglichen. Dabei verwenden wir einen zweistufigen Ansatz: eine anfängliche überwachte Feinabstimmung mit destillierten langen Gedankenketten, gefolgt von bestärkendem Lernen mit überprüfbaren Belohnungen. Experimente zeigen, dass X-Reasoner erfolgreich die Fähigkeiten des logischen Denkens auf multimodale und domänenübergreifende Kontexte überträgt und dabei bestehende state-of-the-art Modelle, die mit domänenspezifischen und multimodalen Daten trainiert wurden, in verschiedenen allgemeinen und medizinischen Benchmarks übertrifft (Abbildung 1). Zusätzlich stellen wir fest, dass die Leistung von X-Reasoner in spezialisierten Domänen durch weiteres Training auf domänenspezifischen Textdaten weiter verbessert werden kann. Aufbauend darauf führen wir X-Reasoner-Med ein, eine medizinisch spezialisierte Variante, die neue Bestwerte auf zahlreichen textbasierten und multimodalen medizinischen Benchmarks erreicht.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.

Summary

AI-Generated Summary

PDF82May 9, 2025