X-Reasoner: Op weg naar generaliseerbare redenering over modaliteiten en domeinen
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
May 6, 2025
Auteurs: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI
Samenvatting
Recente propriëtaire modellen (bijv. o3) beginnen sterke multimodale redeneervaardigheden te demonstreren. Toch richt het meeste bestaande open-source onderzoek zich op het trainen van tekstgerichte redeneermodellen, waarbij de evaluaties voornamelijk beperkt blijven tot wiskundige en algemene domeintaken. Daarom blijft het onduidelijk hoe redeneervaardigheden effectief kunnen worden uitgebreid buiten tekstinvoer en algemene domeinen. Dit artikel onderzoekt een fundamentele onderzoeksvraag: Is redeneren generaliseerbaar over modaliteiten en domeinen? Onze bevindingen ondersteunen een bevestigend antwoord: Post-training op algemeen-domein tekst kan dergelijke sterke generaliseerbare redeneervaardigheden mogelijk maken. Gebruikmakend van deze bevinding introduceren we X-Reasoner, een visie-taalmodel dat uitsluitend is getraind op algemeen-domein tekst voor generaliseerbaar redeneren, met behulp van een tweefasenbenadering: een initiële fase van begeleide fine-tuning met gedistilleerde lange ketens van gedachten, gevolgd door reinforcement learning met verifieerbare beloningen. Experimenten tonen aan dat X-Reasoner redeneervaardigheden succesvol overdraagt naar zowel multimodale als domeinoverschrijdende instellingen, en daarbij bestaande state-of-the-art modellen die zijn getraind met domeinspecifieke en multimodale data overtreft op verschillende algemene en medische benchmarks (Figuur 1). Daarnaast ontdekken we dat de prestaties van X-Reasoner in gespecialiseerde domeinen verder kunnen worden verbeterd door voortgezette training op domeinspecifieke tekstdata. Hierop voortbouwend introduceren we X-Reasoner-Med, een medisch gespecialiseerde variant die nieuwe state-of-the-art resultaten behaalt op tal van tekstgerichte en multimodale medische benchmarks.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong
multimodal reasoning capabilities. Yet, most existing open-source research
concentrates on training text-only reasoning models, with evaluations limited
to mainly mathematical and general-domain tasks. Therefore, it remains unclear
how to effectively extend reasoning capabilities beyond text input and general
domains. This paper explores a fundamental research question: Is reasoning
generalizable across modalities and domains? Our findings support an
affirmative answer: General-domain text-based post-training can enable such
strong generalizable reasoning. Leveraging this finding, we introduce
X-Reasoner, a vision-language model post-trained solely on general-domain text
for generalizable reasoning, using a two-stage approach: an initial supervised
fine-tuning phase with distilled long chain-of-thoughts, followed by
reinforcement learning with verifiable rewards. Experiments show that
X-Reasoner successfully transfers reasoning capabilities to both multimodal and
out-of-domain settings, outperforming existing state-of-the-art models trained
with in-domain and multimodal data across various general and medical
benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in
specialized domains can be further enhanced through continued training on
domain-specific text-only data. Building upon this, we introduce
X-Reasoner-Med, a medical-specialized variant that achieves new state of the
art on numerous text-only and multimodal medical benchmarks.