ChatPaper.aiChatPaper

X-Reasoner: Op weg naar generaliseerbare redenering over modaliteiten en domeinen

X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6, 2025
Auteurs: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI

Samenvatting

Recente propriëtaire modellen (bijv. o3) beginnen sterke multimodale redeneervaardigheden te demonstreren. Toch richt het meeste bestaande open-source onderzoek zich op het trainen van tekstgerichte redeneermodellen, waarbij de evaluaties voornamelijk beperkt blijven tot wiskundige en algemene domeintaken. Daarom blijft het onduidelijk hoe redeneervaardigheden effectief kunnen worden uitgebreid buiten tekstinvoer en algemene domeinen. Dit artikel onderzoekt een fundamentele onderzoeksvraag: Is redeneren generaliseerbaar over modaliteiten en domeinen? Onze bevindingen ondersteunen een bevestigend antwoord: Post-training op algemeen-domein tekst kan dergelijke sterke generaliseerbare redeneervaardigheden mogelijk maken. Gebruikmakend van deze bevinding introduceren we X-Reasoner, een visie-taalmodel dat uitsluitend is getraind op algemeen-domein tekst voor generaliseerbaar redeneren, met behulp van een tweefasenbenadering: een initiële fase van begeleide fine-tuning met gedistilleerde lange ketens van gedachten, gevolgd door reinforcement learning met verifieerbare beloningen. Experimenten tonen aan dat X-Reasoner redeneervaardigheden succesvol overdraagt naar zowel multimodale als domeinoverschrijdende instellingen, en daarbij bestaande state-of-the-art modellen die zijn getraind met domeinspecifieke en multimodale data overtreft op verschillende algemene en medische benchmarks (Figuur 1). Daarnaast ontdekken we dat de prestaties van X-Reasoner in gespecialiseerde domeinen verder kunnen worden verbeterd door voortgezette training op domeinspecifieke tekstdata. Hierop voortbouwend introduceren we X-Reasoner-Med, een medisch gespecialiseerde variant die nieuwe state-of-the-art resultaten behaalt op tal van tekstgerichte en multimodale medische benchmarks.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.
PDF143May 9, 2025