X-Reasoner: Verso un Ragionamento Generalizzabile Attraverso Modalità e Domini
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
May 6, 2025
Autori: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI
Abstract
I recenti modelli proprietari (ad esempio, o3) hanno iniziato a dimostrare forti capacità di ragionamento multimodale. Tuttavia, la maggior parte della ricerca open-source esistente si concentra sull'addestramento di modelli di ragionamento esclusivamente testuali, con valutazioni limitate principalmente a compiti matematici e di dominio generale. Pertanto, rimane poco chiaro come estendere efficacemente le capacità di ragionamento oltre l'input testuale e i domini generali. Questo articolo esplora una questione di ricerca fondamentale: il ragionamento è generalizzabile tra modalità e domini? I nostri risultati supportano una risposta affermativa: il post-training basato su testo di dominio generale può abilitare un ragionamento così fortemente generalizzabile. Sfruttando questa scoperta, introduciamo X-Reasoner, un modello visione-linguaggio post-addestrato esclusivamente su testo di dominio generale per il ragionamento generalizzabile, utilizzando un approccio in due fasi: una prima fase di fine-tuning supervisionato con catene di pensiero lunghe distillate, seguita da apprendimento per rinforzo con ricompense verificabili. Gli esperimenti mostrano che X-Reasoner trasferisce con successo le capacità di ragionamento sia a contesti multimodali che fuori dominio, superando i modelli state-of-the-art esistenti addestrati con dati in dominio e multimodali su vari benchmark generali e medici (Figura 1). Inoltre, scopriamo che le prestazioni di X-Reasoner in domini specializzati possono essere ulteriormente migliorate attraverso un addestramento continuo su dati testuali specifici del dominio. Basandoci su questo, introduciamo X-Reasoner-Med, una variante specializzata in ambito medico che raggiunge nuovi stati dell'arte su numerosi benchmark medici sia testuali che multimodali.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong
multimodal reasoning capabilities. Yet, most existing open-source research
concentrates on training text-only reasoning models, with evaluations limited
to mainly mathematical and general-domain tasks. Therefore, it remains unclear
how to effectively extend reasoning capabilities beyond text input and general
domains. This paper explores a fundamental research question: Is reasoning
generalizable across modalities and domains? Our findings support an
affirmative answer: General-domain text-based post-training can enable such
strong generalizable reasoning. Leveraging this finding, we introduce
X-Reasoner, a vision-language model post-trained solely on general-domain text
for generalizable reasoning, using a two-stage approach: an initial supervised
fine-tuning phase with distilled long chain-of-thoughts, followed by
reinforcement learning with verifiable rewards. Experiments show that
X-Reasoner successfully transfers reasoning capabilities to both multimodal and
out-of-domain settings, outperforming existing state-of-the-art models trained
with in-domain and multimodal data across various general and medical
benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in
specialized domains can be further enhanced through continued training on
domain-specific text-only data. Building upon this, we introduce
X-Reasoner-Med, a medical-specialized variant that achieves new state of the
art on numerous text-only and multimodal medical benchmarks.