ChatPaper.aiChatPaper

X-Reasoner: Verso un Ragionamento Generalizzabile Attraverso Modalità e Domini

X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6, 2025
Autori: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI

Abstract

I recenti modelli proprietari (ad esempio, o3) hanno iniziato a dimostrare forti capacità di ragionamento multimodale. Tuttavia, la maggior parte della ricerca open-source esistente si concentra sull'addestramento di modelli di ragionamento esclusivamente testuali, con valutazioni limitate principalmente a compiti matematici e di dominio generale. Pertanto, rimane poco chiaro come estendere efficacemente le capacità di ragionamento oltre l'input testuale e i domini generali. Questo articolo esplora una questione di ricerca fondamentale: il ragionamento è generalizzabile tra modalità e domini? I nostri risultati supportano una risposta affermativa: il post-training basato su testo di dominio generale può abilitare un ragionamento così fortemente generalizzabile. Sfruttando questa scoperta, introduciamo X-Reasoner, un modello visione-linguaggio post-addestrato esclusivamente su testo di dominio generale per il ragionamento generalizzabile, utilizzando un approccio in due fasi: una prima fase di fine-tuning supervisionato con catene di pensiero lunghe distillate, seguita da apprendimento per rinforzo con ricompense verificabili. Gli esperimenti mostrano che X-Reasoner trasferisce con successo le capacità di ragionamento sia a contesti multimodali che fuori dominio, superando i modelli state-of-the-art esistenti addestrati con dati in dominio e multimodali su vari benchmark generali e medici (Figura 1). Inoltre, scopriamo che le prestazioni di X-Reasoner in domini specializzati possono essere ulteriormente migliorate attraverso un addestramento continuo su dati testuali specifici del dominio. Basandoci su questo, introduciamo X-Reasoner-Med, una variante specializzata in ambito medico che raggiunge nuovi stati dell'arte su numerosi benchmark medici sia testuali che multimodali.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.
PDF153May 9, 2025