X-Reasoner: Rumo ao Raciocínio Generalizável Através de Modalidades e Domínios
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
May 6, 2025
Autores: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI
Resumo
Modelos proprietários recentes (por exemplo, o3) começaram a demonstrar fortes capacidades de raciocínio multimodal. No entanto, a maioria das pesquisas de código aberto existentes concentra-se no treinamento de modelos de raciocínio apenas para texto, com avaliações limitadas principalmente a tarefas matemáticas e de domínio geral. Portanto, ainda não está claro como estender efetivamente as capacidades de raciocínio além da entrada de texto e de domínios gerais. Este artigo explora uma questão fundamental de pesquisa: O raciocínio é generalizável entre modalidades e domínios? Nossas descobertas apoiam uma resposta afirmativa: O pós-treinamento baseado em texto de domínio geral pode permitir um raciocínio tão fortemente generalizável. Aproveitando essa descoberta, introduzimos o X-Reasoner, um modelo de visão e linguagem pós-treinado apenas em texto de domínio geral para raciocínio generalizável, usando uma abordagem em duas etapas: uma fase inicial de ajuste fino supervisionado com cadeias de pensamento longas destiladas, seguida de aprendizado por reforço com recompensas verificáveis. Experimentos mostram que o X-Reasoner transfere com sucesso as capacidades de raciocínio para configurações multimodais e fora do domínio, superando os modelos state-of-the-art existentes treinados com dados in-domain e multimodais em vários benchmarks gerais e médicos (Figura 1). Além disso, descobrimos que o desempenho do X-Reasoner em domínios especializados pode ser ainda mais aprimorado por meio de treinamento contínuo em dados de texto específicos do domínio. Com base nisso, introduzimos o X-Reasoner-Med, uma variante especializada em medicina que alcança novos patamares state of the art em diversos benchmarks médicos de texto e multimodal.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong
multimodal reasoning capabilities. Yet, most existing open-source research
concentrates on training text-only reasoning models, with evaluations limited
to mainly mathematical and general-domain tasks. Therefore, it remains unclear
how to effectively extend reasoning capabilities beyond text input and general
domains. This paper explores a fundamental research question: Is reasoning
generalizable across modalities and domains? Our findings support an
affirmative answer: General-domain text-based post-training can enable such
strong generalizable reasoning. Leveraging this finding, we introduce
X-Reasoner, a vision-language model post-trained solely on general-domain text
for generalizable reasoning, using a two-stage approach: an initial supervised
fine-tuning phase with distilled long chain-of-thoughts, followed by
reinforcement learning with verifiable rewards. Experiments show that
X-Reasoner successfully transfers reasoning capabilities to both multimodal and
out-of-domain settings, outperforming existing state-of-the-art models trained
with in-domain and multimodal data across various general and medical
benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in
specialized domains can be further enhanced through continued training on
domain-specific text-only data. Building upon this, we introduce
X-Reasoner-Med, a medical-specialized variant that achieves new state of the
art on numerous text-only and multimodal medical benchmarks.