ChatPaper.aiChatPaper

X-Reasoner: Hacia un Razonamiento Generalizable a través de Modalidades y Dominios

X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6, 2025
Autores: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI

Resumen

Los modelos propietarios recientes (por ejemplo, o3) han comenzado a demostrar capacidades sólidas de razonamiento multimodal. Sin embargo, la mayoría de las investigaciones de código abierto existentes se concentran en entrenar modelos de razonamiento exclusivamente basados en texto, con evaluaciones limitadas principalmente a tareas matemáticas y de dominio general. Por lo tanto, aún no está claro cómo extender eficazmente las capacidades de razonamiento más allá de la entrada de texto y los dominios generales. Este artículo explora una pregunta fundamental de investigación: ¿Es el razonamiento generalizable entre modalidades y dominios? Nuestros hallazgos respaldan una respuesta afirmativa: el post-entrenamiento basado en texto de dominio general puede permitir un razonamiento tan fuerte y generalizable. Aprovechando este hallazgo, presentamos X-Reasoner, un modelo de visión y lenguaje post-entrenado únicamente en texto de dominio general para un razonamiento generalizable, utilizando un enfoque de dos etapas: una fase inicial de ajuste fino supervisado con cadenas de pensamiento largas destiladas, seguida de aprendizaje por refuerzo con recompensas verificables. Los experimentos muestran que X-Reasoner transfiere con éxito las capacidades de razonamiento a entornos tanto multimodales como fuera de dominio, superando a los modelos de última generación existentes entrenados con datos de dominio específico y multimodales en varios puntos de referencia generales y médicos (Figura 1). Además, encontramos que el rendimiento de X-Reasoner en dominios especializados puede mejorarse aún más mediante un entrenamiento continuo con datos de texto específicos del dominio. Basándonos en esto, presentamos X-Reasoner-Med, una variante especializada en medicina que establece un nuevo estado del arte en numerosos puntos de referencia médicos, tanto de texto como multimodales.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.

Summary

AI-Generated Summary

PDF82May 9, 2025