X-Reasoner : Vers un raisonnement généralisable à travers les modalités et les domaines
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
May 6, 2025
Auteurs: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI
Résumé
Les modèles propriétaires récents (par exemple, o3) ont commencé à démontrer de solides capacités de raisonnement multimodal. Pourtant, la plupart des recherches open-source existantes se concentrent sur l'entraînement de modèles de raisonnement basés uniquement sur le texte, avec des évaluations limitées principalement à des tâches mathématiques et généralistes. Par conséquent, il reste incertain comment étendre efficacement les capacités de raisonnement au-delà des entrées textuelles et des domaines généraux. Cet article explore une question de recherche fondamentale : Le raisonnement est-il généralisable à travers les modalités et les domaines ? Nos résultats soutiennent une réponse affirmative : Un post-entraînement basé sur du texte généraliste peut permettre un tel raisonnement fortement généralisable. En tirant parti de cette découverte, nous introduisons X-Reasoner, un modèle vision-langage post-entraîné uniquement sur du texte généraliste pour un raisonnement généralisable, en utilisant une approche en deux étapes : une phase initiale de fine-tuning supervisé avec des chaînes de pensée longues distillées, suivie d'un apprentissage par renforcement avec des récompenses vérifiables. Les expériences montrent que X-Reasoner transfère avec succès ses capacités de raisonnement à des contextes multimodaux et hors domaine, surpassant les modèles de pointe existants entraînés avec des données intra-domaines et multimodales sur divers benchmarks généraux et médicaux (Figure 1). De plus, nous constatons que la performance de X-Reasoner dans des domaines spécialisés peut être encore améliorée par un entraînement continu sur des données textuelles spécifiques au domaine. Sur cette base, nous introduisons X-Reasoner-Med, une variante spécialisée en médecine qui établit un nouvel état de l'art sur de nombreux benchmarks médicaux textuels et multimodaux.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong
multimodal reasoning capabilities. Yet, most existing open-source research
concentrates on training text-only reasoning models, with evaluations limited
to mainly mathematical and general-domain tasks. Therefore, it remains unclear
how to effectively extend reasoning capabilities beyond text input and general
domains. This paper explores a fundamental research question: Is reasoning
generalizable across modalities and domains? Our findings support an
affirmative answer: General-domain text-based post-training can enable such
strong generalizable reasoning. Leveraging this finding, we introduce
X-Reasoner, a vision-language model post-trained solely on general-domain text
for generalizable reasoning, using a two-stage approach: an initial supervised
fine-tuning phase with distilled long chain-of-thoughts, followed by
reinforcement learning with verifiable rewards. Experiments show that
X-Reasoner successfully transfers reasoning capabilities to both multimodal and
out-of-domain settings, outperforming existing state-of-the-art models trained
with in-domain and multimodal data across various general and medical
benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in
specialized domains can be further enhanced through continued training on
domain-specific text-only data. Building upon this, we introduce
X-Reasoner-Med, a medical-specialized variant that achieves new state of the
art on numerous text-only and multimodal medical benchmarks.Summary
AI-Generated Summary