X-Reasoner: К универсальным рассуждениям через модальности и области
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
May 6, 2025
Авторы: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon
cs.AI
Аннотация
Недавние проприетарные модели (например, o3) начали демонстрировать мощные способности к мультимодальным рассуждениям. Однако большинство существующих исследований с открытым исходным кодом сосредоточено на обучении моделей, способных рассуждать только на основе текста, с оценками, ограниченными в основном математическими и общедоменными задачами. Поэтому остается неясным, как эффективно расширить способности к рассуждениям за пределы текстового ввода и общих областей. В данной статье исследуется фундаментальный научный вопрос: Являются ли рассуждения обобщаемыми между модальностями и доменами? Наши результаты подтверждают положительный ответ: Пост-обучение на общедоменных текстах может обеспечить такие сильные обобщаемые способности к рассуждениям. Используя это открытие, мы представляем X-Reasoner, модель обработки визуально-языковой информации, пост-обученную исключительно на общедоменных текстах для обобщаемых рассуждений, с использованием двухэтапного подхода: начальной фазы контролируемого тонкого настройки с дистиллированными длинными цепочками рассуждений, за которой следует обучение с подкреплением с проверяемыми вознаграждениями. Эксперименты показывают, что X-Reasoner успешно переносит способности к рассуждениям как в мультимодальные, так и в внедоменные условия, превосходя существующие передовые модели, обученные на внутридоменных и мультимодальных данных, на различных общих и медицинских тестах (Рисунок 1). Кроме того, мы обнаружили, что производительность X-Reasoner в специализированных доменах может быть дополнительно улучшена за счет продолжения обучения на доменно-специфических текстовых данных. На основе этого мы представляем X-Reasoner-Med, медицинскую специализированную версию, которая устанавливает новый стандарт на многочисленных текстовых и мультимодальных медицинских тестах.
English
Recent proprietary models (e.g., o3) have begun to demonstrate strong
multimodal reasoning capabilities. Yet, most existing open-source research
concentrates on training text-only reasoning models, with evaluations limited
to mainly mathematical and general-domain tasks. Therefore, it remains unclear
how to effectively extend reasoning capabilities beyond text input and general
domains. This paper explores a fundamental research question: Is reasoning
generalizable across modalities and domains? Our findings support an
affirmative answer: General-domain text-based post-training can enable such
strong generalizable reasoning. Leveraging this finding, we introduce
X-Reasoner, a vision-language model post-trained solely on general-domain text
for generalizable reasoning, using a two-stage approach: an initial supervised
fine-tuning phase with distilled long chain-of-thoughts, followed by
reinforcement learning with verifiable rewards. Experiments show that
X-Reasoner successfully transfers reasoning capabilities to both multimodal and
out-of-domain settings, outperforming existing state-of-the-art models trained
with in-domain and multimodal data across various general and medical
benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in
specialized domains can be further enhanced through continued training on
domain-specific text-only data. Building upon this, we introduce
X-Reasoner-Med, a medical-specialized variant that achieves new state of the
art on numerous text-only and multimodal medical benchmarks.Summary
AI-Generated Summary