SwimBird: Выявление переключаемого режима рассуждений в гибридных авторегрессионных MLLM
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
Авторы: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в области мультимодального восприятия и логического вывода, объединяя возможности обработки визуальной и текстовой информации. Однако большинство существующих MLLM выполняют рассуждения преимущественно с помощью текстовых цепочек мыслей (CoT), что ограничивает их эффективность при решении визуально-насыщенных задач. Современные подходы внедряют фиксированное количество непрерывных скрытых состояний в качестве «визуальных мыслей» в процесс рассуждения, улучшая визуальную производительность, но часто за счёт ухудшения текстового логического вывода. Мы полагаем, что ключевое ограничение заключается в жёсткой, заранее заданной схеме рассуждений, которая не может адаптивно выбирать наиболее подходящую модальность мышления для различных пользовательских запросов. Мы представляем SwimBird — MLLM с переключаемым режимом рассуждений, которая динамически переключается между тремя режимами в зависимости от входных данных: (1) исключительно текстовые рассуждения, (2) исключительно визуальные рассуждения (непрерывные скрытые состояния как визуальные мысли) и (3) чередующиеся визуально-текстовые рассуждения. Для реализации этой возможности мы используем гибридную авторегрессионную формулировку, объединяющую предсказание следующей лексемы для текстовых мыслей с предсказанием следующего эмбеддинга для визуальных мыслей, и разрабатываем систематическую стратегию курирования режимов рассуждений для создания SwimBird-SFT-92K — разнообразного набора данных для контролируемого тонкого обучения, охватывающего все три шаблона рассуждений. Благодаря гибкому, адаптивному к запросу выбору режима, SwimBird сохраняет сильную текстовую логику, одновременно существенно улучшая производительность на визуально-плотных задачах. Эксперименты на различных бенчмарках, охватывающих текстовые рассуждения и сложные задачи визуального понимания, демонстрируют, что SwimBird достигает наилучших результатов и устойчивого преимущества по сравнению с предыдущими методами мультимодального вывода с фиксированными шаблонами.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.