SwimBird: Inducción de Modos de Razonamiento Conmutables en MLLMs Autoregresivos Híbridos
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
Autores: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso notable en la percepción y el razonamiento multimodal al conectar la visión y el lenguaje. Sin embargo, la mayoría de los MLLMs existentes realizan el razonamiento principalmente mediante Cadena de Pensamiento (CoT) textual, lo que limita su eficacia en tareas intensivas en visión. Enfoques recientes inyectan un número fijo de estados ocultos continuos como "pensamientos visuales" en el proceso de razonamiento y mejoran el rendimiento visual, pero a menudo a costa de un razonamiento lógico basado en texto degradado. Sostenemos que la limitación central reside en un patrón de razonamiento rígido y predefinido que no puede elegir adaptativamente la modalidad de pensamiento más adecuada para diferentes consultas de los usuarios. Presentamos SwimBird, un MLLM conmutador de razonamiento que cambia dinámicamente entre tres modos de razonamiento condicionados por la entrada: (1) razonamiento solo con texto, (2) razonamiento solo con visión (estados ocultos continuos como pensamientos visuales) y (3) razonamiento intercalado visión-texto. Para posibilitar esta capacidad, adoptamos una formulación autorregresiva híbrida que unifica la predicción del siguiente token para pensamientos textuales con la predicción de la siguiente incrustación (embedding) para pensamientos visuales, y diseñamos una estrategia sistemática de curación de modos de razonamiento para construir SwimBird-SFT-92K, un conjunto de datos diverso de ajuste fino supervisado que cubre los tres patrones de razonamiento. Al permitir una selección de modo flexible y adaptativa a la consulta, SwimBird preserva una fuerte lógica textual mientras mejora sustancialmente el rendimiento en tareas densas en visión. Los experimentos en diversos benchmarks que cubren razonamiento textual y comprensión visual desafiante demuestran que SwimBird logra resultados de vanguardia y ganancias robustas sobre métodos previos de razonamiento multimodal con patrones fijos.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.