SwimBird: Evocação do Modo de Raciocínio Comutável em MLLMs Autoregressivos Híbridos
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
Autores: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) têm feito progressos notáveis na percepção e raciocínio multimodal ao conectar visão e linguagem. No entanto, a maioria dos MLLMs existentes realiza o raciocínio principalmente com Cadeia de Pensamento (CoT) textual, o que limita sua eficácia em tarefas visualmente intensivas. Abordagens recentes injetam um número fixo de estados ocultos contínuos como "pensamentos visuais" no processo de raciocínio e melhoram o desempenho visual, mas frequentemente ao custo de um raciocínio lógico baseado em texto degradado. Argumentamos que a limitação central reside em um padrão de raciocínio rígido e pré-definido que não pode escolher adaptativamente a modalidade de pensamento mais adequada para diferentes consultas do usuário. Apresentamos o SwimBird, um MLLM comutável de raciocínio que alterna dinamicamente entre três modos de raciocínio condicionados à entrada: (1) raciocínio apenas com texto, (2) raciocínio apenas com visão (estados ocultos contínuos como pensamentos visuais) e (3) raciocínio intercalado visão-texto. Para habilitar essa capacidade, adotamos uma formulação autoregressiva híbrida que unifica a previsão do próximo token para pensamentos textuais com a previsão da próxima incorporação (embedding) para pensamentos visuais, e projetamos uma estratégia sistemática de curadoria de modos de raciocínio para construir o SwimBird-SFT-92K, um conjunto de dados diversificado de ajuste fino supervisionado que abrange todos os três padrões de raciocínio. Ao permitir uma seleção de modo flexível e adaptável à consulta, o SwimBird preserva uma forte lógica textual enquanto melhora substancialmente o desempenho em tarefas visualmente densas. Experimentos em diversos benchmarks que abrangem raciocínio textual e compreensão visual desafiadora demonstram que o SwimBird alcança resultados de última geração e ganhos robustos em comparação com métodos anteriores de raciocínio multimodal de padrão fixo.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.