SwimBird: Het Oproepen van een Omschakelbare Redeneermodus in Hybride Autoregressieve MLLM's
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
Auteurs: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) hebben opmerkelijke vooruitgang geboekt in multimodale perceptie en redenering door beeld en taal te verbinden. De meeste bestaande MLLM's voeren redeneringen echter voornamelijk uit met tekstuele Chain-of-Thought (CoT), wat hun effectiviteit op visueel intensieve taken beperkt. Recente benaderingen injecteren een vast aantal continue verborgen toestanden als "visuele gedachten" in het redeneerproces en verbeteren de visuele prestaties, maar vaak ten koste van verslechterd tekstueel logisch redeneren. Wij stellen dat de kernbeperking ligt in een rigide, vooraf gedefinieerd redeneerpatroon dat niet adaptief de meest geschikte denkmodaliteit kan kiezen voor verschillende gebruikersvragen. Wij introduceren SwimBird, een MLLM met schakelbaar redeneervermogen die dynamisch schakelt tussen drie redeneermodi, afhankelijk van de input: (1) uitsluitend tekstueel redeneren, (2) uitsluitend visueel redeneren (continue verborgen toestanden als visuele gedachten), en (3) afwisselend visueel-tekstueel redeneren. Om deze mogelijkheid te realiseren, hanteren we een hybride autoregressieve formulering die de voorspelling van de volgende token voor tekstuele gedachten verenigt met de voorspelling van de volgende embedding voor visuele gedachten, en ontwerpen we een systematische curatiestrategie voor redeneermodi om SwimBird-SFT-92K te construeren, een diverse supervised fine-tuning dataset die alle drie de redeneerpatronen omvat. Door flexibele, vraag-adaptieve modusselectie mogelijk te maken, behoudt SwimBird sterke tekstuele logica terwijl de prestaties op visueel dichte taken aanzienlijk verbeteren. Experimenten op diverse benchmarks die tekstueel redeneren en uitdagend visueel begrip beslaan, tonen aan dat SwimBird state-of-the-art resultaten bereikt en robuuste winsten behaalt ten opzichte van eerdere multimodale redeneermethoden met vaste patronen.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.