SwimBird: Aktivierung eines umschaltbaren Denkmodus in hybriden autoregressiven MLLMs
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
papers.authors: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) haben durch die Überbrückung von Vision und Sprache bemerkenswerte Fortschritte in der multimodalen Wahrnehmung und im multimodalen Reasoning erzielt. Allerdings führen die meisten bestehenden MLLMs ihr Reasoning primär mit textueller Chain-of-Thought (CoT) durch, was ihre Effektivität bei visuell anspruchsvollen Aufgaben einschränkt. Jüngste Ansätze injizieren eine feste Anzahl kontinuierlicher Hidden States als "visuelle Gedanken" in den Reasoning-Prozess und verbessern die visuelle Leistung, aber oft auf Kosten eines verschlechterten textbasierten logischen Reasonings. Wir argumentieren, dass die zentrale Limitation in einem starren, vordefinierten Reasoning-Muster liegt, das nicht adaptiv die am besten geeignete Denkmodalität für verschiedene Benutzeranfragen wählen kann. Wir stellen SwimBird vor, ein reasoning-schaltbares MLLM, das dynamisch zwischen drei Reasoning-Modi wechselt, die vom Eingang abhängen: (1) rein textuelles Reasoning, (2) rein visuelles Reasoning (kontinuierliche Hidden States als visuelle Gedanken) und (3) verschachteltes visuell-textuelles Reasoning. Um diese Fähigkeit zu ermöglichen, verwenden wir eine hybride autoregressive Formulierung, die die Next-Token-Prädiktion für textuelle Gedanken mit der Next-Embedding-Prädiktion für visuelle Gedanken vereint, und entwerfen eine systematische Strategie zur Kuratierung der Reasoning-Modi, um SwimBird-SFT-92K zu konstruieren, einen diversen Supervised Fine-Tuning-Datensatz, der alle drei Reasoning-Muster abdeckt. Durch die Ermöglichung einer flexiblen, anfrageadaptiven Modusauswahl bewahrt SwimBird eine starke textuelle Logik bei gleichzeitiger erheblicher Verbesserung der Leistung bei visuell dichten Aufgaben. Experimente über diverse Benchmarks, die textuelles Reasoning und anspruchsvolles visuelles Verständnis abdecken, zeigen, dass SwimBird state-of-the-art Ergebnisse erzielt und robuste Gewinne gegenüber früheren Methoden mit festen Reasoning-Mustern erreicht.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.