SwimBird: Evocazione di una modalità di ragionamento commutabile negli MLLM autoregressivi ibridi

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nella percezione e nel ragionamento multimodale colmando il divario tra visione e linguaggio. Tuttavia, la maggior parte degli MLLM esistenti effettua il ragionamento principalmente tramite Catena di Pensiero (CoT) testuale, il che ne limita l'efficacia nei compiti ad alta intensità visiva. Approcci recenti iniettano un numero fisso di stati nascosti continui come "pensieri visivi" nel processo di ragionamento, migliorando le prestazioni visive, ma spesso a scapito di un ragionamento logico basato sul testo degradato. Sosteniamo che la limitazione principale risieda in uno schema di ragionamento rigido e predefinito, incapace di scegliere in modo adattivo la modalità di pensiero più adatta per le diverse query dell'utente. Introduciamo SwimBird, un MLLM con commutazione del ragionamento che cambia dinamicamente tra tre modalità di ragionamento in base all'input: (1) ragionamento solo testo, (2) ragionamento solo visione (utilizzando stati nascosti continui come pensieri visivi) e (3) ragionamento visivo-testuale intercalato. Per abilitare questa capacità, adottiamo una formulazione autoregressiva ibrida che unifica la previsione del token successivo per i pensieri testuali con la previsione dell'embedding successivo per i pensieri visivi, e progettiamo una strategia sistematica di selezione della modalità di ragionamento per costruire SwimBird-SFT-92K, un dataset di fine-tuning supervisionato diversificato che copre tutti e tre gli schemi di ragionamento. Consentendo una selezione modale flessibile e adattiva alla query, SwimBird preserva una forte logica testuale migliorando sostanzialmente le prestazioni sui compiti ad alta densità visiva. Esperimenti su vari benchmark che coprono il ragionamento testuale e la comprensione visiva complessa dimostrano che SwimBird raggiunge risultati all'avanguardia e vantaggi robusti rispetto ai precedenti metodi di ragionamento multimodale a schema fisso.

English

Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.

SwimBird: Evocazione di una modalità di ragionamento commutabile negli MLLM autoregressivi ibridi

SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Abstract

Support