SwimBird : Susciter un mode de raisonnement commutatif dans les MLLM autorégressifs hybrides
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
papers.authors: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLM) ont réalisé des progrès remarquables dans la perception et le raisonnement multimodaux en établissant un pont entre la vision et le langage. Cependant, la plupart des MLLM existants effectuent leur raisonnement principalement via des chaînes de pensée textuelles, ce qui limite leur efficacité sur les tâches intensives en vision. Des approches récentes injectent un nombre fixe d'états cachés continus comme "pensées visuelles" dans le processus de raisonnement et améliorent les performances visuelles, mais souvent au prix d'une dégradation du raisonnement logique textuel. Nous soutenons que la limitation principale réside dans un schéma de raisonnement rigide et prédéfini qui ne peut pas choisir de manière adaptative la modalité de pensée la plus adaptée aux différentes requêtes utilisateur. Nous présentons SwimBird, un MLLM à commutation de raisonnement qui commute dynamiquement entre trois modes de raisonnement conditionnés par l'entrée : (1) le raisonnement purement textuel, (2) le raisonnement purement visuel (états cachés continus comme pensées visuelles), et (3) le raisonnement visuo-textuel entrelacé. Pour permettre cette capacité, nous adoptons une formulation autorégressive hybride qui unifie la prédiction du prochain jeton pour les pensées textuelles avec la prédiction de la prochaine embedding pour les pensées visuelles, et concevons une stratégie systématique de curation des modes de raisonnement pour construire SwimBird-SFT-92K, un ensemble de données d'affinage supervisé diversifié couvrant les trois schémas de raisonnement. En permettant une sélection de mode flexible et adaptée à la requête, SwimBird préserve une forte logique textuelle tout en améliorant substantiellement les performances sur les tâches denses en vision. Les expériences sur divers benchmarks couvrant le raisonnement textuel et la compréhension visuelle exigeante démontrent que SwimBird obtient des résultats state-of-the-art et des gains robustes par rapport aux méthodes de raisonnement multimodal antérieures à schéma fixe.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.