SwimBird: 하이브리드 자기회귀 MLLM에서 전환 가능한 추론 모드 유도
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
저자: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)은 시각과 언어를 연결함으로써 멀티모달 인지 및 추론 분야에서 놀라운 발전을 이루었습니다. 그러나 기존 MLLMs의 대부분은 주로 텍스트 CoT(생각의 사슬)로 추론을 수행하여 시각 집약적 작업에서의 효과성이 제한됩니다. 최근 접근법은 고정된 수의 연속 은닉 상태를 "시각적 사고"로 추론 과정에 주입하여 시각적 성능을 향상시키지만, 이는 종종 텍스트 기반 논리 추론 성능 저하를 수반합니다. 본 연구에서는 이러한 핵심 한계가 서로 다른 사용자 질의에 가장 적합한 사고 양식을 적응적으로 선택할 수 없는 경직된 사전 정의된 추론 패턴에 있다고 주장합니다. 우리는 입력에 따라 세 가지 추론 모드, 즉 (1) 텍스트 전용 추론, (2) 시각 전용 추론(연속 은닉 상태를 시각적 사고로 활용), (3) 시각-텍스트 교차 추론을 동적으로 전환하는 추론 전환 가능 MLLM인 SwimBird를 소개합니다. 이러한 능력을 구현하기 위해 우리는 텍스트 사고에 대한 다음 토큰 예측과 시각 사고에 대한 다음 임베딩 예측을 통합하는 하이브리드 자기회귀 형식을 채택하고, 세 가지 추론 패턴을 모두 아우르는 다양성 있는 지도 미세조정 데이터셋인 SwimBird-SFT-92K를 구축하기 위한 체계적인 추론 모드 정제 전략을 설계했습니다. 유연하고 질의 적응형 모드 선택을 통해 SwimBird는 강력한 텍스트 논리성을 유지하면서 시각 집약적 작업의 성능을 크게 향상시킵니다. 텍스트 추론과 도전적인 시각 이해를 포괄하는 다양한 벤치마크 실험을 통해 SwimBird가 기존의 고정 패턴 멀티모달 추론 방법들 대비 최첨단 성과와 견고한 성능 향상을 달성함을 입증합니다.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.