UniT: 통합 멀티모달 테스트-타임 사고 연쇄 확장
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
February 12, 2026
저자: Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu
cs.AI
초록
통합 모델은 단일 아키텍처 내에서 다중 모드 이해와 생성을 모두 처리할 수 있지만, 일반적으로 단일 패스로 작동하여 출력을 반복적으로 개선하지는 않습니다. 복잡한 공간 구성, 다중 상호 작용 객체, 또는 변화하는 지시사항을 포함하는 많은 다중 모드 작업은 지시사항 분해, 중간 결과 검증 및 반복적 수정을 필요로 합니다. 테스트 시간 스케일링(TTS)이 반복적 추론을 위한 추가 추론 컴퓨팅 자원 할당이 언어 모델 성능을 크게 향상시킨다는 것을 입증했지만, 이러한 패러다임을 통합 다중 모드 모델로 확장하는 것은 여전히 해결 과제로 남아 있습니다. 본 논문에서는 단일 통합 모델이 다중 라운드에 걸쳐 추론, 검증 및 개선을 수행할 수 있도록 하는 다중 모드 사고 연쇄 테스트 시간 스케일링 프레임워크인 UniT를 소개합니다. UniT는 에이전트 기반 데이터 합성, 통합 모델 학습 및 유연한 테스트 시간 추론을 결합하여 검증, 하위 목표 분해, 내용 기억과 같은 인지적 행동을 이끌어냅니다. 우리의 주요 발견 사항은 다음과 같습니다: (1) 짧은 추론 궤적으로 학습된 통합 모델은 테스트 시간에 더 긴 추론 체인으로 일반화됩니다; (2) 순차적 사고 연쇄 추론은 병렬 샘플링보다 확장성 있고 컴퓨팅 효율적인 TTS 전략을 제공합니다; (3) 생성 및 편집 궤적으로의 학습은 분포 외 시각 추론 성능을 향상시킵니다. 이러한 결과는 통합 모델의 생성과 이해 능력을 모두 발전시키는 효과적인 패러다임으로서 다중 모드 테스트 시간 스케일링의 가능성을 입증합니다.
English
Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.