Mini-o3: 시각적 탐색을 위한 추론 패턴 및 상호작용 턴 확장
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
September 9, 2025
저자: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI
초록
최근 대규모 멀티모달 모델의 발전은 강화 학습과 결합된 이미지 기반 도구를 활용하여 시각적 문제를 해결하고 있습니다. 그러나 기존의 오픈소스 접근법들은 단조로운 추론 패턴을 보이고 상호작용 횟수가 제한적이어서 시행착오 탐색이 필요한 어려운 작업에는 적합하지 않습니다. 본 연구에서는 이러한 한계를 극복하기 위해 도구 기반 상호작용을 확장하고, 수십 단계에 걸친 깊은 다중 턴 추론을 실행하며 도전적인 시각적 탐색 작업에서 최첨단 성능을 달성하는 Mini-o3 시스템을 소개합니다. OpenAI o3 스타일의 행동을 재현하기 위한 우리의 방법론은 세 가지 핵심 요소로 구성됩니다. 첫째, 탐색적 추론을 위해 설계된 수천 개의 도전적인 시각적 탐색 문제로 구성된 Visual Probe Dataset을 구축합니다. 둘째, 깊이 우선 탐색, 시행착오, 목표 유지 등 다양한 추론 패턴을 보이는 콜드 스타트 궤적을 얻기 위한 반복적 데이터 수집 파이프라인을 개발합니다. 셋째, 강화 학습 중 최대 턴 수에 도달한 응답에 대한 패널티를 방지하는 오버 턴 마스킹 전략을 제안하여 훈련 시간 효율성과 테스트 시간 확장성 사이의 균형을 맞춥니다. 단 6회의 상호작용 턴 상한으로 훈련했음에도 불구하고, 우리의 모델은 추론 시 자연스럽게 수십 턴으로 확장되는 궤적을 생성하며, 턴 수가 증가함에 따라 정확도가 향상됩니다. 광범위한 실험을 통해 Mini-o3가 풍부한 추론 패턴과 깊은 사고 경로를 생성하며 도전적인 시각적 탐색 문제를 효과적으로 해결함을 입증합니다.
English
Recent advances in large multimodal models have leveraged image-based tools
with reinforcement learning to tackle visual problems. However, existing
open-source approaches often exhibit monotonous reasoning patterns and allow
only a limited number of interaction turns, making them inadequate for
difficult tasks that require trial-and-error exploration. In this work, we
address this limitation by scaling up tool-based interactions and introduce
Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of
steps -- and achieves state-of-the-art performance on challenging visual search
tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key
components. First, we construct the Visual Probe Dataset, a collection of
thousands of challenging visual search problems designed for exploratory
reasoning. Second, we develop an iterative data collection pipeline to obtain
cold-start trajectories that exhibit diverse reasoning patterns, including
depth-first search, trial-and-error, and goal maintenance. Third, we propose an
over-turn masking strategy that prevents penalization of over-turn responses
(those that hit the maximum number of turns) during reinforcement learning,
thereby balancing training-time efficiency with test-time scalability. Despite
training with an upper bound of only six interaction turns, our model generates
trajectories that naturally scale to tens of turns at inference time, with
accuracy improving as the number of turns increases. Extensive experiments
demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking
paths, effectively solving challenging visual search problems.