ChatPaper.aiChatPaper

Mini-o3: 시각적 탐색을 위한 추론 패턴 및 상호작용 턴 확장

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

September 9, 2025
저자: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI

초록

최근 대규모 멀티모달 모델의 발전은 강화 학습과 결합된 이미지 기반 도구를 활용하여 시각적 문제를 해결하고 있습니다. 그러나 기존의 오픈소스 접근법들은 단조로운 추론 패턴을 보이고 상호작용 횟수가 제한적이어서 시행착오 탐색이 필요한 어려운 작업에는 적합하지 않습니다. 본 연구에서는 이러한 한계를 극복하기 위해 도구 기반 상호작용을 확장하고, 수십 단계에 걸친 깊은 다중 턴 추론을 실행하며 도전적인 시각적 탐색 작업에서 최첨단 성능을 달성하는 Mini-o3 시스템을 소개합니다. OpenAI o3 스타일의 행동을 재현하기 위한 우리의 방법론은 세 가지 핵심 요소로 구성됩니다. 첫째, 탐색적 추론을 위해 설계된 수천 개의 도전적인 시각적 탐색 문제로 구성된 Visual Probe Dataset을 구축합니다. 둘째, 깊이 우선 탐색, 시행착오, 목표 유지 등 다양한 추론 패턴을 보이는 콜드 스타트 궤적을 얻기 위한 반복적 데이터 수집 파이프라인을 개발합니다. 셋째, 강화 학습 중 최대 턴 수에 도달한 응답에 대한 패널티를 방지하는 오버 턴 마스킹 전략을 제안하여 훈련 시간 효율성과 테스트 시간 확장성 사이의 균형을 맞춥니다. 단 6회의 상호작용 턴 상한으로 훈련했음에도 불구하고, 우리의 모델은 추론 시 자연스럽게 수십 턴으로 확장되는 궤적을 생성하며, 턴 수가 증가함에 따라 정확도가 향상됩니다. 광범위한 실험을 통해 Mini-o3가 풍부한 추론 패턴과 깊은 사고 경로를 생성하며 도전적인 시각적 탐색 문제를 효과적으로 해결함을 입증합니다.
English
Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of steps -- and achieves state-of-the-art performance on challenging visual search tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key components. First, we construct the Visual Probe Dataset, a collection of thousands of challenging visual search problems designed for exploratory reasoning. Second, we develop an iterative data collection pipeline to obtain cold-start trajectories that exhibit diverse reasoning patterns, including depth-first search, trial-and-error, and goal maintenance. Third, we propose an over-turn masking strategy that prevents penalization of over-turn responses (those that hit the maximum number of turns) during reinforcement learning, thereby balancing training-time efficiency with test-time scalability. Despite training with an upper bound of only six interaction turns, our model generates trajectories that naturally scale to tens of turns at inference time, with accuracy improving as the number of turns increases. Extensive experiments demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking paths, effectively solving challenging visual search problems.
PDF522September 10, 2025