ChatPaper.aiChatPaper

OneThinker: 이미지 및 비디오를 위한 올인원 추론 모델

OneThinker: All-in-one Reasoning Model for Image and Video

December 2, 2025
저자: Kaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI

초록

강화학습(Reinforcement Learning, RL)은 최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs) 내에서 시각적 추론 능력을 이끌어내는 데 있어 놀라운 성과를 거두었습니다. 그러나 기존 접근법들은 일반적으로 서로 다른 작업에 대해 별도의 모델을 훈련시키며, 이미지와 비디오 추론을 서로 분리된 영역으로 취급합니다. 이로 인해 다중모달 추론 전반에 걸쳐 일반적으로 적용 가능한 모델로의 확장성이 제한되며, 실제 활용의 다양성을 떨어뜨리고 작업 및 모달리티 간의 잠재적 지식 공유를 방해합니다. 이를 해결하기 위해, 우리는 질의응답, 캡션 생성, 공간 및 시간적 위치 특정, 추적, 분할 등 다양한 기본 시각 작업을 아우르는 이미지 및 비디오 이해를 통합한 올인원 추론 모델인 OneThinker를 제안합니다. 이를 위해 우리는 상기 모든 작업을 포함하는 OneThinker-600k 훈련 코퍼스를 구축하고 CoT(Chain-of-Thought) 주석 생성을 위해 상용 모델을 활용하여 SFT(Supervised Fine-Tuning) 콜드 스타트를 위한 OneThinker-SFT-340k 데이터셋을 생성했습니다. 더 나아가, 우리는 다중 작업 RL에서 발생하는 보상 이질성을 처리하기 위해 작업별 보상 표준 편차의 이동 평균을 추적하여 균형 잡힌 최적화를 달성하는 EMA-GRPO를 제안합니다. 다양한 시각 벤치마크에 대한 폭넓은 실험 결과, OneThinker는 10가지 기본 시각 이해 작업에 걸친 31개 벤치마크에서 강력한 성능을 보여주었습니다. 또한, 특정 작업 간 효과적인 지식 전이와 예비적인 제로샷 일반화 능력을 나타내며, 통합된 다중모달 추론 일반ist 모델로 나아가는 한 걸음을 내디뎠습니다. 모든 코드, 모델 및 데이터는 공개되었습니다.
English
Reinforcement learning (RL) has recently achieved remarkable success in eliciting visual reasoning within Multimodal Large Language Models (MLLMs). However, existing approaches typically train separate models for different tasks and treat image and video reasoning as disjoint domains. This results in limited scalability toward a multimodal reasoning generalist, which restricts practical versatility and hinders potential knowledge sharing across tasks and modalities. To this end, we propose OneThinker, an all-in-one reasoning model that unifies image and video understanding across diverse fundamental visual tasks, including question answering, captioning, spatial and temporal grounding, tracking, and segmentation. To achieve this, we construct the OneThinker-600k training corpus covering all these tasks and employ commercial models for CoT annotation, resulting in OneThinker-SFT-340k for SFT cold start. Furthermore, we propose EMA-GRPO to handle reward heterogeneity in multi-task RL by tracking task-wise moving averages of reward standard deviations for balanced optimization. Extensive experiments on diverse visual benchmarks show that OneThinker delivers strong performance on 31 benchmarks, across 10 fundamental visual understanding tasks. Moreover, it exhibits effective knowledge transfer between certain tasks and preliminary zero-shot generalization ability, marking a step toward a unified multimodal reasoning generalist. All code, model, and data are released.
PDF191December 5, 2025