ChatPaper.aiChatPaper

OneThinker:画像と動画のためのオールインワン推論モデル

OneThinker: All-in-one Reasoning Model for Image and Video

December 2, 2025
著者: Kaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI

要旨

強化学習(RL)は近年、マルチモーダル大規模言語モデル(MLLM)内での視覚的推論を誘導する際に顕著な成功を収めている。しかし、既存のアプローチでは通常、異なるタスクごとに個別のモデルを学習し、画像と動画の推論を独立した領域として扱うことが多い。これにより、マルチモーダル推論のジェネラリストに向けた拡張性が制限され、実用的な汎用性が阻害され、タスクやモダリティを跨る知識共有の可能性も妨げられている。この課題に対処するため、我々はOneThinkerを提案する。これは、質問応答、キャプション生成、空間的・時間的グラウンディング、追跡、セグメンテーションといった多様な基礎的視覚タスクを統一的に扱う、画像と動画の理解を一体化したオールインワン推論モデルである。これを実現するため、我々はこれら全てのタスクを網羅するOneThinker-600kトレーニングコーパスを構築し、商業モデルを利用してCoT(Chain-of-Thought)アノテーションを行い、SFT(Supervised Fine-Tuning)のコールドスタート用にOneThinker-SFT-340kを生成した。さらに、マルチタスクRLにおける報酬の不均一性を扱うため、報酬標準偏差のタスク別移動平均を追跡して最適化のバランスを取るEMA-GRPOを提案する。多様な視覚ベンチマークでの大規模実験により、OneThinkerが10の基礎的視覚理解タスクに跨る31のベンチマークで強力な性能を発揮することが示された。さらに、特定のタスク間での効果的な知識転移と、初歩的なゼロショット一般化能力を示しており、統合されたマルチモーダル推論ジェネラリストへの一歩を記すものである。全てのコード、モデル、データを公開する。
English
Reinforcement learning (RL) has recently achieved remarkable success in eliciting visual reasoning within Multimodal Large Language Models (MLLMs). However, existing approaches typically train separate models for different tasks and treat image and video reasoning as disjoint domains. This results in limited scalability toward a multimodal reasoning generalist, which restricts practical versatility and hinders potential knowledge sharing across tasks and modalities. To this end, we propose OneThinker, an all-in-one reasoning model that unifies image and video understanding across diverse fundamental visual tasks, including question answering, captioning, spatial and temporal grounding, tracking, and segmentation. To achieve this, we construct the OneThinker-600k training corpus covering all these tasks and employ commercial models for CoT annotation, resulting in OneThinker-SFT-340k for SFT cold start. Furthermore, we propose EMA-GRPO to handle reward heterogeneity in multi-task RL by tracking task-wise moving averages of reward standard deviations for balanced optimization. Extensive experiments on diverse visual benchmarks show that OneThinker delivers strong performance on 31 benchmarks, across 10 fundamental visual understanding tasks. Moreover, it exhibits effective knowledge transfer between certain tasks and preliminary zero-shot generalization ability, marking a step toward a unified multimodal reasoning generalist. All code, model, and data are released.
PDF191December 5, 2025