OneThinker: Универсальная модель логического вывода для изображений и видео
OneThinker: All-in-one Reasoning Model for Image and Video
December 2, 2025
Авторы: Kaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI
Аннотация
Обучение с подкреплением (RL) недавно продемонстрировало впечатляющие успехи в стимулировании зрительного рассуждения в мультимодальных больших языковых моделях (MLLM). Однако существующие подходы обычно обучают отдельные модели для разных задач и рассматривают рассуждения на основе изображений и видео как независимые области. Это ограничивает масштабируемость в сторону универсального мультимодального решателя, что сужает практическую универсальность и препятствует потенциальному обмену знаниями между задачами и модальностями. Для решения этой проблемы мы предлагаем OneThinker — универсальную модель рассуждений, которая объединяет понимание изображений и видео для разнообразных фундаментальных визуальных задач, включая ответы на вопросы, генерацию описаний, пространственную и временную локализацию, отслеживание и сегментацию. Для этого мы создали обучающий корпус OneThinker-600k, охватывающий все эти задачи, и использовали коммерческие модели для аннотирования цепочек рассуждений (CoT), получив OneThinker-SFT-340k для "холодного старта" методами supervised fine-tuning (SFT). Кроме того, мы предлагаем метод EMA-GRPO для обработки гетерогенности вознаграждений в многозадачном RL, который отслеживает скользящие средние стандартных отклонений вознаграждений по задачам для сбалансированной оптимизации. Многочисленные эксперименты на различных визуальных бенчмарках показывают, что OneThinker демонстрирует высокую производительность на 31 тестовом наборе, охватывающих 10 фундаментальных задач визуального понимания. Более того, модель демонстрирует эффективный перенос знаний между определенными задачами и предварительную способность к обобщению в условиях zero-shot, что знаменует шаг к созданию унифицированного мультимодального решателя. Весь код, модель и данные опубликованы.
English
Reinforcement learning (RL) has recently achieved remarkable success in eliciting visual reasoning within Multimodal Large Language Models (MLLMs). However, existing approaches typically train separate models for different tasks and treat image and video reasoning as disjoint domains. This results in limited scalability toward a multimodal reasoning generalist, which restricts practical versatility and hinders potential knowledge sharing across tasks and modalities. To this end, we propose OneThinker, an all-in-one reasoning model that unifies image and video understanding across diverse fundamental visual tasks, including question answering, captioning, spatial and temporal grounding, tracking, and segmentation. To achieve this, we construct the OneThinker-600k training corpus covering all these tasks and employ commercial models for CoT annotation, resulting in OneThinker-SFT-340k for SFT cold start. Furthermore, we propose EMA-GRPO to handle reward heterogeneity in multi-task RL by tracking task-wise moving averages of reward standard deviations for balanced optimization. Extensive experiments on diverse visual benchmarks show that OneThinker delivers strong performance on 31 benchmarks, across 10 fundamental visual understanding tasks. Moreover, it exhibits effective knowledge transfer between certain tasks and preliminary zero-shot generalization ability, marking a step toward a unified multimodal reasoning generalist. All code, model, and data are released.