OneThinker: Modelo de Raciocínio Multifuncional para Imagem e Vídeo

Resumo

O aprendizado por reforço (RL) tem alcançado recentemente sucesso notável em eliciar raciocínio visual em Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, as abordagens existentes normalmente treinam modelos separados para diferentes tarefas e tratam o raciocínio em imagens e vídeos como domínios distintos. Isso resulta em escalabilidade limitada para um generalista de raciocínio multimodal, o que restringe a versatilidade prática e dificulta o potencial compartilhamento de conhecimento entre tarefas e modalidades. Para esse fim, propomos o OneThinker, um modelo de raciocínio all-in-one que unifica a compreensão de imagens e vídeos em diversas tarefas visuais fundamentais, incluindo resposta a perguntas, legendagem, localização espacial e temporal, rastreamento e segmentação. Para alcançar isso, construímos o corpus de treinamento OneThinker-600k cobrindo todas essas tarefas e empregamos modelos comerciais para anotação de Cadeia de Pensamento (CoT), resultando no OneThinker-SFT-340k para o *cold start* de SFT. Adicionalmente, propomos o EMA-GRPO para lidar com a heterogeneidade de recompensas no RL multitarefa, rastreando médias móveis por tarefa dos desvios padrão das recompensas para uma otimização balanceada. Experimentos extensos em diversos *benchmarks* visuais mostram que o OneThinker oferece um desempenho sólido em 31 *benchmarks*, abrangendo 10 tarefas fundamentais de compreensão visual. Além disso, exibe transferência efetiva de conhecimento entre certas tarefas e uma capacidade preliminar de generalização *zero-shot*, representando um passo em direção a um generalista unificado de raciocínio multimodal. Todo o código, modelo e dados são disponibilizados.

English

Reinforcement learning (RL) has recently achieved remarkable success in eliciting visual reasoning within Multimodal Large Language Models (MLLMs). However, existing approaches typically train separate models for different tasks and treat image and video reasoning as disjoint domains. This results in limited scalability toward a multimodal reasoning generalist, which restricts practical versatility and hinders potential knowledge sharing across tasks and modalities. To this end, we propose OneThinker, an all-in-one reasoning model that unifies image and video understanding across diverse fundamental visual tasks, including question answering, captioning, spatial and temporal grounding, tracking, and segmentation. To achieve this, we construct the OneThinker-600k training corpus covering all these tasks and employ commercial models for CoT annotation, resulting in OneThinker-SFT-340k for SFT cold start. Furthermore, we propose EMA-GRPO to handle reward heterogeneity in multi-task RL by tracking task-wise moving averages of reward standard deviations for balanced optimization. Extensive experiments on diverse visual benchmarks show that OneThinker delivers strong performance on 31 benchmarks, across 10 fundamental visual understanding tasks. Moreover, it exhibits effective knowledge transfer between certain tasks and preliminary zero-shot generalization ability, marking a step toward a unified multimodal reasoning generalist. All code, model, and data are released.

OneThinker: Modelo de Raciocínio Multifuncional para Imagem e Vídeo

OneThinker: All-in-one Reasoning Model for Image and Video

Resumo

Support