SAGE: Treinamento de Agentes Inteligentes de Qualquer Horizonte para Raciocínio em Vídeos Longos com Aprendizagem por Reforço

Resumo

Os seres humanos são naturalmente raciocinadores de horizonte variável, ou seja, conseguimos decidir se devemos iterativamente folhear vídeos longos ou assistir a vídeos curtos na íntegra quando necessário para uma determinada tarefa. Tendo isso em mente, seria de esperar que os modelos de raciocínio em vídeo raciocinassem de forma flexível ao longo de diferentes durações. No entanto, os modelos de estado da arte (SOTA) ainda são treinados para prever respostas em uma única etapa, processando um grande número de quadros, semelhante a assistir a um vídeo longo inteiro, o que requer recursos significativos. Isto levanta a questão: Será possível desenvolver sistemas de raciocínio em vídeo de horizonte variável com alto desempenho? Inspirados pelo comportamento humano, propomos primeiro o SAGE, um sistema de agente que realiza raciocínio multi-etapa em vídeos longos, enquanto lida com problemas mais simples em uma única etapa. Em segundo lugar, introduzimos um *pipeline* simples de geração de dados sintéticos usando o Gemini-2.5-Flash para treinar o orquestrador, o SAGE-MM, que está no cerne do SAGE. Propomos ainda uma receita eficaz de pós-treinamento por RL (Aprendizagem por Reforço), essencial para incutir a capacidade de raciocínio de horizonte variável no SAGE-MM. Em terceiro lugar, criámos o SAGE-Bench, com uma duração média superior a 700 segundos, para avaliar a capacidade de raciocínio em vídeo em casos de uso reais de entretenimento. Por último, validamos empiricamente a eficácia do nosso sistema, dados e receita de RL, observando melhorias notáveis de até 6,1% em tarefas de raciocínio em vídeo de resposta aberta, bem como uma impressionante melhoria de 8,2% em vídeos com mais de 10 minutos.

English

As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.

SAGE: Treinamento de Agentes Inteligentes de Qualquer Horizonte para Raciocínio em Vídeos Longos com Aprendizagem por Reforço

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Resumo

Support