ChatPaper.aiChatPaper

SiLVR: Um Framework Simples de Raciocínio em Vídeo Baseado em Linguagem

SiLVR: A Simple Language-based Video Reasoning Framework

May 30, 2025
Autores: Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
cs.AI

Resumo

Os recentes avanços na otimização em tempo de teste levaram a capacidades de raciocínio notáveis em Modelos de Linguagem de Grande Escala (LLMs), permitindo que eles resolvam problemas altamente complexos em matemática e codificação. No entanto, as capacidades de raciocínio de LLMs multimodais (MLLMs) ainda estão significativamente atrasadas, especialmente para tarefas complexas de vídeo e linguagem. Para abordar essa questão, apresentamos o SiLVR, uma estrutura simples de raciocínio em vídeo baseada em linguagem que decompõe a compreensão complexa de vídeo em dois estágios. No primeiro estágio, o SiLVR transforma o vídeo bruto em representações baseadas em linguagem usando entradas multissensoriais, como legendas de clipes curtos e legendas de áudio/fala. No segundo estágio, as descrições em linguagem são alimentadas em um LLM poderoso de raciocínio para resolver tarefas complexas de compreensão de vídeo e linguagem. Para lidar com entradas multissensoriais de contexto longo, usamos um esquema de redução de tokens adaptativo, que determina dinamicamente a granularidade temporal com a qual amostrar os tokens. Nossa estrutura simples, modular e livre de treinamento para raciocínio em vídeo alcança os melhores resultados relatados em Video-MME (longo), Video-MMMU (compreensão), Video-MMLU, CGBench e EgoLife. Além disso, nosso estudo empírico focado nas capacidades de raciocínio em vídeo mostra que, apesar de não serem explicitamente treinados em vídeo, LLMs fortes de raciocínio podem agregar efetivamente informações de entrada multissensoriais de vídeo, fala e áudio para tarefas complexas de raciocínio temporal, causal, de contexto longo e de aquisição de conhecimento em vídeo. O código está disponível em https://github.com/CeeZh/SILVR.
English
Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Language Models (LLMs), enabling them to solve highly complex problems in math and coding. However, the reasoning capabilities of multimodal LLMs (MLLMs) still significantly lag, especially for complex video-language tasks. To address this issue, we present SiLVR, a Simple Language-based Video Reasoning framework that decomposes complex video understanding into two stages. In the first stage, SiLVR transforms raw video into language-based representations using multisensory inputs, such as short clip captions and audio/speech subtitles. In the second stage, language descriptions are fed into a powerful reasoning LLM to solve complex video-language understanding tasks. To handle long-context multisensory inputs, we use an adaptive token reduction scheme, which dynamically determines the temporal granularity with which to sample the tokens. Our simple, modular, and training-free video reasoning framework achieves the best-reported results on Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife. Furthermore, our empirical study focused on video reasoning capabilities shows that, despite not being explicitly trained on video, strong reasoning LLMs can effectively aggregate multisensory input information from video, speech, and audio for complex temporal, causal, long-context, and knowledge acquisition reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.
PDF52June 2, 2025