SiLVR: Um Framework Simples de Raciocínio em Vídeo Baseado em Linguagem
SiLVR: A Simple Language-based Video Reasoning Framework
May 30, 2025
Autores: Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
cs.AI
Resumo
Os recentes avanços na otimização em tempo de teste levaram a capacidades de raciocínio notáveis em Modelos de Linguagem de Grande Escala (LLMs), permitindo que eles resolvam problemas altamente complexos em matemática e codificação. No entanto, as capacidades de raciocínio de LLMs multimodais (MLLMs) ainda estão significativamente atrasadas, especialmente para tarefas complexas de vídeo e linguagem. Para abordar essa questão, apresentamos o SiLVR, uma estrutura simples de raciocínio em vídeo baseada em linguagem que decompõe a compreensão complexa de vídeo em dois estágios. No primeiro estágio, o SiLVR transforma o vídeo bruto em representações baseadas em linguagem usando entradas multissensoriais, como legendas de clipes curtos e legendas de áudio/fala. No segundo estágio, as descrições em linguagem são alimentadas em um LLM poderoso de raciocínio para resolver tarefas complexas de compreensão de vídeo e linguagem. Para lidar com entradas multissensoriais de contexto longo, usamos um esquema de redução de tokens adaptativo, que determina dinamicamente a granularidade temporal com a qual amostrar os tokens. Nossa estrutura simples, modular e livre de treinamento para raciocínio em vídeo alcança os melhores resultados relatados em Video-MME (longo), Video-MMMU (compreensão), Video-MMLU, CGBench e EgoLife. Além disso, nosso estudo empírico focado nas capacidades de raciocínio em vídeo mostra que, apesar de não serem explicitamente treinados em vídeo, LLMs fortes de raciocínio podem agregar efetivamente informações de entrada multissensoriais de vídeo, fala e áudio para tarefas complexas de raciocínio temporal, causal, de contexto longo e de aquisição de conhecimento em vídeo. O código está disponível em https://github.com/CeeZh/SILVR.
English
Recent advances in test-time optimization have led to remarkable reasoning
capabilities in Large Language Models (LLMs), enabling them to solve highly
complex problems in math and coding. However, the reasoning capabilities of
multimodal LLMs (MLLMs) still significantly lag, especially for complex
video-language tasks. To address this issue, we present SiLVR, a Simple
Language-based Video Reasoning framework that decomposes complex video
understanding into two stages. In the first stage, SiLVR transforms raw video
into language-based representations using multisensory inputs, such as short
clip captions and audio/speech subtitles. In the second stage, language
descriptions are fed into a powerful reasoning LLM to solve complex
video-language understanding tasks. To handle long-context multisensory inputs,
we use an adaptive token reduction scheme, which dynamically determines the
temporal granularity with which to sample the tokens. Our simple, modular, and
training-free video reasoning framework achieves the best-reported results on
Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife.
Furthermore, our empirical study focused on video reasoning capabilities shows
that, despite not being explicitly trained on video, strong reasoning LLMs can
effectively aggregate multisensory input information from video, speech, and
audio for complex temporal, causal, long-context, and knowledge acquisition
reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.