ChatPaper.aiChatPaper

SiLVR: Un Marco Simple de Razonamiento Basado en Lenguaje para Videos

SiLVR: A Simple Language-based Video Reasoning Framework

May 30, 2025
Autores: Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
cs.AI

Resumen

Los recientes avances en la optimización en tiempo de prueba han llevado a capacidades de razonamiento notables en los Modelos de Lenguaje de Gran Escala (LLMs), permitiéndoles resolver problemas altamente complejos en matemáticas y programación. Sin embargo, las capacidades de razonamiento de los LLMs multimodales (MLLMs) aún están significativamente rezagadas, especialmente para tareas complejas de video y lenguaje. Para abordar este problema, presentamos SiLVR, un marco Simple de Razonamiento en Video basado en Lenguaje que descompone la comprensión compleja de video en dos etapas. En la primera etapa, SiLVR transforma el video crudo en representaciones basadas en lenguaje utilizando entradas multisensoriales, como subtítulos de clips cortos y subtítulos de audio/habla. En la segunda etapa, las descripciones en lenguaje se alimentan a un potente LLM de razonamiento para resolver tareas complejas de comprensión de video y lenguaje. Para manejar entradas multisensoriales de contexto largo, utilizamos un esquema de reducción adaptativa de tokens, que determina dinámicamente la granularidad temporal con la que se muestrean los tokens. Nuestro marco simple, modular y sin entrenamiento para el razonamiento en video logra los mejores resultados reportados en Video-MME (largo), Video-MMMU (comprensión), Video-MMLU, CGBench y EgoLife. Además, nuestro estudio empírico centrado en las capacidades de razonamiento en video muestra que, a pesar de no estar explícitamente entrenados en video, los LLMs fuertes de razonamiento pueden agregar efectivamente información de entrada multisensorial de video, habla y audio para tareas complejas de razonamiento temporal, causal, de contexto largo y de adquisición de conocimiento en video. El código está disponible en https://github.com/CeeZh/SILVR.
English
Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Language Models (LLMs), enabling them to solve highly complex problems in math and coding. However, the reasoning capabilities of multimodal LLMs (MLLMs) still significantly lag, especially for complex video-language tasks. To address this issue, we present SiLVR, a Simple Language-based Video Reasoning framework that decomposes complex video understanding into two stages. In the first stage, SiLVR transforms raw video into language-based representations using multisensory inputs, such as short clip captions and audio/speech subtitles. In the second stage, language descriptions are fed into a powerful reasoning LLM to solve complex video-language understanding tasks. To handle long-context multisensory inputs, we use an adaptive token reduction scheme, which dynamically determines the temporal granularity with which to sample the tokens. Our simple, modular, and training-free video reasoning framework achieves the best-reported results on Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife. Furthermore, our empirical study focused on video reasoning capabilities shows that, despite not being explicitly trained on video, strong reasoning LLMs can effectively aggregate multisensory input information from video, speech, and audio for complex temporal, causal, long-context, and knowledge acquisition reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.
PDF52June 2, 2025