Transferencia de Razonamiento Temporal de Texto a Video

Resumen

Los Modelos de Lenguaje en Video a Gran Escala (Video LLMs) han demostrado capacidades prometedoras en la comprensión de videos, sin embargo, tienen dificultades para rastrear cambios temporales y razonar sobre relaciones temporales. Mientras que investigaciones previas atribuyeron esta limitación a la codificación temporal ineficaz de las entradas visuales, nuestro estudio diagnóstico revela que las representaciones de video contienen suficiente información para que incluso clasificadores de prueba pequeños logren una precisión perfecta. Sorprendentemente, encontramos que el cuello de botella clave en la capacidad de razonamiento temporal de los Video LLMs se origina en la dificultad inherente del LLM subyacente con conceptos temporales, como lo demuestra el bajo rendimiento en tareas de pregunta-respuesta temporal textual. Basándonos en este descubrimiento, presentamos la Transferencia de Razonamiento Temporal Textual (T3). T3 sintetiza diversas tareas de razonamiento temporal en formato de texto puro a partir de conjuntos de datos de imagen-texto existentes, abordando la escasez de muestras de video con escenarios temporales complejos. De manera notable, sin utilizar datos de video, T3 mejora la comprensión temporal de LongVA-7B, logrando una mejora de precisión absoluta del 5.3 en el desafiante benchmark TempCompass, lo que permite que nuestro modelo supere a ShareGPT4Video-8B entrenado con 28,000 muestras de video. Además, el modelo mejorado LongVA-7B logra un rendimiento competitivo en benchmarks de video completos. Por ejemplo, alcanza una precisión del 49.7 en la tarea de Razonamiento Temporal de Video-MME, superando a modelos a gran escala potentes como InternVL-Chat-V1.5-20B y VILA1.5-40B. Un análisis adicional revela una fuerte correlación entre el rendimiento de tareas temporales textuales y de video, validando la eficacia de transferir habilidades de razonamiento temporal de texto a dominios de video.

English

Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.

Transferencia de Razonamiento Temporal de Texto a Video

Temporal Reasoning Transfer from Text to Video

Resumen

Support