Transferencia de Razonamiento Temporal de Texto a Video
Temporal Reasoning Transfer from Text to Video
October 8, 2024
Autores: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Resumen
Los Modelos de Lenguaje en Video a Gran Escala (Video LLMs) han demostrado capacidades prometedoras en la comprensión de videos, sin embargo, tienen dificultades para rastrear cambios temporales y razonar sobre relaciones temporales. Mientras que investigaciones previas atribuyeron esta limitación a la codificación temporal ineficaz de las entradas visuales, nuestro estudio diagnóstico revela que las representaciones de video contienen suficiente información para que incluso clasificadores de prueba pequeños logren una precisión perfecta. Sorprendentemente, encontramos que el cuello de botella clave en la capacidad de razonamiento temporal de los Video LLMs se origina en la dificultad inherente del LLM subyacente con conceptos temporales, como lo demuestra el bajo rendimiento en tareas de pregunta-respuesta temporal textual. Basándonos en este descubrimiento, presentamos la Transferencia de Razonamiento Temporal Textual (T3). T3 sintetiza diversas tareas de razonamiento temporal en formato de texto puro a partir de conjuntos de datos de imagen-texto existentes, abordando la escasez de muestras de video con escenarios temporales complejos. De manera notable, sin utilizar datos de video, T3 mejora la comprensión temporal de LongVA-7B, logrando una mejora de precisión absoluta del 5.3 en el desafiante benchmark TempCompass, lo que permite que nuestro modelo supere a ShareGPT4Video-8B entrenado con 28,000 muestras de video. Además, el modelo mejorado LongVA-7B logra un rendimiento competitivo en benchmarks de video completos. Por ejemplo, alcanza una precisión del 49.7 en la tarea de Razonamiento Temporal de Video-MME, superando a modelos a gran escala potentes como InternVL-Chat-V1.5-20B y VILA1.5-40B. Un análisis adicional revela una fuerte correlación entre el rendimiento de tareas temporales textuales y de video, validando la eficacia de transferir habilidades de razonamiento temporal de texto a dominios de video.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary