ChatPaper.aiChatPaper

TinyLLaVA-Video-R1: Hacia modelos de lenguaje multimodal más pequeños para razonamiento en video

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

April 13, 2025
Autores: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI

Resumen

Recientemente, mejorar la capacidad de razonamiento de los modelos multimodales grandes (LMMs) mediante aprendizaje por refuerzo ha logrado grandes avances. Sin embargo, la mayoría de los trabajos existentes se basan en conjuntos de datos altamente intensivos en razonamiento, como matemáticas y código, y los investigadores generalmente eligen modelos a gran escala como base. Argumentamos que explorar las capacidades de razonamiento de modelos a pequeña escala sigue siendo valioso para investigadores con recursos computacionales limitados. Además, permitir que los modelos expliquen sus procesos de razonamiento en conjuntos de datos generales de preguntas y respuestas es igualmente significativo. Por lo tanto, presentamos el modelo de razonamiento de video a pequeña escala TinyLLaVA-Video-R1. Basado en TinyLLaVA-Video, un modelo de comprensión de video entrenado de manera trazable con no más de 4B parámetros, no solo demuestra capacidades de razonamiento y pensamiento significativamente mejoradas después de utilizar aprendizaje por refuerzo en conjuntos de datos generales de Video-QA, sino que también exhibe la característica emergente de "momentos de comprensión". Además, compartimos una serie de hallazgos experimentales, con el objetivo de proporcionar ideas prácticas para la futura exploración de las habilidades de razonamiento (pensamiento) de video en modelos a pequeña escala. Está disponible en https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

Summary

AI-Generated Summary

PDF163April 15, 2025