ChatPaper.aiChatPaper

TinyLLaVA-Video-R1: Rumo a Modelos de Linguagem Multimodais Menores para Raciocínio em Vídeo

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

April 13, 2025
Autores: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI

Resumo

Recentemente, a melhoria da capacidade de raciocínio de modelos multimodais de grande escala (LMMs) por meio de aprendizado por reforço tem alcançado progressos significativos. No entanto, a maioria dos trabalhos existentes baseia-se em conjuntos de dados altamente intensivos em raciocínio, como matemática e código, e os pesquisadores geralmente escolhem modelos de grande escala como base. Argumentamos que explorar as capacidades de raciocínio de modelos de pequena escala continua sendo valioso para pesquisadores com recursos computacionais limitados. Além disso, permitir que os modelos expliquem seus processos de raciocínio em conjuntos de dados gerais de perguntas e respostas é igualmente significativo. Portanto, apresentamos o modelo de raciocínio em vídeo de pequena escala TinyLLaVA-Video-R1. Baseado no TinyLLaVA-Video, um modelo de compreensão de vídeo treinado de forma rastreável com não mais que 4 bilhões de parâmetros, ele não apenas demonstra capacidades de raciocínio e pensamento significativamente aprimoradas após o uso de aprendizado por reforço em conjuntos de dados gerais de Video-QA, mas também exibe a característica emergente de "momentos de insight". Além disso, compartilhamos uma série de descobertas experimentais, com o objetivo de fornecer insights práticos para futuras explorações das habilidades de raciocínio (pensamento) em vídeo em modelos de pequena escala. Ele está disponível em https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

Summary

AI-Generated Summary

PDF163April 15, 2025