ChatPaper.aiChatPaper

TinyLLaVA-Video-R1 : Vers des modèles de langage multimodal plus compacts pour le raisonnement vidéo

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

April 13, 2025
Auteurs: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI

Résumé

Récemment, l'amélioration des capacités de raisonnement des grands modèles multimodaux (LMM) grâce à l'apprentissage par renforcement a réalisé des progrès significatifs. Cependant, la plupart des travaux existants se basent sur des ensembles de données fortement axés sur le raisonnement, tels que les mathématiques et le code, et les chercheurs choisissent généralement des modèles à grande échelle comme fondation. Nous soutenons que l'exploration des capacités de raisonnement des modèles à petite échelle reste précieuse pour les chercheurs disposant de ressources computationnelles limitées. De plus, permettre aux modèles d'expliquer leurs processus de raisonnement sur des ensembles de données générales de questions-réponses est tout aussi significatif. Par conséquent, nous présentons le modèle de raisonnement vidéo à petite échelle TinyLLaVA-Video-R1. Basé sur TinyLLaVA-Video, un modèle de compréhension vidéo entraîné de manière traçable avec pas plus de 4 milliards de paramètres, il démontre non seulement des capacités de raisonnement et de réflexion nettement améliorées après l'utilisation de l'apprentissage par renforcement sur des ensembles de données générales de questions-réponses vidéo, mais présente également la caractéristique émergente des "moments eurêka". En outre, nous partageons une série de résultats expérimentaux, visant à fournir des insights pratiques pour l'exploration future des capacités de raisonnement (réflexion) vidéo dans les modèles à petite échelle. Il est disponible à l'adresse suivante : https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

Summary

AI-Generated Summary

PDF163April 15, 2025