ChatPaper.aiChatPaper

TinyLLaVA-Video-R1: Naar kleinere LMM's voor videoredenatie

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

April 13, 2025
Auteurs: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI

Samenvatting

Recentelijk is het verbeteren van het redeneervermogen van grote multimodale modellen (LMM's) door middel van reinforcement learning aanzienlijk vooruitgegaan. De meeste bestaande werken zijn echter gebaseerd op zeer redeneerintensieve datasets zoals wiskunde en code, en onderzoekers kiezen over het algemeen grootschalige modellen als basis. Wij stellen dat het verkennen van het redeneervermogen van kleinschalige modellen nog steeds waardevol is voor onderzoekers met beperkte rekenbronnen. Bovendien is het even betekenisvol om modellen in staat te stellen hun redeneerprocessen uit te leggen op algemene vraag-antwoorddatasets. Daarom presenteren wij het kleinschalige videoredeneermodel TinyLLaVA-Video-R1. Gebaseerd op TinyLLaVA-Video, een traceerbaar getraind videobegripmodel met niet meer dan 4B parameters, toont het niet alleen een aanzienlijk verbeterd redeneer- en denkvermogen na het gebruik van reinforcement learning op algemene Video-QA-datasets, maar vertoont het ook het opkomende kenmerk van "aha-momenten". Verder delen wij een reeks experimentele bevindingen, met als doel praktische inzichten te bieden voor toekomstige verkenning van videoredeneer- (denk-)vermogens in kleinschalige modellen. Het is beschikbaar op https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

Summary

AI-Generated Summary

PDF163April 15, 2025