TinyLLaVA-Video-R1: Naar kleinere LMM's voor videoredenatie
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
April 13, 2025
Auteurs: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI
Samenvatting
Recentelijk is het verbeteren van het redeneervermogen van grote multimodale modellen (LMM's) door middel van reinforcement learning aanzienlijk vooruitgegaan. De meeste bestaande werken zijn echter gebaseerd op zeer redeneerintensieve datasets zoals wiskunde en code, en onderzoekers kiezen over het algemeen grootschalige modellen als basis. Wij stellen dat het verkennen van het redeneervermogen van kleinschalige modellen nog steeds waardevol is voor onderzoekers met beperkte rekenbronnen. Bovendien is het even betekenisvol om modellen in staat te stellen hun redeneerprocessen uit te leggen op algemene vraag-antwoorddatasets. Daarom presenteren wij het kleinschalige videoredeneermodel TinyLLaVA-Video-R1. Gebaseerd op TinyLLaVA-Video, een traceerbaar getraind videobegripmodel met niet meer dan 4B parameters, toont het niet alleen een aanzienlijk verbeterd redeneer- en denkvermogen na het gebruik van reinforcement learning op algemene Video-QA-datasets, maar vertoont het ook het opkomende kenmerk van "aha-momenten". Verder delen wij een reeks experimentele bevindingen, met als doel praktische inzichten te bieden voor toekomstige verkenning van videoredeneer- (denk-)vermogens in kleinschalige modellen. Het is beschikbaar op https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs)
through reinforcement learning has made great progress. However, most existing
works are based on highly reasoning-intensive datasets such as mathematics and
code, and researchers generally choose large-scale models as the foundation. We
argue that exploring small-scale models' reasoning capabilities remains
valuable for researchers with limited computational resources. Moreover,
enabling models to explain their reasoning processes on general
question-answering datasets is equally meaningful. Therefore, we present the
small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video,
a traceably trained video understanding model with no more than 4B parameters,
it not only demonstrates significantly improved reasoning and thinking
capabilities after using reinforcement learning on general Video-QA datasets,
but also exhibits the emergent characteristic of "aha moments". Furthermore, we
share a series of experimental findings, aiming to provide practical insights
for future exploration of video reasoning (thinking) abilities in small-scale
models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.Summary
AI-Generated Summary