TinyLLaVA-Video-R1: Auf dem Weg zu kleineren LMMs für die Videoverarbeitung
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
April 13, 2025
Autoren: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI
Zusammenfassung
In jüngster Zeit hat die Verbesserung der Denkfähigkeit großer multimodaler Modelle (LMMs) durch Reinforcement Learning erhebliche Fortschritte gemacht. Die meisten bestehenden Arbeiten basieren jedoch auf hochgradig denkintensiven Datensätzen wie Mathematik und Code, und Forscher wählen in der Regel großskalige Modelle als Grundlage. Wir argumentieren, dass die Erforschung der Denkfähigkeiten klein skalierten Modelle für Forscher mit begrenzten Rechenressourcen weiterhin wertvoll ist. Darüber hinaus ist es ebenso bedeutsam, Modelle in die Lage zu versetzen, ihre Denkprozesse auf allgemeinen Frage-Antwort-Datensätzen zu erklären. Daher stellen wir das klein skalierte Video-Denkmodell TinyLLaVA-Video-R1 vor. Basierend auf TinyLLaVA-Video, einem nachvollziehbar trainierten Video-Verständnismodell mit nicht mehr als 4B Parametern, zeigt es nicht nur deutlich verbesserte Denk- und Denkfähigkeiten nach der Verwendung von Reinforcement Learning auf allgemeinen Video-QA-Datensätzen, sondern weist auch die emergente Eigenschaft von „Aha-Momenten“ auf. Darüber hinaus teilen wir eine Reihe von experimentellen Erkenntnissen, die praktische Einblicke für die zukünftige Erforschung von Video-Denkfähigkeiten in klein skalierten Modellen bieten sollen. Es ist verfügbar unter https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs)
through reinforcement learning has made great progress. However, most existing
works are based on highly reasoning-intensive datasets such as mathematics and
code, and researchers generally choose large-scale models as the foundation. We
argue that exploring small-scale models' reasoning capabilities remains
valuable for researchers with limited computational resources. Moreover,
enabling models to explain their reasoning processes on general
question-answering datasets is equally meaningful. Therefore, we present the
small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video,
a traceably trained video understanding model with no more than 4B parameters,
it not only demonstrates significantly improved reasoning and thinking
capabilities after using reinforcement learning on general Video-QA datasets,
but also exhibits the emergent characteristic of "aha moments". Furthermore, we
share a series of experimental findings, aiming to provide practical insights
for future exploration of video reasoning (thinking) abilities in small-scale
models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.Summary
AI-Generated Summary