TinyLLaVA-Video-R1: Auf dem Weg zu kleineren LMMs für die Videoverarbeitung

papers.abstract

In jüngster Zeit hat die Verbesserung der Denkfähigkeit großer multimodaler Modelle (LMMs) durch Reinforcement Learning erhebliche Fortschritte gemacht. Die meisten bestehenden Arbeiten basieren jedoch auf hochgradig denkintensiven Datensätzen wie Mathematik und Code, und Forscher wählen in der Regel großskalige Modelle als Grundlage. Wir argumentieren, dass die Erforschung der Denkfähigkeiten klein skalierten Modelle für Forscher mit begrenzten Rechenressourcen weiterhin wertvoll ist. Darüber hinaus ist es ebenso bedeutsam, Modelle in die Lage zu versetzen, ihre Denkprozesse auf allgemeinen Frage-Antwort-Datensätzen zu erklären. Daher stellen wir das klein skalierte Video-Denkmodell TinyLLaVA-Video-R1 vor. Basierend auf TinyLLaVA-Video, einem nachvollziehbar trainierten Video-Verständnismodell mit nicht mehr als 4B Parametern, zeigt es nicht nur deutlich verbesserte Denk- und Denkfähigkeiten nach der Verwendung von Reinforcement Learning auf allgemeinen Video-QA-Datensätzen, sondern weist auch die emergente Eigenschaft von „Aha-Momenten“ auf. Darüber hinaus teilen wir eine Reihe von experimentellen Erkenntnissen, die praktische Einblicke für die zukünftige Erforschung von Video-Denkfähigkeiten in klein skalierten Modellen bieten sollen. Es ist verfügbar unter https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

English

Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

TinyLLaVA-Video-R1: Auf dem Weg zu kleineren LMMs für die Videoverarbeitung

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

papers.abstract

Support