TinyLLaVA-Video-R1: 비디오 추론을 위한 더 작은 LMM(Large Multimodal Model) 모델 개발
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
April 13, 2025
저자: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI
초록
최근, 강화 학습을 통해 대규모 멀티모달 모델(LMMs)의 추론 능력을 향상시키는 데 큰 진전이 있었습니다. 그러나 대부분의 기존 연구는 수학 및 코드와 같은 고도로 추론 집약적인 데이터셋을 기반으로 하며, 연구자들은 일반적으로 대규모 모델을 기반으로 선택합니다. 우리는 계산 자원이 제한된 연구자들에게 소규모 모델의 추론 능력을 탐구하는 것이 여전히 가치 있다고 주장합니다. 또한, 일반적인 질의응답 데이터셋에서 모델이 자신의 추론 과정을 설명할 수 있도록 하는 것 역시 의미가 있습니다. 따라서 우리는 소규모 비디오 추론 모델 TinyLLaVA-Video-R1을 제시합니다. 4B 파라미터 이하로 추적 가능하게 훈련된 비디오 이해 모델인 TinyLLaVA-Video를 기반으로, 이 모델은 일반적인 Video-QA 데이터셋에서 강화 학습을 사용한 후 상당히 향상된 추론 및 사고 능력을 보여줄 뿐만 아니라 "아하 순간"이라는 창발적 특성을 나타냅니다. 또한, 우리는 일련의 실험 결과를 공유하여, 향후 소규모 모델의 비디오 추론(사고) 능력 탐구를 위한 실질적인 통찰을 제공하고자 합니다. 이 모델은 https://github.com/ZhangXJ199/TinyLLaVA-Video-R1에서 확인할 수 있습니다.
English
Recently, improving the reasoning ability of large multimodal models (LMMs)
through reinforcement learning has made great progress. However, most existing
works are based on highly reasoning-intensive datasets such as mathematics and
code, and researchers generally choose large-scale models as the foundation. We
argue that exploring small-scale models' reasoning capabilities remains
valuable for researchers with limited computational resources. Moreover,
enabling models to explain their reasoning processes on general
question-answering datasets is equally meaningful. Therefore, we present the
small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video,
a traceably trained video understanding model with no more than 4B parameters,
it not only demonstrates significantly improved reasoning and thinking
capabilities after using reinforcement learning on general Video-QA datasets,
but also exhibits the emergent characteristic of "aha moments". Furthermore, we
share a series of experimental findings, aiming to provide practical insights
for future exploration of video reasoning (thinking) abilities in small-scale
models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.Summary
AI-Generated Summary