ChatPaper.aiChatPaper

TinyLLaVA-Video-R1: В сторону компактных мультимодальных языковых моделей для анализа видео

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

April 13, 2025
Авторы: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
cs.AI

Аннотация

В последнее время значительный прогресс был достигнут в улучшении способности к рассуждению крупных мультимодальных моделей (LMMs) с использованием обучения с подкреплением. Однако большинство существующих работ основаны на высокоинтенсивных наборах данных, таких как математика и программирование, и исследователи обычно выбирают крупномасштабные модели в качестве основы. Мы считаем, что изучение способностей к рассуждению у моделей малого масштаба остается ценным для исследователей с ограниченными вычислительными ресурсами. Более того, наделение моделей возможностью объяснять свои процессы рассуждения на общих наборах данных для вопросов и ответов также является значимым. Поэтому мы представляем модель малого масштаба для рассуждений на видео TinyLLaVA-Video-R1. Основанная на TinyLLaVA-Video, модели для понимания видео, обученной с возможностью отслеживания и содержащей не более 4 миллиардов параметров, она не только демонстрирует значительное улучшение способностей к рассуждению и мышлению после использования обучения с подкреплением на общих наборах данных Video-QA, но также проявляет эмерджентную характеристику "моментов озарения". Кроме того, мы делимся серией экспериментальных результатов, стремясь предоставить практические инсайты для будущего исследования способностей к рассуждению (мышлению) на видео в моделях малого масштаба. Модель доступна по адресу https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
English
Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

Summary

AI-Generated Summary

PDF163April 15, 2025