VideoKR: к пониманию видео, требующему интенсивного использования знаний и рассуждений

Аннотация

Мы представляем VideoKR — первый масштабный обучающий корпус, специально разработанный для усиления понимания видео, требующего знаний и интенсивных рассуждений. Он включает 315 000 примеров видеорассуждений на основе 145 000 вновь собранных видеороликов из экспертных областей, лицензированных по CC. Мы разработали ориентированный на навыки конвейер генерации примеров с участием человека, нацеленный на последовательное углубление способностей к видеорассуждению, при этом обеспечивая сложность, разнообразие и надежность как примеров, так и их обоснований в формате цепочек рассуждений (CoT). Мы также создали VideoKR-Eval — новый эталонный набор данных с экспертной разметкой, где вопросы требуют подлинного понимания видео и рассуждений, основанных на знаниях, а не на текстовых сокращениях. Наши эксперименты показывают, что в рамках стандартного конвейера SFT→GRPO модели, обученные на VideoKR, превосходят предыдущие подходы послетренировочного обучения в области видеорассуждений, требующих знаний, оставаясь при этом конкурентоспособными в общих видеорассуждениях. Это подчеркивает ключевую роль дизайна данных как движущей силы прогресса в видеорассуждениях. Мы также проводим всесторонние абляционные исследования для выделения вклада VideoKR, предоставляя практические идеи для будущих работ.

English

We introduce VideoKR, the first large-scale training corpus specifically designed to strengthen knowledge- and reasoning-intensive video understanding. It comprises 315K video reasoning examples over 145K newly collected, CC-licensed, expert-domain videos. We develop a human-in-the-loop, skill-oriented example generation pipeline that targets progressively deeper video reasoning capabilities while ensuring the difficulty, diversity, and reliability of both the examples and their CoT rationales. We also curate VideoKR-Eval, a new expert-annotated benchmark where questions require genuine video understanding and knowledge-intensive reasoning rather than textual shortcuts. Our experiments show that, under a standard SFTrightarrowGRPO pipeline, models post-trained on VideoKR outperform prior post-training approaches on knowledge-intensive video reasoning while remaining competitive on general video reasoning, highlighting data design as a key driver of progress in video reasoning. We further conduct comprehensive ablations to isolate the contributions of VideoKR, providing actionable insights for future work.