VideoKR : Vers la compréhension vidéo à forte intensité de connaissances et de raisonnement

Résumé

Nous présentons VideoKR, le premier corpus d'entraînement à grande échelle spécifiquement conçu pour renforcer la compréhension vidéo exigeante en connaissances et en raisonnement. Il comprend 315 000 exemples de raisonnement vidéo portant sur 145 000 vidéos nouvellement collectées, sous licence CC et issues de domaines d'expertise. Nous développons un pipeline de génération d'exemples orienté compétences, intégrant une boucle humaine, qui cible des capacités de raisonnement vidéo de plus en plus profondes tout en garantissant la difficulté, la diversité et la fiabilité des exemples ainsi que de leurs justifications par chaîne de pensée (CoT). Nous rassemblons également VideoKR-Eval, un nouveau benchmark annoté par des experts, dans lequel les questions exigent une véritable compréhension vidéo et un raisonnement intensif en connaissances, plutôt que des raccourcis textuels. Nos expériences montrent que, dans le cadre d’un pipeline standard SFT → GRPO, les modèles post-entraînés sur VideoKR surpassent les approches antérieures de post-entraînement en matière de raisonnement vidéo intensif en connaissances, tout en restant compétitifs pour le raisonnement vidéo général, soulignant ainsi que la conception des données est un moteur clé du progrès en raisonnement vidéo. Nous menons également des ablations exhaustives pour isoler les contributions de VideoKR, fournissant des perspectives exploitables pour les travaux futurs.

English

We introduce VideoKR, the first large-scale training corpus specifically designed to strengthen knowledge- and reasoning-intensive video understanding. It comprises 315K video reasoning examples over 145K newly collected, CC-licensed, expert-domain videos. We develop a human-in-the-loop, skill-oriented example generation pipeline that targets progressively deeper video reasoning capabilities while ensuring the difficulty, diversity, and reliability of both the examples and their CoT rationales. We also curate VideoKR-Eval, a new expert-annotated benchmark where questions require genuine video understanding and knowledge-intensive reasoning rather than textual shortcuts. Our experiments show that, under a standard SFTrightarrowGRPO pipeline, models post-trained on VideoKR outperform prior post-training approaches on knowledge-intensive video reasoning while remaining competitive on general video reasoning, highlighting data design as a key driver of progress in video reasoning. We further conduct comprehensive ablations to isolate the contributions of VideoKR, providing actionable insights for future work.