Construire un langage vidéo précis avec une supervision humaine-IA
Building a Precise Video Language with Human-AI Oversight
April 22, 2026
Auteurs: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI
Résumé
Les modèles vidéo-langage (VLM) apprennent à raisonner sur le monde visuel dynamique par le biais du langage naturel. Nous présentons un ensemble de jeux de données ouverts, de benchmarks et de méthodes pour un contrôle scalable permettant une description vidéo précise. Premièrement, nous définissons une spécification structurée pour décrire les sujets, les scènes, le mouvement, la dynamique spatiale et celle de la caméra, ancrée par des centaines de primitives visuelles soigneusement définies en collaboration avec des créateurs vidéo professionnels tels que des cinéastes. Ensuite, pour constituer des descriptions de haute qualité, nous introduisons CHAI (Critique-based Human-AI Oversight), un cadre dans lequel des experts formés critiquent et révisent les pré-descriptions générées par le modèle pour produire des post-descriptions améliorées. Cette division du travail améliore la précision et l'efficacité de l'annotation en déléguant la génération de texte aux modèles, permettant aux humains de mieux se concentrer sur la vérification. De plus, ces critiques et les préférences entre pré- et post-descriptions fournissent un riche encadrement pour améliorer les modèles open-source (Qwen3-VL) sur la génération de descriptions, la modélisation de récompense et la génération de critiques via du SFT, du DPO et un scaling à l'inférence. Nos ablations montrent que la qualité des critiques en termes de précision, de rappel et de constructivité, garantie par notre cadre de contrôle, régit directement les performances en aval. Avec une supervision experte modeste, le modèle résultant surpasse les modèles fermés tels que Gemini-3.1-Pro. Enfin, nous appliquons notre approche pour re-décrire des vidéos professionnelles à grande échelle (par exemple, des films, des publicités, des jeux) et affinons des modèles de génération vidéo tels que Wan pour mieux suivre des instructions détaillées allant jusqu'à 400 mots, permettant un contrôle plus fin sur la cinématographie, incluant le mouvement de caméra, l'angle, l'objectif, la focale, le point de vue et le cadrage. Nos résultats montrent qu'une spécification précise et un contrôle humain-IA sont essentiels pour une compréhension et une génération vidéo de niveau professionnel. Les données et le code sont disponibles sur notre page de projet : https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/