Construcción de un Lenguaje de Video Preciso con Supervisión Humano-IA
Building a Precise Video Language with Human-AI Oversight
April 22, 2026
Autores: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI
Resumen
Los modelos video-lingüísticos (VLM) aprenden a razonar sobre el mundo visual dinámico mediante lenguaje natural. Presentamos un conjunto de conjuntos de datos abiertos, puntos de referencia y metodologías para supervisión escalable que permiten una descripción precisa de videos. Primero, definimos una especificación estructurada para describir sujetos, escenas, movimiento, dinámica espacial y de cámara, fundamentada en cientos de primitivas visuales cuidadosamente definidas desarrolladas con creadores de video profesionales como cineastas. Luego, para curar descripciones de alta calidad, introducimos CHAI (Supervisión Humano-IA basada en Críticas), un marco donde expertos capacitados critican y revisan pre-descripciones generadas por el modelo para convertirlas en post-descripciones mejoradas. Esta división del trabajo mejora la precisión y eficiencia de la anotación al delegar la generación de texto a los modelos, permitiendo que los humanos se concentren mejor en la verificación. Además, estas críticas y preferencias entre pre y post-descripciones proporcionan una supervisión enriquecida para mejorar modelos de código abierto (Qwen3-VL) en generación de descripciones, modelado de recompensas y generación de críticas mediante SFT, DPO y escalado en tiempo de inferencia. Nuestras ablaciones muestran que la calidad de la crítica en precisión, exhaustividad y constructividad, garantizada por nuestro marco de supervisión, gobierna directamente el rendimiento posterior. Con una supervisión experta moderada, el modelo resultante supera a modelos cerrados como Gemini-3.1-Pro. Finalmente, aplicamos nuestro enfoque para re-describir videos profesionales a gran escala (por ejemplo, películas, comerciales, videojuegos) y ajustamos modelos de generación de video como Wan para seguir mejor instrucciones detalladas de hasta 400 palabras, logrando un control más fino sobre la cinematografía, incluyendo movimiento de cámara, ángulo, lente, enfoque, punto de vista y encuadre. Nuestros resultados demuestran que la especificación precisa y la supervisión humano-IA son clave para la comprensión y generación de video a nivel profesional. Los datos y el código están disponibles en nuestra página del proyecto: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/