Het Ontwikkelen van een Nauwkeurige Videotaal met Mens-AI-Toezicht
Building a Precise Video Language with Human-AI Oversight
April 22, 2026
Auteurs: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI
Samenvatting
Video-taalmodellen (VLM's) leren redeneren over de dynamische visuele wereld via natuurlijke taal. Wij introduceren een reeks open datasets, benchmarks en methoden voor schaalbare supervisie die precieze videobeschrijving mogelijk maken. Ten eerste definiëren we een gestructureerde specificatie voor het beschrijven van onderwerpen, scènes, beweging, ruimtelijke dynamiek en camerabewegingen, gebaseerd op honderden zorgvuldig gedefinieerde visuele primitieven die zijn ontwikkeld met professionele videomakers zoals filmmakers. Vervolgens introduceren we, om hoogwaardige bijschriften te cureren, CHAI (Critique-based Human-AI Oversight), een raamwerk waarin getrainde experts door modellen gegenereerde voorlopige bijschriften beoordelen en reviseren tot verbeterde definitieve bijschriften. Deze arbeidsverdeling verbetert de annotatienauwkeurigheid en -efficiëntie door tekstgeneratie uit te besteden aan modellen, zodat mensen zich beter kunnen concentreren op verificatie. Bovendien bieden deze kritieken en voorkeuren tussen voorlopige en definitieve bijschriften rijke supervisie voor het verbeteren van open-source modellen (Qwen3-VL) op het gebied van bijschriftgeneratie, beloningsmodellering en kritiekgeneratie via SFT, DPO en schaling tijdens inferentie. Onze ablatiestudies tonen aan dat de kwaliteit van de kritiek op het gebied van precisie, recall en constructiviteit, gewaarborgd door ons supervisieraamwerk, direct de downstream-prestaties bepaalt. Met bescheiden expertsupervisie presteert het resulterende model beter dan closed-source modellen zoals Gemini-3.1-Pro. Ten slotte passen we onze aanpak toe om grootschalige professionele video's (bijv. films, commercials, games) opnieuw van bijschriften te voorzien en fine-tunen we videogeneratiemodellen zoals Wan om gedetailleerde prompts van tot 400 woorden beter te volgen, waardoor een fijnere controle over cinematografie wordt bereikt, inclusief camerabeweging, hoek, lens, focus, perspectief en kadrering. Onze resultaten tonen aan dat precieze specificatie en mens-AI-supervisie de sleutel zijn tot professioneel niveau van videobegrip en -generatie. Data en code zijn beschikbaar op onze projectpagina: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/