Aufbau einer präzisen Videosprache mit menschlich-ki-gestützter Aufsicht.
Building a Precise Video Language with Human-AI Oversight
April 22, 2026
Autoren: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI
Zusammenfassung
Video-Language-Modelle (VLM) lernen, die dynamische visuelle Welt durch natürliche Sprache zu erfassen. Wir stellen eine Reihe offener Datensätze, Benchmarks und Methoden für skalierbare Überwachung vor, die eine präzise Videobeschreibung ermöglichen. Zunächst definieren wir eine strukturierte Spezifikation zur Beschreibung von Subjekten, Szenen, Bewegung, räumlicher und Kameradynamik, die auf Hunderten sorgfältig definierter visueller Grundbausteine basiert, die mit professionellen Videoproduzenten wie Filmemachern entwickelt wurden. Um hochwertige Beschreibungen zu kuratieren, führen wir CHAI (Critique-based Human-AI Oversight) ein – ein Framework, bei dem geschulte Experten von Modellen generierte Vor-Beschreibungen kritisieren und zu verbesserten Nach-Beschreibungen überarbeiten. Diese Arbeitsteilung steigert die Genauigkeit und Effizienz der Annotation, indem die Textgenerierung an Modelle ausgelagert wird, sodass Menschen sich besser auf die Verifikation konzentrieren können. Zudem bieten diese Kritiken und Präferenzen zwischen Vor- und Nach-Beschreibungen umfassende Supervision zur Verbesserung quelloffener Modelle (Qwen3-VL) bei der Beschreibungserstellung, Belohnungsmodellierung und Kritikgenerierung durch SFT, DPO und Skalierung zur Inferenzzeit. Unsere Ablationstudien zeigen, dass die Kritikqualität hinsichtlich Präzision, Recall und Konstruktivität, die durch unser Überwachungsframework sichergestellt wird, unmittelbar die Downstream-Leistung bestimmt. Mit moderater Expertensupervision übertrifft das resultierende Modell geschlossene Modelle wie Gemini-3.1-Pro. Abschließend wenden wir unseren Ansatz an, um groß angelegte professionelle Videos (z.B. Filme, Werbespots, Spiele) neu zu beschriften, und feinen Videogenerierungsmodelle wie Wan darauf ab, detaillierten Prompts von bis zu 400 Wörtern besser zu folgen, wodurch eine präzisere Steuerung der Kinematografie einschließlich Kamerabewegung, -winkel, Objektiv, Fokus, Perspektive und Bildausschnitt erreicht wird. Unsere Ergebnisse belegen, dass präzise Spezifikation und Mensch-KI-Überwachung Schlüssel für professionelles Videoverständnis und -generierung sind. Daten und Code sind auf unserer Projektseite verfügbar: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/