ChatPaper.aiChatPaper

Costruire un Linguaggio Video di Precisione con Supervisione Umano-IA

Building a Precise Video Language with Human-AI Oversight

April 22, 2026
Autori: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI

Abstract

I modelli video-linguaggio (VLM) apprendono a ragionare sul mondo visivo dinamico attraverso il linguaggio naturale. Presentiamo una suite di dataset aperti, benchmark e metodologie per la supervisione scalabile che abilitano una descrizione video precisa. In primo luogo, definiamo una specifica strutturata per descrivere soggetti, scene, movimento, dinamiche spaziali e della telecamera, ancorata a centinaia di primitive visive accuratamente definite sviluppate con creatori video professionisti come filmmaker. Successivamente, per curare didascalie di alta qualità, introduciamo CHAI (Critique-based Human-AI Oversight), un framework in cui esperti formati revisionano e correggono le pre-didascalie generate dal modello trasformandole in post-didascalie migliorate. Questa divisione del lavoro migliora accuratezza ed efficienza dell'annotazione demandando la generazione del testo ai modelli, permettendo agli umani di concentrarsi meglio sulla verifica. Inoltre, queste critiche e le preferenze tra pre- e post-didascalie forniscono una supervisione ricca per migliorare modelli open-source (Qwen3-VL) sulla generazione di didascalie, modellazione della ricompensa e generazione di critiche attraverso SFT, DPO e scaling al momento dell'inferenza. I nostri studi di ablazione mostrano che la qualità della critica in termini di precisione, recall e costruttività, garantita dal nostro framework di supervisione, governa direttamente le prestazioni downstream. Con una moderata supervisione esperta, il modello risultante supera modelli closed-source come Gemini-3.1-Pro. Infine, applichiamo il nostro approccio per ridefinire didascalie per video professionali su larga scala (ad es. film, spot pubblicitari, giochi) e addestriamo modelli di generazione video come Wan per seguire meglio prompt dettagliati fino a 400 parole, ottenendo un controllo più fine sulla cinematografia, inclusi movimento della telecamera, angolazione, obiettivo, messa a fuoco, punto di vista e inquadratura. I nostri risultati dimostrano che specifiche precise e una supervisione umano-IA sono la chiave per la comprensione e la generazione video di livello professionale. Dati e codice sono disponibili sulla nostra pagina progetto: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/
PDF91April 28, 2026