ChatPaper.aiChatPaper

Создание точного видеоязыка под контролем человека и искусственного интеллекта

Building a Precise Video Language with Human-AI Oversight

April 22, 2026
Авторы: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI

Аннотация

Видео-языковые модели (VLM) обучаются осмыслению динамического визуального мира через естественный язык. Мы представляем набор открытых датасетов, бенчмарков и методик масштабируемого контроля, обеспечивающих точное описание видео. Во-первых, мы определяем структурированную спецификацию для описания субъектов, сцен, движения, пространственной и камерной динамики, основанную на сотнях тщательно разработанных визуальных примитивов, созданных совместно с профессиональными создателями видео, такими как кинорежиссеры. Далее для курации высококачественных описаний мы представляем CHAI (Critique-based Human-AI Oversight) — фреймворк, в котором обученные эксперты критикуют и редактируют сгенерированные моделью предварительные описания, превращая их в улучшенные окончательные описания. Такое разделение труда повышает точность и эффективность аннотирования, перекладывая генерацию текста на модели и позволяя человеку сосредоточиться на верификации. Кроме того, эти критические замечания и предпочтения между предварительными и окончательными описаниями обеспечивают богатый источник данных для улучшения открытых моделей (Qwen3-VL) в задачах генерации описаний, моделирования вознаграждения и генерации критики с помощью SFT, DPO и масштабирования на этапе вывода. Наши ablation-исследования показывают, что качество критики по показателям точности, полноты и конструктивности, обеспечиваемое нашим фреймворком контроля, напрямую определяет итоговую производительность. При умеренных затратах на контроль экспертами результирующая модель превосходит закрытые модели, такие как Gemini-3.1-Pro. Наконец, мы применяем наш подход для переописания крупномасштабных профессиональных видео (например, фильмов, рекламы, игр) и дообучаем модели генерации видео, такие как Wan, для лучшего следования детализированным промптам длиной до 400 слов, достигая более тонкого контроля над кинематографическими аспектами, включая движение камеры, угол, объектив, фокус, точку зрения и кадрирование. Наши результаты демонстрируют, что точная спецификация и совместный контроль человека и ИИ являются ключом к профессиональному уровню понимания и генерации видео. Данные и код доступны на странице проекта: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/
PDF91April 28, 2026