ChatPaper.aiChatPaper

Construindo uma Linguagem de Vídeo Precisa com Supervisão Humana-IA

Building a Precise Video Language with Human-AI Oversight

April 22, 2026
Autores: Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan
cs.AI

Resumo

Os modelos de vídeo-linguagem (VLM) aprendem a raciocinar sobre o mundo visual dinâmico por meio da linguagem natural. Apresentamos um conjunto de conjuntos de dados abertos, benchmarks e metodologias para supervisão escalável que permitem uma legendagem de vídeo precisa. Primeiro, definimos uma especificação estruturada para descrever sujeitos, cenários, movimento, dinâmicas espaciais e de câmera, fundamentada por centenas de primitivas visuais cuidadosamente definidas em colaboração com criadores de vídeo profissionais, como cineastas. Em seguida, para curadoria de legendas de alta qualidade, introduzimos o CHAI (Supervisão Humano-IA baseada em Crítica), um framework no qual especialistas treinados criticam e revisam pré-legendas geradas por modelos, transformando-as em pós-legendas aprimoradas. Esta divisão de trabalho melhora a precisão e eficiência da anotação ao delegar a geração de texto aos modelos, permitindo que humanos se concentrem melhor na verificação. Adicionalmente, essas críticas e preferências entre pré e pós-legendas fornecem supervisão rica para melhorar modelos de código aberto (Qwen3-VL) na geração de legendas, modelagem de recompensa e geração de críticas por meio de SFT, DPO e escalonamento no momento da inferência. Nossas ablações mostram que a qualidade da crítica em precisão, recall e construtividade, garantida pelo nosso framework de supervisão, governa diretamente o desempenho downstream. Com supervisão especializada modesta, o modelo resultante supera modelos de código fechado, como o Gemini-3.1-Pro. Finalmente, aplicamos nossa abordagem para relegendar vídeos profissionais em larga escala (por exemplo, filmes, comerciais, jogos) e ajustamos finamente modelos de geração de vídeo, como o Wan, para seguir melhor instruções detalhadas de até 400 palavras, alcançando um controle mais refinado sobre a cinematografia, incluindo movimento de câmera, ângulo, lente, foco, ponto de vista e enquadramento. Nossos resultados mostram que especificação precisa e supervisão humano-IA são fundamentais para a compreensão e geração de vídeo em nível profissional. Dados e código estão disponíveis em nossa página do projeto: https://linzhiqiu.github.io/papers/chai/
English
Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. First, we define a structured specification for describing subjects, scenes, motion, spatial, and camera dynamics, grounded by hundreds of carefully defined visual primitives developed with professional video creators such as filmmakers. Next, to curate high-quality captions, we introduce CHAI (Critique-based Human-AI Oversight), a framework where trained experts critique and revise model-generated pre-captions into improved post-captions. This division of labor improves annotation accuracy and efficiency by offloading text generation to models, allowing humans to better focus on verification. Additionally, these critiques and preferences between pre- and post-captions provide rich supervision for improving open-source models (Qwen3-VL) on caption generation, reward modeling, and critique generation through SFT, DPO, and inference-time scaling. Our ablations show that critique quality in precision, recall, and constructiveness, ensured by our oversight framework, directly governs downstream performance. With modest expert supervision, the resulting model outperforms closed-source models such as Gemini-3.1-Pro. Finally, we apply our approach to re-caption large-scale professional videos (e.g., films, commercials, games) and fine-tune video generation models such as Wan to better follow detailed prompts of up to 400 words, achieving finer control over cinematography including camera motion, angle, lens, focus, point of view, and framing. Our results show that precise specification and human-AI oversight are key to professional-level video understanding and generation. Data and code are available on our project page: https://linzhiqiu.github.io/papers/chai/
PDF91April 28, 2026