Code2Video: Кодоцентричная парадигма для создания образовательных видеоматериалов
Code2Video: A Code-centric Paradigm for Educational Video Generation
October 1, 2025
Авторы: Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Аннотация
Хотя современные генеративные модели продвигают синтез видео в пиксельном пространстве, они остаются ограниченными в создании профессиональных образовательных видео, которые требуют дисциплинарных знаний, точных визуальных структур и согласованных переходов, что ограничивает их применимость в образовательных сценариях. Интуитивно такие требования лучше решаются через манипуляции с рендерируемой средой, которая может быть явно контролируема с помощью логических команд (например, кода). В данной работе мы предлагаем Code2Video, кодоцентричную агентскую платформу для генерации образовательных видео с помощью исполняемого Python-кода. Платформа включает три взаимодействующих агента: (i) Планировщик, который структурирует содержание лекции в последовательные временные потоки и подготавливает соответствующие визуальные ресурсы; (ii) Кодер, который преобразует структурированные инструкции в исполняемый Python-код, используя автоматическое исправление на основе области видимости для повышения эффективности; и (iii) Критик, который использует модели "визуальный язык" (VLM) с визуальными якорными подсказками для улучшения пространственного расположения и обеспечения ясности. Для поддержки систематической оценки мы создаем MMMC, эталонный набор профессионально созданных образовательных видео, специфичных для различных дисциплин. Мы оцениваем MMMC по различным параметрам, включая эстетические оценки VLM-as-a-Judge, эффективность кода и, в частности, TeachQuiz, новую сквозную метрику, которая количественно определяет, насколько хорошо VLM, после "разобучения", может восстановить знания, просматривая сгенерированные видео. Наши результаты демонстрируют потенциал Code2Video как масштабируемого, интерпретируемого и контролируемого подхода, достигая 40% улучшения по сравнению с прямой генерацией кода и создавая видео, сопоставимые с созданными человеком учебными материалами. Код и наборы данных доступны по адресу https://github.com/showlab/Code2Video.
English
While recent generative models advance pixel-space video synthesis, they
remain limited in producing professional educational videos, which demand
disciplinary knowledge, precise visual structures, and coherent transitions,
limiting their applicability in educational scenarios. Intuitively, such
requirements are better addressed through the manipulation of a renderable
environment, which can be explicitly controlled via logical commands (e.g.,
code). In this work, we propose Code2Video, a code-centric agent framework for
generating educational videos via executable Python code. The framework
comprises three collaborative agents: (i) Planner, which structures lecture
content into temporally coherent flows and prepares corresponding visual
assets; (ii) Coder, which converts structured instructions into executable
Python codes while incorporating scope-guided auto-fix to enhance efficiency;
and (iii) Critic, which leverages vision-language models (VLM) with visual
anchor prompts to refine spatial layout and ensure clarity. To support
systematic evaluation, we build MMMC, a benchmark of professionally produced,
discipline-specific educational videos. We evaluate MMMC across diverse
dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and
particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a
VLM, after unlearning, can recover knowledge by watching the generated videos.
Our results demonstrate the potential of Code2Video as a scalable,
interpretable, and controllable approach, achieving 40% improvement over direct
code generation and producing videos comparable to human-crafted tutorials. The
code and datasets are available at https://github.com/showlab/Code2Video.