Code2Video: Un paradigma centrado en código para la generación de videos educativos

Resumen

Si bien los modelos generativos recientes avanzan en la síntesis de videos en el espacio de píxeles, siguen siendo limitados en la producción de videos educativos profesionales, los cuales requieren conocimiento disciplinario, estructuras visuales precisas y transiciones coherentes, lo que limita su aplicabilidad en escenarios educativos. Intuitivamente, tales requisitos se abordan mejor mediante la manipulación de un entorno renderizable, que puede ser controlado explícitamente a través de comandos lógicos (por ejemplo, código). En este trabajo, proponemos Code2Video, un marco de trabajo centrado en código para la generación de videos educativos mediante código Python ejecutable. El marco consta de tres agentes colaborativos: (i) Planner, que estructura el contenido de la lección en flujos temporalmente coherentes y prepara los recursos visuales correspondientes; (ii) Coder, que convierte instrucciones estructuradas en código Python ejecutable mientras incorpora correcciones automáticas guiadas por alcance para mejorar la eficiencia; y (iii) Critic, que aprovecha modelos de visión-lenguaje (VLM) con indicaciones visuales ancladas para refinar el diseño espacial y garantizar la claridad. Para apoyar la evaluación sistemática, construimos MMMC, un conjunto de referencia de videos educativos específicos de disciplinas producidos profesionalmente. Evaluamos MMMC en diversas dimensiones, incluyendo puntuaciones estéticas de VLM-como-Juez, eficiencia del código y, en particular, TeachQuiz, una métrica novedosa de extremo a extremo que cuantifica qué tan bien un VLM, después de desaprender, puede recuperar conocimiento al ver los videos generados. Nuestros resultados demuestran el potencial de Code2Video como un enfoque escalable, interpretable y controlable, logrando una mejora del 40% sobre la generación directa de código y produciendo videos comparables a tutoriales creados por humanos. El código y los conjuntos de datos están disponibles en https://github.com/showlab/Code2Video.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video: Un paradigma centrado en código para la generación de videos educativos

Code2Video: A Code-centric Paradigm for Educational Video Generation

Resumen

Support