Code2Video : Un paradigme centré sur le code pour la génération de vidéos éducatives

papers.abstract

Alors que les modèles génératifs récents progressent dans la synthèse de vidéos en espace pixel, ils restent limités dans la production de vidéos éducatives professionnelles, qui exigent des connaissances disciplinaires, des structures visuelles précises et des transitions cohérentes, limitant ainsi leur applicabilité dans des scénarios éducatifs. Intuitivement, de telles exigences sont mieux abordées par la manipulation d'un environnement rendu, qui peut être explicitement contrôlé via des commandes logiques (par exemple, du code). Dans ce travail, nous proposons Code2Video, un framework centré sur le code pour générer des vidéos éducatives via du code Python exécutable. Le framework comprend trois agents collaboratifs : (i) le Planificateur, qui structure le contenu du cours en flux temporellement cohérents et prépare les ressources visuelles correspondantes ; (ii) le Codeur, qui convertit les instructions structurées en codes Python exécutables tout en intégrant une correction automatique guidée par la portée pour améliorer l'efficacité ; et (iii) le Critique, qui exploite des modèles vision-langage (VLM) avec des invites d'ancrage visuel pour affiner la disposition spatiale et assurer la clarté. Pour soutenir une évaluation systématique, nous construisons MMMC, un benchmark de vidéos éducatives spécifiques à une discipline, produites professionnellement. Nous évaluons MMMC selon diverses dimensions, y compris les scores esthétiques VLM-comme-Juge, l'efficacité du code, et en particulier TeachQuiz, une nouvelle métrique de bout en bout qui quantifie dans quelle mesure un VLM, après désapprentissage, peut récupérer des connaissances en regardant les vidéos générées. Nos résultats démontrent le potentiel de Code2Video comme une approche scalable, interprétable et contrôlable, obtenant une amélioration de 40 % par rapport à la génération directe de code et produisant des vidéos comparables à des tutoriels conçus par des humains. Le code et les jeux de données sont disponibles à l'adresse https://github.com/showlab/Code2Video.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video : Un paradigme centré sur le code pour la génération de vidéos éducatives

Code2Video: A Code-centric Paradigm for Educational Video Generation

papers.abstract

Support