Code2Video: Een code-centrisch paradigma voor het genereren van educatieve video's

Samenvatting

Hoewel recente generatieve modellen vooruitgang boeken in de synthese van video's in pixelruimte, blijven ze beperkt in het produceren van professionele educatieve video's, die disciplinaire kennis, precieze visuele structuren en samenhangende overgangen vereisen, wat hun toepasbaarheid in educatieve scenario's beperkt. Intuïtief worden dergelijke vereisten beter aangepakt door de manipulatie van een renderbare omgeving, die expliciet kan worden bestuurd via logische commando's (bijvoorbeeld code). In dit werk stellen we Code2Video voor, een code-centraal agentframework voor het genereren van educatieve video's via uitvoerbare Python-code. Het framework bestaat uit drie samenwerkende agents: (i) Planner, die lezinginhoud structureert in temporeel samenhangende stromen en de bijbehorende visuele middelen voorbereidt; (ii) Coder, die gestructureerde instructies omzet in uitvoerbare Python-codes terwijl scope-gestuurde automatische correcties worden ingebouwd om de efficiëntie te verbeteren; en (iii) Critic, die vision-language modellen (VLM) gebruikt met visuele ankerprompts om de ruimtelijke lay-out te verfijnen en duidelijkheid te waarborgen. Om systematische evaluatie te ondersteunen, bouwen we MMMC, een benchmark van professioneel geproduceerde, disciplinespecifieke educatieve video's. We evalueren MMMC over diverse dimensies, waaronder esthetische scores van VLM-as-a-Judge, code-efficiëntie, en met name TeachQuiz, een nieuwe end-to-end metriek die kwantificeert hoe goed een VLM, na het afleren, kennis kan herstellen door het bekijken van de gegenereerde video's. Onze resultaten tonen het potentieel van Code2Video aan als een schaalbare, interpreteerbare en controleerbare aanpak, met een verbetering van 40% ten opzichte van directe codegeneratie en het produceren van video's die vergelijkbaar zijn met door mensen gemaakte tutorials. De code en datasets zijn beschikbaar op https://github.com/showlab/Code2Video.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video: Een code-centrisch paradigma voor het genereren van educatieve video's

Code2Video: A Code-centric Paradigm for Educational Video Generation

Samenvatting

Support