Code2Video: Ein codezentriertes Paradigma zur Erstellung von Lehrvideos

papers.abstract

Während aktuelle generative Modelle die Videosynthese im Pixelraum vorantreiben, bleiben sie in der Erstellung professioneller Lehrvideos eingeschränkt, die Fachwissen, präzise visuelle Strukturen und kohärente Übergänge erfordern, was ihre Anwendbarkeit in Bildungsszenarien begrenzt. Intuitiv lassen sich solche Anforderungen besser durch die Manipulation einer renderbaren Umgebung bewältigen, die explizit über logische Befehle (z. B. Code) gesteuert werden kann. In dieser Arbeit stellen wir Code2Video vor, ein codezentriertes Agenten-Framework zur Erstellung von Lehrvideos über ausführbaren Python-Code. Das Framework besteht aus drei kooperierenden Agenten: (i) Planner, der Lehrinhalte in zeitlich kohärente Abläufe strukturiert und entsprechende visuelle Assets vorbereitet; (ii) Coder, der strukturierte Anweisungen in ausführbaren Python-Code umwandelt und dabei scope-gesteuerte Auto-Korrektur zur Effizienzsteigerung integriert; und (iii) Critic, der Vision-Language-Modelle (VLM) mit visuellen Anker-Prompts nutzt, um das räumliche Layout zu verfeinern und Klarheit sicherzustellen. Zur systematischen Evaluation entwickeln wir MMMC, einen Benchmark professionell produzierter, fachspezifischer Lehrvideos. Wir evaluieren MMMC über diverse Dimensionen, darunter VLM-as-a-Judge-ästhetische Bewertungen, Code-Effizienz und insbesondere TeachQuiz, eine neuartige End-to-End-Metrik, die quantifiziert, wie gut ein VLM nach dem Verlernen Wissen durch das Anschauen der generierten Videos wiedererlangen kann. Unsere Ergebnisse demonstrieren das Potenzial von Code2Video als skalierbarer, interpretierbarer und kontrollierbarer Ansatz, der eine 40 %ige Verbesserung gegenüber der direkten Code-Generierung erreicht und Videos produziert, die mit von Menschen erstellten Tutorials vergleichbar sind. Der Code und die Datensätze sind unter https://github.com/showlab/Code2Video verfügbar.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video: Ein codezentriertes Paradigma zur Erstellung von Lehrvideos

Code2Video: A Code-centric Paradigm for Educational Video Generation

papers.abstract

Support