Code2Video: Un Paradigma Centrato sul Codice per la Generazione di Video Educativi

Abstract

Sebbene i recenti modelli generativi abbiano fatto progressi nella sintesi di video nello spazio dei pixel, rimangono limitati nella produzione di video educativi professionali, che richiedono conoscenze disciplinari, strutture visive precise e transizioni coerenti, limitando la loro applicabilità negli scenari educativi. Intuitivamente, tali requisiti sono meglio affrontati attraverso la manipolazione di un ambiente renderizzabile, che può essere controllato esplicitamente tramite comandi logici (ad esempio, codice). In questo lavoro, proponiamo Code2Video, un framework di agenti centrato sul codice per generare video educativi tramite codice Python eseguibile. Il framework comprende tre agenti collaborativi: (i) Planner, che struttura il contenuto della lezione in flussi temporalmente coerenti e prepara le risorse visive corrispondenti; (ii) Coder, che converte le istruzioni strutturate in codici Python eseguibili incorporando correzioni automatiche guidate dallo scopo per migliorare l'efficienza; e (iii) Critic, che sfrutta modelli visione-linguaggio (VLM) con prompt visivi per affinare il layout spaziale e garantire chiarezza. Per supportare una valutazione sistematica, abbiamo costruito MMMC, un benchmark di video educativi specifici per disciplina prodotti professionalmente. Valutiamo MMMC su diverse dimensioni, inclusi i punteggi estetici VLM-as-a-Judge, l'efficienza del codice e, in particolare, TeachQuiz, una nuova metrica end-to-end che quantifica quanto bene un VLM, dopo aver disimparato, possa recuperare conoscenze guardando i video generati. I nostri risultati dimostrano il potenziale di Code2Video come approccio scalabile, interpretabile e controllabile, ottenendo un miglioramento del 40% rispetto alla generazione diretta del codice e producendo video comparabili ai tutorial creati da esseri umani. Il codice e i dataset sono disponibili su https://github.com/showlab/Code2Video.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video: Un Paradigma Centrato sul Codice per la Generazione di Video Educativi

Code2Video: A Code-centric Paradigm for Educational Video Generation

Abstract

Support