TheoremExplainAgent : Vers des explications multimodales pour la compréhension des théorèmes par les LLM
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
papers.authors: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
papers.abstract
Comprendre les théorèmes spécifiques à un domaine nécessite souvent plus qu'un simple raisonnement textuel ; une communication efficace à travers des explications visuelles structurées est cruciale pour une compréhension approfondie. Bien que les grands modèles de langage (LLMs) démontrent des performances solides dans le raisonnement textuel sur les théorèmes, leur capacité à générer des explications visuelles cohérentes et pédagogiquement significatives reste un défi ouvert. Dans ce travail, nous présentons TheoremExplainAgent, une approche agentive pour générer des vidéos d'explication de théorèmes de longue durée (plus de 5 minutes) en utilisant des animations Manim. Pour évaluer systématiquement les explications multimodales de théorèmes, nous proposons TheoremExplainBench, un benchmark couvrant 240 théorèmes à travers plusieurs disciplines STEM, ainsi que 5 métriques d'évaluation automatisées. Nos résultats révèlent que la planification agentive est essentielle pour générer des vidéos détaillées de longue durée, et l'agent o3-mini atteint un taux de réussite de 93,8 % et un score global de 0,77. Cependant, nos études quantitatives et qualitatives montrent que la plupart des vidéos produites présentent des problèmes mineurs dans la disposition des éléments visuels. De plus, les explications multimodales révèlent des failles de raisonnement plus profondes que les explications textuelles ne parviennent pas à dévoiler, soulignant l'importance des explications multimodales.
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.