TheoremExplainAgent: Naar Multimodale Verklaringen voor LLM Stellingenbegrip
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
Auteurs: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
Samenvatting
Het begrijpen van domeinspecifieke stellingen vereist vaak meer dan alleen tekstgebaseerd redeneren; effectieve communicatie via gestructureerde visuele uitleg is cruciaal voor een dieper begrip. Hoewel grote taalmmodellen (LLMs) sterke prestaties laten zien in tekstgebaseerd stellingenredeneren, blijft hun vermogen om samenhangende en pedagogisch zinvolle visuele uitleg te genereren een open uitdaging. In dit werk introduceren we TheoremExplainAgent, een agent-gebaseerde aanpak voor het genereren van langdurige stellinguitlegvideo's (langer dan 5 minuten) met behulp van Manim-animaties. Om multimodale stellinguitleg systematisch te evalueren, stellen we TheoremExplainBench voor, een benchmark die 240 stellingen beslaat over meerdere STEM-disciplines, samen met 5 geautomatiseerde evaluatiemetrics. Onze resultaten tonen aan dat agent-gebaseerde planning essentieel is voor het genereren van gedetailleerde langdurige video's, en de o3-mini agent bereikt een slagingspercentage van 93,8% en een totaalscore van 0,77. Echter, onze kwantitatieve en kwalitatieve studies laten zien dat de meeste geproduceerde video's kleine problemen hebben met de lay-out van visuele elementen. Bovendien onthullen multimodale uitleggen diepere redeneerfouten die tekstgebaseerde uitleggen niet blootleggen, wat het belang van multimodale uitleggen benadrukt.
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.