TheoremExplainAgent: Auf dem Weg zu multimodalen Erklärungen für das Theoremverständnis von LLMs
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
Autoren: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
Zusammenfassung
Das Verständnis domänenspezifischer Theoreme erfordert oft mehr als nur textbasiertes Denken; eine effektive Kommunikation durch strukturierte visuelle Erklärungen ist entscheidend für ein tieferes Verständnis. Während große Sprachmodelle (LLMs) eine starke Leistung beim textbasierten Theoremverständnis zeigen, bleibt ihre Fähigkeit, kohärente und pädagogisch sinnvolle visuelle Erklärungen zu generieren, eine offene Herausforderung. In dieser Arbeit stellen wir TheoremExplainAgent vor, einen agentenbasierten Ansatz zur Erstellung langer Theorem-Erklärungsvideos (über 5 Minuten) mithilfe von Manim-Animationen. Um multimodale Theorem-Erklärungen systematisch zu bewerten, schlagen wir TheoremExplainBench vor, einen Benchmark, der 240 Theoreme aus verschiedenen MINT-Disziplinen abdeckt, zusammen mit 5 automatisierten Bewertungsmetriken. Unsere Ergebnisse zeigen, dass agentenbasierte Planung entscheidend für die Erstellung detaillierter langer Videos ist, und der o3-mini-Agent erreicht eine Erfolgsquote von 93,8 % und eine Gesamtpunktzahl von 0,77. Unsere quantitativen und qualitativen Studien zeigen jedoch, dass die meisten produzierten Videos kleinere Probleme mit dem Layout visueller Elemente aufweisen. Darüber hinaus decken multimodale Erklärungen tiefere Denkfehler auf, die textbasierte Erklärungen nicht offenbaren, was die Bedeutung multimodaler Erklärungen unterstreicht.
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.Summary
AI-Generated Summary