TheoremExplainAgent: LLM定理理解のためのマルチモーダル説明に向けて
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
著者: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
要旨
ドメイン固有の定理を理解するには、テキストベースの推論だけでは不十分であり、構造化された視覚的説明を通じた効果的なコミュニケーションが深い理解に不可欠です。大規模言語モデル(LLM)はテキストベースの定理推論において高い性能を示しますが、首尾一貫した教育的に意味のある視覚的説明を生成する能力は未解決の課題です。本研究では、Manimアニメーションを用いて5分以上の長尺定理説明動画を生成するエージェント型アプローチであるTheoremExplainAgentを紹介します。マルチモーダル定理説明を体系的に評価するために、複数のSTEM分野にわたる240の定理と5つの自動評価指標をカバーするTheoremExplainBenchを提案します。結果から、詳細な長尺動画の生成にはエージェント型プランニングが不可欠であり、o3-miniエージェントは93.8%の成功率と0.77の総合スコアを達成しました。しかし、定量的および定性的な研究により、生成された動画の多くが視覚要素の配置に軽微な問題を抱えていることが明らかになりました。さらに、マルチモーダル説明はテキストベースの説明では明らかにできない深い推論の欠陥を露呈し、マルチモーダル説明の重要性を浮き彫りにしています。
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.Summary
AI-Generated Summary