ChatPaper.aiChatPaper

TheoremExplainAgent: LLM定理理解のためのマルチモーダル説明に向けて

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

February 26, 2025
著者: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI

要旨

ドメイン固有の定理を理解するには、テキストベースの推論だけでは不十分であり、構造化された視覚的説明を通じた効果的なコミュニケーションが深い理解に不可欠です。大規模言語モデル(LLM)はテキストベースの定理推論において高い性能を示しますが、首尾一貫した教育的に意味のある視覚的説明を生成する能力は未解決の課題です。本研究では、Manimアニメーションを用いて5分以上の長尺定理説明動画を生成するエージェント型アプローチであるTheoremExplainAgentを紹介します。マルチモーダル定理説明を体系的に評価するために、複数のSTEM分野にわたる240の定理と5つの自動評価指標をカバーするTheoremExplainBenchを提案します。結果から、詳細な長尺動画の生成にはエージェント型プランニングが不可欠であり、o3-miniエージェントは93.8%の成功率と0.77の総合スコアを達成しました。しかし、定量的および定性的な研究により、生成された動画の多くが視覚要素の配置に軽微な問題を抱えていることが明らかになりました。さらに、マルチモーダル説明はテキストベースの説明では明らかにできない深い推論の欠陥を露呈し、マルチモーダル説明の重要性を浮き彫りにしています。
English
Understanding domain-specific theorems often requires more than just text-based reasoning; effective communication through structured visual explanations is crucial for deeper comprehension. While large language models (LLMs) demonstrate strong performance in text-based theorem reasoning, their ability to generate coherent and pedagogically meaningful visual explanations remains an open challenge. In this work, we introduce TheoremExplainAgent, an agentic approach for generating long-form theorem explanation videos (over 5 minutes) using Manim animations. To systematically evaluate multimodal theorem explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems across multiple STEM disciplines, along with 5 automated evaluation metrics. Our results reveal that agentic planning is essential for generating detailed long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an overall score of 0.77. However, our quantitative and qualitative studies show that most of the videos produced exhibit minor issues with visual element layout. Furthermore, multimodal explanations expose deeper reasoning flaws that text-based explanations fail to reveal, highlighting the importance of multimodal explanations.

Summary

AI-Generated Summary

PDF492February 27, 2025