ChatPaper.aiChatPaper

TheoremExplainAgent: Verso Spiegazioni Multimodali per la Comprensione di Teoremi nei Modelli Linguistici

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

February 26, 2025
Autori: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI

Abstract

Comprendere teoremi specifici di un dominio spesso richiede più del semplice ragionamento basato sul testo; una comunicazione efficace attraverso spiegazioni visive strutturate è cruciale per una comprensione più profonda. Sebbene i grandi modelli linguistici (LLM) dimostrino prestazioni solide nel ragionamento sui teoremi basato sul testo, la loro capacità di generare spiegazioni visive coerenti e pedagogicamente significative rimane una sfida aperta. In questo lavoro, introduciamo TheoremExplainAgent, un approccio agentivo per generare video di spiegazione di teoremi di lunga durata (oltre 5 minuti) utilizzando animazioni Manim. Per valutare sistematicamente le spiegazioni multimodali dei teoremi, proponiamo TheoremExplainBench, un benchmark che copre 240 teoremi in diverse discipline STEM, insieme a 5 metriche di valutazione automatizzate. I nostri risultati rivelano che la pianificazione agentiva è essenziale per generare video dettagliati di lunga durata, e l'agente o3-mini raggiunge un tasso di successo del 93,8% e un punteggio complessivo di 0,77. Tuttavia, i nostri studi quantitativi e qualitativi mostrano che la maggior parte dei video prodotti presenta problemi minori nel layout degli elementi visivi. Inoltre, le spiegazioni multimodali rivelano difetti di ragionamento più profondi che le spiegazioni basate sul testo non riescono a evidenziare, sottolineando l'importanza delle spiegazioni multimodali.
English
Understanding domain-specific theorems often requires more than just text-based reasoning; effective communication through structured visual explanations is crucial for deeper comprehension. While large language models (LLMs) demonstrate strong performance in text-based theorem reasoning, their ability to generate coherent and pedagogically meaningful visual explanations remains an open challenge. In this work, we introduce TheoremExplainAgent, an agentic approach for generating long-form theorem explanation videos (over 5 minutes) using Manim animations. To systematically evaluate multimodal theorem explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems across multiple STEM disciplines, along with 5 automated evaluation metrics. Our results reveal that agentic planning is essential for generating detailed long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an overall score of 0.77. However, our quantitative and qualitative studies show that most of the videos produced exhibit minor issues with visual element layout. Furthermore, multimodal explanations expose deeper reasoning flaws that text-based explanations fail to reveal, highlighting the importance of multimodal explanations.

Summary

AI-Generated Summary

PDF492February 27, 2025