TheoremExplainAgent: Rumo a Explicações Multimodais para o Teorema de Compreensão de LLM
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
Autores: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
Resumo
Compreender teoremas específicos de um domínio muitas vezes requer mais do que apenas raciocínio baseado em texto; a comunicação eficaz por meio de explicações visuais estruturadas é crucial para uma compreensão mais profunda. Enquanto os grandes modelos de linguagem (LLMs) demonstram um desempenho forte em raciocínio de teoremas baseado em texto, sua capacidade de gerar explicações visuais coerentes e pedagogicamente significativas permanece um desafio em aberto. Neste trabalho, apresentamos o TheoremExplainAgent, uma abordagem agente para gerar vídeos de explicação de teoremas em formato longo (mais de 5 minutos) usando animações Manim. Para avaliar sistematicamente explicações de teoremas multimodais, propomos o TheoremExplainBench, um benchmark que abrange 240 teoremas em várias disciplinas STEM, juntamente com 5 métricas de avaliação automatizadas. Nossos resultados revelam que o planejamento agente é essencial para gerar vídeos detalhados em formato longo, e o agente o3-mini alcança uma taxa de sucesso de 93,8% e uma pontuação geral de 0,77. No entanto, nossos estudos quantitativos e qualitativos mostram que a maioria dos vídeos produzidos apresenta problemas menores com o layout dos elementos visuais. Além disso, explicações multimodais expõem falhas de raciocínio mais profundas que as explicações baseadas em texto falham em revelar, destacando a importância das explicações multimodais.
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.Summary
AI-Generated Summary