TheoremExplainAgent: Hacia Explicaciones Multimodales para la Comprensión de Teoremas en Modelos de Lenguaje de Gran Escala
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
February 26, 2025
Autores: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI
Resumen
Comprender teoremas específicos de un dominio a menudo requiere más que solo razonamiento basado en texto; la comunicación efectiva a través de explicaciones visuales estructuradas es crucial para una comprensión más profunda. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en el razonamiento de teoremas basado en texto, su capacidad para generar explicaciones visuales coherentes y pedagógicamente significativas sigue siendo un desafío abierto. En este trabajo, presentamos TheoremExplainAgent, un enfoque agéntico para generar videos de explicación de teoremas de larga duración (más de 5 minutos) utilizando animaciones Manim. Para evaluar sistemáticamente las explicaciones multimodales de teoremas, proponemos TheoremExplainBench, un benchmark que abarca 240 teoremas en múltiples disciplinas STEM, junto con 5 métricas de evaluación automatizadas. Nuestros resultados revelan que la planificación agéntica es esencial para generar videos detallados de larga duración, y el agente o3-mini alcanza una tasa de éxito del 93.8% y una puntuación general de 0.77. Sin embargo, nuestros estudios cuantitativos y cualitativos muestran que la mayoría de los videos producidos presentan problemas menores en la disposición de los elementos visuales. Además, las explicaciones multimodales exponen fallas de razonamiento más profundas que las explicaciones basadas en texto no logran revelar, destacando la importancia de las explicaciones multimodales.
English
Understanding domain-specific theorems often requires more than just
text-based reasoning; effective communication through structured visual
explanations is crucial for deeper comprehension. While large language models
(LLMs) demonstrate strong performance in text-based theorem reasoning, their
ability to generate coherent and pedagogically meaningful visual explanations
remains an open challenge. In this work, we introduce TheoremExplainAgent, an
agentic approach for generating long-form theorem explanation videos (over 5
minutes) using Manim animations. To systematically evaluate multimodal theorem
explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems
across multiple STEM disciplines, along with 5 automated evaluation metrics.
Our results reveal that agentic planning is essential for generating detailed
long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an
overall score of 0.77. However, our quantitative and qualitative studies show
that most of the videos produced exhibit minor issues with visual element
layout. Furthermore, multimodal explanations expose deeper reasoning flaws that
text-based explanations fail to reveal, highlighting the importance of
multimodal explanations.Summary
AI-Generated Summary