OctoTools: Un marco agéntico con herramientas extensibles para razonamiento complejo
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning
February 16, 2025
Autores: Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou
cs.AI
Resumen
Resolver tareas complejas de razonamiento puede involucrar comprensión visual, recuperación de conocimiento de dominio, cálculo numérico y razonamiento de múltiples pasos. Los métodos existentes aumentan los modelos de lenguaje grandes (LLMs) con herramientas externas, pero están restringidos a dominios especializados, tipos de herramientas limitados o requieren datos de entrenamiento adicionales. En este artículo, presentamos OctoTools, un marco agéntico de código abierto, fácil de usar y extensible, diseñado para abordar el razonamiento complejo en diversos dominios sin necesidad de entrenamiento. OctoTools introduce tarjetas de herramientas estandarizadas para encapsular la funcionalidad de las herramientas, un planificador para la planificación tanto de alto como de bajo nivel, y un ejecutor para llevar a cabo el uso de las herramientas. Validamos la generalidad de OctoTools en 16 tareas diversas (incluyendo MathVista, MMLU-Pro, MedQA y GAIA-Text), logrando mejoras sustanciales en la precisión promedio de un 9.3% sobre GPT-4o. Además, OctoTools supera a AutoGen, GPT-Functions y LangChain hasta en un 10.6% cuando se le proporciona el mismo conjunto de herramientas. A través de un análisis exhaustivo y ablaciones, OctoTools demuestra ventajas en la planificación de tareas, el uso efectivo de herramientas y la resolución de problemas de múltiples pasos.
English
Solving complex reasoning tasks may involve visual understanding, domain
knowledge retrieval, numerical calculation, and multi-step reasoning. Existing
methods augment large language models (LLMs) with external tools but are
restricted to specialized domains, limited tool types, or require additional
training data. In this paper, we introduce OctoTools, a training-free,
user-friendly, and easily extensible open-source agentic framework designed to
tackle complex reasoning across diverse domains. OctoTools introduces
standardized tool cards to encapsulate tool functionality, a planner for both
high-level and low-level planning, and an executor to carry out tool usage. We
validate OctoTools' generality across 16 diverse tasks (including MathVista,
MMLU-Pro, MedQA, and GAIA-Text), achieving substantial average accuracy gains
of 9.3% over GPT-4o. Furthermore, OctoTools outperforms AutoGen, GPT-Functions
and LangChain by up to 10.6% when given the same set of tools. Through
comprehensive analysis and ablations, OctoTools demonstrates advantages in task
planning, effective tool usage, and multi-step problem solving.Summary
AI-Generated Summary