ChatPaper.aiChatPaper

OctoTools: Un marco agéntico con herramientas extensibles para razonamiento complejo

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

February 16, 2025
Autores: Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou
cs.AI

Resumen

Resolver tareas complejas de razonamiento puede involucrar comprensión visual, recuperación de conocimiento de dominio, cálculo numérico y razonamiento de múltiples pasos. Los métodos existentes aumentan los modelos de lenguaje grandes (LLMs) con herramientas externas, pero están restringidos a dominios especializados, tipos de herramientas limitados o requieren datos de entrenamiento adicionales. En este artículo, presentamos OctoTools, un marco agéntico de código abierto, fácil de usar y extensible, diseñado para abordar el razonamiento complejo en diversos dominios sin necesidad de entrenamiento. OctoTools introduce tarjetas de herramientas estandarizadas para encapsular la funcionalidad de las herramientas, un planificador para la planificación tanto de alto como de bajo nivel, y un ejecutor para llevar a cabo el uso de las herramientas. Validamos la generalidad de OctoTools en 16 tareas diversas (incluyendo MathVista, MMLU-Pro, MedQA y GAIA-Text), logrando mejoras sustanciales en la precisión promedio de un 9.3% sobre GPT-4o. Además, OctoTools supera a AutoGen, GPT-Functions y LangChain hasta en un 10.6% cuando se le proporciona el mismo conjunto de herramientas. A través de un análisis exhaustivo y ablaciones, OctoTools demuestra ventajas en la planificación de tareas, el uso efectivo de herramientas y la resolución de problemas de múltiples pasos.
English
Solving complex reasoning tasks may involve visual understanding, domain knowledge retrieval, numerical calculation, and multi-step reasoning. Existing methods augment large language models (LLMs) with external tools but are restricted to specialized domains, limited tool types, or require additional training data. In this paper, we introduce OctoTools, a training-free, user-friendly, and easily extensible open-source agentic framework designed to tackle complex reasoning across diverse domains. OctoTools introduces standardized tool cards to encapsulate tool functionality, a planner for both high-level and low-level planning, and an executor to carry out tool usage. We validate OctoTools' generality across 16 diverse tasks (including MathVista, MMLU-Pro, MedQA, and GAIA-Text), achieving substantial average accuracy gains of 9.3% over GPT-4o. Furthermore, OctoTools outperforms AutoGen, GPT-Functions and LangChain by up to 10.6% when given the same set of tools. Through comprehensive analysis and ablations, OctoTools demonstrates advantages in task planning, effective tool usage, and multi-step problem solving.

Summary

AI-Generated Summary

PDF173February 19, 2025