Planificación y Ejecución Desacopladas: Un Marco de Razonamiento Jerárquico para Búsqueda Profunda

Resumen

Las necesidades complejas de información en escenarios de búsqueda del mundo real requieren un razonamiento profundo y la síntesis de conocimientos a través de diversas fuentes, lo que los enfoques tradicionales de generación aumentada por recuperación (RAG) no logran abordar de manera efectiva. Los enfoques actuales basados en razonamiento presentan una limitación fundamental: utilizan un único modelo para manejar tanto la planificación de alto nivel como la ejecución detallada, lo que conduce a un razonamiento ineficiente y una escalabilidad limitada. En este artículo, presentamos HiRA, un marco jerárquico que separa la planificación estratégica de la ejecución especializada. Nuestro enfoque descompone tareas de búsqueda complejas en subtareas enfocadas, asigna cada subtarea a agentes específicos de dominio equipados con herramientas externas y capacidades de razonamiento, y coordina los resultados a través de un mecanismo de integración estructurado. Esta separación evita que los detalles de ejecución interrumpan el razonamiento de alto nivel, al mismo tiempo que permite al sistema aprovechar la experiencia especializada para diferentes tipos de procesamiento de información. Los experimentos en cuatro puntos de referencia complejos de búsqueda profunda multimodal demuestran que HiRA supera significativamente a los sistemas RAG y basados en agentes más avanzados. Nuestros resultados muestran mejoras tanto en la calidad de las respuestas como en la eficiencia del sistema, destacando la efectividad de la planificación y ejecución desacopladas para tareas de búsqueda de información de múltiples pasos. Nuestro código está disponible en https://github.com/ignorejjj/HiRA.

English

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

Planificación y Ejecución Desacopladas: Un Marco de Razonamiento Jerárquico para Búsqueda Profunda

Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search

Resumen

Support