Planificación y Ejecución Desacopladas: Un Marco de Razonamiento Jerárquico para Búsqueda Profunda
Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search
July 3, 2025
Autores: Jiajie Jin, Xiaoxi Li, Guanting Dong, Yuyao Zhang, Yutao Zhu, Yang Zhao, Hongjin Qian, Zhicheng Dou
cs.AI
Resumen
Las necesidades complejas de información en escenarios de búsqueda del mundo real requieren un razonamiento profundo y la síntesis de conocimientos a través de diversas fuentes, lo que los enfoques tradicionales de generación aumentada por recuperación (RAG) no logran abordar de manera efectiva. Los enfoques actuales basados en razonamiento presentan una limitación fundamental: utilizan un único modelo para manejar tanto la planificación de alto nivel como la ejecución detallada, lo que conduce a un razonamiento ineficiente y una escalabilidad limitada. En este artículo, presentamos HiRA, un marco jerárquico que separa la planificación estratégica de la ejecución especializada. Nuestro enfoque descompone tareas de búsqueda complejas en subtareas enfocadas, asigna cada subtarea a agentes específicos de dominio equipados con herramientas externas y capacidades de razonamiento, y coordina los resultados a través de un mecanismo de integración estructurado. Esta separación evita que los detalles de ejecución interrumpan el razonamiento de alto nivel, al mismo tiempo que permite al sistema aprovechar la experiencia especializada para diferentes tipos de procesamiento de información. Los experimentos en cuatro puntos de referencia complejos de búsqueda profunda multimodal demuestran que HiRA supera significativamente a los sistemas RAG y basados en agentes más avanzados. Nuestros resultados muestran mejoras tanto en la calidad de las respuestas como en la eficiencia del sistema, destacando la efectividad de la planificación y ejecución desacopladas para tareas de búsqueda de información de múltiples pasos. Nuestro código está disponible en https://github.com/ignorejjj/HiRA.
English
Complex information needs in real-world search scenarios demand deep
reasoning and knowledge synthesis across diverse sources, which traditional
retrieval-augmented generation (RAG) pipelines struggle to address effectively.
Current reasoning-based approaches suffer from a fundamental limitation: they
use a single model to handle both high-level planning and detailed execution,
leading to inefficient reasoning and limited scalability. In this paper, we
introduce HiRA, a hierarchical framework that separates strategic planning from
specialized execution. Our approach decomposes complex search tasks into
focused subtasks, assigns each subtask to domain-specific agents equipped with
external tools and reasoning capabilities, and coordinates the results through
a structured integration mechanism. This separation prevents execution details
from disrupting high-level reasoning while enabling the system to leverage
specialized expertise for different types of information processing.
Experiments on four complex, cross-modal deep search benchmarks demonstrate
that HiRA significantly outperforms state-of-the-art RAG and agent-based
systems. Our results show improvements in both answer quality and system
efficiency, highlighting the effectiveness of decoupled planning and execution
for multi-step information seeking tasks. Our code is available at
https://github.com/ignorejjj/HiRA.