Pianificazione ed Esecuzione Disaccoppiate: Un Framework di Ragionamento Gerarchico per la Ricerca Profonda
Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search
July 3, 2025
Autori: Jiajie Jin, Xiaoxi Li, Guanting Dong, Yuyao Zhang, Yutao Zhu, Yang Zhao, Hongjin Qian, Zhicheng Dou
cs.AI
Abstract
Le esigenze di informazioni complesse negli scenari di ricerca del mondo reale richiedono un ragionamento approfondito e una sintesi di conoscenze provenienti da fonti diverse, aspetti che le pipeline tradizionali di generazione aumentata dal recupero (RAG) faticano a gestire in modo efficace. Gli approcci basati sul ragionamento attuali presentano una limitazione fondamentale: utilizzano un unico modello per gestire sia la pianificazione di alto livello che l'esecuzione dettagliata, portando a un ragionamento inefficiente e a una scalabilità limitata. In questo articolo, introduciamo HiRA, un framework gerarchico che separa la pianificazione strategica dall'esecuzione specializzata. Il nostro approccio scompone i compiti di ricerca complessi in sottotask focalizzati, assegna ciascun sottotask ad agenti specifici per dominio dotati di strumenti esterni e capacità di ragionamento, e coordina i risultati attraverso un meccanismo di integrazione strutturato. Questa separazione impedisce che i dettagli esecutivi disturbino il ragionamento di alto livello, consentendo al sistema di sfruttare competenze specializzate per diversi tipi di elaborazione delle informazioni. Esperimenti condotti su quattro benchmark complessi di ricerca profonda cross-modale dimostrano che HiRA supera significativamente i sistemi RAG e basati su agenti all'avanguardia. I nostri risultati mostrano miglioramenti sia nella qualità delle risposte che nell'efficienza del sistema, evidenziando l'efficacia della pianificazione e dell'esecuzione disaccoppiate per compiti di ricerca di informazioni multi-step. Il nostro codice è disponibile all'indirizzo https://github.com/ignorejjj/HiRA.
English
Complex information needs in real-world search scenarios demand deep
reasoning and knowledge synthesis across diverse sources, which traditional
retrieval-augmented generation (RAG) pipelines struggle to address effectively.
Current reasoning-based approaches suffer from a fundamental limitation: they
use a single model to handle both high-level planning and detailed execution,
leading to inefficient reasoning and limited scalability. In this paper, we
introduce HiRA, a hierarchical framework that separates strategic planning from
specialized execution. Our approach decomposes complex search tasks into
focused subtasks, assigns each subtask to domain-specific agents equipped with
external tools and reasoning capabilities, and coordinates the results through
a structured integration mechanism. This separation prevents execution details
from disrupting high-level reasoning while enabling the system to leverage
specialized expertise for different types of information processing.
Experiments on four complex, cross-modal deep search benchmarks demonstrate
that HiRA significantly outperforms state-of-the-art RAG and agent-based
systems. Our results show improvements in both answer quality and system
efficiency, highlighting the effectiveness of decoupled planning and execution
for multi-step information seeking tasks. Our code is available at
https://github.com/ignorejjj/HiRA.