Entkoppelte Planung und Ausführung: Ein hierarchisches Reasoning-Framework für tiefe Suche
Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search
July 3, 2025
Autoren: Jiajie Jin, Xiaoxi Li, Guanting Dong, Yuyao Zhang, Yutao Zhu, Yang Zhao, Hongjin Qian, Zhicheng Dou
cs.AI
Zusammenfassung
Komplexe Informationsbedürfnisse in realen Suchszenarien erfordern tiefgehendes
Denken und die Synthese von Wissen aus verschiedenen Quellen, was traditionelle
Retrieval-Augmented-Generation (RAG)-Pipelines nur unzureichend bewältigen können.
Aktuelle Ansätze, die auf logischem Denken basieren, leiden unter einer grundlegenden
Einschränkung: Sie verwenden ein einziges Modell, um sowohl die hochrangige Planung
als auch die detaillierte Ausführung zu handhaben, was zu ineffizientem Denken und
begrenzter Skalierbarkeit führt. In diesem Artikel stellen wir HiRA vor, ein hierarchisches
Framework, das strategische Planung von spezialisierter Ausführung trennt. Unser Ansatz
zerlegt komplexe Suchaufgaben in fokussierte Teilaufgaben, weist jede Teilaufgabe
domänenspezifischen Agenten zu, die mit externen Werkzeugen und Denkfähigkeiten
ausgestattet sind, und koordiniert die Ergebnisse durch einen strukturierten
Integrationsmechanismus. Diese Trennung verhindert, dass Ausführungsdetails das
hochrangige Denken stören, und ermöglicht es dem System, spezialisiertes Fachwissen
für verschiedene Arten der Informationsverarbeitung zu nutzen. Experimente auf vier
komplexen, cross-modalen Deep-Search-Benchmarks zeigen, dass HiRA
state-of-the-art RAG- und agentenbasierte Systeme deutlich übertrifft. Unsere Ergebnisse
zeigen Verbesserungen sowohl in der Antwortqualität als auch in der Systemeffizienz
und unterstreichen die Wirksamkeit der entkoppelten Planung und Ausführung für
mehrstufige Informationssuchaufgaben. Unser Code ist verfügbar unter
https://github.com/ignorejjj/HiRA.
English
Complex information needs in real-world search scenarios demand deep
reasoning and knowledge synthesis across diverse sources, which traditional
retrieval-augmented generation (RAG) pipelines struggle to address effectively.
Current reasoning-based approaches suffer from a fundamental limitation: they
use a single model to handle both high-level planning and detailed execution,
leading to inefficient reasoning and limited scalability. In this paper, we
introduce HiRA, a hierarchical framework that separates strategic planning from
specialized execution. Our approach decomposes complex search tasks into
focused subtasks, assigns each subtask to domain-specific agents equipped with
external tools and reasoning capabilities, and coordinates the results through
a structured integration mechanism. This separation prevents execution details
from disrupting high-level reasoning while enabling the system to leverage
specialized expertise for different types of information processing.
Experiments on four complex, cross-modal deep search benchmarks demonstrate
that HiRA significantly outperforms state-of-the-art RAG and agent-based
systems. Our results show improvements in both answer quality and system
efficiency, highlighting the effectiveness of decoupled planning and execution
for multi-step information seeking tasks. Our code is available at
https://github.com/ignorejjj/HiRA.