RE-TRAC: REkursive TRAjektorienkompression für tiefe Suchagenten
RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
February 2, 2026
papers.authors: Jialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang, Ruiqi Yang, Song Wang, Kai Qiu, Zhirong Wu, Qi Dai, Ruichun Ma, Bei Liu, Yifan Yang, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Xin Geng, Baining Guo
cs.AI
papers.abstract
LLM-basierte Deep-Research-Agents basieren weitgehend auf dem ReAct-Framework. Dieser lineare Ansatz erschwert es, frühere Zustände erneut zu betrachten, alternative Suchrichtungen zu verfolgen oder ein globales Verständnis bei langen Kontexten aufrechtzuerhalten, was häufig zu lokalen Optima, redundanter Exploration und ineffizienter Suche führt. Wir schlagen Re-TRAC vor, ein agentenbasiertes Framework, das eine trajektorienübergreifende Exploration durchführt, indem es nach jeder Trajektorie eine strukturierte Zustandsrepräsentation erzeugt, um Evidenzen, Unsicherheiten, Fehler und zukünftige Pläne zusammenzufassen, und nachfolgende Trajektorien auf dieser Zustandsrepräsentation konditioniert. Dies ermöglicht iterative Reflexion und global informierte Planung und stellt Forschung als einen fortschreitenden Prozess dar. Empirische Ergebnisse zeigen, dass Re-TRAC auf BrowseComp mit modernen LLMs durchgängig eine um 15–20 % bessere Leistung als ReAct erzielt. Für kleinere Modelle führen wir ein Re-TRAC-bewusstes supervidiertes Fine-Tuning ein, das state-of-the-art Leistung bei vergleichbarer Größe erreicht. Bemerkenswerterweise zeigt Re-TRAC eine monotone Reduktion von Tool-Aufrufen und Token-Verbrauch über mehrere Runden, was auf eine zunehmend zielgerichtete Exploration durch trajektorienübergreifende Reflexion statt redundante Suche hindeutet.
English
LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.