RE-TRAC: Compressão Recursiva de Trajetória para Agentes de Busca Profunda

Resumo

Os agentes de pesquisa profunda baseados em LLM são amplamente construídos sobre a estrutura ReAct. Este design linear dificulta a revisitação de estados anteriores, a ramificação em direções de pesquisa alternativas ou a manutenção da consciência global em contextos longos, frequentemente levando a ótimos locais, exploração redundante e busca ineficiente. Propomos o Re-TRAC, uma estrutura agentiva que realiza exploração transversal de trajetórias gerando uma representação estruturada de estado após cada trajetória para sumarizar evidências, incertezas, falhas e planos futuros, e condicionando trajetórias subsequentes a esta representação de estado. Isso permite reflexão iterativa e planejamento globalmente informado, reenquadrando a pesquisa como um processo progressivo. Resultados empíricos mostram que o Re-TRAC supera consistentemente o ReAct em 15-20% no BrowseComp com LLMs de ponta. Para modelos menores, introduzimos o ajuste fino supervisionado consciente do Re-TRAC, alcançando desempenho state-of-the-art em escalas comparáveis. Notavelmente, o Re-TRAC mostra uma redução monotônica nas chamadas de ferramentas e no uso de tokens ao longo das rodadas, indicando exploração progressivamente direcionada conduzida pela reflexão transversal de trajetórias em vez de busca redundante.

English

LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.