Mehr Suchen, Weniger Denken: Eine Neubewertung langfristiger agentenbasierter Suche für Effizienz und Generalisierung

Zusammenfassung

Aktuelle Deep-Research-Agents verbessern ihre Leistung primär durch Skalierung der Reasoning-Tiefe, was jedoch in suchintensiven Szenarien zu hohen Inferenzkosten und Latenzzeiten führt. Zudem bleibt die Generalisierung über heterogene Forschungsumgebungen hinweg eine Herausforderung. In dieser Arbeit schlagen wir Search More, Think Less (SMTL) vor, ein Framework für langfristige agentenbasierte Suche, das sowohl Effizienz als auch Generalisierung anstrebt. SMTL ersetzt sequenzielles Reasoning durch parallele Evidenzgewinnung und ermöglicht so effizientes Kontextmanagement unter begrenzten Kontextbudgets. Um die Generalisierung über verschiedene Aufgabentypen hinweg zu unterstützen, führen wir zudem eine vereinheitlichte Datensynthese-Pipeline ein, die Suchaufgaben konstruiert, die sowohl deterministische Frage-Antwort-Szenarien als auch offene Forschungsszenarien mit aufgabengerechten Evaluierungsmetriken abdecken. Wir trainieren einen End-to-End-Agenten mittels supervised Fine-Tuning und Reinforcement Learning, der starke und oft state-of-the-art Leistung über Benchmarks einschließlich BrowseComp (48,6 %), GAIA (75,7 %), Xbench (82,0 %) und DeepResearch Bench (45,9 %) erreicht. Im Vergleich zu Mirothinker-v1.0 reduziert SMTL mit maximal 100 Interaktionsschritten die durchschnittliche Anzahl der Reasoning-Schritte auf BrowseComp um 70,7 % bei gleichzeitiger Verbesserung der Genauigkeit.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Mehr Suchen, Weniger Denken: Eine Neubewertung langfristiger agentenbasierter Suche für Effizienz und Generalisierung

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Zusammenfassung

Support