CoHyDE: Iteratives Co-Training von LLM-Umschreiber und dichtem Encoder für Tool-Retrieval

Zusammenfassung

Der Abruf von Werkzeugen über große API-Kataloge stellt einen zentralen Engpass für LLM-Agenten dar: Nutzeranfragen treffen in umgangssprachlicher, oft unterbestimmter Sprache ein, während der Katalog technisches API-Vokabular verwendet, das kein fester Encoder von sich aus überbrücken kann. Die zwei dominanten Trainingsansätze – kontrastives Encoder-Feintuning und HyDE-artige Abfrageerweiterung mit einem eingefrorenen LLM – nähern sich diesem Problem von entgegengesetzten Seiten und scheitern in komplementären Richtungen: Der feingetunte Encoder glänzt, wenn die Oberflächenform der Anfrage bereits zum Katalog passt, bricht jedoch ein, wenn dies nicht der Fall ist, während Nullschuss-HyDE robuster gegenüber unterbestimmten Anfragen ist, aber katalogunbewusste hypothetische Beschreibungen erzeugt, die den Abruf bei wohlgeformten Anfragen verschlechtern. Wir führen CoHyDE ein, ein iteratives Verfahren, das den dichten Encoder und den LLM-Umschreiber als ein einzelnes, koevolvierendes System trainiert: Der Encoder wird mit InfoNCE auf katalogartigen hypothetischen Beschreibungen, die der Umschreiber produziert, neu trainiert, und der Umschreiber wird mittels DPO präferenzausgerichtet auf die Abrufwerte des Encoders, wobei beide Seiten vor dem Start der Schleife auf dem Werkzeugkatalog warmgestartet werden. Auf einem ~10k Werkzeuge umfassenden Teilsatz des ToolBench-Katalogs verbessert drei Runden CoHyDE die stärkste Einzelkomponenten-Baseline um +2,5 Prozentpunkte NDCG@5 bei Standardanfragen und um +6,3 Prozentpunkte bei zurückgehaltenen vagen Anfragen, mit Zuwächsen von bis zu +8 Prozentpunkten auf der schwierigsten Vagheitsstufe. Ablationen bestätigen, dass das Ko-Training die entscheidende Zutat ist: Der isolierte Einsatz einer der beiden Komponenten erreicht CoHyDE weder bei wohlgeformten noch bei vagen Anfragen, mit Einbußen von bis zu -8 Prozentpunkten bei vagen Anfragen.

English

Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query's surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder's retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.