CoHyDE: Co-entrenamiento iterativo de un reescritor de LLM y un codificador denso para la recuperación de herramientas

Resumen

La recuperación de herramientas sobre grandes catálogos de API es un cuello de botella central para los agentes de LLM: las consultas de los usuarios llegan en lenguaje coloquial, a menudo subespecificado, mientras que el catálogo utiliza vocabulario técnico de API que ningún codificador fijo puede salvar por sí solo. Los dos enfoques de entrenamiento dominantes, el ajuste fino del codificador contrastivo y la expansión de consultas al estilo HyDE con un LLM congelado, abordan este problema desde extremos opuestos y fallan en direcciones complementarias: el codificador ajustado fino sobresale cuando la forma superficial de la consulta ya coincide con el catálogo, pero colapsa cuando no es así, mientras que HyDE en cero disparos es más robusto ante consultas subespecificadas, pero genera descripciones hipotéticas ignorantes del catálogo que degradan la recuperación cuando las consultas están bien formadas. Presentamos CoHyDE, un procedimiento iterativo que entrena el codificador denso y el reescritor de LLM como un único sistema coevolutivo: el codificador se reentrena con InfoNCE en descripciones hipotéticas de estilo catálogo producidas por el reescritor, y el reescritor se alinea por preferencias mediante DPO contra las puntuaciones de recuperación del codificador, con ambos lados inicializados en caliente en el catálogo de herramientas antes de que comience el bucle. En un subconjunto de ~10k herramientas del catálogo ToolBench, tres rondas de CoHyDE mejoran la línea base de un solo componente más fuerte en +2.5 puntos porcentuales de NDCG@5 en consultas estándar y +6.3 puntos porcentuales en consultas vagas retenidas, con ganancias de hasta +8 puntos porcentuales en el nivel vago más difícil. Las ablaciones confirman que el co-entrenamiento es el ingrediente clave: utilizar cualquiera de los componentes de forma aislada no logra igualar a CoHyDE tanto en consultas bien formadas como vagas, con pérdidas de hasta -8 puntos porcentuales en consultas vagas.

English

Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query's surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder's retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.