Capturer les capacités des LLM via un clustering de requêtes calibré par les preuves

Résumé

Le regroupement de requêtes organise les requêtes en groupes reflétant des demandes latentes de capacité partagées, permettant une évaluation des LLM sensible aux capacités. Les méthodes de regroupement existantes, qui reposent principalement sur des taxonomies sémantiques ou des plongements, échouent souvent à capturer ces exigences latentes de capacité en raison d'un décalage entre la sémantique de surface et les performances réelles des modèles. Nous proposons ECC, un algorithme qui calibre les plongements sémantiques a priori à l'aide de comparaisons limitées de modèles a posteriori afin de combler l'écart entre la sémantique de surface et les exigences latentes de capacité. ECC caractérise chaque cluster par un profil de capacité paramétré par un modèle de Bradley-Terry et utilise des poids de mélange entraînables pour prendre en compte les requêtes aux exigences de capacité mixtes, apprenant conjointement une structure de regroupement flexible et sensible aux capacités qui prend en charge l'inférence des capacités des LLM spécifique à chaque requête. Des évaluations quantitatives et qualitatives approfondies montrent qu'ECC améliore significativement la qualité du classement des capacités des LLM, surpassant les références basées sur des annotations humaines et des plongements respectivement de 17,64 et 18,02 points de pourcentage en moyenne, et se révèle efficace dans des tâches en aval telles que le routage de requêtes.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.