Erfassung der LLM-Fähigkeiten durch evidenzkalibriertes Abfrageclustering

Zusammenfassung

Query-Clustering ordnet Anfragen in Gruppen, die gemeinsame latente Fähigkeitsanforderungen widerspiegeln, und ermöglicht so eine fähigkeitsbewusste Evaluierung von LLMs. Bestehende Clustering-Methoden, die hauptsächlich auf semantischen Taxonomien oder Einbettungen beruhen, erfassen solche latenten Fähigkeitsanforderungen aufgrund einer Fehlausrichtung zwischen oberflächlicher Semantik und tatsächlicher Modellleistung oft nicht. Wir stellen ECC vor, einen Algorithmus, der vorherige semantische Einbettungen mithilfe begrenzter posteriorer Modellvergleiche kalibriert, um die Lücke zwischen oberflächlicher Semantik und latenten Fähigkeitsanforderungen zu schließen. ECC charakterisiert jedes Cluster durch ein Fähigkeitsprofil, das mittels eines Bradley-Terry-Modells parametrisiert ist, und verwendet trainierbare Mischungsgewichte, um Anfragen mit gemischten Fähigkeitsanforderungen zu berücksichtigen. Dabei wird gemeinsam eine flexible, fähigkeitsbewusste Clustering-Struktur gelernt, die eine anfragespezifische Inferenz von LLM-Fähigkeiten unterstützt. Umfangreiche quantitative und qualitative Evaluierungen zeigen, dass ECC die Qualität des LLM-Fähigkeitsrankings signifikant verbessert und dabei menschlich annotierte sowie einbettungsbasierte Baselines im Durchschnitt um 17,64 bzw. 18,02 Prozentpunkte übertrifft. Zudem erweist es sich als effektiv bei nachgelagerten Aufgaben wie dem Query-Routing.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.