Het vastleggen van LLM-capaciteiten via bewijsgekalibreerde queryclustering

Samenvatting

Queryclustering groepeert queries in groepen die gedeelde latente capaciteitsvereisten weerspiegelen, waardoor een capaciteitsbewuste evaluatie van LLM's mogelijk wordt. Bestaande clustermethoden, die voornamelijk steunen op semantische taxonomieën of embeddings, slagen er vaak niet in dergelijke latente capaciteitsvereisten te vatten vanwege een discrepantie tussen oppervlakkige semantiek en daadwerkelijke modelprestaties. Wij stellen ECC voor, een algoritme dat eerdere semantische embeddings kalibreert met behulp van beperkte posterieure modelvergelijkingen om de kloof tussen oppervlakkige semantiek en latente capaciteitsvereisten te overbruggen. ECC kenmerkt elk cluster door middel van een capaciteitsprofiel dat geparameteriseerd wordt door een Bradley-Terry-model en gebruikt trainbare menggewichten om queries met gemengde capaciteitsvereisten te accommoderen, waarbij gezamenlijk een flexibele, capaciteitsbewuste clusterstructuur wordt geleerd die query-specifieke inferentie van LLM-capaciteiten ondersteunt. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen aan dat ECC de kwaliteit van LLM-capaciteitsrangschikking aanzienlijk verbetert, met een gemiddelde verbetering van respectievelijk 17,64 en 18,02 procentpunten ten opzichte van door mensen gelabelde en op embeddings gebaseerde baselines, en effectief blijkt in downstream-taken zoals queryroutering.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.