Capturando Capacidades de LLMs via Agrupamento de Consultas Calibrado por Evidências

Resumo

O agrupamento de consultas organiza consultas em grupos que refletem demandas latentes compartilhadas de capacidade, possibilitando uma avaliação de LLM ciente das capacidades. Métodos de agrupamento existentes, que dependem principalmente de taxonomias semânticas ou embeddings, muitas vezes não conseguem capturar tais requisitos latentes de capacidade devido a um desalinhamento entre a semântica de superfície e o desempenho real do modelo. Propomos o ECC, um algoritmo que calibra embeddings semânticos prévios utilizando comparações limitadas de modelos posteriores para preencher a lacuna entre a semântica de superfície e os requisitos latentes de capacidade. O ECC caracteriza cada grupo por meio de um perfil de capacidade parametrizado por um modelo de Bradley-Terry e utiliza pesos de mistura treináveis para acomodar consultas com demandas mistas de capacidade, aprendendo conjuntamente uma estrutura de agrupamento flexível e ciente das capacidades que suporta inferência específica a consultas das capacidades do LLM. Avaliações quantitativas e qualitativas extensas demonstram que o ECC melhora significativamente a qualidade da classificação de capacidades do LLM, superando as linhas de base baseadas em rótulos humanos e embeddings por uma média de 17,64 e 18,02 pontos percentuais, respectivamente, e se mostra eficaz em tarefas subsequentes, como o roteamento de consultas.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.