Captar las capacidades de los LLM mediante el agrupamiento de consultas calibrado por evidencia

Resumen

La agrupación de consultas organiza estas en grupos que reflejan demandas latentes de capacidad compartidas, lo que permite una evaluación de LLM consciente de la capacidad. Los métodos de agrupación existentes, que se basan principalmente en taxonomías semánticas o embeddings, a menudo no logran capturar dichos requisitos de capacidad latente debido a un desajuste entre la semántica superficial y el rendimiento real del modelo. Proponemos ECC, un algoritmo que calibra embeddings semánticos previos utilizando comparaciones limitadas de modelos posteriores para cerrar la brecha entre la semántica superficial y los requisitos de capacidad latente. ECC caracteriza cada clúster mediante un perfil de capacidad parametrizado por un modelo Bradley-Terry y utiliza pesos de mezcla entrenables para acomodar consultas con demandas de capacidad mixtas, aprendiendo de forma conjunta una estructura de agrupación flexible y consciente de la capacidad que admite inferencias específicas de consultas sobre las capacidades del LLM. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que ECC mejora significativamente la calidad de la clasificación de capacidades de los LLM, superando a las líneas base basadas en etiquetado humano y en embeddings en un promedio de 17.64 y 18.02 puntos porcentuales, respectivamente, y resulta efectivo en tareas posteriores como el enrutamiento de consultas.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.