Выявление возможностей LLM с помощью кластеризации запросов, калиброванной по свидетельствам

Аннотация

Кластеризация запросов объединяет запросы в группы, отражающие общие латентные требования к способностям, что позволяет проводить оценку LLM с учетом способностей. Существующие методы кластеризации, которые в основном опираются на семантические таксономии или эмбеддинги, часто не способны уловить такие латентные требования к способностям из-за несоответствия между поверхностной семантикой и фактической производительностью модели. Мы предлагаем ECC — алгоритм, который калибрует априорные семантические эмбеддинги с помощью ограниченных апостериорных сравнений моделей, чтобы устранить разрыв между поверхностной семантикой и латентными требованиями к способностям. ECC характеризует каждый кластер с помощью профиля способностей, параметризованного моделью Брэдли-Терри, и использует обучаемые веса смеси для обработки запросов со смешанными требованиями к способностям, совместно обучая гибкую структуру кластеризации, учитывающую способности и поддерживающую вывод о способностях LLM для конкретных запросов. Обширные количественные и качественные оценки показывают, что ECC значительно улучшает качество ранжирования способностей LLM, превосходя базовые методы на основе человеческой разметки и эмбеддингов в среднем на 17,64 и 18,02 процентных пункта соответственно, и оказывается эффективным в нисходящих задачах, таких как маршрутизация запросов.

English

Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance. We propose ECC, an algorithm that calibrates prior semantic embeddings using limited posterior model comparisons to bridge the gap between surface-level semantics and latent capability requirements. ECC characterizes each cluster through a capability profile parameterized by a Bradley-Terry model and uses trainable mixture weights to accommodate queries with mixed capability demands, jointly learning a flexible, capability-aware clustering structure that supports query-specific inference of LLM capabilities. Extensive quantitative and qualitative evaluations demonstrate that ECC significantly improves LLM capability ranking quality, outperforming human-labeled and embedding-based baselines by an average of 17.64 and 18.02 percentage points, respectively, and proves effective in downstream tasks such as query routing.