SEAR: Оценка и маршрутизация на основе схемы для шлюзов LLM

Аннотация

Оценка ответов промышленных больших языковых моделей (LLM) и маршрутизация запросов между провайдерами в LLM-шлюзах требуют детальных показателей качества и операционно обоснованных решений. Для устранения этого пробела мы представляем SEAR — систему оценки и маршрутизации на основе схемы для многомодельных LLM-шлюзов с поддержкой нескольких провайдеров. SEAR определяет расширяемую реляционную схему, охватывающую как сигналы оценки LLM (контекст, намерение, характеристики ответа, атрибуция проблем и оценки качества), так и операционные метрики шлюза (задержка, стоимость, пропускная способность), с межтабличными связями согласованности примерно для сотни типизированных колонок, доступных для SQL-запросов. Для надежного заполнения сигналов оценки SEAR предлагает самодостаточные инструкции для сигналов, внутрисхемное логическое выведение и многоэтапную генерацию, которая производит структурированные выходные данные, готовые для загрузки в базу данных. Поскольку сигналы выводятся посредством логического выведения LLM, а не простых классификаторов, SEAR улавливает сложную семантику запросов, обеспечивает интерпретируемые человеком объяснения маршрутизации и объединяет оценку и маршрутизацию в едином уровне запросов. В ходе тысяч рабочих сессий SEAR демонстрирует высокую точность сигналов на размеченных человеком данных и поддерживает практические решения по маршрутизации, включая значительное снижение затрат при сопоставимом качестве.

English

Evaluating production LLM responses and routing requests across providers in LLM gateways requires fine-grained quality signals and operationally grounded decisions. To address this gap, we present SEAR, a schema-based evaluation and routing system for multi-model, multi-provider LLM gateways. SEAR defines an extensible relational schema covering both LLM evaluation signals (context, intent, response characteristics, issue attribution, and quality scores) and gateway operational metrics (latency, cost, throughput), with cross-table consistency links across around one hundred typed, SQL-queryable columns. To populate the evaluation signals reliably, SEAR proposes self-contained signal instructions, in-schema reasoning, and multi-stage generation that produces database-ready structured outputs. Because signals are derived through LLM reasoning rather than shallow classifiers, SEAR captures complex request semantics, enables human-interpretable routing explanations, and unifies evaluation and routing in a single query layer. Across thousands of production sessions, SEAR achieves strong signal accuracy on human-labeled data and supports practical routing decisions, including large cost reductions with comparable quality.

SEAR: Оценка и маршрутизация на основе схемы для шлюзов LLM

SEAR: Schema-Based Evaluation and Routing for LLM Gateways

Аннотация

Support