SEAR: Evaluación y Enrutamiento Basados en Esquemas para Pasarelas de LLM

Resumen

La evaluación de respuestas de LLM de producción y el enrutamiento de solicitudes a través de proveedores en pasarelas de LLM requiere señales de calidad granulares y decisiones operacionalmente fundamentadas. Para abordar esta brecha, presentamos SEAR, un sistema de evaluación y enrutamiento basado en esquemas para pasarelas de LLM multimodelo y multiproveedor. SEAR define un esquema relacional extensible que cubre tanto las señales de evaluación de LLM (contexto, intención, características de respuesta, atribución de problemas y puntuaciones de calidad) como las métricas operativas de la pasarela (latencia, costo, rendimiento), con enlaces de consistencia entre tablas a través de aproximadamente cien columnas tipadas y consultables mediante SQL. Para poblar las señales de evaluación de manera confiable, SEAR propone instrucciones de señal autónomas, razonamiento en-esquema y generación multietapa que produce salidas estructuradas listas para la base de datos. Dado que las señales se derivan mediante razonamiento de LLM en lugar de clasificadores superficiales, SEAR captura semánticas de solicitud complejas, permite explicaciones de enrutamiento interpretables por humanos y unifica la evaluación y el enrutamiento en una única capa de consulta. A lo largo de miles de sesiones de producción, SEAR logra una alta precisión de señal en datos etiquetados por humanos y respalda decisiones prácticas de enrutamiento, incluyendo reducciones significativas de costos con calidad comparable.

English

Evaluating production LLM responses and routing requests across providers in LLM gateways requires fine-grained quality signals and operationally grounded decisions. To address this gap, we present SEAR, a schema-based evaluation and routing system for multi-model, multi-provider LLM gateways. SEAR defines an extensible relational schema covering both LLM evaluation signals (context, intent, response characteristics, issue attribution, and quality scores) and gateway operational metrics (latency, cost, throughput), with cross-table consistency links across around one hundred typed, SQL-queryable columns. To populate the evaluation signals reliably, SEAR proposes self-contained signal instructions, in-schema reasoning, and multi-stage generation that produces database-ready structured outputs. Because signals are derived through LLM reasoning rather than shallow classifiers, SEAR captures complex request semantics, enables human-interpretable routing explanations, and unifies evaluation and routing in a single query layer. Across thousands of production sessions, SEAR achieves strong signal accuracy on human-labeled data and supports practical routing decisions, including large cost reductions with comparable quality.

SEAR: Evaluación y Enrutamiento Basados en Esquemas para Pasarelas de LLM

SEAR: Schema-Based Evaluation and Routing for LLM Gateways

Resumen

Support