Descifrando las Decisiones del AA: Un Marco de Razonamiento Agéntico para Sistemas de Clasificación a Gran Escala
Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System
February 20, 2026
Autores: Longfei Yun, Yihan Wu, Haoran Liu, Xiaoxuan Liu, Ziyun Xu, Yi Wang, Yang Xia, Pengfei Wang, Mingze Gao, Yunxiang Wang, Changfan Chen, Junfeng Pan
cs.AI
Resumen
Los sistemas modernos de ranking a gran escala operan dentro de un panorama sofisticado de objetivos en competencia, restricciones operativas y requisitos de producto en evolución. El progreso en este dominio está cada vez más limitado por la restricción del contexto de ingeniería: el arduo proceso de traducir intenciones ambiguas de producto en hipótesis razonables, ejecutables y verificables, en lugar de estar limitado únicamente por las técnicas de modelado. Presentamos GEARS (Motor Generativo para Sistemas de Ranking con Agencia), un marco que replantea la optimización del ranking como un proceso de descubrimiento autónomo dentro de un entorno de experimentación programable. En lugar de tratar la optimización como una selección estática de modelos, GEARS aprovecha Habilidades de Agente Especializadas para encapsular el conocimiento experto en ranking en capacidades de razonamiento reutilizables, permitiendo a los operadores dirigir los sistemas mediante una personalización de alto nivel basada en la "sensación" de la intención. Además, para garantizar la confiabilidad en producción, el marco incorpora puntos de validación para hacer cumplir la robustez estadística y filtrar políticas frágiles que se sobreajustan a señales a corto plazo. La validación experimental en diversas superficies de producto demuestra que GEARS identifica consistentemente políticas superiores y casi Pareto-eficientes, sinergizando señales algorítmicas con un contexto profundo de ranking mientras mantiene una rigurosa estabilidad de despliegue.
English
Modern large-scale ranking systems operate within a sophisticated landscape of competing objectives, operational constraints, and evolving product requirements. Progress in this domain is increasingly bottlenecked by the engineering context constraint: the arduous process of translating ambiguous product intent into reasonable, executable, verifiable hypotheses, rather than by modeling techniques alone. We present GEARS (Generative Engine for Agentic Ranking Systems), a framework that reframes ranking optimization as an autonomous discovery process within a programmable experimentation environment. Rather than treating optimization as static model selection, GEARS leverages Specialized Agent Skills to encapsulate ranking expert knowledge into reusable reasoning capabilities, enabling operators to steer systems via high-level intent vibe personalization. Furthermore, to ensure production reliability, the framework incorporates validation hooks to enforce statistical robustness and filter out brittle policies that overfit short-term signals. Experimental validation across diverse product surfaces demonstrates that GEARS consistently identifies superior, near-Pareto-efficient policies by synergizing algorithmic signals with deep ranking context while maintaining rigorous deployment stability.