Decodificando Decisões de ML: Um Framework de Raciocínio Agente para Sistemas de Classificação em Larga Escala

Resumo

Os sistemas modernos de larga escala de classificação operam num cenário sofisticado de objetivos concorrentes, restrições operacionais e requisitos de produto em evolução. O progresso neste domínio está cada vez mais limitado pela restrição do contexto de engenharia: o árduo processo de traduzir intenções ambíguas de produto em hipóteses razoáveis, executáveis e verificáveis, em vez de ser limitado apenas por técnicas de modelagem. Apresentamos o GEARS (Motor Gerativo para Sistemas de Classificação Agêntica), uma estrutura que reformula a otimização de classificação como um processo de descoberta autónoma dentro de um ambiente de experimentação programável. Em vez de tratar a otimização como uma seleção estática de modelos, o GEARS aproveita Competências de Agentes Especializados para encapsular o conhecimento especializado em classificação em capacidades de raciocínio reutilizáveis, permitindo que os operadores orientem os sistemas através de uma personalização de alto nível baseada na "sensação" da intenção. Adicionalmente, para garantir a confiabilidade em produção, a estrutura incorpora mecanismos de validação para impor robustez estatística e filtrar políticas frágeis que se ajustem excessivamente a sinais de curto prazo. A validação experimental em diversas superfícies de produto demonstra que o GEARS identifica consistentemente políticas superiores e quase Pareto-eficientes, ao sinergizar sinais algorítmicos com um contexto profundo de classificação, mantendo ao mesmo tempo uma rigorosa estabilidade de implantação.

English

Modern large-scale ranking systems operate within a sophisticated landscape of competing objectives, operational constraints, and evolving product requirements. Progress in this domain is increasingly bottlenecked by the engineering context constraint: the arduous process of translating ambiguous product intent into reasonable, executable, verifiable hypotheses, rather than by modeling techniques alone. We present GEARS (Generative Engine for Agentic Ranking Systems), a framework that reframes ranking optimization as an autonomous discovery process within a programmable experimentation environment. Rather than treating optimization as static model selection, GEARS leverages Specialized Agent Skills to encapsulate ranking expert knowledge into reusable reasoning capabilities, enabling operators to steer systems via high-level intent vibe personalization. Furthermore, to ensure production reliability, the framework incorporates validation hooks to enforce statistical robustness and filter out brittle policies that overfit short-term signals. Experimental validation across diverse product surfaces demonstrates that GEARS consistently identifies superior, near-Pareto-efficient policies by synergizing algorithmic signals with deep ranking context while maintaining rigorous deployment stability.