Décoder les décisions du ML : un cadre de raisonnement agentique pour les systèmes de classement à grande échelle
Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System
February 20, 2026
papers.authors: Longfei Yun, Yihan Wu, Haoran Liu, Xiaoxuan Liu, Ziyun Xu, Yi Wang, Yang Xia, Pengfei Wang, Mingze Gao, Yunxiang Wang, Changfan Chen, Junfeng Pan
cs.AI
papers.abstract
Les systèmes de classement modernes à grande échelle évoluent dans un paysage complexe d'objectifs concurrents, de contraintes opérationnelles et d'exigences produits en constante évolution. Les progrès dans ce domaine sont de plus en plus limités par la contrainte du contexte d'ingénierie : le processus ardu de traduction d'une intention produit ambiguë en hypothèses raisonnables, exécutables et vérifiables, plutôt que par les seules techniques de modélisation. Nous présentons GEARS (Generative Engine for Agentic Ranking Systems), un cadre qui reformule l'optimisation du classement comme un processus de découverte autonome au sein d'un environnement d'expérimentation programmable. Au lieu de traiter l'optimisation comme une sélection de modèles statique, GEARS exploite des Compétences Agentiques Spécialisées pour encapsuler l'expertise en matière de classement en capacités de raisonnement réutilisables, permettant aux opérateurs de piloter les systèmes via une personnalisation de haut niveau reflétant l'intention. De plus, pour garantir la fiabilité en production, le cadre intègre des mécanismes de validation pour imposer une robustesse statistique et filtrer les politiques fragiles qui surajustent les signaux à court terme. La validation expérimentale sur diverses interfaces produits démontre que GEARS identifie systématiquement des politiques supérieures, quasi Pareto-optimales, en synergisant les signaux algorithmiques avec un contexte profond de classement, tout en maintenant une stabilité de déploiement rigoureuse.
English
Modern large-scale ranking systems operate within a sophisticated landscape of competing objectives, operational constraints, and evolving product requirements. Progress in this domain is increasingly bottlenecked by the engineering context constraint: the arduous process of translating ambiguous product intent into reasonable, executable, verifiable hypotheses, rather than by modeling techniques alone. We present GEARS (Generative Engine for Agentic Ranking Systems), a framework that reframes ranking optimization as an autonomous discovery process within a programmable experimentation environment. Rather than treating optimization as static model selection, GEARS leverages Specialized Agent Skills to encapsulate ranking expert knowledge into reusable reasoning capabilities, enabling operators to steer systems via high-level intent vibe personalization. Furthermore, to ensure production reliability, the framework incorporates validation hooks to enforce statistical robustness and filter out brittle policies that overfit short-term signals. Experimental validation across diverse product surfaces demonstrates that GEARS consistently identifies superior, near-Pareto-efficient policies by synergizing algorithmic signals with deep ranking context while maintaining rigorous deployment stability.