LoopCTR: Sfruttare la Potenza della Scalabilità a Ciclo per la Previsione del Tasso di Clic
LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction
April 21, 2026
Autori: Jiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI
Abstract
Il ridimensionamento dei modelli Transformer per il click-through rate (CTR) mediante l'aggiunta di parametri comporta crescenti costi computazionali e di archiviazione, creando un divario sempre più ampio tra le ambizioni di scalabilità e i vincoli stringenti del deployment industriale. Proponiamo LoopCTR, che introduce un paradigma di ridimensionamento a loop che aumenta il calcolo in fase di training attraverso il riutilizzo ricorsivo di layer condivisi, disaccoppiando la computazione dalla crescita dei parametri. LoopCTR adotta un'architettura a sandwich potenziata con Residui Iper-Connessi e Mistura di Esperti, e impiega una supervisione del processo a ogni profondità di loop per codificare i vantaggi multi-loop nei parametri condivisi. Ciò consente una strategia "train-multi-loop, infer-zero-loop" in cui un singolo passaggio in avanti senza alcun loop supera già tutte le baseline. Esperimenti su tre benchmark pubblici e un dataset industriale dimostrano prestazioni all'avanguardia. Un'analisi oracolare rivela inoltre un potenziale inespresso di 0.02-0.04 AUC, con modelli addestrati con meno loop che mostrano soffitti oracolari più alti, indicando una frontiera promettente per l'inferenza adattiva.
English
Scaling Transformer-based click-through rate (CTR) models by stacking more parameters brings growing computational and storage overhead, creating a widening gap between scaling ambitions and the stringent industrial deployment constraints. We propose LoopCTR, which introduces a loop scaling paradigm that increases training-time computation through recursive reuse of shared model layers, decoupling computation from parameter growth. LoopCTR adopts a sandwich architecture enhanced with Hyper-Connected Residuals and Mixture-of-Experts, and employs process supervision at every loop depth to encode multi-loop benefits into the shared parameters. This enables a train-multi-loop, infer-zero-loop strategy where a single forward pass without any loop already outperforms all baselines. Experiments on three public benchmarks and one industrial dataset demonstrate state-of-the-art performance. Oracle analysis further reveals 0.02--0.04 AUC of untapped headroom, with models trained with fewer loops exhibiting higher oracle ceilings, pointing to a promising frontier for adaptive inference.