LoopCTR: Desbloqueando el Potencial de Escalado en Bucle para la Predicción de Tasa de Clics
LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction
April 21, 2026
Autores: Jiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI
Resumen
La escalabilidad de los modelos Transformer para la predicción de clics (CTR) mediante la adición de parámetros conlleva un creciente costo computacional y de almacenamiento, ampliando la brecha entre las ambiciones de escalado y las restrictivas condiciones de despliegue industrial. Presentamos LoopCTR, un paradigma de escalado en bucle que incrementa la computación durante el entrenamiento mediante la reutilización recursiva de capas compartidas, desacoplando el crecimiento computacional del aumento de parámetros. LoopCTR adopta una arquitectura tipo sándwich enriquecida con Residuos Hiperconectados y Mezcla de Expertos, e implementa supervisión de procesos en cada profundidad de bucle para codificar las ventajas multibucle en los parámetros compartidos. Esto permite una estrategia de "entrenamiento multibucle-inferencia cero bucles", donde una sola pasada hacia adelante sin bucles supera ya todos los baselines. Los experimentos en tres benchmarks públicos y un conjunto de datos industrial demuestran un rendimiento de vanguardia. Un análisis oráculo revela además un margen de mejora no explotado de 0.02–0.04 AUC, donde modelos entrenados con menos bucles exhiben mayores techos de mejora, señalando una frontera prometedora para la inferencia adaptativa.
English
Scaling Transformer-based click-through rate (CTR) models by stacking more parameters brings growing computational and storage overhead, creating a widening gap between scaling ambitions and the stringent industrial deployment constraints. We propose LoopCTR, which introduces a loop scaling paradigm that increases training-time computation through recursive reuse of shared model layers, decoupling computation from parameter growth. LoopCTR adopts a sandwich architecture enhanced with Hyper-Connected Residuals and Mixture-of-Experts, and employs process supervision at every loop depth to encode multi-loop benefits into the shared parameters. This enables a train-multi-loop, infer-zero-loop strategy where a single forward pass without any loop already outperforms all baselines. Experiments on three public benchmarks and one industrial dataset demonstrate state-of-the-art performance. Oracle analysis further reveals 0.02--0.04 AUC of untapped headroom, with models trained with fewer loops exhibiting higher oracle ceilings, pointing to a promising frontier for adaptive inference.