ChatPaper.aiChatPaper

LoopCTR: De schaalkracht van loops ontsluiten voor voorspelling van doorklikpercentages

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

April 21, 2026
Auteurs: Jiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI

Samenvatting

Het opschalen van Transformer-gebaseerde click-through rate (CTR)-modellen door meer parameters te stapelen, brengt groeiende reken- en opslagkosten met zich mee, wat een toenemende kloof creëert tussen schaalambities en de stringente beperkingen voor industriële implementatie. Wij stellen LoopCTR voor, dat een loop-schalingsparadigma introduceert waarbij de rekentijd tijdens training wordt verhoogd door recursief hergebruik van gedeelde modelagen, waardoor de rekentijd wordt ontkoppeld van parametergroei. LoopCTR hanteert een sandwicharchitectuur versterkt met Hyper-Connected Residuals en Mixture-of-Experts, en gebruikt procesbewaking op elke loopdiepte om de voordelen van meerdere loops in de gedeelde parameters te coderen. Dit maakt een train-multi-loop, infer-zero-loop strategie mogelijk, waarbij een enkele voorwaartse passage zonder enige loop reeds alle baseline-modellen overtreft. Experimenten op drie publieke benchmarks en één industriële dataset tonen state-of-the-art prestaties aan. Een oracle-analyse onthult verder een onbenut potentieel van 0.02–0.04 AUC, waarbij modellen getraind met minder loops hogere oracle-plafonds vertonen, wat wijst op een veelbelovend front voor adaptieve inferentie.
English
Scaling Transformer-based click-through rate (CTR) models by stacking more parameters brings growing computational and storage overhead, creating a widening gap between scaling ambitions and the stringent industrial deployment constraints. We propose LoopCTR, which introduces a loop scaling paradigm that increases training-time computation through recursive reuse of shared model layers, decoupling computation from parameter growth. LoopCTR adopts a sandwich architecture enhanced with Hyper-Connected Residuals and Mixture-of-Experts, and employs process supervision at every loop depth to encode multi-loop benefits into the shared parameters. This enables a train-multi-loop, infer-zero-loop strategy where a single forward pass without any loop already outperforms all baselines. Experiments on three public benchmarks and one industrial dataset demonstrate state-of-the-art performance. Oracle analysis further reveals 0.02--0.04 AUC of untapped headroom, with models trained with fewer loops exhibiting higher oracle ceilings, pointing to a promising frontier for adaptive inference.
PDF31April 23, 2026