LoopCTR: Раскрытие потенциала масштабирования циклов для прогнозирования кликабельности

Аннотация

Масштабирование трансформерных моделей прогнозирования кликабельности (CTR) за счет увеличения количества параметров приводит к росту вычислительных затрат и требований к хранению данных, создавая растущий разрыв между амбициями по масштабированию и строгими ограничениями промышленного развертывания. Мы предлагаем LoopCTR, который вводит парадигму циклического масштабирования, увеличивая вычислительную нагрузку на этапе обучения за счет рекурсивного повторного использования общих слоев модели, что позволяет отделить вычисления от роста числа параметров. LoopCTR использует сэндвич-архитектуру, усиленную гиперсвязанными остатками и смесью экспертов, а также применяет поэтапный контроль на каждой глубине цикла для кодирования преимуществ многократных циклов в общих параметрах. Это позволяет реализовать стратегию «обучение с множественными циклами, вывод без циклов», при которой единственный прямой проход без каких-либо циклов уже превосходит все базовые модели. Эксперименты на трех публичных бенчмарках и одном промышленном наборе данных демонстрируют наилучшую производительность. Дополнительный анализ показывает наличие неиспользованного потенциала в 0.02–0.04 AUC, причем модели, обученные с меньшим количеством циклов, демонстрируют более высокий потенциальный потолок, указывая на перспективное направление для адаптивного вывода.

English

Scaling Transformer-based click-through rate (CTR) models by stacking more parameters brings growing computational and storage overhead, creating a widening gap between scaling ambitions and the stringent industrial deployment constraints. We propose LoopCTR, which introduces a loop scaling paradigm that increases training-time computation through recursive reuse of shared model layers, decoupling computation from parameter growth. LoopCTR adopts a sandwich architecture enhanced with Hyper-Connected Residuals and Mixture-of-Experts, and employs process supervision at every loop depth to encode multi-loop benefits into the shared parameters. This enables a train-multi-loop, infer-zero-loop strategy where a single forward pass without any loop already outperforms all baselines. Experiments on three public benchmarks and one industrial dataset demonstrate state-of-the-art performance. Oracle analysis further reveals 0.02--0.04 AUC of untapped headroom, with models trained with fewer loops exhibiting higher oracle ceilings, pointing to a promising frontier for adaptive inference.

LoopCTR: Раскрытие потенциала масштабирования циклов для прогнозирования кликабельности

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Аннотация

Support