Des données synthétiques fondées sur des principes permettent les premières lois d'échelle pour les LLM dans la recommandation
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation
February 7, 2026
papers.authors: Benyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) représentent une frontière prometteuse pour les systèmes de recommandation, mais leur développement a été entravé par l'absence de lois d'évolutivité prévisibles, pourtant cruciales pour orienter la recherche et optimiser l'allocation des ressources. Nous émettons l'hypothèse que cela pourrait être attribué au bruit, aux biais et à l'incomplétude inhérents aux données brutes d'interaction utilisateur dans les efforts antérieurs de pré-entraînement continu (CPT). Cet article introduit un nouveau cadre stratifié pour générer des données synthétiques de haute qualité qui contourne ces problèmes en créant un programme pédagogique structuré pour le LLM. Nous fournissons des preuves directes et convaincantes de l'utilité de notre curriculum en démontrant que les modèles séquentiels standard entraînés sur nos données synthétiques fondées surpassent significativement (+130% sur recall@100 pour SasRec) les modèles entraînés sur des données réelles dans les tâches de classement en aval, ce qui démontre sa supériorité pour l'apprentissage de modèles de préférences utilisateur généralisables. Sur cette base, nous démontrons empiriquement, pour la première fois, une évolutivité robuste suivant une loi de puissance pour un LLM pré-entraîné continuellement sur nos données de haute qualité spécifiques à la recommandation. Nos expériences révèlent une réduction de perplexité cohérente et prévisible sur plusieurs modalités de données synthétiques. Ces résultats établissent une méthodologie fondamentale pour une mise à l'échelle fiable des capacités des LLM dans le domaine de la recommandation, déplaçant ainsi l'axe de recherche de la compensation des déficiences des données vers l'exploitation d'informations structurées de haute qualité.
English
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.