ChatPaper.aiChatPaper

原則に基づく合成データが実現する、推薦タスクにおける大規模言語モデルの初のスケーリング則

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

February 7, 2026
著者: Benyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan
cs.AI

要旨

大規模言語モデル(LLM)は推薦システムにおける有望な領域であるが、研究指針とリソース配分の最適化に不可欠な予測可能なスケーリング則の不在により、その発展は阻害されてきた。この要因として、従来の継続事前学習(CPT)における生のユーザーインタラクションデータに内在するノイズ、バイアス、不完全性が考えられる。本論文では、LLMに対して精選された教育的カリキュラムを構築することでこれらの問題を回避する、高品質な合成データを生成する新しい階層的フレームワークを提案する。我々の合成的データを用いて学習した標準的な逐次モデルが、下流の順位付けタスクにおいて実データで学習したモデルを大幅に上回る性能(SasRecにおいてrecall@100で+130%)を示すことを実証し、本カリキュラムが一般化可能なユーザ嗜好パターンの学習に優位性を持つことを強力に裏付ける。さらに、この高品質な推薦特化データで継続事前学習されたLLMにおいて、ロバストなべき乗則スケーリングが初めて経験的に確認された。実験では、複数の合成的データ様式にわたり、一貫して予測可能なパープレキシティ低減が観測される。これらの発見は、推薦領域におけるLLM能力の信頼性高いスケーリング手法の基盤を確立し、研究焦点をデータ欠陥の緩和から高品質な構造化情報の活用へと転換させるものである。
English
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.
PDF13February 17, 2026