ChatPaper.aiChatPaper

Prinzipientreue synthetische Daten ermöglichen erstmals Skalierungsgesetze für LLMs in der Empfehlungsfunktion

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

February 7, 2026
papers.authors: Benyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) stellen eine vielversprechende Perspektive für Empfehlungssysteme dar, doch ihre Entwicklung wurde durch das Fehlen vorhersagbarer Skalierungsgesetze behindert, die für die Steuerung der Forschung und die Optimierung der Ressourcenzuteilung entscheidend sind. Wir stellen die Hypothese auf, dass dies auf das inhärente Rauschen, die Verzerrungen und die Unvollständigkeit der Rohdaten von Nutzerinteraktionen in früheren Ansätzen zum kontinuierlichen Vorabtraining (Continual Pre-Training, CPT) zurückzuführen sein könnte. Dieses Artikel stellt einen neuartigen, geschichteten Rahmen zur Erzeugung hochwertiger synthetischer Daten vor, der diese Probleme umgeht, indem ein kuratiertes, pädagogisches Curriculum für das LLM erstellt wird. Wir liefern starke, direkte Belege für den Nutzen unseres Curriculums, indem wir zeigen, dass Standard-Sequenzmodelle, die mit unseren wohlbegründeten synthetischen Daten trainiert wurden, Modelle, die mit echten Daten trainiert wurden, bei nachgelagerten Ranking-Aufgaben signifikant übertreffen (+130 % bei Recall@100 für SasRec). Dies demonstriert die Überlegenheit unserer Daten für das Erlernen generalisierbarer Nutzerpräferenzmuster. Darauf aufbauend weisen wir erstmals empirisch ein robustes Potenzgesetz-Skalierungsverhalten für ein LLM nach, das kontinuierlich mit unseren hochwertigen, empfahlungsspezifischen Daten vortrainiert wird. Unsere Experimente zeigen eine konsistente und vorhersagbare Reduzierung der Perplexität über mehrere synthetische Datenmodalitäten hinweg. Diese Ergebnisse etablieren eine grundlegende Methodik für eine zuverlässige Skalierung von LLM-Fähigkeiten im Empfehlungsbereich und verlagern damit den Forschungsfokus von der Kompensation von Datenmängeln hin zur Nutzung hochwertiger, strukturierter Informationen.
English
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.
PDF13February 17, 2026