ChatPaper.aiChatPaper

원칙 기반 합성 데이터를 통한 추천 시스템 LLM 최초의 스케일링 법칙 규명

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

February 7, 2026
저자: Benyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan
cs.AI

초록

대규모 언어 모델(LLM)은 추천 시스템의 유망한 최전선 기술이지만, 연구 방향 설정과 자원 배분 최적화에 핵심적인 예측 가능한 스케일링 법칙의 부재로 인해 발전이 지연되어 왔습니다. 우리는 이 문제가 기존의 지속적 사전 학습(CPT)에서 사용된 원시 사용자 상호작용 데이터의 내재적 노이즈, 편향, 불완전성에 기인할 수 있다고 가정합니다. 본 논문은 LLM을 위해 체계적으로 구성된 교육 커리큘럼을 생성함으로써 이러한 문제를 회피하는 고품질 합성 데이터 생성의 새로운 계층적 프레임워크를 소개합니다. 우리는 본 합성 데이터로 학습된 표준 순차 모델이 하위 순위 결정 과제에서 실제 데이터로 학습된 모델을 크게 능가한다는 점(SasRec 기준 recall@100 130% 향상)을 보여줌으로써 일반화 가능한 사용자 선호 패턴 학습에 있어 우리 커리큘럼의 우수성과 유용성에 대한 강력한 직접적 증거를 제시합니다. 이를 바탕으로, 우리는 추천 특화 고품질 데이터로 지속적 사전 학습된 LLM에 대해 최초로 강건한 멱법칙 스케일링이 존재함을 실증적으로 입증합니다. 우리의 실험은 다양한 합성 데이터 양식에 걸쳐 일관되고 예측 가능한 퍼플렉시티 감소를 보여줍니다. 이러한 연구 결과는 추천 분야에서 LLM 역량을 안정적으로 확장하기 위한 기초 방법론을 정립함으로써, 데이터 결함 완화에서 고품질의 구조화된 정보 활용으로 연구 초점을 전환시킵니다.
English
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.
PDF13February 17, 2026