Dati Sintetici Basati su Principi Abilitano le Prime Leggi di Scalabilità per LLM nella Raccomandazione

Abstract

I Large Language Model (LLM) rappresentano una frontiera promettente per i sistemi di raccomandazione, nonostante il loro sviluppo sia stato ostacolato dall'assenza di leggi di scaling prevedibili, cruciali per guidare la ricerca e ottimizzare l'allocazione delle risorse. Ipotesizziamo che ciò possa essere attribuito all'intrinseco rumore, bias e incompletezza dei dati grezzi di interazione utente negli sforzi precedenti di pre-training continuo (CPT). Questo articolo introduce un nuovo framework a livelli per generare dati sintetici di alta qualità che evita tali problemi creando un curriculum pedagogico curato per l'LLM. Forniamo prove potenti e dirette dell'utilità del nostro curriculum dimostrando che modelli sequenziali standard addestrati sui nostri dati sintetici principiati superano significativamente (+130% su recall@100 per SasRec) i modelli addestrati su dati reali in compiti di ranking a valle, dimostrandone la superiorità nell'apprendimento di pattern di preferenza utente generalizzabili. Basandoci su questo, dimostriamo empiricamente, per la prima volta, uno scaling di legge di potenza robusto per un LLM sottoposto a pre-training continuo sui nostri dati di alta qualità specifici per la raccomandazione. I nostri esperimenti rivelano una riduzione della perplexity consistente e prevedibile attraverso multiple modalità di dati sintetici. Questi risultati stabiliscono una metodologia fondante per scalare in modo affidabile le capacità degli LLM nel dominio della raccomandazione, spostando così il focus della ricerca dal mitigare le carenze dei dati al valorizzare informazioni strutturate di alta qualità.

English

Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.

Dati Sintetici Basati su Principi Abilitano le Prime Leggi di Scalabilità per LLM nella Raccomandazione

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

Abstract

Support