Dados Sintéticos Fundamentados Permitem as Primeiras Leis de Escala para LLMs em Recomendação

Resumo

Os Grandes Modelos de Linguagem (LLMs) representam uma fronteira promissora para os sistemas de recomendação, contudo, o seu desenvolvimento tem sido impedido pela ausência de leis de escalonamento previsíveis, as quais são cruciais para orientar a investigação e otimizar a alocação de recursos. Colocamos a hipótese de que isto pode ser atribuído ao ruído intrínseco, ao viés e à incompletude dos dados brutos de interação do usuário em esforços anteriores de pré-treinamento contínuo (CPT). Este artigo introduz uma nova estrutura em camadas para gerar dados sintéticos de alta qualidade que contorna tais problemas através da criação de um currículo pedagógico e curado para o LLM. Fornecemos evidências poderosas e diretas da utilidade do nosso currículo, demonstrando que modelos sequenciais padrão treinados com os nossos dados sintéticos fundamentados superam significativamente (+130% em recall@100 para o SasRec) os modelos treinados com dados reais em tarefas de ranking subsequentes, demonstrando a sua superioridade para aprender padrões de preferência do usuário generalizáveis. Com base nisto, demonstramos empiricamente, pela primeira vez, um robusto escalonamento de lei de potência para um LLM que é continuamente pré-treinado com os nossos dados de alta qualidade e específicos para recomendação. As nossas experiências revelam uma redução de perplexidade consistente e previsível em múltiplas modalidades de dados sintéticos. Estas descobertas estabelecem uma metodologia fundamental para escalar de forma confiável as capacidades dos LLMs no domínio da recomendação, deslocando assim o foco da investigação da mitigação de deficiências de dados para a utilização de informações estruturadas e de alta qualidade.

English

Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.

Dados Sintéticos Fundamentados Permitem as Primeiras Leis de Escala para LLMs em Recomendação

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

Resumo

Support