ChatPaper.aiChatPaper

Los Datos Sintéticos Basados en Principios Permiten las Primeras Leyes de Escalado para Modelos de Lenguaje Grandes en Recomendación

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

February 7, 2026
Autores: Benyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) representan una frontera prometedora para los sistemas de recomendación, aunque su desarrollo se ha visto obstaculizado por la ausencia de leyes de escalado predecibles, las cuales son cruciales para guiar la investigación y optimizar la asignación de recursos. Nuestra hipótesis es que esto puede atribuirse al ruido inherente, los sesgos y la incompletitud de los datos brutos de interacción del usuario en los esfuerzos previos de pre-entrenamiento continuo (CPT). Este artículo presenta un marco novedoso y escalonado para generar datos sintéticos de alta calidad que evita dichos problemas mediante la creación de un currículo pedagógico y curado para el LLM. Proporcionamos evidencia directa y sólida de la utilidad de nuestro currículo al demostrar que los modelos secuenciales estándar entrenados con nuestros datos sintéticos fundamentados superan significativamente (+130% en recall@100 para SasRec) a los modelos entrenados con datos reales en tareas de clasificación posteriores, lo que demuestra su superioridad para aprender patrones generalizables de preferencias de usuario. Basándonos en esto, demostramos empíricamente, por primera vez, un escalado robusto de ley de potencia para un LLM que es pre-entrenado continuamente con nuestros datos de alta calidad y específicos para recomendación. Nuestros experimentos revelan una reducción de perplejidad consistente y predecible a través de múltiples modalidades de datos sintéticos. Estos hallazgos establecen una metodología fundamental para escalar de manera confiable las capacidades de los LLM en el dominio de la recomendación, desplazando así el enfoque de la investigación desde la mitigación de deficiencias de los datos hacia el aprovechamiento de información estructurada y de alta calidad.
English
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence of predictable scaling laws, which are crucial for guiding research and optimizing resource allocation. We hypothesize that this may be attributed to the inherent noise, bias, and incompleteness of raw user interaction data in prior continual pre-training (CPT) efforts. This paper introduces a novel, layered framework for generating high-quality synthetic data that circumvents such issues by creating a curated, pedagogical curriculum for the LLM. We provide powerful, direct evidence for the utility of our curriculum by showing that standard sequential models trained on our principled synthetic data significantly outperform (+130% on recall@100 for SasRec) models trained on real data in downstream ranking tasks, demonstrating its superiority for learning generalizable user preference patterns. Building on this, we empirically demonstrate, for the first time, robust power-law scaling for an LLM that is continually pre-trained on our high-quality, recommendation-specific data. Our experiments reveal consistent and predictable perplexity reduction across multiple synthetic data modalities. These findings establish a foundational methodology for reliable scaling LLM capabilities in the recommendation domain, thereby shifting the research focus from mitigating data deficiencies to leveraging high-quality, structured information.
PDF13February 17, 2026