Du réel au synthétique : Synthétiser des millions d'instructions utilisateur diversifiées et complexes avec ancrage attribué
From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
June 4, 2025
Auteurs: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI
Résumé
La recherche de données d'instruction diversifiées, complexes et à grande échelle est cruciale pour l'alignement automatique des grands modèles de langage (LLMs). Bien qu'il existe des méthodes capables de générer des instructions synthétiques à grande échelle, elles souffrent soit de sources de référence limitées, conduisant à une distribution étroite, soit reposent sur des extensions triviales qui ne parviennent pas à produire des trajectoires significatives en termes de complexité. En revanche, les instructions qui favorisent un alignement efficace sont généralement conçues avec des insights cognitifs et ancrées dans des cas d'utilisation réels. Dans cet article, nous synthétisons de telles instructions en utilisant un ancrage attribué, qui implique 1) un processus d'attribution descendant qui ancre un ensemble sélectionné d'instructions réelles à des utilisateurs situés, et 2) un processus de synthèse ascendant qui exploite des documents web pour d'abord générer une situation, puis une instruction significative. Ce cadre nous permet de collecter des instructions diversifiées et complexes à grande échelle, en utilisant la vaste gamme de documents web. Plus précisément, nous construisons un ensemble de données d'un million d'instructions, appelé SynthQuestions, et démontrons que les modèles entraînés sur celui-ci atteignent des performances de pointe sur plusieurs benchmarks courants, avec des améliorations qui continuent de s'étendre avec davantage de corpus web. Les données, modèles et codes seront disponibles à l'adresse https://github.com/Ignoramus0817/SynthQuestions.
English
The pursuit of diverse, complex, and large-scale instruction data is crucial
for automatically aligning large language models (LLMs). While there are
methods capable of generating synthetic instructions at scale, they either
suffer from limited grounding sources, leading to a narrow distribution, or
rely on trivial extensions that fail to produce meaningful trajectories in
terms of complexity. In contrast, instructions that benefit efficient alignment
are typically crafted with cognitive insights and grounded in real-world use
cases. In this paper, we synthesize such instructions using attributed
grounding, which involves 1) a top-down attribution process that grounds a
selective set of real instructions to situated users, and 2) a bottom-up
synthesis process that leverages web documents to first generate a situation,
then a meaningful instruction. This framework allows us to harvest diverse and
complex instructions at scale, utilizing the vast range of web documents.
Specifically, we construct a dataset of 1 million instructions, called
SynthQuestions, and demonstrate that models trained on it achieve leading
performance on several common benchmarks, with improvements that continually
scale with more web corpora. Data, models and codes will be available at
https://github.com/Ignoramus0817/SynthQuestions.