Von Real zu Synthetisch: Synthese von Millionen diverser und komplexer Benutzeranweisungen mit attributiver Verankerung
From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
June 4, 2025
Autoren: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI
Zusammenfassung
Die Suche nach vielfältigen, komplexen und groß angelegten Instruktionsdaten ist entscheidend für die automatische Ausrichtung großer Sprachmodelle (LLMs). Obwohl es Methoden gibt, die synthetische Instruktionen in großem Maßstab generieren können, leiden diese entweder unter begrenzten Quellen, was zu einer engen Verteilung führt, oder sie stützen sich auf triviale Erweiterungen, die keine sinnvollen Trajektorien in Bezug auf die Komplexität erzeugen. Im Gegensatz dazu werden Instruktionen, die eine effiziente Ausrichtung begünstigen, typischerweise mit kognitiven Erkenntnissen erstellt und in realen Anwendungsfällen verankert. In diesem Papier synthetisieren wir solche Instruktionen mithilfe von attributierter Verankerung, die 1) einen top-down Attributionsprozess umfasst, der eine ausgewählte Menge realer Instruktionen an situierte Benutzer bindet, und 2) einen bottom-up Syntheseprozess, der Webdokumente nutzt, um zunächst eine Situation und dann eine sinnvolle Instruktion zu generieren. Dieser Rahmen ermöglicht es uns, vielfältige und komplexe Instruktionen in großem Maßstab zu sammeln, indem wir die breite Palette von Webdokumenten nutzen. Konkret erstellen wir einen Datensatz von 1 Million Instruktionen, genannt SynthQuestions, und zeigen, dass darauf trainierte Modelle führende Leistungen in mehreren gängigen Benchmarks erzielen, wobei die Verbesserungen kontinuierlich mit mehr Webkorpora skalieren. Daten, Modelle und Codes werden unter https://github.com/Ignoramus0817/SynthQuestions verfügbar sein.
English
The pursuit of diverse, complex, and large-scale instruction data is crucial
for automatically aligning large language models (LLMs). While there are
methods capable of generating synthetic instructions at scale, they either
suffer from limited grounding sources, leading to a narrow distribution, or
rely on trivial extensions that fail to produce meaningful trajectories in
terms of complexity. In contrast, instructions that benefit efficient alignment
are typically crafted with cognitive insights and grounded in real-world use
cases. In this paper, we synthesize such instructions using attributed
grounding, which involves 1) a top-down attribution process that grounds a
selective set of real instructions to situated users, and 2) a bottom-up
synthesis process that leverages web documents to first generate a situation,
then a meaningful instruction. This framework allows us to harvest diverse and
complex instructions at scale, utilizing the vast range of web documents.
Specifically, we construct a dataset of 1 million instructions, called
SynthQuestions, and demonstrate that models trained on it achieve leading
performance on several common benchmarks, with improvements that continually
scale with more web corpora. Data, models and codes will be available at
https://github.com/Ignoramus0817/SynthQuestions.