ChatPaper.aiChatPaper

Von Real zu Synthetisch: Synthese von Millionen diverser und komplexer Benutzeranweisungen mit attributiver Verankerung

From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding

June 4, 2025
Autoren: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI

Zusammenfassung

Die Suche nach vielfältigen, komplexen und groß angelegten Instruktionsdaten ist entscheidend für die automatische Ausrichtung großer Sprachmodelle (LLMs). Obwohl es Methoden gibt, die synthetische Instruktionen in großem Maßstab generieren können, leiden diese entweder unter begrenzten Quellen, was zu einer engen Verteilung führt, oder sie stützen sich auf triviale Erweiterungen, die keine sinnvollen Trajektorien in Bezug auf die Komplexität erzeugen. Im Gegensatz dazu werden Instruktionen, die eine effiziente Ausrichtung begünstigen, typischerweise mit kognitiven Erkenntnissen erstellt und in realen Anwendungsfällen verankert. In diesem Papier synthetisieren wir solche Instruktionen mithilfe von attributierter Verankerung, die 1) einen top-down Attributionsprozess umfasst, der eine ausgewählte Menge realer Instruktionen an situierte Benutzer bindet, und 2) einen bottom-up Syntheseprozess, der Webdokumente nutzt, um zunächst eine Situation und dann eine sinnvolle Instruktion zu generieren. Dieser Rahmen ermöglicht es uns, vielfältige und komplexe Instruktionen in großem Maßstab zu sammeln, indem wir die breite Palette von Webdokumenten nutzen. Konkret erstellen wir einen Datensatz von 1 Million Instruktionen, genannt SynthQuestions, und zeigen, dass darauf trainierte Modelle führende Leistungen in mehreren gängigen Benchmarks erzielen, wobei die Verbesserungen kontinuierlich mit mehr Webkorpora skalieren. Daten, Modelle und Codes werden unter https://github.com/Ignoramus0817/SynthQuestions verfügbar sein.
English
The pursuit of diverse, complex, and large-scale instruction data is crucial for automatically aligning large language models (LLMs). While there are methods capable of generating synthetic instructions at scale, they either suffer from limited grounding sources, leading to a narrow distribution, or rely on trivial extensions that fail to produce meaningful trajectories in terms of complexity. In contrast, instructions that benefit efficient alignment are typically crafted with cognitive insights and grounded in real-world use cases. In this paper, we synthesize such instructions using attributed grounding, which involves 1) a top-down attribution process that grounds a selective set of real instructions to situated users, and 2) a bottom-up synthesis process that leverages web documents to first generate a situation, then a meaningful instruction. This framework allows us to harvest diverse and complex instructions at scale, utilizing the vast range of web documents. Specifically, we construct a dataset of 1 million instructions, called SynthQuestions, and demonstrate that models trained on it achieve leading performance on several common benchmarks, with improvements that continually scale with more web corpora. Data, models and codes will be available at https://github.com/Ignoramus0817/SynthQuestions.
PDF152June 17, 2025