От реального к синтетическому: синтез миллионов разнообразных и сложных пользовательских инструкций с привязкой к контексту
From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
June 4, 2025
Авторы: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
cs.AI
Аннотация
Стремление к разнообразным, сложным и масштабным данным инструкций имеет решающее значение для автоматического согласования больших языковых моделей (LLM). Хотя существуют методы, способные генерировать синтетические инструкции в больших масштабах, они либо страдают от ограниченных источников обоснования, что приводит к узкому распределению, либо полагаются на тривиальные расширения, которые не способны создавать значимые траектории с точки зрения сложности. В отличие от этого, инструкции, способствующие эффективному согласованию, обычно создаются с учетом когнитивных инсайтов и основываются на реальных сценариях использования. В данной статье мы синтезируем такие инструкции с использованием атрибутивного обоснования, которое включает: 1) процесс атрибуции сверху вниз, при котором избирательный набор реальных инструкций связывается с конкретными пользователями, и 2) процесс синтеза снизу вверх, который использует веб-документы для создания сначала ситуации, а затем значимой инструкции. Этот подход позволяет нам собирать разнообразные и сложные инструкции в больших масштабах, используя широкий спектр веб-документов. В частности, мы создаем набор данных из 1 миллиона инструкций под названием SynthQuestions и демонстрируем, что модели, обученные на этих данных, достигают лидирующих результатов на нескольких распространенных бенчмарках, причем улучшения продолжают масштабироваться с увеличением объема веб-корпусов. Данные, модели и код будут доступны по адресу https://github.com/Ignoramus0817/SynthQuestions.
English
The pursuit of diverse, complex, and large-scale instruction data is crucial
for automatically aligning large language models (LLMs). While there are
methods capable of generating synthetic instructions at scale, they either
suffer from limited grounding sources, leading to a narrow distribution, or
rely on trivial extensions that fail to produce meaningful trajectories in
terms of complexity. In contrast, instructions that benefit efficient alignment
are typically crafted with cognitive insights and grounded in real-world use
cases. In this paper, we synthesize such instructions using attributed
grounding, which involves 1) a top-down attribution process that grounds a
selective set of real instructions to situated users, and 2) a bottom-up
synthesis process that leverages web documents to first generate a situation,
then a meaningful instruction. This framework allows us to harvest diverse and
complex instructions at scale, utilizing the vast range of web documents.
Specifically, we construct a dataset of 1 million instructions, called
SynthQuestions, and demonstrate that models trained on it achieve leading
performance on several common benchmarks, with improvements that continually
scale with more web corpora. Data, models and codes will be available at
https://github.com/Ignoramus0817/SynthQuestions.