Сорока: Синтез данных выравнивания "с нуля" путем подачи выровненных LLMs без чего-либоMagpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs
with Nothing
Высококачественные данные по инструкциям критически важны для согласования больших языковых моделей (ЯМ). Хотя некоторые модели, такие как Llama-3-Instruct, имеют открытые веса, их данные по согласованию остаются конфиденциальными, что затрудняет демократизацию искусственного интеллекта. Высокие трудозатраты человека и ограниченный, заранее определенный объем подсказок мешают существующим методам создания открытых данных масштабироваться эффективно, что потенциально снижает разнообразие и качество общедоступных наборов данных по согласованию. Возможно ли синтезировать высококачественные данные по инструкциям в масштабе, извлекая их непосредственно из согласованной ЯМ? Мы представляем метод самосинтеза для создания данных по согласованию в масштабе, названный Magpie. Нашим ключевым наблюдением является то, что согласованные ЯМ, такие как Llama-3-Instruct, могут генерировать запрос пользователя, когда мы вводим только левосторонние шаблоны до позиции, зарезервированной для сообщений пользователя, благодаря их авторегрессивной природе. Мы используем этот метод для подсказки Llama-3-Instruct и генерируем 4 миллиона инструкций вместе с соответствующими ответами. Мы проводим всесторонний анализ извлеченных данных и выбираем 300 тыс. высококачественных экземпляров. Для сравнения данных Magpie с другими общедоступными наборами данных по инструкциям мы донастраиваем Llama-3-8B-Base с каждым набором данных и оцениваем производительность донастроенных моделей. Наши результаты показывают, что в некоторых задачах модели, донастроенные с помощью Magpie, проявляют производительность, сравнимую с официальным Llama-3-8B-Instruct, несмотря на то, что последний улучшен 10 миллионами точек данных через надзорное донастройка (SFT) и последующее обучение с обратной связью. Мы также показываем, что использование Magpie исключительно для SFT может превзойти производительность предыдущих общедоступных наборов данных, используемых как для SFT, так и для оптимизации предпочтений, таких как прямая оптимизация предпочтений с UltraFeedback. Это преимущество очевидно на бенчмарках по согласованию, таких как AlpacaEval, ArenaHard и WildBench.