ChatPaper.aiChatPaper

AgentInstruct: 에이전트 흐름을 통한 생성적 교수법을 향하여

AgentInstruct: Toward Generative Teaching with Agentic Flows

July 3, 2024
저자: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
cs.AI

초록

합성 데이터는 대형 및 소형 언어 모델 개발을 가속화하는 데 점점 더 중요해지고 있습니다. 여러 성공적인 사례가 있음에도 불구하고, 연구자들은 모델 붕괴와 다른 모델을 모방하는 것의 단점에 대한 우려를 제기했습니다. 이러한 차이는 합성 데이터의 품질과 다양성이 크게 다르다는 사실에 기인할 수 있습니다. 합성 데이터를 효과적으로 사용하려면 일반적으로 데이터를 큐레이션하는 데 상당한 인간의 노력이 필요합니다. 우리는 특히 강력한 모델을 사용하여 새로운 기술이나 행동을 다른 모델에게 가르치기 위해 데이터를 생성하는 사후 훈련(synthetic data for post-training)에 초점을 맞추며, 이를 '생성적 교수법(Generative Teaching)'이라고 부릅니다. 우리는 AgentInstruct를 소개합니다. 이는 텍스트 문서 및 코드 파일과 같은 원시 데이터 소스를 시드로 사용하여 다양한 고품질의 합성 데이터를 자동으로 생성할 수 있는 확장 가능한 에이전트 기반 프레임워크입니다. AgentInstruct는 프롬프트와 응답을 모두 생성할 수 있습니다. 우리는 AgentInstruct의 유용성을 입증하기 위해 텍스트 편집, 창의적 글쓰기, 도구 사용, 코딩, 독해력 등 다양한 기술을 언어 모델에게 가르치기 위한 25M 쌍의 사후 훈련 데이터셋을 생성했습니다. 이 데이터셋은 모든 기본 모델의 지시 튜닝(instruction tuning)에 사용할 수 있습니다. 우리는 이 데이터로 Mistral-7b를 사후 훈련시켰습니다. 결과적으로 얻은 Orca-3 모델을 동일한 기본 모델을 사용하는 Mistral-7b-Instruct와 비교했을 때, 많은 벤치마크에서 상당한 개선을 관찰했습니다. 예를 들어, AGIEval에서 40%, MMLU에서 19%, GSM8K에서 54%, BBH에서 38%, AlpacaEval에서 45%의 성능 향상을 보였습니다. 또한, Orca-3는 LLAMA-8B-instruct 및 GPT-3.5-turbo와 같은 다른 모델들을 꾸준히 능가했습니다.
English
Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.

Summary

AI-Generated Summary

PDF5115November 28, 2024