ChatPaper.aiChatPaper

Unitxt: 생성형 AI를 위한 유연하고 공유 가능하며 재사용 가능한 데이터 준비 및 평가 프레임워크

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

January 25, 2024
저자: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed, Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera, Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
cs.AI

초록

생성적 NLP의 역동적인 환경에서, 전통적인 텍스트 처리 파이프라인은 특정 데이터셋, 작업, 모델 조합에 맞춰져 있어 연구의 유연성과 재현성을 제한합니다. 시스템 프롬프트, 모델별 형식, 지시사항 등 점점 복잡해지는 요소들은 구조화되고 모듈화되며 사용자 정의가 가능한 솔루션으로의 전환을 요구합니다. 이러한 필요를 해결하기 위해, 우리는 생성적 언어 모델에 맞춤화된 텍스트 데이터 준비 및 평가를 위한 혁신적인 라이브러리인 Unitxt를 소개합니다. Unitxt는 HuggingFace 및 LM-eval-harness와 같은 일반적인 라이브러리와 기본적으로 통합되며, 처리 흐름을 모듈식 구성 요소로 분해하여 실무자 간의 쉬운 사용자 정의와 공유를 가능하게 합니다. 이러한 구성 요소는 모델별 형식, 작업 프롬프트, 그리고 다양한 포괄적인 데이터셋 처리 정의를 포함합니다. Unitxt-Catalog는 이러한 구성 요소를 중앙 집중화하여 현대적인 텍스트 데이터 워크플로우에서의 협업과 탐구를 촉진합니다. 단순한 도구를 넘어, Unitxt는 사용자들이 파이프라인을 구축하고 공유하며 협력적으로 발전시킬 수 있는 커뮤니티 주도 플랫폼입니다. Unitxt 커뮤니티에 참여하세요: https://github.com/IBM/unitxt!
English
In the dynamic landscape of generative NLP, traditional text processing pipelines limit research flexibility and reproducibility, as they are tailored to specific dataset, task, and model combinations. The escalating complexity, involving system prompts, model-specific formats, instructions, and more, calls for a shift to a structured, modular, and customizable solution. Addressing this need, we present Unitxt, an innovative library for customizable textual data preparation and evaluation tailored to generative language models. Unitxt natively integrates with common libraries like HuggingFace and LM-eval-harness and deconstructs processing flows into modular components, enabling easy customization and sharing between practitioners. These components encompass model-specific formats, task prompts, and many other comprehensive dataset processing definitions. The Unitxt-Catalog centralizes these components, fostering collaboration and exploration in modern textual data workflows. Beyond being a tool, Unitxt is a community-driven platform, empowering users to build, share, and advance their pipelines collaboratively. Join the Unitxt community at https://github.com/IBM/unitxt!
PDF241December 15, 2024