Unitxt: 生成AIのための柔軟で共有可能かつ再利用可能なデータ準備と評価
Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
January 25, 2024
著者: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed, Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera, Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
cs.AI
要旨
生成型NLPのダイナミックな領域において、従来のテキスト処理パイプラインは、特定のデータセット、タスク、およびモデルの組み合わせに特化しているため、研究の柔軟性と再現性を制限しています。システムプロンプト、モデル固有のフォーマット、指示などが絡む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を求めています。このニーズに対応するため、生成型言語モデルに特化したカスタマイズ可能なテキストデータの準備と評価のための革新的なライブラリ、Unitxtを紹介します。Unitxtは、HuggingFaceやLM-eval-harnessなどの一般的なライブラリとネイティブに統合し、処理フローをモジュール化されたコンポーネントに分解することで、実践者間での容易なカスタマイズと共有を可能にします。これらのコンポーネントには、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義が含まれます。Unitxt-Catalogはこれらのコンポーネントを一元管理し、現代のテキストデータワークフローにおける協力と探求を促進します。Unitxtは単なるツールではなく、コミュニティ主導のプラットフォームであり、ユーザーがパイプラインを共同で構築、共有、進化させることを可能にします。Unitxtコミュニティに参加するには、https://github.com/IBM/unitxt をご覧ください!
English
In the dynamic landscape of generative NLP, traditional text processing
pipelines limit research flexibility and reproducibility, as they are tailored
to specific dataset, task, and model combinations. The escalating complexity,
involving system prompts, model-specific formats, instructions, and more, calls
for a shift to a structured, modular, and customizable solution. Addressing
this need, we present Unitxt, an innovative library for customizable textual
data preparation and evaluation tailored to generative language models. Unitxt
natively integrates with common libraries like HuggingFace and LM-eval-harness
and deconstructs processing flows into modular components, enabling easy
customization and sharing between practitioners. These components encompass
model-specific formats, task prompts, and many other comprehensive dataset
processing definitions. The Unitxt-Catalog centralizes these components,
fostering collaboration and exploration in modern textual data workflows.
Beyond being a tool, Unitxt is a community-driven platform, empowering users to
build, share, and advance their pipelines collaboratively. Join the Unitxt
community at https://github.com/IBM/unitxt!