Unitxt: Гибкая, совместно используемая и повторно применяемая подготовка данных и оценка для генеративного ИИ
Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
January 25, 2024
Авторы: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed, Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera, Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
cs.AI
Аннотация
В динамичной сфере генеративного NLP традиционные конвейеры обработки текста ограничивают гибкость исследований и воспроизводимость, поскольку они адаптированы под конкретные комбинации наборов данных, задач и моделей. Растущая сложность, включающая системные подсказки, специфичные для моделей форматы, инструкции и многое другое, требует перехода к структурированному, модульному и настраиваемому решению. В ответ на эту потребность мы представляем Unitxt — инновационную библиотеку для настраиваемой подготовки и оценки текстовых данных, ориентированную на генеративные языковые модели. Unitxt изначально интегрируется с популярными библиотеками, такими как HuggingFace и LM-eval-harness, и разбивает процессы обработки на модульные компоненты, что позволяет легко настраивать и делиться ими между специалистами. Эти компоненты охватывают специфичные для моделей форматы, подсказки для задач и множество других определений обработки наборов данных. Unitxt-Catalog централизует эти компоненты, способствуя сотрудничеству и исследованию в современных рабочих процессах обработки текста. Unitxt — это не просто инструмент, а платформа, управляемая сообществом, которая позволяет пользователям совместно создавать, делиться и развивать свои конвейеры. Присоединяйтесь к сообществу Unitxt на https://github.com/IBM/unitxt!
English
In the dynamic landscape of generative NLP, traditional text processing
pipelines limit research flexibility and reproducibility, as they are tailored
to specific dataset, task, and model combinations. The escalating complexity,
involving system prompts, model-specific formats, instructions, and more, calls
for a shift to a structured, modular, and customizable solution. Addressing
this need, we present Unitxt, an innovative library for customizable textual
data preparation and evaluation tailored to generative language models. Unitxt
natively integrates with common libraries like HuggingFace and LM-eval-harness
and deconstructs processing flows into modular components, enabling easy
customization and sharing between practitioners. These components encompass
model-specific formats, task prompts, and many other comprehensive dataset
processing definitions. The Unitxt-Catalog centralizes these components,
fostering collaboration and exploration in modern textual data workflows.
Beyond being a tool, Unitxt is a community-driven platform, empowering users to
build, share, and advance their pipelines collaboratively. Join the Unitxt
community at https://github.com/IBM/unitxt!