Alchemist: Превращение общедоступных данных для генерации текста в изображения в генеративное золото
Alchemist: Turning Public Text-to-Image Data into Generative Gold
May 25, 2025
Авторы: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
cs.AI
Аннотация
Предварительное обучение наделяет модели преобразования текста в изображение (T2I) обширными знаниями о мире, но этого часто недостаточно для достижения высокой эстетической качества и соответствия. Следовательно, контролируемая тонкая настройка (SFT) играет ключевую роль в дальнейшем улучшении. Однако её эффективность в значительной степени зависит от качества настраиваемого набора данных. Существующие публичные наборы данных для SFT часто ориентированы на узкие области (например, аниме или определённые художественные стили), а создание высококачественных универсальных наборов данных для SFT остаётся серьёзной проблемой. Современные методы отбора данных часто являются затратными и испытывают трудности с выявлением действительно значимых образцов. Эта проблема усугубляется дефицитом публичных универсальных наборов данных, поскольку ведущие модели часто полагаются на большие, проприетарные и плохо документированные внутренние данные, что затрудняет прогресс в более широких исследованиях. В данной статье представлена новая методология создания универсальных наборов данных для SFT, которая использует предварительно обученную генеративную модель в качестве инструмента для оценки наиболее значимых обучающих образцов. Мы применяем эту методологию для создания и публикации Alchemist — компактного (3 350 образцов), но чрезвычайно эффективного набора данных для SFT. Эксперименты показывают, что Alchemist существенно улучшает качество генерации пяти публичных моделей T2I, сохраняя при этом разнообразие и стиль. Кроме того, мы публикуем веса тонко настроенных моделей для общего доступа.
English
Pre-training equips text-to-image (T2I) models with broad world knowledge,
but this alone is often insufficient to achieve high aesthetic quality and
alignment. Consequently, supervised fine-tuning (SFT) is crucial for further
refinement. However, its effectiveness highly depends on the quality of the
fine-tuning dataset. Existing public SFT datasets frequently target narrow
domains (e.g., anime or specific art styles), and the creation of high-quality,
general-purpose SFT datasets remains a significant challenge. Current curation
methods are often costly and struggle to identify truly impactful samples. This
challenge is further complicated by the scarcity of public general-purpose
datasets, as leading models often rely on large, proprietary, and poorly
documented internal data, hindering broader research progress. This paper
introduces a novel methodology for creating general-purpose SFT datasets by
leveraging a pre-trained generative model as an estimator of high-impact
training samples. We apply this methodology to construct and release Alchemist,
a compact (3,350 samples) yet highly effective SFT dataset. Experiments
demonstrate that Alchemist substantially improves the generative quality of
five public T2I models while preserving diversity and style. Additionally, we
release the fine-tuned models' weights to the public.Summary
AI-Generated Summary