Alchemist: 공개 텍스트-이미지 데이터를 생성형 금으로 변환하기

초록

사전 학습은 텍스트-이미지(T2I) 모델에 광범위한 세계 지식을 제공하지만, 이것만으로는 높은 미적 품질과 정렬을 달성하기에는 종종 부족합니다. 따라서 지도 미세 조정(SFT)은 추가적인 개선을 위해 필수적입니다. 그러나 그 효과는 미세 조정 데이터셋의 품질에 크게 의존합니다. 기존의 공개 SFT 데이터셋은 좁은 도메인(예: 애니메이션 또는 특정 예술 스타일)을 대상으로 하는 경우가 많으며, 고품질의 일반 목적 SFT 데이터셋을 만드는 것은 여전히 큰 과제입니다. 현재의 데이터셋 선별 방법은 비용이 많이 들고, 진정으로 영향력 있는 샘플을 식별하는 데 어려움을 겪습니다. 이 과제는 공개된 일반 목적 데이터셋의 부족으로 더욱 복잡해지는데, 주요 모델들이 대규모의 독점적이고 잘 문서화되지 않은 내부 데이터에 의존하기 때문에, 더 넓은 연구 진전이 방해받고 있습니다. 본 논문은 사전 학습된 생성 모델을 고영향 학습 샘플의 추정기로 활용하여 일반 목적 SFT 데이터셋을 만드는 새로운 방법론을 소개합니다. 우리는 이 방법론을 적용하여 Alchemist라는 컴팩트하지만(3,350개 샘플) 매우 효과적인 SFT 데이터셋을 구축하고 공개했습니다. 실험 결과, Alchemist는 다섯 가지 공개 T2I 모델의 생성 품질을 크게 향상시키면서도 다양성과 스타일을 보존하는 것으로 나타났습니다. 또한, 우리는 미세 조정된 모델의 가중치를 공개합니다.

English

Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.

Alchemist: 공개 텍스트-이미지 데이터를 생성형 금으로 변환하기

Alchemist: Turning Public Text-to-Image Data into Generative Gold

초록

Support