ChatPaper.aiChatPaper

텍스트-이미지 생성을 위해 ImageNet을 얼마나 활용할 수 있을까?

How far can we go with ImageNet for Text-to-Image generation?

February 28, 2025
저자: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton
cs.AI

초록

최근 텍스트-이미지(T2I) 생성 모델은 '더 크면 더 좋다'라는 패러다임에 따라 수십억 규모의 데이터셋으로 학습함으로써 놀라운 결과를 달성했습니다. 이 패러다임은 데이터의 양을 질보다 우선시합니다. 우리는 이 기존 패러다임에 도전하며, 소규모이지만 잘 정제된 데이터셋에 전략적인 데이터 증강을 적용하면 대규모 웹 스크랩 데이터셋으로 학습한 모델을 능가하거나 동등한 성능을 달성할 수 있음을 보여줍니다. 잘 설계된 텍스트 및 이미지 증강 기법으로 강화된 ImageNet만을 사용하여, 우리는 GenEval에서 SD-XL 대비 +2점, DPGBench에서 +5점의 성능 향상을 달성했으며, 이는 매개변수 수는 1/10, 학습 이미지 수는 1/1000 수준으로 훨씬 적은 자원을 사용한 결과입니다. 우리의 결과는 대규모 데이터셋보다 전략적인 데이터 증강이 T2I 생성의 지속 가능한 발전 방향을 제시할 수 있음을 시사합니다.
English
Recent text-to-image (T2I) generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better' paradigm that prioritizes data quantity over quality. We challenge this established paradigm by demonstrating that strategic data augmentation of small, well-curated datasets can match or outperform models trained on massive web-scraped collections. Using only ImageNet enhanced with well-designed text and image augmentations, we achieve a +2 overall score over SD-XL on GenEval and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the training images. Our results suggest that strategic data augmentation, rather than massive datasets, could offer a more sustainable path forward for T2I generation.

Summary

AI-Generated Summary

PDF262March 3, 2025