i1: Ein einfaches und vollständig offenes Rezept für leistungsstarke Text-zu-Bild-Modelle

Zusammenfassung

Diffusionsmodelle haben konsequent Fortschritte in der Text-zu-Bild-Generierung vorangetrieben. Es ist jedoch schwierig, die jüngsten Fortschritte auf bestimmte Modellierungs- und Datenentscheidungen zurückzuführen: hochmoderne Open-Weight-Modelle bieten nur begrenzte Ablationen und legen ihre Trainingsdaten und vollständigen Trainingsdetails nicht offen. Die Forschungsgemeinschaft benötigt vollständig offene Modelle (Gewichte, Daten und Code) als Grundlage für weitere Forschung; dennoch bleiben bestehende vollständig offene Modelle in der Leistung deutlich hinter führenden Modellen zurück. In diesem Projekt führen wir eine systematische Untersuchung der Modellierungs- und Datendesignentscheidungen beim Training und der Inferenz von Text-zu-Bild-Diffusion mit über 300 kontrollierten Experimenten durch, die insgesamt über 700.000 TPU-v6e-Stunden umfassen. Unsere Experimente heben mehrere empirische Erkenntnisse (z. B. dass gleiche Gewichtung eine starke Standardeinstellung für das Mischen kuratierter Datensätze ist) und einfache Designentscheidungen (z. B. dass größere Text-Encoder-Adapter die Leistung mit minimalem zusätzlichem Parameteraufwand verbessern) für das Training leistungsstarker Modelle hervor. Geleitet von diesen Erkenntnissen trainieren wir i1, ein Text-zu-Bild-Diffusionsmodell mit 3 Milliarden Parametern, das ausschließlich öffentlich verfügbare Datensätze verwendet. i1 ist mit führenden Modellen auf fünf repräsentativen Benchmarks (GenEval, DPG, PRISM, CVTG-2K und LongText) konkurrenzfähig und übertrifft das beste bestehende vollständig offene Modell im Durchschnitt um 29,5 absolute Prozentpunkte. Wir stellen die i1-Checkpoints, den Trainings- und Inferenzcode sowie die Datenverarbeitungspipeline zur Verfügung. Zusammen legen unsere Ergebnisse und das i1-Rezept eine praktische Grundlage für zukünftige offene Forschung an Text-zu-Bild-Diffusionsmodellen. Unser Code ist verfügbar unter https://github.com/zlab-princeton/i1.

English

Diffusion models have consistently driven progress in text-to-image generation. However, it is challenging to attribute recent progress to specific modeling and data choices: state-of-the-art open-weight models provide limited ablations, and do not disclose their training data and full training details. The research community needs fully open (weights, data, and code) models as a foundation for further research; yet existing fully open models still fall significantly short of leading models in performance. In this project, we conduct a systematic investigation of the modeling and data design choices in text-to-image diffusion training and inference with 300+ controlled experiments totaling 700K+ TPU v6e hours. Our experiments highlight several empirical findings (e.g., equal weighting is a strong default for mixing curated datasets) and simple design decisions (e.g., larger text encoder adapters improve performance with minimal added parameters) for training strong models. Guided by these insights, we train i1, a 3B-parameter text-to-image diffusion model using only publicly available datasets. i1 is competitive with leading models on five representative benchmarks (GenEval, DPG, PRISM, CVTG-2K, and LongText), and outperforms the best existing fully open model by 29.5 absolute percentage points on average. We provide the i1 checkpoints, training and inference code, and the data processing pipeline. Together, our findings and the i1 recipe establish a practical foundation for future open research in text-to-image diffusion models. Our code is available at https://github.com/zlab-princeton/i1.