i1 : Une recette simple et entièrement ouverte pour des modèles texte-image puissants

Résumé

Les modèles de diffusion ont constamment stimulé les progrès en génération texte-image. Cependant, il est difficile d'attribuer les récents progrès à des choix spécifiques de modélisation et de données : les modèles à poids ouverts de pointe fournissent des ablations limitées et ne divulguent ni leurs données d'entraînement ni les détails complets de leur entraînement. La communauté de recherche a besoin de modèles entièrement ouverts (poids, données et code) comme fondement pour des recherches futures ; pourtant, les modèles entièrement ouverts existants restent nettement inférieurs aux modèles leaders en termes de performances. Dans ce projet, nous menons une investigation systématique des choix de conception de modélisation et de données dans l'entraînement et l'inférence de diffusion texte-image, avec plus de 300 expériences contrôlées totalisant plus de 700 000 heures TPU v6e. Nos expériences mettent en lumière plusieurs résultats empiriques (par exemple, la pondération égale est un bon défaut pour mélanger des ensembles de données curatés) et des décisions de conception simples (par exemple, des adaptateurs d'encodeur de texte plus grands améliorent les performances avec un minimum de paramètres ajoutés) pour entraîner des modèles performants. Guidés par ces observations, nous entraînons i1, un modèle de diffusion texte-image de 3 milliards de paramètres utilisant uniquement des ensembles de données accessibles publiquement. i1 est compétitif avec les principaux modèles sur cinq bancs d'essai représentatifs (GenEval, DPG, PRISM, CVTG-2K et LongText), et surpasse le meilleur modèle entièrement ouvert existant de 29,5 points de pourcentage absolus en moyenne. Nous fournissons les points de contrôle d'i1, le code d'entraînement et d'inférence, ainsi que le pipeline de traitement des données. Ensemble, nos résultats et la recette d'i1 établissent une base pratique pour les futures recherches ouvertes sur les modèles de diffusion texte-image. Notre code est disponible à l'adresse https://github.com/zlab-princeton/i1.

English

Diffusion models have consistently driven progress in text-to-image generation. However, it is challenging to attribute recent progress to specific modeling and data choices: state-of-the-art open-weight models provide limited ablations, and do not disclose their training data and full training details. The research community needs fully open (weights, data, and code) models as a foundation for further research; yet existing fully open models still fall significantly short of leading models in performance. In this project, we conduct a systematic investigation of the modeling and data design choices in text-to-image diffusion training and inference with 300+ controlled experiments totaling 700K+ TPU v6e hours. Our experiments highlight several empirical findings (e.g., equal weighting is a strong default for mixing curated datasets) and simple design decisions (e.g., larger text encoder adapters improve performance with minimal added parameters) for training strong models. Guided by these insights, we train i1, a 3B-parameter text-to-image diffusion model using only publicly available datasets. i1 is competitive with leading models on five representative benchmarks (GenEval, DPG, PRISM, CVTG-2K, and LongText), and outperforms the best existing fully open model by 29.5 absolute percentage points on average. We provide the i1 checkpoints, training and inference code, and the data processing pipeline. Together, our findings and the i1 recipe establish a practical foundation for future open research in text-to-image diffusion models. Our code is available at https://github.com/zlab-princeton/i1.