papers.description
Les modèles de texte-à-image (T2I) les plus avancés nécessitent des coûts d'entraînement considérables (par exemple, des millions d'heures de GPU), ce qui entrave sérieusement l'innovation fondamentale pour la communauté AIGC tout en augmentant les émissions de CO2. Cet article présente PIXART-alpha, un modèle de diffusion T2I basé sur des Transformers dont la qualité de génération d'images rivalise avec les générateurs d'images de pointe (par exemple, Imagen, SDXL, et même Midjourney), atteignant des standards proches de l'application commerciale. De plus, il prend en charge la synthèse d'images haute résolution jusqu'à 1024px avec un faible coût d'entraînement, comme illustré dans les Figures 1 et 2. Pour atteindre cet objectif, trois conceptions clés sont proposées : (1) Décomposition de la stratégie d'entraînement : Nous concevons trois étapes d'entraînement distinctes qui optimisent séparément la dépendance des pixels, l'alignement texte-image et la qualité esthétique de l'image ; (2) Transformer T2I efficace : Nous intégrons des modules d'attention croisée dans le Transformer de Diffusion (DiT) pour injecter des conditions textuelles et rationaliser la branche intensive en calculs conditionnée par classe ; (3) Données hautement informatives : Nous mettons l'accent sur l'importance de la densité conceptuelle dans les paires texte-image et exploitons un grand modèle Vision-Langage pour auto-étiqueter des pseudo-légendes denses afin d'aider l'apprentissage de l'alignement texte-image. En conséquence, la vitesse d'entraînement de PIXART-alpha dépasse nettement celle des modèles T2I à grande échelle existants, par exemple, PIXART-alpha ne prend que 10,8 % du temps d'entraînement de Stable Diffusion v1.5 (675 contre 6 250 jours de GPU A100), économisant près de 300 000 $ (26 000 $ contre 320 000 $) et réduisant de 90 % les émissions de CO2. De plus, par rapport à un modèle SOTA plus volumineux, RAPHAEL, notre coût d'entraînement n'est que de 1 %. Des expériences approfondies démontrent que PIXART-alpha excelle en termes de qualité d'image, d'artistique et de contrôle sémantique. Nous espérons que PIXART-alpha fournira de nouvelles perspectives à la communauté AIGC et aux startups pour accélérer la construction de leurs propres modèles génératifs de haute qualité mais à faible coût, à partir de zéro.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans les tâches de génération de texte ouvert. Cependant, la nature intrinsèquement ouverte de ces tâches implique qu'il y a toujours une marge d'amélioration dans la qualité des réponses du modèle. Pour relever ce défi, diverses approches ont été proposées pour améliorer les performances des LLMs. Une attention croissante a été portée sur la capacité des LLMs à s'auto-améliorer en termes de qualité de réponse, réduisant ainsi la dépendance à des efforts d'annotation humaine intensifs pour collecter des données d'entraînement diversifiées et de haute qualité. Récemment, les méthodes basées sur l'incitation (prompting) ont été largement explorées parmi les méthodes d'auto-amélioration en raison de leur efficacité, efficience et commodité. Cependant, ces méthodes nécessitent généralement des rubriques explicitement et minutieusement rédigées comme entrées pour les LLMs. Il est coûteux et difficile de dériver manuellement et de fournir toutes les rubriques nécessaires pour un objectif complexe d'amélioration dans le monde réel (par exemple, être plus utile et moins nuisible). À cette fin, nous proposons un cadre d'Auto-Amélioration Implicite (PIT) qui apprend implicitement l'objectif d'amélioration à partir de données de préférence humaine. PIT ne nécessite que des données de préférence utilisées pour entraîner des modèles de récompense sans efforts humains supplémentaires. Plus précisément, nous reformulons l'objectif d'entraînement de l'apprentissage par renforcement à partir de retours humains (RLHF) — au lieu de maximiser la qualité de la réponse pour une entrée donnée, nous maximisons l'écart de qualité de la réponse conditionnée à une réponse de référence. De cette manière, PIT est implicitement entraîné avec l'objectif d'amélioration de mieux s'aligner sur les préférences humaines. Les expériences sur deux ensembles de données réels et un ensemble de données synthétiques montrent que notre méthode surpasse significativement les méthodes basées sur l'incitation.
Les modèles de diffusion générative offrent des préconisations solides pour la génération de texte à image et servent ainsi de fondement pour des tâches de génération conditionnelle telles que l'édition d'images, la restauration et la super-résolution. Cependant, une limitation majeure des modèles de diffusion est leur temps d'échantillonnage lent. Pour relever ce défi, nous présentons une nouvelle méthode de distillation conditionnelle conçue pour compléter les préconisations de diffusion à l'aide de conditions d'image, permettant un échantillonnage conditionnel avec très peu d'étapes. Nous distillons directement l'apprentissage préalable non conditionnel en une seule étape par apprentissage conjoint, simplifiant ainsi largement les procédures précédentes en deux étapes qui impliquaient à la fois la distillation et l'ajustement conditionnel séparément. En outre, notre méthode permet un nouveau mécanisme de distillation efficace en paramètres qui distille chaque tâche avec seulement un petit nombre de paramètres supplémentaires combinés à l'architecture non conditionnelle partagée et figée. Les expériences menées sur plusieurs tâches, notamment la super-résolution, l'édition d'images et la génération d'images à partir de la profondeur, démontrent que notre méthode surpasse les techniques de distillation existantes pour le même temps d'échantillonnage. Notamment, notre méthode est la première stratégie de distillation capable de rivaliser avec les performances des modèles de diffusion conditionnels ajustés, bien plus lents.