papers.description
Die fortschrittlichsten Text-zu-Bild (T2I)-Modelle erfordern erhebliche Trainingskosten (z. B. Millionen von GPU-Stunden), was die grundlegende Innovation in der AIGC-Community ernsthaft behindert und gleichzeitig die CO2-Emissionen erhöht. Dieses Paper stellt PIXART-alpha vor, ein Transformer-basiertes T2I-Diffusionsmodell, dessen Bildgenerierungsqualität mit den modernsten Bildgeneratoren (z. B. Imagen, SDXL und sogar Midjourney) konkurrieren kann und nahezu kommerzielle Anwendungsstandards erreicht. Darüber hinaus unterstützt es die Synthese hochauflösender Bilder bis zu 1024px Auflösung bei geringen Trainingskosten, wie in Abbildung 1 und 2 gezeigt wird. Um dieses Ziel zu erreichen, werden drei Kernentwürfe vorgeschlagen: (1) Zerlegung der Trainingsstrategie: Wir entwickeln drei verschiedene Trainingsschritte, die die Pixelabhängigkeit, die Text-Bild-Ausrichtung und die ästhetische Bildqualität separat optimieren; (2) Effizienter T2I-Transformer: Wir integrieren Cross-Attention-Module in den Diffusion Transformer (DiT), um Textbedingungen einzubringen und den rechenintensiven Klassenbedingungszweig zu optimieren; (3) Hochinformative Daten: Wir betonen die Bedeutung der Konzeptdichte in Text-Bild-Paaren und nutzen ein großes Vision-Language-Modell, um dichte Pseudobeschriftungen automatisch zu labeln, um das Lernen der Text-Bild-Ausrichtung zu unterstützen. Infolgedessen übertrifft die Trainingsgeschwindigkeit von PIXART-alpha deutlich die bestehender großformatiger T2I-Modelle, z. B. benötigt PIXART-alpha nur 10,8 % der Trainingszeit von Stable Diffusion v1.5 (675 vs. 6.250 A100 GPU-Tage), spart fast 300.000 US-Dollar (26.000 vs. 320.000 US-Dollar) und reduziert die CO2-Emissionen um 90 %. Darüber hinaus betragen unsere Trainingskosten im Vergleich zu einem größeren SOTA-Modell, RAPHAEL, lediglich 1 %. Umfangreiche Experimente zeigen, dass PIXART-alpha in Bildqualität, Kreativität und semantischer Steuerung überragt. Wir hoffen, dass PIXART-alpha der AIGC-Community und Startups neue Einblicke bietet, um den Aufbau ihrer eigenen hochwertigen, aber kostengünstigen generativen Modelle von Grund auf zu beschleunigen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei offenen Textgenerierungsaufgaben gezeigt. Die inhärente Offenheit dieser Aufgaben impliziert jedoch, dass es immer Raum für Verbesserungen in der Qualität der Modellantworten gibt. Um diese Herausforderung zu bewältigen, wurden verschiedene Ansätze vorgeschlagen, um die Leistung von LLMs zu steigern. Es gibt zunehmend Fokus darauf, LLMs zu ermöglichen, ihre Antwortqualität selbst zu verbessern, wodurch die Abhängigkeit von umfangreichen menschlichen Annotationsbemühungen zur Sammlung vielfältiger und hochwertiger Trainingsdaten verringert wird. Kürzlich wurden Prompting-basierte Methoden unter den Selbstverbesserungsmethoden aufgrund ihrer Effektivität, Effizienz und Bequemlichkeit weitgehend erforscht. Diese Methoden erfordern jedoch in der Regel explizit und gründlich formulierte Bewertungskriterien als Eingaben für die LLMs. Es ist kostspielig und herausfordernd, manuell alle notwendigen Bewertungskriterien für ein komplexes Verbesserungsziel in der realen Welt (z. B. hilfreicher und weniger schädlich zu sein) abzuleiten und bereitzustellen. Zu diesem Zweck schlagen wir ein ImPlicit Self-ImprovemenT (PIT)-Framework vor, das das Verbesserungsziel implizit aus menschlichen Präferenzdaten lernt. PIT benötigt lediglich Präferenzdaten, die zur Trainierung von Belohnungsmodellen verwendet werden, ohne zusätzlichen menschlichen Aufwand. Konkret reformulieren wir das Trainingsziel des Reinforcement Learning from Human Feedback (RLHF) – anstatt die Antwortqualität für eine gegebene Eingabe zu maximieren, maximieren wir die Qualitätslücke der Antwort, die auf eine Referenzantwort konditioniert ist. Auf diese Weise wird PIT implizit mit dem Verbesserungsziel trainiert, besser mit menschlichen Präferenzen übereinzustimmen. Experimente mit zwei realen Datensätzen und einem synthetischen Datensatz zeigen, dass unsere Methode Prompting-basierte Methoden deutlich übertrifft.
Generative Diffusionsmodelle bieten starke A-priori-Informationen für die Text-zu-Bild-Generierung und dienen somit als Grundlage für bedingte Generierungsaufgaben wie Bildbearbeitung, Restaurierung und Super-Resolution. Eine wesentliche Einschränkung von Diffusionsmodellen ist jedoch ihre langsame Abtastzeit. Um diese Herausforderung zu bewältigen, präsentieren wir eine neuartige Methode zur bedingten Destillation, die darauf abzielt, die Diffusions-A-priori-Informationen mithilfe von Bildbedingungen zu ergänzen und so eine bedingte Abtastung mit sehr wenigen Schritten zu ermöglichen. Wir destillieren das unbedingte Vortraining direkt in einer einzigen Stufe durch gemeinsames Lernen, wodurch die bisherigen zweistufigen Verfahren, die sowohl Destillation als auch bedingte Feinabstimmung separat umfassen, erheblich vereinfacht werden. Darüber hinaus ermöglicht unsere Methode einen neuen parameter-effizienten Destillationsmechanismus, der jede Aufgabe mit nur einer geringen Anzahl zusätzlicher Parameter in Kombination mit dem gemeinsam genutzten, eingefrorenen unbedingten Backbone destilliert. Experimente über mehrere Aufgaben hinweg, einschließlich Super-Resolution, Bildbearbeitung und Tiefen-zu-Bild-Generierung, zeigen, dass unsere Methode bestehende Destillationstechniken bei gleicher Abtastzeit übertrifft. Bemerkenswerterweise ist unsere Methode die erste Destillationsstrategie, die die Leistung der deutlich langsameren feinabgestimmten bedingten Diffusionsmodelle erreichen kann.