Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De meest geavanceerde tekst-naar-beeld (T2I) modellen vereisen aanzienlijke trainingskosten (bijv. miljoenen GPU-uren), wat de fundamentele innovatie voor de AIGC-gemeenschap ernstig belemmert en tegelijkertijd de CO2-uitstoot verhoogt. Dit artikel introduceert PIXART-alpha, een Transformer-gebaseerd T2I diffusiemodel waarvan de beeldgeneratiekwaliteit concurreert met state-of-the-art beeldgeneratoren (bijv. Imagen, SDXL, en zelfs Midjourney), en daarmee bijna commerciële toepassingsstandaarden bereikt. Bovendien ondersteunt het hoogwaardige beeld synthese tot 1024px resolutie tegen lage trainingskosten, zoals getoond in Figuur 1 en 2. Om dit doel te bereiken, worden drie kernontwerpen voorgesteld: (1) Trainingsstrategie-decompositie: We ontwerpen drie afzonderlijke trainingsstappen die respectievelijk pixelafhankelijkheid, tekst-beelduitlijning en beeldesthetische kwaliteit optimaliseren; (2) Efficiënte T2I Transformer: We integreren cross-attention modules in de Diffusion Transformer (DiT) om tekstcondities in te voeren en de rekenintensieve klasse-conditietak te stroomlijnen; (3) Hoog-informatieve data: We benadrukken het belang van conceptdichtheid in tekst-beeldparen en maken gebruik van een groot Vision-Language model om automatisch dichte pseudo-bijschriften te labelen om het leren van tekst-beelduitlijning te ondersteunen. Als resultaat overtreft de trainingssnelheid van PIXART-alpha aanzienlijk die van bestaande grootschalige T2I modellen, bijvoorbeeld PIXART-alpha heeft slechts 10,8% van de trainingsduur van Stable Diffusion v1.5 nodig (675 vs. 6,250 A100 GPU-dagen), bespaart bijna \300.000 (26.000 vs. \320.000) en reduceert 90% van de CO2-uitstoot. Bovendien is onze trainingskost, vergeleken met een groter SOTA-model, RAPHAEL, slechts 1%. Uitgebreide experimenten tonen aan dat PIXART-alpha uitblinkt in beeldkwaliteit, artistieke waarde en semantische controle. We hopen dat PIXART-alpha nieuwe inzichten zal bieden aan de AIGC-gemeenschap en startups om het bouwen van hun eigen hoogwaardige maar kosteneffectieve generatieve modellen vanaf nul te versnellen.
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in open-eindetekstgeneratietaken. De inherent open-eindige aard van deze taken impliceert echter dat er altijd ruimte is voor verbetering in de kwaliteit van modelresponsen. Om deze uitdaging aan te pakken, zijn verschillende benaderingen voorgesteld om de prestaties van LLMs te verbeteren. Er is een groeiende focus geweest op het mogelijk maken van LLMs om zelf hun responskwaliteit te verbeteren, waardoor de afhankelijkheid van uitgebreide menselijke annotatie-inspanningen voor het verzamelen van diverse en hoogwaardige trainingsdata wordt verminderd. Recentelijk zijn prompt-gebaseerde methoden veelvuldig onderzocht onder zelfverbeteringsmethoden vanwege hun effectiviteit, efficiëntie en gemak. Deze methoden vereisen echter meestal expliciet en grondig geschreven rubrieken als invoer voor LLMs. Het is kostbaar en uitdagend om handmatig alle benodigde rubrieken af te leiden en te verstrekken met een complex verbeteringsdoel in de echte wereld (bijvoorbeeld behulpzamer en minder schadelijk zijn). Daarom stellen we een Impliciet Zelf-VerbeteringsFramework (PIT) voor dat impliciet het verbeteringsdoel leert uit menselijke voorkeursdata. PIT vereist alleen voorkeursdata die worden gebruikt om beloningsmodellen te trainen, zonder extra menselijke inspanningen. Specifiek herformuleren we het trainingsdoel van reinforcement learning from human feedback (RLHF) — in plaats van de responskwaliteit voor een gegeven invoer te maximaliseren, maximaliseren we het kwaliteitsverschil van de respons geconditioneerd op een referentierespons. Op deze manier wordt PIT impliciet getraind met het verbeteringsdoel om beter aan te sluiten bij menselijke voorkeuren. Experimenten op twee real-world datasets en één synthetische dataset tonen aan dat onze methode significant beter presteert dan prompt-gebaseerde methoden.
Generatieve diffusiemodellen bieden sterke a priori's voor tekst-naar-beeldgeneratie en dienen daarmee als basis voor conditionele generatietaken zoals beeldbewerking, restauratie en superresolutie. Een belangrijke beperking van diffusiemodellen is echter hun trage samplingtijd. Om deze uitdaging aan te pakken, presenteren we een nieuwe conditionele distillatiemethode die is ontworpen om de diffusie-a priori's aan te vullen met behulp van beeldcondities, waardoor conditionele sampling met zeer weinig stappen mogelijk wordt. We distilleren de onvoorwaardelijke voorafgaande training direct in één fase via gezamenlijk leren, wat de eerdere tweefasenprocedures die zowel distillatie als conditionele finetuning afzonderlijk omvatten, aanzienlijk vereenvoudigt. Bovendien maakt onze methode een nieuwe parameter-efficiënte distillatiemechanisme mogelijk dat elke taak distilleert met slechts een klein aantal aanvullende parameters in combinatie met de gedeelde bevroren onvoorwaardelijke backbone. Experimenten over meerdere taken, waaronder superresolutie, beeldbewerking en diepte-naar-beeldgeneratie, tonen aan dat onze methode bestaande distillatietechnieken overtreft voor dezelfde samplingtijd. Opmerkelijk is dat onze methode de eerste distillatiestrategie is die de prestaties kan evenaren van de veel langzamere fijn afgestemde conditionele diffusiemodellen.