Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Nach dem jüngsten Aufschwung von Large Language Models (LLMs) wurden mehrere Versuche unternommen, sie auf den visuellen Bereich auszudehnen. Von einem visuellen Assistenten, der uns durch unbekannte Umgebungen führen könnte, bis hin zu generativen Modellen, die Bilder nur anhand einer hochrangigen Textbeschreibung erzeugen, werden die Anwendungen von Vision-Language Models (VLMs) unsere Beziehung zur Technologie erheblich beeinflussen. Es gibt jedoch viele Herausforderungen, die angegangen werden müssen, um die Zuverlässigkeit dieser Modelle zu verbessern. Während Sprache diskret ist, entwickelt sich die Vision in einem viel höherdimensionalen Raum, in dem Konzepte nicht immer leicht diskretisiert werden können. Um die Mechanik hinter der Zuordnung von Vision zu Sprache besser zu verstehen, präsentieren wir diese Einführung in VLMs, die hoffentlich jedem helfen wird, der in das Feld eintreten möchte. Zunächst stellen wir vor, was VLMs sind, wie sie funktionieren und wie man sie trainiert. Anschließend präsentieren und diskutieren wir Ansätze zur Bewertung von VLMs. Obwohl diese Arbeit sich hauptsächlich auf die Zuordnung von Bildern zu Sprache konzentriert, diskutieren wir auch die Erweiterung von VLMs auf Videos.
Die schlechte Leistung von Transformatoren bei arithmetischen Aufgaben scheint zum großen Teil daher zu rühren, dass sie nicht in der Lage sind, die genaue Position jedes einzelnen Digits innerhalb eines großen Zahlenbereichs nachzuverfolgen. Wir beheben dieses Problem, indem wir jedem Digit eine Einbettung hinzufügen, die seine Position relativ zum Beginn der Zahl codiert. Neben dem Schub, den diese Einbettungen allein bieten, zeigen wir, dass diese Korrektur architektonische Modifikationen wie Eingabeinjektion und rekurrente Schichten ermöglicht, um die Leistung noch weiter zu verbessern. Mit gelösten Positionen können wir die logische Extrapolationsfähigkeit von Transformatoren untersuchen. Können sie arithmetische Probleme lösen, die größer und komplexer sind als die in ihren Trainingsdaten? Wir stellen fest, dass wir durch das Training mit nur 20-stelligen Zahlen mit einer einzigen GPU für einen Tag eine Spitzenleistung erreichen können, indem wir bis zu 99% Genauigkeit bei 100-stelligen Additionsaufgaben erzielen. Schließlich zeigen wir, dass diese Gewinne in der Numerik auch Verbesserungen bei anderen mehrstufigen Denkaufgaben wie Sortieren und Multiplikation freisetzen.
Große multimodale Modelle (LMMs) wie LLaVA haben eine starke Leistung bei visuell-linguistischer Schlussfolgerung gezeigt. Diese Modelle betten zunächst Bilder in eine feste Anzahl von visuellen Tokens ein und geben sie dann an ein großes Sprachmodell (LLM) weiter. Allerdings führt dieses Design bei dichten visuellen Szenarien wie hochauflösenden Bildern und Videos zu einer übermäßigen Anzahl von Tokens, was zu großer Ineffizienz führt. Obwohl Methoden zum Beschneiden/Verschmelzen von Tokens existieren, liefern sie eine einzige Ausgabelänge für jedes Bild und bieten keine Flexibilität beim Abwägen von Informationsdichte gegen Effizienz. Inspiriert vom Konzept der Matrjoschka-Puppen schlagen wir M3 vor: Matrjoschka-multimodale Modelle, die lernen, visuelle Inhalte als verschachtelte Sätze von visuellen Tokens darzustellen, die Informationen über mehrere grob-zu-fein Granularitäten hinweg erfassen. Unser Ansatz bietet mehrere einzigartige Vorteile für LMMs: (1) Man kann die visuelle Granularität pro Testinstanz während der Inferenz explizit steuern, z. B. die Anzahl der verwendeten Tokens zur Darstellung eines Bildes basierend auf der erwarteten Komplexität oder Einfachheit des Inhalts anpassen; (2) M3 bietet ein Rahmenwerk zur Analyse der für vorhandene Datensätze erforderlichen Granularität, wobei wir feststellen, dass COCO-ähnliche Benchmarks nur etwa ~9 visuelle Tokens benötigen, um eine Genauigkeit zu erzielen, die der Verwendung aller 576 Tokens ähnlich ist; (3) Unser Ansatz bietet eine Grundlage, um den besten Kompromiss zwischen Leistung und visueller Token-Länge auf der Stichprobenebene zu untersuchen, wobei unsere Untersuchung zeigt, dass eine große Kluft zwischen der Orakel-Obergrenze und den aktuellen festen Skalendarstellungen besteht.
In diesem technischen Bericht präsentieren wir Zamba, ein neuartiges 7B SSM-Transformer-Hybridmodell, das eine wettbewerbsfähige Leistung gegen führende Open-Weight-Modelle bei vergleichbarer Skalierung erzielt. Zamba wird auf 1T Tokens aus frei verfügbaren Datensätzen trainiert und ist das beste Nicht-Transformer-Modell in diesem Umfang. Zamba führt eine einzigartige Architektur ein, die einen Mamba-Backbone mit einem einzigen gemeinsamen Aufmerksamkeitsmodul kombiniert und somit die Vorteile der Aufmerksamkeit bei minimalen Parameterkosten nutzt. Aufgrund seiner Architektur ist Zamba bei der Inferenz signifikant schneller als vergleichbare Transformer-Modelle und erfordert wesentlich weniger Speicherplatz für die Generierung langer Sequenzen. Zamba wird in zwei Phasen vorab trainiert: Die erste Phase basiert auf vorhandenen Webdatensätzen, während die zweite Phase darin besteht, das Modell über hochwertige Instruct- und synthetische Datensätze zu annealen und durch ein schnelles Absinken der Lernrate gekennzeichnet ist. Wir stellen die Gewichte und alle Checkpoints für Zamba als Open-Source zur Verfügung, sowohl für Phase 1 als auch für die Annealing-Phasen.
Decoder-only Large Language Model (LLM)-basierte Einbettungsmodelle beginnen, BERT- oder T5-basierte Einbettungsmodelle in allgemeinen Texteinbettungsaufgaben, einschließlich dichter Vektor-basierter Rückgewinnung, zu übertreffen. In dieser Arbeit stellen wir das NV-Embed-Modell mit einer Vielzahl von architektonischen Designs und Trainingsverfahren vor, um die Leistung des LLM als vielseitiges Einbettungsmodell signifikant zu verbessern, während wir seine Einfachheit und Reproduzierbarkeit beibehalten. Für die Modellarchitektur schlagen wir eine latente Aufmerksamkeitsschicht vor, um gepoolte Einbettungen zu erhalten, die im Vergleich zu Mittelwert-Pooling oder der Verwendung der letzten <EOS>-Token-Einbettung aus LLMs die Rückgewinnungs- und Genauigkeit der nachgelagerten Aufgaben kontinuierlich verbessert. Um die Repräsentationslernen zu verbessern, entfernen wir die kausale Aufmerksamkeitsmaske von LLMs während des kontrastiven Trainings. Für das Modelltraining führen wir eine zweistufige kontrastive Anweisungsabstimmungsmethode ein. Zunächst wird kontrastives Training mit Anweisungen auf Rückgewinnungsdatensätzen durchgeführt, wobei In-Batch-Negative und kuratierte harte negative Beispiele verwendet werden. In Stufe 2 werden verschiedene Nicht-Rückgewinnungsdatensätze in die Anweisungsabstimmung integriert, was nicht nur die Genauigkeit von Nicht-Rückgewinnungsaufgaben verbessert, sondern auch die Rückgewinnungsleistung steigert. Durch die Kombination dieser Techniken hat unser NV-Embed-Modell unter Verwendung nur öffentlich verfügbarer Daten einen Rekordwert von 69,32 erzielt und belegt damit den ersten Platz im Massive Text Embedding Benchmark (MTEB) (Stand 24. Mai 2024) mit 56 Aufgaben, einschließlich Rückgewinnung, Neusortierung, Klassifizierung, Clustering und semantischer Textähnlichkeitsaufgaben. Beachtenswert ist, dass unser Modell auch den höchsten Wert von 59,36 bei 15 Rückgewinnungsaufgaben im MTEB-Benchmark (auch bekannt als BEIR) erreicht. Wir werden das Modell unter folgendem Link als Open Source veröffentlichen: https://huggingface.co/nvidia/NV-Embed-v1.
Die bemerkenswerten generativen Fähigkeiten von Diffusionsmodellen haben umfangreiche Forschungen sowohl im Bereich der Bild- als auch der Videobearbeitung angeregt. Im Vergleich zur Videobearbeitung, die zusätzliche Herausforderungen in der Zeitdimension bewältigen muss, hat die Bildbearbeitung die Entwicklung vielfältigerer, hochwertiger Ansätze und leistungsfähigerer Software wie Photoshop erlebt. Angesichts dieser Kluft stellen wir eine neuartige und generische Lösung vor, die die Anwendbarkeit von Bildbearbeitungswerkzeugen auf Videos erweitert, indem Bearbeitungen von einem einzelnen Frame auf das gesamte Video mithilfe eines vorab trainierten Bild-zu-Video-Modells propagiert werden. Unsere Methode, genannt I2VEdit, erhält adaptiv die visuelle und Bewegungsintegrität des Ausgangsvideos abhängig vom Umfang der Bearbeitungen und bewältigt effektiv globale Bearbeitungen, lokale Bearbeitungen und moderate Formänderungen, die bestehende Methoden nicht vollständig erreichen können. Im Kern unserer Methode stehen zwei Hauptprozesse: Grobe Bewegungsextraktion zur Ausrichtung grundlegender Bewegungsmuster mit dem Originalvideo und Erscheinungsfeinabstimmung für präzise Anpassungen mithilfe feinkörniger Aufmerksamkeitsanpassung. Wir integrieren auch eine Skip-Intervall-Strategie, um Qualitätsverschlechterungen durch autoregressive Generierung über mehrere Videoclips hinweg zu mildern. Experimentelle Ergebnisse zeigen die überragende Leistungsfähigkeit unseres Frameworks in der feinkörnigen Videobearbeitung und belegen seine Fähigkeit zur Erzeugung hochwertiger, zeitlich konsistenter Ausgaben.
Wir präsentieren einen neuartigen Ansatz zur Generierung hochwertiger, räumlich-zeitlich kohärenter menschlicher Videos aus einem einzigen Bild unter beliebigen Blickwinkeln. Unser Framework kombiniert die Stärken von U-Netzen für präzise Bedingungsinjektion und Diffusions-Transformern zur Erfassung globaler Korrelationen über Blickwinkel und Zeit hinweg. Der Kern ist eine gestufte 4D-Transformer-Architektur, die die Aufmerksamkeit über Ansichten, Zeit und räumliche Dimensionen faktorisiert und eine effiziente Modellierung des 4D-Raums ermöglicht. Eine präzise Bedingungsinjektion wird durch die Einspeisung von menschlicher Identität, Kameraparametern und zeitlichen Signalen in die jeweiligen Transformer erreicht. Zur Schulung dieses Modells kuratieren wir einen multidimensionalen Datensatz, der Bilder, Videos, Mehrblickdaten und 3D/4D-Scans umfasst, zusammen mit einer multidimensionalen Schulungsstrategie. Unser Ansatz überwindet die Einschränkungen früherer Methoden, die auf GAN oder UNet-basierten Diffusionsmodellen beruhen, die mit komplexen Bewegungen und Blickwinkeländerungen zu kämpfen haben. Durch umfangreiche Experimente zeigen wir die Fähigkeit unserer Methode, realistische, kohärente und frei betrachtbare menschliche Videos zu synthetisieren und ebnet so den Weg für fortschrittliche Multimedia-Anwendungen in Bereichen wie Virtual Reality und Animation. Unsere Projektwebsite lautet https://human4dit.github.io.
Low-Rank-Adapter (LoRA) und deren Varianten sind beliebte parameter-effiziente Feinabstimmungstechniken (PEFT), die die Leistung der vollständigen Modellfeinabstimmung genau nachbilden, während sie nur eine geringe Anzahl zusätzlicher Parameter erfordern. Diese zusätzlichen LoRA-Parameter sind spezifisch für das Basismodell, an das sie angepasst werden. Wenn das Basismodell veraltet ist und durch ein neues ersetzt werden muss, müssen alle zugehörigen LoRA-Module erneut trainiert werden. Ein solches erneutes Training erfordert Zugriff auf die Daten, die zur Schulung des LoRA für das ursprüngliche Basismodell verwendet wurden. Dies ist insbesondere problematisch für kommerzielle Cloud-Anwendungen, bei denen die LoRA-Module und die Basismodelle von Dienstanbietern gehostet werden, die möglicherweise nicht berechtigt sind, proprietäre Kundenaufgabendaten zu hosten. Um diese Herausforderung anzugehen, schlagen wir Trans-LoRA vor - eine neuartige Methode für den verlustfreien, nahezu datenfreien Transfer von LoRAs zwischen Basismodellen. Unser Ansatz basiert auf synthetischen Daten zur Übertragung von LoRA-Modulen. Unter Verwendung großer Sprachmodelle entwerfen wir einen synthetischen Datengenerator, um den Prozess der Datenerzeugung des beobachteten Teildatensatzes nachzubilden. Das Training auf dem resultierenden synthetischen Datensatz überträgt LoRA-Module auf neue Modelle. Wir zeigen die Wirksamkeit unseres Ansatzes anhand der LLama- und Gemma-Modellfamilien. Unser Ansatz erreicht einen verlustfreien (meist verbesserten) Transfer von LoRA zwischen Modellen innerhalb und zwischen verschiedenen Basismodellfamilien und sogar zwischen verschiedenen PEFT-Methoden für eine Vielzahl von Aufgaben.
Dieses Paper stellt StreamV2V vor, ein Diffusionsmodell, das Echtzeit-Streaming-Video-zu-Video (V2V) Übersetzungen mit Benutzeranfragen ermöglicht. Im Gegensatz zu früheren V2V-Methoden, die Chargen zur Verarbeitung begrenzter Frames verwenden, entscheiden wir uns dafür, Frames kontinuierlich zu verarbeiten, um eine unbegrenzte Anzahl von Frames zu unterstützen. Im Zentrum von StreamV2V liegt ein rückblickendes Prinzip, das die Gegenwart mit der Vergangenheit verknüpft. Dies wird durch die Aufrechterhaltung einer Merkmalsbank realisiert, die Informationen aus vergangenen Frames archiviert. Für eingehende Frames erweitert StreamV2V die Selbst-Aufmerksamkeit, um bankierte Schlüssel und Werte einzubeziehen und ähnliche vergangene Merkmale direkt in die Ausgabe zu integrieren. Die Merkmalsbank wird kontinuierlich aktualisiert, indem gespeicherte und neue Merkmale fusioniert werden, was sie kompakt, aber informativ macht. StreamV2V zeichnet sich durch seine Anpassungsfähigkeit und Effizienz aus, indem es nahtlos mit Bild-Diffusionsmodellen ohne Feinabstimmung integriert werden kann. Es kann mit einer A100 GPU 20 FPS erreichen und ist damit 15x, 46x, 108x und 158x schneller als FlowVid, CoDeF, Rerender und TokenFlow, jeweils. Quantitative Metriken und Benutzerstudien bestätigen die außergewöhnliche Fähigkeit von StreamV2V, die zeitliche Konsistenz aufrechtzuerhalten.
Forschung zur Videogenerierung hat in letzter Zeit enorme Fortschritte gemacht, die es ermöglichen, hochwertige Videos aus Textvorgaben oder Bildern zu generieren. Die Hinzufügung von Kontrolle zum Videogenerierungsprozess ist ein wichtiges Ziel für die Zukunft, und aktuelle Ansätze, die Videogenerierungsmodelle auf Kameratrajektorien konditionieren, machen Fortschritte in diese Richtung. Dennoch bleibt es herausfordernd, ein Video derselben Szene aus mehreren verschiedenen Kameratrajektorien zu generieren. Lösungen für dieses Multi-Video-Generierungsproblem könnten die groß angelegte 3D-Szenengenerierung mit editierbaren Kameratrajektorien ermöglichen, unter anderem. Wir stellen die kollaborative Videodiffusion (CVD) als einen wichtigen Schritt in diese Richtung vor. Das CVD-Framework umfasst ein neuartiges Cross-Video-Synchronisationsmodul, das die Konsistenz zwischen entsprechenden Frames desselben Videos fördert, die aus verschiedenen Kamerapositionen gerendert wurden, unter Verwendung eines epipolaren Aufmerksamkeitsmechanismus. Trainiert auf Basis eines hochmodernen Kamerasteuerungsmoduls für die Videogenerierung, generiert CVD mehrere Videos, die aus verschiedenen Kameratrajektorien gerendert wurden, mit deutlich besserer Konsistenz als Baselines, wie in umfangreichen Experimenten gezeigt. Projektpage: https://collaborativevideodiffusion.github.io/.
In letzter Zeit haben die Entstehung von Diffusionsmodellen neue Möglichkeiten für die Rekonstruktion aus einer Ansicht eröffnet. Alle bestehenden Methoden stellen das Zielobjekt jedoch als geschlossenes Mesh ohne strukturelle Informationen dar und vernachlässigen somit die teilbasierte Struktur, die für viele nachgelagerte Anwendungen der rekonstruierten Form entscheidend ist. Darüber hinaus leiden die generierten Meshes in der Regel unter starken Rauschen, unglatten Oberflächen und unscharfen Texturen, was es schwierig macht, zufriedenstellende Teilesegmente mithilfe von 3D-Segmentierungstechniken zu erhalten. In diesem Paper präsentieren wir Part123, ein neuartiges Framework für die teilbewusste 3D-Rekonstruktion aus einem einzigen Bild. Zunächst verwenden wir Diffusionsmodelle, um multiansichtskonsistente Bilder aus einem gegebenen Bild zu generieren, und nutzen dann das Segment Anything Model (SAM), das eine starke Verallgemeinerungsfähigkeit für beliebige Objekte aufweist, um multiansichtige Segmentierungsmasken zu generieren. Um 2D-teilbasierte Informationen effektiv in die 3D-Rekonstruktion zu integrieren und Inkonsistenzen zu bewältigen, führen wir kontrastives Lernen in ein neuronales Rendering-Framework ein, um einen teilbewussten Merkmalsraum basierend auf den multiansichtigen Segmentierungsmasken zu erlernen. Ein auf Clustering basierter Algorithmus wird ebenfalls entwickelt, um automatisch 3D-Teilsegmentierungsergebnisse aus den rekonstruierten Modellen abzuleiten. Experimente zeigen, dass unsere Methode 3D-Modelle mit hochwertigen segmentierten Teilen auf verschiedenen Objekten generieren kann. Im Vergleich zu bestehenden unstrukturierten Rekonstruktionsmethoden profitieren die teilbewussten 3D-Modelle unserer Methode von einigen wichtigen Anwendungen, einschließlich feature-erhaltender Rekonstruktion, primitiver Anpassung und 3D-Formbearbeitung.
Obwohl Diffusionsmodelle komplexe Verteilungen erlernen können, erfordert das Abtasten einen rechenaufwändigen iterativen Prozess. Bestehende Destillationsmethoden ermöglichen effizientes Abtasten, weisen jedoch bemerkenswerte Einschränkungen auf, wie Leistungsverschlechterung bei sehr wenigen Abtastschritten, Abhängigkeit vom Zugriff auf Trainingsdaten oder modussuchende Optimierung, die möglicherweise nicht die gesamte Verteilung erfasst. Wir schlagen EM-Destillation (EMD) vor, einen Maximum-Likelihood-basierten Ansatz, der ein Diffusionsmodell auf ein Ein-Schritt-Generatormodell destilliert, bei minimalen Verlusten an perzeptueller Qualität. Unser Ansatz wird durch die Brille der Erwartungs-Maximierungs-Methode (EM) abgeleitet, bei der die Generatorparameter unter Verwendung von Stichproben aus der gemeinsamen Verteilung der Diffusionslehrer-Priorität und der erschlossenen Generator-Latenzen aktualisiert werden. Wir entwickeln ein reparametrisiertes Abtastschema und eine Rauschunterdrückungstechnik, die zusammen den Destillationsprozess stabilisieren. Darüber hinaus enthüllen wir eine interessante Verbindung unserer Methode mit bestehenden Methoden, die die modussuchende KL minimieren. EMD übertrifft bestehende Ein-Schritt-generative Methoden in Bezug auf FID-Werte bei ImageNet-64 und ImageNet-128 und vergleicht sich günstig mit früheren Arbeiten zur Destillation von Text-zu-Bild-Diffusionsmodellen.
Video-generative Modelle erhalten besondere Aufmerksamkeit aufgrund ihrer Fähigkeit, realistische und einfallsreiche Frames zu generieren. Darüber hinaus wird beobachtet, dass diese Modelle auch eine starke 3D-Konsistenz aufweisen, was ihre Potenzial als Welt-Simulatoren erheblich verbessert. In dieser Arbeit präsentieren wir Vidu4D, ein neuartiges Rekonstruktionsmodell, das sich durch die präzise Rekonstruktion von 4D (d. h. sequenzielle 3D) Darstellungen aus einzelnen generierten Videos auszeichnet und dabei Herausforderungen im Zusammenhang mit Nicht-Rigidität und Frame-Verzerrung angeht. Diese Fähigkeit ist entscheidend für die Erstellung hochwertiger virtueller Inhalte, die sowohl räumliche als auch zeitliche Kohärenz bewahren. Im Kern von Vidu4D steht unsere vorgeschlagene Dynamische Gaußsche Surfels (DGS) Technik. DGS optimiert zeitlich variierende Verzerrungsfunktionen, um Gaußsche Surfels (Oberflächenelemente) von einem statischen Zustand in einen dynamisch verzerrten Zustand zu transformieren. Diese Transformation ermöglicht eine präzise Darstellung von Bewegung und Verformung im Laufe der Zeit. Um die strukturelle Integrität der oberflächenangepassten Gaußschen Surfels zu bewahren, entwerfen wir die geometrische Regularisierung im verzerrten Zustand basierend auf kontinuierlichen Verzerrungsfeldern zur Schätzung von Normalen. Darüber hinaus erlernen wir Verfeinerungen an Rotations- und Skalierungsparametern der Gaußschen Surfels, was das Texturflimmern während des Verzerrungsprozesses erheblich reduziert und die Erfassung feingliedriger Erscheinungsdetails verbessert. Vidu4D enthält auch einen neuartigen Initialisierungszustand, der einen geeigneten Start für die Verzerrungsfelder in DGS bietet. Durch die Ausstattung von Vidu4D mit einem bestehenden Video-generativen Modell zeigt das Gesamtrahmenwerk eine hochwertige Text-zu-4D-Generierung sowohl im Erscheinungsbild als auch in der Geometrie.
Eine gute Initialisierung von Deep-Learning-Modellen ist entscheidend, da sie dazu beitragen kann, dass sie besser und schneller konvergieren. Das Vortrainieren großer Modelle ist jedoch für viele Forscher nicht erschwinglich, was eine gewünschte Vorhersage für die Anfangsparameter heutzutage notwendiger macht. Graph Hypernetworks (GHNs), ein Ansatz zur Vorhersage von Modellparametern, haben kürzlich eine starke Leistung bei der Initialisierung großer Vision-Modelle gezeigt. Leider beruht die Vorhersage von Parametern sehr breiter Netzwerke darauf, kleine Parameterabschnitte mehrmals zu kopieren und erfordert eine extrem große Anzahl von Parametern zur Unterstützung der vollständigen Vorhersage, was ihre praktische Anwendung erheblich behindert. Um diese Einschränkung zu überwinden, schlagen wir LoGAH (Low-rank GrAph Hypernetworks) vor, ein GHN mit einem Niedrigrang-Parameterdecoder, der sich auf deutlich breitere Netzwerke ausdehnt, ohne einen übermäßigen Anstieg der Parameter wie bei früheren Versuchen zu erfordern. LoGAH ermöglicht es uns, die Parameter von 774 Millionen großen neuronalen Netzwerken auf eine speichereffiziente Weise vorherzusagen. Wir zeigen, dass Vision- und Sprachmodelle (d.h. ViT und GPT-2), die mit LoGAH initialisiert wurden, eine bessere Leistung erzielen als solche, die zufällig oder mit vorhandenen Hypernetworks initialisiert wurden. Darüber hinaus zeigen wir vielversprechende Transferlernergebnisse bezüglich des Trainings von LoGAH auf kleinen Datensätzen und der Verwendung der vorhergesagten Parameter zur Initialisierung für größere Aufgaben. Wir stellen den Code unter https://github.com/Blackzxy/LoGAH zur Verfügung.
Wir behandeln das langjährige Problem, wie man effektive pixelbasierte Bildverdünnungsmodelle im großen Maßstab erlernen kann, indem wir eine bemerkenswert einfache gierige Wachstumsmethode zur stabilen Schulung großer, hochauflösender Modelle einführen, ohne die Notwendigkeit für kaskadierte Super-Resolution-Komponenten. Der Schlüsselerkenntnis liegt in einer sorgfältigen Vortrainierung der Kernkomponenten, nämlich derjenigen, die für die Text-zu-Bild-Ausrichtung {\it vs.} hochauflösende Darstellung verantwortlich sind. Wir zeigen zunächst die Vorteile des Skalierens eines {\it Flachen UNet}, ohne Abwärts(aufwärts)-Abtastungs-Enc(Dec)oder. Das Skalieren seiner tiefen Kernschichten verbessert die Ausrichtung, Objektstruktur und Komposition. Aufbauend auf diesem Kernmodell schlagen wir einen gierigen Algorithmus vor, der die Architektur zu hochauflösenden End-to-End-Modellen ausbaut, während die Integrität der vortrainierten Repräsentation erhalten bleibt, das Training stabilisiert und der Bedarf an großen hochauflösenden Datensätzen reduziert wird. Dies ermöglicht ein einstufiges Modell, das in der Lage ist, hochauflösende Bilder zu generieren, ohne auf eine Super-Resolution-Kaskade angewiesen zu sein. Unsere Hauptergebnisse beruhen auf öffentlichen Datensätzen und zeigen, dass wir nicht-kaskadierte Modelle mit bis zu 8B Parametern ohne weitere Regularisierungsschemata trainieren können. Vermeer, unser vollständiges Pipeline-Modell, das mit internen Datensätzen trainiert wurde, um 1024x1024 Bilder zu erzeugen, ohne Kaskaden, wird von 44,0% vs. 21,4% der menschlichen Evaluatoren gegenüber SDXL bevorzugt.