Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im Zeitalter des fortgeschrittenen Multimodalen Lernens haben multimodale große Sprachmodelle (MLLMs) wie GPT-4V bemerkenswerte Fortschritte bei der Verbindung von Sprache und visuellen Elementen erzielt. Die geschlossene Natur der Quellcodes und der erhebliche Rechenbedarf stellen jedoch erhebliche Herausforderungen für die universelle Nutzung und Modifikation dar. Hier kommen Open-Source-MLLMs wie LLaVA und MiniGPT-4 ins Spiel, die bahnbrechende Erfolge bei verschiedenen Aufgaben vorweisen können. Trotz dieser Erfolge bleibt die Recheneffizienz ein ungelöstes Problem, da diese Modelle, wie LLaVA-v1.5-13B, erhebliche Ressourcen benötigen. Um diese Probleme anzugehen, stellen wir TinyGPT-V vor, ein neues Modell, das beeindruckende Leistung mit alltäglicher Rechenkapazität vereint. Es zeichnet sich dadurch aus, dass es lediglich eine 24G GPU für das Training und eine 8G GPU oder CPU für die Inferenz benötigt. Basierend auf Phi-2 kombiniert TinyGPT-V ein effektives Sprachgerüst mit vortrainierten Vision-Modulen von BLIP-2 oder CLIP. Die 2,8 Milliarden Parameter von TinyGPT-V können einem einzigartigen Quantisierungsprozess unterzogen werden, der sich für die lokale Bereitstellung und Inferenzaufgaben auf verschiedenen Geräten mit 8G eignet. Unsere Arbeit fördert weitere Entwicklungen bei der Gestaltung von kosteneffizienten, effizienten und leistungsstarken MLLMs und erweitert deren Anwendbarkeit in einer Vielzahl von realen Szenarien. Darüber hinaus schlägt dieses Papier ein neues Paradigma für Multimodale Große Sprachmodelle über kleine Gerüste vor. Unser Code und die Trainingsgewichte sind unter: https://github.com/DLYuanGod/TinyGPT-V und https://huggingface.co/Tyrannosaurus/TinyGPT-V verfügbar.
Wir präsentieren Unified-IO 2, das erste autoregressive multimodale Modell, das in der Lage ist, Bilder, Text, Audio und Aktionen zu verstehen und zu generieren. Um verschiedene Modalitäten zu vereinheitlichen, tokenisieren wir Eingaben und Ausgaben – Bilder, Text, Audio, Aktionen, Begrenzungsrahmen usw. – in einen gemeinsamen semantischen Raum und verarbeiten sie anschließend mit einem einzigen Encoder-Decoder-Transformer-Modell. Da das Training mit solch unterschiedlichen Modalitäten herausfordernd ist, schlagen wir verschiedene architektonische Verbesserungen vor, um das Modelltraining zu stabilisieren. Wir trainieren unser Modell von Grund auf mit einem großen multimodalen Vorab-Trainingskorpus aus diversen Quellen und einem multimodalen Mixture-of-Denoisers-Ziel. Um ein breites Spektrum an Fähigkeiten zu erlernen, wie das Befolgen multimodaler Anweisungen, konstruieren wir ein Ensemble von 120 Datensätzen mit Prompts und Augmentierungen und führen darauf ein Fein-Tuning durch. Mit einem einzigen vereinheitlichten Modell erreicht Unified-IO 2 Spitzenleistungen im GRIT-Benchmark und starke Ergebnisse in mehr als 35 Benchmarks, darunter Bildgenerierung und -verständnis, natürliches Sprachverständnis, Video- und Audioverständnis sowie robotische Manipulation. Wir stellen alle unsere Modelle der Forschungsgemeinschaft zur Verfügung.
Hochwertige, groß angelegte Korpora sind der Grundstein für den Aufbau von Foundation-Modellen. In dieser Arbeit stellen wir MathPile vor, ein vielfältiges und hochwertiges, mathematikzentriertes Korpus, das etwa 9,5 Milliarden Tokens umfasst. Während seiner Erstellung haben wir uns an das Prinzip „Weniger ist mehr“ gehalten und fest an die Überlegenheit der Datenqualität gegenüber der Quantität geglaubt, selbst in der Pre-Training-Phase. Unsere sorgfältigen Bemühungen bei der Datensammlung und -verarbeitung umfassten eine komplexe Suite von Vorverarbeitung, Vorfilterung, Spracherkennung, Bereinigung, Filterung und Deduplizierung, um die hohe Qualität unseres Korpus sicherzustellen. Darüber hinaus haben wir eine Datenkontaminationserkennung auf den Downstream-Benchmark-Testdatensätzen durchgeführt, um Duplikate zu eliminieren. Wir hoffen, dass unser MathPile dazu beitragen kann, die mathematischen Fähigkeiten von Sprachmodellen zu verbessern. Wir planen, verschiedene Versionen von \mathpile zusammen mit den für die Verarbeitung verwendeten Skripten zu veröffentlichen, um zukünftige Entwicklungen in diesem Bereich zu erleichtern.
Wir präsentieren MobileVLM, ein leistungsfähiges multimodales Vision-Sprache-Modell (MMVLM), das für den Einsatz auf mobilen Geräten entwickelt wurde. Es vereint eine Vielzahl von architektonischen Designs und Techniken, die auf Mobilität ausgerichtet sind, darunter eine Reihe von Sprachmodellen mit 1,4B und 2,7B Parametern, die von Grund auf trainiert wurden, ein multimodales Vision-Modell, das im CLIP-Stil vortrainiert wurde, sowie eine effiziente Projektion für die Interaktion zwischen den Modalitäten. Wir evaluieren MobileVLM anhand mehrerer typischer VLM-Benchmarks. Unsere Modelle zeigen eine vergleichbare Leistung im Vergleich zu einigen deutlich größeren Modellen. Noch wichtiger ist, dass wir die Inferenzgeschwindigkeit sowohl auf einer Qualcomm Snapdragon 888 CPU als auch auf einer NVIDIA Jetson Orin GPU messen und dabei state-of-the-art Leistungen von 21,5 Tokens bzw. 65,3 Tokens pro Sekunde erzielen. Unser Code wird unter folgender Adresse verfügbar sein: https://github.com/Meituan-AutoML/MobileVLM.
Mehrere unüberwachte Ansätze zur Bildsegmentierung wurden vorgeschlagen, die den Bedarf an dichten, manuell annotierten Segmentierungsmasken eliminieren; aktuelle Modelle behandeln entweder semantische Segmentierung (z.B. STEGO) oder klassenagnostische Instanzsegmentierung (z.B. CutLER) separat, jedoch nicht beides (d.h. panoptische Segmentierung). Wir schlagen ein Unsupervised Universal Segmentation-Modell (U2Seg) vor, das in der Lage ist, verschiedene Bildsegmentierungsaufgaben – Instanz-, Semantik- und Panoptiksegmentierung – mithilfe eines neuartigen, einheitlichen Frameworks durchzuführen. U2Seg generiert pseudo-semantische Labels für diese Segmentierungsaufgaben, indem es selbstüberwachte Modelle nutzt, gefolgt von Clustering; jeder Cluster repräsentiert unterschiedliche semantische und/oder Instanzzugehörigkeiten von Pixeln. Anschließend trainieren wir das Modell selbstständig auf diesen pseudo-semantischen Labels, was erhebliche Leistungssteigerungen gegenüber spezialisierten Methoden für jede Aufgabe erzielt: ein +2,6 AP^{box}-Anstieg gegenüber CutLER bei der unüberwachten Instanzsegmentierung auf COCO und eine +7,0 PixelAcc-Steigerung (gegenüber STEGO) bei der unüberwachten semantischen Segmentierung auf COCOStuff. Darüber hinaus setzt unsere Methode einen neuen Maßstab für die unüberwachte panoptische Segmentierung, die bisher nicht erforscht wurde. U2Seg ist auch ein starkes vortrainiertes Modell für Few-Shot-Segmentierung und übertrifft CutLER um +5,0 AP^{mask}, wenn es mit wenig Daten trainiert wird, z.B. nur 1% der COCO-Labels. Wir hoffen, dass unsere einfache, aber effektive Methode weitere Forschungen zur unüberwachten universellen Bildsegmentierung inspirieren kann.
In jüngster Zeit wurden bemerkenswerte Fortschritte in der 4D-Inhaltsgenerierung erzielt. Allerdings leiden bestehende Methoden unter langen Optimierungszeiten, mangelnder Bewegungssteuerbarkeit und einem geringen Detaillierungsgrad. In diesem Artikel stellen wir DreamGaussian4D vor, ein effizientes 4D-Generierungsframework, das auf der 4D-Gaussian-Splatting-Darstellung aufbaut. Unsere zentrale Erkenntnis ist, dass die explizite Modellierung räumlicher Transformationen in Gaussian Splatting es im Vergleich zu impliziten Darstellungen besser für die 4D-Generierung geeignet macht. DreamGaussian4D reduziert die Optimierungszeit von mehreren Stunden auf nur wenige Minuten, ermöglicht eine flexible Steuerung der generierten 3D-Bewegung und erzeugt animierte Meshes, die effizient in 3D-Engines gerendert werden können.
Wir haben bedeutende Fortschritte im Bereich des Deep Learning-basierten 3D-Sehens beobachtet, angefangen beim 3D-Repräsentationslernen basierend auf Neural Radiance Fields (NeRF) bis hin zu Anwendungen in der Synthese neuer Ansichten (Novel View Synthesis, NVS). Allerdings sind die bestehenden Szenen-Datensätze für Deep Learning-basiertes 3D-Sehen, die entweder auf synthetische Umgebungen oder eine begrenzte Auswahl realer Szenen beschränkt sind, äußerst unzureichend. Diese Unzulänglichkeit behindert nicht nur eine umfassende Bewertung bestehender Methoden, sondern begrenzt auch das Potenzial, was im Bereich der Deep Learning-basierten 3D-Analyse erforscht werden könnte. Um diese kritische Lücke zu schließen, präsentieren wir DL3DV-10K, einen groß angelegten Szenen-Datensatz, der 51,2 Millionen Frames aus 10.510 Videos umfasst, die an 65 Arten von Points of Interest (POI) aufgenommen wurden. Der Datensatz deckt sowohl begrenzte als auch unbegrenzte Szenen ab und bietet unterschiedliche Grade von Reflexion, Transparenz und Beleuchtung. Wir haben eine umfassende Bewertung aktueller NVS-Methoden auf DL3DV-10K durchgeführt, die wertvolle Erkenntnisse für zukünftige Forschungen im Bereich NVS lieferte. Darüber hinaus haben wir in einer Pilotstudie ermutigende Ergebnisse erzielt, die zeigen, dass es möglich ist, generalisierbare NeRF-Modelle aus DL3DV-10K zu lernen. Dies unterstreicht die Notwendigkeit eines groß angelegten Szenen-Datensatzes, um den Weg zu einem Foundation-Modell für das Lernen von 3D-Repräsentationen zu ebnen. Unser DL3DV-10K-Datensatz, die Benchmark-Ergebnisse und Modelle werden öffentlich zugänglich sein unter https://dl3dv-10k.github.io/DL3DV-10K/.
NeRF hat die 3D-Szenenrekonstruktion erheblich vorangetrieben und ermöglicht die Erfassung komplexer Details in verschiedenen Umgebungen. Bestehende Methoden haben erfolgreich das Backen von Radiance Fields genutzt, um das Echtzeit-Rendering kleiner Szenen zu ermöglichen. Bei der Anwendung auf großflächige Szenen stoßen diese Techniken jedoch auf erhebliche Herausforderungen und können aufgrund begrenzter Ressourcen in Bezug auf Rechenleistung, Speicher und Bandbreite kein nahtloses Echtzeiterlebnis bieten. In diesem Artikel stellen wir City-on-Web vor, das die gesamte Szene durch die Aufteilung in handhabbare Blöcke darstellt, wobei jeder Block über seine eigene Detailstufe verfügt, um hohe Detailtreue, effiziente Speicherverwaltung und schnelles Rendering zu gewährleisten. Gleichzeitig gestalten wir den Trainings- und Inferenzprozess sorgfältig, sodass das endgültige Rendering-Ergebnis im Web mit dem Training übereinstimmt. Dank unserer neuartigen Darstellung und des sorgfältig gestalteten Trainings-/Inferenzprozesses sind wir die ersten, die ein Echtzeit-Rendering großflächiger Szenen in ressourcenbeschränkten Umgebungen erreichen. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode das Echtzeit-Rendering großflächiger Szenen auf einer Webplattform ermöglicht und dabei 32 FPS bei einer Auflösung von 1080P mit einer RTX 3060 GPU erreicht, während gleichzeitig eine Qualität erzielt wird, die der von state-of-the-art Methoden nahekommt. Projektseite: https://ustc3dv.github.io/City-on-Web/
Im sich rasant entwickelnden Bereich der digitalen Inhaltsgenerierung hat sich der Fokus von Text-zu-Bild (T2I)-Modellen hin zu fortschrittlicheren Video-Diffusionsmodellen verlagert, insbesondere Text-zu-Video (T2V) und Bild-zu-Video (I2V). Diese Arbeit befasst sich mit der komplexen Herausforderung, die I2V stellt: die Umwandlung statischer Bilder in dynamische, lebensechte Videosequenzen bei gleichzeitiger Bewahrung der ursprünglichen Bildtreue. Traditionelle Methoden beinhalten typischerweise die Integration ganzer Bilder in Diffusionsprozesse oder die Verwendung vortrainierter Encoder für Cross-Attention. Diese Ansätze erfordern jedoch oft eine Veränderung der grundlegenden Gewichte von T2I-Modellen, was deren Wiederverwendbarkeit einschränkt. Wir stellen eine neuartige Lösung vor, den sogenannten I2V-Adapter, der entwickelt wurde, um solche Einschränkungen zu überwinden. Unser Ansatz bewahrt die strukturelle Integrität von T2I-Modellen und deren inhärente Bewegungsmodule. Der I2V-Adapter verarbeitet verrauschte Videobilder parallel zum Eingabebild und nutzt dabei ein leichtgewichtiges Adaptermodul. Dieses Modul fungiert als Brücke, die effizient die Eingabe mit dem Selbst-Attention-Mechanismus des Modells verbindet und so räumliche Details bewahrt, ohne strukturelle Änderungen am T2I-Modell vornehmen zu müssen. Darüber hinaus benötigt der I2V-Adapter nur einen Bruchteil der Parameter herkömmlicher Modelle und gewährleistet Kompatibilität mit bestehenden, community-gesteuerten T2I-Modellen und Steuerungstools. Unsere experimentellen Ergebnisse demonstrieren die Fähigkeit des I2V-Adapters, hochwertige Videoausgaben zu erzeugen. Diese Leistung, gepaart mit seiner Vielseitigkeit und dem reduzierten Bedarf an trainierbaren Parametern, stellt einen bedeutenden Fortschritt im Bereich der KI-gestützten Videogenerierung dar, insbesondere für kreative Anwendungen.
Die Erzeugung von Animationen physikbasierter Charaktere mit intuitiver Steuerung ist seit langem eine wünschenswerte Aufgabe mit zahlreichen Anwendungen. Die Generierung physikalisch simulierter Animationen, die hochrangige menschliche Anweisungen widerspiegeln, bleibt jedoch aufgrund der Komplexität physikalischer Umgebungen und der Vielfalt menschlicher Sprache ein schwieriges Problem. In diesem Artikel stellen wir InsActor vor, ein prinzipielles generatives Framework, das aktuelle Fortschritte in diffusionsbasierten Modellen menschlicher Bewegung nutzt, um anweisungsgesteuerte Animationen physikbasierter Charaktere zu erzeugen. Unser Framework ermöglicht es InsActor, komplexe Beziehungen zwischen hochrangigen menschlichen Anweisungen und Charakterbewegungen zu erfassen, indem es Diffusionsrichtlinien für flexibel konditionierte Bewegungsplanung einsetzt. Um ungültige Zustände und unmögliche Zustandsübergänge in geplanten Bewegungen zu überwinden, entdeckt InsActor niedrigstufige Fähigkeiten und bildet Pläne auf latente Fähigkeitssequenzen in einem kompakten latenten Raum ab. Umfangreiche Experimente zeigen, dass InsActor state-of-the-art Ergebnisse bei verschiedenen Aufgaben erzielt, einschließlich anweisungsgesteuerter Bewegungsgenerierung und anweisungsgesteuerter Wegpunktausrichtung. Insbesondere die Fähigkeit von InsActor, physikalisch simulierte Animationen mit hochrangigen menschlichen Anweisungen zu generieren, macht es zu einem wertvollen Werkzeug, insbesondere bei der Ausführung langfristiger Aufgaben mit einer Vielzahl von Anweisungen.
Die Synthese neuer Ansichten dynamischer Szenen stellt ein faszinierendes, aber herausforderndes Problem dar. Trotz jüngster Fortschritte bleibt es eine schwierige Aufgabe, gleichzeitig hochauflösende, fotorealistische Ergebnisse, Echtzeit-Rendering und kompakte Speicherung zu erreichen. Um diese Herausforderungen zu bewältigen, schlagen wir Spacetime Gaussian Feature Splatting als neuartige Darstellung dynamischer Szenen vor, die aus drei zentralen Komponenten besteht. Erstens formulieren wir ausdrucksstarke Spacetime Gaussians, indem wir 3D-Gaussians durch zeitliche Opazität und parametrische Bewegung/Rotation erweitern. Dies ermöglicht es Spacetime Gaussians, statische, dynamische sowie vorübergehende Inhalte innerhalb einer Szene zu erfassen. Zweitens führen wir das Rendering von gesplatteten Features ein, das sphärische Harmoniken durch neuronale Features ersetzt. Diese Features erleichtern die Modellierung der ansichts- und zeitabhängigen Erscheinung bei gleichzeitig geringer Größe. Drittens nutzen wir die Anleitung durch Trainingsfehler und grobe Tiefe, um neue Gaussians in Bereichen zu samplen, die mit bestehenden Pipelines schwer zu konvergieren sind. Experimente auf mehreren etablierten realen Datensätzen zeigen, dass unsere Methode eine erstklassige Rendering-Qualität und Geschwindigkeit erreicht, während sie kompakte Speicherung beibehält. Bei einer Auflösung von 8K kann unser Lite-Version-Modell mit 60 FPS auf einer Nvidia RTX 4090 GPU rendern.
State-of-the-art-Sprachmodelle werden zunehmend größer, um die höchste Leistung auf großen Korpora verfügbarer Textdaten zu erreichen. Die schiere Größe der Transformer-Architekturen erschwert jedoch die Bereitstellung der Modelle innerhalb von rechen-, umwelt- oder gerätespezifischen Einschränkungen. Wir untersuchen die datengetriebene Komprimierung bestehender vortrainierter Modelle als Alternative zum Training kleinerer Modelle von Grund auf. Dazu skalieren wir Kronecker-faktorisierte Krümmungsapproximationen der Zielfunktionslandschaft für große Sprachmodelle. Auf diese Weise können wir sowohl die dynamische Zuweisung von Strukturen, die entfernt werden können, als auch Aktualisierungen der verbleibenden Gewichte berechnen, die die Entfernung berücksichtigen. Wir stellen einen allgemeinen Rahmen für unstrukturiertes, semistrukturiertes und strukturiertes Pruning bereit und verbessern die Gewichtsaktualisierungen, um mehr Korrelationen zwischen den Gewichten zu erfassen, während wir recheneffizient bleiben. Experimentell kann unsere Methode Zeilen und Spalten einer Reihe von OPT-Modellen und Llamav2-7B um 20 %–30 % reduzieren, mit einem vernachlässigbaren Leistungsverlust, und erzielt state-of-the-art-Ergebnisse beim unstrukturierten und semistrukturierten Pruning großer Sprachmodelle.
Die Lösung des Problems der Bild-zu-3D-Rekonstruktion aus einer einzigen Ansicht ist ein schlecht gestelltes Problem, und aktuelle neuronale Rekonstruktionsmethoden, die dies durch Diffusionsmodelle angehen, verlassen sich immer noch auf szenspezifische Optimierung, was ihre Generalisierungsfähigkeit einschränkt. Um die Grenzen bestehender Ansätze in Bezug auf Generalisierung und Konsistenz zu überwinden, führen wir eine neuartige neuronale Rendering-Technik ein. Unser Ansatz verwendet die Signed Distance Function (SDF) als Oberflächendarstellung und integriert generalisierbare Prioritäten durch geometrie-kodierende Volumina und HyperNetworks. Konkret baut unsere Methode neuronale Kodierungsvolumina aus generierten Multi-View-Eingaben auf. Wir passen die Gewichte des SDF-Netzwerks basierend auf einem Eingabebild zur Testzeit an, um die Modellanpassung an neue Szenen in einem Feed-Forward-Verfahren über HyperNetworks zu ermöglichen. Um Artefakte, die aus den synthetisierten Ansichten resultieren, zu minimieren, schlagen wir die Verwendung eines Volume-Transformer-Moduls vor, um die Aggregation von Bildmerkmalen zu verbessern, anstatt jede Ansicht separat zu verarbeiten. Durch unsere vorgeschlagene Methode, die wir Hyper-VolTran nennen, umgehen wir den Engpass der szenspezifischen Optimierung und bewahren die Konsistenz über die aus mehreren Blickwinkeln generierten Bilder hinweg. Unsere Experimente zeigen die Vorteile unseres vorgeschlagenen Ansatzes mit konsistenten Ergebnissen und schneller Generierung.
Neurale Grafikprimitive sind schneller und erreichen eine höhere Qualität, wenn ihre neuronalen Netze durch räumliche Datenstrukturen erweitert werden, die trainierbare Merkmale in einem Gitter anordnen. Bestehende Merkmalsgitter haben jedoch entweder einen großen Speicherbedarf (dichte oder faktorisierte Gitter, Bäume und Hash-Tabellen) oder eine langsame Leistung (Index-Lernen und Vektorquantisierung). In diesem Artikel zeigen wir, dass eine Hash-Tabelle mit gelernten Sonden keine dieser Nachteile aufweist und somit eine vorteilhafte Kombination aus Größe und Geschwindigkeit bietet. Die Inferenz ist schneller als bei Hash-Tabellen ohne Sonden bei gleicher Qualität, während das Training nur 1,2-2,6x langsamer ist und damit bestehende Ansätze des Index-Lernens deutlich übertrifft. Wir gelangen zu dieser Formulierung, indem wir alle Merkmalsgitter in einen gemeinsamen Rahmen einordnen: Sie entsprechen jeweils einer Lookup-Funktion, die in eine Tabelle von Merkmalsvektoren indiziert. In diesem Rahmen können die Lookup-Funktionen bestehender Datenstrukturen durch einfache arithmetische Kombinationen ihrer Indizes kombiniert werden, was zu einer Pareto-optimalen Kompression und Geschwindigkeit führt.
Aktuelle großskalige Diffusionsmodelle stellen einen gewaltigen Fortschritt in der bedingten Bildsynthese dar, da sie in der Lage sind, vielfältige Hinweise wie Text, menschliche Posen und Kanten zu interpretieren. Ihre Abhängigkeit von erheblichen Rechenressourcen und umfangreichen Datensammlungen bleibt jedoch ein Engpass. Andererseits stellt die Integration bestehender Diffusionsmodelle, die jeweils für unterschiedliche Steuerungen spezialisiert sind und in einzigartigen latenten Räumen operieren, eine Herausforderung dar, da inkompatible Bildauflösungen und latente Raum-Einbettungsstrukturen ihre gemeinsame Nutzung behindern. Um diese Einschränkungen zu überwinden, präsentieren wir "PanGu-Draw", ein neuartiges latentes Diffusionsmodell, das für ressourceneffiziente Text-zu-Bild-Synthese entwickelt wurde und geschickt mehrere Steuersignale berücksichtigt. Zunächst schlagen wir eine ressourceneffiziente Zeit-Entkopplungs-Trainingsstrategie vor, die das monolithische Text-zu-Bild-Modell in Struktur- und Texturgeneratoren aufteilt. Jeder Generator wird mit einem Trainingsregime trainiert, das die Datennutzung und Recheneffizienz maximiert, wodurch die Datenvorbereitung um 48 % reduziert und die Trainingsressourcen um 51 % verringert werden. Zweitens führen wir "Coop-Diffusion" ein, einen Algorithmus, der die kooperative Nutzung verschiedener vortrainierter Diffusionsmodelle mit unterschiedlichen latenten Räumen und vordefinierten Auflösungen innerhalb eines einheitlichen Denoising-Prozesses ermöglicht. Dies ermöglicht die Multi-Control-Bildsynthese bei beliebigen Auflösungen ohne die Notwendigkeit zusätzlicher Daten oder eines erneuten Trainings. Empirische Validierungen von PanGu-Draw zeigen seine außergewöhnliche Fähigkeit in der Text-zu-Bild- und Multi-Control-Bildgenerierung und deuten auf eine vielversprechende Richtung für zukünftige Modelltrainings-Effizienzen und Generierungsvielfalt hin. Das größte 5B T2I PanGu-Draw-Modell wurde auf der Ascend-Plattform veröffentlicht. Projektseite: https://pangu-draw.github.io
Jüngste Fortschritte in der subjektgesteuerten Bildgenerierung haben zur Zero-Shot-Generierung geführt, doch die präzise Auswahl und Fokussierung auf entscheidende Subjektdarstellungen bleibt eine Herausforderung. Um dies zu adressieren, führen wir den SSR-Encoder ein, eine neuartige Architektur, die darauf ausgelegt ist, selektiv jedes Subjekt aus einem oder mehreren Referenzbildern zu erfassen. Er reagiert auf verschiedene Abfragemodalitäten, einschließlich Text und Masken, ohne eine Feinabstimmung zur Testzeit zu erfordern. Der SSR-Encoder kombiniert einen Token-to-Patch-Aligner, der Abfrageeingaben mit Bildbereichen ausrichtet, und einen Detail-erhaltenden Subjekt-Encoder zur Extraktion und Bewahrung feiner Merkmale der Subjekte, wodurch Subjekt-Embeddings erzeugt werden. Diese Embeddings, in Verbindung mit ursprünglichen Text-Embeddings verwendet, steuern den Generierungsprozess. Charakterisiert durch seine Modellgeneralisierbarkeit und Effizienz, passt sich der SSR-Encoder einer Reihe von benutzerdefinierten Modellen und Kontrollmodulen an. Durch den Embedding-Konsistenz-Regularisierungsverlust für ein verbessertes Training gestärkt, zeigen unsere umfangreichen Experimente seine Wirksamkeit in der vielseitigen und hochwertigen Bildgenerierung, was auf seine breite Anwendbarkeit hinweist. Projektseite: https://ssr-encoder.github.io
Textgesteuerte Domänenanpassung und Generierung von 3D-Porträts finden in verschiedenen Bereichen zahlreiche Anwendungen. Aufgrund des Mangels an Trainingsdaten und der Herausforderungen bei der Handhabung der hohen Vielfalt an Geometrie und Erscheinungsbild leiden die bestehenden Methoden für diese Aufgaben jedoch unter Problemen wie Unflexibilität, Instabilität und geringer Qualität. In diesem Artikel schlagen wir ein neuartiges Framework namens DiffusionGAN3D vor, das die textgesteuerte 3D-Domänenanpassung und Generierung durch die Kombination von 3D-GANs und Diffusionspriors verbessert. Konkret integrieren wir vortrainierte 3D-Generativmodelle (z.B. EG3D) und Text-zu-Bild-Diffusionsmodelle. Erstere bieten eine solide Grundlage für die stabile und hochwertige Generierung von Avataren aus Text. Die Diffusionsmodelle wiederum liefern leistungsstarke Priors und leiten die Feinabstimmung des 3D-Generators mit informativen Richtungen an, um eine flexible und effiziente textgesteuerte Domänenanpassung zu erreichen. Um die Vielfalt in der Domänenanpassung und die Generierungsfähigkeit bei der Text-zu-Avatar-Erstellung zu verbessern, führen wir den relativen Distanzverlust bzw. fallbezogene lernbare Triplanes ein. Zudem entwerfen wir ein Modul zur progressiven Texturverfeinerung, um die Texturqualität für beide oben genannten Aufgaben zu steigern. Umfangreiche Experimente zeigen, dass das vorgeschlagene Framework sowohl bei der Domänenanpassung als auch bei der Text-zu-Avatar-Generierung hervorragende Ergebnisse erzielt und bestehende Methoden in Bezug auf Generierungsqualität und Effizienz übertrifft. Die Projekt-Homepage befindet sich unter https://younglbw.github.io/DiffusionGAN3D-homepage/.
Text-to-Image-Generationsmodelle sind leistungsstark, aber schwierig zu bedienen. Benutzer formulieren spezifische Prompts, um bessere Bilder zu erhalten, obwohl die Bilder oft repetitiv sein können. Dieses Paper stellt ein Prompt-Expansion-Framework vor, das Benutzern hilft, mit weniger Aufwand hochwertige und vielfältige Bilder zu generieren. Das Prompt-Expansion-Modell nimmt eine Textanfrage als Eingabe und gibt eine Reihe erweiterter Textprompts aus, die so optimiert sind, dass sie, wenn sie an ein Text-to-Image-Modell übergeben werden, eine größere Vielfalt an ansprechenden Bildern erzeugen. Wir führen eine menschliche Evaluierungsstudie durch, die zeigt, dass Bilder, die durch Prompt Expansion generiert werden, ästhetisch ansprechender und vielfältiger sind als diejenigen, die mit Baseline-Methoden erzeugt werden. Insgesamt präsentiert dieses Paper einen neuartigen und effektiven Ansatz zur Verbesserung der Text-to-Image-Generationserfahrung.
Die inhärente generative Kraft von Denoising-Diffusionsmodellen macht sie besonders geeignet für Bildrestaurierungsaufgaben, bei denen das Ziel darin besteht, das optimale hochwertige Bild innerhalb des generativen Raums zu finden, das dem Eingabebild stark ähnelt. Wir schlagen eine Methode vor, um ein vortrainiertes Diffusionsmodell für die Bildrestaurierung anzupassen, indem einfach Rauschen zum zu restaurierenden Eingabebild hinzugefügt und dann entrauscht wird. Unsere Methode basiert auf der Beobachtung, dass der Raum eines generativen Modells eingeschränkt werden muss. Wir setzen diese Einschränkung um, indem wir das generative Modell mit einer Reihe von Ankerbildern feinabstimmen, die die Merkmale des Eingabebilds erfassen. Mit dem eingeschränkten Raum können wir dann die für die Generierung verwendete Sampling-Strategie nutzen, um die Bildrestaurierung durchzuführen. Wir vergleichen unsere Methode mit früheren Ansätzen und zeigen überlegene Leistungen bei mehreren realen Restaurierungsdatensätzen in Bezug auf die Bewahrung der Identität und Bildqualität. Wir demonstrieren auch eine wichtige und praktische Anwendung in der personalisierten Restaurierung, bei der wir ein persönliches Album als Ankerbilder verwenden, um den generativen Raum einzuschränken. Dieser Ansatz ermöglicht es uns, Ergebnisse zu erzielen, die hochfrequente Details präzise bewahren, was frühere Arbeiten nicht leisten konnten. Projektwebseite: https://gen2res.github.io.