Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in der Text-zu-Bild-Generierung haben bemerkenswerte Fortschritte bei der Synthese realistischer menschlicher Fotos auf der Grundlage gegebener Textanweisungen erzielt. Allerdings können bestehende personalisierte Generierungsmethoden nicht gleichzeitig die Anforderungen an hohe Effizienz, überzeugende Identitäts (ID)-Treue und flexible Textsteuerbarkeit erfüllen. In dieser Arbeit stellen wir PhotoMaker vor, eine effiziente Methode zur personalisierten Text-zu-Bild-Generierung, die hauptsächlich eine beliebige Anzahl von Eingabe-ID-Bildern in eine stapelbare ID-Einbettung kodiert, um die ID-Informationen zu bewahren. Eine solche Einbettung, die als einheitliche ID-Darstellung dient, kann nicht nur die Merkmale derselben Eingabe-ID umfassend erfassen, sondern auch die Merkmale verschiedener IDs für die anschließende Integration berücksichtigen. Dies ebnet den Weg für interessantere und praktisch wertvollere Anwendungen. Darüber hinaus schlagen wir zur Steuerung des Trainings unseres PhotoMakers eine ID-orientierte Datenkonstruktionspipeline vor, um die Trainingsdaten zusammenzustellen. Unter der Pflege des durch die vorgeschlagene Pipeline konstruierten Datensatzes zeigt unser PhotoMaker eine bessere Fähigkeit zur ID-Erhaltung als Methoden, die auf Feinabstimmung zur Testzeit basieren, bietet jedoch gleichzeitig signifikante Geschwindigkeitsverbesserungen, hochwertige Generierungsergebnisse, starke Generalisierungsfähigkeiten und eine breite Palette von Anwendungen. Unsere Projektseite ist verfügbar unter https://photo-maker.github.io/.
Die Synthese semantisch bewusster, langfristiger Mensch-Objekt-Interaktionen ist entscheidend, um realistische menschliche Verhaltensweisen zu simulieren. In dieser Arbeit behandeln wir das anspruchsvolle Problem der Erzeugung synchronisierter Objekt- und menschlicher Bewegungen, die durch Sprachbeschreibungen in 3D-Szenen gesteuert werden. Wir schlagen Controllable Human-Object Interaction Synthesis (CHOIS) vor, einen Ansatz, der Objekt- und menschliche Bewegungen gleichzeitig mithilfe eines bedingten Diffusionsmodells erzeugt, basierend auf einer Sprachbeschreibung, den initialen Objekt- und menschlichen Zuständen sowie spärlichen Objekt-Wegpunkten. Während Sprachbeschreibungen Stil und Absicht vermitteln, verankern Wegpunkte die Bewegung in der Szene und können effektiv mit hochrangigen Planungsmethoden extrahiert werden. Die naive Anwendung eines Diffusionsmodells scheitert daran, Objektbewegungen vorherzusagen, die mit den eingegebenen Wegpunkten übereinstimmen, und kann die Realismus von Interaktionen, die präzisen Hand-Objekt-Kontakt und angemessenen, bodengebundenen Kontakt erfordern, nicht gewährleisten. Um diese Probleme zu überwinden, führen wir einen Objektgeometrie-Verlust als zusätzliche Überwachung ein, um die Übereinstimmung zwischen generierter Objektbewegung und eingegebenen Objekt-Wegpunkten zu verbessern. Zusätzlich entwerfen wir Führungsterme, um Kontaktbeschränkungen während des Abtastprozesses des trainierten Diffusionsmodells durchzusetzen.
Die Erstellung von 3D-Inhalten aus einem einzelnen Bild ist eine langjährige, aber äußerst wünschenswerte Aufgabe. Jüngste Fortschritte führen 2D-Diffusions-Priors ein, die vernünftige Ergebnisse liefern. Bestehende Methoden sind jedoch nicht hyperrealistisch genug für die Nutzung nach der Generierung, da Benutzer die resultierenden 3D-Inhalte nicht aus einem vollen Blickwinkel betrachten, rendern und bearbeiten können. Um diese Herausforderungen zu bewältigen, stellen wir HyperDreamer mit mehreren Schlüsseldesigns und ansprechenden Eigenschaften vor: 1) Betrachtbar: 360-Grad-Mesh-Modellierung mit hochauflösenden Texturen ermöglicht die Erstellung visuell ansprechender 3D-Modelle aus einem vollen Spektrum von Beobachtungspunkten. 2) Renderbar: Fein abgestufte semantische Segmentierung und datengetriebene Priors werden als Leitfaden integriert, um vernünftige Albedo-, Rauheits- und Spekulareigenschaften der Materialien zu erlernen, was eine semantisch bewusste, beliebige Materialschätzung ermöglicht. 3) Bearbeitbar: Für ein generiertes Modell oder ihre eigenen Daten können Benutzer interaktiv jede Region mit wenigen Klicks auswählen und die Textur effizient mit textbasierter Anleitung bearbeiten. Umfangreiche Experimente demonstrieren die Wirksamkeit von HyperDreamer bei der Modellierung regionsbewusster Materialien mit hochauflösenden Texturen und der Ermöglichung benutzerfreundlicher Bearbeitung. Wir glauben, dass HyperDreamer das Potenzial hat, die Erstellung von 3D-Inhalten voranzutreiben und Anwendungen in verschiedenen Domänen zu finden.
Groß angelegte Text-zu-Video (T2V) Diffusionsmodelle haben in den letzten Jahren erhebliche Fortschritte in Bezug auf visuelle Qualität, Bewegung und zeitliche Konsistenz gemacht. Der Generierungsprozess bleibt jedoch eine Blackbox, bei der alle Attribute (z.B. Aussehen, Bewegung) gemeinsam gelernt und erzeugt werden, ohne präzise Kontrollmöglichkeiten außer grober Textbeschreibungen. Inspiriert von der Bildanimation, die das Video als ein spezifisches Aussehen mit der entsprechenden Bewegung entkoppelt, schlagen wir AnimateZero vor, um das vortrainierte Text-zu-Video Diffusionsmodell, d.h. AnimateDiff, zu enthüllen und präzisere Kontrollmöglichkeiten für Aussehen und Bewegung bereitzustellen. Für die Kontrolle des Aussehens entlehnen wir Zwischenlatents und deren Merkmale aus der Text-zu-Bild (T2I) Generierung, um sicherzustellen, dass der generierte erste Frame dem gegebenen generierten Bild entspricht. Für die zeitliche Kontrolle ersetzen wir die globale zeitliche Aufmerksamkeit des ursprünglichen T2V-Modells durch unsere vorgeschlagene positionskorrigierte Fensteraufmerksamkeit, um sicherzustellen, dass andere Frames gut mit dem ersten Frame ausgerichtet sind. Durch die vorgeschlagenen Methoden gestärkt, kann AnimateZero den Generierungsprozess erfolgreich steuern, ohne weiteres Training. Als Zero-Shot-Bildanimator für gegebene Bilder ermöglicht AnimateZero auch mehrere neue Anwendungen, einschließlich interaktiver Videogenerierung und Animation echter Bilder. Die detaillierten Experimente demonstrieren die Wirksamkeit der vorgeschlagenen Methode sowohl in T2V als auch in verwandten Anwendungen.
Reinforcement Learning (RL) bietet ein vielseitiges Framework zur Erreichung langfristiger Ziele. Seine Allgemeingültigkeit ermöglicht es uns, eine breite Palette von Problemen zu formalisieren, mit denen intelligente Systeme in der realen Welt konfrontiert sind, wie z. B. der Umgang mit verzögerten Belohnungen, die Handhabung von partieller Beobachtbarkeit, die Bewältigung des Dilemmas zwischen Exploration und Exploitation, die Nutzung von Offline-Daten zur Verbesserung der Online-Leistung und die Einhaltung von Sicherheitsbeschränkungen. Trotz erheblicher Fortschritte, die die RL-Forschungsgemeinschaft bei der Bewältigung dieser Probleme erzielt hat, konzentrieren sich bestehende Open-Source-RL-Bibliotheken tendenziell auf einen engen Ausschnitt des RL-Lösungsprozesses, während andere Aspekte weitgehend unberücksichtigt bleiben. Dieses Papier stellt Pearl vor, ein produktionsreifes RL-Agenten-Softwarepaket, das explizit darauf ausgelegt ist, diese Herausforderungen in modularer Weise zu bewältigen. Neben der Präsentation vorläufiger Benchmark-Ergebnisse hebt dieses Papier die industriellen Anwendungen von Pearl hervor, um seine Produktionsreife zu demonstrieren. Pearl ist auf Github unter github.com/facebookresearch/pearl quelloffen verfügbar, und seine offizielle Website befindet sich unter pearlagent.github.io.
Kürzlich haben Diffusionsmodelle bemerkenswerte Fortschritte in der Text-zu-Bild (T2I)-Generierung erzielt, indem sie Bilder mit hoher Detailtreue und vielfältigen Inhalten synthetisieren. Trotz dieses Fortschritts bleibt die Glattheit des latenten Raums in Diffusionsmodellen weitgehend unerforscht. Glatte latente Räume gewährleisten, dass eine Störung eines Eingabe-Latents einer stetigen Veränderung im Ausgabebild entspricht. Diese Eigenschaft erweist sich als vorteilhaft in nachgelagerten Aufgaben, einschließlich Bildinterpolation, -inversion und -bearbeitung. In dieser Arbeit decken wir die Nicht-Glattheit der latenten Räume von Diffusionsmodellen auf, indem wir deutliche visuelle Schwankungen beobachten, die sich aus geringfügigen latenten Variationen ergeben. Um dieses Problem zu lösen, schlagen wir Smooth Diffusion vor, eine neue Kategorie von Diffusionsmodellen, die gleichzeitig leistungsstark und glatt sein können. Insbesondere führen wir eine schrittweise Variationsregularisierung ein, um sicherzustellen, dass das Verhältnis zwischen den Variationen eines beliebigen Eingabe-Latents und denen des Ausgabebildes in jedem Schritt des Diffusionstrainings konstant ist. Darüber hinaus entwickeln wir eine Metrik für die Interpolationsstandardabweichung (ISTD), um die Glattheit des latenten Raums eines Diffusionsmodells effektiv zu bewerten. Umfangreiche quantitative und qualitative Experimente zeigen, dass Smooth Diffusion nicht nur in der T2I-Generierung, sondern auch in verschiedenen nachgelagerten Aufgaben eine wünschenswerte Lösung darstellt. Smooth Diffusion wird als Plug-and-Play Smooth-LoRA implementiert, um mit verschiedenen Community-Modellen zu arbeiten. Der Code ist verfügbar unter https://github.com/SHI-Labs/Smooth-Diffusion.
In dieser Studie untersuchen wir Transformer-basierte Diffusionsmodelle für die Bild- und Videogenerierung. Trotz der Dominanz von Transformer-Architekturen in verschiedenen Bereichen aufgrund ihrer Flexibilität und Skalierbarkeit, nutzt der visuelle generative Bereich hauptsächlich CNN-basierte U-Net-Architekturen, insbesondere in diffusionsbasierten Modellen. Wir stellen GenTron vor, eine Familie von generativen Modellen, die Transformer-basierte Diffusion verwenden, um diese Lücke zu schließen. Unser erster Schritt bestand darin, Diffusion Transformers (DiTs) von der Klassen- zur Textkonditionierung anzupassen, ein Prozess, der eine umfassende empirische Untersuchung des Konditionierungsmechanismus beinhaltete. Anschließend skalieren wir GenTron von etwa 900M auf über 3B Parameter und beobachten signifikante Verbesserungen in der visuellen Qualität. Darüber hinaus erweitern wir GenTron auf die Text-zu-Video-Generierung und integrieren eine neuartige bewegungsfreie Führung, um die Videoqualität zu verbessern. In menschlichen Bewertungen gegen SDXL erreicht GenTron eine Gewinnrate von 51,1 % in der visuellen Qualität (mit einer Unentschiedenrate von 19,8 %) und eine Gewinnrate von 42,3 % in der Textausrichtung (mit einer Unentschiedenrate von 42,9 %). GenTron überzeugt auch im T2I-CompBench und unterstreicht seine Stärken in der kompositionellen Generierung. Wir glauben, dass diese Arbeit wertvolle Einblicke bietet und als wertvolle Referenz für zukünftige Forschung dienen wird.
Wir stellen NeRFiller vor, einen Ansatz, der fehlende Teile einer 3D-Aufnahme durch generative 3D-Inpainting unter Verwendung von Standard-2D-visuellen Generativmodellen vervollständigt. Oft sind Teile einer erfassten 3D-Szene oder eines Objekts aufgrund von Mesh-Rekonstruktionsfehlern oder fehlenden Beobachtungen (z. B. Kontaktbereiche wie die Unterseite von Objekten oder schwer zugängliche Bereiche) unvollständig. Wir gehen dieses anspruchsvolle 3D-Inpainting-Problem an, indem wir ein 2D-Inpainting-Diffusionsmodell nutzen. Wir identifizieren ein überraschendes Verhalten dieser Modelle, bei dem sie 3D-konsistentere Inpaintings erzeugen, wenn Bilder in einem 2x2-Raster angeordnet sind, und zeigen, wie dieses Verhalten auf mehr als vier Bilder verallgemeinert werden kann. Anschließend präsentieren wir ein iteratives Framework, um diese inpainting-Bereiche in eine einzige konsistente 3D-Szene zu destillieren. Im Gegensatz zu verwandten Arbeiten konzentrieren wir uns auf die Vervollständigung von Szenen anstatt auf das Entfernen von Vordergrundobjekten, und unser Ansatz erfordert keine präzisen 2D-Objektmasken oder Text. Wir vergleichen unseren Ansatz mit relevanten Baselines, die an unsere Einstellung angepasst sind, auf einer Vielzahl von Szenen, wobei NeRFiller die 3D-konsistentesten und plausibelsten Szenenvervollständigungen erzeugt. Unsere Projektseite befindet sich unter https://ethanweber.me/nerfiller.
Kürzlich haben Diffusionsmodelle Verbesserungen in der synthetischen Bildqualität sowie eine bessere Kontrolle bei der Generierung gezeigt. Wir motivieren und präsentieren Gen2Det, eine einfache modulare Pipeline, um synthetische Trainingsdaten für die Objekterkennung kostenlos zu erstellen, indem wir state-of-the-art Methoden zur geerdeten Bildgenerierung nutzen. Im Gegensatz zu bestehenden Arbeiten, die einzelne Objektinstanzen generieren und das Identifizieren von Vordergrundobjekten gefolgt vom Einfügen in andere Bilder erfordern, vereinfachen wir den Prozess, indem wir direkt szenenzentrierte Bilder erzeugen. Zusätzlich zu den synthetischen Daten schlägt Gen2Det auch eine Reihe von Techniken vor, um die generierten Daten optimal zu nutzen, darunter Bildfilterung auf Bild- und Instanzebene sowie ein verbessertes Trainingsrezept, um Unvollkommenheiten in der Generierung zu berücksichtigen. Mit Gen2Det zeigen wir deutliche Verbesserungen bei Aufgaben der Objekterkennung und -segmentierung unter verschiedenen Bedingungen, unabhängig von der verwendeten Erkennungsmethode. Im Long-Tailed-Detection-Setting auf LVIS verbessert Gen2Det die Leistung bei seltenen Kategorien erheblich und steigert gleichzeitig die Leistung bei anderen Kategorien signifikant, z.B. sehen wir eine Verbesserung von 2,13 Box AP und 1,84 Mask AP gegenüber dem Training nur mit realen Daten auf LVIS mit Mask R-CNN. Im Low-Data-Regime-Setting auf COCO verbessert Gen2Det kontinuierlich sowohl Box als auch Mask AP um 2,27 bzw. 1,85 Punkte. Im allgemeinsten Erkennungssetting zeigt Gen2Det weiterhin robuste Leistungssteigerungen, z.B. verbessert es die Box und Mask AP auf COCO um 0,45 bzw. 0,32 Punkte.
Die personalisierte Generierung mithilfe von Diffusionsmodellen hat beeindruckende Fortschritte in der Bildgenerierung erzielt, bleibt jedoch bei der anspruchsvollen Aufgabe der Videogenerierung unbefriedigend, da sie die Kontrollierbarkeit sowohl von Subjekten als auch von Bewegungen erfordert. Zu diesem Zweck präsentieren wir DreamVideo, einen neuartigen Ansatz zur Erstellung personalisierter Videos aus einigen statischen Bildern des gewünschten Subjekts und einigen Videos der Zielbewegung. DreamVideo entkoppelt diese Aufgabe in zwei Phasen, Subjektlernen und Bewegungslernen, indem ein vortrainiertes Video-Diffusionsmodell genutzt wird. Das Subjektlernen zielt darauf ab, das feine Erscheinungsbild des Subjekts aus den bereitgestellten Bildern präzise zu erfassen, was durch die Kombination von Textinversion und Feinabstimmung unseres sorgfältig gestalteten Identitätsadapters erreicht wird. Beim Bewegungslernen entwickeln wir einen Bewegungsadapter und stimmen ihn auf den gegebenen Videos ab, um das Zielbewegungsmuster effektiv zu modellieren. Die Kombination dieser beiden leichtgewichtigen und effizienten Adapter ermöglicht eine flexible Anpassung jedes Subjekts mit jeder Bewegung. Umfangreiche experimentelle Ergebnisse demonstrieren die überlegene Leistung unseres DreamVideo im Vergleich zu den state-of-the-art Methoden für die personalisierte Videogenerierung. Unsere Projektseite finden Sie unter https://dreamvideo-t2v.github.io.
Jüngste bedeutende Fortschritte in Text-zu-Bild-Modellen eröffnen die Möglichkeit, visuelle Systeme mit synthetischen Bildern zu trainieren, wodurch potenziell die Schwierigkeit überwunden werden kann, kuratierte Daten in großem Maßstab zu sammeln. Es ist jedoch unklar, wie sich diese Modelle im großen Maßstab verhalten, wenn mehr synthetische Daten zum Trainingsdatensatz hinzugefügt werden. In dieser Arbeit untersuchen wir die Skalierungsgesetze von synthetischen Bildern, die von modernsten Text-zu-Bild-Modellen generiert werden, für das Training von überwachten Modellen: Bildklassifikatoren mit Label-Supervision und CLIP mit Sprach-Supervision. Wir identifizieren mehrere Faktoren, darunter Text-Prompts, Classifier-Free-Guidance-Scale und die Art der Text-zu-Bild-Modelle, die das Skalierungsverhalten signifikant beeinflussen. Nach der Feinabstimmung dieser Faktoren beobachten wir, dass synthetische Bilder in CLIP-Trainings einen ähnlichen, aber leicht weniger effektiven Skalierungstrend aufweisen als echte Bilder, während sie beim Training von überwachten Bildklassifikatoren deutlich schlechter abschneiden. Unsere Analyse zeigt, dass der Hauptgrund für diese Unterlegenheit die Unfähigkeit von Standard-Text-zu-Bild-Modellen ist, bestimmte Konzepte zu generieren, was das Training von Bildklassifikatoren erheblich beeinträchtigt. Unsere Ergebnisse deuten auch darauf hin, dass die Skalierung synthetischer Daten in Szenarien besonders effektiv sein kann, wie z. B.: (1) wenn es nur eine begrenzte Menge an echten Bildern für ein überwachtes Problem gibt (z. B. weniger als 0,5 Millionen Bilder in ImageNet), (2) wenn der Evaluierungsdatensatz erheblich von den Trainingsdaten abweicht, was auf ein Out-of-Distribution-Szenario hinweist, oder (3) wenn synthetische Daten in Kombination mit echten Bildern verwendet werden, wie beim Training von CLIP-Modellen gezeigt.
Obwohl Diffusionsmodelle bereits beeindruckende Fähigkeiten bei der Erzeugung fotorealistischer Bilder gezeigt haben, befindet sich die Generierung realistischer und vielfältiger Videos noch in den Kinderschuhen. Ein Hauptgrund dafür ist, dass aktuelle Methoden räumliche Inhalte und zeitliche Dynamik miteinander verknüpfen, was die Komplexität der Text-zu-Video-Generierung (T2V) erheblich erhöht. In dieser Arbeit stellen wir HiGen vor, eine auf Diffusionsmodellen basierende Methode, die die Leistung verbessert, indem sie die räumlichen und zeitlichen Faktoren von Videos aus zwei Perspektiven entkoppelt: auf der Strukturebene und der Inhaltsebene. Auf der Strukturebene zerlegen wir die T2V-Aufgabe in zwei Schritte, einschließlich räumlicher und zeitlicher Schlussfolgerung, unter Verwendung eines einheitlichen Denoisers. Konkret generieren wir während der räumlichen Schlussfolgerung räumlich kohärente Vorinformationen mithilfe von Text und erzeugen dann während der zeitlichen Schlussfolgerung zeitlich kohärente Bewegungen aus diesen Vorinformationen. Auf der Inhaltsebene extrahieren wir zwei subtile Hinweise aus dem Inhalt des Eingabevideos, die jeweils Bewegungs- und Erscheinungsänderungen ausdrücken können. Diese beiden Hinweise leiten dann das Training des Modells zur Videogenerierung, was flexible Inhaltsvariationen ermöglicht und die zeitliche Stabilität verbessert. Durch das entkoppelte Paradigma kann HiGen die Komplexität dieser Aufgabe effektiv reduzieren und realistische Videos mit semantischer Genauigkeit und Bewegungsstabilität erzeugen. Umfangreiche Experimente demonstrieren die überlegene Leistung von HiGen im Vergleich zu den aktuellsten T2V-Methoden.