Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen aMUSEd vor, ein quelloffenes, leichtgewichtiges Masked Image Model (MIM) für die Text-zu-Bild-Generierung, das auf MUSE basiert. Mit nur 10 Prozent der Parameter von MUSE konzentriert sich aMUSEd auf schnelle Bildgenerierung. Wir glauben, dass MIM im Vergleich zur latenten Diffusion, dem vorherrschenden Ansatz für die Text-zu-Bild-Generierung, noch nicht ausreichend erforscht ist. Im Vergleich zur latenten Diffusion benötigt MIM weniger Inferenzschritte und ist interpretierbar. Darüber hinaus kann MIM mit nur einem einzigen Bild feinabgestimmt werden, um zusätzliche Stile zu erlernen. Wir hoffen, die weitere Erforschung von MIM zu fördern, indem wir seine Effektivität bei der groß angelegten Text-zu-Bild-Generierung demonstrieren und reproduzierbaren Trainingscode veröffentlichen. Wir stellen auch Checkpoints für zwei Modelle bereit, die direkt Bilder in den Auflösungen 256x256 und 512x512 erzeugen.
Wir präsentieren ein Framework zur Erzeugung von vollständigen, fotorealistischen Avataren, deren Gesten sich an den Gesprächsdynamiken einer dyadischen Interaktion orientieren. Basierend auf Sprachaudio erzeugen wir mehrere Möglichkeiten von Gestenbewegungen für eine Person, einschließlich Gesicht, Körper und Hände. Der Schlüssel unserer Methode liegt in der Kombination der Vorteile von Stichprobenvielfalt durch Vektorquantisierung mit den hochfrequenten Details, die durch Diffusion gewonnen werden, um dynamischere und ausdrucksstärkere Bewegungen zu erzeugen. Wir visualisieren die erzeugten Bewegungen mithilfe hochgradig fotorealistischer Avatare, die entscheidende Nuancen in Gesten (z.B. spöttische Blicke und Grinsen) ausdrücken können. Um diese Forschungsrichtung zu unterstützen, führen wir einen erstmaligen multiview-Konversationsdatensatz ein, der eine fotorealistische Rekonstruktion ermöglicht. Experimente zeigen, dass unser Modell angemessene und vielfältige Gesten erzeugt und sowohl reine Diffusions- als auch VQ-Methoden übertrifft. Darüber hinaus unterstreicht unsere Wahrnehmungsbewertung die Bedeutung von Fotorealismus (im Vergleich zu Meshes) bei der genauen Beurteilung subtiler Bewegungsdetails in Konversationsgesten. Code und Datensatz sind online verfügbar.
Wir präsentieren Image Sculpting, ein neues Framework zur Bearbeitung von 2D-Bildern durch die Integration von Werkzeugen aus der 3D-Geometrie und -Grafik. Dieser Ansatz unterscheidet sich deutlich von bestehenden Methoden, die auf 2D-Räume beschränkt sind und typischerweise auf textuelle Anweisungen angewiesen sind, was zu Mehrdeutigkeiten und begrenzter Kontrolle führt. Image Sculpting wandelt 2D-Objekte in 3D um und ermöglicht eine direkte Interaktion mit ihrer 3D-Geometrie. Nach der Bearbeitung werden diese Objekte wieder in 2D gerendert und in das Originalbild integriert, um durch einen grob-zu-fein-Verbesserungsprozess hochwertige Ergebnisse zu erzielen. Das Framework unterstützt präzise, quantifizierbare und physikalisch plausible Bearbeitungsoptionen wie Pose-Bearbeitung, Rotation, Translation, 3D-Komposition, Schnitzen und serielle Hinzufügung. Es markiert einen ersten Schritt hin zur Kombination der kreativen Freiheit generativer Modelle mit der Präzision von Grafikpipelines.
Fortschritte bei Bilddiffusionsmodellen haben in letzter Zeit zu bemerkenswerten Verbesserungen bei der Erzeugung hochwertiger Bilder geführt. In Kombination mit Neural Radiance Fields (NeRFs) haben sie neue Möglichkeiten in der 3D-Generierung eröffnet. Die meisten generativen 3D-Ansätze sind jedoch objektzentriert, und ihre Anwendung auf die Bearbeitung bestehender fotorealistischer Szenen ist nicht trivial. Wir schlagen SIGNeRF vor, einen neuartigen Ansatz für schnelle und kontrollierbare NeRF-Szenenbearbeitung und szenenintegrierte Objektgenerierung. Eine neue generative Aktualisierungsstrategie gewährleistet 3D-Konsistenz über die bearbeiteten Bilder hinweg, ohne iterative Optimierung zu erfordern. Wir stellen fest, dass tiefenkonditionierte Diffusionsmodelle inhärent die Fähigkeit besitzen, 3D-konsistente Ansichten zu erzeugen, indem sie ein Raster von Bildern anstelle einzelner Ansichten anfordern. Basierend auf diesen Erkenntnissen führen wir ein Multi-View-Referenzblatt modifizierter Bilder ein. Unsere Methode aktualisiert eine Bildersammlung konsistent basierend auf dem Referenzblatt und verfeinert das ursprüngliche NeRF mit dem neu generierten Bildersatz in einem Schritt. Durch die Nutzung des Tiefenkonditionierungsmechanismus des Bilddiffusionsmodells erlangen wir eine feine Kontrolle über den räumlichen Ort der Bearbeitung und erzwingen eine Formführung durch eine ausgewählte Region oder ein externes Mesh.
Die diffusionsbasierten Methoden zur Singing Voice Conversion (SVC) haben bemerkenswerte Leistungen erzielt und natürliche Audios erzeugt, die eine hohe Ähnlichkeit mit dem Zielklang aufweisen. Der iterative Sampling-Prozess führt jedoch zu einer langsamen Inferenzgeschwindigkeit, weshalb eine Beschleunigung entscheidend wird. In diesem Artikel schlagen wir CoMoSVC vor, eine SVC-Methode basierend auf einem Konsistenzmodell, die sowohl eine hochwertige Generierung als auch eine schnelle Sampling-Geschwindigkeit anstrebt. Zunächst wird ein diffusionsbasiertes Lehrer-Modell speziell für SVC entwickelt, und ein Schüler-Modell wird weiterhin unter Selbstkonsistenz-Eigenschaften destilliert, um ein One-Step-Sampling zu erreichen. Experimente auf einer einzelnen NVIDIA GTX4090 GPU zeigen, dass CoMoSVC zwar eine deutlich schnellere Inferenzgeschwindigkeit als das state-of-the-art (SOTA) diffusionsbasierte SVC-System aufweist, aber dennoch eine vergleichbare oder überlegene Konvertierungsleistung basierend auf sowohl subjektiven als auch objektiven Metriken erzielt. Audio-Beispiele und Codes sind unter https://comosvc.github.io/ verfügbar.
Parallele Text-zu-Sprache-Modelle wurden weit verbreitet für die Echtzeit-Sprachsynthese eingesetzt und bieten im Vergleich zu herkömmlichen autoregressiven Modellen mehr Kontrollierbarkeit und einen deutlich schnelleren Syntheseprozess. Obwohl parallele Modelle in vielen Aspekten Vorteile haben, eignen sie sich aufgrund ihrer vollständig parallelen Architektur, wie beispielsweise dem Transformer, natürlicherweise nicht für die inkrementelle Synthese. In dieser Arbeit schlagen wir Incremental FastPitch vor, eine neuartige Variante von FastPitch, die in der Lage ist, hochwertige Mel-Chunks inkrementell zu erzeugen, indem die Architektur durch chunk-basierte FFT-Blöcke verbessert wird, das Training mit rezeptivfeldbeschränkten Chunk-Attentionsmasken durchgeführt wird und die Inferenz mit festen Modellzuständen der Vergangenheit erfolgt. Experimentelle Ergebnisse zeigen, dass unser Vorschlag eine Sprachqualität erreicht, die mit der des parallelen FastPitch vergleichbar ist, jedoch mit einer deutlich geringeren Latenz, die eine noch kürzere Antwortzeit für Echtzeit-Sprachanwendungen ermöglicht.
DSLR-Kameras können mehrere Zoomstufen durch das Verschieben von Linsenabständen oder den Austausch von Linsentypen erreichen. Diese Techniken sind jedoch bei Smartphone-Geräten aufgrund von Platzbeschränkungen nicht möglich. Die meisten Smartphone-Hersteller verwenden ein Hybrid-Zoom-System: typischerweise eine Weitwinkelkamera (W) bei einem niedrigen Zoomlevel und eine Telefotokamera (T) bei einem hohen Zoomlevel. Um Zoomstufen zwischen W und T zu simulieren, schneiden diese Systeme Bilder von W zu und vergrößern sie digital, was zu einem erheblichen Detailverlust führt. In diesem Artikel schlagen wir ein effizientes System für Hybrid-Zoom-Super-Resolution auf Mobilgeräten vor, das ein synchrones Paar von W- und T-Aufnahmen erfasst und maschinelle Lernmodelle nutzt, um Details von T auf W auszurichten und zu übertragen. Wir entwickeln weiterhin eine adaptive Blending-Methode, die Tiefenschärfeunterschiede, Szenenverdeckungen, Flussunsicherheiten und Ausrichtungsfehler berücksichtigt. Um die Domänenlücke zu minimieren, entwerfen wir ein Dual-Phone-Kamerarig, um reale Eingaben und Ground-Truths für das überwachte Training zu erfassen. Unsere Methode erzeugt ein 12-Megapixel-Bild in 500 ms auf einer mobilen Plattform und schneidet bei umfangreichen Bewertungen in realen Szenarien im Vergleich zu state-of-the-art Methoden positiv ab.