Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die auf Ziehen basierende Bildbearbeitung hat in letzter Zeit an Popularität gewonnen aufgrund ihrer Interaktivität und Präzision. Trotz der Fähigkeit von Text-zu-Bild-Modellen, innerhalb einer Sekunde Proben zu generieren, hinkt die Ziehbearbeitung immer noch hinterher, aufgrund der Herausforderung, die Benutzerinteraktion genau widerzuspiegeln, während der Bildinhalt beibehalten wird. Einige bestehende Ansätze verlassen sich auf rechenaufwändige Optimierung pro Bild oder auf komplexe, anleitungs-basierte Methoden, die zusätzliche Eingaben wie Masken für bewegliche Bereiche und Textanweisungen erfordern, wodurch die Interaktivität des Bearbeitungsprozesses beeinträchtigt wird. Wir stellen InstantDrag vor, eine optimierungsfreie Pipeline, die die Interaktivität und Geschwindigkeit verbessert und nur ein Bild und eine Ziehanweisung als Eingabe benötigt. InstantDrag besteht aus zwei sorgfältig entworfenen Netzwerken: einem Ziehbedingten optischen Flussgenerator (FlowGen) und einem optischen Flussbedingten Diffusionsmodell (FlowDiffusion). InstantDrag lernt Bewegungsdynamiken für die auf Ziehen basierende Bildbearbeitung in realen Videodatensätzen, indem die Aufgabe in Bewegungsgenerierung und bewegungsbedingte Bildgenerierung zerlegt wird. Wir zeigen die Fähigkeit von InstantDrag, schnelle, fotorealistische Bearbeitungen ohne Masken oder Textanweisungen durch Experimente an Gesichtsvideodatensätzen und allgemeinen Szenen durchzuführen. Diese Ergebnisse heben die Effizienz unseres Ansatzes bei der Bewältigung der auf Ziehen basierenden Bildbearbeitung hervor und machen ihn zu einer vielversprechenden Lösung für interaktive, Echtzeit-Anwendungen.
Das Animieren verschiedener Charakterzeichnungen ist eine fesselnde Aufgabe zur visuellen Inhaltserstellung. Bei einer einzelnen Charakterzeichnung sind bestehende Animationsmethoden auf flache 2D-Bewegungen beschränkt und daher ohne 3D-Effekte. Eine alternative Lösung besteht darin, ein 3D-Modell aus einer Charakterzeichnung als Platzhalter zu rekonstruieren und dann 3D-Bewegungsdaten darauf umzuleiten. Die bestehenden Bild-zu-3D-Methoden funktionieren jedoch nicht gut für Amateur-Charakterzeichnungen hinsichtlich Aussehen und Geometrie. Wir beobachten, dass die Konturlinien, die in Charakterzeichnungen üblicherweise vorhanden sind, aufgrund ihrer Ansichtsabhängigkeit eine erhebliche Unschärfe bei der Textursynthese verursachen würden. Darüber hinaus sind dünnere Regionen, die durch Einzellinienkonturen dargestellt werden (z. B. schlanke Gliedmaßen einer Strichfigur), aufgrund ihrer filigranen Strukturen schwer zu rekonstruieren. Um diese Probleme zu lösen, schlagen wir ein neuartiges System, DrawingSpinUp, vor, um glaubwürdige 3D-Animationen zu erstellen und Charakterzeichnungen zum Leben zu erwecken, sodass sie sich frei drehen, springen und sogar einen Hip-Hop-Tanz aufführen können. Zur Verbesserung des Aussehens verwenden wir eine Entfernungs-und-Wiederherstellungs-Strategie, um zuerst die ansichtsabhängigen Konturlinien zu entfernen und sie dann nach der Umleitung des rekonstruierten Charakters wieder zu rendern. Für die Geometrie-Verfeinerung entwickeln wir einen skelettgestützten Verdünnungsverformungsalgorithmus, um die schlanken Strukturen, die durch Einzellinienkonturen dargestellt werden, zu verfeinern. Die experimentellen Bewertungen und eine wahrnehmungsbasierte Benutzerstudie zeigen, dass unsere vorgeschlagene Methode die bestehenden 2D- und 3D-Animationsmethoden übertrifft und hochwertige 3D-Animationen aus einer einzelnen Charakterzeichnung generiert. Bitte besuchen Sie unsere Projektseite (https://lordliang.github.io/DrawingSpinUp) für den Code und die generierten Animationen.
Die Open-Vocabulary Detection (OVD) zielt darauf ab, Objekte jenseits eines vordefinierten Satzes von Kategorien zu erkennen. Als wegweisendes Modell, das die YOLO-Serie in die OVD integriert, ist YOLO-World gut geeignet für Szenarien, die Geschwindigkeit und Effizienz priorisieren. Allerdings wird seine Leistung durch den Halsmerkmal-Fusionsmechanismus beeinträchtigt, der die quadratische Komplexität und die begrenzten geleiteten rezeptiven Felder verursacht. Um diese Einschränkungen zu beheben, präsentieren wir Mamba-YOLO-World, ein neuartiges auf YOLO basierendes OVD-Modell, das die vorgeschlagene MambaFusion Path Aggregation Network (MambaFusion-PAN) als seinen Halsarchitektur verwendet. Speziell führen wir einen innovativen Merkmalsfusionsmechanismus auf Basis eines State Space Models ein, der aus einem Parallel-Guided Selective Scan-Algorithmus und einem Serial-Guided Selective Scan-Algorithmus mit linearer Komplexität und global geleiteten rezeptiven Feldern besteht. Er nutzt multimodale Eingabesequenzen und Mamba Hidden States, um den selektiven Scan-Prozess zu steuern. Experimente zeigen, dass unser Modell die ursprüngliche YOLO-World auf den COCO- und LVIS-Benchmarks sowohl in Zero-Shot- als auch in Fine-Tuning-Einstellungen übertrifft, während es vergleichbare Parameter und FLOPs beibehält. Darüber hinaus übertrifft es bestehende State-of-the-Art OVD-Methoden mit weniger Parametern und FLOPs.
Die Neubeleuchtung von Strahlungsfeldern ist für Mehrblickdaten stark unterbestimmt, die meist unter einer einzigen Beleuchtungsbedingung erfasst werden, insbesondere für vollständige Szenen mit mehreren Objekten. Wir stellen eine Methode vor, um neubeleuchtungsfähige Strahlungsfelder unter Verwendung solcher Einzelbeleuchtungsdaten zu erstellen, indem wir Prioritäten nutzen, die aus 2D-Bild-Diffusionsmodellen extrahiert wurden. Zunächst verfeinern wir ein 2D-Diffusionsmodell auf einem Multi-Beleuchtungsdatensatz, der durch Lichtrichtung bedingt ist, was es uns ermöglicht, eine Einzelbeleuchtungsaufnahme in einen realistischen - aber möglicherweise inkonsistenten - Multi-Beleuchtungsdatensatz aus direkt definierten Lichtrichtungen zu erweitern. Wir verwenden diese erweiterten Daten, um ein neubeleuchtungsfähiges Strahlungsfeld darzustellen, das durch 3D-Gaußsche Splats repräsentiert wird. Um eine direkte Steuerung der Lichtrichtung für niederfrequente Beleuchtung zu ermöglichen, stellen wir das Erscheinungsbild mit einem mehrschichtigen Perzeptron dar, das auf die Lichtrichtung parametrisiert ist. Um die Mehrblickkonsistenz durchzusetzen und Ungenauigkeiten zu überwinden, optimieren wir einen pro-Bild-Hilfsmerkmalsvektor. Wir zeigen Ergebnisse an synthetischen und realen Mehrblickdaten unter Einzelbeleuchtung und zeigen, dass unsere Methode erfolgreich 2D-Diffusionsmodell-Prioritäten nutzt, um eine realistische 3D-Neubeleuchtung für vollständige Szenen zu ermöglichen. Projektsite: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
Volumetrisches Video stellt einen bahnbrechenden Fortschritt in visuellen Medien dar, der es Benutzern ermöglicht, sich frei durch immersive virtuelle Erlebnisse zu navigieren und die Kluft zwischen digitaler und realer Welt zu verkleinern. Allerdings behindert der Bedarf an umfangreicher manueller Intervention zur Stabilisierung von Mesh-Sequenzen und zur Erzeugung übermäßig großer Assets in bestehenden Workflows eine breitere Akzeptanz. In diesem Paper präsentieren wir einen neuartigen, auf Gauss'scher Basis beruhenden Ansatz namens DualGS für die Echtzeit- und hochwertige Wiedergabe komplexer menschlicher Leistungen mit ausgezeichneten Kompressionsraten. Die Schlüsselidee bei DualGS besteht darin, Bewegung und Erscheinung separat mithilfe der entsprechenden Haut- und Gelenk-Gauss'schen Funktionen zu repräsentieren. Eine solche explizite Entflechtung kann die Bewegungsredundanz signifikant reduzieren und die zeitliche Kohärenz verbessern. Wir beginnen mit der Initialisierung von DualGS und verankern Haut-Gauss'sche Funktionen an Gelenk-Gauss'schen Funktionen im ersten Frame. Anschließend verwenden wir eine Grob-zu-Fein-Trainingsstrategie für die framegenaue Modellierung menschlicher Leistungen. Diese umfasst eine grobe Ausrichtungsphase für die allgemeine Bewegungsvorhersage sowie eine fein abgestimmte Optimierung für robustes Tracking und hochwertiges Rendern. Um volumetrisches Video nahtlos in VR-Umgebungen zu integrieren, komprimieren wir Bewegung effizient mithilfe von Entropie-Codierung und Erscheinungsbild mithilfe von Codec-Kompression in Verbindung mit einem persistenten Codebuch. Unser Ansatz erreicht ein Kompressionsverhältnis von bis zu 120 Mal und erfordert nur etwa 350 KB Speicherplatz pro Frame. Wir zeigen die Wirksamkeit unserer Darstellung durch fotorealistische, frei einsehbare Erlebnisse auf VR-Headsets, die es Benutzern ermöglichen, Musiker bei ihrer Darbietung immersiv zu beobachten und den Rhythmus der Noten an den Fingerspitzen der Künstler zu spüren.
Die Audiorestaurierung ist in der modernen Gesellschaft zunehmend bedeutend geworden, nicht nur aufgrund der Nachfrage nach hochwertigen Hörerlebnissen, die durch fortschrittliche Wiedergabegeräte ermöglicht werden, sondern auch, weil die wachsenden Fähigkeiten generativer Audio-Modelle eine hochwertige Audiowiedergabe erfordern. Typischerweise wird die Audiorestaurierung als Aufgabe definiert, unverzerrten Ton aus beschädigten Eingaben vorherzusagen, die oft mithilfe eines GAN-Frameworks trainiert werden, um Wahrnehmung und Verzerrung auszubalancieren. Da die Audiodegradation hauptsächlich in den mittleren und hohen Frequenzbereichen konzentriert ist, insbesondere aufgrund von Codecs, liegt eine zentrale Herausforderung darin, einen Generator zu entwerfen, der in der Lage ist, Niederfrequenzinformationen zu bewahren, während er mittel- und hochfrequente Inhalte präzise rekonstruiert. Inspiriert von den neuesten Fortschritten in der Musiktrennung mit hoher Abtastrate, der Sprachverbesserung und den Audio-Codec-Modellen schlagen wir Apollo vor, ein generatives Modell, das für die Audiorestaurierung mit hoher Abtastrate entwickelt wurde. Apollo verwendet ein explizites Frequenzband-Split-Modul, um die Beziehungen zwischen verschiedenen Frequenzbändern zu modellieren, was eine kohärentere und hochwertigere restaurierte Audioausgabe ermöglicht. Anhand der MUSDB18-HQ- und MoisesDB-Datensätze übertrifft Apollo kontinuierlich bestehende SR-GAN-Modelle bei verschiedenen Bitraten und Musikgenres und zeichnet sich insbesondere in komplexen Szenarien aus, die Mischungen aus mehreren Instrumenten und Gesang beinhalten. Apollo verbessert signifikant die Qualität der Musikrestaurierung und bewahrt dabei die Recheneffizienz. Der Quellcode für Apollo ist öffentlich verfügbar unter https://github.com/JusperLee/Apollo.
In den letzten Fortschritten in generativen Modellen haben die Bildgenerierung und -bearbeitung revolutioniert und diese Aufgaben auch für Nicht-Experten zugänglich gemacht. Dieser Artikel konzentriert sich auf die lokale Bildbearbeitung, insbesondere die Aufgabe, neuen Inhalt in einen grob spezifizierten Bereich hinzuzufügen. Bestehende Methoden erfordern oft eine präzise Maske oder eine detaillierte Beschreibung des Ortes, was umständlich und fehleranfällig sein kann. Wir schlagen Click2Mask vor, einen neuartigen Ansatz, der den lokalen Bearbeitungsprozess vereinfacht, indem nur ein einziger Referenzpunkt (zusätzlich zur Inhaltsbeschreibung) erforderlich ist. Eine Maske wird während eines Blended Latent Diffusion (BLD)-Prozesses dynamisch um diesen Punkt herum erweitert, geleitet durch einen maskierten CLIP-basierten semantischen Verlust. Click2Mask überwindet die Einschränkungen von segmentierungsbasierten und feinabstimmungsabhängigen Methoden und bietet eine benutzerfreundlichere und kontextuell genauere Lösung. Unsere Experimente zeigen, dass Click2Mask nicht nur den Benutzeraufwand minimiert, sondern auch wettbewerbsfähige oder überlegene Ergebnisse bei der lokalen Bildmanipulation im Vergleich zu führenden Methoden liefert, sowohl nach menschlichem Ermessen als auch nach automatischen Metriken. Zu den Hauptbeiträgen gehören die Vereinfachung der Benutzereingabe, die Möglichkeit, Objekte frei hinzuzufügen, ohne durch vorhandene Segmente eingeschränkt zu sein, sowie das Integrationspotenzial unseres dynamischen Maskenansatzes in anderen Bearbeitungsmethoden.