Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative Priors von großskaligen Text-zu-Bild-Diffusionsmodellen ermöglichen eine Vielzahl neuer Generierungs- und Bearbeitungsanwendungen für diverse visuelle Modalitäten. Bei der Anpassung dieser Priors an komplexe visuelle Modalitäten, die oft durch mehrere Bilder (z. B. Videos) repräsentiert werden, ist es jedoch schwierig, Konsistenz über eine Reihe von Bildern hinweg zu erreichen. In diesem Artikel gehen wir diese Herausforderung mit einer neuartigen Methode, der Collaborative Score Distillation (CSD), an. CSD basiert auf dem Stein Variational Gradient Descent (SVGD). Konkret schlagen wir vor, mehrere Stichproben als „Partikel“ in der SVGD-Aktualisierung zu betrachten und ihre Score-Funktionen zu kombinieren, um generative Priors über eine Menge von Bildern synchron zu destillieren. Dadurch ermöglicht CSD eine nahtlose Integration von Informationen über 2D-Bilder hinweg, was zu einer konsistenten visuellen Synthese über mehrere Stichproben führt. Wir zeigen die Wirksamkeit von CSD in einer Vielzahl von Aufgaben, darunter die visuelle Bearbeitung von Panoramabildern, Videos und 3D-Szenen. Unsere Ergebnisse unterstreichen die Kompetenz von CSD als vielseitige Methode zur Verbesserung der Inter-Sample-Konsistenz und erweitern damit die Anwendbarkeit von Text-zu-Bild-Diffusionsmodellen.
Maschinelles Lernen für Differentialgleichungen ebnet den Weg für recheneffiziente Alternativen zu numerischen Lösern, mit potenziell weitreichenden Auswirkungen in Wissenschaft und Technik. Obwohl aktuelle Algorithmen typischerweise simulierte Trainingsdaten erfordern, die auf eine bestimmte Anwendung zugeschnitten sind, könnte man stattdessen nützliche Informationen aus heterogenen Quellen oder aus realen Beobachtungen dynamischer Systeme lernen, die unvollständig oder unstrukturiert sind. In dieser Arbeit lernen wir allgemeingültige Darstellungen von partiellen Differentialgleichungen (PDEs) aus heterogenen Daten, indem wir gemeinsame Einbettungsmethoden für selbstüberwachtes Lernen (SSL) implementieren – ein Rahmenwerk für unüberwachtes Repräsentationslernen, das in der Computer Vision beachtliche Erfolge erzielt hat. Unsere Darstellung übertrifft Baseline-Ansätze bei invarianten Aufgaben, wie der Regression der Koeffizienten einer PDE, und verbessert gleichzeitig die Zeitschrittleistung neuronaler Löser. Wir hoffen, dass unsere vorgeschlagene Methodik nützlich für die zukünftige Entwicklung allgemeingültiger Foundation-Modelle für PDEs sein wird.
Wir präsentieren einen neuartigen Ansatz zur Generierung statischer und artikulierter 3D-Assets, der einen 3D-Autodecoder als Kernkomponente nutzt. Das 3D-Autodecoder-Framework integriert Eigenschaften, die aus dem Ziel-Datensatz gelernt wurden, in den latenten Raum, der anschließend in eine volumetrische Darstellung dekodiert werden kann, um konsistente Ansichten von Erscheinung und Geometrie zu rendern. Wir identifizieren den geeigneten intermediären volumetrischen latenten Raum und führen robuste Normalisierungs- und Denormalisierungsoperationen ein, um eine 3D-Diffusion aus 2D-Bildern oder monokularen Videos von starren oder artikulierten Objekten zu lernen. Unser Ansatz ist flexibel genug, um entweder vorhandene Kamerainformationen zu nutzen oder ganz darauf zu verzichten – stattdessen wird diese effizient während des Trainings erlernt. Unsere Evaluierungen zeigen, dass unsere Generierungsergebnisse state-of-the-art Alternativen auf verschiedenen Benchmark-Datensätzen und Metriken übertreffen, einschließlich Multi-View-Bilddatensätzen synthetischer Objekte, realer Videos von sich bewegenden Personen in natürlicher Umgebung und eines groß angelegten, realen Video-Datensatzes statischer Objekte.
Gegeben eine Menge kalibrierter Bilder einer Szene, präsentieren wir einen Ansatz, der eine einfache, kompakte und handlungsfähige 3D-Weltrepräsentation mittels 3D-Primitiven erzeugt. Während viele Ansätze darauf abzielen, hochauflösende 3D-Szenen wiederherzustellen, konzentrieren wir uns darauf, eine Szene in mittelgroße 3D-Repräsentationen zu zerlegen, die aus einer kleinen Menge texturierter Primitiven bestehen. Solche Repräsentationen sind interpretierbar, leicht zu manipulieren und eignen sich für physikbasierte Simulationen. Darüber hinaus operiert unser Ansatz, im Gegensatz zu bestehenden Methoden zur Primitivzerlegung, die auf 3D-Eingabedaten angewiesen sind, direkt auf Bildern durch differenzierbares Rendering. Konkret modellieren wir Primitiven als texturierte Superquadrik-Meshes und optimieren ihre Parameter von Grund auf mit einem Bild-Rendering-Verlust. Wir betonen die Bedeutung der Modellierung von Transparenz für jedes Primitiv, die sowohl für die Optimierung entscheidend ist als auch die Handhabung einer variierenden Anzahl von Primitiven ermöglicht. Wir zeigen, dass die resultierenden texturierten Primitiven die Eingabebilder treu rekonstruieren und die sichtbaren 3D-Punkte genau modellieren, während sie gleichzeitig amodale Formergänzungen für nicht sichtbare Objektregionen liefern. Wir vergleichen unseren Ansatz mit dem Stand der Technik auf verschiedenen Szenen aus DTU und demonstrieren seine Robustheit bei realen Aufnahmen aus BlendedMVS und Nerfstudio. Wir zeigen auch, wie unsere Ergebnisse verwendet werden können, um eine Szene mühelos zu bearbeiten oder physikalische Simulationen durchzuführen. Code und Videoergebnisse sind verfügbar unter https://www.tmonnier.com/DBW.
Video-Language Pre-training (VLP) hat aufgrund seiner Fähigkeit, sich auf verschiedene Vision- und Sprachaufgaben zu verallgemeinern, zunehmend an Bedeutung gewonnen. Bisherige egocentrische VLP-Frameworks verwenden jedoch separate Video- und Sprach-Encoder und lernen aufgabenspezifische cross-modale Informationen erst während des Fine-Tunings, was die Entwicklung eines einheitlichen Systems einschränkt. In dieser Arbeit stellen wir die zweite Generation des egocentrischen Video-Language Pre-trainings (EgoVLPv2) vor, eine deutliche Verbesserung gegenüber der vorherigen Generation, indem wir die cross-modale Fusion direkt in die Video- und Sprach-Backbones integrieren. EgoVLPv2 lernt während des Pre-Trainings starke Video-Text-Repräsentationen und nutzt die cross-modalen Aufmerksamkeitsmodule wiederverwendbar, um verschiedene Downstream-Aufgaben flexibel und effizient zu unterstützen, wodurch die Kosten für das Fine-Tuning reduziert werden. Darüber hinaus ist unsere vorgeschlagene Fusion-in-den-Backbone-Strategie ressourcenschonender und recheneffizienter als das Hinzufügen zusätzlicher fusion-spezifischer Schichten. Umfangreiche Experimente auf einer Vielzahl von VL-Aufgaben demonstrieren die Effektivität von EgoVLPv2, indem konsistent state-of-the-art Leistungen gegenüber starken Baselines in allen Downstream-Aufgaben erzielt werden. Unsere Projektseite finden Sie unter https://shramanpramanick.github.io/EgoVLPv2/.
Der Zugang zu hochwertigen und vielfältigen 3D-artikulierten digitalen Menschmodellen ist in verschiedenen Anwendungen, von der virtuellen Realität bis hin zu sozialen Plattformen, von entscheidender Bedeutung. Generative Ansätze, wie 3D-Generative Adversarial Networks (GANs), ersetzen zunehmend aufwendige manuelle Inhaltserstellungstools. Allerdings basieren bestehende 3D-GAN-Frameworks typischerweise auf Szenendarstellungen, die entweder auf Template-Meshes setzen, die zwar schnell sind, aber nur begrenzte Qualität bieten, oder auf Volumen, die eine hohe Kapazität bieten, aber langsam zu rendern sind, wodurch die 3D-Treue in GAN-Umgebungen eingeschränkt wird. In dieser Arbeit führen wir geschichtete Oberflächenvolumen (Layered Surface Volumes, LSVs) als eine neue 3D-Objekt-Darstellung für artikulierte digitale Menschen ein. LSVs repräsentieren einen menschlichen Körper mithilfe mehrerer texturierter Mesh-Schichten um ein konventionelles Template herum. Diese Schichten werden mittels Alpha-Compositing mit schneller differenzierbarer Rasterisierung gerendert und können als eine volumetrische Darstellung interpretiert werden, die ihre Kapazität auf eine Mannigfaltigkeit endlicher Dicke um das Template herum verteilt. Im Gegensatz zu konventionellen Einzelschicht-Templates, die Schwierigkeiten haben, feine Details außerhalb der Oberfläche wie Haare oder Accessoires darzustellen, erfassen unsere Oberflächenvolumen solche Details auf natürliche Weise. LSVs können artikuliert werden und zeigen eine außergewöhnliche Effizienz in GAN-Umgebungen, in denen ein 2D-Generator lernt, die RGBA-Texturen für die einzelnen Schichten zu synthetisieren. Trainiert auf unstrukturierten, einseitigen 2D-Bilddatensätzen, erzeugt unser LSV-GAN hochwertige und sichtkonsistente 3D-artikulierte digitale Menschen, ohne dass sichtinkonsistente 2D-Upsampling-Netzwerke benötigt werden.
Frühere Arbeiten haben Test-Time Training (TTT) als allgemeines Framework etabliert, um ein trainiertes Modell zur Testzeit weiter zu verbessern. Bevor eine Vorhersage für jede Testinstanz getroffen wird, wird das Modell auf derselben Instanz mithilfe einer selbstüberwachten Aufgabe trainiert, wie beispielsweise Bildrekonstruktion mit maskierten Autoencodern. Wir erweitern TTT auf das Streaming-Setting, bei dem mehrere Testinstanzen – in unserem Fall Videobilder – in zeitlicher Reihenfolge eintreffen. Unsere Erweiterung ist Online-TTT: Das aktuelle Modell wird vom vorherigen Modell initialisiert und dann auf dem aktuellen Bild sowie einem kleinen Fenster von unmittelbar vorherigen Bildern trainiert. Online-TTT übertrifft die Baseline mit festem Modell bei vier Aufgaben auf drei realen Datensätzen deutlich. Die relative Verbesserung beträgt 45 % und 66 % für Instanz- und panoptische Segmentierung. Überraschenderweise übertrifft Online-TTT auch seine Offline-Variante, die auf mehr Informationen zugreift und auf allen Bildern des gesamten Testvideos unabhängig von der zeitlichen Reihenfolge trainiert. Dies unterscheidet sich von früheren Ergebnissen mit synthetischen Videos. Wir konzeptualisieren Lokalität als den Vorteil von Online- gegenüber Offline-TTT. Wir analysieren die Rolle der Lokalität mit Ablationen und einer Theorie basierend auf dem Bias-Varianz-Kompromiss.