Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Lichtdiffusion vor, eine neuartige Methode zur Verbesserung der Beleuchtung in Porträts, die harte Schatten und spiegelnde Glanzlichter mildert, während die Gesamtbeleuchtung der Szene erhalten bleibt. Inspiriert von den Diffusoren und Streuschirmen professioneller Fotografen, mildert unsere Methode die Beleuchtung anhand eines einzigen Porträtfotos. Bisherige Ansätze zur Porträtbeleuchtungsänderung konzentrieren sich darauf, die gesamte Lichtumgebung zu verändern, Schatten zu entfernen (wobei starke spiegelnde Glanzlichter ignoriert werden) oder die Schattierung vollständig zu entfernen. Im Gegensatz dazu schlagen wir ein lernbasiertes Verfahren vor, das es uns ermöglicht, den Grad der Lichtdiffusion zu steuern und auf Porträts in natürlichen Umgebungen anzuwenden. Zusätzlich entwickeln wir eine Methode, um plausible externe Schatten mit Subsurface-Scattering-Effekten synthetisch zu erzeugen, die sich an die Form des Gesichts der Person anpassen. Schließlich zeigen wir, wie unser Ansatz die Robustheit von höherwertigen Bildverarbeitungsanwendungen wie Albedo-Schätzung, Geometrie-Schätzung und semantischer Segmentierung erhöhen kann.
Obwohl die jüngste rasche Entwicklung von 3D-generativen neuronalen Netzen die Erzeugung von 3D-Formen erheblich verbessert hat, ist es für gewöhnliche Benutzer immer noch nicht einfach, 3D-Formen zu erstellen und die lokale Geometrie der generierten Formen zu steuern. Um diese Herausforderungen zu bewältigen, schlagen wir ein diffusionsbasiertes 3D-Generierungsframework vor – lokal aufmerksamkeitsbasierte SDF-Diffusion, um plausible 3D-Formen über 2D-Skizzenbilder als Eingabe zu modellieren. Unser Verfahren basiert auf einem zweistufigen Diffusionsmodell. Die erste Stufe, genannt Occupancy-Diffusion, zielt darauf ab, ein niedrigauflösendes Occupancy-Feld zu generieren, um die Formhülle anzunähern. Die zweite Stufe, genannt SDF-Diffusion, synthetisiert ein hochauflösendes Signed Distance Field innerhalb der durch die erste Stufe bestimmten besetzten Voxel, um feine Geometrie zu extrahieren. Unser Modell wird durch einen neuartigen, sichtabhängigen lokalen Aufmerksamkeitsmechanismus für die bildgesteuerte Formgenerierung gestärkt, der die Vorteile von 2D-Bildpatch-Features nutzt, um das Lernen von 3D-Voxel-Features zu leiten, wodurch die lokale Steuerbarkeit und die Generalisierbarkeit des Modells erheblich verbessert werden. Durch umfangreiche Experimente in skizzen- und kategoriegesteuerten 3D-Formgenerierungsaufgaben validieren und demonstrieren wir die Fähigkeit unseres Verfahrens, plausible und vielfältige 3D-Formen bereitzustellen, sowie seine überlegene Steuerbarkeit und Generalisierbarkeit gegenüber bestehenden Arbeiten. Unser Code und trainierte Modelle sind verfügbar unter https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
Große Sprachmodelle (LLMs) haben bemerkenswerte Sprachfähigkeiten demonstriert. GPT-4, basierend auf fortschrittlichen LLMs, zeigt außergewöhnliche multimodale Fähigkeiten, die über bisherige visuelle Sprachmodelle hinausgehen. Wir führen dies auf die Verwendung fortschrittlicherer LLMs im Vergleich zu früheren multimodalen Modellen zurück. Leider sind die Modellarchitektur und Trainingsstrategien von GPT-4 unbekannt. Um LLMs mit multimodalen Fähigkeiten auszustatten, schlagen wir X-LLM vor, das Multimodalitäten (Bilder, Sprache, Videos) mithilfe von X2L-Schnittstellen in Fremdsprachen umwandelt und sie in ein großes Sprachmodell (ChatGLM) einspeist. Konkret richtet X-LLM mehrere eingefrorene Einzelmodalitäts-Encoder und einen eingefrorenen LLM mithilfe von X2L-Schnittstellen aus, wobei „X“ Multimodalitäten wie Bilder, Sprache und Videos bezeichnet und „L“ Sprachen. Das Training von X-LLM besteht aus drei Phasen: (1) Umwandlung multimodaler Informationen: In der ersten Phase wird jede X2L-Schnittstelle separat trainiert, um sich mit ihrem jeweiligen Einzelmodalitäts-Encoder auszurichten und multimodale Informationen in Sprachen umzuwandeln. (2) Ausrichtung der X2L-Repräsentationen mit dem LLM: Einzelmodalitäts-Encoder werden unabhängig über X2L-Schnittstellen mit dem LLM ausgerichtet. (3) Integration mehrerer Modalitäten: Alle Einzelmodalitäts-Encoder werden über X2L-Schnittstellen mit dem LLM ausgerichtet, um multimodale Fähigkeiten in den LLM zu integrieren. Unsere Experimente zeigen, dass X-LLM beeindruckende multimodale Chat-Fähigkeiten aufweist, manchmal das Verhalten des multimodalen GPT-4 bei unbekannten Bildern/Anweisungen zeigt, und im Vergleich zu GPT-4 auf einem synthetischen multimodalen Anweisungsfolge-Datensatz eine relative Punktzahl von 84,5 % erzielt. Wir führen auch quantitative Tests zur Verwendung von LLM für ASR und multimodale ASR durch, in der Hoffnung, das Zeitalter der LLM-basierten Spracherkennung voranzutreiben.
Kompositionelles Denken ist ein Kennzeichen der menschlichen visuellen Intelligenz; dennoch haben große Vision-Sprache-Modelle trotz ihrer Größe Schwierigkeiten, einfache Kompositionen darzustellen, indem sie Objekte mit ihren Attributen kombinieren. Um diesen Mangel an kompositioneller Fähigkeit zu messen, entwickeln wir Cola, einen Text-zu-Bild-Retrieval-Benchmark, um Objekte mit lokalisierten Attributen zu komponieren. Mit Cola als Testumgebung untersuchen wir Modellierungsansätze, um vortrainierte Vision-Sprache-Modelle so anzupassen, dass sie kompositionell über mehrere Attribute, die mehreren Objekten zugeordnet sind, schlussfolgern können. Wir untersuchen 6 Feinabstimmungsstrategien für 2 wegweisende Vision-Sprache-Modelle, wobei wir 3 Feinabstimmungsdatensätze und 2 Testbenchmarks (Cola und CREPE) verwenden. Überraschenderweise verbessert unsere optimale Feinabstimmungsstrategie ein 151M-Parameter-CLIP-Modell, das während des Vortrainings Bild und Sprache getrennt kodiert, so dass es genauso gut abschneidet wie ein 241M-Parameter-FLAVA-Modell, das während des Vortrainings einen multimodalen Transformer-Encoder verwendet, um sowohl visuelle als auch sprachliche Modalitäten zu berücksichtigen. Diese optimale Feinabstimmungsstrategie ist ein leichtgewichtiger multimodaler Adapter, der gemeinsam sowohl Bild- als auch Sprachmerkmale berücksichtigt, die vom vortrainierten Modell erzeugt werden. Wir zeigen, dass dies besser funktioniert als gängige Strategien wie Prompting/Feinabstimmung oder die Abstimmung einer vergleichbaren Anzahl von unimodalen Schichten.
Diffusionsmodelle haben sich als eine zentrale Säule von Foundation-Modellen in visuellen Domänen etabliert. Eine ihrer kritischen Anwendungen besteht darin, verschiedene nachgelagerte inverse Aufgaben universell über einen einzigen Diffusionsprior zu lösen, ohne für jede Aufgabe erneut trainieren zu müssen. Die meisten inversen Aufgaben können als Inferenz einer Posterior-Verteilung über Daten (z. B. ein vollständiges Bild) bei gegebenen Messungen (z. B. ein maskiertes Bild) formuliert werden. Dies ist jedoch in Diffusionsmodellen herausfordernd, da die nichtlineare und iterative Natur des Diffusionsprozesses die Posterior-Verteilung intraktabel macht. Um dieser Herausforderung zu begegnen, schlagen wir einen variationsbasierten Ansatz vor, der von Grund darauf abzielt, die wahre Posterior-Verteilung zu approximieren. Wir zeigen, dass unser Ansatz natürlich zu einer Regularisierung durch den Denoising-Diffusionsprozess (RED-Diff) führt, bei dem Denoiser zu verschiedenen Zeitpunkten gleichzeitig unterschiedliche strukturelle Einschränkungen über das Bild auferlegen. Um den Beitrag von Denoisern aus verschiedenen Zeitpunkten zu bewerten, schlagen wir einen Gewichtungsmechanismus basierend auf dem Signal-Rausch-Verhältnis (SNR) vor. Unser Ansatz bietet eine neue variationsbasierte Perspektive zur Lösung inverser Probleme mit Diffusionsmodellen, wodurch wir das Sampling als stochastische Optimierung formulieren können, bei der man einfach Standardlöser mit leichtgewichtigen Iterationen anwenden kann. Unsere Experimente für Bildrestaurierungsaufgaben wie Inpainting und Superresolution demonstrieren die Stärken unserer Methode im Vergleich zu state-of-the-art sampling-basierten Diffusionsmodellen.
Moderne Generatoren erzeugen Talking-Head-Videos mit beeindruckendem Fotorealismus und ermöglichen damit neue Nutzererlebnisse wie Videokonferenzen unter begrenzten Bandbreitenbudgets. Ihre sichere Einführung erfordert jedoch einen Mechanismus, um zu überprüfen, ob das gerenderte Video vertrauenswürdig ist. Beispielsweise müssen wir bei Videokonferenzen Fälle identifizieren, in denen ein synthetisches Video-Porträt das Aussehen einer Person ohne deren Zustimmung verwendet. Wir bezeichnen diese Aufgabe als Avatar-Fingerprinting. Wir schlagen vor, dieses Problem zu lösen, indem wir Gesichtsbewegungssignaturen nutzen, die für jede Person einzigartig sind. Konkret lernen wir ein Embedding, in dem die Bewegungssignaturen einer Identität zusammengefasst und von denen anderer Identitäten getrennt werden, unabhängig vom Erscheinungsbild im synthetischen Video. Avatar-Fingerprinting-Algorithmen werden entscheidend sein, da Talking-Head-Generatoren immer weiter verbreitet werden, und dennoch existieren keine groß angelegten Datensätze für diese neue Aufgabe. Daher stellen wir einen umfangreichen Datensatz zur Verfügung, in dem Personen einstudierten und improvisierten kurzen Monologen vortragen, begleitet von synthetischen Videos, in denen wir Videos einer Person mit dem Gesichtsaussehen einer anderen darstellen. Projektseite: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Webseiten stellen eine umfangreiche und skalierbare Ressource für visuell-sprachliche und rein sprachliche Aufgaben dar. Allerdings werden nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Dadurch haben Aufgaben im Zusammenhang mit Webseiten bisher wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten bleiben weitgehend ungenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage Suite (WikiWeb2M) mit 2 Millionen Seiten ein. Wir überprüfen ihren Nutzen anhand von drei generativen Aufgaben: der Erstellung von Seitenbeschreibungen, der Zusammenfassung von Abschnitten und der kontextbezogenen Bildbeschriftung. Wir entwickeln einen neuartigen Aufmerksamkeitsmechanismus, Prefix Global, der die relevantesten Bild- und Textinhalte als globale Token auswählt, um den Rest der Webseite im Kontext zu berücksichtigen. Indem die Seitenstruktur genutzt wird, um solche Token zu separieren, erzielt dieser Mechanismus bessere Ergebnisse als vollständige Aufmerksamkeit bei geringerer Rechenkomplexität. Experimente zeigen, dass die neuen Annotationen aus WikiWeb2M die Aufgabenleistung im Vergleich zu Daten aus früheren Arbeiten verbessern. Wir führen auch Ablationen zur Sequenzlänge, den Eingabemerkmalen und der Modellgröße durch.
Wir stellen eine Deep-Learning-Methode für die zusammengesetzte und aufgabengetriebene Bewegungssteuerung von physikalisch simulierten Charakteren vor. Im Gegensatz zu bestehenden datengetriebenen Ansätzen, die Verstärkungslernen verwenden, um Ganzkörperbewegungen nachzuahmen, lernen wir entkoppelte Bewegungen für spezifische Körperteile aus mehreren Referenzbewegungen gleichzeitig und direkt, indem wir die Verwendung mehrerer Diskriminatoren in einem GAN-ähnlichen Setup nutzen. In diesem Prozess ist keine manuelle Arbeit erforderlich, um zusammengesetzte Referenzbewegungen für das Lernen zu erstellen. Stattdessen erkundet die Steuerungspolitik selbstständig, wie die zusammengesetzten Bewegungen automatisch kombiniert werden können. Wir berücksichtigen weiterhin mehrere aufgabenspezifische Belohnungen und trainieren eine einzige, multiobjektive Steuerungspolitik. Zu diesem Zweck schlagen wir ein neuartiges Framework für das Multi-Objective-Learning vor, das das Lernen unterschiedlicher Bewegungen aus mehreren Quellen und mehrere zielgerichtete Steuerungsziele adaptiv ausbalanciert. Darüber hinaus, da zusammengesetzte Bewegungen typischerweise Erweiterungen einfacherer Verhaltensweisen sind, führen wir eine probeneffiziente Methode für das Training zusammengesetzter Steuerungspolitiken in einem inkrementellen Ansatz ein, bei der wir eine vortrainierte Politik als Meta-Politik wiederverwenden und eine kooperative Politik trainieren, die die Meta-Politik für neue zusammengesetzte Aufgaben anpasst. Wir zeigen die Anwendbarkeit unseres Ansatzes anhand einer Vielzahl herausfordernder Multi-Objective-Aufgaben, die sowohl die Nachahmung zusammengesetzter Bewegungen als auch mehrere zielgerichtete Steuerungen umfassen.