Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) gelten als die beiden populärsten Grundlagenmodelle für das Lernen visueller Repräsentationen. Während CNNs eine bemerkenswerte Skalierbarkeit mit linearer Komplexität in Bezug auf die Bildauflösung aufweisen, übertreffen ViTs sie in ihrer Anpassungsfähigkeit, obwohl sie mit quadratischer Komplexität zu kämpfen haben. Eine genauere Betrachtung zeigt, dass ViTs eine überlegene Leistung bei der visuellen Modellierung durch die Einbeziehung globaler rezeptiver Felder und dynamischer Gewichte erreichen. Diese Beobachtung motiviert uns, eine neuartige Architektur vorzuschlagen, die diese Komponenten übernimmt und gleichzeitig die Recheneffizienz verbessert. Zu diesem Zweck lassen wir uns von dem kürzlich eingeführten Zustandsraummodell inspirieren und schlagen das Visual State Space Model (VMamba) vor, das lineare Komplexität erreicht, ohne globale rezeptiver Felder zu opfern. Um das auftretende richtungssensitive Problem zu lösen, führen wir das Cross-Scan Module (CSM) ein, um den räumlichen Bereich zu durchlaufen und jedes nicht-kausale visuelle Bild in geordnete Patch-Sequenzen umzuwandeln. Umfangreiche experimentelle Ergebnisse belegen, dass VMamba nicht nur vielversprechende Fähigkeiten bei verschiedenen visuellen Wahrnehmungsaufgaben zeigt, sondern auch deutlichere Vorteile gegenüber etablierten Benchmarks mit zunehmender Bildauflösung aufweist. Der Quellcode ist unter https://github.com/MzeroMiko/VMamba verfügbar.
Diffusionsmodelle haben neue Wege für das Feld der Bildgenerierung eröffnet, was zu einer Verbreitung hochwertiger Modelle auf Open-Source-Plattformen geführt hat. Allerdings besteht nach wie vor eine große Herausforderung darin, dass aktuelle Text-zu-Bild-Systeme oft nicht in der Lage sind, vielfältige Eingaben zu verarbeiten, oder auf Ergebnisse eines einzelnen Modells beschränkt sind. Aktuelle vereinheitlichte Ansätze fallen oft in zwei orthogonale Aspekte: i) die Analyse vielfältiger Eingabeaufforderungen (Prompts) im Eingabestadium; ii) die Aktivierung von Expertenmodellen für die Ausgabe. Um das Beste aus beiden Welten zu kombinieren, schlagen wir DiffusionGPT vor, das Large Language Models (LLM) nutzt, um ein einheitliches Generierungssystem zu bieten, das nahtlos verschiedene Arten von Prompts aufnehmen und domänenspezifische Expertenmodelle integrieren kann. DiffusionGPT konstruiert domänenspezifische Bäume für verschiedene generative Modelle basierend auf Vorwissen. Bei einer Eingabe analysiert das LLM den Prompt und verwendet die Trees-of-Thought, um die Auswahl eines geeigneten Modells zu steuern, wodurch Eingabebeschränkungen gelockert und eine außergewöhnliche Leistung über verschiedene Domänen hinweg sichergestellt wird. Darüber hinaus führen wir Advantage Databases ein, in denen der Tree-of-Thought mit menschlichem Feedback angereichert wird, um den Modellauswahlprozess an menschliche Präferenzen anzupassen. Durch umfangreiche Experimente und Vergleiche demonstrieren wir die Wirksamkeit von DiffusionGPT und zeigen sein Potenzial auf, die Grenzen der Bildsynthese in verschiedenen Domänen zu erweitern.
Wir stellen SPARse Fine-grained Contrastive Alignment (SPARC) vor, eine einfache Methode zum Pretraining feiner abgestufter multimodaler Repräsentationen aus Bild-Text-Paaren. Da mehrere Bildbereiche oft einzelnen Wörtern entsprechen, schlagen wir vor, für jedes Token in der Bildunterschrift eine Gruppierung von Bildbereichen zu lernen. Um dies zu erreichen, verwenden wir ein sparses Ähnlichkeitsmaß zwischen Bildbereichen und Sprach-Tokens und berechnen für jedes Token eine sprachgruppierte visuelle Einbettung als gewichteten Durchschnitt der Bildbereiche. Das Token und die sprachgruppierte visuelle Einbettung werden dann durch einen fein abgestuften sequenziellen Verlust kontrastiert, der nur von einzelnen Beispielen abhängt und keine anderen Batch-Beispiele als Negative benötigt. Dies ermöglicht es, detailliertere Informationen auf eine recheneffiziente Weise zu lernen. SPARC kombiniert diesen fein abgestuften Verlust mit einem kontrastiven Verlust zwischen globalen Bild- und Text-Einbettungen, um Repräsentationen zu lernen, die gleichzeitig globale und lokale Informationen kodieren. Wir evaluieren unsere vorgeschlagene Methode gründlich und zeigen verbesserte Leistungen gegenüber konkurrierenden Ansätzen sowohl bei Aufgaben auf Bildebene, die auf grob abgestuften Informationen beruhen, z.B. Klassifikation, als auch bei Aufgaben auf Regionsebene, die auf fein abgestuften Informationen beruhen, z.B. Retrieval, Objekterkennung und Segmentierung. Darüber hinaus verbessert SPARC die Modelltreue und die Bildbeschreibung in grundlegenden Vision-Sprache-Modellen.
Wie bei vielen Problemen des maschinellen Lernens hängt der Fortschritt bei Bildgenerierungsmethoden von guten Evaluationsmetriken ab. Eine der bekanntesten ist die Frechet Inception Distance (FID). FID schätzt die Distanz zwischen einer Verteilung von Inception-v3-Merkmalen realer Bilder und denen von Bildern, die durch den Algorithmus generiert wurden. Wir heben wichtige Nachteile von FID hervor: die unzureichende Darstellung des reichhaltigen und vielfältigen Inhalts, der von modernen Text-zu-Bild-Modellen erzeugt wird, durch Inception, falsche Normalitätsannahmen und eine schlechte Stichprobenkomplexität. Wir fordern eine Neubewertung der Verwendung von FID als primäre Qualitätsmetrik für generierte Bilder. Wir zeigen empirisch, dass FID im Widerspruch zu menschlichen Bewertungen steht, keine graduellen Verbesserungen iterativer Text-zu-Bild-Modelle widerspiegelt, Verzerrungsniveaus nicht erfasst und bei variierender Stichprobengröße inkonsistente Ergebnisse liefert. Wir schlagen außerdem eine neue alternative Metrik vor, CMMD, die auf reichhaltigeren CLIP-Embeddings und der Maximum Mean Discrepancy-Distanz mit dem Gaußschen RBF-Kernel basiert. Es handelt sich um einen unverzerrten Schätzer, der keine Annahmen über die Wahrscheinlichkeitsverteilung der Embeddings macht und stichprobeneffizient ist. Durch umfangreiche Experimente und Analysen zeigen wir, dass FID-basierte Bewertungen von Text-zu-Bild-Modellen unzuverlässig sein können und dass CMMD eine robustere und zuverlässigere Bewertung der Bildqualität bietet.
Wir präsentieren SHINOBI, ein End-to-End-Framework für die Rekonstruktion von Form, Material und Beleuchtung aus Objektbildern, die unter variierenden Licht-, Pose- und Hintergrundbedingungen aufgenommen wurden. Die inverse Darstellung eines Objekts basierend auf ungezwungenen Bildsammlungen ist eine langjährige Herausforderung in der Computer Vision und Grafik und erfordert eine gemeinsame Optimierung von Form, Strahlung und Pose. Wir zeigen, dass eine implizite Formdarstellung basierend auf einer Multi-Resolution-Hash-Kodierung eine schnellere und robuste Formrekonstruktion mit gemeinsamer Kameraausrichtungsoptimierung ermöglicht, die bisherige Arbeiten übertrifft. Darüber hinaus optimieren wir gemeinsam BRDF und Beleuchtung zusammen mit der Form des Objekts, um die Bearbeitung von Beleuchtung und Objektreflexion (d.h. Material) zu ermöglichen. Unsere Methode ist klassenagnostisch und funktioniert mit in-the-wild Bildsammlungen von Objekten, um beleuchtbare 3D-Assets für verschiedene Anwendungsfälle wie AR/VR, Filme, Spiele usw. zu erstellen. Projektseite: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
Das Ziel dieser Arbeit ist es, realistisches Audio mit einem leichten und schnellen, auf Diffusion basierenden Vocoder namens FreGrad zu erzeugen. Unser Framework besteht aus den folgenden drei Schlüsselkomponenten: (1) Wir verwenden die diskrete Wavelet-Transformation, die eine komplexe Wellenform in Subband-Wavelets zerlegt, wodurch FreGrad in einem einfachen und prägnanten Merkmalsraum operieren kann, (2) Wir entwerfen eine frequenzbewusste dilatierte Faltung, die das Frequenzbewusstsein erhöht und dadurch Sprache mit präzisen Frequenzinformationen erzeugt, und (3) Wir führen eine Reihe von Tricks ein, die die Generierungsqualität des vorgeschlagenen Modells verbessern. In unseren Experimenten erreicht FreGrad eine 3,7-mal schnellere Trainingszeit und eine 2,2-mal schnellere Inferenzgeschwindigkeit im Vergleich zu unserer Baseline, während die Modellgröße um das 0,6-fache reduziert wird (nur 1,78 Mio. Parameter), ohne die Ausgabequalität zu beeinträchtigen. Audio-Beispiele sind verfügbar unter: https://mm.kaist.ac.kr/projects/FreGrad.
Die maßgeschneiderte Text-zu-Video-Generierung zielt darauf ab, hochwertige Videos anhand von Textanweisungen und Subjektreferenzen zu erzeugen. Aktuelle Ansätze, die für einzelne Subjekte entwickelt wurden, haben Schwierigkeiten, mehrere Subjekte zu behandeln, was ein anspruchsvolleres und praktischeres Szenario darstellt. In dieser Arbeit streben wir die Förderung der mehrsubjektgesteuerten Text-zu-Video-Anpassung an. Wir präsentieren CustomVideo, ein neuartiges Framework, das identitätserhaltende Videos unter der Anleitung mehrerer Subjekte generieren kann. Konkret fördern wir zunächst das gleichzeitige Auftreten mehrerer Subjekte, indem wir sie in einem einzigen Bild zusammenführen. Darüber hinaus entwickeln wir auf der Grundlage eines grundlegenden Text-zu-Video-Diffusionsmodells eine einfache, aber effektive Aufmerksamkeitssteuerungsstrategie, um verschiedene Subjekte im latenten Raum des Diffusionsmodells zu entflechten. Um dem Modell zu helfen, sich auf den spezifischen Objektbereich zu konzentrieren, segmentieren wir das Objekt aus den gegebenen Referenzbildern und stellen eine entsprechende Objektmaske für das Aufmerksamkeitslernen bereit. Zudem haben wir einen mehrsubjektbezogenen Text-zu-Video-Generierungsdatensatz als umfassende Benchmark erstellt, der 69 einzelne Subjekte und 57 sinnvolle Paare umfasst. Umfangreiche qualitative, quantitative und Nutzerstudien-Ergebnisse demonstrieren die Überlegenheit unserer Methode im Vergleich zu den bisherigen State-of-the-Art-Ansätzen.