Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir widmen uns der Aufgabe der bedingten Musikerzeugung. Wir stellen MusicGen vor, ein einzelnes Sprachmodell (Language Model, LM), das über mehrere Ströme komprimierter diskreter Musikrepräsentationen, d.h. Tokens, operiert. Im Gegensatz zu früheren Arbeiten besteht MusicGen aus einem einstufigen Transformer-LM zusammen mit effizienten Token-Interleaving-Mustern, wodurch die Notwendigkeit entfällt, mehrere Modelle kaskadiert einzusetzen, z.B. hierarchisch oder durch Upsampling. Mit diesem Ansatz zeigen wir, wie MusicGen hochwertige Samples erzeugen kann, während es auf textuelle Beschreibungen oder melodische Merkmale konditioniert ist, was eine bessere Kontrolle über das generierte Ergebnis ermöglicht. Wir führen eine umfangreiche empirische Evaluation durch, die sowohl automatische als auch menschliche Studien berücksichtigt, und zeigen, dass der vorgeschlagene Ansatz den bewerteten Baselines in einem Standard-Text-zu-Musik-Benchmark überlegen ist. Durch Ablationsstudien beleuchten wir die Bedeutung jeder der Komponenten, aus denen MusicGen besteht. Musikbeispiele, Code und Modelle sind verfügbar unter https://github.com/facebookresearch/audiocraft.
Hochwertige Anweisungen und Antworten sind entscheidend für die Zero-Shot-Leistung großer Sprachmodelle bei interaktiven Aufgaben in natürlicher Sprache. Für interaktive Aufgaben im Bereich Vision-Language, die komplexe visuelle Szenen beinhalten, ist eine große Menge an vielfältigen und kreativen Anweisungs-Antwort-Paaren unerlässlich, um Vision-Language-Modelle (VLMs) zu optimieren. Dennoch ist die derzeitige Verfügbarkeit von Vision-Language-Anweisungs-Antwort-Paaren in Bezug auf Menge, Vielfalt und Kreativität begrenzt, was die Generalisierung interaktiver VLMs erschwert. Hier präsentieren wir MultI-Modal In-Context Instruction Tuning (MIMIC-IT), einen Datensatz, der 2,8 Millionen multimodale Anweisungs-Antwort-Paare umfasst, mit 2,2 Millionen einzigartigen Anweisungen, die aus Bildern und Videos abgeleitet wurden. Jedes Paar wird durch multimodale Kontextinformationen ergänzt, die Gesprächskontexte bilden, die darauf abzielen, VLMs in Wahrnehmung, logischem Denken und Planung zu stärken. Der Prozess der Anweisungs-Antwort-Sammlung, genannt Syphus, wird durch eine automatische Annotationspipeline skaliert, die menschliche Expertise mit den Fähigkeiten von GPT kombiniert. Mit dem MIMIC-IT-Datensatz trainieren wir ein großes VLM namens Otter. Basierend auf umfangreichen Bewertungen, die auf Vision-Language-Benchmarks durchgeführt wurden, wurde beobachtet, dass Otter bemerkenswerte Fähigkeiten in multimodaler Wahrnehmung, logischem Denken und In-Context-Lernen zeigt. Die menschliche Bewertung zeigt, dass es effektiv mit den Absichten des Benutzers übereinstimmt. Wir veröffentlichen den MIMIC-IT-Datensatz, die Anweisungs-Antwort-Sammlungspipeline, Benchmarks und das Otter-Modell.
Wir stellen eine neue Methode zur Testzeitoptimierung vor, um dichte und weitreichende Bewegungen aus einer Videosequenz zu schätzen. Bisherige Algorithmen für optischen Fluss oder Partikel-Video-Tracking arbeiten typischerweise innerhalb begrenzter zeitlicher Fenster und haben Schwierigkeiten, Verdeckungen zu verfolgen und die globale Konsistenz der geschätzten Bewegungspfade aufrechtzuerhalten. Wir schlagen eine vollständige und global konsistente Bewegungsdarstellung vor, die wir OmniMotion nennen, die eine präzise, vollständige Bewegungsschätzung für jedes Pixel in einem Video ermöglicht. OmniMotion repräsentiert ein Video mithilfe eines quasi-3D-kanonischen Volumens und führt eine pixelweise Verfolgung durch Bijektionen zwischen lokalem und kanonischem Raum durch. Diese Darstellung ermöglicht es uns, globale Konsistenz sicherzustellen, Verdeckungen zu verfolgen und jede Kombination von Kamera- und Objektbewegungen zu modellieren. Umfangreiche Auswertungen auf dem TAP-Vid-Benchmark und realen Aufnahmen zeigen, dass unser Ansatz bisherige state-of-the-art-Methoden sowohl quantitativ als auch qualitativ deutlich übertrifft. Weitere Ergebnisse finden Sie auf unserer Projektseite: http://omnimotion.github.io/
Konversationsagenten, die durch Large Language Models (LLMs) angetrieben werden, bieten eine neue Möglichkeit, mit visuellen Daten zu interagieren. Während es bereits erste Ansätze für bildbasierte Konversationsmodelle gab, widmet sich diese Arbeit dem bisher wenig erforschten Bereich der videobasierten Konversation durch die Einführung von Video-ChatGPT. Es handelt sich um ein multimodales Modell, das einen videoadaptierten visuellen Encoder mit einem LLM kombiniert. Das Modell ist in der Lage, menschenähnliche Konversationen über Videos zu verstehen und zu generieren. Wir stellen einen neuen Datensatz mit 100.000 Video-Instruktions-Paaren vor, der zum Training von Video-ChatGPT verwendet wird und über eine manuelle und halbautomatisierte Pipeline erstellt wurde, die leicht skalierbar und robust gegenüber Label-Rauschen ist. Zudem entwickeln wir ein quantitatives Bewertungsframework für videobasierte Dialogmodelle, um die Stärken und Schwächen der vorgeschlagenen Modelle objektiv zu analysieren. Unser Code, Modelle, Instruktionssätze und eine Demo sind unter https://github.com/mbzuai-oryx/Video-ChatGPT verfügbar.
Die bemerkenswerten Fähigkeiten vortrainierter Bilddiffusionsmodelle wurden nicht nur zur Erzeugung von Bildern fester Größe, sondern auch zur Erstellung von Panoramen genutzt. Allerdings führt das naive Zusammenfügen mehrerer Bilder oft zu sichtbaren Nahtstellen. Neuere Techniken haben versucht, dieses Problem zu lösen, indem sie gemeinsame Diffusionen in mehreren Fenstern durchführen und latente Merkmale in überlappenden Regionen mitteln. Diese Ansätze, die sich auf die nahtlose Erstellung von Montagen konzentrieren, führen jedoch oft zu inkohärenten Ergebnissen, indem sie verschiedene Szenen innerhalb eines einzelnen Bildes vermischen. Um diese Einschränkung zu überwinden, schlagen wir SyncDiffusion vor, ein Plug-and-Play-Modul, das mehrere Diffusionen durch Gradientenabstieg aus einem wahrnehmungsbasierten Ähnlichkeitsverlust synchronisiert. Konkret berechnen wir den Gradienten des wahrnehmungsbasierten Verlusts anhand der vorhergesagten entrauschten Bilder in jedem Entrauschungsschritt, wodurch eine sinnvolle Anleitung zur Erzielung kohärenter Montagen bereitgestellt wird. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu früheren Methoden deutlich kohärentere Ergebnisse liefert (66,35 % gegenüber 33,65 % in unserer Nutzerstudie), während gleichzeitig die Treue (bewertet durch GIQA) und die Kompatibilität mit dem Eingabe-Prompt (gemessen durch den CLIP-Score) erhalten bleiben.
In diesem Artikel stellen wir das Matting Anything Model (MAM) vor, ein effizientes und vielseitiges Framework zur Schätzung des Alpha-Mattes jeder Instanz in einem Bild mit flexibler und interaktiver visueller oder linguistischer Benutzerführung. MAM bietet mehrere bedeutende Vorteile gegenüber früheren spezialisierten Bildmatting-Netzwerken: (i) MAM ist in der Lage, verschiedene Arten von Bildmatting zu verarbeiten, einschließlich semantischem, instanzbasiertem und referenziellem Bildmatting, und dies mit nur einem einzigen Modell; (ii) MAM nutzt die Feature-Maps des Segment Anything Model (SAM) und verwendet ein leichtgewichtiges Mask-to-Matte (M2M)-Modul, um das Alpha-Matte durch iterative Verfeinerung vorherzusagen, das nur 2,7 Millionen trainierbare Parameter besitzt. (iii) Durch die Integration von SAM vereinfacht MAM die erforderliche Benutzerintervention für die interaktive Nutzung von Bildmatting vom Trimap auf eine Box, einen Punkt oder einen Text-Prompt. Wir evaluieren die Leistung von MAM auf verschiedenen Bildmatting-Benchmarks, und die experimentellen Ergebnisse zeigen, dass MAM eine vergleichbare Leistung zu den state-of-the-art spezialisierten Bildmatting-Modellen unter verschiedenen Metriken auf jedem Benchmark erzielt. Insgesamt zeigt MAM eine überlegene Generalisierungsfähigkeit und kann effektiv verschiedene Bildmatting-Aufgaben mit weniger Parametern bewältigen, was es zu einer praktischen Lösung für einheitliches Bildmatting macht. Unser Code und unsere Modelle sind unter https://github.com/SHI-Labs/Matting-Anything open-source verfügbar.
Das Gewichteteilungs-Supernetz ist zu einem wesentlichen Bestandteil für die Leistungsschätzung in den modernsten (State-of-the-Art, SOTA) Frameworks für die Suche nach neuronalen Architekturen (Neural Architecture Search, NAS) geworden. Obwohl das Supernetz verschiedene Teilnetzwerke direkt ohne erneutes Training generieren kann, gibt es keine Garantie für die Qualität dieser Teilnetzwerke aufgrund der Gewichteteilung. Bei NLP-Aufgaben wie maschineller Übersetzung und vortrainiertem Sprachmodellieren beobachten wir, dass bei gleicher Modellarchitektur eine große Leistungslücke zwischen dem Supernetz und dem Training von Grund auf besteht. Daher kann das Supernetz nicht direkt verwendet werden, und ein erneutes Training ist nach der Ermittlung der optimalen Architekturen notwendig. In dieser Arbeit schlagen wir Mixture-of-Supernets vor, eine verallgemeinerte Formulierung des Supernetzes, bei der Mixture-of-Experts (MoE) eingesetzt wird, um die Ausdruckskraft des Supernetzmodells mit vernachlässigbarem Trainingsaufwand zu steigern. Auf diese Weise teilen sich verschiedene Teilnetzwerke die Modellgewichte nicht direkt, sondern über einen architekturbasierten Routing-Mechanismus. Dadurch werden die Modellgewichte verschiedener Teilnetzwerke auf ihre spezifischen Architekturen zugeschnitten, und die Gewichtsgenerierung wird durch Gradientenabstieg gelernt. Im Vergleich zu bestehenden Gewichteteilungs-Supernetzen für NLP kann unsere Methode die Nachtrainingszeit minimieren und die Trainingseffizienz erheblich verbessern. Darüber hinaus erreicht die vorgeschlagene Methode die SOTA-Leistung in der NAS für den Aufbau schneller maschineller Übersetzungsmodelle und bietet ein besseres Latenz-BLEU-Verhältnis im Vergleich zu HAT, dem State-of-the-Art NAS für MT. Wir erreichen auch die SOTA-Leistung in der NAS für den Aufbau speichereffizienter, aufgabenunabhängiger BERT-Modelle und übertreffen NAS-BERT und AutoDistil in verschiedenen Modellgrößen.
Die Schätzung der Tiefe von Objekten aus einem einzelnen Bild ist eine wertvolle Aufgabe für viele Anwendungen in der Bildverarbeitung, Robotik und Grafik. Aktuelle Methoden scheitern jedoch oft daran, präzise Tiefeninformationen für Objekte in vielfältigen Szenen zu liefern. In dieser Arbeit schlagen wir eine einfache, aber effektive Strategie namens Background Prompting vor, die das Eingabebild eines Objekts mit einem gelernten Hintergrund anpasst. Wir lernen die Hintergrund-Prompts ausschließlich anhand von kleinen synthetischen Objektdatensätzen. Um die Objekttiefe in einem realen Bild zu ermitteln, platzieren wir das segmentierte Objekt in den gelernten Hintergrund-Prompt und verwenden vorhandene Tiefenschätzungsnetzwerke. Background Prompting hilft den Tiefennetzwerken, sich auf das Vordergrundobjekt zu konzentrieren, da sie unempfindlich gegenüber Hintergrundvariationen gemacht werden. Darüber hinaus minimiert Background Prompting die Domänenlücke zwischen synthetischen und realen Objektbildern, was zu einer besseren Sim2Real-Generalisierung führt als einfaches Feinabstimmen. Ergebnisse auf mehreren synthetischen und realen Datensätzen zeigen konsistente Verbesserungen bei der Tiefenschätzung realer Objekte für eine Vielzahl bestehender Tiefennetzwerke. Code und optimierte Hintergrund-Prompts sind verfügbar unter: https://mbaradad.github.io/depth_prompt.
Angetrieben durch skalierbare Diffusionsmodelle, die auf umfangreichen gepaarten Text-Bild-Datensätzen trainiert wurden, haben Text-zu-Bild-Synthese-Methoden überzeugende Ergebnisse gezeigt. Diese Modelle scheitern jedoch noch daran, den Textprompt präzise zu befolgen, wenn mehrere Objekte, Attribute und räumliche Kompositionen im Prompt involviert sind. In diesem Artikel identifizieren wir die potenziellen Gründe sowohl in den Cross-Attention- als auch in den Self-Attention-Schichten des Diffusionsmodells. Wir schlagen zwei neuartige Loss-Funktionen vor, um die Aufmerksamkeitskarten gemäß eines gegebenen Layouts während des Sampling-Prozesses neu auszurichten. Wir führen umfassende Experimente auf den Benchmarks DrawBench und HRS durch, wobei wir Layouts verwenden, die von Large Language Models synthetisiert wurden. Die Ergebnisse zeigen, dass unsere vorgeschlagenen Loss-Funktionen einfach und effektiv in bestehende Text-zu-Bild-Methoden integriert werden können und deren Übereinstimmung zwischen den generierten Bildern und den Textprompts konsequent verbessern.
Text-to-Image-Generativmodelle ermöglichen die Synthese hochauflösender Bilder in verschiedenen Domänen, erfordern jedoch, dass Benutzer den Inhalt spezifizieren, den sie generieren möchten. In diesem Artikel betrachten wir das umgekehrte Problem – gegeben eine Sammlung verschiedener Bilder, können wir die generativen Konzepte entdecken, die jedes Bild repräsentieren? Wir präsentieren einen unüberwachten Ansatz, um generative Konzepte aus einer Bildersammlung zu entdecken, der verschiedene Kunststile in Gemälden, Objekte und Beleuchtung in Küchenszenen entwirrt und Bildklassen bei ImageNet-Bildern identifiziert. Wir zeigen, wie solche generativen Konzepte den Inhalt von Bildern präzise repräsentieren, neu kombiniert und zusammengesetzt werden können, um neue künstlerische und hybride Bilder zu erzeugen, und weiterhin als Repräsentation für nachgelagerte Klassifikationsaufgaben verwendet werden können.
Wir präsentieren BlenderBot 3x, eine Aktualisierung des Konversationsmodells BlenderBot 3, das nun mit organischen Gesprächs- und Feedbackdaten von teilnehmenden Nutzern des Systems trainiert wird, um sowohl seine Fähigkeiten als auch seine Sicherheit zu verbessern. Wir veröffentlichen die anonymisierten Interaktionsdaten der Teilnehmer öffentlich für die Nutzung durch die Forschungsgemeinschaft, um weiteren Fortschritt zu fördern. Das Training von Modellen mit organischen Daten ist herausfordernd, da Interaktionen mit Menschen „in freier Wildbahn“ sowohl hochwertige Gespräche und Feedback als auch adversariale und toxische Verhaltensweisen umfassen. Wir untersuchen Techniken, die es ermöglichen, von hilfreichen Lehrern zu lernen, während das Lernen von Personen vermieden wird, die versuchen, das Modell zu unbrauchbaren oder toxischen Antworten zu verleiten. BlenderBot 3x wird in Gesprächen gegenüber BlenderBot 3 bevorzugt und zeigt sich in schwierigen Situationen als sicherer in seinen Antworten. Obwohl unsere aktuellen Modelle noch weit von Perfektion entfernt sind, glauben wir, dass weitere Verbesserungen durch die fortgesetzte Anwendung der in dieser Arbeit erforschten Techniken erreicht werden können.
Vision-spezifische Konzepte wie "Region" haben eine Schlüsselrolle bei der Erweiterung allgemeiner Machine-Learning-Frameworks auf Aufgaben wie Objekterkennung gespielt. Angesichts des Erfolgs regionsbasierter Detektoren für überwachtes Lernen und der Fortschritte bei intra-Bild-Methoden für kontrastives Lernen untersuchen wir die Verwendung von Regionen für rekonstruktives Pre-Training. Ausgehend von Masked Autoencoding (MAE) sowohl als Baseline als auch als Inspiration schlagen wir eine parallele Pre-Text-Aufgabe vor, die speziell auf die Eins-zu-Viele-Zuordnung zwischen Bildern und Regionen zugeschnitten ist. Da solche Regionen auf unüberwachte Weise generiert werden können, erbt unser Ansatz (R-MAE) die breite Anwendbarkeit von MAE, ist jedoch stärker "regionenbewusst". Wir führen während der Entwicklung von R-MAE umfassende Analysen durch und konvergieren auf eine Variante, die sowohl effektiv als auch effizient ist (1,3 % Overhead gegenüber MAE). Darüber hinaus zeigt sie konsistente quantitative Verbesserungen, wenn sie auf verschiedene Pre-Training-Daten sowie Downstream-Aufgaben für Erkennung und Segmentierung verallgemeinert wird. Schließlich bieten wir umfangreiche qualitative Visualisierungen, um das Verständnis für das Verhalten und das Potenzial von R-MAE zu vertiefen. Der Code wird unter https://github.com/facebookresearch/r-mae verfügbar sein.
Ein entscheidendes Hindernis, das den breiten Einsatz von NeRF-Modellen in der Praxis verhindert, ist ihre Abhängigkeit von präzisen Kameraposen. Daher wächst das Interesse daran, NeRF-Modelle so zu erweitern, dass sie Kameraposen und Szenendarstellung gemeinsam optimieren, was eine Alternative zu Standard-SfM-Pipelines bietet, die bekannte Schwachstellen aufweisen. Bestehende Ansätze für NeRF ohne vorgegebene Posen operieren unter eingeschränkten Annahmen, wie einer vorherigen Posenerteilung oder einer groben Pose-Initialisierung, was sie in einem allgemeinen Kontext weniger effektiv macht. In dieser Arbeit schlagen wir einen neuartigen Ansatz, LU-NeRF, vor, der Kameraposen und neuronale Strahlungsfelder gemeinsam schätzt, wobei die Annahmen zur Pose-Konfiguration gelockert sind. Unser Ansatz arbeitet in einem lokal-zu-globalen Verfahren, bei dem wir zunächst über lokale Teilmengen der Daten, sogenannte Mini-Szenen, optimieren. LU-NeRF schätzt lokale Posen und Geometrie für diese anspruchsvolle Few-Shot-Aufgabe. Die Posen der Mini-Szenen werden durch einen robusten Pose-Synchronisierungsschritt in einen globalen Referenzrahmen überführt, wo eine abschließende globale Optimierung von Pose und Szene durchgeführt werden kann. Wir zeigen, dass unsere LU-NeRF-Pipeline frühere Versuche von NeRF ohne vorgegebene Posen übertrifft, ohne restriktive Annahmen zur Pose zu machen. Dies ermöglicht es uns, im allgemeinen SE(3)-Pose-Setting zu operieren, im Gegensatz zu den Baselines. Unsere Ergebnisse deuten auch darauf hin, dass unser Modell komplementär zu feature-basierten SfM-Pipelines sein kann, da es sich bei texturarmen und niedrigauflösenden Bildern günstig mit COLMAP vergleichen lässt.
Wir stellen ein Framework vor, das visuelles Frage-Antworten als modulare Codegenerierung formuliert. Im Gegensatz zu früheren Arbeiten zu modularen Ansätzen für VQA erfordert unser Ansatz kein zusätzliches Training und stützt sich auf vortrainierte Sprachmodelle (LMs), visuelle Modelle, die auf Bild-Beschreibungs-Paaren vortrainiert wurden, sowie fünfzig VQA-Beispiele, die für In-Context-Learning verwendet werden. Die generierten Python-Programme rufen die Ausgaben der visuellen Modelle auf und kombinieren sie mithilfe von arithmetischer und bedingter Logik. Unser Ansatz verbessert die Genauigkeit auf dem COVR-Datensatz um mindestens 3 % und auf dem GQA-Datensatz um etwa 2 % im Vergleich zum Few-Shot-Baseline-Ansatz, der keine Codegenerierung einsetzt.
In diesem Artikel gehen wir auf die Herausforderungen ein, die durch den erheblichen Trainingsaufwand und den hohen Speicherbedarf von Video-Transformern entstehen, wobei wir uns insbesondere auf das ViViT-Modell (Video Vision Transformer) konzentrieren, genauer gesagt auf die Variante mit faktorisiertem Encoder, die wir als Baseline für Aufgaben der Aktionserkennung verwenden. Die faktorisierte Encoder-Variante folgt dem Ansatz der späten Fusion, der von vielen modernen State-of-the-Art-Methoden übernommen wird. Obwohl sie sich durch ein günstiges Geschwindigkeit/Genauigkeit-Verhältnis unter den verschiedenen ViViT-Varianten auszeichnet, stellen der erhebliche Trainingsaufwand und der Speicherbedarf weiterhin eine erhebliche Hürde dar. Unsere Methode zielt darauf ab, diese Hürde zu senken, und basiert auf der Idee, den räumlichen Transformer während des Trainings einzufrieren. Dies führt zu einem Modell mit geringer Genauigkeit, wenn es naiv umgesetzt wird. Wir zeigen jedoch, dass wir durch (1) eine geeignete Initialisierung des temporalen Transformers (ein Modul, das für die Verarbeitung zeitlicher Informationen verantwortlich ist) und (2) die Einführung eines kompakten Adaptermodells, das eingefrorene räumliche Repräsentationen (ein Modul, das selektiv auf Regionen des Eingabebildes fokussiert) mit dem temporalen Transformer verbindet, die Vorteile des Einfrierens des räumlichen Transformers nutzen können, ohne die Genauigkeit zu beeinträchtigen. Durch umfangreiche Experimente über 6 Benchmarks demonstrieren wir, dass unsere vorgeschlagene Trainingsstrategie die Trainingskosten (um ca. 50 %) und den Speicherbedarf erheblich reduziert, während die Leistung im Vergleich zum Baseline-Modell erhalten bleibt oder sogar leicht um bis zu 1,79 % verbessert wird. Unser Ansatz ermöglicht darüber hinaus die Nutzung größerer Bild-Transformer-Modelle als unseren räumlichen Transformer und den Zugriff auf mehr Frames bei gleichem Speicherverbrauch.
Sphärische CNNs verallgemeinern CNNs auf Funktionen auf der Kugel, indem sie sphärische Faltungen als Hauptoperation verwenden. Die genaueste und effizienteste Methode zur Berechnung sphärischer Faltungen erfolgt im Spektralbereich (über das Faltungstheorem), was jedoch immer noch aufwändiger ist als die üblichen planaren Faltungen. Aus diesem Grund waren Anwendungen sphärischer CNNs bisher auf kleine Probleme beschränkt, die mit geringer Modellkapazität angegangen werden können. In dieser Arbeit zeigen wir, wie sphärische CNNs für deutlich größere Probleme skaliert werden können. Um dies zu erreichen, führen wir entscheidende Verbesserungen ein, darunter neuartige Varianten gängiger Modellkomponenten, eine Implementierung der Kernoperationen zur Nutzung der Eigenschaften von Hardwarebeschleunigern und anwendungsspezifische Eingabedarstellungen, die die Eigenschaften unseres Modells ausnutzen. Experimente zeigen, dass unsere größeren sphärischen CNNs auf mehreren Zielen des QM9-Molekülbenchmarks den State-of-the-Art erreichen, der bisher von äquivarianten Graph-Neural-Networks dominiert wurde, und wettbewerbsfähige Leistungen bei mehreren Wettervorhersageaufgaben erzielen. Unser Code ist verfügbar unter https://github.com/google-research/spherical-cnn.