Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren das erste Large Reconstruction Model (LRM), das das 3D-Modell eines Objekts aus einem einzelnen Eingabebild in nur 5 Sekunden vorhersagt. Im Gegensatz zu vielen früheren Methoden, die auf kleinen Datensätzen wie ShapeNet in einer kategoriespezifischen Weise trainiert werden, verwendet LRM eine hochskalierbare Transformer-basierte Architektur mit 500 Millionen trainierbaren Parametern, um direkt ein Neural Radiance Field (NeRF) aus dem Eingabebild zu erzeugen. Wir trainieren unser Modell end-to-end auf massiven Multi-View-Daten, die etwa 1 Million Objekte umfassen, einschließlich synthetischer Renderings aus Objaverse und realer Aufnahmen aus MVImgNet. Diese Kombination aus einem hochkapazitiven Modell und großvolumigen Trainingsdaten ermöglicht es unserem Modell, hochgradig generalisierbar zu sein und qualitativ hochwertige 3D-Rekonstruktionen aus verschiedenen Testeingaben zu erzeugen, darunter reale Aufnahmen aus der freien Wildbahn und Bilder von generativen Modellen. Video-Demonstrationen und interaktive 3D-Meshes finden Sie auf dieser Website: https://yiconghong.me/LRM/.
Obwohl Multi-modale Große Sprachmodelle (MM-LLMs) in letzter Zeit bedeutende Fortschritte erzielt haben, kämpfen sie immer noch damit, die Interaktionen zwischen multi-modalen Eingaben und die Generierung in nicht-textuellen Modalitäten effizient zu modellieren. In dieser Arbeit schlagen wir TEAL (Tokenize and Embed ALl) vor, einen Ansatz, der die Eingabe aus jeder Modalität als Token-Sequenz behandelt und einen gemeinsamen Einbettungsraum für alle Modalitäten lernt. Konkret diskretisiert TEAL für die Eingabe aus jeder Modalität diese zunächst in eine Token-Sequenz mit einem vorgefertigten Tokenizer und bettet die Token-Sequenz mit einer lernbaren Einbettungsmatrix in einen gemeinsamen Einbettungsraum ein. MM-LLMs müssen lediglich die multi-modalen Token autoregressiv vorhersagen, wie es textuelle LLMs tun. Schließlich wird der entsprechende De-Tokenizer angewendet, um die Ausgabe in jeder Modalität basierend auf der vorhergesagten Token-Sequenz zu generieren. Mit dem gemeinsamen Einbettungsraum ermöglicht TEAL den eingefrorenen LLMs, sowohl Verstehens- als auch Generierungsaufgaben zu bewältigen, die nicht-textuelle Modalitäten wie Bilder und Audio betreffen. Somit kann das textuelle LLM lediglich als Schnittstelle fungieren und seine hohe Leistung in der textuellen Verarbeitung und Generierung beibehalten. Experimente zeigen, dass TEAL erhebliche Verbesserungen im multi-modalen Verständnis erzielt und ein einfaches Schema für multi-modale Generierungen implementiert.
Die Entwicklung großer Sprachmodelle (LLMs) hat das Feld des multimodalen Verständnisses erheblich vorangetrieben, was zur Entstehung großer multimodaler Modelle (LMMs) geführt hat. Um das Niveau des visuellen Verständnisses zu verbessern, haben aktuelle Studien LMMs mit Fähigkeiten zur regionsbasierten Verständnis ausgestattet, indem sie die Koordinaten von Objekt-Bounding-Boxen als eine Reihe von Textsequenzen (pixel2seq) darstellen. In diesem Artikel stellen wir ein neuartiges Paradigma für die Modellierung von Objektpositionen vor, die sogenannte pixel2emb-Methode, bei der wir das LMM dazu auffordern, Lage-Embeddings auszugeben, die dann von verschiedenen Decodern decodiert werden. Dieses Paradigma ermöglicht die Verwendung verschiedener Lageformate (wie Bounding-Boxen und Masken) in multimodalen Konversationen. Darüber hinaus ermöglicht diese Art der Embedding-basierten Lage-Modellierung die Nutzung bestehender Praktiken in Lokalisierungsaufgaben, wie Detektion und Segmentierung. In Szenarien mit begrenzten Ressourcen zeigt unser pixel2emb im Vergleich zu bestehenden State-of-the-Art (SOTA)-Ansätzen eine überlegene Leistung sowohl bei der Lageeingabe als auch bei der Lageausgabe unter fairen Vergleichsbedingungen. Durch die Nutzung der vorgeschlagenen pixel2emb-Methode trainieren wir ein LMM namens NExT-Chat und demonstrieren dessen Fähigkeit, mehrere Aufgaben wie visuelle Verankerung, Regionenbeschreibung und begründetes Schließen zu bewältigen.
Die beeindruckende qualitative Verbesserung der jüngsten Text-zu-Bild-Modelle hat zu ihrer weit verbreiteten Aufmerksamkeit und Nutzung geführt. Allerdings fehlt ein umfassendes quantitatives Verständnis ihrer Fähigkeiten und Risiken. Um diese Lücke zu schließen, führen wir einen neuen Benchmark ein, die Holistic Evaluation of Text-to-Bild-Modelle (HEIM). Während sich frühere Bewertungen hauptsächlich auf die Text-Bild-Ausrichtung und die Bildqualität konzentrierten, identifizieren wir 12 Aspekte, darunter Text-Bild-Ausrichtung, Bildqualität, Ästhetik, Originalität, logisches Denken, Wissen, Voreingenommenheit, Toxizität, Fairness, Robustheit, Mehrsprachigkeit und Effizienz. Wir erstellen 62 Szenarien, die diese Aspekte abdecken, und bewerten 26 state-of-the-art Text-zu-Bild-Modelle anhand dieses Benchmarks. Unsere Ergebnisse zeigen, dass kein einzelnes Modell in allen Aspekten hervorragt, sondern verschiedene Modelle unterschiedliche Stärken aufweisen. Wir veröffentlichen die generierten Bilder und die Ergebnisse der menschlichen Bewertung für vollständige Transparenz unter https://crfm.stanford.edu/heim/v1.1.0 sowie den Code unter https://github.com/stanford-crfm/helm, der in die HELM-Codebasis integriert ist.
Wir präsentieren 3DiffTection, eine state-of-the-art Methode zur 3D-Objekterkennung aus Einzelbildern, die Merkmale eines 3D-bewussten Diffusionsmodells nutzt. Die Annotation von groß angelegten Bilddaten für die 3D-Erkennung ist ressourcenintensiv und zeitaufwendig. In jüngster Zeit sind vortrainierte große Bilddiffusionsmodelle als effektive Merkmalsextraktoren für 2D-Wahrnehmungsaufgaben prominent geworden. Diese Merkmale werden jedoch zunächst auf gepaarten Text- und Bilddaten trainiert, die nicht für 3D-Aufgaben optimiert sind, und zeigen oft eine Domänenlücke, wenn sie auf die Zielsdaten angewendet werden. Unser Ansatz überbrückt diese Lücken durch zwei spezialisierte Feinabstimmungsstrategien: geometrisch und semantisch. Für die geometrische Feinabstimmung passen wir ein Diffusionsmodell an, um die Synthese neuer Ansichten basierend auf einem Einzelbild durchzuführen, indem wir einen neuartigen epipolaren Warp-Operator einführen. Diese Aufgabe erfüllt zwei wesentliche Kriterien: die Notwendigkeit für 3D-Bewusstsein und die alleinige Abhängigkeit von posierten Bilddaten, die leicht verfügbar sind (z.B. aus Videos) und keine manuelle Annotation erfordern. Für die semantische Verfeinerung trainieren wir das Modell weiter auf Zieldaten mit Erkennungsaufsicht. Beide Feinabstimmungsphasen verwenden ControlNet, um die Integrität der ursprünglichen Merkmalsfähigkeiten zu bewahren. Im letzten Schritt nutzen wir diese erweiterten Fähigkeiten, um eine Testzeit-Vorhersage-Ensemble über mehrere virtuelle Blickwinkel durchzuführen. Durch unsere Methodik erhalten wir 3D-bewusste Merkmale, die für die 3D-Erkennung maßgeschneidert sind und bei der Identifizierung von korrespondierenden Punkten über verschiedene Ansichten hervorragend abschneiden. Folglich erweist sich unser Modell als leistungsstarker 3D-Detektor, der bisherige Benchmarks deutlich übertrifft, z.B. Cube-RCNN, einen Vorreiter in der Einzelbild-3D-Erkennung, um 9,43 % in AP3D auf dem Omni3D-ARkitscene-Datensatz. Darüber hinaus zeigt 3DiffTection eine robuste Dateneffizienz und Generalisierung auf domänenübergreifende Daten.
Aktuelle Arbeiten haben gezeigt, dass Large Language Models (LLMs) traditionelle neuro-symbolische Modelle durch Programmierfähigkeiten unterstützen können, um Sprache in Modulbeschreibungen zu übersetzen und dadurch starke Ergebnisse im visuellen Denken zu erzielen, während die Transparenz und Effizienz des Modells erhalten bleibt. Allerdings generieren diese Modelle in der Regel den gesamten Code-Snippet für jede neue Instanz einer Aufgabe erschöpfend, was äußerst ineffizient ist. Wir schlagen ein generatives neuro-symbolisches visuelles Denken vor, das auf dem Wachsen und Wiederverwenden von Modulen basiert. Konkret besteht unser Modell aus drei einzigartigen Phasen: Modulinitialisierung, Modulgenerierung und Modulausführung. Zunächst prüfen wir bei einer Vision-Sprache-Aufgabe mithilfe von LLMs, ob wir etablierte Module wiederverwenden und erweitern können, um diese neue Aufgabe zu bewältigen. Falls nicht, initialisieren wir ein neues Modul, das für die Aufgabe benötigt wird, und spezifizieren die Ein- und Ausgaben dieses neuen Moduls. Anschließend wird das neue Modul erstellt, indem LLMs abgefragt werden, um entsprechende Code-Snippets zu generieren, die den Anforderungen entsprechen. Um die Fähigkeiten des neuen Moduls besser einschätzen zu können, behandeln wir Few-Shot-Trainingsbeispiele als Testfälle, um zu überprüfen, ob unser neues Modul diese Fälle bestehen kann. Wenn ja, wird das neue Modul zur Modulbibliothek hinzugefügt, um es zukünftig wiederverwenden zu können. Schließlich bewerten wir die Leistung unseres Modells auf dem Testset, indem wir die geparsten Programme mit den neu erstellten visuellen Modulen ausführen, um die Ergebnisse zu erhalten. Wir stellen fest, dass das vorgeschlagene Modell mehrere Vorteile bietet. Erstens schneidet es bei Standardaufgaben wie visuellen Frage-Antwort-Systemen und der Verständnis von Referenzausdrücken wettbewerbsfähig ab. Zweitens können die Module, die aus einer Aufgabe gelernt wurden, nahtlos auf neue Aufgaben übertragen werden. Und schließlich ist es in der Lage, sich durch die Beobachtung einiger Trainingsbeispiele und die Wiederverwendung von Modulen an neue visuelle Denkaufgaben anzupassen.