Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Erhebliche Fortschritte wurden mit großen Vision-Sprach-Modellen wie Stable Diffusion (SD) für eine Vielzahl von nachgelagerten Aufgaben erzielt, darunter Bildbearbeitung, Bildkorrespondenz und 3D-Formgenerierung. Inspiriert von diesen Fortschritten untersuchen wir die Nutzung dieser umfangreichen Vision-Sprach-Modelle zur Segmentierung von Bildern in beliebiger Granularität mit nur einem annotierten Beispiel durch die Einführung von SLiMe. SLiMe formuliert dieses Problem als Optimierungsaufgabe. Konkret extrahieren wir, ausgehend von einem einzelnen Trainingsbild und dessen Segmentierungsmaske, zunächst Aufmerksamkeitskarten, einschließlich unserer neuartigen „gewichteten akkumulierten Selbstaufmerksamkeitskarte“ aus dem SD-Prior. Anschließend werden die Text-Embeddings von Stable Diffusion unter Verwendung der extrahierten Aufmerksamkeitskarten so optimiert, dass jeder von ihnen eine einzelne segmentierte Region aus dem Trainingsbild erlernt. Diese gelernten Embeddings heben dann die segmentierte Region in den Aufmerksamkeitskarten hervor, was wiederum zur Ableitung der Segmentierungsmaske verwendet werden kann. Dies ermöglicht es SLiMe, jedes reale Bild während der Inferenz mit der Granularität der segmentierten Region im Trainingsbild zu segmentieren, wobei nur ein Beispiel verwendet wird. Darüber hinaus verbessert die Nutzung zusätzlicher Trainingsdaten, sofern verfügbar, d.h. Few-Shot, die Leistung von SLiMe. Wir führten eine umfangreiche Reihe von Experimenten durch, in denen verschiedene Designfaktoren untersucht wurden, und zeigten, dass SLiMe andere bestehende One-Shot- und Few-Shot-Segmentierungsmethoden übertrifft.
Frühere Studien gingen typischerweise davon aus, dass große Sprachmodelle nicht in der Lage sind, arithmetische Operationen, insbesondere die Multiplikation von Zahlen mit mehr als 8 Stellen, sowie Operationen mit Dezimalzahlen und Brüchen, ohne den Einsatz von Rechnerwerkzeugen präzise durchzuführen. Diese Arbeit zielt darauf ab, dieses Missverständnis zu widerlegen. Mit ausreichenden Trainingsdaten kann ein Sprachmodell mit 2 Milliarden Parametern mehrstellige arithmetische Operationen mit nahezu 100%iger Genauigkeit und ohne Datenlecks durchführen, was GPT-4 deutlich übertrifft (dessen Genauigkeit bei der mehrstelligen Multiplikation nur 4,3% beträgt). Wir zeigen außerdem, dass unser MathGLM, das aus GLM-10B auf einem Datensatz mit zusätzlichen mehrstufigen arithmetischen Operationen und mathematischen Problemen, die in Text beschrieben sind, feinabgestimmt wurde, auf einem Testset mit 5.000 chinesischen Mathematikproblemen eine ähnliche Leistung wie GPT-4 erzielt.
Wir stellen CM3Leon (ausgesprochen „Chameleon“) vor, ein retrieval-augmentiertes, token-basiertes, decoder-only multimodales Sprachmodell, das sowohl Text als auch Bilder generieren und vervollständigen kann. CM3Leon verwendet die CM3-Multimodal-Architektur, zeigt aber zusätzlich die enormen Vorteile der Skalierung und Feinabstimmung auf diversere, instruktionsbasierte Daten. Es ist das erste multimodale Modell, das mit einem Rezept trainiert wurde, das von rein textbasierten Sprachmodellen adaptiert wurde, einschließlich einer groß angelegten, retrieval-augmentierten Vorverarbeitungsphase und einer zweiten Phase des multitask-supervised Fine-Tunings (SFT). Es handelt sich zudem um ein universelles Modell, das sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierung durchführen kann, wodurch wir eigenständige kontrastive Dekodierungsmethoden einführen können, die hochwertige Ergebnisse liefern. Umfangreiche Experimente zeigen, dass dieses Rezept für multimodale Modelle äußerst effektiv ist. CM3Leon erreicht state-of-the-art Leistung in der Text-zu-Bild-Generierung mit 5x weniger Trainingsrechenleistung als vergleichbare Methoden (Zero-Shot MS-COCO FID von 4,88). Nach dem SFT kann CM3Leon auch beispiellose Kontrollierbarkeit in Aufgaben demonstrieren, die von sprachgesteuerter Bildbearbeitung bis hin zu bildgesteuerter Generierung und Segmentierung reichen.
Wir stellen Matcha-TTS vor, eine neue Encoder-Decoder-Architektur für schnelle akustische Modellierung in der Text-zu-Sprache-Synthese (TTS), die mit optimalem Transport und bedingtem Fluss-Matching (OT-CFM) trainiert wird. Dies führt zu einem ODE-basierten Decoder, der in weniger Syntheseschritten eine hohe Ausgabequalität erreicht, verglichen mit Modellen, die mit Score-Matching trainiert wurden. Durch sorgfältige Designentscheidungen wird zusätzlich sichergestellt, dass jeder Syntheseschritt schnell ausgeführt wird. Die Methode ist probabilistisch, nicht-autoregressiv und lernt das Sprechen von Grund auf ohne externe Ausrichtungen. Im Vergleich zu starken vortrainierten Baseline-Modellen weist das Matcha-TTS-System den geringsten Speicherbedarf auf, erreicht die Geschwindigkeit der schnellsten Modelle bei langen Äußerungen und erzielt die höchste durchschnittliche Meinungspunktzahl in einem Hörtest. Weitere Audio-Beispiele, Code und vortrainierte Modelle finden Sie unter https://shivammehta25.github.io/Matcha-TTS/.
Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben zu verbesserten Leistungen bei Aufgaben wie visueller Fragebeantwortung und Bildbeschriftung geführt. Dadurch sind diese Modelle nun gut positioniert, um über die physische Welt zu schlussfolgern, insbesondere in Bereichen wie der Roboter-Manipulation. Allerdings sind aktuelle VLMs in ihrem Verständnis physischer Konzepte (z. B. Material, Zerbrechlichkeit) von Alltagsgegenständen begrenzt, was ihre Nützlichkeit für Roboter-Manipulationsaufgaben einschränkt, die Interaktion und physisches Schlussfolgern über solche Objekte erfordern. Um diese Einschränkung zu überwinden, schlagen wir PhysObjects vor, ein objektzentriertes Datenset mit 36.9K Crowd-sourced und 417K automatisierten Annotationen physischer Konzepte von gängigen Haushaltsgegenständen. Wir zeigen, dass das Feinabstimmen eines VLM auf PhysObjects dessen Verständnis physischer Objektkonzepte verbessert, indem menschliche Vorannahmen dieser Konzepte aus dem visuellen Erscheinungsbild erfasst werden. Wir integrieren dieses physikalisch fundierte VLM in ein interaktives Framework mit einem auf großen Sprachmodellen basierenden Roboterplaner und zeigen eine verbesserte Planungsleistung bei Aufgaben, die das Schlussfolgern über physische Objektkonzepte erfordern, im Vergleich zu Baseline-Modellen, die keine physikalisch fundierten VLMs nutzen. Zusätzlich demonstrieren wir die Vorteile unseres physikalisch fundierten VLM auf einem echten Roboter, wo es die Erfolgsraten bei Aufgaben erhöht. Wir veröffentlichen unser Datenset und bieten weitere Details sowie Visualisierungen unserer Ergebnisse unter https://iliad.stanford.edu/pg-vlm/ an.
Neurale Felder, eine Kategorie von neuronalen Netzen, die darauf trainiert sind, hochfrequente Signale darzustellen, haben in den letzten Jahren aufgrund ihrer beeindruckenden Leistung bei der Modellierung komplexer 3D-Daten, insbesondere großer neuronaler signierter Distanzfelder (SDFs) oder Strahlungsfelder (NeRFs) über ein einzelnes mehrschichtiges Perzeptron (MLP), erhebliche Aufmerksamkeit erlangt. Trotz der Leistungsfähigkeit und Einfachheit der Signaldarstellung mit einem MLP stehen diese Methoden jedoch vor Herausforderungen bei der Modellierung großer und komplexer zeitlicher Signale aufgrund der begrenzten Kapazität von MLPs. In diesem Artikel schlagen wir einen effektiven Ansatz vor, um diese Einschränkung zu überwinden, indem wir zeitliche Residuallagen in neuronale Felder integrieren, sogenannte ResFields, eine neuartige Klasse von Netzen, die speziell dafür entwickelt wurde, komplexe zeitliche Signale effektiv darzustellen. Wir führen eine umfassende Analyse der Eigenschaften von ResFields durch und schlagen eine Matrixfaktorisierungstechnik vor, um die Anzahl der trainierbaren Parameter zu reduzieren und die Generalisierungsfähigkeiten zu verbessern. Wichtig ist, dass unsere Formulierung nahtlos mit bestehenden Techniken integriert wird und die Ergebnisse über verschiedene anspruchsvolle Aufgaben hinweg konsequent verbessert: 2D-Videoapproximation, dynamische Formmodellierung über zeitliche SDFs und dynamische NeRF-Rekonstruktion. Schließlich demonstrieren wir den praktischen Nutzen von ResFields, indem wir ihre Effektivität bei der Erfassung dynamischer 3D-Szenen aus spärlichen Sensoreingaben eines leichten Erfassungssystems zeigen.
Neural Radiance Fields (NeRFs) haben sich in Anwendungen wie View-Synthese und Tiefenschätzung als vielversprechend erwiesen, doch das Lernen aus Multiview-Bildern ist mit inhärenten Unsicherheiten verbunden. Aktuelle Methoden zu deren Quantifizierung sind entweder heuristisch oder rechenintensiv. Wir stellen BayesRays vor, ein nachträgliches Framework zur Bewertung von Unsicherheiten in jedem vortrainierten NeRF, ohne den Trainingsprozess zu modifizieren. Unsere Methode etabliert ein volumetrisches Unsicherheitsfeld durch räumliche Störungen und eine bayessche Laplace-Approximation. Wir leiten unseren Algorithmus statistisch her und zeigen seine überlegene Leistung in zentralen Metriken und Anwendungen. Weitere Ergebnisse sind verfügbar unter: https://bayesrays.github.io.
Die Geschicklichkeit des Menschen ist ein Markenzeichen der motorischen Kontrolle. Unsere Hände können trotz der Komplexität (multiartikulär und mehrgelenkig, mit 23 Gelenken, die von mehr als 40 Muskeln gesteuert werden) der muskuloskelettalen sensorimotorischen Schaltkreise schnell neue Verhaltensweisen synthetisieren. In dieser Arbeit lassen wir uns davon inspirieren, wie menschliche Geschicklichkeit auf einer Vielzahl von Vorerfahrungen aufbaut, anstatt durch eine einzelne Aufgabe erworben zu werden. Motiviert durch diese Beobachtung haben wir uns zum Ziel gesetzt, Agenten zu entwickeln, die auf ihren bisherigen Erfahrungen aufbauen können, um schnell neue (zuvor unerreichbare) Verhaltensweisen zu erlernen. Konkret nutzt unser Ansatz Multi-Task-Learning, um implizit aufgabenunabhängige Verhaltenspriors (MyoDex) für menschenähnliche Geschicklichkeit zu erfassen, wobei ein physiologisch realistisches Modell der menschlichen Hand – MyoHand – verwendet wird. Wir demonstrieren die Wirksamkeit von MyoDex in der Few-Shot-Generalisierung sowie den positiven Transfer auf eine große Anzahl von unbekannten geschickten Manipulationsaufgaben. Agenten, die MyoDex nutzen, können etwa dreimal mehr Aufgaben lösen und dies viermal schneller im Vergleich zu einem Distillations-Baseline. Während frühere Arbeiten einzelne muskuloskelettale Kontrollverhaltensweisen synthetisiert haben, ist MyoDex der erste generalisierbare Manipulationsprior, der das Lernen geschickter physiologischer Kontrolle über eine große Vielfalt von kontaktreichen Verhaltensweisen katalysiert. Wir zeigen auch die Wirksamkeit unserer Paradigmen über die muskuloskelettale Kontrolle hinaus bei der Erlangung von Geschicklichkeit in der 24-DoF-Adroit-Hand. Website: https://sites.google.com/view/myodex