Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große multimodale Modelle, die auf natürlichen Dokumenten trainiert wurden, die Bilder und Text miteinander verknüpfen, übertreffen Modelle, die auf Bild-Text-Paaren trainiert wurden, in verschiedenen multimodalen Benchmarks. Allerdings wurden die Datensätze, die zum Training dieser Modelle verwendet wurden, nicht veröffentlicht, und der Sammelprozess wurde nicht vollständig spezifiziert. Wir stellen den OBELICS-Datensatz vor, einen offenen, web-skaligen gefilterten Datensatz von verknüpften Bild-Text-Dokumenten, der 141 Millionen Webseiten aus Common Crawl, 353 Millionen zugehörige Bilder und 115 Milliarden Text-Tokens umfasst. Wir beschreiben den Prozess der Datensatzerstellung, präsentieren umfassende Filterregeln und bieten eine Analyse des Inhalts des Datensatzes. Um die Tauglichkeit von OBELICS zu demonstrieren, trainieren wir visuelle und sprachliche Modelle mit 9 und 80 Milliarden Parametern, genannt IDEFICS, und erzielen wettbewerbsfähige Leistungen in verschiedenen multimodalen Benchmarks. Wir veröffentlichen unseren Datensatz, Modelle und Code.
Die 3D-Rekonstruktion aus einem einzelnen Bild ist eine wichtige, aber herausfordernde Aufgabe, die umfangreiches Wissen über unsere natürliche Welt erfordert. Viele bestehende Methoden lösen dieses Problem, indem sie ein neuronales Strahlungsfeld unter der Anleitung von 2D-Diffusionsmodellen optimieren, leiden jedoch unter langen Optimierungszeiten, 3D-Inkonsistenzen und schlechter Geometrie. In dieser Arbeit schlagen wir eine neuartige Methode vor, die ein einzelnes Bild eines beliebigen Objekts als Eingabe verwendet und ein vollständiges 360-Grad-3D-texturiertes Mesh in einem einzigen Vorwärtspass erzeugt. Bei einem einzelnen Bild verwenden wir zunächst ein sichtbedingtes 2D-Diffusionsmodell, Zero123, um Multi-View-Bilder für die Eingabeansicht zu generieren, und streben dann an, diese in den 3D-Raum zu heben. Da traditionelle Rekonstruktionsmethoden mit inkonsistenten Multi-View-Vorhersagen kämpfen, bauen wir unser 3D-Rekonstruktionsmodul auf einer SDF-basierten generalisierbaren neuronalen Oberflächenrekonstruktionsmethode auf und schlagen mehrere kritische Trainingsstrategien vor, um die Rekonstruktion von 360-Grad-Meshes zu ermöglichen. Ohne kostspielige Optimierungen rekonstruiert unsere Methode 3D-Formen in deutlich kürzerer Zeit als bestehende Methoden. Darüber hinaus begünstigt unsere Methode eine bessere Geometrie, erzeugt 3D-konsistentere Ergebnisse und hält sich enger an das Eingabebild. Wir evaluieren unseren Ansatz sowohl an synthetischen Daten als auch an Bildern aus der realen Welt und demonstrieren seine Überlegenheit in Bezug auf Mesh-Qualität und Laufzeit. Zusätzlich kann unser Ansatz nahtlos die Text-zu-3D-Aufgabe unterstützen, indem er sich mit verfügbaren Text-zu-Bild-Diffusionsmodellen integriert.
Dieses Paper stellt DreamDiffusion vor, eine neuartige Methode zur Erzeugung hochwertiger Bilder direkt aus Elektroenzephalogramm (EEG)-Signalen, ohne dass Gedanken in Text übersetzt werden müssen. DreamDiffusion nutzt vortrainierte Text-zu-Bild-Modelle und setzt temporale maskierte Signalmodellierung ein, um den EEG-Encoder für effektive und robuste EEG-Repräsentationen vorzutrainieren. Zusätzlich nutzt die Methode den CLIP-Bildencoder, um zusätzliche Überwachung bereitzustellen und so EEG-, Text- und Bild-Embeddings besser aufeinander abzustimmen, selbst bei begrenzten EEG-Bild-Paaren. Insgesamt überwindet die vorgeschlagene Methode die Herausforderungen bei der Verwendung von EEG-Signalen für die Bildgenerierung, wie Rauschen, begrenzte Informationen und individuelle Unterschiede, und erzielt vielversprechende Ergebnisse. Quantitative und qualitative Ergebnisse demonstrieren die Wirksamkeit der vorgeschlagenen Methode als einen bedeutenden Schritt hin zu tragbaren und kostengünstigen „Gedanken-zu-Bild“-Systemen, mit potenziellen Anwendungen in den Neurowissenschaften und der Computer Vision.
Text-to-Image-Diffusionsmodelle haben aufgrund ihrer breiten Anwendbarkeit in verschiedenen Bereichen erhebliches Interesse geweckt. Dennoch bestehen weiterhin Herausforderungen bei der Entwicklung kontrollierbarer Modelle für die personalisierte Objekterzeugung. In diesem Artikel identifizieren wir zunächst die Verflechtungsprobleme in bestehenden personalisierten generativen Modellen und schlagen dann eine einfache und effiziente Trainingsstrategie zur Datenaugmentierung vor, die das Diffusionsmodell dazu anleitet, sich ausschließlich auf die Objektidentität zu konzentrieren. Durch das Einfügen von Plug-and-Play-Adapter-Schichten aus einem vortrainierten kontrollierbaren Diffusionsmodell erhält unser Modell die Fähigkeit, die Position und Größe jedes generierten personalisierten Objekts zu steuern. Während der Inferenz schlagen wir eine regional gesteuerte Sampling-Technik vor, um die Qualität und Treue der generierten Bilder zu bewahren. Unser Ansatz erreicht eine vergleichbare oder überlegene Treue für personalisierte Objekte und führt zu einem robusten, vielseitigen und kontrollierbaren Text-to-Image-Diffusionsmodell, das in der Lage ist, realistische und personalisierte Bilder zu erzeugen. Unser Ansatz zeigt ein erhebliches Potenzial für verschiedene Anwendungen, wie beispielsweise in den Bereichen Kunst, Unterhaltung und Werbegestaltung.
Wir stellen einen neuartigen Alignment-before-Generation-Ansatz vor, um die anspruchsvolle Aufgabe der Erzeugung allgemeiner 3D-Formen basierend auf 2D-Bildern oder Texten zu bewältigen. Das direkte Lernen eines bedingten generativen Modells von Bildern oder Texten zu 3D-Formen neigt dazu, inkonsistente Ergebnisse mit den Bedingungen zu erzeugen, da 3D-Formen eine zusätzliche Dimension aufweisen, deren Verteilung sich erheblich von der von 2D-Bildern und Texten unterscheidet. Um die Domänenlücke zwischen den drei Modalitäten zu überbrücken und die multi-modal-bedingte 3D-Formgenerierung zu erleichtern, untersuchen wir die Darstellung von 3D-Formen in einem form-bild-text-ausgerichteten Raum. Unser Framework besteht aus zwei Modellen: einem Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) und einem bedingten Aligned Shape Latent Diffusion Model (ASLDM). Das erste Modell kodiert die 3D-Formen in den form-latenten Raum, der an das Bild und den Text ausgerichtet ist, und rekonstruiert die fein abgestuften 3D-Neuralfelder, die den gegebenen Form-Einbettungen entsprechen, über den transformer-basierten Decoder. Das zweite Modell lernt eine probabilistische Abbildungsfunktion vom Bild- oder Textraum in den latenten Formraum. Unsere umfangreichen Experimente zeigen, dass unser vorgeschlagener Ansatz qualitativ hochwertigere und vielfältigere 3D-Formen erzeugen kann, die semantisch besser an die visuellen oder textuellen bedingten Eingaben angepasst sind, was die Wirksamkeit des form-bild-text-ausgerichteten Raums für die cross-modale 3D-Formgenerierung bestätigt.
Vortrainierte große Sprachmodelle (Pre-trained Large Language Models, PLMs) bilden die Grundlage für die meisten neuen Entwicklungen in der natürlichen Sprachverarbeitung. Sie haben das Feld von anwendungsspezifischen Modellpipelines hin zu einem einzigen Modell verlagert, das für eine Vielzahl von Aufgaben angepasst wird. Autoregressive PLMs wie GPT-3 oder PaLM haben zusammen mit Techniken wie Few-Shot-Learning zusätzlich die Ausgabemodalität von Klassifikation oder Regression hin zur Generierung verschoben. Trotz ihrer allgegenwärtigen Verwendung wird die Generierungsqualität von Sprachmodellen selten bewertet, wenn diese Modelle eingeführt werden. Zudem ist unklar, inwiefern bestehende Generierungsaufgaben – obwohl sie sich zur groben Systemvergleichbarkeit eignen – mit realen Anwendungsfällen zusammenhängen, für die sie von Nutzern übernommen werden. In dieser Arbeit diskutieren wir, wie bestehende anwendungsspezifische Generierungsbenchmarks an PLMs angepasst werden können, und bieten eine detaillierte, empirische Untersuchung der Grenzen und Fähigkeiten von PLMs in Aufgaben der natürlichen Sprachgenerierung entlang von Dimensionen wie Skalierung, Architektur, Eingabe- und Ausgabesprache. Unsere Ergebnisse zeigen, dass PLMs sich in ihrer Anwendbarkeit auf verschiedene Datenregime und ihrer Generalisierung auf mehrere Sprachen unterscheiden, und geben Aufschluss darüber, welche PLMs für eine bestimmte Generierungsaufgabe verwendet werden sollten. Wir teilen Best Practices, die bei der Bewertung von Generierungsfähigkeiten während der Entwicklung zukünftiger PLMs berücksichtigt werden sollten.
Wir zeigen erstmals, dass neuronale Netze, die ausschließlich mit synthetischen Daten trainiert wurden, state-of-the-art Genauigkeit bei der Schätzung von 3D-Körperhaltung und -form (HPS) aus realen Bildern erreichen. Bisherige synthetische Datensätze waren entweder klein, unrealistisch oder enthielten keine realistische Kleidung. Ausreichende Realismus zu erreichen ist nicht trivial, und wir zeigen, wie dies für vollständige Körper in Bewegung gelingt. Konkret enthält unser BEDLAM-Datensatz monokulare RGB-Videos mit Ground-Truth-3D-Körpern im SMPL-X-Format. Es umfasst eine Vielfalt von Körperformen, Bewegungen, Hauttönen, Haaren und Kleidung. Die Kleidung wird realistisch auf den sich bewegenden Körpern simuliert, indem kommerzielle Kleidungsphysik-Simulationen verwendet werden. Wir rendern unterschiedliche Anzahlen von Personen in realistischen Szenen mit variierender Beleuchtung und Kamerabewegungen. Anschließend trainieren wir verschiedene HPS-Regressoren mit BEDLAM und erreichen state-of-the-art Genauigkeit auf Benchmark-Datensätzen mit realen Bildern, obwohl wir nur mit synthetischen Daten trainiert haben. Wir nutzen BEDLAM, um Einblicke zu gewinnen, welche Modellentwurfsentscheidungen für die Genauigkeit wichtig sind. Mit guten synthetischen Trainingsdaten stellen wir fest, dass eine einfache Methode wie HMR die Genauigkeit der aktuellen SOTA-Methode (CLIFF) annähert. BEDLAM ist für eine Vielzahl von Aufgaben nützlich, und alle Bilder, Ground-Truth-Körper, 3D-Kleidung, Support-Code und mehr stehen zu Forschungszwecken zur Verfügung. Zusätzlich bieten wir detaillierte Informationen über unsere Pipeline zur Erzeugung synthetischer Daten, die es anderen ermöglicht, ihre eigenen Datensätze zu generieren. Siehe die Projektseite: https://bedlam.is.tue.mpg.de/.
Aus visuellen Beobachtungen gelernte Dynamikmodelle haben sich in verschiedenen Robotermanipulationsaufgaben als effektiv erwiesen. Eine der zentralen Fragen beim Erlernen solcher Dynamikmodelle ist, welche Szenendarstellung verwendet werden soll. Frühere Arbeiten gehen typischerweise von einer Darstellung mit fester Dimension oder Auflösung aus, was für einfache Aufgaben ineffizient und für komplexere Aufgaben unzureichend sein kann. In dieser Arbeit untersuchen wir, wie dynamische und adaptive Darstellungen auf verschiedenen Abstraktionsebenen gelernt werden können, um den optimalen Kompromiss zwischen Effizienz und Effektivität zu erreichen. Konkret konstruieren wir dynamische Auflösungs-Partikel-Darstellungen der Umgebung und lernen ein einheitliches Dynamikmodell mithilfe von Graph Neural Networks (GNNs), das eine kontinuierliche Auswahl der Abstraktionsebene ermöglicht. Während der Testphase kann der Agent adaptiv die optimale Auflösung in jedem Modellprädiktiven Kontrollschritt (MPC) bestimmen. Wir evaluieren unsere Methode in der Manipulation von Objekthaufen, einer Aufgabe, die uns häufig in der Küche, Landwirtschaft, Fertigung und pharmazeutischen Anwendungen begegnet. Durch umfassende Bewertungen sowohl in der Simulation als auch in der realen Welt zeigen wir, dass unsere Methode eine signifikant bessere Leistung erzielt als state-of-the-art Baselines mit fester Auflösung beim Sammeln, Sortieren und Umverteilen von granularen Objekthaufen, die aus verschiedenen Instanzen wie Kaffeebohnen, Mandeln, Mais usw. bestehen.
Tiefe neuronale Netze (DNNs) sind inzwischen allgegenwärtig im Bereich des maschinellen Lernens, doch ihr Energieverbrauch bleibt ein beachtliches Problem. Die Absenkung der Versorgungsspannung ist eine effektive Strategie zur Reduzierung des Energieverbrauchs. Allerdings kann eine aggressive Reduzierung der Versorgungsspannung zu einer Verschlechterung der Genauigkeit führen, bedingt durch zufällige Bit-Flips im statischen RAM (SRAM), in dem die Modellparameter gespeichert sind. Um diese Herausforderung zu bewältigen, stellen wir NeuralFuse vor, ein neuartiges Add-on-Modul, das den Zielkonflikt zwischen Genauigkeit und Energieverbrauch in Niederspannungsbereichen durch das Erlernen von Eingabetransformationen zur Erzeugung fehlerresistenter Datenrepräsentationen adressiert. NeuralFuse schützt die Genauigkeit von DNNs sowohl im nominalen als auch im Niederspannungsbereich. Darüber hinaus ist NeuralFuse einfach zu implementieren und kann problemlos auf DNNs mit eingeschränktem Zugriff angewendet werden, wie beispielsweise nicht konfigurierbare Hardware oder Fernzugriff auf cloudbasierte APIs. Experimentelle Ergebnisse zeigen, dass NeuralFuse bei einer Bitfehlerrate von 1 % den SRAM-Speicherzugriffsenergieverbrauch um bis zu 24 % reduzieren und gleichzeitig die Genauigkeit um bis zu 57 % verbessern kann. Nach unserem besten Wissen ist dies der erste modellagnostische Ansatz (d.h. ohne Modell-Neutraining), der Bitfehler aufgrund von Niederspannung adressiert. Der Quellcode ist unter https://github.com/IBM/NeuralFuse verfügbar.
Wir präsentieren ArrayBot, ein verteiltes Manipulationssystem, das aus einem 16x16-Array vertikal gleitender Säulen besteht, die mit taktilen Sensoren ausgestattet sind und gleichzeitig Tischobjekte unterstützen, wahrnehmen und manipulieren können. Um generalisierbare verteilte Manipulation zu erreichen, nutzen wir Reinforcement-Learning (RL)-Algorithmen zur automatischen Entdeckung von Steuerungsstrategien. Angesichts der massiv redundanten Aktionen schlagen wir vor, den Aktionsraum umzugestalten, indem wir räumlich lokale Aktionsbereiche und niederfrequente Aktionen im Frequenzbereich berücksichtigen. Mit diesem umgestalteten Aktionsraum trainieren wir RL-Agenten, die verschiedene Objekte ausschließlich durch taktile Beobachtungen verschieben können. Überraschenderweise stellen wir fest, dass die entdeckte Strategie nicht nur auf ungesehene Objektformen im Simulator generalisieren kann, sondern auch ohne jegliche Domänenrandomisierung auf den physischen Roboter übertragbar ist. Durch die Nutzung der implementierten Strategie präsentieren wir zahlreiche Manipulationsaufgaben in der realen Welt, die das enorme Potenzial von RL auf ArrayBot für verteilte Manipulation verdeutlichen.
In den letzten Jahren haben Transformer-basierte Sprachmodelle den Standardansatz für Aufgaben der natürlichen Sprachverarbeitung (NLP) gebildet. Strenge Anforderungen an Durchsatz und Latenz in industriellen Anwendungen schränken jedoch deren Verbreitung ein. Um diese Lücke zu schließen, werden Modellkompressionsverfahren wie strukturiertes Pruning eingesetzt, um die Inferenzeffizienz zu verbessern. Allerdings bieten die meisten bestehenden Inferenzlaufzeitumgebungen für neuronale Netze nur unzureichende Unterstützung für strukturierte Sparsity. In diesem Artikel präsentieren wir einen effizienten Software-Stack für die Inferenz von tiefen Lernmodellen auf Basis von Transformer-Architekturen, bei denen die Gewichte mit konstanter Blockgröße gepruned werden. Unser sparser Software-Beschleuniger nutzt Intel Deep Learning Boost, um die Leistung der Multiplikation von sparsen mit dichten Matrizen (häufig als SpMM abgekürzt) auf CPUs zu maximieren. Unser SpMM-Kernel übertrifft die bestehenden sparsen Bibliotheken (oneMKL, TVM und LIBXSMM) um eine Größenordnung bei einer Vielzahl von GEMM-Formen unter fünf repräsentativen Sparsity-Verhältnissen (70 %, 75 %, 80 %, 85 %, 90 %). Darüber hinaus zeigt unser SpMM-Kernel eine bis zu 5-fache Beschleunigung gegenüber dem dichten GEMM-Kernel von oneDNN, einer hochoptimierten dichten Bibliothek, die in der Industrie weit verbreitet ist. Wir wenden unseren sparsen Beschleuniger auf weit verbreitete Transformer-basierte Sprachmodelle wie Bert-Mini, DistilBERT, Bert-Base und BERT-Large an. Unsere sparsen Inferenzsoftware zeigt unter denselben Konfigurationen auf Xeon in Amazon Web Services unter Proxy-Produktionslatenzbeschränkungen eine bis zu 1,5-fache Beschleunigung gegenüber Neural Magic’s Deepsparse. Wir vergleichen unsere Lösung auch mit zwei framework-basierten Inferenzlösungen, ONNX Runtime und PyTorch, und zeigen eine bis zu 37-fache Beschleunigung gegenüber ONNX Runtime und eine 345-fache gegenüber PyTorch auf Xeon unter den Latenzbeschränkungen. Der gesamte Quellcode ist öffentlich auf GitHub verfügbar: https://github.com/intel/intel-extension-for-transformers.