Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Kosmos-2 vor, ein Multimodales Großes Sprachmodell (MLLM), das neue Fähigkeiten zur Wahrnehmung von Objektbeschreibungen (z. B. Begrenzungsrahmen) und zur Verankerung von Text in der visuellen Welt ermöglicht. Konkret repräsentieren wir Referenzausdrücke als Links in Markdown, d. h. ``[Textspan](Begrenzungsrahmen)'', wobei Objektbeschreibungen als Sequenzen von Ortstoken dargestellt werden. Zusammen mit multimodalen Korpora erstellen wir groß angelegte Daten von verankerten Bild-Text-Paaren (genannt GrIT), um das Modell zu trainieren. Zusätzlich zu den bestehenden Fähigkeiten von MLLMs (z. B. Wahrnehmung allgemeiner Modalitäten, Befolgen von Anweisungen und Durchführung von In-Context-Lernen) integriert Kosmos-2 die Verankerungsfähigkeit in nachgelagerte Anwendungen. Wir evaluieren Kosmos-2 in einer Vielzahl von Aufgaben, darunter (i) multimodale Verankerung, wie das Verständnis von Referenzausdrücken und die Verankerung von Phrasen, (ii) multimodale Referenzierung, wie die Generierung von Referenzausdrücken, (iii) Wahrnehmungs-Sprach-Aufgaben und (iv) Sprachverständnis und -generierung. Diese Arbeit legt die Grundlage für die Entwicklung von Embodiment-KI und beleuchtet die große Konvergenz von Sprache, multimodaler Wahrnehmung, Handlung und Weltmodellierung, was ein entscheidender Schritt in Richtung künstlicher allgemeiner Intelligenz ist. Daten, Demo und vortrainierte Modelle sind unter https://aka.ms/kosmos-2 verfügbar.
Obwohl die Weiterentwicklung vortrainierter großer Sprachmodelle voranschreitet, bleibt die Erforschung eines einheitlichen Modells für Sprache und andere multimodale Daten, wie beispielsweise Bewegung, bisher herausfordernd und unberührt. Glücklicherweise zeigt die menschliche Bewegung eine semantische Kopplung, die der menschlichen Sprache ähnelt und oft als eine Form der Körpersprache wahrgenommen wird. Durch die Fusion von Sprachdaten mit großskaligen Bewegungsmodellen wird ein vortrainiertes Bewegungs-Sprachmodell möglich, das die Leistung bewegungsbezogener Aufgaben verbessern kann. Angetrieben von dieser Erkenntnis schlagen wir MotionGPT vor, ein einheitliches, vielseitiges und benutzerfreundliches Bewegungs-Sprachmodell zur Bewältigung mehrerer bewegungsrelevanter Aufgaben. Konkret verwenden wir die diskrete Vektorquantisierung für menschliche Bewegung und übertragen 3D-Bewegung in Bewegungstokens, ähnlich dem Erzeugungsprozess von Worttokens. Aufbauend auf diesem „Bewegungsvokabular“ führen wir eine Sprachmodellierung sowohl für Bewegung als auch für Text in einheitlicher Weise durch und behandeln menschliche Bewegung als eine spezifische Sprache. Darüber hinaus, inspiriert durch Prompt-Lernen, trainieren wir MotionGPT mit einer Mischung aus Bewegungs-Sprachdaten vor und feintunen es auf prompt-basierten Frage-Antwort-Aufgaben. Umfangreiche Experimente zeigen, dass MotionGPT state-of-the-art Leistungen bei mehreren Bewegungsaufgaben erzielt, einschließlich textgesteuerter Bewegungsgenerierung, Bewegungsbeschreibung, Bewegungsvorhersage und Bewegungsinterpolation.
Präzise und kontrollierbare Bildbearbeitung ist eine anspruchsvolle Aufgabe, die erhebliche Aufmerksamkeit auf sich gezogen hat. Kürzlich ermöglicht DragGAN ein interaktives, punktbasiertes Bildbearbeitungsframework und erzielt beeindruckende Bearbeitungsergebnisse mit Pixelgenauigkeit. Da diese Methode jedoch auf Generative Adversarial Networks (GAN) basiert, ist ihre Allgemeingültigkeit durch die Kapazität der vortrainierten GAN-Modelle begrenzt. In dieser Arbeit erweitern wir ein solches Bearbeitungsframework auf Diffusionsmodelle und schlagen DragDiffusion vor. Durch die Nutzung groß angelegter vortrainierter Diffusionsmodelle verbessern wir die Anwendbarkeit der interaktiven, punktbasierten Bearbeitung in realen Szenarien erheblich. Während die meisten bestehenden diffusionsbasierten Bildbearbeitungsmethoden auf Texteinbettungen arbeiten, optimiert DragDiffusion das Diffusionslatent, um präzise räumliche Kontrolle zu erreichen. Obwohl Diffusionsmodelle Bilder iterativ erzeugen, zeigen wir empirisch, dass die Optimierung des Diffusionslatents in einem einzigen Schritt ausreicht, um kohärente Ergebnisse zu erzeugen, wodurch DragDiffusion hochwertige Bearbeitungen effizient durchführen kann. Umfangreiche Experimente in einer Vielzahl anspruchsvoller Fälle (z. B. mehrere Objekte, diverse Objektkategorien, verschiedene Stile usw.) demonstrieren die Vielseitigkeit und Allgemeingültigkeit von DragDiffusion.
Das Segment Anything Model (SAM) ist ein prompt-gesteuertes Vision-Foundation-Modell, das dazu dient, das Objekt von Interesse von seinem Hintergrund zu trennen. Seit das Meta-Forschungsteam das SA-Projekt veröffentlicht hat, hat SAM aufgrund seiner beeindruckenden Zero-Shot-Transfer-Leistung und seiner hohen Vielseitigkeit, die eine Kompatibilität mit anderen Modellen für fortgeschrittene Vision-Anwendungen wie die Bildbearbeitung mit fein abgestufter Kontrolle ermöglicht, erhebliche Aufmerksamkeit erregt. Viele dieser Anwendungsfälle müssen auf ressourcenbeschränkten Edge-Geräten, wie mobilen Apps, ausgeführt werden. In dieser Arbeit zielen wir darauf ab, SAM mobilfreundlich zu machen, indem wir den schwergewichtigen Bild-Encoder durch einen leichtgewichtigen ersetzen. Ein naiver Ansatz, ein solches neues SAM wie im ursprünglichen SAM-Papier zu trainieren, führt zu unbefriedigenden Ergebnissen, insbesondere wenn nur begrenzte Trainingsressourcen verfügbar sind. Wir stellen fest, dass dies hauptsächlich auf die gekoppelte Optimierung des Bild-Encoders und des Mask-Decoders zurückzuführen ist, was uns dazu motiviert, die entkoppelte Destillation vorzuschlagen. Konkret destillieren wir das Wissen aus dem Bild-Encoder ViT-H im ursprünglichen SAM in einen leichtgewichtigen Bild-Encoder, der automatisch mit dem Mask-Decoder im ursprünglichen SAM kompatibel ist. Das Training kann auf einer einzelnen GPU in weniger als einem Tag abgeschlossen werden, und das resultierende leichtgewichtige SAM wird als MobileSAM bezeichnet, das mehr als 60 Mal kleiner ist, aber eine vergleichbare Leistung wie das ursprüngliche SAM erzielt. In Bezug auf die Inferenzgeschwindigkeit benötigt MobileSAM etwa 10 ms pro Bild: 8 ms für den Bild-Encoder und 2 ms für den Mask-Decoder. Mit überlegener Leistung und höherer Vielseitigkeit ist unser MobileSAM 7 Mal kleiner und 4 Mal schneller als das gleichzeitige FastSAM, was es besser für mobile Anwendungen geeignet macht. Der Code für das MobileSAM-Projekt ist unter https://github.com/ChaoningZhang/MobileSAM verfügbar.
Große Sprachmodelle (LLMs), trotz ihrer jüngsten beeindruckenden Erfolge, sind besonders kostspielig in der Bereitstellung, insbesondere für Anwendungen, die die Erzeugung von langen Inhalten beinhalten, wie Dialogsysteme und das Schreiben von Geschichten. Oft wird eine große Menge an temporären Zustandsinformationen, die als KV-Cache bezeichnet werden, zusätzlich zu den Modellparametern im GPU-Speicher gespeichert, was linear mit der Sequenzlänge und der Batch-Größe skaliert. In diesem Artikel stellen wir einen neuartigen Ansatz zur Implementierung des KV-Caches vor, der dessen Speicherbedarf erheblich reduziert. Unser Ansatz basiert auf der bemerkenswerten Beobachtung, dass ein kleiner Teil der Tokens den größten Beitrag bei der Berechnung der Aufmerksamkeitswerte leistet. Wir nennen diese Tokens Heavy Hitters (H_2). Durch eine umfassende Untersuchung stellen wir fest, dass (i) das Auftreten von H_2 natürlich ist und stark mit der häufigen gemeinsamen Auftretenshäufigkeit von Tokens im Text korreliert, und (ii) deren Entfernung zu einer erheblichen Leistungsverschlechterung führt. Basierend auf diesen Erkenntnissen schlagen wir Heavy Hitter Oracle (H_2O) vor, eine KV-Cache-Verwaltungsstrategie, die dynamisch ein Gleichgewicht zwischen aktuellen und H_2-Tokens beibehält. Wir formulieren die KV-Cache-Verwaltung als ein dynamisches submodulares Problem und beweisen (unter milden Annahmen) eine theoretische Garantie für unseren neuartigen Verwaltungsalgorithmus, der zukünftige Arbeiten leiten könnte. Wir validieren die Genauigkeit unseres Algorithmus mit OPT, LLaMA und GPT-NeoX über eine breite Palette von Aufgaben. Unsere Implementierung von H_2O mit 20 % Heavy Hitters verbessert den Durchsatz gegenüber drei führenden Inferenzsystemen – DeepSpeed Zero-Inference, Hugging Face Accelerate und FlexGen – um bis zu das 29-fache, 29-fache und 3-fache bei OPT-6.7B und OPT-30B. Bei gleicher Batch-Größe kann H2O die Latenz um bis zu das 1,9-fache reduzieren. Der Code ist verfügbar unter https://github.com/FMInference/H2O.
Aktuelle Trends beim Vortrainieren leistungsfähiger Large Language Models (LLMs) konzentrieren sich hauptsächlich auf die Skalierung von Modell- und Datensatzgrößen. Die Qualität der Vortrainingsdaten ist jedoch ein wichtiger Faktor für das Training leistungsstarker LLMs, bleibt aber ein nebulöses Konzept, das noch nicht vollständig charakterisiert wurde. Daher verwenden wir den kürzlich vorgeschlagenen Task2Vec-Diversitätskoeffizienten, um formale Aspekte der Datenqualität zu verstehen und zu fundieren, um über die reine Skalierung hinauszugehen. Insbesondere messen wir den Diversitätskoeffizienten öffentlich verfügbarer Vortrainingsdatensätze, um zu zeigen, dass deren formale Diversität im Vergleich zu theoretischen Unter- und Obergrenzen hoch ist. Zusätzlich führen wir Interpretierbarkeitsexperimente durch, um das Vertrauen in den Diversitätskoeffizienten zu stärken, und stellen fest, dass der Koeffizient mit intuitiven Eigenschaften der Diversität übereinstimmt, z. B. dass er mit der Anzahl latenter Konzepte zunimmt. Wir kommen zu dem Schluss, dass der Diversitätskoeffizient zuverlässig ist, zeigen, dass er für öffentlich verfügbare LLM-Datensätze hoch ist, und vermuten, dass er zur Erstellung nützlicher, diverser Datensätze für LLMs verwendet werden kann.
Ein zentraler Begriff in der praktischen und theoretischen maschinellen Lernens ist der des schwachen Lerners, also Klassifikatoren, die eine bessere als zufällige Leistung (für jede gegebene Datenverteilung) erzielen, selbst wenn diese Verbesserung nur geringfügig ist. Solche schwachen Lerner bilden die praktische Grundlage für kanonische Methoden des maschinellen Lernens wie Boosting. In dieser Arbeit zeigen wir, dass prompt-basierte große Sprachmodelle (LLMs) effektiv als solche schwachen Lerner fungieren können. Konkret demonstrieren wir die Verwendung eines großen Sprachmodells als schwachen Lerner in einem Boosting-Algorithmus, der auf tabellarische Daten angewendet wird. Wir zeigen, dass LLMs, indem sie (gemäß der interessierenden Verteilung korrekt abgetastete) Textbeschreibungen von tabellarischen Datenproben erhalten, eine Zusammenfassung der Proben erstellen können, die als Vorlage für die Klassifikation dient und das Ziel erfüllt, als schwacher Lerner für diese Aufgabe zu agieren. Wir integrieren diese Modelle in einen Boosting-Ansatz, der in einigen Fällen das Wissen innerhalb des LLMs nutzen kann, um traditionelle baumbasierte Boosting-Verfahren zu übertreffen. Das Modell übertrifft sowohl Few-Shot-Lernen als auch gelegentlich sogar aufwändigere Fine-Tuning-Verfahren, insbesondere bei Aufgaben mit einer geringen Anzahl von Datenpunkten. Die Ergebnisse verdeutlichen das Potenzial von prompt-basierten LLMs, nicht nur als Few-Shot-Lerner selbst zu fungieren, sondern auch als Komponenten größerer maschineller Lernpipelines.
Große Transformer-Modelle, die auf vielfältigen Datensätzen trainiert wurden, haben eine bemerkenswerte Fähigkeit gezeigt, im Kontext zu lernen und dabei hohe Few-Shot-Leistungen bei Aufgaben zu erzielen, für die sie nicht explizit trainiert wurden. In dieser Arbeit untersuchen wir die Fähigkeiten von Transformern, im Kontext zu lernen, insbesondere bei Entscheidungsproblemen, d.h. Reinforcement Learning (RL) für Bandits und Markov-Entscheidungsprozesse. Dazu führen wir den Decision-Pretrained Transformer (DPT) ein und untersuchen ihn, eine Methode zum überwachten Vortraining, bei der der Transformer eine optimale Aktion vorhersagt, basierend auf einem Abfragezustand und einem im Kontext bereitgestellten Datensatz von Interaktionen über eine Vielzahl von Aufgaben hinweg. Dieses Verfahren, obwohl einfach, erzeugt ein Modell mit mehreren überraschenden Fähigkeiten. Wir stellen fest, dass der vortrainierte Transformer verwendet werden kann, um eine Reihe von RL-Problemen im Kontext zu lösen, wobei er sowohl Exploration online als auch Konservatismus offline zeigt, obwohl er nicht explizit dafür trainiert wurde. Das Modell generalisiert auch über die Vortrainingsverteilung hinaus auf neue Aufgaben und passt seine Entscheidungsstrategien automatisch an unbekannte Strukturen an. Theoretisch zeigen wir, dass DPT als effiziente Implementierung des Bayesian Posterior Sampling betrachtet werden kann, eines nachweislich probeneffizienten RL-Algorithmus. Wir nutzen diese Verbindung weiter, um Garantien für das Bedauern des im Kontext erzeugten Algorithmus durch DPT zu geben, und beweisen, dass er schneller lernen kann als die Algorithmen, die zur Erzeugung der Vortrainingsdaten verwendet wurden. Diese Ergebnisse deuten auf einen vielversprechenden und dennoch einfachen Weg hin, starke Fähigkeiten zur Entscheidungsfindung im Kontext in Transformer-Modelle zu integrieren.
Große Datensätze sind für das moderne Deep Learning unerlässlich. Befürworter argumentieren, dass das Verständnis dieser Methoden Transparenz in Bezug auf die Datensätze erfordert (z. B. „Datensatzkuration, Motivation, Zusammensetzung, Erfassungsprozess usw.“). Allerdings hat fast niemand die Veröffentlichung der detaillierten Definitionen und visuellen Kategoriebeispiele vorgeschlagen, die den Annotatoren zur Verfügung gestellt wurden – Informationen, die entscheidend für das Verständnis der Struktur der Annotationen in jedem Datensatz sind. Diese Labels sind das Herzstück öffentlicher Datensätze, doch nur wenige Datensätze enthalten die Anweisungen, die zu ihrer Erstellung verwendet wurden. Wir stellen eine neue Aufgabe vor, die Erzeugung von Beschriftungsanweisungen (Labeling Instruction Generation), um das Fehlen öffentlich verfügbarer Beschriftungsanweisungen zu beheben. Bei der Erzeugung von Beschriftungsanweisungen nehmen wir einen angemessen annotierten Datensatz und: 1) generieren eine Reihe von Beispielen, die jede Kategorie im Datensatz visuell repräsentieren; 2) liefern ein Textlabel, das jedem der Beispiele entspricht. Wir stellen ein Framework vor, das kein Modelltraining erfordert, um diese Aufgabe zu lösen, und ein neu entwickeltes schnelles Retrieval-System umfasst, das ein großes, vortrainiertes Modell für Vision und Sprache nutzt. Dieses Framework fungiert als Stellvertreter für menschliche Annotatoren, das sowohl bei der Erstellung eines endgültigen Beschriftungsanweisungssatzes als auch bei der Bewertung seiner Qualität helfen kann. Unser Framework generiert mehrere vielfältige visuelle und textuelle Darstellungen der Datensatzkategorien. Der optimierte Anweisungssatz übertrifft unsere stärkste Baseline über 5 Folds um 7,06 mAP für NuImages und 12,9 mAP für COCO.
Allgemeine vortrainierte Modelle ("Foundation Models") haben es Praktikern ermöglicht, generalisierbare Lösungen für individuelle maschinelle Lernprobleme mit Datensätzen zu entwickeln, die deutlich kleiner sind als diejenigen, die für das Lernen von Grund auf erforderlich wären. Solche Modelle werden typischerweise auf großen und vielfältigen Datensätzen mit schwacher Supervision trainiert, wobei sie viel mehr Trainingsdaten verbrauchen, als für jede einzelne nachgelagerte Anwendung verfügbar ist. In diesem Artikel beschreiben wir den Visual Navigation Transformer (ViNT), ein Foundation Model, das den Erfolg allgemeiner vortrainierter Modelle auf die visuell basierte robotische Navigation übertragen soll. ViNT wird mit einem allgemeinen Zielerreichungsziel trainiert, das mit jedem Navigationsdatensatz verwendet werden kann, und verwendet eine flexible Transformer-basierte Architektur, um navigatorische Affordanzen zu lernen und eine effiziente Anpassung an eine Vielzahl von nachgelagerten Navigationsaufgaben zu ermöglichen. ViNT wird auf einer Reihe bestehender Navigationsdatensätze trainiert, die Hunderte von Stunden robotischer Navigation von verschiedenen Roboterplattformen umfassen, und zeigt positiven Transfer, indem es spezialisierte Modelle, die auf einzelnen Datensätzen trainiert wurden, übertrifft. ViNT kann mit diffusionsbasierten Teilzielvorschlägen erweitert werden, um neue Umgebungen zu erkunden, und kann kilometerweite Navigationsprobleme lösen, wenn es mit langreichweitigen Heuristiken ausgestattet ist. ViNT kann auch an neue Aufgabenstellungen angepasst werden, inspiriert durch Prompt-Tuning, bei dem der Ziel-Encoder durch eine Kodierung einer anderen Aufgabenmodalität (z.B. GPS-Wegpunkte oder Routing-Befehle) ersetzt wird, die in denselben Raum von Ziel-Tokens eingebettet ist. Diese Flexibilität und die Fähigkeit, eine Vielzahl von nachgelagerten Problemdomänen zu berücksichtigen, etablieren ViNT als ein effektives Foundation Model für mobile Robotik. Für Videos, Code und Modell-Checkpoints besuchen Sie unsere Projektseite unter https://visualnav-transformer.github.io.
Trotz der vielversprechenden Fortschritte bei multimodalen Aufgaben neigen aktuelle große multimodale Modelle (LMM) dazu, inkonsistente Beschreibungen in Bezug auf das zugehörige Bild und menschliche Anweisungen zu halluzinieren. Dieses Papier befasst sich mit diesem Problem, indem es den ersten großen und vielfältigen visuellen Instruktionsabstimmungsdatensatz vorstellt, der als Large-scale Robust Visual (LRV)-Instruction bezeichnet wird. Unser Datensatz besteht aus 120k visuellen Anweisungen, die von GPT4 generiert wurden und 16 Vision-und-Sprache-Aufgaben mit offenen Anweisungen und Antworten abdecken. Im Gegensatz zu bestehenden Studien, die sich hauptsächlich auf positive Anweisungsbeispiele konzentrieren, entwirft LRV-Instruction sowohl positive als auch negative Anweisungen für eine robustere visuelle Instruktionsabstimmung. Unsere negativen Anweisungen sind auf zwei semantischen Ebenen gestaltet: (i) Manipulation nicht existierender Elemente und (ii) Manipulation existierender Elemente. Um die von LMMs erzeugten Halluzinationen effizient zu messen, schlagen wir GPT4-Assisted Visual Instruction Evaluation (GAVIE) vor, einen neuartigen Ansatz zur Bewertung der visuellen Instruktionsabstimmung, der keine von Menschen annotierten Grundwahrheitsantworten benötigt und sich an diverse Anweisungsformate anpassen kann. Wir führen umfassende Experimente durch, um die Halluzinationen von LMMs zu untersuchen. Unsere Ergebnisse zeigen, dass bestehende LMMs signifikante Halluzinationen aufweisen, wenn sie mit unseren negativen Anweisungen konfrontiert werden, insbesondere bei Anweisungen zur Manipulation existierender Elemente. Darüber hinaus konnten wir durch das Feinabstimmen von MiniGPT4 auf LRV-Instruction die Halluzinationen erfolgreich reduzieren und gleichzeitig die Leistung auf öffentlichen Datensätzen mit weniger Trainingsdaten im Vergleich zu state-of-the-art-Methoden verbessern. Zusätzlich beobachteten wir, dass ein ausgewogenes Verhältnis von positiven und negativen Instanzen in den Trainingsdaten zu einem robusteren Modell führt. Der Link zu unserem Projekt ist verfügbar unter https://fuxiaoliu.github.io/LRV/.
Menschen übertreffen in komplexen Langzeit-Manipulationsaufgaben mit weichen Materialien durch flexiblen Werkzeugeinsatz: Beim Brotbacken wird ein Messer benötigt, um den Teig zu schneiden, und ein Nudelholz, um ihn flach zu drücken. Oft als Kennzeichen menschlicher Kognition betrachtet, bleibt der Werkzeugeinsatz bei autonomen Robotern aufgrund der Herausforderungen beim Verständnis von Werkzeug-Objekt-Interaktionen begrenzt. Hier entwickeln wir ein intelligentes Robotersystem, RoboCook, das elastoplastische Objekte mit verschiedenen Werkzeugen wahrnimmt, modelliert und manipuliert. RoboCook verwendet Punktwolken-Szenendarstellungen, modelliert Werkzeug-Objekt-Interaktionen mit Graph Neural Networks (GNNs) und kombiniert Werkzeugklassifizierung mit selbstüberwachtem Policy-Learning, um Manipulationspläne zu erstellen. Wir zeigen, dass ein universeller Roboterarm aus nur 20 Minuten realer Interaktionsdaten pro Werkzeug komplexe Langzeit-Manipulationsaufgaben mit weichen Objekten erlernen kann, wie z.B. die Herstellung von Teigtaschen und Buchstabenkeksen. Umfangreiche Auswertungen zeigen, dass RoboCook state-of-the-art Ansätze deutlich übertrifft, Robustheit gegen starke externe Störungen aufweist und Anpassungsfähigkeit an verschiedene Materialien demonstriert.
Denoising Diffusion Probabilistic Models (DDPMs) haben sich als fähig erwiesen, hochwertige Bilder mit bemerkenswerter Vielfalt zu synthetisieren, wenn sie mit großen Datenmengen trainiert werden. Typische Diffusionsmodelle und moderne großskalierte bedingte generative Modelle wie Text-zu-Bild-generative Modelle sind jedoch anfällig für Überanpassung, wenn sie mit extrem begrenzten Daten feinjustiert werden. Bisherige Arbeiten haben die subjektgetriebene Generierung unter Verwendung eines Referenzsatzes mit wenigen Bildern untersucht. Allerdings gibt es nur wenige frühere Arbeiten, die sich mit der DDPM-basierten domänengetriebenen Generierung befassen, die darauf abzielt, die gemeinsamen Merkmale von Zielbereichen zu erlernen und gleichzeitig die Vielfalt zu bewahren. In diesem Artikel wird ein neuartiger DomainStudio-Ansatz vorgeschlagen, um DDPMs, die auf großskalierten Quelldatensätzen vortrainiert wurden, mit begrenzten Daten an Zielbereiche anzupassen. Dieser Ansatz ist darauf ausgelegt, die Vielfalt der von den Quelldomänen bereitgestellten Subjekte zu bewahren und hochwertige sowie vielfältige angepasste Stichproben in den Zielbereichen zu erzeugen. Wir schlagen vor, die relativen Abstände zwischen den angepassten Stichproben beizubehalten, um eine beträchtliche Generierungsvielfalt zu erreichen. Darüber hinaus verbessern wir das Lernen von hochfrequenten Details, um eine bessere Generierungsqualität zu erzielen. Unser Ansatz ist sowohl mit unbedingten als auch mit bedingten Diffusionsmodellen kompatibel. Diese Arbeit unternimmt den ersten Versuch, eine unbedingte Few-Shot-Bildgenerierung mit Diffusionsmodellen zu realisieren, wobei eine bessere Qualität und größere Vielfalt als bei aktuellen state-of-the-art GAN-basierten Ansätzen erreicht wird. Darüber hinaus lindert diese Arbeit auch signifikant die Überanpassung bei der bedingten Generierung und ermöglicht eine hochwertige domänengetriebene Generierung, wodurch die anwendbaren Szenarien moderner großskalierter Text-zu-Bild-Modelle weiter ausgebaut werden.
Großskalige Text-zu-Bild-Diffusionsmodelle haben den Stand der Technik in der generativen Bildmodellierung erheblich verbessert und ermöglichen eine intuitive und leistungsstarke Benutzeroberfläche zur Steuerung des Bildgenerierungsprozesses. Die Darstellung räumlicher Einschränkungen, z. B. um bestimmte Objekte an bestimmten Positionen zu platzieren, ist jedoch mit Text umständlich; und aktuelle textbasierte Bildgenerierungsmodelle sind nicht in der Lage, solche Anweisungen präzise zu befolgen. In diesem Artikel betrachten wir die Bildgenerierung aus Text, der mit Segmenten auf der Bildfläche verknüpft ist, was eine intuitive natürliche Sprachschnittstelle mit präziser räumlicher Kontrolle über den generierten Inhalt kombiniert. Wir schlagen ZestGuide vor, einen Zero-Shot-Segmentierungsansatz, der in vortrainierte Text-zu-Bild-Diffusionsmodelle eingebettet werden kann und kein zusätzliches Training erfordert. Es nutzt implizite Segmentierungskarten, die aus Cross-Attention-Schichten extrahiert werden können, und verwendet sie, um die Generierung mit Eingabemasken auszurichten. Unsere experimentellen Ergebnisse kombinieren hohe Bildqualität mit einer präzisen Ausrichtung des generierten Inhalts an den Eingabesegmentierungen und übertreffen frühere Arbeiten sowohl quantitativ als auch qualitativ, einschließlich Methoden, die ein Training auf Bildern mit entsprechenden Segmentierungen erfordern. Im Vergleich zu „Paint with Words“, dem bisherigen Stand der Technik in der Bildgenerierung mit Zero-Shot-Segmentierungsbedingung, verbessern wir uns um 5 bis 10 mIoU-Punkte auf dem COCO-Datensatz bei ähnlichen FID-Werten.
Generative Prozesse, die das Lösen von Differentialgleichungen beinhalten, wie beispielsweise Diffusionsmodelle, erfordern häufig einen Ausgleich zwischen Geschwindigkeit und Qualität. ODE-basierte Sampler sind schnell, erreichen jedoch ein Leistungsplateau, während SDE-basierte Sampler eine höhere Probenqualität auf Kosten einer erhöhten Abtastzeit liefern. Wir führen diesen Unterschied auf Abtastfehler zurück: ODE-Sampler weisen geringere Diskretisierungsfehler auf, während die Stochastizität in SDE akkumulierte Fehler reduziert. Basierend auf diesen Erkenntnissen schlagen wir einen neuartigen Abtastalgorithmus namens Restart vor, um Diskretisierungsfehler und Fehlerreduktion besser auszubalancieren. Die Abtastmethode wechselt zwischen dem Hinzufügen von erheblichem Rauschen in zusätzlichen Vorwärtsschritten und dem strikten Befolgen einer rückwärtigen ODE. Empirisch übertrifft der Restart-Sampler bisherige SDE- und ODE-Sampler sowohl in Geschwindigkeit als auch in Genauigkeit. Restart übertrifft nicht nur die bisher besten SDE-Ergebnisse, sondern beschleunigt auch die Abtastgeschwindigkeit um das 10-fache / 2-fache auf CIFAR-10 / ImageNet 64 mal 64. Darüber hinaus erreicht es eine signifikant bessere Probenqualität als ODE-Sampler innerhalb vergleichbarer Abtastzeiten. Zudem balanciert Restart die Text-Bild-Ausrichtung/visuelle Qualität gegenüber der Diversität besser als bisherige Sampler im groß angelegten Text-zu-Bild Stable-Diffusion-Modell, das auf LAION 512 mal 512 vortrainiert wurde. Der Code ist verfügbar unter https://github.com/Newbeeer/diffusion_restart_sampling.
Transformer-Modelle haben großes Potenzial in der Computer Vision gezeigt, nachdem sie bereits bei Sprachaufgaben erfolgreich waren. Der Swin Transformer ist eines dieser Modelle, das convolution-basierte Architekturen in Bezug auf die Genauigkeit übertrifft und gleichzeitig die Effizienz im Vergleich zum Vision Transformer (ViT) und seinen Varianten verbessert, die eine quadratische Komplexität in Bezug auf die Eingabegröße aufweisen. Der Swin Transformer verwendet verschiebbare Fenster, die Verbindungen zwischen Fenstern ermöglichen, während die Selbstaufmerksamkeitsberechnung auf nicht überlappende lokale Fenster beschränkt wird. Allerdings führen diese verschiebbaren Fenster zu Speicherkopiervorgängen, die einen erheblichen Teil der Laufzeit ausmachen. Um dieses Problem zu mildern, schlagen wir Swin-Free vor, bei dem wir fenstergrößenvariierende Fenster über verschiedene Stufen hinweg anwenden, anstatt verschiebbare Fenster zu verwenden, um Verbindungen zwischen lokalen Fenstern zu erreichen. Durch diese einfache Designänderung läuft Swin-Free schneller als der Swin Transformer bei der Inferenz und bietet gleichzeitig eine bessere Genauigkeit. Darüber hinaus schlagen wir auch einige Varianten von Swin-Free vor, die schneller sind als ihre Swin Transformer-Pendants.
Für die Manipulation von 3D-Objekten erweisen sich Methoden, die eine explizite 3D-Darstellung aufbauen, als leistungsfähiger als solche, die sich ausschließlich auf Kamerabilder verlassen. Die Verwendung expliziter 3D-Darstellungen wie Voxel geht jedoch mit hohen Rechenkosten einher, was die Skalierbarkeit beeinträchtigt. In dieser Arbeit stellen wir RVT vor, einen Multi-View-Transformer für die 3D-Manipulation, der sowohl skalierbar als auch präzise ist. Zu den wesentlichen Merkmalen von RVT gehören ein Aufmerksamkeitsmechanismus zur Aggregation von Informationen über verschiedene Ansichten hinweg sowie das erneute Rendern der Kameraeingaben aus virtuellen Ansichten rund um den Arbeitsbereich des Roboters. In Simulationen zeigt sich, dass ein einzelnes RVT-Modell gut für 18 RLBench-Aufgaben mit 249 Aufgabenvarianten geeignet ist und dabei eine um 26 % höhere relative Erfolgsquote als die bestehende State-of-the-Art-Methode (PerAct) erzielt. Es trainiert außerdem 36-mal schneller als PerAct, um die gleiche Leistung zu erreichen, und bietet eine 2,3-fache Inferenzgeschwindigkeit im Vergleich zu PerAct. Darüber hinaus kann RVT eine Vielzahl von Manipulationsaufgaben in der realen Welt mit nur wenigen (sim10) Demonstrationen pro Aufgabe durchführen. Visuelle Ergebnisse, Code und das trainierte Modell sind unter https://robotic-view-transformer.github.io/ verfügbar.
Probabilistische Vorhersagen sind entscheidend für die Entscheidungsfindung unter Unsicherheit über zukünftiges Wetter. Der vorherrschende Ansatz besteht darin, ein Ensemble von Vorhersagen zu verwenden, um Unsicherheiten in der operationellen numerischen Wettervorhersage darzustellen und zu quantifizieren. Die Erzeugung von Ensembles ist jedoch rechenintensiv. In diesem Artikel schlagen wir vor, Ensemble-Vorhersagen in großem Maßstab zu generieren, indem wir jüngste Fortschritte in der generativen künstlichen Intelligenz nutzen. Unser Ansatz lernt ein datengesteuertes probabilistisches Diffusionsmodell aus dem 5-Mitglieder-Ensemble des GEFS-Rückvorhersage-Datensatzes. Das Modell kann dann effizient beprobt werden, um realistische Wettervorhersagen zu erzeugen, die auf wenigen Mitgliedern des operationellen GEFS-Vorhersagesystems basieren. Die generierten Ensembles weisen eine ähnliche Vorhersagequalität wie das vollständige 31-Mitglieder-Ensemble von GEFS auf, bewertet anhand der ERA5-Reanalyse, und imitieren gut die Statistiken großer physikbasierter Ensembles. Wir wenden dieselbe Methodik auch an, um ein Diffusionsmodell für die generative Nachbearbeitung zu entwickeln: Das Modell lernt direkt, Verzerrungen im emulierten Vorhersagesystem zu korrigieren, indem es Reanalysedaten als Labels während des Trainings nutzt. Ensembles aus diesem generativen Nachbearbeitungsmodell zeigen eine höhere Zuverlässigkeit und Genauigkeit, insbesondere bei der Klassifizierung extremer Ereignisse. Im Allgemeinen sind sie zuverlässiger und prognostizieren die Wahrscheinlichkeit von extremem Wetter genauer als das operationelle GEFS-Ensemble. Unsere Modelle erreichen diese Ergebnisse mit weniger als 1/10 der Rechenkosten, die das operationelle GEFS-System verursacht.