Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Einführung großer Sprachmodelle hat die Code-Generierung erheblich vorangetrieben. Allerdings mangelt es Open-Source-Modellen oft an den Ausführungsfähigkeiten und der iterativen Verbesserung fortschrittlicher Systeme wie dem GPT-4 Code Interpreter. Um dies zu adressieren, stellen wir OpenCodeInterpreter vor, eine Familie von Open-Source-Code-Systemen, die für die Generierung, Ausführung und iterative Verbesserung von Code entwickelt wurden. Unterstützt durch Code-Feedback, einem Datensatz mit 68K mehrstufigen Interaktionen, integriert OpenCodeInterpreter Ausführung und menschliches Feedback für eine dynamische Code-Verbesserung. Unsere umfassende Bewertung von OpenCodeInterpreter anhand wichtiger Benchmarks wie HumanEval, MBPP und deren erweiterter Versionen von EvalPlus zeigt seine außergewöhnliche Leistung. Insbesondere erreicht OpenCodeInterpreter-33B eine Genauigkeit von 83,2 (76,4) auf den durchschnittlichen (und erweiterten Versionen) von HumanEval und MBPP, was nahe an GPT-4s 84,2 (76,2) heranreicht und sich mit synthetisiertem menschlichem Feedback von GPT-4 auf 91,6 (84,6) weiter steigert. OpenCodeInterpreter schließt die Lücke zwischen Open-Source-Code-Generierungsmodellen und proprietären Systemen wie dem GPT-4 Code Interpreter.
Während Transformer enorme Fortschritte in verschiedenen Anwendungsbereichen ermöglicht haben, hinken solche Architekturen bei der Lösung komplexer Entscheidungsfindungsaufgaben immer noch traditionellen symbolischen Planern hinterher. In dieser Arbeit zeigen wir, wie man Transformer trainieren kann, um komplexe Planungsaufgaben zu lösen, und präsentieren Searchformer, ein Transformer-Modell, das zuvor unbekannte Sokoban-Rätsel in 93,7 % der Fälle optimal löst und dabei bis zu 26,8 % weniger Suchschritte als die Standard-A^*-Suche verwendet. Searchformer ist ein Encoder-Decoder-Transformer-Modell, das darauf trainiert ist, die Suchdynamik von A^* vorherzusagen. Dieses Modell wird dann durch Expert-Iterationen feinabgestimmt, um weniger Suchschritte als die A^*-Suche durchzuführen und dennoch einen optimalen Plan zu generieren. In unserer Trainingsmethode wird die Suchdynamik von A^* als eine Token-Sequenz dargestellt, die beschreibt, wann Aufgabenstatus während der symbolischen Planung in den Suchbaum hinzugefügt und entfernt werden. In unseren Ablationsstudien zur Navigation in Labyrinthen stellen wir fest, dass Searchformer Baseline-Modelle, die den optimalen Plan direkt vorhersagen, deutlich übertrifft, und dies mit einer 5-10 Mal kleineren Modellgröße und einem 10 Mal kleineren Trainingsdatensatz. Wir zeigen auch, wie Searchformer auf größere und komplexere Entscheidungsfindungsaufgaben wie Sokoban skaliert, mit einer verbesserten Lösungshäufigkeit und verkürzter Suchdynamik.
Im Bestreben, inklusivere Vision-Language-Modelle (VLMs) zu entwickeln, stellt diese Studie ein großes mehrsprachiges multimodales Modell namens Palo vor. Palo bietet visuelle Reasoning-Fähigkeiten in 10 Hauptsprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Französisch, Arabisch, Bengalisch, Russisch, Urdu und Japanisch, die insgesamt etwa 5 Milliarden Menschen (65 % der Weltbevölkerung) abdecken. Unser Ansatz beinhaltet eine halbautomatisierte Übersetzungsmethode, um den multimodalen Instruktionsdatensatz von Englisch in die Zielsprachen zu adaptieren, wobei ein feinabgestimmtes Large Language Model verwendet wird. Dadurch wird eine hohe linguistische Treue gewährleistet, während gleichzeitig die Skalierbarkeit aufgrund des minimalen manuellen Aufwands ermöglicht wird. Die Einbindung diverser Instruktionssätze hilft uns, die Gesamtleistung über mehrere Sprachen hinweg zu steigern, insbesondere bei unterrepräsentierten Sprachen wie Hindi, Arabisch, Bengalisch und Urdu. Die resultierenden Modelle werden in drei Größenordnungen (1,7B, 7B und 13B Parameter) trainiert, um die Generalisierungsfähigkeit und Skalierbarkeit zu demonstrieren, wobei wir erhebliche Verbesserungen im Vergleich zu starken Baselines feststellen. Wir schlagen außerdem den ersten mehrsprachigen multimodalen Benchmark für zukünftige Ansätze vor, um deren Vision-Language-Reasoning-Fähigkeiten über verschiedene Sprachen hinweg zu evaluieren. Code: https://github.com/mbzuai-oryx/PALO.
Wir präsentieren das TinyLLaVA-Framework, das eine einheitliche Perspektive für die Gestaltung und Analyse von kleinen Large Multimodal Models (LMMs) bietet. Wir untersuchen empirisch die Auswirkungen verschiedener Vision-Encoder, Verbindungsmodule, Sprachmodelle, Trainingsdaten und Trainingsmethoden. Unsere umfangreichen Experimente zeigten, dass durch eine höhere Datenqualität in Kombination mit verbesserten Trainingsmethoden kleinere LMMs durchweg vergleichbare Leistungen wie größere LMMs erzielen können. Im Rahmen unseres Frameworks trainieren wir eine Familie von kleinen LMMs. Unser bestes Modell, TinyLLaVA-3.1B, erreicht eine bessere Gesamtleistung im Vergleich zu bestehenden 7B-Modellen wie LLaVA-1.5 und Qwen-VL. Wir hoffen, dass unsere Erkenntnisse als Baselines für zukünftige Forschungen in Bezug auf Datenskalierung, Trainingskonfigurationen und Modellauswahl dienen können. Unsere Modellgewichte und Codes werden öffentlich zugänglich gemacht.
Transformer-basierte Vision-Modelle tokenisieren Bilder typischerweise in feste quadratische Patches als Eingabeeinheiten, was die Anpassungsfähigkeit an den Bildinhalt vermissen lässt und die inhärente Pixelgruppierungsstruktur vernachlässigt. Inspiriert von der Subwort-Tokenisierung, die in Sprachmodellen weit verbreitet ist, schlagen wir einen Bild-Tokenizer auf Subobjekt-Ebene vor, wobei die Subobjekte durch semantisch bedeutungsvolle Bildsegmente repräsentiert werden, die durch Segmentierungsmodelle (z.B. Segment-Anything-Modelle) gewonnen werden. Um ein Lernsystem auf Basis der Subobjekt-Tokenisierung zu implementieren, haben wir zunächst einen Sequenz-zu-Sequenz-AutoEncoder (SeqAE) eingeführt, um Subobjektsegmente unterschiedlicher Größen und Formen in kompakte Embedding-Vektoren zu komprimieren, und dann die Subobjekt-Embeddings in ein großes Sprachmodell für das Vision-Sprache-Lernen eingespeist. Empirische Ergebnisse zeigten, dass unsere Tokenisierung auf Subobjekt-Ebene im Vergleich zur traditionellen Patch-Level-Tokenisierung das effiziente Lernen der Übersetzung von Bildern in Objekt- und Attributbeschreibungen deutlich erleichtert. Codes und Modelle werden unter https://github.com/ChenDelong1999/subobjects open-source bereitgestellt.
Im weiten Feld des experimentellen Designs war Regression ein leistungsstarkes Werkzeug, um die Ergebnisgrößen eines Systems oder Modells anhand einer Reihe von Parametern präzise vorherzusagen, wurde jedoch traditionell auf Methoden beschränkt, die nur für eine spezifische Aufgabe anwendbar sind. In diesem Artikel schlagen wir OmniPred vor, ein Framework zum Trainieren von Sprachmodellen als universelle End-to-End-Regressoren über (x,y)-Evaluierungsdaten aus diversen realen Experimenten. Unter Verwendung von Daten aus Google Vizier, einer der größten Blackbox-Optimierungsdatenbanken der Welt, zeigen unsere umfangreichen Experimente, dass Sprachmodelle allein durch textuelle Darstellungen mathematischer Parameter und Werte in der Lage sind, sehr präzise numerische Regressionen durchzuführen, und dass sie, wenn sie die Möglichkeit haben, über mehrere Aufgaben hinweg zu trainieren, traditionelle Regressionsmodelle deutlich übertreffen können.
Mit dem rasanten Fortschritt von Large Language Models (LLMs) wurden bedeutende Fortschritte in Multi-Agenten-Anwendungen erzielt. Die Komplexitäten bei der Koordination der Zusammenarbeit von Agenten und die unvorhersehbare Leistung von LLMs stellen jedoch erhebliche Herausforderungen bei der Entwicklung robuster und effizienter Multi-Agenten-Anwendungen dar. Um diese Herausforderungen zu bewältigen, schlagen wir AgentScope vor, eine entwicklerzentrierte Multi-Agenten-Plattform mit dem Nachrichtenaustausch als zentralem Kommunikationsmechanismus. Zusammen mit umfangreichen syntaktischen Werkzeugen, integrierten Ressourcen und benutzerfreundlichen Interaktionen reduziert unser Kommunikationsmechanismus die Barrieren für Entwicklung und Verständnis erheblich. Für robuste und flexible Multi-Agenten-Anwendungen bietet AgentScope sowohl integrierte als auch anpassbare Fehlertoleranzmechanismen und ist zudem mit systemweiter Unterstützung für die Erzeugung, Speicherung und Übertragung multimodaler Daten ausgestattet. Darüber hinaus haben wir ein actor-basiertes Verteilungsframework entworfen, das eine einfache Umstellung zwischen lokalen und verteilten Bereitstellungen sowie eine automatische Paralleloptimierung ohne zusätzlichen Aufwand ermöglicht. Mit diesen Funktionen befähigt AgentScope Entwickler, Anwendungen zu erstellen, die das Potenzial intelligenter Agenten voll ausschöpfen. Wir haben AgentScope unter https://github.com/modelscope/agentscope veröffentlicht und hoffen, dass AgentScope eine breitere Beteiligung und Innovation in diesem schnelllebigen Bereich fördert.
Das Sampling aus Diffusionswahrscheinlichkeitsmodellen (DPMs) ist oft aufwendig für die Erzeugung hochwertiger Bilder und erfordert typischerweise viele Schritte mit einem großen Modell. In diesem Artikel stellen wir das Sampling-Verfahren Trajectory Stitching T-Stitch vor, eine einfache, aber effiziente Technik, um die Sampling-Effizienz mit wenig oder keiner Qualitätseinbuße zu verbessern. Anstatt ausschließlich ein großes DPM für den gesamten Sampling-Pfad zu verwenden, nutzt T-Stitch zunächst ein kleineres DPM in den Anfangsphasen als kostengünstigen Ersatz für das größere DPM und wechselt in einer späteren Phase zum größeren DPM. Unsere zentrale Erkenntnis ist, dass verschiedene Diffusionsmodelle unter derselben Trainingsdatenverteilung ähnliche Kodierungen erlernen und kleinere Modelle in der Lage sind, in den frühen Schritten gute globale Strukturen zu erzeugen. Umfangreiche Experimente zeigen, dass T-Stitch trainingsfrei ist, allgemein für verschiedene Architekturen anwendbar ist und die meisten bestehenden schnellen Sampling-Techniken mit flexiblen Geschwindigkeits- und Qualitätsabwägungen ergänzt. Bei DiT-XL können beispielsweise 40 % der frühen Zeitschritte sicher durch ein 10x schnelleres DiT-S ersetzt werden, ohne dass die Leistung bei der klassenbedingten ImageNet-Generierung beeinträchtigt wird. Wir zeigen weiter, dass unsere Methode auch als Drop-in-Technik verwendet werden kann, um nicht nur die beliebten vortrainierten Stable Diffusion (SD)-Modelle zu beschleunigen, sondern auch die Prompt-Ausrichtung von stilisierten SD-Modellen aus dem öffentlichen Modell-Zoo zu verbessern. Der Code ist unter https://github.com/NVlabs/T-Stitch veröffentlicht.
Die Integration von Large Language Models (LLMs) in Entwicklungsumgebungen (IDEs) ist zu einem zentralen Thema in der modernen Softwareentwicklung geworden. LLMs wie OpenAI GPT-3.5/4 und Code Llama bieten das Potenzial, die Produktivität von Entwicklern erheblich zu steigern, indem sie als intelligente, chat-gesteuerte Programmierassistenten fungieren. Die Verwendung von LLMs in ihrer Standardkonfiguration ist jedoch für ein bestimmtes Szenario wahrscheinlich nicht optimal. Vielmehr erfordert jedes System, dass der LLM anhand eines spezifischen Satzes von Heuristiken verfeinert wird, um die beste Leistung zu gewährleisten. In diesem Artikel stellen wir das Copilot-Evaluationsframework vor: eine Sammlung von Daten und Werkzeugen zur Bewertung von LLM-gesteuerten IDE-Interaktionen, die verschiedene Programmier-szenarien und -sprachen abdecken. Wir schlagen unsere Metriken als eine robustere und informationsdichtere Bewertung im Vergleich zu bisherigen State-of-the-Art-Evaluationssystemen vor. Wir entwerfen und berechnen sowohl statische als auch ausführungsbasierte Erfolgsmetriken für Szenarien, die eine breite Palette von Entwickleraufgaben umfassen, darunter Codegenerierung aus natürlicher Sprache (generate), Dokumentationsgenerierung aus Code (doc), Testfallgenerierung (test), Fehlerbehebung (fix) sowie das Verständnis und die Abfrage von Arbeitsbereichen (workspace). Diese Erfolgsmetriken sind darauf ausgelegt, die Leistung von LLMs innerhalb einer bestimmten IDE und ihres jeweiligen Parameterraums zu bewerten. Unsere Erkenntnisse aus der Bewertung von drei gängigen LLMs mithilfe dieser Metriken können die Entwicklung und Validierung zukünftiger Szenarien in LLM-gesteuerten IDEs informieren.
Die Datenknappheit in ressourcenarmen Sprachen kann durch wortwörtliche Übersetzungen aus annotierten Aufgaben-Daten in ressourcenreichen Sprachen mithilfe von zweisprachigen Lexika angegangen werden. Allerdings weisen zweisprachige Lexika oft nur eine begrenzte lexikalische Übereinstimmung mit den Aufgaben-Daten auf, was zu einer schlechten Übersetzungsabdeckung und Lexikonnutzung führt. Wir schlagen die lexikon-konditionierte Datengenerierung (LexC-Gen) vor, eine Methode, die Klassifikationsaufgaben-Daten in ressourcenarmen Sprachen in großem Maßstab erzeugt. Konkret verwendet LexC-Gen zunächst Wörter aus ressourcenreichen Sprachen in zweisprachigen Lexika, um lexikon-kompatible Aufgaben-Daten zu generieren, und übersetzt diese dann mithilfe von zweisprachigen Lexika via Wortübersetzung in ressourcenarme Sprachen. Über 17 extrem ressourcenarme Sprachen hinweg ist die von LexC-Gen generierte Datenqualität vergleichbar mit von Experten übersetzten Gold-Daten und erzielt im Durchschnitt eine Verbesserung von 5,6 bzw. 8,9 Punkten gegenüber bestehenden lexikonbasierten Wortübersetzungsmethoden bei Sentiment-Analyse- und Themenklassifikationsaufgaben. Wir zeigen, dass die Konditionierung auf zweisprachige Lexika der Schlüsselbestandteil von LexC-Gen ist. LexC-Gen ist auch praktisch – es benötigt nur eine einzige GPU, um Daten in großem Maßstab zu generieren. Es funktioniert gut mit frei zugänglichen LLMs (Large Language Models), und seine Kosten betragen ein Fünftel der Kosten der GPT4-basierten mehrsprachigen Datengenerierung.
In dieser Arbeit widmen wir uns der anspruchsvollen Aufgabe der Rauschreduzierung bei Hand-Objekt-Interaktionen (HOI). Gegeben eine fehlerhafte Interaktionssequenz, besteht das Ziel darin, die inkorrekte Handtrajektorie zu verfeinern, um Interaktionsartefakte zu entfernen und eine wahrnehmungsrealistische Sequenz zu erzeugen. Diese Herausforderung umfasst komplexes Interaktionsrauschen, einschließlich unnatürlicher Handposen und falscher Hand-Objekt-Beziehungen, sowie die Notwendigkeit einer robusten Generalisierung auf neue Interaktionen und diverse Rauschmuster. Wir bewältigen diese Herausforderungen durch einen neuartigen Ansatz, GeneOH Diffusion, der zwei Schlüsseldesigns integriert: eine innovative kontaktzentrierte HOI-Darstellung namens GeneOH und ein neues domänengeneralisierbares Rauschreduzierungsverfahren. Die kontaktzentrierte Darstellung GeneOH parametrisiert den HOI-Prozess informativ und ermöglicht eine verbesserte Generalisierung über verschiedene HOI-Szenarien hinweg. Das neue Rauschreduzierungsverfahren besteht aus einem kanonischen Rauschreduzierungsmodell, das darauf trainiert ist, verrauschte Datenproben aus einem gebleichten Rauschraum auf eine saubere Datenmannigfaltigkeit zu projizieren, und einer „Rauschreduzierung durch Diffusion“-Strategie, die Eingabetrajektorien mit verschiedenen Rauschmustern verarbeiten kann, indem sie diese zunächst diffundiert, um sie mit dem gebleichten Rauschraum in Einklang zu bringen, und sie dann durch den kanonischen Rauschreduzierer bereinigt. Umfangreiche Experimente auf vier Benchmarks mit signifikanten Domänenvariationen demonstrieren die überlegene Effektivität unserer Methode. GeneOH Diffusion zeigt auch Potenzial für verschiedene nachgelagerte Anwendungen. Projektwebsite: https://meowuu7.github.io/GeneOH-Diffusion/.
Große Sprachmodelle (LLMs) sind leistungsstarke Werkzeuge für die Inhaltsmoderation, doch ihre Inferenzkosten und Latenzzeiten machen sie für den gelegentlichen Einsatz auf großen Datensätzen, wie dem Google Ads-Repository, ungeeignet. Diese Studie schlägt eine Methode vor, um LLM-Überprüfungen für die Inhaltsmoderation in Google Ads zu skalieren. Zunächst verwenden wir Heuristiken, um Kandidaten durch Filterung und Duplikatentfernung auszuwählen und erstellen Cluster von Anzeigen, für die wir jeweils eine repräsentative Anzeige pro Cluster auswählen. Anschließend nutzen wir LLMs, um nur die repräsentativen Anzeigen zu überprüfen. Schließlich übertragen wir die LLM-Entscheidungen für die repräsentativen Anzeigen zurück auf ihre Cluster. Diese Methode reduziert die Anzahl der Überprüfungen um mehr als drei Größenordnungen und erreicht dabei eine doppelt so hohe Trefferquote im Vergleich zu einem Baseline-Modell ohne LLM. Der Erfolg dieses Ansatzes hängt stark von den verwendeten Repräsentationen für das Clustering und die Label-Propagation ab; wir fanden heraus, dass cross-modale Ähnlichkeitsrepräsentationen bessere Ergebnisse liefern als uni-modale Repräsentationen.
Großskalige Text-zu-Bild-Modelle ermöglichen eine Vielzahl von Bildbearbeitungstechniken, die auf Textprompts oder sogar räumliche Steuerungen zurückgreifen. Die Anwendung dieser Bearbeitungsmethoden auf Multi-View-Bilder, die eine einzelne Szene darstellen, führt jedoch zu 3D-inkonsistenten Ergebnissen. In dieser Arbeit konzentrieren wir uns auf geometrische Manipulationen basierend auf räumlicher Steuerung und führen eine Methode ein, um den Bearbeitungsprozess über verschiedene Ansichten hinweg zu konsolidieren. Wir stützen uns auf zwei Erkenntnisse: (1) Die Beibehaltung konsistenter Merkmale während des Generierungsprozesses hilft, Konsistenz bei der Multi-View-Bearbeitung zu erreichen, und (2) die Abfragen in den Self-Attention-Schichten beeinflussen die Bildstruktur maßgeblich. Daher schlagen wir vor, die geometrische Konsistenz der bearbeiteten Bilder zu verbessern, indem wir die Konsistenz der Abfragen erzwingen. Zu diesem Zweck führen wir QNeRF ein, ein Neural Radiance Field, das auf den internen Abfragemerkmalen der bearbeiteten Bilder trainiert wird. Einmal trainiert, kann QNeRF 3D-konsistente Abfragen rendern, die dann während der Generierung sanft in die Self-Attention-Schichten zurückinjiziert werden, was die Multi-View-Konsistenz erheblich verbessert. Wir verfeinern den Prozess durch eine progressive, iterative Methode, die die Abfragen über die Diffusionszeitpunkte hinweg besser konsolidiert. Wir vergleichen unsere Methode mit einer Reihe bestehender Techniken und zeigen, dass sie eine bessere Multi-View-Konsistenz und eine höhere Treue zur Eingabeszene erreichen kann. Diese Vorteile ermöglichen es uns, NeRFs mit weniger visuellen Artefakten zu trainieren, die besser an die Zielgeometrie angepasst sind.
Das Aufkommen von 3D Gaussian Splatting (3DGS) hat kürzlich eine Revolution im Bereich des Neural Rendering ausgelöst, die hochwertige Renderings in Echtzeit ermöglicht. Allerdings ist 3DGS stark auf das initialisierte Punktwolkenmodell angewiesen, das durch Structure-from-Motion (SfM)-Techniken erzeugt wird. Bei der Bearbeitung von großflächigen Szenen, die unweigerlich texturlose Oberflächen enthalten, scheitern die SfM-Techniken oft daran, ausreichend Punkte auf diesen Oberflächen zu erzeugen, und können keine gute Initialisierung für 3DGS bereitstellen. Infolgedessen leidet 3DGS unter schwieriger Optimierung und qualitativ minderwertigen Renderings. In diesem Artikel schlagen wir, inspiriert von klassischen Multi-View Stereo (MVS)-Techniken, GaussianPro vor, eine neuartige Methode, die eine progressive Propagationsstrategie anwendet, um die Verdichtung der 3D-Gaußschen zu steuern. Im Vergleich zu den einfachen Teilungs- und Klonstrategien, die in 3DGS verwendet werden, nutzt unsere Methode die Prioritäten der bestehenden rekonstruierten Geometrien der Szene und Patch-Matching-Techniken, um neue Gaußsche mit präzisen Positionen und Ausrichtungen zu erzeugen. Experimente sowohl in großflächigen als auch in kleinflächigen Szenen bestätigen die Wirksamkeit unserer Methode, wobei unsere Methode 3DGS auf dem Waymo-Datensatz deutlich übertrifft und eine Verbesserung von 1,15 dB in Bezug auf PSNR zeigt.
Wir stellen CyberDemo vor, einen neuartigen Ansatz für das Imitationslernen in der Robotik, der simulierte menschliche Demonstrationen für reale Aufgaben nutzt. Durch die Einbindung umfangreicher Datenaugmentation in einer simulierten Umgebung übertrifft CyberDemo traditionelle, domänenspezifische Demonstrationen aus der realen Welt, wenn es in die reale Welt übertragen wird, und bewältigt dabei diverse physische und visuelle Bedingungen. Trotz seiner Kosteneffizienz und Bequemlichkeit bei der Datenerfassung übertrifft CyberDemo Baseline-Methoden in Bezug auf die Erfolgsraten bei verschiedenen Aufgaben und zeigt Generalisierungsfähigkeit mit zuvor unbekannten Objekten. Beispielsweise kann es neuartige Tetra- und Pentaventile drehen, obwohl die menschlichen Demonstrationen nur Tri-Ventile umfassten. Unsere Forschung demonstriert das erhebliche Potenzial simulierter menschlicher Demonstrationen für geschickte Manipulationsaufgaben in der realen Welt. Weitere Details finden Sie unter https://cyber-demo.github.io.
Als vielversprechende 3D-Generierungstechnik hat die Multiview-Diffusion (MVD) aufgrund ihrer Vorteile in Bezug auf Generalisierbarkeit, Qualität und Effizienz viel Aufmerksamkeit erhalten. Durch das Feinabstimmen vortrainierter großer Bilddiffusionsmodelle mit 3D-Daten generieren die MVD-Methoden zunächst mehrere Ansichten eines 3D-Objekts basierend auf einem Bild- oder Textprompt und rekonstruieren dann 3D-Formen durch Multiview-3D-Rekonstruktion. Die spärlichen Ansichten und inkonsistenten Details in den generierten Bildern machen die 3D-Rekonstruktion jedoch herausfordernd. Wir präsentieren MVD^2, eine effiziente 3D-Rekonstruktionsmethode für Multiview-Diffusion (MVD)-Bilder. MVD^2 aggregiert Bildmerkmale durch Projektion und Faltung in ein 3D-Merkmalvolumen und dekodiert dann volumetrische Merkmale in ein 3D-Mesh. Wir trainieren MVD^2 mit 3D-Formsammlungen und MVD-Bildern, die durch gerenderte Ansichten von 3D-Formen angeregt werden. Um die Diskrepanz zwischen den generierten Multiview-Bildern und den Ground-Truth-Ansichten der 3D-Formen zu adressieren, entwerfen wir ein einfaches, aber effizientes ansichtsabhängiges Trainingsschema. MVD^2 verbessert die 3D-Generierungsqualität von MVD und ist schnell und robust gegenüber verschiedenen MVD-Methoden. Nach dem Training kann es effizient 3D-Meshes aus Multiview-Bildern innerhalb einer Sekunde dekodieren. Wir trainieren MVD^2 mit Zero-123++ und dem ObjectVerse-LVIS-3D-Datensatz und demonstrieren seine überlegene Leistung bei der Generierung von 3D-Modellen aus Multiview-Bildern, die von verschiedenen MVD-Methoden generiert wurden, wobei sowohl synthetische als auch reale Bilder als Prompts verwendet werden.
Aktuelle Forschungen haben gezeigt, dass Transformer, insbesondere lineare Aufmerksamkeitsmodelle, implizit gradientenabstiegsähnliche Algorithmen auf den im Kontext bereitgestellten Daten während ihres Vorwärtsinferenzschritts ausführen. Ihre Fähigkeit, komplexere Probleme zu bewältigen, bleibt jedoch unerforscht. In diesem Artikel beweisen wir, dass jeder lineare Transformer ein implizites lineares Modell beibehält und als Ausführung einer Variante des vorkonditionierten Gradientenabstiegs interpretiert werden kann. Wir untersuchen auch den Einsatz linearer Transformer in einem anspruchsvollen Szenario, in dem die Trainingsdaten mit unterschiedlichen Rauschpegeln verunreinigt sind. Bemerkenswerterweise zeigen wir, dass lineare Transformer für dieses Problem einen komplexen und äußerst effektiven Optimierungsalgorithmus entdecken, der viele vernünftige Baselines in der Leistung übertrifft oder erreicht. Wir rekonstruieren diesen Algorithmus und zeigen, dass es sich um einen neuartigen Ansatz handelt, der Momentum und adaptive Skalierung basierend auf den Rauschpegeln einbezieht. Unsere Ergebnisse zeigen, dass sogar lineare Transformer die überraschende Fähigkeit besitzen, ausgeklügelte Optimierungsstrategien zu entdecken.
Imitation Learning lernt eine Policy aus Demonstrationen, ohne dass manuell entworfene Belohnungsfunktionen erforderlich sind. Bei vielen robotischen Aufgaben, wie beispielsweise dem autonomen Rennsport, müssen imitierte Policies komplexe Umgebungsdynamiken und menschliche Entscheidungsprozesse modellieren. Sequence Modeling ist äußerst effektiv darin, komplexe Muster in Bewegungssequenzen zu erfassen, hat jedoch Schwierigkeiten, sich an neue Umgebungen oder Verteilungsverschiebungen anzupassen, die in realen robotischen Aufgaben häufig vorkommen. Im Gegensatz dazu kann Adversarial Imitation Learning (AIL) diesen Effekt mildern, kämpft jedoch mit Probenineffizienz und der Handhabung komplexer Bewegungsmuster. Daher schlagen wir BeTAIL vor: Behavior Transformer Adversarial Imitation Learning, das eine Behavior Transformer (BeT)-Policy aus menschlichen Demonstrationen mit online AIL kombiniert. BeTAIL fügt der BeT-Policy eine AIL-Residual-Policy hinzu, um den sequenziellen Entscheidungsprozess menschlicher Experten zu modellieren und Zustände außerhalb der Verteilung oder Verschiebungen in der Umgebungsdynamik zu korrigieren. Wir testen BeTAIL an drei Herausforderungen mit Experten-Demonstrationen von echtem menschlichem Gameplay in Gran Turismo Sport. Unsere vorgeschlagene Residual-BeTAIL reduziert die Interaktionen mit der Umgebung und verbessert die Rennleistung und Stabilität, selbst wenn die BeT auf anderen Strecken als das nachgelagerte Lernen vortrainiert wurde. Videos und Code sind verfügbar unter: https://sites.google.com/berkeley.edu/BeTAIL/home.