HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

14 papers found

MM1: Methoden, Analyse & Erkenntnisse aus der multimodalen LLM-Vortrainierung
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Mar 14

ByBrandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang

129

In dieser Arbeit diskutieren wir den Aufbau leistungsfähiger Multimodaler Großer Sprachmodelle (MLLMs). Insbesondere untersuchen wir die Bedeutung verschiedener Architekturkomponenten und Datenauswahlen. Durch sorgfältige und umfassende Ablationen des Bildencoders, des Verbindungsstücks zwischen Bild und Sprache und verschiedener Vor-Trainingsdatenauswahlen haben wir mehrere entscheidende Design-Lektionen identifiziert. Zum Beispiel zeigen wir, dass für das groß angelegte multimodale Vor-Training die sorgfältige Mischung von Bildunterschrift, abwechselndem Bild-Text und nur-Text-Daten entscheidend ist, um Spitzenleistungen bei Few-Shot-Ergebnissen über mehrere Benchmarks im Vergleich zu anderen veröffentlichten Vor-Trainingsergebnissen zu erzielen. Darüber hinaus zeigen wir, dass der Bildencoder zusammen mit der Bildauflösung und der Anzahl der Bildtokens einen erheblichen Einfluss hat, während das Design des Verbindungsstücks zwischen Bild und Sprache vergleichsweise von geringer Bedeutung ist. Durch Skalierung des vorgestellten Rezepts bauen wir MM1, eine Familie von multimodalen Modellen mit bis zu 30 Milliarden Parametern, bestehend aus dichten Modellen und Varianten von Mischungen von Experten (MoE), die im Vor-Training Metriken auf dem neuesten Stand der Technik sind und nach überwachtem Feintuning auf einer Reihe etablierter multimodaler Benchmarks eine wettbewerbsfähige Leistung erzielen. Dank des groß angelegten Vor-Trainings weist MM1 ansprechende Eigenschaften auf, wie verbessertes kontextbezogenes Lernen und mehrere Bildbetrachtungen, die eine Few-Shot-Ketten-Denk-Anregung ermöglichen.

Quiet-STaR: Sprachmodelle können sich selbst beibringen, vor dem Sprechen nachzudenken.
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Mar 14

ByEric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman

Beim Schreiben und Sprechen machen Menschen manchmal Pausen, um nachzudenken. Obwohl arbeitsorientierte Werke das Denken oft als eine Methode zur Beantwortung von Fragen oder zur Erfüllung von agentischen Aufgaben dargestellt haben, ist das Denken implizit in fast allen schriftlichen Texten vorhanden. Dies gilt beispielsweise für die nicht explizit angegebenen Schritte zwischen den Zeilen eines Beweises oder für die Theory of Mind, die einem Gespräch zugrunde liegt. Im Self-Taught Reasoner (STaR, Zelikman et al. 2022) wird nützliches Denken erlernt, indem Begründungen aus wenigen Beispielen im Frage-Antwort-Format abgeleitet und aus dem gelernt wird, was zu einer korrekten Antwort führt. Dies ist eine stark eingeschränkte Umgebung - idealerweise könnte ein Sprachmodell stattdessen lernen, nicht explizit angegebene Begründungen in beliebigem Text abzuleiten. Wir präsentieren Quiet-STaR, eine Verallgemeinerung von STaR, bei der Sprachmodelle lernen, Begründungen für jeden Token zu generieren, um zukünftigen Text zu erklären und damit ihre Vorhersagen zu verbessern. Wir behandeln Schlüsselherausforderungen, einschließlich 1) der Rechenkosten für die Generierung von Fortsetzungen, 2) der Tatsache, dass das Sprachmodell anfangs nicht weiß, wie es interne Gedanken generieren oder verwenden soll, und 3) der Notwendigkeit, über einzelne nächste Tokens hinauszupredicten. Um diese zu lösen, schlagen wir einen tokenweisen parallelen Sampling-Algorithmus vor, der lernbare Tokens verwendet, die den Beginn und das Ende eines Gedankens anzeigen, sowie eine erweiterte Lehrerzwang-Technik. Ermutigenderweise helfen generierte Begründungen dem Modell überproportional bei der Vorhersage schwierig zu prognostizierender Tokens und verbessern die Fähigkeit des Sprachmodells, schwierige Fragen direkt zu beantworten. Insbesondere nach fortgesetztem Pretraining eines Sprachmodells auf einem Korpus von Internettexten mit Quiet-STaR stellen wir Null-Schuss-Verbesserungen bei GSM8K (5,9% auf 10,9%) und CommonsenseQA (36,3% auf 47,2%) fest und beobachten eine Verringerung der Perplexität schwieriger Tokens in natürlichen Texten. Diese Verbesserungen erfordern entscheidend keine Feinabstimmung für diese Aufgaben. Quiet-STaR markiert einen Schritt hin zu Sprachmodellen, die auf eine allgemeinere und skalierbarere Weise lernen können zu denken.

Die Umwandlung von Web-Screenshots in HTML-Code mit dem WebSight-Datensatz entschlüsseln.
Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

Mar 14

ByHugo Laurençon, Léo Tronchon, Victor Sanh

Die Verwendung von Vision-Language-Modellen (VLMs) in der Webentwicklung bietet eine vielversprechende Strategie, um die Effizienz zu steigern und No-Code-Lösungen freizuschalten: Indem ein Screenshot oder eine Skizze einer Benutzeroberfläche bereitgestellt wird, könnte ein VLM den Code zur Reproduktion generieren, beispielsweise in einer Sprache wie HTML. Trotz der Fortschritte bei VLMs für verschiedene Aufgaben wurde die spezifische Herausforderung, einen Screenshot in entsprechendes HTML umzuwandeln, nur minimal erforscht. Wir nehmen an, dass dies hauptsächlich auf das Fehlen eines geeigneten, qualitativ hochwertigen Datensatzes zurückzuführen ist. Diese Arbeit stellt WebSight vor, einen synthetischen Datensatz, der aus 2 Millionen Paaren von HTML-Codes und ihren entsprechenden Screenshots besteht. Wir feinabstimmen ein grundlegendes VLM auf unserem Datensatz und zeigen Kompetenz bei der Umwandlung von Webseiten-Screenshots in funktionalen HTML-Code. Um die Forschung in diesem Bereich zu beschleunigen, stellen wir WebSight als Open-Source zur Verfügung.

GiT: Auf dem Weg zum Generalisten Vision Transformer durch eine universelle Sprachschnittstelle
GiT: Towards Generalist Vision Transformer through Universal Language Interface

Mar 14

ByHaiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang

Dieses Paper schlägt ein einfaches, aber effektives Framework namens GiT vor, das gleichzeitig für verschiedene Visionstasks nur mit einem Vanilla ViT anwendbar ist. Angeregt durch die Universalität der Multi-Layer-Transformer-Architektur (z. B. GPT), die weit verbreitet in großen Sprachmodellen (LLMs) verwendet wird, streben wir danach, ihren Anwendungsbereich zu erweitern, um als leistungsstarkes Modell für visuelle Grundlagen (VFM) zu dienen. Im Gegensatz zum Sprachmodellieren erfordern visuelle Aufgaben typischerweise spezifische Module wie Bounding-Box-Heads für die Detektion und Pixel-Decodierer für die Segmentierung, was die Anwendung leistungsstarker Multi-Layer-Transformer im Vision-Bereich erheblich behindert. Um dies zu lösen, entwerfen wir eine universelle Sprachschnittstelle, die das erfolgreiche autoregressive Decodieren ermöglicht, um verschiedene visuelle Aufgaben geschickt zu vereinen, von der Verständnis auf Bild-Ebene (z. B. Beschriftung) über die spärliche Wahrnehmung (z. B. Detektion) bis zur dichten Vorhersage (z. B. Segmentierung). Basierend auf den oben genannten Entwürfen besteht das gesamte Modell ausschließlich aus einem ViT, ohne spezifische Ergänzungen, was eine bemerkenswerte architektonische Vereinfachung bietet. GiT ist ein Multi-Task-Visual-Modell, das über fünf repräsentative Benchmarks hinweg gemeinsam trainiert wird, ohne aufgabenbezogenes Feintuning. Interessanterweise setzt unser GiT eine neue Benchmark in der Leistung von Generalisten und fördert die gegenseitige Verbesserung über Aufgaben hinweg, was im Vergleich zum isolierten Training signifikante Verbesserungen zeigt. Dies spiegelt einen ähnlichen Einfluss wider, der bei LLMs beobachtet wird. Durch die weitere Bereicherung des Trainings mit 27 Datensätzen erzielt GiT starke Zero-Shot-Ergebnisse über verschiedene Aufgaben. Aufgrund seines einfachen Designs birgt dieses Paradigma das Potenzial, die architektonische Kluft zwischen Vision und Sprache zu verringern. Der Code und die Modelle sind verfügbar unter https://github.com/Haiyang-W/GiT.

StreamMultiDiffusion: Echtzeit-Interaktive Generierung mit regionsbasierte semantische Steuerung
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Mar 14

ByJaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee

Der enorme Erfolg von Diffusionsmodellen in der Text-zu-Bild-Synthese hat sie zu vielversprechenden Kandidaten für die nächste Generation von Endbenutzeranwendungen für die Bildgenerierung und -bearbeitung gemacht. Frühere Arbeiten haben sich darauf konzentriert, die Benutzerfreundlichkeit von Diffusionsmodellen zu verbessern, indem die Inferenzzeit reduziert oder die Benutzerinteraktivität erhöht wurde, indem neue, fein abgestufte Steuerelemente wie regionsbasierte Texteingaben ermöglicht wurden. Wir stellen jedoch empirisch fest, dass die Integration beider Ansätze nicht trivial ist und das Potenzial von Diffusionsmodellen begrenzt. Um diese Inkompatibilität zu lösen, präsentieren wir StreamMultiDiffusion, das erste echtzeitfähige regionsbasierte Text-zu-Bild-Generierungsframework. Durch Stabilisierung schneller Inferenztechniken und Umstrukturierung des Modells in eine neu vorgeschlagene Multi-Prompt-Stream-Batch-Architektur erreichen wir eine um den Faktor 10 schnellere Panoramagenerierung als bestehende Lösungen und eine Generierungsgeschwindigkeit von 1,57 FPS in der regionsbasierten Text-zu-Bild-Synthese auf einer einzigen RTX 2080 Ti GPU. Unsere Lösung eröffnet ein neues Paradigma für die interaktive Bildgenerierung namens semantische Palette, bei der hochwertige Bilder in Echtzeit aus mehreren handgezeichneten Regionen generiert werden, die vorgegebene semantische Bedeutungen (z. B. Adler, Mädchen) codieren. Unser Code und die Demo-Anwendung sind verfügbar unter https://github.com/ironjr/StreamMultiDiffusion.

Videobearbeitung durch faktorisierte Diffusionsdestillation.
Video Editing via Factorized Diffusion Distillation

Mar 14

ByUriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman

Wir stellen Emu Video Edit (EVE) vor, ein Modell, das einen neuen Stand der Technik in der Videobearbeitung etabliert, ohne auf überwachte Videobearbeitungsdaten angewiesen zu sein. Um EVE zu entwickeln, trainieren wir separat einen Bildbearbeitungsadapter und einen Videoerzeugungsadapter und fügen beide demselben Text-zu-Bild-Modell hinzu. Anschließend führen wir zur Ausrichtung der Adapter auf die Videobearbeitung ein neues unüberwachtes Destillationsverfahren ein, die faktorisierte Diffusionsdestillation. Dieses Verfahren destilliert Wissen aus einem oder mehreren Lehrern gleichzeitig, ohne überwachte Daten. Wir nutzen dieses Verfahren, um EVE beizubringen, Videos zu bearbeiten, indem wir Wissen sowohl zur präzisen Bearbeitung jedes einzelnen Frames aus dem Bildbearbeitungsadapter als auch zur Sicherstellung der zeitlichen Konsistenz zwischen den bearbeiteten Frames mithilfe des Videoerzeugungsadapters gemeinsam destillieren. Schließlich, um das Potenzial unseres Ansatzes bei der Erschließung weiterer Fähigkeiten zu demonstrieren, richten wir zusätzliche Kombinationen von Adaptern aus.

BurstAttention: Ein effizientes verteiltes Aufmerksamkeits-Framework für extrem lange Sequenzen
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

Mar 14

BySun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, Shengnan Wang, Teng Su

Effektive Aufmerksamkeitsmodule haben eine entscheidende Rolle im Erfolg von auf Transformatoren basierenden großen Sprachmodellen (LLMs) gespielt, aber die quadratischen Zeit- und Speicherkomplexitäten dieser Aufmerksamkeitsmodule stellen auch eine Herausforderung beim Verarbeiten langer Sequenzen dar. Eine mögliche Lösung für das Problem langer Sequenzen besteht darin, verteilte Cluster zu nutzen, um die Berechnung von Aufmerksamkeitsmodulen über mehrere Geräte (z. B. GPUs) parallelisiert durchzuführen. Die Annahme eines verteilten Ansatzes führt jedoch zwangsläufig zu zusätzlichen Speicherüberlastungen, um lokale Aufmerksamkeitsergebnisse zu speichern, und verursacht zusätzliche Kommunikationskosten, um lokale Ergebnisse zu globalen zusammenzuführen. In diesem Papier schlagen wir ein verteiltes Aufmerksamkeitsframework namens "BurstAttention" vor, um Speicherzugriff und Kommunikationsoperationen sowohl auf globaler Cluster- als auch auf lokaler Geräteebene zu optimieren. In unseren Experimenten vergleichen wir BurstAttention mit anderen wettbewerbsfähigen verteilten Aufmerksamkeitslösungen für die Verarbeitung langer Sequenzen. Die experimentellen Ergebnisse unter verschiedenen Längeneinstellungen zeigen, dass BurstAttention im Vergleich zu diesen wettbewerbsfähigen Baselines signifikante Vorteile bei der Verarbeitung langer Sequenzen bietet, wobei die Kommunikationsüberlastungen um 40 % reduziert werden und bei einer Trainingssequenzlänge von 32K auf 8 X A100 eine 2-fache Beschleunigung erreicht wird.

Glyph-ByT5: Ein angepasster Textkodierer für präzise visuelle Textdarstellung
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

Mar 14

ByZeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan

Die visuelle Textdarstellung stellt ein grundlegendes Problem für zeitgenössische Text-zu-Bild-Generierungsmodelle dar, wobei das Hauptproblem in den Defiziten der Textcodierer liegt. Um eine präzise Textdarstellung zu erreichen, identifizieren wir zwei entscheidende Anforderungen an Textcodierer: Zeichenbewusstsein und Ausrichtung mit Glyphen. Unsere Lösung beinhaltet die Entwicklung einer Reihe von angepassten Textcodierern, Glyph-ByT5, durch Feinabstimmung des zeichenbewussten ByT5-Codierers unter Verwendung eines sorgfältig kuratierten gepaarten Glyphen-Text-Datensatzes. Wir präsentieren eine effektive Methode zur Integration von Glyph-ByT5 mit SDXL, was zur Schaffung des Glyph-SDXL-Modells für die Generierung von Designbildern führt. Dies verbessert die Textdarstellungsgenauigkeit signifikant, von weniger als 20% auf fast 90% in unserem Designbild-Benchmark. Bemerkenswert ist die neu gewonnene Fähigkeit von Glyph-SDXL zur Textabsatzdarstellung, die eine hohe Rechtschreibgenauigkeit für zehn bis hunderte von Zeichen mit automatischen mehrzeiligen Layouts erreicht. Schließlich zeigen wir durch die Feinabstimmung von Glyph-SDXL mit einem kleinen Satz hochwertiger, fotorealistischer Bilder mit visuellem Text eine wesentliche Verbesserung der Fähigkeiten zur Szenentextdarstellung in offenen, realen Bildern. Diese überzeugenden Ergebnisse sollen weitere Erkundungen zur Entwicklung von angepassten Textcodierern für vielfältige und anspruchsvolle Aufgaben anregen.

Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoanalyse
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Mar 14

ByGuo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang

Das Verständnis von Videos ist eine der grundlegenden Richtungen in der Forschung zur Computer Vision, wobei umfangreiche Bemühungen darauf gerichtet sind, verschiedene Architekturen wie RNN, 3D CNN und Transformers zu erkunden. Die neu vorgeschlagene Architektur des Zustandsraummodells, z. B. Mamba, zeigt vielversprechende Merkmale, um ihren Erfolg bei der Modellierung langer Sequenzen auf die Videomodellierung auszudehnen. Um zu bewerten, ob Mamba eine tragfähige Alternative zu Transformers im Bereich des Videoverständnisses sein kann, führen wir in dieser Arbeit eine umfassende Studie durch, die verschiedene Rollen untersucht, die Mamba bei der Modellierung von Videos spielen kann, und verschiedene Aufgaben untersucht, bei denen Mamba Überlegenheit zeigen könnte. Wir kategorisieren Mamba in vier Rollen zur Modellierung von Videos, leiten eine Video Mamba Suite ab, die aus 14 Modellen/Modulen besteht, und evaluieren sie anhand von 12 Videoverständnisaufgaben. Unsere umfangreichen Experimente zeigen das starke Potenzial von Mamba sowohl bei reinen Video- als auch bei Video-Sprach-Aufgaben und zeigen vielversprechende Effizienz-Leistungs-Abwägungen auf. Wir hoffen, dass diese Arbeit wertvolle Datenpunkte und Erkenntnisse für zukünftige Forschungen zum Videoverständnis liefern kann. Der Code ist öffentlich zugänglich: https://github.com/OpenGVLab/video-mamba-suite.

Griffon v2: Fortschritte in der multimodalen Wahrnehmung durch hochauflösendes Skalieren und visuell-sprachliches Coreferencing
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

Mar 14

ByYufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang

Große Vision-Sprachmodelle haben eine fein abgestufte Objektwahrnehmung erreicht, aber die Begrenzung der Bildauflösung bleibt ein signifikantes Hindernis, um die Leistung von aufgabenbezogenen Experten in komplexen und dichten Szenarien zu übertreffen. Eine solche Begrenzung schränkt weiterhin das Potenzial des Modells ein, eine differenzierte visuelle und sprachliche Bezugnahme in Bereichen wie GUI-Agenten, Zählen usw. zu erreichen. Um dieses Problem anzugehen, stellen wir ein vereinheitlichtes Hochauflösungs-Allzweckmodell, Griffon v2, vor, das eine flexible Objektbezugnahme mit visuellen und textuellen Hinweisen ermöglicht. Um die Bildauflösung effizient zu skalieren, entwerfen wir einen einfachen und leichten Down-Sampling-Projektor, um die Eingabetoken-Beschränkung in großen Sprachmodellen zu überwinden. Dieses Design bewahrt die vollständigen Kontexte und feinen Details in sich und verbessert die multimodale Wahrnehmungsfähigkeit signifikant, insbesondere für kleine Objekte. Aufbauend darauf rüsten wir das Modell weiter mit visuell-sprachlichen Mitbezugnahme-Fähigkeiten durch einen Plug-and-Play-Visuellen-Tokenisierer aus. Dies ermöglicht eine benutzerfreundliche Interaktion mit flexiblen Zielbildern, Freitexten und sogar Koordinaten. Experimente zeigen, dass Griffon v2 beliebige interessierende Objekte mit visueller und textueller Bezugnahme lokalisieren kann, Spitzenleistungen bei REC, Phrasenverankerung und REG-Aufgaben erzielt und Expertenmodelle in der Objekterkennung und Objektzählung übertrifft. Daten, Codes und Modelle werden unter https://github.com/jefferyZhan/Griffon veröffentlicht.

Veagle: Fortschritte im Multimodalen Repräsentationslernen
Veagle: Advancements in Multimodal Representation Learning

Jan 18

ByRajat Chawla, Arkajit Datta, Tushar Verma, Adarsh Jha, Anmol Gautam, Ayush Vatsal, Sukrit Chaterjee, Mukunda NS, Ishaan Bhola

In letzter Zeit zeigen Forscher im Bereich der künstlichen Intelligenz ein starkes Interesse daran, wie Sprache und Vision zusammenwirken und so zur Entwicklung multimodaler Modelle führen, die darauf abzielen, textuelle und visuelle Informationen nahtlos zu integrieren. Multimodale Modelle, eine Erweiterung großer Sprachmodelle (LLMs), haben bemerkenswerte Fähigkeiten bei der Bewältigung einer Vielzahl von Aufgaben gezeigt, die von der Bildunterschrift und der visuellen Fragebeantwortung (VQA) bis zur visuellen Verankerung reichen. Obwohl diese Modelle bedeutende Fortschritte gezeigt haben, bestehen weiterhin Herausforderungen bei der genauen Interpretation von Bildern und der Beantwortung von Fragen, was in realen Szenarien häufig vorkommt. Dieser Artikel stellt einen neuartigen Ansatz zur Verbesserung der multimodalen Fähigkeiten bestehender Modelle vor. Als Reaktion auf die beobachteten Einschränkungen bei aktuellen Vision Language Models (VLMs) und Multimodal Large Language Models (MLLMs) integriert unser vorgeschlagenes Modell Veagle einen einzigartigen Mechanismus, der von den Erfolgen und Erkenntnissen früherer Arbeiten inspiriert ist. Veagle nutzt einen dynamischen Mechanismus, um codierte visuelle Informationen direkt in das Sprachmodell zu projizieren. Dieser dynamische Ansatz ermöglicht ein nuancierteres Verständnis komplexer Details in visuellen Kontexten. Zur Validierung der Wirksamkeit von Veagle führen wir umfassende Experimente an Benchmark-Datensätzen durch, wobei Aufgaben wie visuelle Fragebeantwortung und Bildverständnis im Mittelpunkt stehen. Unsere Ergebnisse zeigen eine Leistungssteigerung von 5-6 %, wobei Veagle bestehende Modelle deutlich übertrifft. Die Ergebnisse unterstreichen die Vielseitigkeit und Anwendbarkeit des Modells über traditionelle Benchmarks hinaus.

3D-VLA: Ein 3D Vision-Sprache-Aktion Generatives Weltmodell
3D-VLA: A 3D Vision-Language-Action Generative World Model

Mar 14

ByHaoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan

Aktuelle Vision-Sprache-Aktion (VLA)-Modelle stützen sich auf 2D-Eingaben und integrieren nicht das breitere Spektrum der 3D-physikalischen Welt. Zudem erfolgt die Aktionsvorhersage durch das Erlernen einer direkten Zuordnung von Wahrnehmung zu Aktion, wobei die umfangreichen Dynamiken der Welt und die Beziehungen zwischen Aktionen und Dynamiken vernachlässigt werden. Im Gegensatz dazu sind Menschen mit Weltmodellen ausgestattet, die Vorstellungen über zukünftige Szenarien darstellen, um entsprechend Handlungen zu planen. Zu diesem Zweck schlagen wir 3D-VLA vor, indem eine neue Familie von verkörperten Grundlagenmodellen eingeführt wird, die 3D-Wahrnehmung, Schlussfolgerungen und Aktionen nahtlos durch ein generatives Weltmodell verknüpfen. Speziell basiert 3D-VLA auf einem 3D-basierten großen Sprachmodell (LLM), wobei eine Reihe von Interaktions-Token eingeführt wird, um mit der verkörperten Umgebung zu interagieren. Des Weiteren werden zur Integration von Generationsfähigkeiten in das Modell eine Reihe von verkörperten Diffusionsmodellen trainiert und mit dem LLM abgestimmt, um die Zielbilder und Punktewolken vorherzusagen. Zur Schulung unseres 3D-VLA kuratieren wir einen umfangreichen 3D-verkörperten Anweisungsdatensatz, indem wir umfangreiche 3D-bezogene Informationen aus bestehenden Robotikdatensätzen extrahieren. Unsere Experimente an zurückgehaltenen Datensätzen zeigen, dass 3D-VLA die Schlussfolgerung, multimodale Generierung und Planungsfähigkeiten in verkörperten Umgebungen signifikant verbessert und somit sein Potenzial in realen Anwendungen unterstreicht.

VisionGPT-3D: Ein generalisierter multimodaler Agent zur Verbesserung der 3D-Vision.
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

Mar 14

ByChris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou

Die Entwicklung von Text zu visuellen Komponenten erleichtert den Alltag der Menschen, indem Bilder und Videos aus Text generiert und die gewünschten Elemente in den Bildern identifiziert werden. Computer-Vision-Modelle, die sich in den vergangenen Tagen mit multimodalen Fähigkeiten befassen, konzentrierten sich auf die Bilderkennung und Klassifizierung basierend auf klar definierten Objekten. Große Sprachmodelle (LLMs) führen die Transformation von natürlicher Sprache zu visuellen Objekten ein, die das visuelle Layout für Textkontexte darstellen. OpenAI GPT-4 hat sich als Spitzenreiter unter den LLMs etabliert, während das Gebiet der Computer Vision (CV) eine Vielzahl von hochmodernen Modellen und Algorithmen zur Umwandlung von 2D-Bildern in ihre 3D-Repräsentationen aufweist. Allerdings kann die Nichtübereinstimmung zwischen den Algorithmen und dem Problem zu unerwünschten Ergebnissen führen. Als Antwort auf diese Herausforderung schlagen wir ein vereinheitlichtes VisionGPT-3D-Framework vor, um die hochmodernen Vision-Modelle zu konsolidieren und somit die Entwicklung von auf Vision ausgerichteter KI zu erleichtern. VisionGPT-3D bietet ein vielseitiges multimodales Framework, das auf den Stärken von multimodalen Grundlagenmodellen aufbaut. Es integriert nahtlos verschiedene hochmoderne Vision-Modelle und automatisiert die Auswahl von hochmodernen Vision-Modellen, identifiziert die geeigneten 3D-Mesh-Erstellungsalgorithmen entsprechend der Analyse von 2D-Tiefenkarten, generiert optimale Ergebnisse basierend auf vielfältigen multimodalen Eingaben wie Textvorgaben. Stichwörter: VisionGPT-3D, 3D-Vision-Verständnis, Multimodaler Agent

LocalMamba: Visuelles Zustandsraummodell mit selektivem Scanfenster
LocalMamba: Visual State Space Model with Windowed Selective Scan

Mar 14

ByTao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu

Neueste Fortschritte in Zustandsraummodellen, insbesondere Mamba, haben signifikante Fortschritte bei der Modellierung langer Sequenzen für Aufgaben wie Sprachverständnis gezeigt. Dennoch hat ihre Anwendung in Vision-Aufgaben die Leistung traditioneller Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) nicht wesentlich übertroffen. Diese Arbeit postuliert, dass der Schlüssel zur Verbesserung von Vision Mamba (ViM) in der Optimierung von Scan-Richtungen für die Sequenzmodellierung liegt. Traditionelle ViM-Ansätze, die räumliche Token abflachen, vernachlässigen die Erhaltung lokaler 2D-Abhängigkeiten, wodurch der Abstand zwischen benachbarten Tokens verlängert wird. Wir stellen eine neuartige lokale Scanstrategie vor, die Bilder in verschiedene Fenster unterteilt, um lokale Abhängigkeiten effektiv zu erfassen, während ein globaler Blickwinkel beibehalten wird. Darüber hinaus schlagen wir vor, angesichts der unterschiedlichen Vorlieben für Scan-Muster in verschiedenen Netzwerkschichten eine dynamische Methode vor, um unabhhängig nach den optimalen Scan-Entscheidungen für jede Schicht zu suchen, was die Leistung erheblich verbessert. Umfangreiche Experimente sowohl mit einfachen als auch hierarchischen Modellen unterstreichen die Überlegenheit unseres Ansatzes bei der effektiven Erfassung von Bildrepräsentationen. Zum Beispiel übertrifft unser Modell Vim-Ti auf ImageNet um 3,1% bei denselben 1,5G FLOPs. Der Code ist verfügbar unter: https://github.com/hunto/LocalMamba.

Quiet-STaR: Sprachmodelle können sich selbst beibringen, vor dem Sprechen nachzudenken.
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Mar 14

ByEric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman