ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Richtlinien für bewährte Verfahren bei offenen Datensätzen für das Training von LLM
Towards Best Practices for Open Datasets for LLM Training

Jan 14
ByStefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
63
3

Viele KI-Unternehmen trainieren ihre großen Sprachmodelle (LLMs) ohne die Erlaubnis der Urheber der Daten. Die Zulässigkeit variiert je nach Rechtsprechung: In Ländern wie der EU und Japan ist dies unter bestimmten Einschränkungen erlaubt, während die rechtliche Lage in den Vereinigten Staaten unklarer ist. Unabhängig vom rechtlichen Status haben Bedenken von Kreativschaffenden zu mehreren prominenten Urheberrechtsklagen geführt, und die Bedrohung durch Rechtsstreitigkeiten wird häufig als Grund für den aktuellen Trend zur Minimierung der Informationen über Trainingsdatensätze sowohl von Unternehmens- als auch von öffentlichen Interessengruppen genannt. Diese Tendenz zur Begrenzung von Dateninformationen schadet, indem sie Transparenz, Rechenschaftspflicht und Innovation im breiteren Ökosystem behindert, da Forschern, Prüfern und betroffenen Personen der Zugang zu den Informationen verwehrt wird, die benötigt werden, um KI-Modelle zu verstehen. Dies könnte durch das Training von Sprachmodellen mit frei zugänglichen und gemeinfreien Daten gemildert werden, aber zum Zeitpunkt der Abfassung gibt es keine solchen Modelle (die in signifikantem Umfang trainiert wurden) aufgrund der erheblichen technischen und soziologischen Herausforderungen beim Zusammenstellen des erforderlichen Korpus. Diese Herausforderungen umfassen unvollständige und unzuverlässige Metadaten, die Kosten und Komplexität der Digitalisierung physischer Aufzeichnungen und die vielfältigen rechtlichen und technischen Fähigkeiten, die erforderlich sind, um Relevanz und Verantwortung in einem sich schnell verändernden Umfeld sicherzustellen. Die Entwicklung hin zu einer Zukunft, in der KI-Systeme auf offen lizenzierten Daten trainiert werden können, die verantwortungsbewusst kuratiert und verwaltet werden, erfordert eine Zusammenarbeit über rechtliche, technische und politische Bereiche hinweg sowie Investitionen in Metadatenstandards, Digitalisierung und die Förderung einer Kultur der Offenheit.

2

MMDocIR: Benchmarking Multi-Modal Retrieval für lange Dokumente
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Jan 15
ByKuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu
31
2

Die Multi-Modal-Dokumentensuche ist darauf ausgelegt, verschiedene Formen von Multi-Modal-Inhalten wie Abbildungen, Tabellen, Diagramme und Layout-Informationen aus umfangreichen Dokumenten zu identifizieren und abzurufen. Trotz ihrer Bedeutung fehlt es jedoch an einem robusten Benchmark, um die Leistung von Systemen in der Multi-Modal-Dokumentensuche effektiv zu bewerten. Um diese Lücke zu schließen, führt diese Arbeit einen neuen Benchmark namens MMDocIR ein, der zwei unterschiedliche Aufgaben umfasst: die Seiten- und Layout-Ebene. Ersteres konzentriert sich darauf, die relevantesten Seiten in einem langen Dokument zu lokalisieren, während Letzteres die Erkennung spezifischer Layouts anvisiert und eine feinere Granularität als die Analyse der gesamten Seite bietet. Ein Layout kann sich auf verschiedene Elemente wie Textabsätze, Gleichungen, Abbildungen, Tabellen oder Diagramme beziehen. Der MMDocIR-Benchmark umfasst einen umfangreichen Datensatz mit fachkundig annotierten Labels für 1.685 Fragen und gebooteten Labels für 173.843 Fragen, was ihn zu einer entscheidenden Ressource für die Weiterentwicklung der Multi-Modal-Dokumentensuche sowohl für das Training als auch die Evaluation macht. Durch rigorose Experimente zeigen wir, dass (i) visuelle Sucher ihre textbasierten Gegenstücke signifikant übertreffen, (ii) der MMDocIR-Trainingsdatensatz den Trainingsprozess der Multi-Modal-Dokumentensuche effektiv unterstützen kann und (iii) Textsucher, die auf VLM-Text setzen, deutlich besser abschneiden als diejenigen, die OCR-Text verwenden. Diese Ergebnisse unterstreichen die potenziellen Vorteile der Integration visueller Elemente für die Multi-Modal-Dokumentensuche.

3

CityDreamer4D: Kompositionelles Generatives Modell unbeschränkter 4D-Städte
CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

Jan 15
ByHaozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
20
2

Die Generierung von 3D-Szenen hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen und signifikante Fortschritte gemacht. Die Generierung von 4D-Städten ist anspruchsvoller als 3D-Szenen aufgrund der strukturell komplexen, visuell vielfältigen Objekte wie Gebäude und Fahrzeuge sowie der gesteigerten menschlichen Sensibilität für Verzerrungen in städtischen Umgebungen. Um diese Probleme anzugehen, schlagen wir CityDreamer4D vor, ein kompositionelles generatives Modell, das speziell für die Erzeugung unbegrenzter 4D-Städte entwickelt wurde. Unsere Haupterkenntnisse sind: 1) Die Generierung von 4D-Städten sollte dynamische Objekte (z. B. Fahrzeuge) von statischen Szenen (z. B. Gebäuden und Straßen) trennen und 2) alle Objekte in der 4D-Szene sollten aus verschiedenen Arten von neuronalen Feldern für Gebäude, Fahrzeuge und Hintergrundobjekte zusammengesetzt sein. Konkret schlagen wir den Verkehrsszenario-Generator und den ungebundenen Layout-Generator vor, um dynamische Verkehrsszenarien und statische Stadtlayouts mithilfe einer hochkompakten BEV-Repräsentation zu erzeugen. Objekte in 4D-Städten werden durch die Kombination von stuff-orientierten und instanzorientierten neuronalen Feldern für Hintergrundobjekte, Gebäude und Fahrzeuge generiert. Um den unterschiedlichen Eigenschaften von Hintergrundobjekten und Instanzen gerecht zu werden, verwenden die neuronalen Felder individuell angepasste generative Hash-Gitter und periodische Positionseinbettungen als Szenenparametrisierungen. Darüber hinaus bieten wir eine umfassende Auswahl an Datensätzen für die Stadterzeugung, einschließlich OSM, GoogleEarth und CityTopia. Der OSM-Datensatz bietet eine Vielzahl von städtischen Layouts aus der realen Welt, während die Google Earth- und CityTopia-Datensätze groß angelegte, qualitativ hochwertige städtische Bilder mit 3D-Instanzannotationen liefern. Durch sein kompositionelles Design unterstützt CityDreamer4D eine Vielzahl von Anwendungen, wie Instanzbearbeitung, Stadtspezialisierung und städtische Simulation, und bietet gleichzeitig eine erstklassige Leistung bei der Generierung realistischer 4D-Städte.

4

RepVideo: Überdenken der Cross-Layer-Repräsentation für die Videogenerierung
RepVideo: Rethinking Cross-Layer Representation for Video Generation

Jan 15
ByChenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
15
3

Die Videogenerierung hat mit der Einführung von Diffusionsmodellen bemerkenswerte Fortschritte erzielt, die die Qualität der generierten Videos erheblich verbessert haben. Allerdings lag der Schwerpunkt der jüngsten Forschung hauptsächlich auf der Skalierung des Modelltrainings, während nur begrenzte Einblicke in den direkten Einfluss von Repräsentationen auf den Videogenerierungsprozess geboten wurden. In diesem Papier untersuchen wir zunächst die Merkmale von Eigenschaften in den Zwischenschichten und stellen dabei erhebliche Variationen in den Aufmerksamkeitskarten zwischen verschiedenen Schichten fest. Diese Variationen führen zu instabilen semantischen Repräsentationen und tragen zu kumulativen Unterschieden zwischen Merkmalen bei, die letztendlich die Ähnlichkeit zwischen benachbarten Frames verringern und die zeitliche Kohärenz negativ beeinflussen. Um dies zu lösen, schlagen wir RepVideo vor, ein verbessertes Repräsentationsframework für Text-zu-Video-Diffusionsmodelle. Durch die Akkumulation von Merkmalen aus benachbarten Schichten zur Bildung angereicherter Repräsentationen erfasst dieser Ansatz stabilere semantische Informationen. Diese verbesserten Repräsentationen werden dann als Eingaben für den Aufmerksamkeitsmechanismus verwendet, wodurch die semantische Ausdruckskraft verbessert wird, während eine Merkmalskonsistenz zwischen benachbarten Frames sichergestellt wird. Umfangreiche Experimente zeigen, dass unser RepVideo nicht nur die Fähigkeit zur Generierung genauer räumlicher Erscheinungsbilder signifikant verbessert, wie die Erfassung komplexer räumlicher Beziehungen zwischen mehreren Objekten, sondern auch die zeitliche Kohärenz bei der Videogenerierung verbessert.

5

Ouroboros-Diffusion: Erforschung der konsistenten Inhaltsgenerierung in einer abstimmungsfreien Langvideo-Diffusion
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

Jan 15
ByJingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
12
2

Die First-In-First-Out (FIFO) Video-Diffusion, auf einem vortrainierten Text-zu-Video-Modell aufbauend, hat sich kürzlich als effektiver Ansatz für die abstimmungsfreie Generierung langer Videos erwiesen. Diese Technik verwaltet eine Warteschlange von Video-Frames mit kontinuierlich zunehmendem Rauschen, indem sie kontinuierlich saubere Frames am Kopf der Warteschlange erzeugt, während am Ende Gaussisches Rauschen hinzugefügt wird. Allerdings hat FIFO-Diffusion oft Schwierigkeiten, die langfristige zeitliche Konsistenz in den generierten Videos aufrechtzuerhalten, aufgrund des Mangels an Modellierung der Korrespondenz zwischen den Frames. In diesem Paper schlagen wir Ouroboros-Diffusion vor, ein neuartiges Video-Denoising-Framework, das darauf abzielt, die strukturelle und inhaltliche (thematische) Konsistenz zu verbessern, um die Generierung konsistenter Videos beliebiger Länge zu ermöglichen. Speziell führen wir eine neue latente Abtasttechnik am Ende der Warteschlange ein, um die strukturelle Konsistenz zu verbessern und so für eine wahrnehmungsgemäß reibungslose Übergänge zwischen den Frames zu sorgen. Um die thematische Konsistenz zu verbessern, entwickeln wir einen Mechanismus namens Subject-Aware Cross-Frame Attention (SACFA), der Themen über kurze Segmente hinweg zwischen den Frames ausrichtet, um eine bessere visuelle Kohärenz zu erreichen. Darüber hinaus führen wir eine selbstrekurrente Führung ein. Diese Technik nutzt Informationen aus allen vorherigen saubereren Frames am Anfang der Warteschlange, um das Denoising der rauschigeren Frames am Ende zu leiten und so eine reiche und kontextuelle globale Informationsinteraktion zu fördern. Umfangreiche Experimente zur Generierung langer Videos auf dem VBench-Benchmark zeigen die Überlegenheit unserer Ouroboros-Diffusion, insbesondere in Bezug auf thematische Konsistenz, Bewegungsglattheit und zeitliche Konsistenz.

6

Multimodale LLMs können über Ästhetik im Zero-Shot-Verfahren Schlussfolgerungen ziehen.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Jan 15
ByRuixiang Jiang, Changwen Chen
10
2

Wir präsentieren die erste Studie darüber, wie die Fähigkeit zur Argumentation von Multimodalen Sprachmodellen (MLLMs) zur Bewertung der Ästhetik von Kunstwerken herangezogen werden soll. Um diese Untersuchung zu erleichtern, konstruieren wir MM-StyleBench, einen neuartigen Datensatz von hoher Qualität zur Bewertung künstlerischer Stilisierung. Anschließend entwickeln wir eine methodische Methode zur Modellierung menschlicher Präferenzen und führen eine systematische Korrelationsanalyse zwischen den Antworten der MLLMs und menschlichen Präferenzen durch. Unsere Experimente enthüllen ein inhärentes Halluzinationsproblem von MLLMs bei der Kunstbewertung, das mit subjektiven Antworten verbunden ist. ArtCoT wird vorgeschlagen, was zeigt, dass eine kunstspezifische Aufgabenzerlegung und die Verwendung konkreter Sprache die Argumentationsfähigkeit von MLLMs für Ästhetik verbessern. Unsere Ergebnisse bieten wertvolle Einblicke in MLLMs für Kunst und können eine Vielzahl von nachgelagerten Anwendungen wie Stiltransfer und künstlerische Bildgenerierung unterstützen. Code verfügbar unter https://github.com/songrise/MLLM4Art.

7

XMusic: Auf dem Weg zu einem generalisierten und steuerbaren symbolischen Musikgenerierungsrahmen
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Jan 15
BySida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
10
2

In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Generierung von künstlicher Intelligenz erzeugten Inhalten (KI-EC) auf den Gebieten der Bildsynthese und Textgenerierung erzielt, wodurch Inhalte erzeugt wurden, die mit denen von Menschen vergleichbar sind. Die Qualität von KI-generierter Musik hat jedoch noch nicht diesen Standard erreicht, hauptsächlich aufgrund der Herausforderung, musikalische Emotionen effektiv zu kontrollieren und hochwertige Ergebnisse sicherzustellen. Dieses Papier stellt ein generalisiertes symbolisches Musikgenerierungsframework, XMusic, vor, das flexible Eingaben (d. h. Bilder, Videos, Texte, Tags und Summen) unterstützt, um emotional kontrollierbare und hochwertige symbolische Musik zu generieren. XMusic besteht aus zwei Kernkomponenten, XProjector und XComposer. XProjector analysiert die Eingaben verschiedener Modalitäten in symbolische Musikelemente (d. h. Emotionen, Genres, Rhythmen und Noten) im Projektionsraum, um passende Musik zu generieren. XComposer enthält einen Generator und einen Selektor. Der Generator erzeugt emotional kontrollierbare und melodiöse Musik basierend auf unserer innovativen symbolischen Musikrepräsentation, während der Selektor hochwertige symbolische Musik identifiziert, indem er ein Multi-Task-Lernschema mit Qualitätsbewertung, Emotionserkennung und Genreerkennungsaufgaben erstellt. Darüber hinaus haben wir XMIDI erstellt, einen groß angelegten symbolischen Musikdatensatz, der 108.023 MIDI-Dateien enthält, die mit präzisen Emotions- und Genre-Labels versehen sind. Objektive und subjektive Bewertungen zeigen, dass XMusic die aktuellen State-of-the-Art-Methoden mit beeindruckender Musikqualität signifikant übertrifft. Unser XMusic wurde als eines der neun Highlights der Sammlerstücke bei WAIC 2023 ausgezeichnet. Die Projekt-Homepage von XMusic ist https://xmusic-project.github.io.

8

Parameter-Invertierte Bildpyramiden-Netzwerke für visuelle Wahrnehmung und multimodales Verständnis
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

Jan 14
ByZhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
7
2

Bildpyramiden werden in leistungsstarken Methoden weit verbreitet eingesetzt, um mehrskalige Merkmale für eine präzise visuelle Wahrnehmung und Verständnis zu erhalten. Aktuelle Bildpyramiden verwenden jedoch dasselbe Modell im großen Maßstab, um mehrere Auflösungen von Bildern zu verarbeiten, was zu erheblichen Rechenkosten führt. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Netzwerkarchitektur namens Parameter-Inverted Image Pyramid Networks (PIIP) vor. Speziell verwendet PIIP vortrainierte Modelle (ViTs oder CNNs) als Zweige zur Verarbeitung mehrskaliger Bilder, wobei Bilder mit höheren Auflösungen von kleineren Netzwerkzweigen verarbeitet werden, um Rechenkosten und Leistung auszugleichen. Um Informationen von verschiedenen räumlichen Skalen zu integrieren, schlagen wir außerdem einen neuartigen Mechanismus zur Querzweig-Merkmalinteraktion vor. Zur Validierung von PIIP wenden wir es auf verschiedene Wahrnehmungsmodelle und ein repräsentatives multimodales großes Sprachmodell namens LLaVA an und führen umfangreiche Experimente zu verschiedenen Aufgaben wie Objekterkennung, Segmentierung, Bildklassifizierung und multimodalem Verständnis durch. PIIP erzielt eine überlegene Leistung im Vergleich zu Ein-Zweig- und bestehenden Mehrskalenansätzen bei geringeren Rechenkosten. Bei Anwendung auf InternViT-6B, einem groß angelegten Vision-Grundlagenmodell, kann PIIP die Leistung bei Erkennung und Segmentierung um 1%-2% verbessern, wobei nur 40%-60% der ursprünglichen Berechnung benötigt werden, und erreicht schließlich 60,0 Box-AP auf MS COCO und 59,7 mIoU auf ADE20K. Für multimodales Verständnis erreicht unser PIIP-LLaVA eine Genauigkeit von 73,0% bei TextVQA und 74,5% bei MMBench mit nur 2,8 M Trainingsdaten. Unser Code ist unter https://github.com/OpenGVLab/PIIP verfügbar.

9

Vertrauenswürdige maschinelle Lernmodelle ermöglichen private Inferenz für Probleme, die derzeit mit Kryptographie nicht realisierbar sind.
Trusted Machine Learning Models Unlock Private Inference for Problems Currently Infeasible with Cryptography

Jan 15
ByIlia Shumailov, Daniel Ramage, Sarah Meiklejohn, Peter Kairouz, Florian Hartmann, Borja Balle, Eugene Bagdasarian
6
2

Wir interagieren oft mit nicht vertrauenswürdigen Parteien. Die Priorisierung der Privatsphäre kann die Effektivität dieser Interaktionen einschränken, da die Erreichung bestimmter Ziele die Weitergabe privater Daten erfordert. Traditionell wurde dieses Problem entweder durch die Suche nach vertrauenswürdigen Vermittlern oder durch den Aufbau kryptografischer Protokolle gelöst, die einschränken, wie viele Daten offengelegt werden, wie z.B. Mehrparteienberechnungen oder Nullwissenbeweise. Obwohl bedeutende Fortschritte bei der Skalierung kryptografischer Ansätze erzielt wurden, bleiben sie in Bezug auf die Größe und Komplexität der Anwendungen, für die sie verwendet werden können, begrenzt. In diesem Artikel argumentieren wir, dass leistungsfähige maschinelle Lernmodelle die Rolle eines vertrauenswürdigen Dritten übernehmen können, um sichere Berechnungen für Anwendungen zu ermöglichen, die zuvor nicht realisierbar waren. Insbesondere beschreiben wir Vertrauenswürdige Leistungsfähige Modellumgebungen (TCME) als alternativen Ansatz zur Skalierung sicherer Berechnungen, bei dem leistungsfähige maschinelle Lernmodelle unter Eingabe-/Ausgabe-Einschränkungen interagieren, mit expliziter Informationsflusskontrolle und expliziter Zustandslosigkeit. Dieser Ansatz zielt darauf ab, ein Gleichgewicht zwischen Privatsphäre und Recheneffizienz zu erreichen, um private Inferenz zu ermöglichen, wo klassische kryptografische Lösungen derzeit nicht realisierbar sind. Wir beschreiben eine Reihe von Anwendungsfällen, die durch TCME ermöglicht werden, und zeigen, dass sogar einige einfache klassische kryptografische Probleme bereits mit TCME gelöst werden können. Abschließend skizzieren wir aktuelle Einschränkungen und diskutieren den weiteren Weg zu ihrer Umsetzung.

10

MINIMA: Modalitätsinvariante Bildübereinstimmung
MINIMA: Modality Invariant Image Matching

Dec 27
ByXingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai
4
2

Die Bildübereinstimmung sowohl für Cross-View als auch für Cross-Modality spielt eine entscheidende Rolle bei der multimodalen Wahrnehmung. In der Praxis stellt die Modalitätslücke, die durch unterschiedliche Bildgebungssysteme/-stile verursacht wird, große Herausforderungen für die Übereinstimmungsaufgabe dar. Bestehende Arbeiten versuchen, invariante Merkmale für spezifische Modalitäten zu extrahieren und auf begrenzten Datensätzen zu trainieren, was eine schlechte Verallgemeinerung zeigt. In diesem Artikel stellen wir MINIMA vor, ein einheitliches Bildübereinstimmungs-Framework für mehrere Cross-Modal-Fälle. Ohne aufwendige Module zu verfolgen, zielt unser MINIMA darauf ab, die universelle Leistung aus der Perspektive der Datenvergrößerung zu verbessern. Zu diesem Zweck schlagen wir eine einfache, aber effektive Daten-Engine vor, die einen großen Datensatz mit mehreren Modalitäten, reichen Szenarien und genauen Übereinstimmungslabels frei erstellen kann. Speziell skalieren wir die Modalitäten von günstigen, aber reichen RGB-only Übereinstimmungsdaten mittels generativer Modelle hoch. Unter dieser Konfiguration werden die Übereinstimmungslabels und die reiche Vielfalt des RGB-Datensatzes von den generierten multimodalen Daten gut übernommen. Davon profitierend konstruieren wir MD-syn, einen neuen umfassenden Datensatz, der die Datenlücke für die allgemeine multimodale Bildübereinstimmung schließt. Mit MD-syn können wir direkt jedes fortgeschrittene Übereinstimmungs-Pipeline auf zufällig ausgewählten Modalitätspaaren trainieren, um die Cross-Modal-Fähigkeit zu erlangen. Umfangreiche Experimente zu In-Domain- und Zero-Shot-Übereinstimmungsaufgaben, einschließlich 19 Cross-Modal-Fällen, zeigen, dass unser MINIMA signifikant besser abschneiden kann als die Baselines und sogar modalitätsspezifische Methoden übertreffen kann. Der Datensatz und der Code sind verfügbar unter https://github.com/LSXI7/MINIMA.

11

Jenseits des Sehvermögens: Feinabstimmung von generalistischen Roboter-Richtlinien mit heterogenen Sensoren über die Sprachverankerung
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

Jan 8
ByJoshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
3
2

Die Interaktion mit der Welt ist ein multisensorisches Erlebnis: Um eine effektive allgemeine Interaktion zu erreichen, ist es erforderlich, alle verfügbaren Modalitäten - einschließlich Sehen, Berühren und Audio - zu nutzen, um Lücken aus teilweiser Beobachtung zu füllen. Wenn zum Beispiel die Sicht beim Greifen in eine Tasche verdeckt ist, sollte sich ein Roboter auf seine Tastsinne und sein Gehör verlassen. Allerdings werden hochmoderne generalistische Roboterstrategien in der Regel auf großen Datensätzen trainiert, um Roboteraktionen ausschließlich aus visuellen und propriozeptiven Beobachtungen vorherzusagen. In dieser Arbeit schlagen wir FuSe vor, einen neuartigen Ansatz, der es ermöglicht, visuomotorische generalistische Strategien auf heterogenen Sensor-Modalitäten, für die große Datensätze nicht leicht verfügbar sind, durch die Nutzung natürlicher Sprache als gemeinsame crossmodale Grundlage zu feinabstimmen. Wir kombinieren einen multimodalen kontrastiven Verlust mit einem auf sensorischer Grundlage beruhenden Sprachgenerierungsverlust, um semantische Informationen auf hoher Ebene zu codieren. Im Kontext der Roboter-Manipulation zeigen wir, dass FuSe das Durchführen anspruchsvoller Aufgaben ermöglicht, die ein gemeinsames Denken über Modalitäten wie Sehen, Berühren und Hören in einer Zero-Shot-Umgebung erfordern, wie z. B. multimodales Auffordern, kompositionelles crossmodales Auffordern und Beschreibungen von Objekten, mit denen es interagiert. Wir zeigen, dass dasselbe Rezept auf weitgehend unterschiedliche generalistische Strategien anwendbar ist, einschließlich sowohl diffusionsbasierter generalistischer Strategien als auch großer Vision-Sprache-Aktionsmodelle (VLA). Umfangreiche Experimente in der realen Welt zeigen, dass FuSe die Erfolgsraten im Vergleich zu allen betrachteten Baselines um über 20% steigern kann.

Jan 15
Jan 16
Jan 17