ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

Animate-X: Universelle Charakterbildanimation mit verbesserter Bewegungsrepräsentation
Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Oct 14, 2024
Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang
575

Die Animation von Charakterbildern, die hochwertige Videos aus einem Referenzbild und einer Zielposenfolge generiert, hat in den letzten Jahren erhebliche Fortschritte gemacht. Die meisten bestehenden Methoden gelten jedoch nur für menschliche Figuren, die in der Regel nicht gut auf anthropomorphe Charaktere übertragbar sind, die häufig in Branchen wie Gaming und Unterhaltung verwendet werden. Unsere eingehende Analyse legt nahe, dass diese Einschränkung auf ihre unzureichende Modellierung von Bewegung zurückzuführen ist, die das Bewegungsmuster des Ausgangsvideos nicht erfassen kann und daher eine Posenfolge starr auf den Zielfiguren anwendet. Zu diesem Zweck schlägt dieser Artikel Animate-X vor, ein universelles Animationsframework basierend auf LDM für verschiedene Charaktertypen (kollektiv als X bezeichnet), einschließlich anthropomorpher Charaktere. Zur Verbesserung der Bewegungsrepräsentation führen wir den Pose Indicator ein, der das umfassende Bewegungsmuster aus dem Ausgangsvideo auf implizite und explizite Weise erfasst. Ersteres nutzt CLIP-Visuelleigenschaften eines Ausgangsvideos, um dessen Wesen der Bewegung zu extrahieren, wie das allgemeine Bewegungsmuster und die zeitlichen Beziehungen zwischen Bewegungen, während letzteres die Verallgemeinerung von LDM durch die Simulation möglicher Eingaben im Voraus stärkt, die während der Inferenz auftreten können. Darüber hinaus führen wir ein neues animiertes anthropomorphes Benchmark (A^2Bench) ein, um die Leistung von Animate-X bei universellen und weit verbreiteten Animationsbildern zu bewerten. Umfangreiche Experimente zeigen die Überlegenheit und Wirksamkeit von Animate-X im Vergleich zu State-of-the-Art-Methoden.

LOKI: Ein umfassender Benchmark zur Erkennung synthetischer Daten unter Verwendung großer multimodaler Modelle
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

Oct 13, 2024
Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
564

Mit der raschen Entwicklung von KI-generierten Inhalten könnte das zukünftige Internet von synthetischen Daten überschwemmt werden, was die Unterscheidung von authentischen und glaubwürdigen multimodalen Daten zunehmend herausfordernd macht. Die Erkennung synthetischer Daten hat daher weitreichende Aufmerksamkeit erregt, und die Leistung großer multimodaler Modelle (LMMs) bei dieser Aufgabe hat beträchtliches Interesse geweckt. LMMs können natürlichsprachliche Erklärungen für ihre Authentizitätsbewertungen liefern, was die Erklärbarkeit der Erkennung synthetischer Inhalte verbessert. Gleichzeitig testet die Aufgabe, zwischen realen und synthetischen Daten zu unterscheiden, effektiv die Wahrnehmungs-, Wissens- und Argumentationsfähigkeiten von LMMs. Als Antwort darauf stellen wir LOKI vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zur Erkennung synthetischer Daten über mehrere Modalitäten hinweg zu bewerten. LOKI umfasst Video-, Bild-, 3D-, Text- und Audio-Modalitäten und besteht aus 18.000 sorgfältig ausgewählten Fragen in 26 Unterkategorien mit klaren Schwierigkeitsgraden. Der Benchmark beinhaltet grobgranulare Bewertungs- und Multiple-Choice-Fragen sowie feinkörnige Anomalieauswahl- und Erklärungsaufgaben, die eine umfassende Analyse von LMMs ermöglichen. Wir haben 22 Open-Source-LMMs und 6 geschlossene Modelle auf LOKI evaluiert, wobei ihre Potenziale als Erkenner synthetischer Daten hervorgehoben und gleichzeitig einige Einschränkungen bei der Entwicklung von LMM-Fähigkeiten aufgezeigt wurden. Weitere Informationen zu LOKI finden Sie unter https://opendatalab.github.io/LOKI/

MMIE: Massiver multimodaler interleaved Verständnis-Benchmark für große Bildsprachmodelle
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Oct 14, 2024
Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
534

Die interlektuelle multimodale Wahrnehmung und Generierung, die es Modellen ermöglicht, sowohl Bilder als auch Texte in beliebiger Reihenfolge zu erzeugen und zu interpretieren, sind zu einem entscheidenden Bereich im multimodalen Lernen geworden. Trotz bedeutender Fortschritte bleibt die Bewertung dieser Fähigkeit unzureichend. Bestehende Benchmarks leiden unter Einschränkungen hinsichtlich Datenumfang, -umfang und Bewertungstiefe, während aktuelle Bewertungsmetriken oft kostspielig oder voreingenommen sind und für praktische Anwendungen an Zuverlässigkeit mangeln. Um diesen Herausforderungen zu begegnen, stellen wir MMIE vor, einen umfangreichen wissensintensiven Benchmark zur Bewertung der interlektuellen multimodalen Wahrnehmung und Generierung in Large Vision-Language Models (LVLMs). MMIE umfasst 20.000 sorgfältig kuratierte multimodale Abfragen, die 3 Kategorien, 12 Felder und 102 Unterfelder abdecken, darunter Mathematik, Codierung, Physik, Literatur, Gesundheit und Kunst. Es unterstützt sowohl interlektuelle Eingaben als auch Ausgaben und bietet eine Mischung aus Multiple-Choice- und offenen Frageformaten zur Bewertung verschiedener Kompetenzen. Darüber hinaus schlagen wir eine zuverlässige automatisierte Bewertungsmetrik vor, die ein Bewertungsmodell nutzt, das mit menschlich annotierten Daten feinabgestimmt ist und systematische Bewertungskriterien verwendet, um Voreingenommenheit zu reduzieren und die Bewertungsgenauigkeit zu verbessern. Umfangreiche Experimente zeigen die Wirksamkeit unseres Benchmarks und unserer Metriken bei der Bereitstellung einer umfassenden Bewertung von interlektuellen LVLMs. Speziell bewerten wir acht LVLMs und zeigen auf, dass selbst die besten Modelle erhebliches Verbesserungspotenzial aufweisen, wobei die meisten nur moderate Ergebnisse erzielen. Wir sind der Überzeugung, dass MMIE weitere Fortschritte in der Entwicklung von interlektuellen LVLMs vorantreiben wird. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://mmie-bench.github.io/.

Auf dem Weg zur allgemeinen Anweisungsverfolgungs-Ausrichtung für abrufgestützte Generierung.
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

Oct 12, 2024
Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
493

Das präzise Befolgen von Anweisungen ist entscheidend für die effektive Anwendung von Retrieval-Augmented Generation (RAG)-Systemen. Trotz jüngster Fortschritte bei Large Language Models (LLMs) ist die Forschung zur Bewertung und Verbesserung der Anweisungsbeachtung (IF) innerhalb des RAG-Bereichs begrenzt. Um dieses Problem anzugehen, schlagen wir VIF-RAG vor, die erste automatisierte, skalierbare und überprüfbare synthetische Pipeline zur Ausrichtung der Anweisungsbeachtung in RAG-Systemen. Wir beginnen damit, ein minimales Set von atomaren Anweisungen (<100) manuell zu erstellen und Kombinationsregeln zu entwickeln, um komplexe Anweisungen für ein Ausgangsset zu synthetisieren und zu überprüfen. Anschließend verwenden wir überwachte Modelle zur Anweisungsumformulierung und generieren gleichzeitig Code, um die Qualität der Anweisungen mithilfe eines Python-Executors automatisch zu überprüfen. Schließlich integrieren wir diese Anweisungen mit umfangreichen RAG- und allgemeinen Datensätzen und skalieren auf einen hochwertigen VIF-RAG-QA-Datensatz (>100k) durch automatisierte Prozesse. Um die Lücke in der automatischen Bewertung der Anweisungsbeachtung für RAG-Systeme weiter zu schließen, führen wir das FollowRAG Benchmark ein, das etwa 3K Testproben umfasst und 22 Kategorien allgemeiner Anweisungsbeschränkungen sowie vier wissensintensive QA-Datensätze abdeckt. Aufgrund seines robusten Pipeline-Designs kann FollowRAG nahtlos mit verschiedenen RAG-Benchmarks integriert werden. Unter Verwendung von FollowRAG und acht weit verbreiteten IF- und grundlegenden Fähigkeiten-Benchmarks für LLMs zeigen wir, dass VIF-RAG die Leistung von LLMs über eine breite Palette allgemeiner Anweisungsbeschränkungen deutlich verbessert und dabei effektiv seine Fähigkeiten in RAG-Szenarien nutzt. Eine weitere Analyse bietet praktische Einblicke, um die Anweisungsbeachtung in RAG-Systemen zu erreichen. Unser Code und unsere Datensätze sind unter https://FollowRAG.github.io verfügbar.

MEGA-Bench: Skalierung der multimodalen Evaluation auf über 500 realen Aufgaben
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Oct 14, 2024
Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
393

Wir präsentieren MEGA-Bench, eine Evaluierungssuite, die die multimodale Evaluierung auf über 500 realen Aufgaben skaliert, um den hochgradig heterogenen täglichen Anwendungsfällen von Endbenutzern gerecht zu werden. Unser Ziel ist es, eine Reihe hochwertiger Datensamples zu optimieren, die eine äußerst vielfältige und umfangreiche Reihe von multimodalen Aufgaben abdecken, während wir kosteneffiziente und präzise Modellbewertungen ermöglichen. Insbesondere haben wir 505 realistische Aufgaben gesammelt, die über 8.000 Samples von 16 Expertenannotatoren umfassen, um den multimodalen Aufgabenraum umfassend abzudecken. Anstatt diese Probleme in standardisierte Multiple-Choice-Fragen zu vereinheitlichen (wie MMMU, MMBench und MMT-Bench), umarmen wir eine Vielzahl von Ausgabeformaten wie Zahlen, Phrasen, Code, \LaTeX, Koordinaten, JSON, Freitext usw. Um diese Formate zu berücksichtigen, haben wir über 40 Metriken entwickelt, um diese Aufgaben zu bewerten. Im Gegensatz zu bestehenden Benchmarks bietet MEGA-Bench einen detaillierten Leistungsbericht über mehrere Dimensionen (z. B. Anwendung, Eingabetyp, Ausgabeformat, Fähigkeit), der es Benutzern ermöglicht, mit den Modellfähigkeiten in der Tiefe zu interagieren und sie zu visualisieren. Wir evaluieren eine Vielzahl von modernen Bild-Sprach-Modelle auf MEGA-Bench, um ihre Fähigkeiten über diese Dimensionen hinweg zu verstehen.

Omni-MATH: Ein universeller Mathematik-Benchmark auf Olympiade-Niveau für große Sprachmodelle
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

Oct 10, 2024
Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
333

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben zu bedeutenden Durchbrüchen in den mathematischen Denkfähigkeiten geführt. Allerdings werden bestehende Benchmarks wie GSM8K oder MATH nun mit hoher Genauigkeit gelöst (z. B. erreicht OpenAI o1 94,8% auf dem MATH-Datensatz), was auf ihre Unzulänglichkeit hinweist, diese Modelle tatsächlich herauszufordern. Um diese Kluft zu überbrücken, schlagen wir einen umfassenden und anspruchsvollen Benchmark vor, der speziell zur Bewertung der mathematischen Denkfähigkeiten von LLMs auf Olympiade-Niveau entwickelt wurde. Im Gegensatz zu bestehenden Olympiade-bezogenen Benchmarks konzentriert sich unser Datensatz ausschließlich auf Mathematik und umfasst eine umfangreiche Sammlung von 4428 Wettbewerbsproblemen mit rigoroser menschlicher Annotation. Diese Probleme sind sorgfältig in über 33 Unterdomänen kategorisiert und erstrecken sich über mehr als 10 verschiedene Schwierigkeitsstufen, was eine ganzheitliche Bewertung der Modellleistung im Bereich der Olympiade-mathematischen Denkfähigkeit ermöglicht. Darüber hinaus haben wir eine eingehende Analyse basierend auf diesem Benchmark durchgeführt. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle, OpenAI o1-mini und OpenAI o1-preview, mit hoch anspruchsvollen Olympiade-Problemen zu kämpfen haben, mit Genauigkeiten von 60,54% bzw. 52,55%, was bedeutende Herausforderungen im Bereich der Olympiade-mathematischen Denkfähigkeit aufzeigt.

Semantische Bildumkehr und Bearbeitung unter Verwendung von korrigierten stochastischen Differentialgleichungen
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Oct 14, 2024
Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
313

Generative Modelle transformieren zufälliges Rauschen in Bilder; ihre Umkehrung zielt darauf ab, Bilder zurück in strukturiertes Rauschen zur Wiederherstellung und Bearbeitung zu transformieren. Dieser Artikel behandelt zwei Schlüsselaufgaben: (i) Umkehrung und (ii) Bearbeitung eines realen Bildes unter Verwendung stochastischer Äquivalente von rektifizierten Flussmodellen (wie Flux). Obwohl Diffusionsmodelle (DMs) in letzter Zeit das Feld der generativen Modellierung für Bilder dominiert haben, stellt ihre Umkehrung aufgrund von Nichtlinearitäten in Drift und Diffusion Herausforderungen in Bezug auf Treue und Bearbeitbarkeit dar. Bestehende state-of-the-art DM-Umkehrungsansätze beruhen auf dem Training zusätzlicher Parameter oder der Optimierung latenter Variablen zur Testzeit; beides ist in der Praxis teuer. Rektifizierte Flüsse (RFs) bieten eine vielversprechende Alternative zu Diffusionsmodellen, jedoch wurde ihre Umkehrung bisher wenig erforscht. Wir schlagen vor, die Umkehrung von RFs unter Verwendung einer dynamischen optimalen Steuerung vorzunehmen, die über einen linearen quadratischen Regler abgeleitet wird. Wir zeigen, dass das resultierende Vektorfeld äquivalent zu einer rektifizierten stochastischen Differentialgleichung ist. Darüber hinaus erweitern wir unser Framework, um einen stochastischen Sampler für Flux zu entwerfen. Unsere Umkehrungsmethode ermöglicht eine state-of-the-art Leistung bei der Null-Schuss-Umkehrung und Bearbeitung und übertrifft frühere Arbeiten in der Synthese von Strich-zu-Bild und der semantischen Bildbearbeitung, wobei umfangreiche menschliche Bewertungen die Benutzerpräferenz bestätigen.

LiveXiv - Ein Multi-Modaler Live-Benchmark basierend auf dem Inhalt von Arxiv-Papieren
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

Oct 14, 2024
Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
282

Das groß angelegte Training von multimodalen Modellen auf aus dem Web gescrapten Daten hat sich als äußerst nützlich erwiesen, um diesen Modellen das erforderliche Weltwissen zu vermitteln, um effektiv bei verschiedenen nachgelagerten Aufgaben zu agieren. Ein Nachteil beim Scrapen von Webdaten kann jedoch der potenzielle Verzicht auf die Benchmarks sein, anhand derer die Fähigkeiten dieser Modelle häufig bewertet werden. Um einer Kontamination der Testdaten entgegenzuwirken und die Fähigkeiten dieser Grundlagenmodelle wirklich zu testen, schlagen wir LiveXiv vor: Ein skalierbarer, sich entwickelnder Live-Benchmark basierend auf wissenschaftlichen ArXiv-Papieren. LiveXiv greift zu einem beliebigen Zeitpunkt auf domänenspezifische Manuskripte zu und schlägt vor, visuelle Frage-Antwort-Paare (VQA) automatisch zu generieren. Dies erfolgt ohne menschliches Eingreifen und unter Verwendung des multimodalen Inhalts in den Manuskripten, wie Grafiken, Diagramme und Tabellen. Darüber hinaus stellen wir einen effizienten Bewertungsansatz vor, der die Leistung aller Modelle auf dem sich entwickelnden Benchmark schätzt, indem nur eine Teilmenge der Modelle bewertet wird. Dies reduziert die Gesamtbewertungskosten erheblich. Wir bewerten mehrere offene und proprietäre Large Multi-modal Models (LMMs) anhand der ersten Version unseres Benchmarks, um seine anspruchsvolle Natur zu zeigen und die wahren Fähigkeiten der Modelle aufzudecken, um Kontamination zu vermeiden. Schließlich haben wir uns der hohen Qualität verpflichtet und eine manuell überprüfte Teilmenge gesammelt und bewertet. Durch den Vergleich der Gesamtergebnisse mit unseren automatischen Annotationen haben wir festgestellt, dass die Leistungsvarianz tatsächlich minimal ist (<2,5%). Unser Datensatz ist online auf HuggingFace verfügbar, und unser Code wird hier verfügbar sein.

VisRAG: Vision-basierte Wiederherstellung-erweiterte Generierung auf Multi-Modalitätsdokumenten
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Oct 14, 2024
Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
283

Die Retrieval-augmented Generation (RAG) ist eine effektive Technik, die es großen Sprachmodellen (LLMs) ermöglicht, externe Wissensquellen für die Generierung zu nutzen. Aktuelle RAG-Systeme basieren jedoch ausschließlich auf Text, was es unmöglich macht, visuelle Informationen wie Layout und Bilder zu nutzen, die in realen multimedialen Dokumenten eine entscheidende Rolle spielen. In diesem Paper stellen wir VisRAG vor, das dieses Problem durch die Einführung eines Vision-Sprachmodell (VLM)-basierten RAG-Pipelines löst. In dieser Pipeline wird das Dokument nicht zuerst geparst, um Text zu erhalten, sondern direkt mithilfe eines VLM als Bild eingebettet und dann zur Verbesserung der Generierung eines VLM abgerufen. Im Vergleich zu traditionellen textbasierten RAG maximiert VisRAG die Beibehaltung und Nutzung der Dateninformationen in den Originaldokumenten und beseitigt den Informationsverlust, der während des Parsings eingeführt wird. Wir sammeln sowohl Open-Source- als auch synthetische Daten, um den Retriever in VisRAG zu trainieren und verschiedene Generierungsmethoden zu erkunden. Experimente zeigen, dass VisRAG sowohl in den Abruf- als auch Generierungsphasen traditionelle RAG übertrifft und einen Leistungsgewinn von 25-39 % im End-to-End-Vergleich zur traditionellen textbasierten RAG-Pipeline erzielt. Weitere Analysen zeigen, dass VisRAG effektiv ist bei der Nutzung von Trainingsdaten und eine starke Verallgemeinerungsfähigkeit aufweist, was es zu einer vielversprechenden Lösung für RAG bei multimedialen Dokumenten macht. Unser Code und unsere Daten sind verfügbar unter https://github.com/openbmb/visrag.

Cavia: Kamera-steuerbare Multi-View-Videoverbreitung mit Blick-integrierter Aufmerksamkeit
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

Oct 14, 2024
Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
264

In den letzten Jahren gab es bemerkenswerte Durchbrüche bei der Generierung von Bild-zu-Video. Allerdings sind die 3D-Konsistenz und die Kamerasteuerbarkeit der generierten Frames ungelöst geblieben. In jüngsten Studien wurde versucht, die Kamerasteuerung in den Generierungsprozess zu integrieren, aber die Ergebnisse sind oft auf einfache Trajektorien beschränkt oder es fehlt die Fähigkeit, konsistente Videos aus mehreren verschiedenen Kamerapfaden für dieselbe Szene zu generieren. Um diese Einschränkungen zu adressieren, stellen wir Cavia vor, ein neuartiges Framework für kamerasteuerbare, Multi-View-Video-Generierung, das in der Lage ist, ein Eingabebild in mehrere räumlich-zeitlich konsistente Videos umzuwandeln. Unser Framework erweitert die räumlichen und zeitlichen Aufmerksamkeitsmodule zu view-integrierten Aufmerksamkeitsmodulen, die sowohl die Blickwinkel- als auch die zeitliche Konsistenz verbessern. Dieses flexible Design ermöglicht ein gemeinsames Training mit vielfältigen kuratierten Datenquellen, einschließlich statischer Videos auf Szenenebene, synthetischer dynamischer Multi-View-Videos auf Objektebene und monokularer dynamischer Videos aus der realen Welt. Unseres Wissens nach ist Cavia die erste ihrer Art, die es dem Benutzer ermöglicht, die Kamerabewegung präzise zu spezifizieren und gleichzeitig die Objektbewegung zu erhalten. Umfangreiche Experimente zeigen, dass Cavia in Bezug auf geometrische Konsistenz und perzeptuelle Qualität die Methoden auf dem neuesten Stand der Technik übertrifft. Projektseite: https://ir1d.github.io/Cavia/

Denkende LLMs: Allgemeine Anweisungsverfolgung mit Gedankengenerierung
Thinking LLMs: General Instruction Following with Thought Generation

Oct 14, 2024
Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
214

LLMs werden in der Regel darauf trainiert, Benutzerfragen zu beantworten oder Anweisungen ähnlich zu befolgen, wie menschliche Experten reagieren. Im Standard-Alignmentsrahmen fehlt ihnen jedoch die grundlegende Fähigkeit des expliziten Denkens vor dem Antworten. Das Denken ist wichtig für komplexe Fragen, die Schlussfolgerungen und Planung erfordern – kann aber auf jede Aufgabe angewendet werden. Wir schlagen eine Schulungsmethode vor, um bestehende LLMs mit solchen Denkfähigkeiten für allgemeines Anweisungsverhalten auszustatten, ohne zusätzliche menschliche Daten zu verwenden. Dies erreichen wir durch ein iteratives Such- und Optimierungsverfahren, das den Raum möglicher Gedankengenerationen erkundet und dem Modell ermöglicht, zu lernen, wie man ohne direkte Aufsicht denkt. Für jede Anweisung werden die Gedankenkandidaten nur anhand ihrer Antworten mit einem Richtermodell bewertet und dann über Präferenzoptimierung optimiert. Wir zeigen, dass dieses Verfahren zu einer überlegenen Leistung bei AlpacaEval und Arena-Hard führt und Vorteile des Denkens in nicht-schlussfolgernden Kategorien wie Marketing, Gesundheit und Allgemeinwissen sowie bei traditionelleren Schlussfolgerungs- und Problemlösungsaufgaben aufzeigt.

TemporalBench: Benchmarking des feingranularen zeitlichen Verständnisses für multimodale Video-Modelle
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

Oct 14, 2024
Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
172

Das Verständnis feingranularer zeitlicher Dynamiken ist entscheidend für die multimodale Videoverarbeitung und -erzeugung. Aufgrund des Mangels an feingranularen zeitlichen Annotationen ähneln bestehende Videobenchmarks größtenteils statischen Bildbenchmarks und sind ungeeignet zur Bewertung von Modellen für zeitliches Verständnis. In diesem Artikel stellen wir TemporalBench vor, einen neuen Benchmark, der sich der Bewertung des feingranularen zeitlichen Verständnisses in Videos widmet. TemporalBench besteht aus ca. 10.000 Video-Frage-Antwort-Paaren, abgeleitet von ca. 2.000 hochwertigen menschlichen Annotationen, die die zeitliche Dynamik in Videoclips detailliert beschreiben. Als Ergebnis bietet unser Benchmark ein einzigartiges Testumfeld zur Bewertung verschiedener zeitlicher Verständnis- und Denkfähigkeiten wie Aktionsfrequenz, Bewegungsmagnitude, Ereignisreihenfolge usw. Darüber hinaus ermöglicht es Bewertungen in verschiedenen Aufgaben wie Video-Frage-Antwort und -Beschriftung, Verständnis kurzer und langer Videos sowie verschiedener Modelle wie multimodale Videoeinbettungsmodelle und Textgenerierungsmodelle. Die Ergebnisse zeigen, dass modernste Modelle wie GPT-4o nur eine Frage-Antwort-Genauigkeit von 38,5% auf TemporalBench erreichen, was eine signifikante Lücke (~30%) zwischen Menschen und KI im zeitlichen Verständnis aufzeigt. Darüber hinaus stellen wir ein kritisches Problem bei Mehrfachauswahl-F&A fest, bei dem LLMs die subtilen Änderungen in negativen Beschriftungen erkennen und eine zentrale Beschreibung als Hinweis für ihre Vorhersage finden können, wobei wir Multiple Binary Accuracy (MBA) vorschlagen, um solche Verzerrungen zu korrigieren. Wir hoffen, dass TemporalBench die Forschung zur Verbesserung der zeitlichen Denkfähigkeiten von Modellen fördern kann. Sowohl Datensatz als auch Bewertungscode werden verfügbar gemacht.

Neubewertung der Datenauswahl im großen Maßstab: Zufällige Auswahl ist fast alles, was Sie brauchen.
Rethinking Data Selection at Scale: Random Selection is Almost All You Need

Oct 12, 2024
Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
173

Die überwachte Feinabstimmung (SFT) ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Anweisungen in Einklang zu bringen. Das Hauptziel während der SFT besteht darin, eine kleine, aber repräsentative Teilmenge von Trainingsdaten aus dem größeren Pool auszuwählen, sodass die Feinabstimmung mit dieser Teilmenge Ergebnisse erzielt, die mit denen vergleichbar sind oder sogar diejenigen übertreffen, die unter Verwendung des gesamten Datensatzes erzielt wurden. Die meisten bestehenden Techniken zur Datenauswahl sind jedoch für Datensätze kleineren Maßstabs konzipiert, was den Anforderungen von SFT-Szenarien in der realen Welt nicht gerecht wird. In dieser Arbeit haben wir mehrere Selbstbewertungsmethoden, die nicht auf externe Modellhilfe angewiesen sind, auf Datensätze von zwei Millionen Skalen repliziert und festgestellt, dass nahezu alle Methoden Schwierigkeiten hatten, signifikant bessere Ergebnisse als zufällige Auswahl zu erzielen, wenn es um die Bewältigung solcher Datensätze in großem Maßstab ging. Darüber hinaus legen unsere Vergleiche nahe, dass während der SFT die Vielfalt bei der Datenauswahl wichtiger ist als sich einfach nur auf hochwertige Daten zu konzentrieren. Wir haben auch die Grenzen mehrerer aktueller Ansätze analysiert, erläutert, warum sie auf Datensätzen in großem Maßstab schlecht abschneiden und warum sie für solche Kontexte ungeeignet sind. Schließlich stellten wir fest, dass die Filterung von Daten nach Token-Länge eine stabile und effiziente Methode zur Verbesserung der Ergebnisse bietet. Dieser Ansatz, insbesondere beim Training mit langen Textdaten, erweist sich als äußerst vorteilhaft für relativ schwächere Basismodelle, wie z.B. Llama3.

LongMemEval: Bewertung von Chat-Assistenten hinsichtlich langfristiger interaktiver Erinnerung
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Oct 14, 2024
Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
122

Jüngste Chat-Assistenzsysteme, die von großen Sprachmodellen (LLM) angetrieben werden, haben Gedächtniskomponenten integriert, um Benutzer-Assistenten-Chatverläufe zu verfolgen, was genauere und personalisierte Antworten ermöglicht. Die langfristigen Gedächtnisfähigkeiten in anhaltenden Interaktionen bleiben jedoch noch unerforscht. Dieses Papier stellt LongMemEval vor, einen umfassenden Benchmark, der entwickelt wurde, um fünf Kernlangzeitgedächtnisfähigkeiten von Chat-Assistenten zu bewerten: Informationsextraktion, Mehrsitzungs-Argumentation, zeitliche Argumentation, Wissensaktualisierungen und Enthaltung. Mit 500 sorgfältig ausgewählten Fragen, die in frei skalierbare Benutzer-Assistenten-Chatverläufe eingebettet sind, stellt LongMemEval eine bedeutende Herausforderung für bestehende Langzeitgedächtnissysteme dar, wobei kommerzielle Chat-Assistenten und LLMs mit langem Kontext eine 30%ige Genauigkeitsabnahme beim Memorieren von Informationen über anhaltende Interaktionen zeigen. Anschließend präsentieren wir ein einheitliches Framework, das das Langzeitgedächtnisdesign in vier Designentscheidungen über die Indizierung, Abruf- und Lesestufen aufteilt. Basierend auf wichtigen experimentellen Erkenntnissen schlagen wir verschiedene Gedächtnisdesigns vor, darunter Sitzungszerlegung zur Optimierung der Wertgranularität, faktaugmentierte Schlüsselerweiterung zur Verbesserung der Indexstruktur und zeitbewusste Abfrageerweiterung zur Verfeinerung des Suchbereichs. Die Experimentresultate zeigen, dass diese Optimierungen sowohl die Gedächtnisabruf als auch die nachgelagerte Fragebeantwortung bei LongMemEval erheblich verbessern. Insgesamt bietet unsere Studie wertvolle Ressourcen und Anleitungen zur Weiterentwicklung der Langzeitgedächtnisfähigkeiten von LLM-basierten Chat-Assistenten und ebnet den Weg für eine personalisiertere und zuverlässigere Konversations-KI.

MMZUSAMMENSETZUNG: Überprüfung der Kompositionalität von vortrainierten Vision-Language-Modellen
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Oct 13, 2024
Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
92

Der Aufstieg großer Vision-Language-Modelle (VLMs) hat die multimodale Verarbeitung wesentlich vorangetrieben, was eine anspruchsvollere und präzisere Integration visueller und textueller Informationen über verschiedene Aufgaben hinweg ermöglicht, darunter Bild- und Videobeschreibungen, visuelle Fragestellungen und Cross-Modal Retrieval. Trotz der überlegenen Fähigkeiten von VLMs fehlt es Forschern an einem umfassenden Verständnis ihrer Kompositionsstruktur - der Fähigkeit, neuartige Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu erzeugen. Frühere Leistungsbewertungen bieten lediglich eine relativ grobe Bewertung der Kompositionsstruktur aus Sicht von Objekten, Relationen und Attributen, wobei tiefgreifendere Überlegungen zu Objektinteraktionen, Zählungen und komplexen Strukturen vernachlässigt werden. Dennoch ist Kompositionalität eine entscheidende Fähigkeit, die kohärentes Denken und Verstehen über Modalitäten hinweg für VLMs erleichtert. Um diese Einschränkung anzugehen, schlagen wir MMCOMPOSITION vor, einen neuartigen, menschlich annotierten Bewertungsmaßstab zur umfassenden und präzisen Evaluierung der Kompositionsstruktur von VLMs. Unser vorgeschlagener Bewertungsmaßstab dient als Ergänzung zu diesen früheren Arbeiten. Mit MMCOMPOSITION können wir die Kompositionalität der gängigen VLMs quantifizieren und erforschen. Überraschenderweise stellen wir fest, dass die Kompositionalität von GPT-4o der besten Open-Source-Modelle unterlegen ist, und wir analysieren die zugrunde liegenden Gründe. Unsere experimentelle Analyse zeigt die Grenzen von VLMs in der feinkörnigen kompositorischen Wahrnehmung und Argumentation auf und weist auf Bereiche hin, in denen das Design und Training von VLMs verbessert werden können. Ressourcen verfügbar unter: https://hanghuacs.github.io/MMComposition/

Problem-Baum: Verbesserung der strukturierten Problemlösung durch Kompositionalität
Tree of Problems: Improving structured problem solving with compositionality

Oct 9, 2024
Armel Zebaze, Benoît Sagot, Rachel Bawden
92

Große Sprachmodelle (LLMs) haben durch kontextbezogenes Lernen bemerkenswerte Leistungen über mehrere Aufgaben hinweg gezeigt. Für komplexe Denkaufgaben, die schrittweises Denken erfordern, haben Chain-of-Thought (CoT) Anregungen beeindruckende Ergebnisse geliefert, insbesondere in Kombination mit Selbstkonsistenz. Dennoch bleiben einige Aufgaben besonders schwierig für LLMs zu lösen. Tree of Thoughts (ToT) und Graph of Thoughts (GoT) haben sich als Alternativen herausgebildet, die das komplexe Problem in Pfade von Teilaufgaben unterteilen. In diesem Papier schlagen wir Tree of Problems (ToP) vor, eine einfachere Version von ToT, von der wir vermuten, dass sie für komplexe Aufgaben, die in identische Teilaufgaben unterteilt werden können, besser funktionieren kann. Unsere empirischen Ergebnisse zeigen, dass unser Ansatz ToT und GoT übertrifft und zusätzlich bei komplexen Denkaufgaben besser abschneidet als CoT. Der gesamte Code für dieses Papier ist öffentlich verfügbar unter: https://github.com/ArmelRandy/tree-of-problems.

DuoAttention: Effiziente Inferenz von Long-Context LLM mit Abruf- und Streaming-Köpfen
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Oct 14, 2024
Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han
82

Die Bereitstellung von langen Kontexten großer Sprachmodelle (LLMs) ist unerlässlich, birgt jedoch erhebliche Rechen- und Speicherherausforderungen. Das Zwischenspeichern aller Schlüssel- und Wertezustände (KV) über alle Aufmerksamkeitsköpfe hinweg verbraucht erheblichen Speicherplatz. Bestehende KV-Zwischenspeicherverfahren beschädigen entweder die Fähigkeiten der LLMs im langen Kontext oder bieten nur begrenzte Effizienzverbesserungen. In diesem Papier identifizieren wir, dass nur ein Bruchteil der Aufmerksamkeitsköpfe, auch als Abrufköpfe bezeichnet, für die Verarbeitung langer Kontexte entscheidend ist und eine vollständige Aufmerksamkeit über alle Token hinweg erfordert. Im Gegensatz dazu benötigen alle anderen Köpfe, die sich hauptsächlich auf aktuelle Token und Aufmerksamkeitssenken konzentrieren - als Streaming-Köpfe bezeichnet - keine vollständige Aufmerksamkeit. Basierend auf dieser Erkenntnis stellen wir DuoAttention vor, ein Framework, das nur einen vollständigen KV-Zwischenspeicher für Abrufköpfe verwendet, während für Streaming-Köpfe ein leichtgewichtiger, konstanter KV-Zwischenspeicher verwendet wird. Dies reduziert sowohl den Dekodier- als auch den Vorabfüllspeicher und die Latenz der LLMs, ohne die Fähigkeit im langen Kontext zu beeinträchtigen. DuoAttention verwendet einen leichten, optimierungsbasierten Algorithmus mit synthetischen Daten, um Abrufköpfe genau zu identifizieren. Unsere Methode reduziert den Speicherbedarf für Inferenzen im langen Kontext um bis zu 2,55-fach für MHA- und 1,67-fach für GQA-Modelle, beschleunigt das Dekodieren um bis zu 2,18-fach und 1,50-fach und beschleunigt das Vorabfüllen um bis zu 1,73-fach und 1,63-fach für MHA- und GQA-Modelle, jeweils mit minimalen Genauigkeitsverlusten im Vergleich zur vollständigen Aufmerksamkeit. Besonders in Kombination mit Quantisierung ermöglicht DuoAttention das Dekodieren von Llama-3-8B mit einer Kontextlänge von 3,3 Millionen auf einer einzelnen A100-GPU. Der Code ist verfügbar unter https://github.com/mit-han-lab/duo-attention.

Generalisierbare menschenähnliche Manipulation mit verbesserten 3D-Diffusionsrichtlinien
Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

Oct 14, 2024
Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu
72

Humanoide Roboter, die autonom in verschiedenen Umgebungen agieren können, waren schon lange ein Ziel für Robotiker. Die autonome Manipulation durch humanoide Roboter war jedoch größtenteils auf eine spezifische Szene beschränkt, hauptsächlich aufgrund der Schwierigkeit, generalisierbare Fähigkeiten zu erlangen. Neueste Fortschritte in 3D-Visuomotor-Policies, wie der 3D Diffusion Policy (DP3), haben das Potenzial gezeigt, diese Fähigkeiten auf wildere Umgebungen auszudehnen. Allerdings stützen sich 3D-Visuomotor-Policies oft auf Kamerakalibrierung und Punktewolken-Segmentierung, was Herausforderungen für den Einsatz auf mobilen Robotern wie Humanoiden darstellt. In dieser Arbeit stellen wir die Verbesserte 3D Diffusion Policy (iDP3) vor, eine neuartige 3D-Visuomotor-Policy, die diese Einschränkungen durch die Nutzung egozentrischer 3D-Visuelle Darstellungen beseitigt. Wir zeigen, dass iDP3 einem lebensgroßen humanoiden Roboter ermöglicht, autonom Fähigkeiten in verschiedenen realen Szenarien auszuführen, unter Verwendung nur im Labor gesammelter Daten. Videos sind verfügbar unter: https://humanoid-manipulation.github.io

TVBench: Neugestaltung der Bewertung von Video-Sprache
TVBench: Redesigning Video-Language Evaluation

Oct 10, 2024
Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
62

Große Sprachmodelle haben beeindruckende Leistungen gezeigt, wenn sie mit Bildmodellen integriert werden, was sogar das Verstehen von Videos ermöglicht. Die Evaluierung dieser Videomodelle stellt jedoch eigene einzigartige Herausforderungen dar, für die mehrere Benchmarks vorgeschlagen wurden. In diesem Paper zeigen wir, dass die derzeit am häufigsten verwendeten Video-Sprach-Benchmarks gelöst werden können, ohne dass viel zeitliches Denken erforderlich ist. Wir haben drei Hauptprobleme in bestehenden Datensätzen identifiziert: (i) Statische Informationen aus einzelnen Frames sind oft ausreichend, um die Aufgaben zu lösen. (ii) Der Text der Fragen und der vorgeschlagenen Antworten ist übermäßig informativ, was es den Modellen ermöglicht, korrekt zu antworten, ohne auf visuelle Eingaben angewiesen zu sein. (iii) Alleiniges Weltwissen kann viele der Fragen beantworten, was die Benchmarks zu einem Test der Wissensreplikation anstelle des visuellen Denkens macht. Darüber hinaus stellten wir fest, dass offene Frage-Antwort-Benchmarks für das Verstehen von Videos ähnliche Probleme aufweisen, während der automatische Evaluierungsprozess mit großen Sprachmodellen unzuverlässig ist und daher keine geeignete Alternative darstellt. Als Lösung schlagen wir TVBench vor, einen neuartigen Open-Source-Video-Multiple-Choice-Frage-Antwort-Benchmark, und zeigen durch umfangreiche Evaluationen, dass er ein hohes Maß an zeitlichem Verständnis erfordert. Überraschenderweise stellen wir fest, dass die meisten aktuellen State-of-the-Art Video-Sprach-Modelle auf TVBench ähnlich wie zufällige Leistungen abschneiden, wobei nur Gemini-Pro und Tarsier dieses Basisniveau deutlich übertreffen.

Das Gleiche, aber Anders: Strukturelle Ähnlichkeiten und Unterschiede beim Multilingualen Sprachmodellieren
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

Oct 11, 2024
Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
52

Wir verwenden neue Werkzeuge aus dem Bereich der mechanistischen Interpretierbarkeit, um zu untersuchen, ob die interne Struktur großer Sprachmodelle (LLMs) mit den sprachlichen Strukturen übereinstimmt, die den Sprachen zugrunde liegen, auf denen sie trainiert sind. Insbesondere fragen wir (1) ob LLMs bei der Verwendung derselben morphosyntaktischen Prozesse in zwei Sprachen diese mit gemeinsamen internen Schaltkreisen verarbeiten und (2) ob LLMs bei der Verwendung unterschiedlicher morphosyntaktischer Prozesse in zwei Sprachen diese mit unterschiedlichen internen Schaltkreisen verarbeiten. Unter Verwendung von englischen und chinesischen mehrsprachigen und einsprachigen Modellen analysieren wir die internen Schaltkreise, die an zwei Aufgaben beteiligt sind. Wir finden Hinweise darauf, dass Modelle unabhängig von der Sprache, in der sie auftreten, denselben Schaltkreis verwenden, um denselben syntaktischen Prozess zu verarbeiten, und dass dies auch für einsprachige Modelle gilt, die vollständig unabhängig trainiert wurden. Darüber hinaus zeigen wir, dass mehrsprachige Modelle sprachspezifische Komponenten (Aufmerksamkeitsköpfe und Feedforward-Netzwerke) verwenden, wenn sie benötigt werden, um sprachliche Prozesse (z. B. morphologische Markierung) zu verarbeiten, die nur in einigen Sprachen existieren. Zusammen liefern unsere Ergebnisse neue Erkenntnisse darüber, wie LLMs zwischen der Nutzung gemeinsamer Strukturen und der Bewahrung sprachlicher Unterschiede abwägen, wenn sie mit der Modellierung mehrerer Sprachen gleichzeitig beauftragt sind.

ReLU's Wiederaufleben: Über die Entropieüberlastung in Normalisierungsfreien Großen Sprachmodellen
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

Oct 12, 2024
Nandan Kumar Jha, Brandon Reagen
42

LayerNorm ist eine entscheidende Komponente in modernen großen Sprachmodellen (LLMs) zur Stabilisierung des Trainings und zur Gewährleistung einer reibungslosen Optimierung. Es bringt jedoch signifikante Herausforderungen in Bezug auf mechanistische Interpretierbarkeit, Unterdrückung von Ausreißermerkmalen, treue Signalübertragung sowie Rechen- und Kommunikationskomplexität der privaten Inferenz mit sich. Diese Arbeit untersucht wünschenswerte Aktivierungsfunktionen in Normalisierungsfreien Dekodierer-Only LLMs. Im Gegensatz zur konventionellen Vorliebe für die GELU in transformerbasierten Modellen zeigen unsere empirischen Ergebnisse einen entgegengesetzten Trend - ReLU übertrifft die GELU signifikant in LayerNorm-freien Modellen und führt zu einer 8,2%igen Verbesserung der Perplexität. Wir entdecken ein Schlüsselproblem mit GELU, bei dem frühe Schichten eine entropische Überlastung erfahren, was zu einer Unterbeanspruchung der Repräsentationskapazität der Aufmerksamkeitsköpfe führt. Dies verdeutlicht, dass glattere Aktivierungen wie GELU für LayerNorm-freie Architekturen ungeeignet sind, während die geometrischen Eigenschaften von ReLU - Spezialisierung im Eingaberaum und intra-klassen Selektivität - zu verbesserten Lernprozessen und einer besseren Informationsretention in Abwesenheit von LayerNorm führen. Diese Studie bietet wichtige Erkenntnisse zur Optimierung von Transformer-Architekturen, bei denen LayerNorm signifikante Herausforderungen mit sich bringt.

Latente Aktionsvorabbereitung aus Videos
Latent Action Pretraining from Videos

Oct 15, 2024
Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
32

Wir stellen Latent Action Pretraining für allgemeine Aktionsmodelle (LAPA) vor, eine unüberwachte Methode zum Pretraining von Vision-Language-Action (VLA)-Modellen ohne echte Roboteraktionslabels. Existierende Vision-Language-Action-Modelle erfordern Aktionslabels, die typischerweise von menschlichen Teleoperatoren während des Pretrainings gesammelt werden, was die möglichen Datenquellen und den Umfang erheblich einschränkt. In dieser Arbeit schlagen wir eine Methode vor, um aus internetbasierten Videos zu lernen, die keine Roboteraktionslabels haben. Zunächst trainieren wir ein Aktionsquantisierungsmodell, das auf dem VQ-VAE-basierten Ziel beruht, um diskrete latente Aktionen zwischen Bildrahmen zu erlernen. Anschließend pretrainen wir ein latentes VLA-Modell, um diese latenten Aktionen aus Beobachtungen und Aufgabenbeschreibungen vorherzusagen, und feintunen schließlich das VLA anhand von robotergesteuerten Manipulationsdaten im kleinen Maßstab, um von latenten zu Roboteraktionen zu mappen. Experimentelle Ergebnisse zeigen, dass unsere Methode signifikant besser abschneidet als existierende Techniken, die Roboter-Manipulationsrichtlinien aus großangelegten Videos trainieren. Darüber hinaus übertrifft sie das VLA-Modell auf dem neuesten Stand der Technik, das mit Roboteraktionslabels auf realen Manipulationsaufgaben trainiert wurde, die eine sprachliche Konditionierung, die Verallgemeinerung auf unbekannte Objekte und die semantische Verallgemeinerung auf unbekannte Anweisungen erfordern. Das Training ausschließlich anhand von Videos menschlicher Manipulation zeigt ebenfalls positive Übertragungseffekte und eröffnet das Potenzial, webbasierte Daten für Grundlagenmodelle in der Robotik zu nutzen.

Oct 14
Oct 15
Oct 16