ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

MaskLLM: Lernbare halbstrukturierte Sparsamkeit für große Sprachmodelle
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Sep 26
ByGongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang
47
3

Große Sprachmodelle (LLMs) zeichnen sich durch ihre massiven Parameteranzahlen aus, die in der Regel zu erheblicher Redundanz führen. Diese Arbeit stellt MaskLLM vor, eine erlernbare Beschneidungsmethode, die Semi-strukturierte (oder "N:M") Sparsamkeit in LLMs einführt, um den Rechenaufwand während der Inferenz zu reduzieren. Anstatt ein neues Wichtigkeitskriterium zu entwickeln, modelliert MaskLLM N:M-Muster explizit als erlernbare Verteilung durch Gumbel-Softmax-Abtastung. Dieser Ansatz erleichtert das End-to-End-Training auf groß angelegten Datensätzen und bietet zwei bemerkenswerte Vorteile: 1) Hochwertige Masken - unsere Methode skaliert effektiv auf große Datensätze und lernt präzise Masken; 2) Übertragbarkeit - die probabilistische Modellierung der Maskenverteilung ermöglicht das Transferlernen von Sparsamkeit über Domänen oder Aufgaben hinweg. Wir haben MaskLLM unter Verwendung von 2:4-Sparsamkeit auf verschiedenen LLMs, einschließlich LLaMA-2, Nemotron-4 und GPT-3, mit Größen von 843M bis 15B Parametern, bewertet, und unsere empirischen Ergebnisse zeigen signifikante Verbesserungen gegenüber state-of-the-art Methoden. Beispielsweise erreichen führende Ansätze eine Perplexität (PPL) von 10 oder mehr auf Wikitext im Vergleich zu den 5,12 PPL des dichten Modells, aber MaskLLM erreicht allein durch das Erlernen der Masken mit eingefrorenen Gewichten eine deutlich niedrigere PPL von 6,72. Darüber hinaus ermöglicht die erlernbare Natur von MaskLLM maßgeschneiderte Masken für den verlustfreien Einsatz von 2:4-Sparsamkeit in nachgelagerten Aufgaben oder Domänen. Der Code ist unter https://github.com/NVlabs/MaskLLM verfügbar.

2

EMOVA: Ermächtigung von Sprachmodellen, um mit lebendigen Emotionen zu Sehen, Hören und Sprechen.
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Sep 26
ByKai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
40
13

GPT-4o, ein omni-modales Modell, das Gespräche mit vielfältigen Emotionen und Tonlagen ermöglicht, markiert einen Meilenstein für omni-modale Grundlagenmodelle. Allerdings bleibt es eine Herausforderung in der Open-Source-Community, große Sprachmodelle dazu zu befähigen, Bilder, Texte und Sprache end-to-end mit öffentlich verfügbaren Daten wahrzunehmen und zu generieren. Bestehende Vision-Sprach-Modelle sind auf externe Tools zur Sprachverarbeitung angewiesen, während Sprach-Sprach-Modelle immer noch unter begrenzten oder sogar fehlenden Fähigkeiten zur Bildverarbeitung leiden. Um diese Lücke zu schließen, schlagen wir EMOVA (EMotionally Omni-present Voice Assistant) vor, um großen Sprachmodellen end-to-end Sprachfähigkeiten zu verleihen, während gleichzeitig die führende Leistung in der Vision-Sprachverarbeitung beibehalten wird. Mit einem semantisch-akustisch entkoppelten Sprach-Tokenizer stellen wir überraschenderweise fest, dass eine omni-modale Ausrichtung die Fähigkeiten in der Vision-Sprachverarbeitung und Sprachverarbeitung im Vergleich zu den entsprechenden bi-modalen Ausrichtungen weiter verbessern kann. Darüber hinaus wird ein leichtgewichtiges Stilmodul für flexible Steuerungsmöglichkeiten des Sprachstils (z.B. Emotionen und Tonlagen) vorgeschlagen. EMOVA erzielt erstmalig Spitzenleistungen sowohl in den Vision-Sprach- als auch Sprach-Benchmarks und unterstützt gleichzeitig omni-modale gesprochene Dialoge mit lebendigen Emotionen.

3

LLaVA-3D: Ein einfacher, aber effektiver Ansatz zur Stärkung von LMMs mit 3D-Bewusstsein
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

Sep 26
ByChenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
34
2

In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) ihre Fähigkeiten in 2D-Visionsverständnisaufgaben erheblich verbessert, was es ihnen ermöglicht, Bilder und Videos effektiv zu verarbeiten und zu verstehen. Die Entwicklung von LMMs mit 3D-Bewusstsein für das Verständnis von 3D-Szenen wurde jedoch durch den Mangel an groß angelegten 3D-Vision-Sprach-Datensätzen und leistungsstarken 3D-Encodern behindert. In diesem Artikel stellen wir ein einfaches, aber effektives Framework namens LLaVA-3D vor. Durch die Nutzung der starken 2D-Verständnisvoraussetzungen von LLaVA passt unser LLaVA-3D LLaVA effizient für das Verständnis von 3D-Szenen an, ohne die 2D-Verständnisfähigkeiten zu beeinträchtigen. Um dies zu erreichen, verwenden wir eine einfache, aber effektive Darstellung, 3D Patch, der 2D CLIP Patch-Merkmale mit ihren entsprechenden Positionen im 3D-Raum verbindet. Durch die Integration der 3D Patches in 2D LMMs und die Verwendung einer gemeinsamen 2D- und 3D-Vision-Sprach-Anpassung erreichen wir eine einheitliche Architektur sowohl für das 2D-Bildverständnis als auch für das 3D-Szenenverständnis. Experimentelle Ergebnisse zeigen, dass LLaVA-3D 3,5-mal schneller konvergiert als bestehende 3D LMMs, wenn sie auf 3D-Vision-Sprach-Datensätzen trainiert werden. Darüber hinaus erzielt LLaVA-3D nicht nur eine Spitzenleistung bei verschiedenen 3D-Aufgaben, sondern behält auch vergleichbare 2D-Bildverständnis- und Vision-Sprach-Konversationsfähigkeiten wie LLaVA bei.

4

Lotus: Diffusionsbasiertes visuelles Grundlagenmodell für hochwertige dichte Vorhersage
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

Sep 26
ByJing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen
33
2

Durch die Nutzung der visuellen Vorkenntnisse von vortrainierten Text-zu-Bild-Diffusionsmodellen wird eine vielversprechende Lösung geboten, um die Null-Schuss-Verallgemeinerung bei dichten Vorhersageaufgaben zu verbessern. Allerdings verwenden bestehende Methoden oft unkritisch die originale Diffusionsformulierung, die aufgrund der grundlegenden Unterschiede zwischen dichten Vorhersagen und Bildgenerierung möglicherweise nicht optimal ist. In diesem Paper bieten wir eine systematische Analyse der Diffusionsformulierung für die dichte Vorhersage, wobei wir uns auf Qualität und Effizienz konzentrieren. Wir stellen fest, dass der ursprüngliche Parametertyp für die Bildgenerierung, der darauf trainiert ist, Rauschen vorherzusagen, für die dichte Vorhersage schädlich ist; der mehrstufige Rausch-/Entrauschungs-Diffusionsprozess ist ebenfalls unnötig und schwierig zu optimieren. Basierend auf diesen Erkenntnissen stellen wir Lotus vor, ein auf Diffusion basierendes visuelles Grundlagenmodell mit einem einfachen, aber effektiven Anpassungsprotokoll für dichte Vorhersagen. Speziell wird Lotus darauf trainiert, direkt Annotationen anstelle von Rauschen vorherzusagen, um schädliche Varianz zu vermeiden. Wir reformulieren auch den Diffusionsprozess zu einem einstufigen Verfahren, was die Optimierung vereinfacht und die Inferenzgeschwindigkeit signifikant erhöht. Darüber hinaus führen wir eine neue Abstimmungsstrategie namens Detailbewahrer ein, die genauere und feingliedrigere Vorhersagen ermöglicht. Lotus erreicht ohne Skalierung der Trainingsdaten oder der Modellkapazität eine Spitzenleistung bei der Null-Schuss-Tiefen- und Normalenschätzung über verschiedene Datensätze hinweg. Es verbessert auch die Effizienz erheblich, da es hunderte Male schneller ist als die meisten bestehenden diffusionsbasierten Methoden.

5

Anleitungsbefolgung ohne Anleitungseinstellung
Instruction Following without Instruction Tuning

Sep 21
ByJohn Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
30
4

Die Feinabstimmung von Anweisungen bedeutet in der Regel, ein Sprachmodell an Anweisungs-Antwort-Paaren anzupassen. Wir entdecken zwei Formen der Anpassung (Abstimmung), die im Vergleich zur Anpassung von Anweisungen mangelhaft sind, aber dennoch zu Anweisungsfolgen führen; dies bezeichnen wir als implizite Anpassung von Anweisungen. Zunächst stellen wir fest, dass Anweisungs-Antwort-Paare nicht notwendig sind: Das Training ausschließlich auf Antworten, ohne entsprechende Anweisungen, führt zu Anweisungsfolgen. Dies legt nahe, dass vorab trainierte Modelle eine Anweisungs-Antwort-Zuordnung haben, die durch das Lehren des Modells der gewünschten Verteilung von Antworten offenbart wird. Allerdings stellen wir dann fest, dass es nicht notwendig ist, die gewünschte Verteilung von Antworten zu lehren: Das Training von Anweisungen und Antworten auf eng begrenzten Daten wie Gedichten führt dennoch zu einem breiten Verhalten der Anweisungsfolge wie der Generierung von Rezepten. Insbesondere wenn Anweisungen sehr unterschiedlich von denen im eng begrenzten Feinabstimmungsbereich sind, halten sich die Antworten der Modelle nicht an den Stil des Feinabstimmungsbereichs. Um mit der Erklärung der impliziten Anpassung von Anweisungen zu beginnen, stellen wir die Hypothese auf, dass sehr einfache Änderungen an der Verteilung eines Sprachmodells zu Anweisungsfolgen führen. Wir unterstützen dies, indem wir ein regelbasiertes Sprachmodell von Hand schreiben, das in einem Produkt-von-Experten mit einem vorab trainierten Modell zu Anweisungsfolgen führt. Die Regeln bestehen darin, die Wahrscheinlichkeit des Beendens der Sequenz langsam zu erhöhen, Wiederholungen zu bestrafen und die Wahrscheinlichkeiten von 15 Wörtern gleichmäßig zu ändern. Zusammenfassend können Anpassungen, die nicht darauf ausgelegt sind, Anweisungsfolgen zu erzielen, dies implizit tun.

6

Das Entdecken der Schätze in den frühen Schichten: Beschleunigung von Long-Context LLMs mit einer Reduzierung von 1000-fachen Eingabetokens.
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

Sep 25
ByZhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty
25
5

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei der Verarbeitung langer Kontexteingaben gezeigt, allerdings geht dies mit einem erhöhten Bedarf an Rechenressourcen und Latenz einher. Unsere Forschung stellt einen neuartigen Ansatz für das Problem des langen Kontexts vor, um die Inferenz von LLMs zu beschleunigen und den GPU-Speicherverbrauch zu reduzieren. Unsere Forschung zeigt, dass LLMs relevante Tokens in den frühen Schichten identifizieren können, bevor sie Antworten auf eine Abfrage generieren. Unter Nutzung dieses Erkenntnisses schlagen wir einen Algorithmus vor, der die frühen Schichten eines LLMs als Filter verwendet, um Eingabetokens auszuwählen und zu komprimieren, wodurch die Kontextlänge für die nachfolgende Verarbeitung signifikant reduziert wird. Unsere Methode, GemFilter, zeigt erhebliche Verbesserungen sowohl in Geschwindigkeit als auch Speichereffizienz im Vergleich zu bestehenden Techniken wie der Standard-Attention und SnapKV/H2O. Bemerkenswert ist, dass sie im Vergleich zu SOTA-Methoden eine 2,4-fache Beschleunigung und eine 30\%ige Reduzierung des GPU-Speicherverbrauchs erreicht. Die Evaluation anhand der Nadel-im-Heuhaufen-Aufgabe zeigt, dass GemFilter die Standard-Attention und SnapKV signifikant übertrifft und vergleichbare Leistungen bei der LongBench-Herausforderung zeigt. GemFilter ist einfach, erfordert kein Training und ist breit anwendbar für verschiedene LLMs. Entscheidend ist, dass es Interpretierbarkeit bietet, indem es Menschen ermöglicht, die ausgewählte Eingabesequenz zu überprüfen. Diese Ergebnisse bieten nicht nur praktische Vorteile für den Einsatz von LLMs, sondern verbessern auch unser Verständnis der internen Mechanismen von LLMs und ebnet den Weg für weitere Optimierungen im Design und der Inferenz von LLMs. Unser Code ist verfügbar unter https://github.com/SalesforceAIResearch/GemFilter.

7

Pixel-Raum Post-Training von Latenten Diffusionsmodellen
Pixel-Space Post-Training of Latent Diffusion Models

Sep 26
ByChristina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
21
2

Latente Diffusionsmodelle (LDMs) haben in den letzten Jahren signifikante Fortschritte auf dem Gebiet der Bildgenerierung gemacht. Ein großer Vorteil von LDMs ist ihre Fähigkeit, in einem komprimierten latenten Raum zu arbeiten, was ein effizienteres Training und Deployment ermöglicht. Trotz dieser Vorteile bestehen jedoch nach wie vor Herausforderungen bei LDMs. Zum Beispiel wurde beobachtet, dass LDMs häufig hochfrequente Details und komplexe Kompositionen unvollkommen generieren. Wir vermuten, dass ein Grund für diese Mängel darin liegt, dass sowohl das Vor- als auch das Nachtraining von LDMs im latenten Raum durchgeführt werden, der in der Regel eine 8-mal 8 niedrigere räumliche Auflösung als die Ausgabebilder aufweist. Um dieses Problem anzugehen, schlagen wir vor, in den Nachschulungsprozess eine Pixelraumüberwachung hinzuzufügen, um hochfrequente Details besser zu erhalten. Experimentell zeigen wir, dass die Hinzufügung eines Pixelraumziels sowohl die Qualität des überwachten Feintunings als auch das präferenzbasierte Nachtraining in einem erheblichen Maße auf einem modernen DiT-Transformer und U-Net-Diffusionsmodellen in Bezug auf visuelle Qualität und visuelle Fehlermetriken verbessert, während die Textausrichtungsqualität gleichbleibend bleibt.

8

Die Dringlichkeit der Gesprächsanalyse im Zeitalter von LLMs: Eine Umfrage zu Aufgaben, Techniken und Trends.
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends

Sep 21
ByXinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang
13
2

In der Ära großer Sprachmodelle (LLMs) wird dank des schnellen Entwicklungstrends von Sprachbenutzeroberflächen eine immense Menge an Konversationsprotokollen angehäuft. Die Konversationsanalyse (CA) zielt darauf ab, wichtige Informationen aus Konversationsdaten zu entdecken und zu analysieren, manuelle Prozesse zu optimieren sowie Geschäftseinblicke und Entscheidungsfindung zu unterstützen. Der Bedarf der CA, handlungsrelevante Erkenntnisse zu extrahieren und Empowerment voranzutreiben, wird zunehmend deutlicher und erregt weitreichende Aufmerksamkeit. Allerdings führt das Fehlen eines klaren Anwendungsbereichs für CA zu einer Vielzahl von Techniken, die es schwierig machen, eine systematische technische Synergie zur Stärkung von Geschäftsanwendungen zu bilden. In diesem Papier führen wir eine gründliche Überprüfung durch und systematisieren die CA-Aufgabe, um die bestehenden verwandten Arbeiten zusammenzufassen. Insbesondere definieren wir die CA-Aufgabe formell, um der fragmentierten und chaotischen Landschaft in diesem Bereich zu begegnen, und leiten vier Schlüsselschritte der CA ab, angefangen bei der Rekonstruktion der Konversationsszene über die eingehende Attributionsanalyse bis hin zur gezielten Schulung, um schließlich auf der Grundlage der gezielten Schulung Konversationen zu generieren, um spezifische Ziele zu erreichen. Darüber hinaus präsentieren wir relevante Benchmarks, diskutieren potenzielle Herausforderungen und weisen auf zukünftige Richtungen sowohl in der Industrie als auch in der Akademie hin. Angesichts der aktuellen Fortschritte wird deutlich, dass die Mehrheit der Bemühungen immer noch auf der Analyse oberflächlicher Konversationselemente liegt, was eine beträchtliche Kluft zwischen Forschung und Geschäft darstellt. Mit Hilfe von LLMs zeigt die jüngste Arbeit einen Trend zur Erforschung von Kausalität und strategischen Aufgaben, die anspruchsvoll und auf hohem Niveau sind. Die analysierten Erfahrungen und Erkenntnisse werden zwangsläufig einen breiteren Anwendungswert in Geschäftsabläufen haben, die auf Konversationsprotokollen abzielen.

9

Reduzierung des Footprints von Multi-Vektor-Abruf mit minimalem Leistungseinfluss durch Token-Pooling.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling

Sep 23
ByBenjamin Clavié, Antoine Chaffin, Griffin Adams
12
2

In den letzten Jahren sind Multi-Vektor-Abrufmethoden, angeführt von ColBERT, zu einem zunehmend beliebten Ansatz für neuronale Information Retrieval (IR) geworden. Durch die Speicherung von Repräsentationen auf Token-Ebene anstelle von Dokumentenebene haben diese Methoden eine sehr starke Abrufleistung gezeigt, insbesondere in Out-of-Domain-Einstellungen. Die Speicher- und Speicheranforderungen, die erforderlich sind, um die große Anzahl zugehöriger Vektoren zu speichern, bleiben jedoch ein wichtiger Nachteil, der die praktische Übernahme behindert. In diesem Papier stellen wir einen einfachen clusteringbasierten Token-Pooling-Ansatz vor, um die Anzahl der zu speichernden Vektoren aggressiv zu reduzieren. Diese Methode kann den Speicher- und Speicherplatzbedarf von ColBERT-Indizes um 50 % reduzieren, ohne dass die Abrufleistung praktisch beeinträchtigt wird. Diese Methode ermöglicht auch weitere Reduzierungen, wobei die Vektoranzahl um 66 % bis 75 % reduziert wird, wobei die Beeinträchtigung auf den meisten Datensätzen unter 5 % bleibt. Diese Herangehensweise erfordert keine architektonische Änderung oder Verarbeitung zur Abfragezeit und kann als einfacher Ersatz bei der Indizierung mit einem beliebigen ColBERT-ähnlichen Modell verwendet werden.

10

Disco4D: Entwirrte 4D-Menschengenerierung und -animation aus einem einzigen Bild
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image

Sep 25
ByHui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu
11
2

Wir präsentieren Disco4D, ein neuartiges Gaussian-Splatting-Framework für die 4D-Menschengenerierung und -animation aus einem einzigen Bild. Im Gegensatz zu bestehenden Methoden entwirrt Disco4D deutlich Kleidungsstücke (mit Gaußschen Modellen) vom menschlichen Körper (mit dem SMPL-X-Modell) und verbessert somit signifikant die Generierungsdetails und Flexibilität. Es weist folgende technische Innovationen auf. 1) Disco4D lernt, die Kleidungsgaußschen effizient über die SMPL-X-Gaußschen zu passen. 2) Es übernimmt Diffusionsmodelle, um den 3D-Generierungsprozess zu verbessern, z. B. die Modellierung verdeckter Teile, die im Eingabebild nicht sichtbar sind. 3) Es lernt eine Identitätskodierung für jeden Kleidungsgauß, um die Trennung und Extraktion von Kleidungsassets zu erleichtern. Darüber hinaus unterstützt Disco4D auf natürliche Weise die 4D-Menschenanimation mit lebendiger Dynamik. Umfangreiche Experimente zeigen die Überlegenheit von Disco4D bei 4D-Menschengenerierungs- und Animationsaufgaben. Unsere Visualisierungen finden Sie unter https://disco-4d.github.io/.

11

Roboter sieht, Roboter tut: Imitation von manipulierten Objekten mit monokularer 4D-Rekonstruktion
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

Sep 26
ByJustin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
9
2

Menschen können lernen, neue Objekte zu manipulieren, indem sie einfach anderen zuschauen; wenn Robotern die Fähigkeit gegeben wird, von solchen Demonstrationen zu lernen, würde dies eine natürliche Schnittstelle ermöglichen, um neue Verhaltensweisen festzulegen. Diese Arbeit entwickelt Robot See Robot Do (RSRD), eine Methode zur Imitation von artikulierter Objektmanipulation aus einer einzelnen monokularen RGB-Menschendemonstration unter Verwendung eines einzigen statischen Multi-View-Objektscans. Zunächst schlagen wir 4D Differentiable Part Models (4D-DPM) vor, eine Methode zur Wiederherstellung von 3D-Teilbewegungen aus einem monokularen Video mit differenzierbarer Darstellung. Dieser Analyse-durch-Synthese-Ansatz verwendet teilzentrierte Merkmalsfelder in einer iterativen Optimierung, die die Verwendung geometrischer Regularisierer ermöglicht, um 3D-Bewegungen nur aus einem einzigen Video wiederherzustellen. Basierend auf dieser 4D-Rekonstruktion repliziert der Roboter Objekttrajektorien, indem er bimanuelle Armbewegungen plant, die die demonstrierte Teilbewegung des Objekts induzieren. Indem Demonstrationen als teilzentrierte Trajektorien dargestellt werden, konzentriert sich RSRD darauf, das beabsichtigte Verhalten der Demonstration zu replizieren, während die eigenen morphologischen Grenzen des Roboters berücksichtigt werden, anstatt zu versuchen, die Bewegung der Hand zu reproduzieren. Wir bewerten die 3D-Tracking-Genauigkeit von 4D-DPM anhand von Ground-Truth-annotierten 3D-Teiltrajektorien und die physische Ausführungsleistung von RSRD an 9 Objekten in jeweils 10 Versuchen an einem bimanuellen YuMi-Roboter. Jede Phase von RSRD erreicht eine durchschnittliche Erfolgsrate von 87 %, was eine Gesamterfolgsrate von 60 % über 90 Versuche ergibt. Bemerkenswerterweise wird dies nur unter Verwendung von Merkmalsfeldern erreicht, die aus großen vorab trainierten Vision-Modellen extrahiert wurden - ohne spezifisches Training, Feinabstimmung, Datensammlung oder Annotation. Projektseite: https://robot-see-robot-do.github.io

12

Verbesserung der strukturierten Datenabfrage mit GraphRAG: Fallstudie zu Fußballdaten
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study

Sep 26
ByZahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen
9
2

Die Extraktion aussagekräftiger Erkenntnisse aus großen und komplexen Datensätzen birgt erhebliche Herausforderungen, insbesondere hinsichtlich der Genauigkeit und Relevanz der abgerufenen Informationen. Traditionelle Methoden der Datensuche wie sequenzielle Suche und indexbasierte Suche scheitern oft bei der Handhabung komplexer und miteinander verbundener Datenstrukturen, was zu unvollständigen oder irreführenden Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellen wir Structured-GraphRAG vor, ein vielseitiges Framework, das darauf abzielt, die Informationssuche über strukturierte Datensätze in natürlichsprachlichen Abfragen zu verbessern. Structured-GraphRAG nutzt mehrere Wissensgraphen, die Daten in strukturierter Form darstellen und komplexe Beziehungen zwischen Entitäten erfassen, um eine nuanciertere und umfassendere Informationssuche zu ermöglichen. Dieser graphenbasierte Ansatz verringert das Risiko von Fehlern in den Ausgaben von Sprachmodellen, indem Antworten in strukturierter Form verankert werden und somit die Zuverlässigkeit der Ergebnisse erhöht wird. Wir zeigen die Wirksamkeit von Structured-GraphRAG, indem wir seine Leistung mit der einer kürzlich veröffentlichten Methode unter Verwendung von traditioneller abrufgestützter Generierung vergleichen. Unsere Ergebnisse zeigen, dass Structured-GraphRAG die Effizienz der Abfrageverarbeitung signifikant verbessert und die Antwortzeiten reduziert. Obwohl unsere Fallstudie sich auf Fußballdaten konzentriert, ist das Design des Frameworks breit anwendbar und bietet ein leistungsstarkes Werkzeug für die Datenanalyse und die Verbesserung von Sprachmodellanwendungen in verschiedenen strukturierten Bereichen.

Sep 26
Sep 27
Sep 30