Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entwicklung und Bewertung von Large Language Models (LLMs) haben sich weitgehend auf individuelle Fähigkeiten konzentriert. Dies übersieht jedoch den Schnittpunkt mehrerer Fähigkeiten über verschiedene Arten von Expertise hinweg, die oft für realweltliche Aufgaben erforderlich sind, was wir als Kreuzfähigkeiten bezeichnen. Um dieses Konzept systematisch zu erforschen, definieren wir zunächst sieben Kernindividualeigenschaften und paaren sie dann, um sieben gemeinsame Kreuzfähigkeiten zu bilden, die jeweils von einer manuell erstellten Taxonomie unterstützt werden. Aufbauend auf diesen Definitionen stellen wir CrossEval vor, einen Benchmark, der 1.400 menschenannotierte Aufforderungen umfasst, mit jeweils 100 Aufforderungen für jede individuelle und kreuzfunktionale Fähigkeit. Um eine zuverlässige Bewertung sicherzustellen, beziehen wir Expertenannotatoren ein, um 4.200 Modellantworten zu bewerten und 8.400 menschliche Bewertungen mit detaillierten Erklärungen zu sammeln, die als Referenzbeispiele dienen. Unsere Ergebnisse zeigen, dass aktuelle LLMs sowohl in statischen Bewertungen als auch bei Versuchen, spezifische Fähigkeiten zu verbessern, konsistent das "Gesetz des schwächsten Glieds" aufweisen, wobei die Leistung der Kreuzfähigkeiten signifikant durch die schwächste Komponente eingeschränkt ist. Speziell sind von 58 Kreuzfähigkeitsbewertungen von 17 Modellen 38 Bewertungen niedriger als alle individuellen Fähigkeiten, während 20 zwischen stark und schwach liegen, aber näher an der schwächeren Fähigkeit. Diese Ergebnisse verdeutlichen die Unterperformance von LLMs bei Kreuzfähigkeitsaufgaben und machen die Identifizierung und Verbesserung der schwächsten Fähigkeiten zu einer kritischen Priorität für zukünftige Forschung, um die Leistung in komplexen, multidimensionalen Szenarien zu optimieren.
Die Inferenz großer Modelle verlagert sich von der Cloud an den Rand aufgrund von Bedenken hinsichtlich der Privatsphäre von Benutzerinteraktionsdaten. Randgeräte haben jedoch oft mit begrenzter Rechenleistung, Speicher und Bandbreite zu kämpfen, was eine Zusammenarbeit über mehrere Geräte hinweg erfordert, um die Inferenz großer Modelle zu beschleunigen. Die gängige Lösung, die Pipeline-Parallelität, ist ineffizient für Szenarien mit einem einzelnen Benutzer, während die Tensor-Parallelität mit häufigen Kommunikationen zu kämpfen hat. In diesem Paper argumentieren wir, dass Tensor-Parallelität auf ressourcenarmen Geräten effektiver sein kann als die Pipeline und präsentieren ein rechen- und speichereffizientes Tensor-Parallel-Inferenzsystem namens TPI-LLM, um Modelle im Maßstab von 70 Milliarden zu bedienen. TPI-LLM hält sensible Rohdaten lokal auf den Geräten der Benutzer und führt einen dynamischen Layer-Gewichts-Managementmechanismus mit einem Schiebefenster-Speicherplaner während der Inferenz ein, wobei die Festplatten-E/A-Latenz mit der Berechnung und Kommunikation überlappt wird. Dies ermöglicht es größeren Modellen, reibungslos auf speicherbegrenzten Geräten zu laufen. Wir analysieren das Kommunikationsengpass und stellen fest, dass die Link-Latenz, nicht die Bandbreite, als Hauptproblem auftritt, daher wird ein sternbasiertes Allreduce-Algorithmus implementiert. Durch umfangreiche Experimente sowohl auf emulierten als auch auf realen Testumgebungen zeigte TPI-LLM über 80% weniger Zeit bis zum ersten Token und Token-Latenz im Vergleich zu Accelerate, und über 90% im Vergleich zu Transformers und Galaxy, während der Spitzen-Speicherbedarf von Llama 2-70B um 90% reduziert wurde, wobei nur 3,1 GB Speicher für Modelle im Maßstab von 70 Milliarden benötigt werden.
Wir stellen Atlas-Chat vor, die erste Sammlung großer Sprachmodelle, die speziell für das dialektale Arabisch entwickelt wurden. Mit Fokus auf dem marokkanischen Arabisch, auch bekannt als Darija, erstellen wir unseren Anweisungsdatensatz, indem wir bestehende Darija-Sprachressourcen konsolidieren, neue Datensätze sowohl manuell als auch synthetisch erstellen und englische Anweisungen mit strenger Qualitätskontrolle übersetzen. Die auf dem Datensatz feinabgestimmten Atlas-Chat-9B- und 2B-Modelle zeigen eine überlegene Fähigkeit, Darija-Anweisungen zu befolgen und Standard-NLP-Aufgaben auszuführen. Bemerkenswert ist, dass unsere Modelle sowohl die State-of-the-Art-Modelle als auch auf Arabisch spezialisierte LLMs wie LLaMa, Jais und AceGPT übertreffen, z. B. eine Leistungssteigerung von 13% gegenüber einem größeren 13B-Modell auf DarijaMMLU in unserer neu eingeführten Evaluierungssuite für Darija, die sowohl diskriminative als auch generative Aufgaben umfasst. Darüber hinaus führen wir eine experimentelle Analyse verschiedener Feinabstimmungsstrategien und Basismodellauswahlen durch, um optimale Konfigurationen zu bestimmen. Alle unsere Ressourcen sind öffentlich zugänglich, und wir glauben, dass unsere Arbeit umfassende Designmethodologien für die Anweisungsfeinabstimmung für Sprachvarianten mit geringen Ressourcen bietet, die von zeitgenössischen LLMs oft zugunsten datenreicher Sprachen vernachlässigt werden.
Die Generierung hochwertiger 3D-Inhalte aus Text, Einzelbildern oder spärlichen Ansichten bleibt eine anspruchsvolle Aufgabe mit breiten Anwendungen. Bestehende Methoden verwenden in der Regel Mehransichts-Diffusionsmodelle, um Mehransichtsbilder zu synthetisieren, gefolgt von einem Feedforward-Prozess für die 3D-Rekonstruktion. Diese Ansätze sind jedoch häufig durch eine geringe und feste Anzahl von Eingangsansichten eingeschränkt, was ihre Fähigkeit zur Erfassung verschiedener Blickwinkel begrenzt und im schlimmsten Fall zu suboptimalen Generierungsergebnissen führt, wenn die synthetisierten Ansichten von schlechter Qualität sind. Um diese Einschränkungen zu überwinden, schlagen wir Flex3D vor, ein neuartiges Zwei-Stufen-Framework, das in der Lage ist, eine beliebige Anzahl hochwertiger Eingangsansichten zu nutzen. Die erste Stufe besteht aus einem Kandidatenansichts-Generierungs- und Kuratierungs-Pipeline. Wir verwenden ein feinabgestimmtes Mehransichtsbild-Diffusionsmodell und ein Video-Diffusionsmodell, um einen Pool von Kandidatenansichten zu generieren, was eine umfassende Darstellung des Ziel-3D-Objekts ermöglicht. Anschließend filtert eine Ansichtsauswahl-Pipeline diese Ansichten basierend auf Qualität und Konsistenz, um sicherzustellen, dass nur die hochwertigen und zuverlässigen Ansichten für die Rekonstruktion verwendet werden. In der zweiten Stufe werden die kuratierten Ansichten in ein Flexibles Rekonstruktionsmodell (FlexRM) eingespeist, das auf einer Transformer-Architektur aufbaut, die effektiv eine beliebige Anzahl von Eingaben verarbeiten kann. FlexRM gibt direkt 3D-Gaußpunkte aus, die eine Triplane-Repräsentation nutzen und eine effiziente und detaillierte 3D-Generierung ermöglichen. Durch umfangreiche Erkundung von Design- und Schulungsstrategien optimieren wir FlexRM, um eine überlegene Leistung sowohl bei Rekonstruktions- als auch bei Generierungsaufgaben zu erreichen. Unsere Ergebnisse zeigen, dass Flex3D eine Spitzenleistung erzielt, mit einer Gewinnrate von über 92% in 3D-Generierungsaufgaben bei Benutzerstudien im Vergleich zu mehreren der neuesten Feedforward-3D-generativen Modelle.
Wir stellen VideoLISA vor, ein auf Videos basierendes multimodales großes Sprachmodell, das entwickelt wurde, um das Problem der sprachgesteuerten Segmentierung von Schlussfolgerungen in Videos anzugehen. Durch die Nutzung der Schlussfolgerungsfähigkeiten und des Weltwissens großer Sprachmodelle und ergänzt durch das Segment Anything Model generiert VideoLISA zeitlich konsistente Segmentierungsmasken in Videos basierend auf sprachlichen Anweisungen. Bestehende bildbasierte Methoden, wie LISA, haben Schwierigkeiten mit Videoaufgaben aufgrund der zusätzlichen zeitlichen Dimension, die ein Verständnis für zeitliche Dynamik und konsistente Segmentierung über Frames hinweg erfordert. VideoLISA begegnet diesen Herausforderungen, indem es eine Strategie des Sparse Dense Sampling in das Video-LLM integriert, die das Gleichgewicht zwischen zeitlichem Kontext und räumlichen Details innerhalb von Rechenbeschränkungen herstellt. Zusätzlich schlagen wir einen One-Token-Seg-All-Ansatz unter Verwendung eines speziell entworfenen <TRK>-Tokens vor, der es dem Modell ermöglicht, Objekte über mehrere Frames hinweg zu segmentieren und zu verfolgen. Umfangreiche Evaluationen auf verschiedenen Benchmarks, einschließlich unseres neu eingeführten ReasonVOS-Benchmarks, zeigen die überlegene Leistung von VideoLISA bei Videoobjektsegmentierungsaufgaben, die komplexe Schlussfolgerungen, zeitliches Verständnis und Objektverfolgung beinhalten. Obwohl für Videos optimiert, zeigt VideoLISA auch vielversprechende Verallgemeinerungsmöglichkeiten für die Bildsegmentierung auf und offenbart damit ihr Potenzial als einheitliches Grundlagenmodell für sprachgesteuerte Objektsegmentierung. Code und Modell sind verfügbar unter: https://github.com/showlab/VideoLISA.
In dieser Arbeit teilen wir die Erkenntnisse zur Erreichung einer erstklassigen Qualität in unserem Text-zu-Bild Anime-Bild-generierenden Modell namens Illustrious. Um eine hohe Auflösung, einen dynamischen Farbbereich und eine hohe Wiederherstellungsfähigkeit zu erreichen, konzentrieren wir uns auf drei wesentliche Ansätze zur Modellverbesserung. Zunächst gehen wir auf die Bedeutung der Batch-Größe und der Dropout-Kontrolle ein, die ein schnelleres Lernen von steuerbaren Token-basierten Konzeptaktivierungen ermöglichen. Zweitens erhöhen wir die Trainingsauflösung von Bildern, was die genaue Darstellung der Charakteranatomie in viel höherer Auflösung beeinflusst und die Generationsfähigkeit auf über 20MP mit geeigneten Methoden erweitert. Schließlich schlagen wir die verfeinerten mehrstufigen Bildunterschriften vor, die alle Tags und verschiedene natürlichsprachliche Bildunterschriften abdecken, als entscheidenden Faktor für die Modellentwicklung. Durch umfangreiche Analysen und Experimente zeigt Illustrious eine erstklassige Leistung im Bereich des Animationsstils und übertrifft weit verbreitete Modelle in Illustrationsbereichen, was eine einfachere Anpassung und Personalisierung mit der Natur des Open Source vorantreibt. Wir planen, die aktualisierte Illustrious-Modellreihe sukzessive öffentlich freizugeben sowie nachhaltige Pläne für Verbesserungen.
Diffusionsmodelle haben sich als leistungsstarke generative Technologie etabliert und sind in verschiedenen Szenarien anwendbar. Die meisten bestehenden grundlegenden Diffusionsmodelle sind hauptsächlich für textgesteuerte visuelle Generierung konzipiert und unterstützen keine multimodalen Bedingungen, die für viele visuelle Bearbeitungsaufgaben unerlässlich sind. Diese Einschränkung verhindert, dass diese grundlegenden Diffusionsmodelle als einheitliches Modell im Bereich der visuellen Generierung dienen, wie GPT-4 im Bereich der natürlichen Sprachverarbeitung. In dieser Arbeit schlagen wir ACE vor, einen Allround-Ersteller und -Editor, der vergleichbare Leistungen in einer Vielzahl von visuellen Generierungsaufgaben im Vergleich zu diesen Expertenmodellen erzielt. Um dieses Ziel zu erreichen, führen wir zunächst ein einheitliches Bedingungsformat namens Long-context Condition Unit (LCU) ein und schlagen ein neuartiges auf Transformer basierendes Diffusionsmodell vor, das LCU als Eingabe verwendet und auf ein gemeinsames Training über verschiedene Generierungs- und Bearbeitungsaufgaben abzielt. Darüber hinaus schlagen wir einen effizienten Ansatz zur Datensammlung vor, um das Problem des Fehlens verfügbarer Trainingsdaten zu lösen. Dies beinhaltet den Erwerb von Bildpaaren mit synthesebasierten oder clusteringbasierten Pipelines und die Bereitstellung dieser Paare mit genauen textuellen Anweisungen durch Nutzung eines feinabgestimmten multimodalen großen Sprachmodells. Zur umfassenden Bewertung der Leistung unseres Modells etablieren wir einen Benchmark von manuell annotierten Paardaten über eine Vielzahl von visuellen Generierungsaufgaben. Die umfangreichen experimentellen Ergebnisse zeigen die Überlegenheit unseres Modells in den Bereichen visuelle Generierung. Dank der All-in-One-Fähigkeiten unseres Modells können wir leicht ein multimodales Chat-System aufbauen, das auf jede interaktive Anfrage zur Bildgenerierung reagiert, indem ein einziges Modell als Backend dient, was die umständliche Pipeline vermeidet, die typischerweise bei visuellen Agenten eingesetzt wird. Code und Modelle werden auf der Projektseite verfügbar sein: https://ali-vilab.github.io/ace-page/.
Der Fortschritt des autonomen Fahrens ist zunehmend von hochwertigen annotierten Datensätzen abhängig, insbesondere bei der Aufgabe der 3D-Belegungsvorhersage, bei der die Belegungslabels eine dichte 3D-Annotation mit erheblichem menschlichem Aufwand erfordern. In diesem Papier schlagen wir SyntheOcc vor, das ein Diffusionsmodell bezeichnet, das fotorealistische und geometrisch gesteuerte Bilder synthetisiert, indem es Belegungslabels in Fahrszenarien konditioniert. Dies ermöglicht eine unbegrenzte Menge an vielfältigen, annotierten und steuerbaren Datensätzen für Anwendungen wie das Training von Wahrnehmungsmodellen und Simulationen. SyntheOcc begegnet der entscheidenden Herausforderung, wie man 3D-geometrische Informationen effizient als bedingte Eingabe in ein 2D-Diffusionsmodell kodiert. Unser Ansatz integriert innovativ 3D-semantische Mehrflächenebenenbilder (MPIs), um umfassende und räumlich ausgerichtete 3D-Szenenbeschreibungen für die Konditionierung bereitzustellen. Als Ergebnis kann SyntheOcc fotorealistische Multi-View-Bilder und Videos generieren, die sich treu mit den gegebenen geometrischen Labels (Semantik im 3D-Voxelraum) ausrichten. Umfangreiche qualitative und quantitative Bewertungen von SyntheOcc auf dem nuScenes-Datensatz belegen dessen Wirksamkeit bei der Erzeugung steuerbarer Belegungsdatensätze, die als effektive Datenanreicherung für Wahrnehmungsmodelle dienen.
Große multimodale Modelle (LMMs) haben beeindruckende Leistungen bei der Verarbeitung kurzer Videos gezeigt, stehen jedoch vor großen Herausforderungen, wenn sie auf das Verstehen langer Videos angewendet werden. Im Gegensatz dazu zeigen große Sprachmodelle (LLMs) herausragende Fähigkeiten bei der Modellierung langer Texte. Bestehende Arbeiten versuchen, dieses Problem zu lösen, indem sie lange Video-Text-Paare während des Trainings einführen. Diese Ansätze erfordern jedoch erhebliche Rechen- und Datenressourcen. In diesem Paper nehmen wir die Herausforderung des Verstehens langer Videos aus der Perspektive von Kontextfenstern in Angriff, mit dem Ziel, LMMs auf lange Videoaufgaben anzuwenden, ohne eine Neuschulung auf umfangreichen Videodatensätzen durchzuführen. Wir führen zunächst eine eingehende Analyse durch, warum vorab trainierte LMMs Schwierigkeiten haben, umfangreiche Videoinhalte zu verstehen, und identifizieren, dass Diskrepanzen zwischen visuellen und sprachlichen Modalitäten zu unterschiedlichen Kontextfenstern für visuelle und sprachliche Tokens führen, was es schwierig macht, die visuellen Tokens direkt an den sprachlichen Kontext anzupassen. Basierend darauf schlagen wir vor, LMMs für lange Videoverständnisaufgaben anzupassen, indem wir den visuellen Kontext erweitern und so auf eine Neuschulung auf umfangreichen Videodatensätzen verzichten können. Um den signifikanten Speicherverbrauch durch lange Sequenzen weiter zu reduzieren, führen wir eine progressive Pooling-Inferenzstrategie ein, die die räumliche Auflösung der Frame-Embeddings selektiv anpasst, um die Anzahl der visuellen Tokens zu reduzieren, während wichtige räumliche Informationen beibehalten werden. Über mehrere Benchmarks zum Verständnis langer Videos hinweg verbessert unsere Methode konsistent die Leistung mit zunehmender Anzahl von Videoframes. Auf dem MLVU-Benchmark übertrifft unsere Methode sogar GPT-4o, obwohl die Größe unseres Modells nur 7B beträgt. Darüber hinaus reduziert unsere Methode bei der Einstellung mit 256 Frames den Speicherverbrauch im Vergleich zum Baseline-Modell um etwa 45%, ohne dabei Leistungseinbußen zu verursachen.
Algorithmen zur photorealistischen Bildwiederherstellung werden in der Regel anhand von Verzerrungsmessungen (z. B. PSNR, SSIM) und wahrnehmungsbezogenen Qualitätsmessungen (z. B. FID, NIQE) bewertet, wobei das Ziel darin besteht, die geringstmögliche Verzerrung zu erreichen, ohne die wahrnehmungsbezogene Qualität zu beeinträchtigen. Um dieses Ziel zu erreichen, versuchen aktuelle Methoden in der Regel, aus der posterioren Verteilung zu sampeln oder eine gewichtete Summe aus einem Verzerrungsverlust (z. B. MSE) und einem wahrnehmungsbezogenen Qualitätsverlust (z. B. GAN) zu optimieren. Im Gegensatz zu früheren Arbeiten befasst sich dieser Artikel speziell mit dem optimalen Schätzer, der den MSE unter der Bedingung eines perfekten wahrnehmungsbezogenen Index minimiert, nämlich wenn die Verteilung der rekonstruierten Bilder derjenigen der Ground-Truth-Bilder entspricht. Ein kürzlich erzielter theoretischer Ergebnis zeigt, dass ein solcher Schätzer konstruiert werden kann, indem die posteriore Mittelwertvorhersage (MMSE-Schätzung) optimal zur Verteilung der Ground-Truth-Bilder transportiert wird. Inspiriert von diesem Ergebnis stellen wir Posterior-Mean Rectified Flow (PMRF) vor, einen einfachen, aber äußerst effektiven Algorithmus, der diesen optimalen Schätzer approximiert. Insbesondere sagt PMRF zunächst den posterioren Mittelwert vorher und transportiert dann das Ergebnis mithilfe eines rectified Flow-Modells zu einem hochwertigen Bild, das die gewünschte optimale Transportabbildung approximiert. Wir untersuchen den theoretischen Nutzen von PMRF und zeigen, dass er konsistent bessere Leistungen als frühere Methoden bei einer Vielzahl von Bildwiederherstellungsaufgaben erbringt.
Wir präsentieren eine Methode zur Rekonstruktion zeitkonsistenter menschlicher Körpermodelle aus monokularen Videos, wobei der Fokus auf extrem lockerer Kleidung oder Interaktionen mit Handgegenständen liegt. Bisherige Arbeiten zur menschlichen Rekonstruktion beschränken sich entweder auf enge Kleidung ohne Objektinteraktionen oder erfordern kalibrierte Mehrsichtaufnahmen oder personalisierte Vorlagen-Scans, die in großem Maßstab teuer zu sammeln sind. Unser Schlüsselerkenntnis für eine hochwertige und dennoch flexible Rekonstruktion liegt in der sorgfältigen Kombination generischer menschlicher Prioritäten bezüglich der artikulierten Körperform (aus groß angelegten Trainingsdaten gelernt) mit video-spezifischen artikulierten "Bag-of-Bones"-Verformungen (angepasst an ein einziges Video durch Testzeit-Optimierung). Dies erreichen wir durch das Erlernen eines neuronalen impliziten Modells, das Körper- und Kleidungsverformungen als separate Bewegungsmodellschichten entwirrt. Um die feine Geometrie der Kleidung einzufangen, nutzen wir bildbasierte Prioritäten wie menschliche Körperhaltung, Oberflächennormalen und optischen Fluss während der Optimierung. Die resultierenden neuronalen Felder können in zeitkonsistente Netze extrahiert werden oder weiter optimiert werden, um als explizite 3D-Gaußsche für hochwertiges interaktives Rendern zu dienen. Bei Datensätzen mit äußerst herausfordernden Kleidungsverformungen und Objektinteraktionen erzielt DressRecon präzisere 3D-Rekonstruktionen als bisherige Arbeiten. Projektseite: https://jefftan969.github.io/dressrecon/
Lernbasierte Methoden haben eine starke Leistung bei der quadrupedalen Fortbewegung erzielt. Allerdings verhindern mehrere Herausforderungen, dass Quadrupeden hilfreiche Innenfertigkeiten erlernen, die eine Interaktion mit Umgebungen und Menschen erfordern: Mangel an Endeffektoren für Manipulation, begrenztes semantisches Verständnis, das nur Simulationdaten verwendet, sowie geringe Durchquerbarkeit und Erreichbarkeit in Innenräumen. Wir stellen ein System für die quadrupedale mobile Manipulation in Innenräumen vor. Es verwendet einen vorn montierten Greifer für Objektmanipulation, einen auf Simulation trainierten Niedrigpegelregler unter Verwendung von egokentrischer Tiefe für agile Fähigkeiten wie Klettern und Ganzkörperverschiebung sowie vorab trainierte Bildsprachmodelle (VLMs) mit einer dritten Person Fischaugen- und einer egokentrischen RGB-Kamera für semantisches Verständnis und Befehlsgenerierung. Wir evaluieren unser System in zwei unbekannten Umgebungen ohne jegliche Datensammlung oder Training in der realen Welt. Unser System kann zero-shot generalisieren auf diese Umgebungen und Aufgaben abschließen, wie dem Befolgen von Benutzerbefehlen, um ein zufällig platziertes Stofftier nach dem Überklettern eines Queensize-Bettes zu holen, mit einer Erfolgsrate von 60%. Projekthomepage: https://helpful-doggybot.github.io/
Geschlechterbias in maschineller Übersetzung (MT) wird als Problem anerkannt, das Menschen und die Gesellschaft schädigen kann. Und dennoch beinhalten Fortschritte auf diesem Gebiet selten Menschen, die endgültigen MT-Benutzer, oder informieren darüber, wie sie von voreingenommenen Technologien beeinflusst werden könnten. Aktuelle Bewertungen beschränken sich oft auf automatische Methoden, die eine undurchsichtige Schätzung dessen bieten, welche Auswirkungen geschlechtsspezifische Ungleichheiten haben könnten. Wir führen eine umfangreiche studie durch, die sich auf den Menschen konzentriert, um zu untersuchen, ob und inwieweit Bias in MT Schäden mit greifbaren Kosten verursacht, wie Qualitätsunterschiede bei der Dienstleistung zwischen Frauen und Männern. Zu diesem Zweck sammeln wir Verhaltensdaten von 90 Teilnehmern, die MT-Ausgaben nachbearbeitet haben, um eine korrekte Geschlechtsübersetzung sicherzustellen. Über mehrere Datensätze, Sprachen und Arten von Benutzern hinweg zeigt unsere Studie, dass die nachträgliche Bearbeitung im Femininen signifikant mehr technischen und zeitlichen Aufwand erfordert, was auch höheren finanziellen Kosten entspricht. Die bestehenden Bias-Messungen spiegeln jedoch nicht die gefundenen Unterschiede wider. Unsere Ergebnisse plädieren für menschenzentrierte Ansätze, die über die gesellschaftliche Auswirkung von Bias informieren können.
Es gibt keine Grenze dafür, wie viel ein Roboter erkunden und lernen kann, aber all dieses Wissen muss durchsuchbar und handlungsfähig sein. Innerhalb der Sprachforschung hat sich die Methode des abgerufenen erweiterten Generierens (RAG) als das Arbeitspferd des groß angelegten nicht-parametrischen Wissens erwiesen. Allerdings lassen sich bestehende Techniken nicht direkt auf den verkörperten Bereich übertragen, der multimodal ist, Daten stark korreliert sind und die Wahrnehmung Abstraktion erfordert. Um diese Herausforderungen anzugehen, stellen wir Embodied-RAG vor, ein Framework, das das Grundmodell eines verkörperten Agenten mit einem nicht-parametrischen Speichersystem erweitert, das in der Lage ist, hierarchisches Wissen sowohl für die Navigation als auch für die Sprachgenerierung autonom aufzubauen. Embodied-RAG bewältigt eine breite Palette von räumlichen und semantischen Auflösungen in verschiedenen Umgebungen und Abfragetypen, sei es für ein bestimmtes Objekt oder eine ganzheitliche Beschreibung der Atmosphäre. Im Kern ist der Speicher von Embodied-RAG als semantisches Waldsystem strukturiert, der Sprachbeschreibungen auf verschiedenen Detailebenen speichert. Diese hierarchische Organisation ermöglicht es dem System, kontextsensitive Ausgaben effizient über verschiedene Roboterplattformen zu generieren. Wir zeigen, dass Embodied-RAG RAG erfolgreich mit dem Bereich der Robotik verbindet, indem es über 200 Erklärungs- und Navigationsabfragen in 19 Umgebungen erfolgreich bewältigt, was sein Potenzial als allgemeines nicht-parametrisches System für verkörperte Agenten unterstreicht.