Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die allgegenwärtige und nachweislich suboptimale Praxis, Bilder vor der Verarbeitung mit Computer-Vision-Modellen auf eine feste Auflösung zu skalieren, wurde bisher noch nicht erfolgreich in Frage gestellt. Modelle wie der Vision Transformer (ViT) bieten jedoch flexible, sequenzbasierte Modellierung und damit variierende Eingabesequenzlängen. Wir nutzen dies mit NaViT (Native Resolution ViT), das während des Trainings Sequenz-Packing verwendet, um Eingaben mit beliebigen Auflösungen und Seitenverhältnissen zu verarbeiten. Neben der flexiblen Modellnutzung zeigen wir eine verbesserte Trainingseffizienz für groß angelegtes supervidiertes und kontrastives Bild-Text-Pretraining. NaViT kann effizient auf Standardaufgaben wie Bild- und Videoklassifikation, Objekterkennung und semantische Segmentierung übertragen werden und führt zu verbesserten Ergebnissen bei Robustheits- und Fairness-Benchmarks. Zur Inferenzzeit kann die Flexibilität der Eingabeauflösung genutzt werden, um den Kompromiss zwischen Kosten und Leistung während des Tests geschickt zu navigieren. Wir glauben, dass NaViT einen Bruch mit der standardmäßigen, für CNNs entwickelten Eingabe- und Modellierungspipeline darstellt, die von den meisten Computer-Vision-Modellen verwendet wird, und eine vielversprechende Richtung für ViTs repräsentiert.
Wir schlagen den In-context Autoencoder (ICAE) zur Kontextkompression in einem großen Sprachmodell (LLM) vor. Der ICAE besteht aus zwei Modulen: einem lernbaren Encoder, der mit LoRA aus einem LLM adaptiert wurde, um einen langen Kontext in eine begrenzte Anzahl von Speicherplätzen zu komprimieren, und einem festen Decoder, der das Ziel-LLM ist und auf den Speicherplätzen für verschiedene Zwecke aufbauen kann. Wir trainieren den ICAE zunächst mit sowohl Autoencoding- als auch Sprachmodellierungszielen auf umfangreichen Textdaten vor, wodurch er in der Lage ist, Speicherplätze zu generieren, die den ursprünglichen Kontext genau und umfassend repräsentieren. Anschließend feintunen wir den vortrainierten ICAE auf einer kleinen Menge von Instruktionsdaten, um seine Interaktion mit verschiedenen Prompts zur Erzeugung wünschenswerter Antworten zu verbessern. Unsere experimentellen Ergebnisse zeigen, dass der ICAE, der mit unserem vorgeschlagenen Vortrainings- und Feintuning-Paradigma gelernt wurde, effektiv Speicherplätze mit einer 4-fachen Kontextkompression erzeugen kann, die vom Ziel-LLM gut genutzt werden können, um auf verschiedene Prompts zu reagieren. Die vielversprechenden Ergebnisse demonstrieren die bedeutenden Implikationen des ICAE für seinen neuartigen Ansatz zur Lösung des langen Kontextproblems und sein Potenzial, den Rechen- und Speicheraufwand für die LLM-Inferenz in der Praxis zu reduzieren, was weitere Forschungsbemühungen im Bereich des Kontextmanagements für ein LLM nahelegt. Unser Code und unsere Daten werden in Kürze veröffentlicht.
Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, natürliche Sprachanweisungen zu verstehen, zu schlussfolgern und zu generieren. Die Entwicklung von LLMs konzentrierte sich jedoch hauptsächlich auf Hochressourcensprachen wie Englisch, was ihre Anwendbarkeit und Forschung in anderen Sprachen einschränkt. Daher stellen wir PolyLM vor, ein multilinguales LLM, das auf 640 Milliarden (B) Tokens trainiert wurde und in zwei Modellgrößen verfügbar ist: 1,7B und 13B. Um seine multilingualen Fähigkeiten zu verbessern, 1) integrieren wir bilinguale Daten in die Trainingsdaten und 2) verwenden wir eine Curriculum-Learning-Strategie, die den Anteil nicht-englischer Daten von 30 % in der ersten Phase auf 60 % in der letzten Phase während des Pre-Trainings erhöht. Darüber hinaus schlagen wir eine multilinguale Self-Instruct-Methode vor, die automatisch 132,7K diverse multilinguale Anweisungen für die Modellfeinabstimmung generiert. Um die Leistung des Modells zu bewerten, sammeln wir mehrere bestehende multilinguale Aufgaben, darunter multilinguales Verständnis, Fragebeantwortung, Generierung und Übersetzung. Umfangreiche Experimente zeigen, dass PolyLM andere Open-Source-Modelle wie LLaMA und BLOOM bei multilingualen Aufgaben übertrifft, während es eine vergleichbare Leistung in Englisch beibehält. Unsere Modelle, zusammen mit den Anweisungsdaten und dem multilingualen Benchmark, sind verfügbar unter: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Dieses Paper stellt InternVid vor, einen groß angelegten, videozentrierten multimodalen Datensatz, der das Erlernen leistungsstarker und übertragbarer Video-Text-Repräsentationen für multimodales Verständnis und Generierung ermöglicht. Der InternVid-Datensatz enthält über 7 Millionen Videos mit einer Gesamtdauer von fast 760.000 Stunden, die 234 Millionen Videoclips mit detaillierten Beschreibungen von insgesamt 4,1 Milliarden Wörtern liefern. Unser Kernbeitrag besteht darin, einen skalierbaren Ansatz zu entwickeln, um autonom einen hochwertigen Video-Text-Datensatz mit großen Sprachmodellen (LLM) zu erstellen, wodurch dessen Wirksamkeit beim Erlernen von Video-Sprach-Repräsentationen im großen Maßstab demonstriert wird. Insbesondere nutzen wir einen mehrstufigen Ansatz, um videobezogene Beschreibungen zu generieren. Darüber hinaus stellen wir ViCLIP vor, ein Video-Text-Repräsentationslernmodell basierend auf ViT-L. Dieses Modell, das auf InternVid durch kontrastives Lernen trainiert wurde, zeigt führende Leistungen bei der Null-Shot-Aktionserkennung und wettbewerbsfähige Ergebnisse bei der Videorecherche. Über grundlegende Video-Verständnisaufgaben wie Erkennung und Recherche hinaus haben unser Datensatz und Modell breite Anwendungsmöglichkeiten. Sie sind besonders vorteilhaft für die Generierung von verschachtelten Video-Text-Daten zum Erlernen eines videozentrierten Dialogsystems und fördern die Forschung zur Video-zu-Text- und Text-zu-Video-Generierung. Diese vorgeschlagenen Ressourcen bieten ein Werkzeug für Forscher und Praktiker, die an multimodaler Video-Verständnis und -Generierung interessiert sind.
Trotz der Dominanz und Effektivität von Skalierung, die zu großen Netzwerken mit Hunderten von Milliarden Parametern führt, bleibt die Notwendigkeit, überparametrisierte Modelle zu trainieren, weitgehend unverstanden, und alternative Ansätze machen das Training von leistungsstarken Modellen nicht unbedingt kostengünstiger. In diesem Artikel untersuchen wir Low-Rank-Trainingstechniken als alternativen Ansatz zum Training großer neuronaler Netzwerke. Wir stellen eine neuartige Methode namens ReLoRA vor, die Low-Rank-Updates nutzt, um High-Rank-Netzwerke zu trainieren. Wir wenden ReLoRA auf das Pre-Training von Transformer-Sprachmodellen mit bis zu 350M Parametern an und zeigen eine vergleichbare Leistung zum regulären Training neuronaler Netzwerke. Darüber hinaus beobachten wir, dass die Effizienz von ReLoRA mit der Modellgröße zunimmt, was es zu einem vielversprechenden Ansatz für das effiziente Training von Netzwerken mit mehreren Milliarden Parametern macht. Unsere Erkenntnisse beleuchten das Potenzial von Low-Rank-Trainingstechniken und deren Auswirkungen auf Skalierungsgesetze.
Große Sprachmodelle (LLMs) haben beeindruckende Ergebnisse bei der Entwicklung von universellen Planungsagenten für diverse Aufgaben gezeigt. Die Verankerung dieser Pläne in umfangreichen, mehrstöckigen und mehrräumigen Umgebungen stellt jedoch eine erhebliche Herausforderung für die Robotik dar. Wir stellen SayPlan vor, einen skalierbaren Ansatz für die großflächige Aufgabenplanung in der Robotik auf Basis von LLMs unter Verwendung von 3D-Szenengraph (3DSG)-Darstellungen. Um die Skalierbarkeit unseres Ansatzes zu gewährleisten, gehen wir wie folgt vor: (1) Wir nutzen die hierarchische Struktur von 3DSGs, um LLMs eine semantische Suche nach aufgabenrelevanten Teilgraphen aus einer kleineren, reduzierten Darstellung des vollständigen Graphen zu ermöglichen; (2) Wir verkürzen den Planungshorizont für das LLM durch die Integration eines klassischen Pfadplaners und (3) Wir führen eine iterative Replanungs-Pipeline ein, die den initialen Plan mithilfe von Feedback eines Szenengraph-Simulators verfeinert, indem nicht durchführbare Aktionen korrigiert und Planungsfehler vermieden werden. Wir evaluieren unseren Ansatz in zwei großflächigen Umgebungen, die bis zu 3 Etagen, 36 Räume und 140 Objekte umfassen, und zeigen, dass unser Ansatz in der Lage ist, großflächige, langfristige Aufgabenpläne aus abstrakten und natürlichen Sprachanweisungen für einen mobilen Manipulatorroboter zu verankern und auszuführen.
Große Sprachmodelle (LLMs) wie GPT-4 haben bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben, einschließlich gesundheitsbezogener Anwendungen, gezeigt. In diesem Artikel untersuchen wir, wie LLMs zur Skalierung der Kuratierung biomedizinischen Wissens eingesetzt werden können. Wir stellen fest, dass LLMs zwar bereits über eine solide Kompetenz in der Strukturierung biomedizinischer Texte verfügen, durch die Destillation in ein aufgaben-spezifisches Studentenmodell mittels selbstüberwachtem Lernen jedoch erhebliche Verbesserungen gegenüber den Standard-LLMs erzielt werden können, mit zusätzlichen Vorteilen wie Kostenersparnis, Effizienz und Zugang zu einem transparenten Modell. Wir führen eine Fallstudie zur Extraktion unerwünschter Arzneimittelwirkungen (Adverse Drug Events, ADEs) durch, ein wichtiger Bereich zur Verbesserung der Patientenversorgung. Bei der standardmäßigen Bewertung der ADE-Extraktion erreichte ein aus GPT-3.5 destilliertes PubMedBERT-Modell eine vergleichbare Genauigkeit wie überwachte State-of-the-Art-Modelle, ohne dabei auf annotierte Daten zurückzugreifen. Obwohl das destillierte Modell über 1.000 Mal kleiner ist, übertraf es sein Lehrer-Modell GPT-3.5 um mehr als 6 absolute Punkte im F1-Score und GPT-4 um mehr als 5 absolute Punkte. Ablationsstudien zur Wahl des Destillationsmodells (z. B. PubMedBERT vs. BioGPT) und zur Architektur der ADE-Extraktion geben Aufschluss über Best Practices für die Extraktion biomedizinischen Wissens. Ähnliche Verbesserungen wurden durch Destillation auch bei anderen standardmäßigen Aufgaben zur Extraktion biomedizinischen Wissens erzielt, wie z. B. Gen-Krankheits-Assoziationen und geschützte Gesundheitsinformationen, was das Potenzial dieses Ansatzes weiter verdeutlicht.
Große Sprachmodelle durchlaufen typischerweise zwei Trainingsphasen: Vorabtraining und Feinabstimmung. Obwohl das groß angelegte Vorabtraining dem Modell starke Fähigkeiten verleiht, natürliche Sprachantworten zu generieren, können diese vortrainierten Modelle dennoch manchmal menschliche Anweisungen nicht verstehen. Um die Fähigkeit von Sprachmodellen, Anweisungen zu interpretieren und darauf zu reagieren, zu verbessern, hat sich die Feinabstimmung auf Anweisungen als eine entscheidende Methode in diesem Bereich etabliert. Aktuelle Studien haben gezeigt, dass große Sprachmodelle auch mit einer geringen Menge an hochwertigen Daten zur Befolgung von Anweisungen feinabgestimmt werden können, um gute Leistungen zu erzielen. Dennoch fehlen klare Richtlinien für die Auswahl hochwertiger Datensätze zur Feinabstimmung von Sprachmodellen. In diesem Artikel schlagen wir InstructMining vor, eine lineare Regel zur Bewertung der Qualität von Daten zur Befolgung von Anweisungen. Wir formulieren InstructMining unter Verwendung spezifischer natürlicher Sprachindikatoren. Um den Zusammenhang zwischen Datenqualität und diesen Indikatoren zu untersuchen, führen wir umfangreiche Feinabstimmungsexperimente durch. Die Ergebnisse der Experimente werden dann zur Schätzung der Parameter in InstructMining verwendet. Um die Leistung weiter zu untersuchen, verwenden wir InstructMining, um hochwertige Daten aus unbekannten Datensätzen auszuwählen. Die Ergebnisse zeigen, dass InstructMining dabei helfen kann, relativ hochwertige Beispiele aus verschiedenen Datensätzen zur Befolgung von Anweisungen auszuwählen. Im Vergleich zu Modellen, die auf ungefilterten Datensätzen feinabgestimmt wurden, schneiden Modelle, die auf mit InstructMining ausgewählten Datensätzen feinabgestimmt wurden, in 42,5 % der Fälle besser ab.
Der Erfolg der GPT-Serie beweist, dass GPT allgemeine Informationen aus Sequenzen extrahieren kann, wodurch alle nachgelagerten Aufgaben profitieren. Dies motiviert uns, vortrainierte Modelle zu verwenden, um die verborgenen Informationen in DNA-Sequenzen zu erforschen. Allerdings sind die Daten- und Aufgabenanforderungen in der DNA-Sequenzanalyse komplex und vielfältig, da DNA-relevante Daten verschiedene Arten von Informationen umfassen, wie Sequenzen, Expressionsniveaus usw., während es derzeit kein speziell für diese Merkmale entwickeltes Modell gibt. Daher präsentieren wir DNAGPT, ein generalisiertes Foundation-Modell, das auf über 10 Milliarden Basenpaaren von 9 Arten vortrainiert wurde und für jede DNA-Sequenzanalyseaufgabe feinabgestimmt werden kann. Unser Modell kann gleichzeitig DNA-Sequenzen und Zahlen verarbeiten oder ausgeben. Darüber hinaus ermöglicht unser einzigartiges Token-Design den Benutzern, Prompts gemäß ihren eigenen Aufgabenanforderungen zu gestalten, wodurch es für jede Art von Aufgabe anwendbar ist. Wir haben unser Modell auf Klassifizierungs-, Regressions- und Generierungsaufgaben evaluiert. Wir zeigen, dass DNAGPT vom Vortraining profitiert und somit Leistungssteigerungen für jede nachgelagerte Aufgabe bringen kann. Unser Modell ist nicht nur ein neuer Versuch im Bereich der Genomanalyse, sondern bietet auch eine neue Richtung für die Anwendung von Foundation-Modellen in der Biologie.
Bevor ein Sprachmodell (LM) in einem bestimmten Bereich eingesetzt wird, ist es wichtig, seine Tendenz zur Erzeugung faktisch falscher Informationen in diesem Bereich zu messen. Bestehende Methoden zur Bewertung der faktischen Generierung konzentrieren sich auf Fakten, die aus dem LM selbst stammen, und kontrollieren somit nicht den Satz der bewerteten Fakten, was seltene und unwahrscheinliche Fakten unterrepräsentieren könnte. Wir schlagen FACTOR vor: Factual Assessment via Corpus TransfORmation, einen skalierbaren Ansatz zur Bewertung der Faktizität von LMs. FACTOR transformiert automatisch ein relevantes Faktenkorpus in ein Benchmark, das die Neigung eines LMs bewertet, wahre Fakten aus dem Korpus im Vergleich zu ähnlichen, aber falschen Aussagen zu generieren. Wir verwenden unser Framework, um zwei Benchmarks zu erstellen: Wiki-FACTOR und News-FACTOR. Wir zeigen, dass: (i) unsere Benchmark-Werte mit der Modellgröße steigen und sich verbessern, wenn das LM mit Retrieval erweitert wird; (ii) der Benchmark-Wert mit der Perplexität korreliert, aber die beiden Metriken nicht immer in der Modellrangfolge übereinstimmen; und (iii) wenn Perplexität und Benchmark-Wert nicht übereinstimmen, letzterer die Faktizität bei der offenen Generierung besser widerspiegelt, wie von menschlichen Annotatoren gemessen. Wir stellen unsere Daten und unseren Code öffentlich unter https://github.com/AI21Labs/factor zur Verfügung.
Trotz der beeindruckenden Fähigkeit, hochwertige Bilder zu generieren, die aktuelle Text-zu-Bild-Modelle aufweisen, haben bestehende Ansätze oft Schwierigkeiten, Objekte mit unterschiedlichen Attributen und Beziehungen effektiv in eine komplexe und kohärente Szene zu integrieren. Wir schlagen T2I-CompBench vor, einen umfassenden Benchmark für die offene Welt der kompositionellen Text-zu-Bild-Generierung, der aus 6.000 kompositionellen Textprompts aus 3 Kategorien (Attributbindung, Objektbeziehungen und komplexe Kompositionen) und 6 Unterkategorien (Farbbindung, Formbindung, Texturbindung, räumliche Beziehungen, nicht-räumliche Beziehungen und komplexe Kompositionen) besteht. Wir schlagen außerdem mehrere Evaluationsmetriken vor, die speziell zur Bewertung der kompositionellen Text-zu-Bild-Generierung entwickelt wurden. Wir führen einen neuen Ansatz ein, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), um die kompositionellen Text-zu-Bild-Generierungsfähigkeiten vortrainierter Text-zu-Bild-Modelle zu verbessern. Umfangreiche Experimente und Bewertungen werden durchgeführt, um frühere Methoden auf T2I-CompBench zu benchmarken und die Wirksamkeit unserer vorgeschlagenen Evaluationsmetriken und des GORS-Ansatzes zu validieren. Die Projektseite ist unter https://karine-h.github.io/T2I-CompBench/ verfügbar.
Das textuelle und semantische Verständnis von Bildern ist entscheidend für die Generierung geeigneter Bildbeschreibungen. Dieses Verständnis erfordert die Erkennung von Objekten, die Modellierung der Beziehungen zwischen ihnen, eine Bewertung der Semantik der Szene und schließlich die Darstellung des extrahierten Wissens in einem Sprachraum. Um umfangreiche Sprachfähigkeiten zu erreichen und gleichzeitig gute Bild-Sprach-Zuordnungen zu gewährleisten, wurden vortrainierte Sprachmodelle (LMs) auf vortrainierte multimodale (Bild-Text-)Modelle konditioniert, die Bildinputs ermöglichen. Dies erfordert eine Ausrichtung der Bildrepräsentation des multimodalen Modells mit den Sprachrepräsentationen eines generativen LMs. Es ist jedoch unklar, wie die vom Vision-Encoder des multimodalen Modells erkannte Semantik am besten auf das LM übertragen werden kann. Wir führen zwei neuartige Methoden zur Konstruktion einer linearen Abbildung ein, die erfolgreich Semantik zwischen den Einbettungsräumen der beiden vortrainierten Modelle überträgt. Die erste Methode richtet den Einbettungsraum des multimodalen Sprach-Encoders über Token-Korrespondenzen mit dem Einbettungsraum des vortrainierten LMs aus. Die zweite Methode nutzt zusätzliche Daten, die aus Bild-Text-Paaren bestehen, um die Abbildung direkt vom Bild- in den Sprachraum zu konstruieren. Durch unsere semantischen Abbildungen ermöglichen wir die Bildbeschreibung für LMs ohne Zugriff auf Gradienteninformationen. Durch die Verwendung verschiedener Datenquellen erreichen wir eine starke Leistung bei der Bildbeschreibung auf den MS-COCO- und Flickr30k-Datensätzen. Selbst bei begrenzten Daten übertrifft unsere Methode teilweise die Leistung anderer Zero-Shot- und sogar feinabgestimmter Konkurrenten. Unsere Ablationsstudien zeigen, dass selbst LMs mit lediglich 250M Parametern mit unseren semantischen Abbildungen anständige Bildbeschreibungen generieren können. Unser Ansatz macht die Bildbeschreibung für Institutionen mit eingeschränkten Rechenressourcen zugänglicher.
Da sich der Anwendungsbereich von Sprachmodellen ständig weiterentwickelt, stellt sich die Frage, wie wir Modelle schnell an neue Aufgaben anpassen können. Wir nähern uns dieser klassischen Frage aus der Perspektive des kontinuierlichen Lernens, bei dem es darum geht, Modelle, die auf früheren Aufgaben trainiert wurden, weiter auf neue Aufgaben zu feintunen, mit dem Ziel, relevantes Wissen zu „transferieren“. Diese Strategie birgt jedoch auch das Risiko, mehr Schaden als Nutzen anzurichten, d. h. negativen Transfer zu verursachen. In diesem Artikel erstellen wir einen neuen Benchmark von Aufgabenfolgen, die verschiedene mögliche Transferszenarien abdecken, wie z. B. eine Folge von Aufgaben mit hohem Potenzial für positiven Transfer, hohem Potenzial für negativen Transfer, ohne erwartete Wirkung oder einer Mischung aus allem. Ein idealer Lernalgorithmus sollte in der Lage sein, Informationen aus allen Aufgaben, die Potenzial für positiven Transfer haben, maximal zu nutzen, während er gleichzeitig die negativen Auswirkungen von ablenkenden Aufgaben, die ihn verwirren könnten, vermeidet. Wir schlagen dann einen einfachen, aber effektiven Lernalgorithmus vor, der viele unserer Anforderungen erfüllt, indem er eine selektive Strategie zur Initialisierung neuer Modelle aus Checkpoints früherer Aufgaben nutzt. Dennoch bleiben Einschränkungen bestehen, und wir hoffen, dass dieser Benchmark der Gemeinschaft helfen kann, solche Lernalgorithmen weiterzuentwickeln und zu analysieren.
Große Sprachmodelle (LLMs) haben sich als reich an umsetzbarem Wissen erwiesen, das in Form von Schlussfolgerungen und Planung für die Robotersteuerung extrahiert werden kann. Trotz der Fortschritte verlassen sich die meisten Ansätze jedoch weiterhin auf vordefinierte Bewegungsprimitive, um die physischen Interaktionen mit der Umgebung durchzuführen, was nach wie vor ein wesentlicher Engpass ist. In dieser Arbeit zielen wir darauf ab, Roboter-Trajektorien, d.h. eine dichte Abfolge von 6-DoF-Endeffektor-Wegpunkten, für eine Vielzahl von Manipulationsaufgaben zu synthetisieren, basierend auf einem offenen Satz von Anweisungen und einem offenen Satz von Objekten. Dies erreichen wir, indem wir zunächst feststellen, dass LLMs hervorragend darin sind, Affordanzen und Einschränkungen anhand einer freiformulierten Sprachanweisung abzuleiten. Noch wichtiger ist, dass sie durch die Nutzung ihrer Fähigkeit, Code zu schreiben, mit einem visuell-sprachlichen Modell (VLM) interagieren können, um 3D-Wertkarten zu erstellen, die das Wissen in den Beobachtungsraum des Agenten verankern. Die erstellten Wertkarten werden dann in einem modellbasierten Planungsframework verwendet, um geschlossene Roboter-Trajektorien mit Robustheit gegenüber dynamischen Störungen zu synthetisieren. Wir zeigen weiterhin, wie der vorgeschlagene Rahmen von Online-Erfahrungen profitieren kann, indem effizient ein Dynamikmodell für Szenen gelernt wird, die kontaktreiche Interaktionen beinhalten. Wir präsentieren eine groß angelegte Studie der vorgeschlagenen Methode in simulierten und realen Roboterumgebungen, die die Fähigkeit demonstriert, eine Vielzahl von alltäglichen Manipulationsaufgaben, die in freier natürlicher Sprache spezifiziert sind, auszuführen. Projektwebsite: https://voxposer.github.io
Kamera-in-der-Hand-Systeme haben sich als vielversprechend erwiesen, um eine höhere Probeneffizienz und Generalisierung in der visuell gestützten robotischen Manipulation zu ermöglichen. Für die robotische Nachahmung ist es jedoch nach wie vor kostspielig, große Mengen an Experten-Demonstrationen mit einem echten Roboter durch einen menschlichen Teleoperator sammeln zu lassen. Videos von Menschen, die Aufgaben ausführen, sind hingegen viel kostengünstiger zu erfassen, da sie die Notwendigkeit von Fachkenntnissen in der robotischen Teleoperation eliminieren und in einer Vielzahl von Szenarien schnell aufgenommen werden können. Daher stellen menschliche Video-Demonstrationen eine vielversprechende Datenquelle dar, um generalisierbare robotische Manipulationsstrategien in großem Maßstab zu erlernen. In dieser Arbeit erweitern wir begrenzte robotische Nachahmungsdatensätze mit umfangreichen, unmarkierten menschlichen Video-Demonstrationen, um die Generalisierung von visuomotorischen Strategien für Kamera-in-der-Hand-Systeme erheblich zu verbessern. Obwohl eine deutliche visuelle Domänenlücke zwischen menschlichen und robotischen Daten besteht, benötigt unser Framework keine explizite Domänenanpassungsmethode, da wir die partielle Beobachtbarkeit von Kamera-in-der-Hand-Systemen sowie ein einfaches festes Bildmaskierungsschema nutzen. Bei einer Reihe von acht realen Aufgaben, die sowohl die Steuerung von 3-DoF- als auch 6-DoF-Roboterarmen umfassen, verbessert unsere Methode die Erfolgsraten von Kamera-in-der-Hand-Manipulationsstrategien im Durchschnitt um 58 % (absolut), wodurch Roboter in der Lage sind, sowohl neue Umgebungskonfigurationen als auch neue Aufgaben zu generalisieren, die in den robotischen Demonstrationsdaten nicht enthalten sind. Videoergebnisse finden Sie unter https://giving-robots-a-hand.github.io/.