Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit dem Fortschritt von Text-zu-Bild-Modellen (z. B. Stable Diffusion) und entsprechenden Personalisierungstechniken wie DreamBooth und LoRA kann jeder seine Vorstellungskraft in hochwertige Bilder zu erschwinglichen Kosten umsetzen. Infolgedessen besteht ein großer Bedarf an Bildanimationsverfahren, um generierte statische Bilder weiter mit Bewegungsdynamiken zu kombinieren. In diesem Bericht schlagen wir ein praktisches Framework vor, um die meisten bestehenden personalisierten Text-zu-Bild-Modelle ein für alle Mal zu animieren und damit den Aufwand für modellspezifische Anpassungen zu sparen. Kern des vorgeschlagenen Frameworks ist die Integration eines neu initialisierten Bewegungsmodellierungsmoduls in das eingefrorene Text-zu-Bild-Modell und dessen Training auf Videoclips, um sinnvolle Bewegungs-Priors zu extrahieren. Nach dem Training können durch einfaches Einfügen dieses Bewegungsmodellierungsmoduls alle personalisierten Versionen, die auf demselben Basis-T2I-Modell basieren, zu textgesteuerten Modellen werden, die vielfältige und personalisierte animierte Bilder erzeugen. Wir führen unsere Bewertung an mehreren öffentlichen, repräsentativen personalisierten Text-zu-Bild-Modellen durch, die sowohl Anime-Bilder als auch realistische Fotografien umfassen, und zeigen, dass unser vorgeschlagenes Framework diesen Modellen hilft, zeitlich flüssige Animationsclips zu generieren, während die Domäne und Vielfalt ihrer Ausgaben erhalten bleibt. Code und vortrainierte Gewichte werden öffentlich unter https://animatediff.github.io/ verfügbar sein.
Große Sprachmodelle (LLMs) haben einen Fahrplan für die Weiterentwicklung der künstlichen allgemeinen Intelligenz (AGI) formuliert. Ihr primäres Ziel ist es, als menschenzentrierter (hilfreicher, ehrlicher und harmloser) Assistent zu fungieren. Die Ausrichtung auf den Menschen nimmt dabei eine zentrale Bedeutung ein, und das Verstärkungslernen mit menschlichem Feedback (Reinforcement Learning with Human Feedback, RLHF) stellt das entscheidende technologische Paradigma dar, das dieses Bestreben untermauert. Aktuelle technische Ansätze umfassen in der Regel Belohnungsmodelle zur Messung menschlicher Präferenzen, Proximale Policy-Optimierung (PPO) zur Optimierung der Ausgaben des Policy-Modells sowie Prozessüberwachung zur Verbesserung der schrittweisen Argumentationsfähigkeiten. Aufgrund der Herausforderungen bei der Gestaltung von Belohnungen, der Interaktion mit der Umgebung und dem Training von Agenten, gepaart mit den hohen Versuchs- und Fehlerkosten großer Sprachmodelle, besteht jedoch eine erhebliche Hürde für KI-Forscher, die Entwicklung technischer Ausrichtung und die sichere Implementierung von LLMs voranzutreiben. Das stabile Training von RLHF bleibt nach wie vor ein Rätsel. Im ersten Bericht analysieren wir das RLHF-Framework, bewerten die internen Abläufe von PPO neu und untersuchen, wie die Komponenten des PPO-Algorithmus das Training von Policy-Agenten beeinflussen. Wir identifizieren Policy-Beschränkungen als den Schlüsselfaktor für die effektive Implementierung des PPO-Algorithmus. Daher untersuchen wir PPO-max, eine erweiterte Version des PPO-Algorithmus, um die Trainingsstabilität des Policy-Modells effizient zu verbessern. Basierend auf unseren Hauptergebnissen führen wir eine umfassende Analyse der Fähigkeiten von RLHF im Vergleich zu SFT-Modellen und ChatGPT durch. Das Fehlen von Open-Source-Implementierungen hat die Erforschung der Ausrichtung von LLMs erheblich erschwert. Daher sind wir bestrebt, technische Berichte, Belohnungsmodelle und PPO-Codes zu veröffentlichen.
In jüngster Zeit wurden bedeutende Fortschritte bei kreativen Anwendungen großer vortrainierter Modelle für nachgelagerte Aufgaben in der 3D-Vision erzielt, wie beispielsweise bei der Text-zu-Form-Generierung. Dies motiviert unsere Untersuchung, wie diese vortrainierten Modelle effektiv genutzt werden können, um 3D-Formen aus Skizzen zu generieren, was weitgehend eine offene Herausforderung bleibt, insbesondere aufgrund der begrenzten Verfügbarkeit von gepaarten Skizzen-Form-Datensätzen und der unterschiedlichen Abstraktionsniveaus in den Skizzen. Wir entdecken, dass die Konditionierung eines 3D-Generierungsmodells auf die Merkmale (gewonnen aus einem eingefrorenen großen vortrainierten Vision-Modell) von synthetischen Renderings während des Trainings es uns ermöglicht, effektiv 3D-Formen aus Skizzen zur Inferenzzeit zu generieren. Dies deutet darauf hin, dass die Merkmale des großen vortrainierten Vision-Modells semantische Signale tragen, die gegenüber Domänenverschiebungen robust sind, d.h., sie erlauben es uns, nur RGB-Renderings zu verwenden, aber dennoch zur Inferenzzeit auf Skizzen zu verallgemeinern. Wir führen eine umfassende Reihe von Experimenten durch, in denen wir verschiedene Designfaktoren untersuchen, und demonstrieren die Effektivität unseres einfachen Ansatzes zur Generierung mehrerer 3D-Formen pro Eingabeskizze, unabhängig von deren Abstraktionsniveau, ohne dass während des Trainings gepaarte Datensätze erforderlich sind.
Wir stellen Emu vor, ein Transformer-basiertes multimodales Grundlagenmodell, das nahtlos Bilder und Texte in einem multimodalen Kontext generieren kann. Dieses omnivore Modell kann jede einmodale oder multimodale Dateneingabe diskriminierungsfrei verarbeiten (z. B. verschachtelte Bilder, Texte und Videos) durch einen Ein-Modell-für-alle autoregressiven Trainingsprozess. Zunächst werden visuelle Signale in Embeddings kodiert und bilden zusammen mit Text-Tokens eine verschachtelte Eingabesequenz. Emu wird dann end-to-end mit einem einheitlichen Ziel trainiert, das darin besteht, den nächsten Text-Token zu klassifizieren oder das nächste visuelle Embedding in der multimodalen Sequenz zu regressieren. Diese vielseitige Multimodalität ermöglicht die Erschließung verschiedener Pretraining-Datenquellen in großem Maßstab, wie Videos mit verschachtelten Bildern und Texten, Webseiten mit verschachtelten Bildern und Texten sowie webbasierte Bild-Text-Paare und Video-Text-Paare. Emu kann als generalistisches multimodales Interface sowohl für Bild-zu-Text- als auch für Text-zu-Bild-Aufgaben dienen und unterstützt die In-Kontext-Generierung von Bildern und Texten. Über eine breite Palette von Zero-Shot/Few-Shot-Aufgaben, einschließlich Bildbeschriftung, visueller Fragebeantwortung, Video-Fragebeantwortung und Text-zu-Bild-Generierung, zeigt Emu eine herausragende Leistung im Vergleich zu modernsten großen multimodalen Modellen. Erweiterte Fähigkeiten wie multimodale Assistenten durch Instruktionsfeinabstimmung werden ebenfalls mit beeindruckender Leistung demonstriert.
In diesem Artikel stellen wir Semantic-SAM vor, ein universelles Bildsegmentierungsmodell, das es ermöglicht, alles in jeder gewünschten Granularität zu segmentieren und zu erkennen. Unser Modell bietet zwei wesentliche Vorteile: Semantikbewusstsein und Granularitätsvielfalt. Um Semantikbewusstsein zu erreichen, konsolidieren wir mehrere Datensätze über drei Granularitäten hinweg und führen eine entkoppelte Klassifizierung für Objekte und Teile ein. Dies ermöglicht es unserem Modell, umfangreiche semantische Informationen zu erfassen. Für die Multi-Granularitätsfähigkeit schlagen wir ein Multi-Choice-Lernschema während des Trainings vor, das es ermöglicht, dass jeder Klick Masken auf mehreren Ebenen erzeugt, die mehreren Ground-Truth-Masken entsprechen. Bemerkenswerterweise stellt diese Arbeit den ersten Versuch dar, ein Modell gemeinsam auf SA-1B-, generischen und Teilsegmentierungsdatensätzen zu trainieren. Experimentelle Ergebnisse und Visualisierungen zeigen, dass unser Modell erfolgreich Semantikbewusstsein und Granularitätsvielfalt erreicht. Darüber hinaus führt die Kombination von SA-1B-Training mit anderen Segmentierungsaufgaben, wie panoptischer und Teilsegmentierung, zu Leistungsverbesserungen. Wir werden Code und eine Demo zur weiteren Exploration und Bewertung bereitstellen.
Wir stellen VampNet vor, einen Ansatz zur maskierten akustischen Token-Modellierung für Musik-Synthese, Kompression, Inpainting und Variation. Während des Trainings verwenden wir einen variablen Maskierungsplan, der es uns ermöglicht, kohärente Musik aus dem Modell zu generieren, indem wir während der Inferenz verschiedene Maskierungsansätze (sogenannte Prompts) anwenden. VampNet ist nicht-autoregressiv und nutzt eine bidirektionale Transformer-Architektur, die in einem Vorwärtsdurchlauf alle Token berücksichtigt. Mit nur 36 Sampling-Durchläufen kann VampNet kohärente, hochwertige Musik-Waveformen erzeugen. Wir zeigen, dass VampNet durch verschiedene Prompts auf Aufgaben wie Musik-Kompression, Inpainting, Outpainting, Fortsetzung und Variation (Vamping) angewendet werden kann. Bei geeigneter Prompting ist VampNet in der Lage, Stil, Genre, Instrumentierung und andere hochrangige Aspekte der Musik beizubehalten. Diese flexible Prompting-Fähigkeit macht VampNet zu einem leistungsstarken Werkzeug für die Musik-Ko-Kreation. Code und Audio-Beispiele sind online verfügbar.
Die menschliche Intelligenz gedeiht durch das Konzept der kognitiven Synergie, bei der die Zusammenarbeit und Integration von Informationen zwischen verschiedenen kognitiven Prozessen überlegene Ergebnisse im Vergleich zu isolierten kognitiven Prozessen erzielt. Obwohl Large Language Models (LLMs) vielversprechende Leistungen als allgemeine Aufgabenlösungsagenten gezeigt haben, kämpfen sie immer noch mit Aufgaben, die intensives Fachwissen und komplexes Denken erfordern. In dieser Arbeit schlagen wir Solo Performance Prompting (SPP) vor, das ein einzelnes LLM in einen kognitiven Synergisten verwandelt, indem es eine mehrstufige Selbstzusammenarbeit mit mehreren Personas eingeht. Ein kognitiver Synergist bezeichnet einen intelligenten Agenten, der mit mehreren Köpfen zusammenarbeitet, deren individuelle Stärken und Wissen kombiniert, um die Problemlösung und Gesamtleistung bei komplexen Aufgaben zu verbessern. Durch die dynamische Identifizierung und Simulation verschiedener Personas basierend auf Aufgabeninputs entfaltet SPP das Potenzial der kognitiven Synergie in LLMs. Wir haben festgestellt, dass die Zuweisung mehrerer, feingranularer Personas in LLMs bessere Problemlösungsfähigkeiten hervorruft als die Verwendung einer einzelnen oder festen Anzahl von Personas. Wir evaluieren SPP an drei herausfordernden Aufgaben: Trivia Creative Writing, Codenames Collaborative und Logic Grid Puzzle, die sowohl wissensintensive als auch denkintensive Typen umfassen. Im Gegensatz zu früheren Arbeiten, wie Chain-of-Thought, die lediglich die Denkfähigkeiten in LLMs verbessern, fördert SPP effektiv die internen Wissenserwerbsfähigkeiten, reduziert Halluzinationen und behält starke Denkfähigkeiten bei. Code, Daten und Prompts finden Sie unter: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Wir beobachten, dass vortrainierte große Sprachmodelle (LLMs) in der Lage sind, komplexe Token-Sequenzen autoregressiv zu vervollständigen – von beliebigen Sequenzen, die prozedural durch probabilistische kontextfreie Grammatiken (PCFG) generiert werden, bis hin zu reichhaltigeren räumlichen Mustern, wie sie im Abstract Reasoning Corpus (ARC), einem allgemeinen KI-Benchmark, im Stil von ASCII-Art dargestellt werden. Überraschenderweise bleibt die Fähigkeit zur Mustervervollständigung teilweise erhalten, selbst wenn die Sequenzen mit zufällig aus dem Vokabular ausgewählten Token ausgedrückt werden. Diese Ergebnisse deuten darauf hin, dass LLMs ohne zusätzliches Training als allgemeine Sequenzmodellierer fungieren können, angetrieben durch In-Context-Lernen. In dieser Arbeit untersuchen wir, wie diese Zero-Shot-Fähigkeiten auf Probleme in der Robotik angewendet werden können – von der Extrapolation von Zahlenfolgen, die Zustände über die Zeit repräsentieren, um einfache Bewegungen zu vervollständigen, bis hin zum Least-to-Most-Prompting von belohnungsbedingten Trajektorien, die geschlossene Regelkreise (z. B. einen stabilisierenden Controller für CartPole) entdecken und darstellen können. Obwohl der Einsatz für reale Systeme heute aufgrund von Latenz, Kontextgrößenbeschränkungen und Rechenkosten schwierig ist, könnte der Ansatz, LLMs zur Steuerung von Low-Level-Kontrolle zu nutzen, einen spannenden Einblick bieten, wie Muster unter Wörtern auf Aktionen übertragen werden könnten.
Eine Herausforderung bei der Entwicklung von NLP-Systemen für die Sprachen der Welt besteht darin, zu verstehen, wie sie sich auf typologische Unterschiede verallgemeinern lassen, die für reale Anwendungen relevant sind. Zu diesem Zweck schlagen wir M2C vor, ein morphologisch bewusstes Framework für das Verhaltenstesten von NLP-Modellen. Wir verwenden M2C, um Tests zu generieren, die das Verhalten von Modellen im Hinblick auf spezifische linguistische Merkmale in 12 typologisch diversen Sprachen untersuchen. Wir evaluieren state-of-the-art Sprachmodelle anhand der generierten Tests. Während die Modelle bei den meisten Tests in Englisch hervorragend abschneiden, heben wir Generalisierungsfehler bei bestimmten typologischen Merkmalen hervor, wie beispielsweise temporale Ausdrücke im Swahili und zusammengesetzte Possessivkonstruktionen im Finnischen. Unsere Ergebnisse motivieren die Entwicklung von Modellen, die diese blinden Flecken adressieren.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge im Bereich der natürlichen Sprachverarbeitung erzielt und ermöglichen eine verbesserte Mensch-Computer-Interaktion durch die Nutzung natürlicher Sprache. Die nahtlose Integration von Sprachsignalen in LLMs wurde jedoch bisher nicht ausreichend erforscht. Auch die „Decoder-only“-Architektur wurde für Sprachverarbeitungsaufgaben noch nicht umfassend untersucht. In dieser Forschung stellen wir Speech-LLaMA vor, einen neuartigen Ansatz, der akustische Informationen effektiv in textbasierte große Sprachmodelle integriert. Unsere Methode nutzt Connectionist Temporal Classification und einen einfachen Audio-Encoder, um die komprimierten akustischen Merkmale in den kontinuierlichen semantischen Raum des LLM abzubilden. Darüber hinaus untersuchen wir die Decoder-only-Architektur für Sprach-zu-Text-Aufgaben, indem wir ein kleineres, zufällig initialisiertes Speech-LLaMA-Modell ausschließlich anhand von Sprach-Text-Paar-Daten trainieren. Wir führen Experimente zu mehrsprachigen Sprach-zu-Text-Übersetzungsaufgaben durch und zeigen eine signifikante Verbesserung gegenüber starken Baselines, was die potenziellen Vorteile von Decoder-only-Modellen für die Sprach-zu-Text-Konvertierung verdeutlicht.
Internationale Institutionen könnten eine wichtige Rolle dabei spielen, sicherzustellen, dass fortschrittliche KI-Systeme der Menschheit zugutekommen. Internationale Zusammenarbeit kann das Potenzial der KI freisetzen, nachhaltige Entwicklung voranzutreiben, und die Koordination regulatorischer Bemühungen kann Hindernisse für Innovation und die Verbreitung von Vorteilen verringern. Umgekehrt schaffen die potenziell gefährlichen Fähigkeiten leistungsstarker und universeller KI-Systeme globale Externalitäten in ihrer Entwicklung und Anwendung, und internationale Bemühungen zur Förderung verantwortungsvoller KI-Praktiken könnten dazu beitragen, die von ihnen ausgehenden Risiken zu bewältigen. Dieses Papier identifiziert eine Reihe von Governance-Funktionen, die auf internationaler Ebene zur Bewältigung dieser Herausforderungen wahrgenommen werden könnten, von der Unterstützung des Zugangs zu fortschrittlichen KI-Systemen bis hin zur Festlegung internationaler Sicherheitsstandards. Es gruppiert diese Funktionen in vier institutionelle Modelle, die interne Synergien aufweisen und Vorbilder in bestehenden Organisationen haben: 1) eine Kommission für fortschrittliche KI, die den Expertenkonsens über Chancen und Risiken fortschrittlicher KI fördert, 2) eine Organisation für die Governance fortschrittlicher KI, die internationale Standards zur Bewältigung globaler Bedrohungen durch fortschrittliche Modelle festlegt, deren Umsetzung unterstützt und möglicherweise die Einhaltung eines zukünftigen Governance-Regimes überwacht, 3) eine Kooperation für fortschrittliche KI, die den Zugang zu Spitzen-KI fördert, und 4) ein KI-Sicherheitsprojekt, das führende Forscher und Ingenieure zusammenbringt, um die KI-Sicherheitsforschung voranzutreiben. Wir untersuchen den Nutzen dieser Modelle und identifizieren offene Fragen zu ihrer Umsetzbarkeit.
Das Ziel der Programmsynthese, oder Codegenerierung, besteht darin, ausführbaren Code basierend auf gegebenen Beschreibungen zu erzeugen. In letzter Zeit gab es eine zunehmende Anzahl von Studien, die Verstärkungslernen (Reinforcement Learning, RL) einsetzen, um die Leistung großer Sprachmodelle (Large Language Models, LLMs) für Code zu verbessern. Diese RL-Methoden haben jedoch bisher nur Offline-Frameworks verwendet, was die Erkundung neuer Stichprobenräume einschränkt. Darüber hinaus sind aktuelle Ansätze, die Signale von Unit-Tests nutzen, eher einfach und berücksichtigen nicht spezifische Fehlerpositionen innerhalb des Codes. Um diese Probleme zu adressieren, haben wir RLTF, d.h. Reinforcement Learning from Unit Test Feedback, vorgeschlagen, ein neuartiges Online-RL-Framework mit Unit-Test-Feedback auf mehreren Granularitätsebenen zur Verfeinerung von Code-LLMs. Unser Ansatz generiert Daten in Echtzeit während des Trainings und nutzt gleichzeitig feinkörnige Feedback-Signale, um das Modell dazu zu führen, qualitativ hochwertigeren Code zu erzeugen. Umfangreiche Experimente zeigen, dass RLTF auf den Benchmarks APPS und MBPP Spitzenleistungen erzielt. Unser Code ist verfügbar unter: https://github.com/Zyq-scut/RLTF.
Konsistenz und Zuverlässigkeit sind entscheidend für die Durchführung von KI-Forschung. Viele bekannte Forschungsbereiche, wie die Objekterkennung, wurden mit soliden Benchmark-Frameworks verglichen und validiert. Nach AlphaFold2 hat die Proteinfaltungsaufgabe eine neue Phase erreicht, und viele Methoden wurden basierend auf den Komponenten von AlphaFold2 vorgeschlagen. Die Bedeutung eines einheitlichen Forschungsrahmens in der Proteinfaltung umfasst Implementierungen und Benchmarks, um verschiedene Ansätze konsistent und fair zu vergleichen. Um dies zu erreichen, präsentieren wir Solvent, ein Proteinfaltungsframework, das wesentliche Komponenten von State-of-the-Art-Modellen in Form einer gebrauchsfertigen Schnittstelle unterstützt. Solvent enthält verschiedene Modelle, die in einer einheitlichen Codebasis implementiert sind, und unterstützt das Training und die Evaluierung definierter Modelle auf demselben Datensatz. Wir benchmarken bekannte Algorithmen und ihre Komponenten und bieten Experimente, die wertvolle Einblicke in das Feld der Proteinstrukturmodellierung liefern. Wir hoffen, dass Solvent die Zuverlässigkeit und Konsistenz vorgeschlagener Modelle erhöht und Effizienz sowohl in Bezug auf Geschwindigkeit als auch auf Kosten bietet, was zu einer Beschleunigung der Forschung zur Proteinfaltungsmodellierung führt. Der Code ist verfügbar unter https://github.com/kakaobrain/solvent, und das Projekt wird weiterentwickelt.
Wir schlagen ein System vor, um Objekte in einer Szene neu anzuordnen, um eine gewünschte Objekt-Szene-Platzierungsbeziehung zu erreichen, wie beispielsweise ein Buch, das in einen offenen Schlitz eines Bücherregals eingefügt wird. Die Pipeline verallgemeinert auf neue Geometrien, Posen und Layouts sowohl von Szenen als auch von Objekten und wird anhand von Demonstrationen trainiert, um direkt auf 3D-Punktwolken zu operieren. Unser System überwindet Herausforderungen, die mit der Existenz vieler geometrisch ähnlicher Neuanordnungslösungen für eine gegebene Szene verbunden sind. Durch die Nutzung eines iterativen Pose-Entrauschungs-Trainingsverfahrens können wir multimodale Demonstrationsdaten anpassen und multimodale Ausgaben erzeugen, während wir präzise und genau bleiben. Wir zeigen auch die Vorteile der Konditionierung auf relevante lokale geometrische Merkmale, während irrelevante globale Strukturen ignoriert werden, die sowohl die Generalisierung als auch die Präzision beeinträchtigen. Wir demonstrieren unseren Ansatz an drei verschiedenen Neuanordnungsaufgaben, die den Umgang mit Multimodalität und Generalisierung über Objektform und -pose sowohl in der Simulation als auch in der realen Welt erfordern. Projektwebsite, Code und Videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
Spracherkennung ist eine zunehmend wichtige Eingabemethode für Text. Bestehende Systeme, die sowohl Diktat als auch Bearbeitung per Sprache ermöglichen, beschränken ihre Befehlsstruktur auf flache Vorlagen, die durch Triggerwörter aufgerufen werden. In dieser Arbeit untersuchen wir die Machbarkeit, Nutzern zu erlauben, ihr Diktat mit gesprochenen Bearbeitungsbefehlen in offener natürlicher Sprache zu unterbrechen. Wir stellen eine neue Aufgabe und einen neuen Datensatz, TERTiUS, vor, um solche Systeme zu testen. Um diese Flexibilität in Echtzeit zu unterstützen, muss ein System Sprachabschnitte inkrementell als Diktat oder Befehl segmentieren und klassifizieren sowie die Befehlsabschnitte interpretieren. Wir experimentieren mit großen vortrainierten Sprachmodellen, um den bearbeiteten Text vorherzusagen oder alternativ ein kleines Textbearbeitungsprogramm zu generieren. Experimente zeigen einen natürlichen Kompromiss zwischen Modellgenauigkeit und Latenz: Ein kleineres Modell erreicht eine Endzustandsgenauigkeit von 30 % bei einer Latenz von 1,3 Sekunden, während ein größeres Modell eine Endzustandsgenauigkeit von 55 % bei einer Latenz von 7 Sekunden erzielt.
Vision-basierte Teleoperation bietet die Möglichkeit, Robotern menschliche Intelligenz zu verleihen, um physisch mit der Umgebung zu interagieren, während nur kostengünstige Kamerasensoren benötigt werden. Allerdings sind aktuelle vision-basierte Teleoperationssysteme auf ein bestimmtes Robotermodell und Einsatzumgebung ausgelegt und entwickelt, was sich schlecht skalieren lässt, wenn die Anzahl der Robotermodelle wächst und die Vielfalt der Einsatzumgebungen zunimmt. In diesem Artikel schlagen wir AnyTeleop vor, ein einheitliches und allgemeines Teleoperationssystem, das mehrere verschiedene Arme, Greifer, Realitäten und Kamerakonfigurationen innerhalb eines einzigen Systems unterstützt. Obwohl unser System darauf ausgelegt ist, große Flexibilität bei der Wahl von Simulatoren und echter Hardware zu bieten, kann es dennoch eine hervorragende Leistung erzielen. Bei Experimenten in der realen Welt kann AnyTeleop ein früheres System, das für eine spezifische Roboterhardware entwickelt wurde, mit einer höheren Erfolgsrate übertreffen, wobei derselbe Roboter verwendet wird. Für die Teleoperation in der Simulation führt AnyTeleop zu einer besseren Imitationslernleistung im Vergleich zu einem früheren System, das speziell für diesen Simulator entwickelt wurde. Projektseite: http://anyteleop.com/.