Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Reasoning-Modelle (LRMs) verfügen bereits über eine latente Fähigkeit zur langen Kettenlogik. Frühere Arbeiten haben gezeigt, dass ergebnisbasiertes Reinforcement Learning (RL) fortgeschrittene Reasoning-Verhaltensweisen wie Selbstkorrektur, Rückverfolgung und Verifikationsphänomene, oft als „Aha-Moment“ des Modells bezeichnet, zufällig hervorrufen kann. Der Zeitpunkt und die Konsistenz dieser emergenten Verhaltensweisen bleiben jedoch unvorhersehbar und unkontrollierbar, was die Skalierbarkeit und Zuverlässigkeit der Reasoning-Fähigkeiten von LRMs einschränkt. Um diese Einschränkungen zu überwinden, gehen wir über die Abhängigkeit von Prompts und zufälligen „Aha-Momenten“ hinaus. Stattdessen richten wir Modelle explizit auf drei Meta-Fähigkeiten aus: Deduktion, Induktion und Abduktion, indem wir automatisch generierte, selbstüberprüfbare Aufgaben verwenden. Unsere dreistufige Pipeline – individuelle Ausrichtung, Parameterraum-Zusammenführung und domänenspezifisches Reinforcement Learning – steigert die Leistung um über 10 % im Vergleich zu instruktionsoptimierten Baselines. Darüber hinaus erzielt domänenspezifisches RL vom ausgerichteten Checkpoint einen zusätzlichen durchschnittlichen Leistungszuwachs von 2 % in den Leistungsgrenzen über Mathematik-, Programmier- und Wissenschafts-Benchmarks, was zeigt, dass die explizite Ausrichtung auf Meta-Fähigkeiten eine skalierbare und zuverlässige Grundlage für Reasoning bietet. Der Code ist verfügbar unter: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.
Es wird allgemein angenommen, dass die Skalierung von Sprachmodellen einen erheblichen Platz- oder Zeitaufwand erfordert, indem entweder die Parameter (Parameter-Skalierung) oder die Ausgabe-Tokens (Inferenzzeit-Skalierung) erhöht werden. Wir führen das dritte und inferenzeffizientere Skalierungsparadigma ein: die Erhöhung der parallelen Berechnung des Modells sowohl während des Trainings als auch der Inferenz. Wir wenden P verschiedene und lernbare Transformationen auf die Eingabe an, führen Vorwärtsdurchläufe des Modells parallel aus und aggregieren die P Ausgaben dynamisch. Diese Methode, genannt Parallel Scaling (ParScale), skaliert die parallele Berechnung durch die Wiederverwendung vorhandener Parameter und kann auf jede Modellstruktur, Optimierungsprozedur, Daten oder Aufgabe angewendet werden. Wir schlagen theoretisch ein neues Skalierungsgesetz vor und validieren es durch groß angelegtes Pre-Training, das zeigt, dass ein Modell mit P parallelen Strömen ähnlich ist wie die Skalierung der Parameter um O(log P), während es eine überlegene Inferenzeffizienz aufweist. Beispielsweise kann ParScale bis zu 22-mal weniger Speicherzunahme und 6-mal weniger Latenzzunahme im Vergleich zur Parameter-Skalierung verwenden, die die gleiche Leistungsverbesserung erreicht. Es kann auch ein vorgefertigtes, vortrainiertes Modell durch Nachtraining auf einer kleinen Menge von Tokens in ein parallel skaliertes Modell umwandeln, wodurch das Trainingsbudget weiter reduziert wird. Das von uns entdeckte neue Skalierungsgesetz erleichtert potenziell die Bereitstellung leistungsfähigerer Modelle in ressourcenarmen Szenarien und bietet eine alternative Perspektive auf die Rolle der Berechnung im maschinellen Lernen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, wobei die Optimierung ihrer Eingabeaufforderungen eine entscheidende Rolle bei der Maximierung ihrer Leistung spielt. Allerdings bestehen LLM-Aufforderungen sowohl aus aufgabenunabhängigen Systemaufforderungen als auch aufgabenspezifischen Benutzeraufforderungen, und bestehende Arbeiten zur Prompt-Optimierung haben sich auf Benutzeraufforderungen konzentriert, die spezifisch für einzelne Abfragen oder Aufgaben sind, und dabei weitgehend die Systemaufforderung übersehen, die, einmal optimiert, über verschiedene Aufgaben und Domänen hinweg anwendbar ist. Motiviert durch diese Beobachtung führen wir das neuartige Problem der zweistufigen Systemaufforderungsoptimierung ein, dessen Ziel es ist, Systemaufforderungen zu entwerfen, die robust gegenüber diversen Benutzeraufforderungen sind und auf unbekannte Aufgaben übertragbar sind. Um dieses Problem zu lösen, schlagen wir dann ein Meta-Lern-Framework vor, das die Systemaufforderung durch Optimierung über verschiedene Benutzeraufforderungen in mehreren Datensätzen meta-lernt, während gleichzeitig die Benutzeraufforderungen iterativ aktualisiert werden, um eine Synergie zwischen ihnen sicherzustellen. Wir führen Experimente auf 14 unbekannten Datensätzen aus 5 verschiedenen Domänen durch, auf denen wir zeigen, dass unser Ansatz Systemaufforderungen erzeugt, die effektiv auf diverse Benutzeraufforderungen verallgemeinern. Darüber hinaus zeigen unsere Ergebnisse, dass die optimierte Systemaufforderung eine schnelle Anpassung sogar an unbekannte Aufgaben ermöglicht, wobei weniger Optimierungsschritte für Benutzeraufforderungen zur Testzeit erforderlich sind und gleichzeitig eine verbesserte Leistung erzielt wird.
Während Menschen flexible visuelle Interaktionskognition für komplexe Problemlösungen nutzen können, bleibt es eine Herausforderung, Large Vision-Language Models (LVLMs) ähnlich adaptive Verhaltensweisen mit visuellen Werkzeugen zu ermöglichen. Ein wesentliches Hindernis ist der derzeitige Mangel an standardisierter Infrastruktur, was die Integration verschiedener Werkzeuge, die Generierung umfangreicher Interaktionsdaten und das effektive Training robuster Agenten erschwert. Um diese Lücken zu schließen, stellen wir OpenThinkIMG vor, das erste Open-Source, umfassende End-to-End-Framework für werkzeuggestützte LVLMs. Es bietet standardisierte Schnittstellen für visuelle Werkzeuge, skalierbare Trajektoriengenerierung zur Policy-Initialisierung und eine flexible Trainingsumgebung. Darüber hinaus berücksichtigen wir, dass Supervised Fine-Tuning (SFT) auf statischen Demonstrationen nur begrenzte Policy-Generalisierung für den dynamischen Aufruf von Werkzeugen bietet, und schlagen ein neuartiges Reinforcement Learning (RL) Framework, V-ToolRL, vor, um LVLMs zu trainieren, adaptive Policies für den Aufruf externer visueller Werkzeuge zu erlernen. V-ToolRL ermöglicht es LVLMs, optimale Werkzeugnutzungsstrategien autonom zu entdecken, indem es direkt den Aufgaben-Erfolg durch Feedback aus Werkzeuginteraktionen optimiert. Wir validieren V-ToolRL empirisch anspruchsvollen Diagramm-Analyseaufgaben. Unser RL-trainierter Agent, basierend auf einem Qwen2-VL-2B, übertrifft seinen SFT-initialisierten Gegenpart deutlich (+28,83 Punkte) und überragt etablierte überwachte Werkzeuglern-Baselines wie Taco und CogCom im Durchschnitt um +12,7 Punkte. Bemerkenswerterweise übertrifft er auch prominente Closed-Source-Modelle wie GPT-4.1 um +8,68 Genauigkeitspunkte. Wir hoffen, dass OpenThinkIMG als grundlegendes Framework für die Weiterentwicklung dynamischer, werkzeuggestützter visueller Argumentation dienen kann und der Gemeinschaft hilft, KI-Agenten zu entwickeln, die wirklich „mit Bildern denken“ können.
Motiviert durch Skalierungsgesetze im Sprachmodellierung, die zeigen, wie der Testverlust als Potenzgesetz mit der Modell- und Datensatzgröße skaliert, finden wir, dass ähnliche Gesetze in der Präferenzmodellierung existieren. Wir schlagen World Preference Modeling (WorldPM) vor, um dieses Skalierungspotenzial zu betonen, wobei World Preference eine vereinheitlichte Darstellung menschlicher Präferenzen verkörpert. In diesem Artikel sammeln wir Präferenzdaten aus öffentlichen Foren, die verschiedene Nutzergemeinschaften abdecken, und führen umfangreiche Trainings mit 15M-Daten über Modelle mit 1,5B bis 72B Parametern durch. Wir beobachten unterschiedliche Muster bei verschiedenen Bewertungsmetriken: (1) Adversariale Metriken (Fähigkeit, trügerische Merkmale zu identifizieren) skalieren konsistent mit erhöhten Trainingsdaten und Basismodellgröße; (2) Objektive Metriken (objektives Wissen mit klar definierten Antworten) zeigen emergentes Verhalten in größeren Sprachmodellen, was das Skalierungspotenzial von WorldPM unterstreicht; (3) Subjektive Metriken (subjektive Präferenzen von einer begrenzten Anzahl von Menschen oder KI) zeigen keine Skalierungstrends. Weitere Experimente validieren die Wirksamkeit von WorldPM als Grundlage für die Präferenz-Feinabstimmung. Durch Bewertungen auf 7 Benchmarks mit 20 Unteraufgaben stellen wir fest, dass WorldPM die Generalisierungsleistung über menschliche Präferenzdatensätze verschiedener Größen (7K, 100K und 800K Proben) breit verbessert, mit Leistungssteigerungen von über 5% bei vielen Schlüsselunteraufgaben. Durch die Integration von WorldPM in unsere interne RLHF-Pipeline beobachten wir signifikante Verbesserungen sowohl bei internen als auch bei öffentlichen Bewertungssätzen, mit bemerkenswerten Gewinnen von 4% bis 8% in unseren internen Bewertungen.
Lange Gedankenketten (Chain-of-Thought, CoT) sind ein wesentlicher Bestandteil für die effektive Nutzung moderner großer Sprachmodelle, doch unser Verständnis der zugrunde liegenden Denkstrategien bleibt begrenzt. Während einige frühere Arbeiten versucht haben, CoTs anhand vordefinierter Strategietypen zu kategorisieren, sind solche Ansätze durch menschliche Intuition eingeschränkt und erfassen nicht die gesamte Vielfalt des Modellverhaltens. In dieser Arbeit stellen wir die CoT-Enzyklopädie vor, ein Bottom-up-Framework zur Analyse und Steuerung von Modellschlussfolgerungen. Unsere Methode extrahiert automatisch diverse Denkkriterien aus modellgenerierten CoTs, bettet sie in einen semantischen Raum ein, gruppiert sie in repräsentative Kategorien und leitet kontrastive Bewertungskriterien ab, um das Denkverhalten zu interpretieren. Menschliche Bewertungen zeigen, dass dieses Framework interpretierbarere und umfassendere Analysen liefert als bestehende Methoden. Darüber hinaus demonstrieren wir, dass dieses Verständnis Leistungssteigerungen ermöglicht: Wir können vorhersagen, welche Strategie ein Modell wahrscheinlich verwenden wird, und es zu effektiveren Alternativen lenken. Schließlich liefern wir praktische Erkenntnisse, wie beispielsweise, dass das Format der Trainingsdaten (z. B. freier Text vs. Multiple-Choice) einen weitaus größeren Einfluss auf das Denkverhalten hat als die Datenquelle, was die Bedeutung eines formatbewussten Modellentwurfs unterstreicht.
Der Fortschritt der KI wird durch die Qualität der Evaluation begrenzt, und leistungsstarke LLM-as-a-Judge-Modelle haben sich als zentrale Lösung erwiesen. Eine verbesserte Urteilsfähigkeit wird durch stärkeres Chain-of-Thought-Denken ermöglicht, was die Notwendigkeit motiviert, die besten Methoden für das Training solcher Modelle zum Denken zu finden. In dieser Arbeit stellen wir J1 vor, einen Reinforcement-Learning-Ansatz zur Schulung solcher Modelle. Unsere Methode wandelt sowohl überprüfbare als auch nicht überprüfbare Prompts in Urteilsaufgaben mit überprüfbaren Belohnungen um, die Denken fördern und Urteilsverzerrungen mindern. Insbesondere übertrifft unser Ansatz alle anderen existierenden 8B- oder 70B-Modelle, wenn er in diesen Größen trainiert wird, einschließlich Modelle, die aus DeepSeek-R1 destilliert wurden. J1 übertrifft auch o1-mini und sogar R1 in einigen Benchmarks, obwohl ein kleineres Modell trainiert wird. Wir bieten Analysen und Ablationen, die Pairwise-J1- mit Pointwise-J1-Modellen vergleichen, Offline- mit Online-Trainingsmethoden, Belohnungsstrategien, Seed-Prompts sowie Variationen in der Länge und dem Inhalt der Gedanken. Wir stellen fest, dass unsere Modelle bessere Urteile fällen, indem sie lernen, Bewertungskriterien zu skizzieren, sich mit selbst generierten Referenzantworten zu vergleichen und die Korrektheit von Modellantworten neu zu bewerten.
Das Imitationslernen in der Robotik hat sich von der Lösung statischer Aufgaben zur Bewältigung dynamischer Interaktionsszenarien weiterentwickelt, doch Tests und Bewertungen bleiben aufgrund der Notwendigkeit von Echtzeitinteraktionen mit dynamischen Umgebungen kostspielig und herausfordernd. Wir schlagen EnerVerse-AC (EVAC) vor, ein aktionsbedingtes Weltmodell, das zukünftige visuelle Beobachtungen basierend auf den vorhergesagten Aktionen eines Agenten generiert und so realistische und kontrollierbare robotische Inferenz ermöglicht. Aufbauend auf früheren Architekturen führt EVAC einen mehrstufigen Aktionsbedingungsmechanismus und eine Strahlenkartenkodierung für die dynamische Erzeugung von Mehransichtsbildern ein, während es gleichzeitig die Trainingsdaten durch diverse Fehlertrajektorien erweitert, um die Generalisierung zu verbessern. Als Datenengine und Evaluator erweitert EVAC menschlich gesammelte Trajektorien zu diversen Datensätzen und erzeugt realistische, aktionsbedingte Video-Beobachtungen für die Richtlinientests, wodurch der Bedarf an physischen Robotern oder komplexen Simulationen entfällt. Dieser Ansatz reduziert die Kosten erheblich, während gleichzeitig eine hohe Genauigkeit bei der Bewertung der robotischen Manipulation gewährleistet wird. Umfangreiche Experimente bestätigen die Wirksamkeit unserer Methode. Code, Checkpoints und Datensätze finden Sie unter <https://annaj2178.github.io/EnerverseAC.github.io>.
Bestehende Vision-Tokenisierung isoliert die Optimierung von Vision-Tokenizern vom nachgelagerten Training, wobei implizit angenommen wird, dass die visuellen Token gut über verschiedene Aufgaben hinweg generalisieren können, z.B. Bildgenerierung und visuelle Fragebeantwortung. Der für die Rekonstruktion auf niedriger Ebene optimierte Vision-Tokenizer ist agnostisch gegenüber nachgelagerten Aufgaben, die unterschiedliche Repräsentationen und Semantiken erfordern. Dieses entkoppelte Paradigma führt zu einer kritischen Fehlausrichtung: Der Verlust bei der Vision-Tokenisierung kann den Repräsentationsengpass für Zielaufgaben darstellen. Zum Beispiel führen Fehler bei der Tokenisierung von Text in einem gegebenen Bild zu schlechten Ergebnissen bei der Erkennung oder Generierung. Um dies zu adressieren, schlagen wir ETT vor, einen End-to-End-Vision-Tokenizer-Tuning-Ansatz, der eine gemeinsame Optimierung zwischen Vision-Tokenisierung und Zielaufgaben mit autoregressiven Modellen ermöglicht. Im Gegensatz zu früheren autoregressiven Modellen, die nur diskrete Indizes eines eingefrorenen Vision-Tokenizers verwenden, nutzt ETT die visuellen Einbettungen des Tokenizer-Codebuchs und optimiert die Vision-Tokenizer End-to-End mit sowohl Rekonstruktions- als auch Beschreibungszielen. ETT kann nahtlos in bestehende Trainingspipelines integriert werden, mit minimalen Architekturänderungen. Unser ETT ist einfach zu implementieren und zu integrieren, ohne dass die ursprünglichen Codebücher oder Architekturen der verwendeten großen Sprachmodelle angepasst werden müssen. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes End-to-End-Vision-Tokenizer-Tuning signifikante Leistungssteigerungen ermöglicht, d.h. 2-6% für multimodale Verständnis- und visuelle Generierungsaufgaben im Vergleich zu eingefrorenen Tokenizer-Baselines, während die ursprüngliche Rekonstruktionsfähigkeit erhalten bleibt. Wir hoffen, dass diese sehr einfache und effektive Methode multimodale Grundlagenmodelle neben der Bildgenerierung und -verständnis stärken kann.
Jüngste Fortschritte in der kreativen KI haben die Synthese von hochauflösenden Bildern und Videos ermöglicht, die auf Sprachanweisungen basieren. Aufbauend auf diesen Entwicklungen haben sich Text-zu-Video-Diffusionsmodelle zu verkörperten Weltmodellen (Embodied World Models, EWMs) weiterentwickelt, die in der Lage sind, physikalisch plausible Szenen aus Sprachbefehlen zu generieren und so Vision und Handlung in verkörperten KI-Anwendungen effektiv zu verbinden. Diese Arbeit befasst sich mit der kritischen Herausforderung, EWMs über allgemeine Wahrnehmungsmetriken hinaus zu bewerten, um die Erzeugung von physikalisch fundierten und handlungskonsistenten Verhaltensweisen sicherzustellen. Wir schlagen den Embodied World Model Benchmark (EWMBench) vor, ein speziell entwickeltes Framework, das EWMs anhand von drei Schlüsselaspekten bewertet: visuelle Szenenkonsistenz, Bewegungsrichtigkeit und semantische Ausrichtung. Unser Ansatz nutzt einen sorgfältig kuratierten Datensatz, der vielfältige Szenen und Bewegungsmuster umfasst, sowie ein umfassendes mehrdimensionales Bewertungstoolkit, um Kandidatenmodelle zu bewerten und zu vergleichen. Der vorgeschlagene Benchmark identifiziert nicht nur die Grenzen bestehender Videogenerationsmodelle bei der Erfüllung der einzigartigen Anforderungen verkörperter Aufgaben, sondern liefert auch wertvolle Erkenntnisse, um zukünftige Fortschritte in diesem Bereich zu leiten. Der Datensatz und die Bewertungstools sind öffentlich verfügbar unter https://github.com/AgibotTech/EWMBench.
Wir stellen MLE-Dojo vor, ein Gym-artiges Framework für das systematische Reinforcement Learning, die Bewertung und Verbesserung autonomer Large Language Model (LLM)-Agenten in iterativen Machine Learning Engineering (MLE)-Workflows. Im Gegensatz zu bestehenden Benchmarks, die sich hauptsächlich auf statische Datensätze oder Einzelversuchsbewertungen stützen, bietet MLE-Dojo eine interaktive Umgebung, die es Agenten ermöglicht, iterativ zu experimentieren, zu debuggen und Lösungen durch strukturierte Feedback-Schleifen zu verfeinern. Basierend auf über 200 realen Kaggle-Herausforderungen deckt MLE-Dojo diverse, offene MLE-Aufgaben ab, die sorgfältig ausgewählt wurden, um realistische Ingenieursszenarien wie Datenverarbeitung, Architektursuche, Hyperparameteroptimierung und Code-Debugging widerzuspiegeln. Seine vollständig ausführbare Umgebung unterstützt umfassendes Agententraining sowohl durch überwachtes Feintuning als auch durch Reinforcement Learning und erleichtert iteratives Experimentieren, realistische Datensammlung und Echtzeit-Ergebnisüberprüfung. Umfangreiche Bewertungen von acht führenden LLMs zeigen, dass aktuelle Modelle zwar bedeutende iterative Verbesserungen erzielen, aber dennoch erhebliche Einschränkungen bei der autonomen Generierung langfristiger Lösungen und der effizienten Behebung komplexer Fehler aufweisen. Darüber hinaus integriert die flexible und erweiterbare Architektur von MLE-Dojo nahtlos diverse Datenquellen, Tools und Bewertungsprotokolle und ermöglicht so einzigartig die modellbasierte Agentenoptimierung sowie die Förderung von Interoperabilität, Skalierbarkeit und Reproduzierbarkeit. Wir stellen unser Framework und die Benchmarks als Open Source zur Verfügung, um communitygetriebene Innovationen hin zu MLE-Agenten der nächsten Generation zu fördern.
Dieses Papier stellt Unilogit vor, eine neuartige Selbst-Distillationsmethode für das maschinelle Verlernen in großen Sprachmodellen. Unilogit adressiert die Herausforderung, spezifische Informationen selektiv zu vergessen, während die Gesamtnützlichkeit des Modells erhalten bleibt – eine entscheidende Aufgabe zur Einhaltung von Datenschutzbestimmungen wie der DSGVO. Im Gegensatz zu früheren Methoden, die sich auf statische Hyperparameter oder Ausgangsmodellausgaben stützen, passt Unilogit die Ziel-Logits dynamisch an, um eine gleichmäßige Wahrscheinlichkeit für das Ziel-Token zu erreichen, und nutzt dabei die aktuellen Modellausgaben für präzisere Selbst-Distillationsziele. Dieser Ansatz eliminiert nicht nur den Bedarf an zusätzlichen Hyperparametern, sondern verbessert auch die Fähigkeit des Modells, die optimalen Ziele anzunähern. Umfangreiche Experimente auf öffentlichen Benchmarks und einem internen E-Commerce-Datensatz demonstrieren die überlegene Leistung von Unilogit bei der Balance zwischen Vergessen und Behalten von Informationen, wobei es state-of-the-art Methoden wie NPO und UnDIAL übertrifft. Unsere Analyse zeigt weiterhin die Robustheit von Unilogit in verschiedenen Szenarien auf und unterstreicht seine praktische Anwendbarkeit und Effektivität bei der Umsetzung eines effizienten maschinellen Verlernens.
Scalable Vector Graphics (SVGs) werden von Designern aufgrund ihrer Auflösungsunabhängigkeit und gut organisierten Ebenenstruktur sehr geschätzt. Obwohl bestehende Text-zu-Vektor (T2V)-Generierungsmethoden SVGs aus Textprompts erstellen können, übersehen sie oft einen wichtigen Bedarf in praktischen Anwendungen: die Stilanpassung, die entscheidend ist, um eine Sammlung von Vektorgrafiken mit konsistentem visuellen Erscheinungsbild und kohärenter Ästhetik zu erzeugen. Die Erweiterung bestehender T2V-Methoden für die Stilanpassung stellt bestimmte Herausforderungen dar. Optimierungsbasierte T2V-Modelle können die Priors von Text-zu-Bild (T2I)- Modellen für die Anpassung nutzen, haben jedoch Schwierigkeiten, die strukturelle Regelmäßigkeit beizubehalten. Andererseits können Feed-Forward-T2V-Modelle die strukturelle Regelmäßigkeit sicherstellen, doch sie stoßen auf Probleme bei der Trennung von Inhalt und Stil aufgrund von begrenzten SVG-Trainingsdaten. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige zweistufige Stilanpassungs- Pipeline für die SVG-Generierung vor, die die Vorteile sowohl von Feed-Forward- T2V-Modellen als auch von T2I-Bildpriors nutzt. In der ersten Stufe trainieren wir ein T2V-Diffusionsmodell mit einer Pfad-Level-Darstellung, um die strukturelle Regelmäßigkeit von SVGs zu gewährleisten, während gleichzeitig vielfältige Ausdrucksmöglichkeiten erhalten bleiben. In der zweiten Stufe passen wir das T2V-Diffusionsmodell an verschiedene Stile an, indem wir angepasste T2I-Modelle destillieren. Durch die Integration dieser Techniken kann unsere Pipeline hochwertige und vielfältige SVGs in benutzerdefinierten Stilen basierend auf Textprompts auf effiziente Feed-Forward-Weise erzeugen. Die Wirksamkeit unserer Methode wurde durch umfangreiche Experimente bestätigt. Die Projektseite ist https://customsvg.github.io.
Diese Arbeit stellt Prior Depth Anything vor, ein Framework, das unvollständige, aber präzise metrische Informationen aus der Tiefenmessung mit relativen, aber vollständigen geometrischen Strukturen aus der Tiefenvorhersage kombiniert, um genaue, dichte und detaillierte metrische Tiefenkarten für jede Szene zu erzeugen. Zu diesem Zweck entwerfen wir eine Pipeline von grob zu fein, um die beiden komplementären Tiefenquellen schrittweise zu integrieren. Zunächst führen wir eine pixelgenaue metrische Ausrichtung und eine distanzbewusste Gewichtung ein, um verschiedene metrische Priors durch die explizite Verwendung von Tiefenvorhersagen vorab zu füllen. Dies verringert effektiv die Domänenlücke zwischen den Prior-Mustern und verbessert die Generalisierung über verschiedene Szenarien hinweg. Zweitens entwickeln wir ein konditioniertes monokulares Tiefenschätzungsmodell (MDE), um das inhärente Rauschen der Tiefenpriors zu verfeinern. Durch die Konditionierung auf den normalisierten vorab gefüllten Prior und die Vorhersage fusioniert das Modell die beiden komplementären Tiefenquellen weiter implizit. Unser Modell zeigt eine beeindruckende Zero-Shot-Generalisierung über Tiefenvervollständigung, Super-Resolution und Inpainting in 7 realen Datensätzen und erreicht oder übertrifft sogar frühere aufgabenspezifische Methoden. Noch wichtiger ist, dass es bei herausfordernden, unbekannten gemischten Priors gut abschneidet und Testzeitverbesserungen durch den Wechsel von Vorhersagemodellen ermöglicht, wodurch ein flexibler Kompromiss zwischen Genauigkeit und Effizienz geboten wird, während es sich mit Fortschritten in MDE-Modellen weiterentwickelt.
Zeigen dient als grundlegender und intuitiver Mechanismus, um Sprache in visuellen Kontexten zu verankern, mit Anwendungen in der Robotik, assistiven Technologien und interaktiven KI-Systemen. Während neuere multimodale Modelle begonnen haben, Zeigefähigkeiten zu unterstützen, konzentrieren sich bestehende Benchmarks typischerweise nur auf referenzielle Objektlokalisierungsaufgaben. Wir stellen PointArena vor, eine umfassende Plattform zur Bewertung multimodalen Zeigens in diversen Denkszenarien. PointArena besteht aus drei Komponenten: (1) Point-Bench, einem kuratierten Datensatz mit etwa 1.000 Zeigeaufgaben in fünf Denkkategorien; (2) Point-Battle, einer interaktiven, webbasierten Arena, die blinde, paarweise Modellvergleiche ermöglicht und bereits über 4.500 anonymisierte Stimmen gesammelt hat; und (3) Point-Act, einem realen robotischen Manipulationssystem, das Benutzern ermöglicht, die Zeigefähigkeiten multimodaler Modelle direkt in praktischen Anwendungen zu bewerten. Wir führten umfangreiche Bewertungen sowohl von state-of-the-art Open-Source- als auch proprietären multimodalen Modellen durch. Die Ergebnisse zeigen, dass Molmo-72B durchweg andere Modelle übertrifft, obwohl proprietäre Modelle zunehmend vergleichbare Leistungen zeigen. Darüber hinaus stellen wir fest, dass überwachtes Training, das speziell auf Zeigeaufgaben ausgerichtet ist, die Modellleistung signifikant verbessert. In unserer mehrstufigen Bewertungspipeline beobachten wir auch starke Korrelationen, die die entscheidende Rolle präziser Zeigefähigkeiten unterstreichen, um multimodalen Modellen zu ermöglichen, abstraktes Denken mit konkreten, realen Handlungen effektiv zu verbinden. Projektseite: https://pointarena.github.io/
Diese Studie unterscheidet kritisch zwischen KI-Agenten und Agentischer KI und bietet eine strukturierte konzeptionelle Taxonomie, Anwendungszuordnung und Herausforderungsanalyse, um ihre unterschiedlichen Designphilosophien und Fähigkeiten zu klären. Wir beginnen mit der Darstellung der Suchstrategie und grundlegenden Definitionen, wobei KI-Agenten als modulare Systeme charakterisiert werden, die durch Large Language Models (LLMs) und Large Image Models (LIMs) für spezifische, aufgabenbezogene Automatisierung angetrieben werden. Generative KI wird als Vorläufer positioniert, wobei KI-Agenten durch Tool-Integration, Prompt-Engineering und Verbesserungen der Argumentation voranschreiten. Im Gegensatz dazu repräsentieren Agentische KI-Systeme einen paradigmatischen Wandel, der durch Multi-Agenten-Kollaboration, dynamische Aufgabenzerlegung, persistente Speicherung und orchestrierte Autonomie gekennzeichnet ist. Durch eine sequenzielle Bewertung der architektonischen Evolution, der operationellen Mechanismen, der Interaktionsstile und der Autonomiegrade präsentieren wir eine vergleichende Analyse beider Paradigmen. Anwendungsbereiche wie Kundensupport, Terminplanung und Datenzusammenfassung werden mit den Einsatzgebieten der Agentischen KI in der Forschungsautomatisierung, der Roboterkoordination und der medizinischen Entscheidungsunterstützung kontrastiert. Wir untersuchen weiterhin einzigartige Herausforderungen in jedem Paradigma, einschließlich Halluzination, Sprödigkeit, emergentem Verhalten und Koordinationsversagen, und schlagen gezielte Lösungen wie ReAct-Schleifen, RAG, Orchestrierungsebenen und kausale Modellierung vor. Diese Arbeit zielt darauf ab, einen definitiven Fahrplan für die Entwicklung robuster, skalierbarer und erklärbarer KI-Agenten- und Agentischer KI-gesteuerter Systeme zu bieten. >KI-Agenten, Agentengesteuert, Vision-Language-Modelle, Agentisches KI-Entscheidungsunterstützungssystem, Agentische KI-Anwendungen
Dieses Papier beschreibt keine neue Methode; stattdessen bietet es eine umfassende Untersuchung eines wichtigen, aber bisher wenig erforschten Designraums im Zusammenhang mit den jüngsten Fortschritten in der Text-zu-Bild-Synthese – insbesondere die tiefe Integration von großen Sprachmodellen (LLMs) und Diffusions-Transformatoren (DiTs) für die multimodale Generierung. Frühere Studien konzentrierten sich hauptsächlich auf die Gesamtleistung des Systems, anstatt detaillierte Vergleiche mit alternativen Methoden durchzuführen, und wichtige Designdetails sowie Trainingsrezepte wurden oft nicht offengelegt. Diese Lücken schaffen Unsicherheit über das tatsächliche Potenzial dieses Ansatzes. Um diese Lücken zu schließen, führen wir eine empirische Studie zur Text-zu-Bild-Generierung durch, führen kontrollierte Vergleiche mit etablierten Baselines durch, analysieren wichtige Designentscheidungen und stellen ein klares, reproduzierbares Rezept für das Training in großem Maßstab bereit. Wir hoffen, dass diese Arbeit aussagekräftige Datenpunkte und praktische Leitlinien für zukünftige Forschungen im Bereich der multimodalen Generierung bietet.
Vortrainierte Sprachmodelle (LLMs) sind oft durch ihre festen Tokenisierungsschemata eingeschränkt, was zu Ineffizienzen und Leistungsbeschränkungen führt, insbesondere bei mehrsprachigen oder spezialisierten Anwendungen. Diese Tokenizer-Abhängigkeit stellt erhebliche Herausforderungen dar. Standardmethoden, um dies zu überwinden, erfordern oft prohibitiv hohe Rechenressourcen. Obwohl der Tokenizer-Austausch mit heuristischer Initialisierung darauf abzielt, diese Belastung zu verringern, benötigen bestehende Methoden oft umfangreiche Nachjustierungen und können dennoch semantische Nuancen nicht vollständig bewahren oder die zugrunde liegenden Kompressionsineffizienzen nicht angemessen adressieren. Unser Framework führt zwei Innovationen ein: erstens, TokenAdapt, eine modellagnostische Methode zur Tokenizer-Transplantation, und zweitens, neuartiges Pre-Tokenization-Lernen für Multi-Wort-Supertokens, um die Kompression zu verbessern und die Fragmentierung zu reduzieren. TokenAdapt initialisiert neue, eindeutige Token-Embeddings durch eine hybride Heuristik, die zwei Methoden kombiniert: eine lokale Schätzung basierend auf Subwort-Zerlegung unter Verwendung des alten Tokenizers und eine globale Schätzung unter Nutzung der top-k semantisch ähnlichen Tokens aus dem ursprünglichen Vokabular. Diese Methodik zielt darauf ab, die Semantik zu bewahren und gleichzeitig den Nachjustierungsbedarf erheblich zu minimieren. Empirische Untersuchungen bestätigen beide Beiträge: Die Transplantationsheuristik initialisiert erfolgreich eindeutige Tokens und übertrifft deutlich konventionelle Baselines sowie ausgefeilte Methoden wie TransTokenizer und ReTok, während unsere Supertokens bemerkenswerte Kompressionsgewinne erzielen. Unsere Zero-Shot-Perplexity-Ergebnisse zeigen, dass die hybride Initialisierung von TokenAdapt durchweg niedrigere Perplexity-Verhältnisse im Vergleich zu den ReTok- und TransTokenizer-Baselines über verschiedene Basismodelle und neu trainierte Ziel-Tokenizer hinweg liefert. TokenAdapt reduzierte typischerweise das Gesamt-Perplexity-Verhältnis im Vergleich zu ReTok erheblich und erzielte mindestens eine 2-fache Verbesserung in diesen aggregierten Scores.
Die Segmentierung chirurgischer Szenen ist entscheidend für die computerassistierte Chirurgie und von zentraler Bedeutung für die Verbesserung der chirurgischen Qualität und der Patientenergebnisse. In jüngster Zeit gewinnt die referenzielle chirurgische Segmentierung an Bedeutung, da sie den Chirurgen eine interaktive Erfahrung bietet, um das Zielobjekt zu segmentieren. Allerdings sind bestehende Methoden durch geringe Effizienz und kurzfristiges Tracking eingeschränkt, was ihre Anwendbarkeit in komplexen realen chirurgischen Szenarien behindert. In diesem Artikel stellen wir ReSurgSAM2 vor, ein zweistufiges Framework für die referenzielle chirurgische Segmentierung, das das Segment Anything Model 2 nutzt, um eine textreferenzierte Zielerkennung durchzuführen, gefolgt von einem Tracking mit zuverlässiger Initialrahmenidentifikation und diversitätsgetriebener Langzeitspeicherung. Für die Erkennungsstufe schlagen wir einen cross-modalen räumlich-zeitlichen Mamba vor, um präzise Erkennungs- und Segmentierungsergebnisse zu erzielen. Basierend auf diesen Ergebnissen identifiziert unsere Strategie zur Auswahl des zuverlässigen Initialrahmens den zuverlässigen Rahmen für das anschließende Tracking. Nach der Auswahl des Initialrahmens wechselt unsere Methode in die Tracking-Phase, in der sie einen diversitätsgetriebenen Speichermechanismus integriert, der einen zuverlässigen und vielfältigen Speicherpool aufrechterhält und so ein konsistentes Langzeit-Tracking gewährleistet. Umfangreiche Experimente zeigen, dass ReSurgSAM2 im Vergleich zu bestehenden Methoden erhebliche Verbesserungen in Bezug auf Genauigkeit und Effizienz erzielt und in Echtzeit mit 61,2 FPS arbeitet. Unser Code und die Datensätze werden unter https://github.com/jinlab-imvr/ReSurgSAM2 verfügbar sein.
Trotz bedeutender Fortschritte bei der Modellierung von Bildprioren durch Diffusionsmodelle bleibt die 3D-bewusste Bildbearbeitung eine Herausforderung, teilweise weil das Objekt nur über ein einzelnes Bild spezifiziert wird. Um diese Herausforderung zu bewältigen, schlagen wir 3D-Fixup vor, ein neues Framework zur Bearbeitung von 2D-Bildern, das durch gelernte 3D-Prioren geleitet wird. Das Framework unterstützt schwierige Bearbeitungsszenarien wie Objektverschiebung und 3D-Rotation. Um dies zu erreichen, nutzen wir einen trainingsbasierten Ansatz, der die generative Kraft von Diffusionsmodellen nutzt. Da Videodaten natürlicherweise physikalische Dynamiken der realen Welt kodieren, greifen wir auf Videodaten zurück, um Trainingsdatenpaare zu generieren, d.h. ein Quell- und ein Zielbild. Anstatt sich ausschließlich auf ein einzelnes trainiertes Modell zu verlassen, um Transformationen zwischen Quell- und Zielbildern abzuleiten, integrieren wir 3D-Anleitungen von einem Bild-zu-3D-Modell, das diese anspruchsvolle Aufgabe überbrückt, indem es 2D-Informationen explizit in den 3D-Raum projiziert. Wir entwerfen eine Daten-Generierungspipeline, um eine hochwertige 3D-Anleitung während des gesamten Trainings sicherzustellen. Die Ergebnisse zeigen, dass durch die Integration dieser 3D-Prioren 3D-Fixup komplexe, identitätskohärente 3D-bewusste Bearbeitungen effektiv unterstützt und hochwertige Ergebnisse erzielt, wodurch die Anwendung von Diffusionsmodellen in der realistischen Bildmanipulation vorangetrieben wird. Der Code ist unter https://3dfixup.github.io/ verfügbar.
Das Aufkommen hybrider quantenklassischer maschineller Lernmodelle (HQML) eröffnet neue Horizonte der rechnerischen Intelligenz, doch ihre grundlegende Komplexität führt häufig zu Black-Box-Verhalten, das die Transparenz und Zuverlässigkeit ihrer Anwendung untergräbt. Obwohl XAI für Quantensysteme noch in den Kinderschuhen steckt, besteht eine deutliche Forschungslücke bei robusten globalen und lokalen Erklärungsansätzen, die für HQML-Architekturen entwickelt wurden, die quantisierte Merkmalskodierung gefolgt von klassischem Lernen verwenden. Diese Lücke steht im Mittelpunkt dieser Arbeit, die QuXAI vorstellt, ein auf Q-MEDLEY basierendes Framework zur Erklärung der Merkmalsbedeutung in diesen hybriden Systemen. Unser Modell umfasst die Erstellung von HQML-Modellen, die Quantenmerkmalabbildungen einbeziehen, die Verwendung von Q-MEDLEY, das merkmalsbasierte Schlussfolgerungen kombiniert, die Quantentransformationsphase bewahrt und die resultierenden Zuschreibungen visualisiert. Unsere Ergebnisse zeigen, dass Q-MEDLEY einflussreiche klassische Aspekte in HQML-Modellen abgrenzt sowie deren Rauschen separiert und sich gut gegen etablierte XAI-Techniken in klassischen Validierungsszenarien behauptet. Ablationsstudien verdeutlichen zudem die Vorzüge der in Q-MEDLEY verwendeten zusammengesetzten Struktur. Die Implikationen dieser Arbeit sind von entscheidender Bedeutung, da sie einen Weg zur Verbesserung der Interpretierbarkeit und Zuverlässigkeit von HQML-Modellen bietet und somit größeres Vertrauen sowie einen sichereren und verantwortungsbewussteren Einsatz von quantenverstärkter KI-Technologie fördert.
Die universelle visuelle Anomalieerkennung zielt darauf ab, Anomalien aus neuen oder unbekannten visuellen Domänen zu identifizieren, ohne zusätzliches Fine-Tuning, was in offenen Szenarien von entscheidender Bedeutung ist. Jüngste Studien haben gezeigt, dass vortrainierte Vision-Language-Modelle wie CLIP eine starke Generalisierung mit nur null oder wenigen normalen Bildern aufweisen. Allerdings kämpfen bestehende Methoden mit der Gestaltung von Prompt-Vorlagen, komplexen Token-Interaktionen oder erfordern zusätzliches Fine-Tuning, was zu eingeschränkter Flexibilität führt. In dieser Arbeit präsentieren wir eine einfache, aber effektive Methode namens AdaptCLIP, die auf zwei zentralen Erkenntnissen basiert. Erstens sollten adaptive visuelle und textuelle Repräsentationen abwechselnd und nicht gemeinsam gelernt werden. Zweitens sollte das vergleichende Lernen zwischen Abfrage- und Normalbild-Prompt sowohl kontextuelle als auch ausgerichtete Residuenmerkmale einbeziehen, anstatt sich ausschließlich auf Residuenmerkmale zu verlassen. AdaptCLIP behandelt CLIP-Modelle als grundlegenden Dienst und fügt nur drei einfache Adapter hinzu: einen visuellen Adapter, einen textuellen Adapter und einen Prompt-Abfrage-Adapter, an seinen Ein- oder Ausgangsenden. AdaptCLIP unterstützt Zero-/Few-Shot-Generalisierung über Domänen hinweg und verfügt über einen trainingsfreien Ansatz auf Zieldomänen, sobald es auf einem Basisdatensatz trainiert wurde. AdaptCLIP erzielt state-of-the-art Leistung auf 12 Anomalieerkennungs-Benchmarks aus industriellen und medizinischen Domänen und übertrifft dabei bestehende wettbewerbsfähige Methoden deutlich. Wir werden den Code und das Modell von AdaptCLIP unter https://github.com/gaobb/AdaptCLIP verfügbar machen.
Die Skalierung des Robotik-Lernens erfordert umfangreiche und vielfältige Datensätze. Dennoch bleibt das vorherrschende Paradigma der Datenerfassung – die menschliche Teleoperation – kostspielig und durch manuellen Aufwand sowie den physischen Zugang zu Robotern eingeschränkt. Wir stellen Real2Render2Real (R2R2R) vor, einen neuartigen Ansatz zur Generierung von Trainingsdaten für Roboter, der weder auf die Simulation von Objektdynamiken noch auf die Teleoperation von Roboterhardware angewiesen ist. Die Eingabe besteht aus einem mit einem Smartphone erstellten Scan eines oder mehrerer Objekte und einem einzelnen Video einer menschlichen Demonstration. R2R2R rendert Tausende von visuell hochwertigen, roboterunabhängigen Demonstrationen, indem es detaillierte 3D-Objektgeometrie und -erscheinung rekonstruiert und die 6-DoF-Objektbewegung verfolgt. R2R2R verwendet 3D Gaussian Splatting (3DGS), um flexible Asset-Generierung und Trajektoriensynthese sowohl für starre als auch für artikulierte Objekte zu ermöglichen, und konvertiert diese Darstellungen in Meshes, um die Kompatibilität mit skalierbaren Rendering-Engines wie IsaacLab zu gewährleisten, jedoch ohne Kollisionsmodellierung. Die von R2R2R generierten Roboterdemonstrationsdaten lassen sich direkt in Modelle integrieren, die auf robotereigenen Zuständen und Bildbeobachtungen operieren, wie z. B. Vision-Language-Action-Modelle (VLA) und Imitationslernstrategien. Physikalische Experimente deuten darauf hin, dass Modelle, die mit R2R2R-Daten aus einer einzigen menschlichen Demonstration trainiert wurden, die Leistung von Modellen erreichen können, die mit 150 menschlichen Teleoperationsdemonstrationen trainiert wurden. Projektseite: https://real2render2real.com
Unüberwachte Rekonstruktionsnetzwerke, die Selbstaufmerksamkeits-Transformer verwenden, haben Spitzenleistungen bei der mehrklassigen (vereinheitlichten) Anomalieerkennung mit einem einzigen Modell erzielt. Diese Selbstaufmerksamkeits-Rekonstruktionsmodelle arbeiten jedoch hauptsächlich mit Zielmerkmalen, was aufgrund der hohen Konsistenz mit dem Kontext zu einer perfekten Rekonstruktion sowohl für normale als auch für Anomalie-Merkmale führen kann, was wiederum das Erkennen von Anomalien erschwert. Darüber hinaus erzeugen diese Modelle oft ungenaue Anomaliesegmentierungen, da die Rekonstruktion in einem latenten Raum mit niedriger räumlicher Auflösung durchgeführt wird. Um Rekonstruktionsmodelle effizient zu gestalten und gleichzeitig ihre Generalisierung für die vereinheitlichte Anomalieerkennung zu verbessern, schlagen wir eine einfache, aber effektive Methode vor, die normale Merkmale rekonstruiert und Anomalie-Merkmale mit nur einem normalen Bildprompt (OneNIP) wiederherstellt. Im Gegensatz zu früheren Arbeiten ermöglicht OneNIP erstmals die Rekonstruktion oder Wiederherstellung von Anomalien mit nur einem normalen Bildprompt, was die Leistung der vereinheitlichten Anomalieerkennung erheblich steigert. Darüber hinaus schlagen wir einen überwachten Verfeinerer vor, der Rekonstruktionsfehler durch die Verwendung sowohl realer normaler als auch synthetisierter anomaler Bilder regressiert, was die pixelgenaue Anomaliesegmentierung deutlich verbessert. OneNIP übertrifft bisherige Methoden auf drei industriellen Anomalieerkennungs-Benchmarks: MVTec, BTAD und VisA. Der Code und die vortrainierten Modelle sind unter https://github.com/gaobb/OneNIP verfügbar.
Zero- und Few-Shot Visual Anomaly Segmentation basiert auf leistungsstarken Vision-Language-Modellen, die ungesehene Anomalien mithilfe manuell gestalteter textueller Prompts erkennen. Visuelle Darstellungen sind jedoch inhärent unabhängig von Sprache. In diesem Artikel untersuchen wir das Potenzial eines rein visuellen Foundation-Modells als Alternative zu weit verbreiteten Vision-Language-Modellen für universelle visuelle Anomalie-Segmentierung. Wir präsentieren ein neuartiges Paradigma, das Anomalie-Segmentierung in Change-Segmentierung vereinheitlicht. Dieses Paradigma ermöglicht es uns, groß angelegte synthetische Bildpaare zu nutzen, die Objekt- und lokale Bereichsänderungen aufweisen und aus bestehenden Bilddatensätzen abgeleitet sind, unabhängig von Ziel-Anomalie-Datensätzen. Wir schlagen ein One-Prompt Meta-Learning-Framework für Universal Anomaly Segmentation (MetaUAS) vor, das auf diesem synthetischen Datensatz trainiert wird und sich dann gut verallgemeinern lässt, um jede neue oder ungesehene visuelle Anomalie in der realen Welt zu segmentieren. Um geometrische Variationen zwischen Prompt- und Abfragebildern zu handhaben, schlagen wir ein Soft Feature Alignment-Modul vor, das die Wahrnehmung von Bildpaaränderungen und die semantische Segmentierung einzelner Bilder verbindet. Dies ist die erste Arbeit, die universelle Anomalie-Segmentierung mit einem reinen Vision-Modell erreicht, ohne sich auf spezielle Anomalieerkennungsdatensätze und vortrainierte Vision-Language-Modelle zu verlassen. Unsere Methode segmentiert jede Anomalie effektiv und effizient mit nur einem normalen Bild-Prompt und kommt ohne Training und ohne sprachliche Anleitung aus. Unser MetaUAS übertrifft deutlich frühere Zero-Shot-, Few-Shot- und sogar Full-Shot-Anomalie-Segmentierungsmethoden. Der Code und die vortrainierten Modelle sind unter https://github.com/gaobb/MetaUAS verfügbar.
Die Anomalieerkennung ist eine praktische und herausfordernde Aufgabe aufgrund der Knappheit von Anomalieproben in der industriellen Inspektion. Einige bestehende Methoden zur Anomalieerkennung adressieren dieses Problem, indem sie Anomalien durch Rauschen oder externe Daten synthetisieren. Es besteht jedoch immer eine große semantische Lücke zwischen synthetischen und realen Anomalien, was zu einer schwachen Leistung bei der Anomalieerkennung führt. Um dieses Problem zu lösen, schlagen wir eine Few-Shot Anomalie-getriebene Generierungsmethode (AnoGen) vor, die das Diffusionsmodell anleitet, realistische und vielfältige Anomalien mit nur wenigen realen Anomalien zu erzeugen, wodurch das Training von Anomalieerkennungsmodellen verbessert wird. Konkret gliedert sich unsere Arbeit in drei Phasen. In der ersten Phase lernen wir die Anomalieverteilung basierend auf einigen gegebenen realen Anomalien und injizieren das gelernte Wissen in ein Embedding. In der zweiten Phase verwenden wir das Embedding und gegebene Bounding Boxes, um das Diffusionsmodell anzuleiten, realistische und vielfältige Anomalien auf spezifischen Objekten (oder Texturen) zu erzeugen. In der letzten Phase schlagen wir eine schwach überwachte Anomalieerkennungsmethode vor, um ein leistungsfähigeres Modell mit den generierten Anomalien zu trainieren. Unsere Methode baut auf DRAEM und DesTSeg als Basismodell auf und führt Experimente auf dem häufig verwendeten industriellen Anomalieerkennungsdatensatz MVTec durch. Die Experimente zeigen, dass unsere generierten Anomalien die Modellleistung sowohl bei der Anomalieklassifikation als auch bei der Segmentierungsaufgabe effektiv verbessern, z.B. erreichten DRAEM und DseTSeg eine Verbesserung von 5,8 % bzw. 1,5 % im AU-PR-Metrik bei der Segmentierungsaufgabe. Der Code und die generierten anomalen Daten sind unter https://github.com/gaobb/AnoGen verfügbar.
Menschliche Videos bieten eine skalierbare Möglichkeit, Robotermanipulationsstrategien zu trainieren, jedoch fehlen die Aktionslabels, die von standardmäßigen Imitationslernalgorithmen benötigt werden. Bestehende Ansätze zur Cross-Embodiment-Abbildung versuchen, menschliche Bewegungen auf Roboteraktionen abzubilden, scheitern jedoch oft, wenn die Embodiments erheblich voneinander abweichen. Wir schlagen X-Sim vor, ein Real-to-Sim-to-Real-Framework, das die Objektbewegung als dichtes und übertragbares Signal für das Erlernen von Roboterstrategien nutzt. X-Sim beginnt mit der Rekonstruktion einer fotorealistischen Simulation aus einem RGBD-Menschvideo und verfolgt Objekttrajektorien, um objektzentrierte Belohnungen zu definieren. Diese Belohnungen werden verwendet, um eine Reinforcement-Learning (RL)-Strategie in der Simulation zu trainieren. Die gelernte Strategie wird dann in eine bildgesteuerte Diffusionsstrategie destilliert, indem synthetische Rollouts mit variierten Blickwinkeln und Beleuchtungen gerendert werden. Um den Transfer in die reale Welt zu ermöglichen, führt X-Sim eine Online-Domänenanpassungstechnik ein, die reale und simulierte Beobachtungen während des Einsatzes ausrichtet. Wichtig ist, dass X-Sim keine Roboterteleoperationsdaten benötigt. Wir evaluieren es über 5 Manipulationsaufgaben in 2 Umgebungen und zeigen, dass es: (1) den Aufgabenfortschritt im Durchschnitt um 30 % gegenüber Hand-Tracking- und Sim-to-Real-Baselines verbessert, (2) das Verhaltensklonen mit 10-fach weniger Datenerfassungszeit erreicht und (3) auf neue Kamerablickwinkel und Testzeitänderungen verallgemeinert. Code und Videos sind verfügbar unter https://portal-cornell.github.io/X-Sim/.