Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Konstruktion von Weltmodellen, die objektive physikalische Gesetze erlernen, simulieren und darüber schlussfolgern können, stellt eine grundlegende Herausforderung auf dem Weg zur Künstlichen Allgemeinen Intelligenz dar. Jüngste Fortschritte, repräsentiert durch Videogenerierungsmodelle wie Sora, haben das Potenzial datengetriebener Skalierungsgesetze zur Approximation physikalischer Dynamiken aufgezeigt, während das aufkommende Unified Multimodal Model (UMM) ein vielversprechendes Architekturparadigma zur Integration von Wahrnehmung, Sprache und logischem Schlussfolgern bietet. Trotz dieser Fortschritte fehlt es dem Feld nach wie vor an einem prinzipienbasierten theoretischen Rahmenwerk, das die wesentlichen Eigenschaften eines allgemeinen Weltmodells definiert. In diesem Beitrag schlagen wir vor, dass ein Weltmodell auf der Trinität der Konsistenz gründen muss: modale Konsistenz als semantische Schnittstelle, räumliche Konsistenz als geometrische Basis und zeitliche Konsistenz als kausale Triebkraft. Durch diese dreiteilige Betrachtung systematisieren wir die Evolution multimodalen Lernens und zeigen einen Entwicklungspfad von lose gekoppelten spezialisierten Modulen hin zu vereinheitlichten Architekturen auf, die die synergetische Emergenz interner Weltsimulatoren ermöglichen. Zur Ergänzung dieses konzeptionellen Rahmens führen wir CoW-Bench ein, einen Benchmark, der sich auf Szenarien mit Mehrbild-Schlussfolgerung und -Generierung konzentriert. CoW-Bench evaluiert sowohl Videogenerierungsmodelle als auch UMMs unter einem einheitlichen Bewertungsprotokoll. Unsere Arbeit etabliert einen prinzipienbasierten Weg hin zu allgemeinen Weltmodellen, der sowohl die Grenzen aktueller Systeme als auch die architektonischen Anforderungen für zukünftige Fortschritte aufzeigt.
Während sich Large Multimodale Modelle (LMMs) hochskalieren und Methoden des Reinforcement Learning (RL) reifen, haben LMMs bedeutende Fortschritte im komplexen Schlussfolgern und Entscheidungsfinden erzielt. Das Training stützt sich jedoch nach wie vor auf statische Daten und feste Abläufe, was es schwierig macht, Fähigkeitslücken zu diagnostizieren oder eine dynamische, gezielte Verstärkung bereitzustellen. Angeregt durch die Erkenntnis, dass testgetriebene Fehlerexposition und feedbackbasierte Korrektur repetitives Üben übertreffen, schlagen wir Diagnostic-driven Progressive Evolution (DPE) vor – eine spiralförmige Schleife, in der die Diagnose die Datengenerierung und Verstärkung steuert und jede Iteration das aktualisierte Modell erneut diagnostiziert, um die nächste Runde gezielter Verbesserung anzutreiben. DPE hat zwei Schlüsselkomponenten. Erstens annotieren und kontrollieren mehrere Agenten die Qualität massiver ungelabelter multimodaler Daten und nutzen Werkzeuge wie Websuche und Bildbearbeitung, um vielfältige, realistische Beispiele zu erzeugen. Zweitens attributiert DPE Fehler spezifischen Schwächen, passt die Datenmischung dynamisch an und leitet Agenten an, schwächenfokussierte Daten für gezielte Verstärkung zu generieren. Experimente mit Qwen3-VL-8B-Instruct und Qwen2.5-VL-7B-Instruct zeigen stabile, kontinuierliche Verbesserungen über elf Benchmarks hinweg, was DPE als skalierbares Paradigma für kontinuierliches LMM-Training unter offenen Aufgabenverteilungen ausweist. Unser Code, Modelle und Daten sind öffentlich verfügbar unter https://github.com/hongruijia/DPE.
Von großen Sprachmodellen (LLMs) gestützte Routenplanungs-Agenten haben sich als vielversprechendes Paradigma erwiesen, um die alltägliche menschliche Mobilität durch natürliche Sprachinteraktion und werkzeugvermittelte Entscheidungsfindung zu unterstützen. Eine systematische Evaluation in realen Mobilitätsszenarien wird jedoch durch vielfältige Routenanforderungen, nicht-deterministische Kartendienste und eingeschränkte Reproduzierbarkeit erschwert. In dieser Studie stellen wir MobilityBench vor, einen skalierbaren Benchmark zur Bewertung LLM-basierter Routenplanungs-Agenten in realen Mobilitätsszenarien. MobilityBench wurde aus groß angelegten, anonymisierten Echtzeit-Nutzeranfragen von Amap erstellt und deckt ein breites Spektrum an Routenplanungsabsichten in mehreren Städten weltweit ab. Um eine reproduzierbare End-to-End-Evaluation zu ermöglichen, entwerfen wir eine deterministische API-Replay-Sandbox, die Umgebungsvarianzen von Live-Diensten eliminiert. Darüber hinaus schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das auf der Ergebnisvalidität zentriert ist und durch Bewertungen des Instruktionsverständnisses, der Planung, der Werkzeugnutzung und der Effizienz ergänzt wird. Mit MobilityBench evaluieren wir mehrere LLM-basierte Routenplanungs-Agenten in verschiedenen realen Mobilitätsszenarien und liefern eine eingehende Analyse ihres Verhaltens und ihrer Leistung. Unsere Ergebnisse zeigen, dass aktuelle Modelle bei grundlegenden Aufgaben der Informationsbeschaffung und Routenplanung kompetent abschneiden, jedoch erhebliche Schwierigkeiten mit präferenzbeschränkter Routenplanung haben, was signifikanten Verbesserungsbedarf bei personalisierten Mobilitätsanwendungen aufzeigt. Wir veröffentlichen die Benchmark-Daten, das Evaluations-Toolkit und die Dokumentation öffentlich unter https://github.com/AMAP-ML/MobilityBench.
Menschliche Intelligenz verbindet auf natürliche Weise omni-modale Wahrnehmung – die Vision, Audio und Sprache umfasst – mit komplexem Denken und Werkzeuggebrauch, um mit der Welt zu interagieren. Aktuelle multimodale LLMs sind jedoch hauptsächlich auf bi-modale Interaktionen (z.B. Vision-Sprache) beschränkt und entbehren der vereinheitlichten kognitiven Fähigkeiten, die für allgemeine KI-Assistenten erforderlich sind. Um diese Lücke zu schließen, stellen wir OmniGAIA vor, einen umfassenden Benchmark zur Bewertung omni-modaler Agenten bei Aufgaben, die tiefgehendes Schlussfolgern und mehrstufige Werkzeugausführung über Video-, Audio- und Bildmodalitäten hinweg erfordern. Konstruiert durch einen neuartigen omni-modalen Ereignisgraphen-Ansatz synthetisiert OmniGAIA komplexe, mehrstufige Abfragen aus realen Daten, die cross-modales Reasoning und die Integration externer Werkzeuge erfordern. Darüber hinaus schlagen wir OmniAtlas vor, einen nativen omni-modalen Basis-Agenten innerhalb eines werkzeugintegrierten Reasoning-Paradigmas mit aktiver omni-modaler Wahrnehmung. Trainiert mit Trajektorien, die durch eine rückblickgesteuerte Baumexplorationsstrategie synthetisiert wurden, sowie mit OmniDPO zur feinkörnigen Fehlerkorrektur, verbessert OmniAtlas effektiv die Werkzeugnutzungsfähigkeiten bestehender Open-Source-Modelle. Diese Arbeit markiert einen Schritt in Richtung nächster Generation nativer omni-modaler KI-Assistenten für reale Szenarien.
Latentes visuelles Reasoning zielt darauf ab, den menschlichen Vorstellungsprozess nachzuahmen, indem durch versteckte Zustände Multimodaler Großsprachmodelle meditiert wird. Obwohl es als vielversprechendes Paradigma für visuelles Reasoning anerkannt ist, bleiben die zugrundeliegenden Mechanismen, die seine Wirksamkeit antreiben, unklar. Motiviert durch das Bestreben, die wahre Quelle seiner Effizienz zu entschlüsseln, untersuchen wir die Validität des latenten Reasonings mithilfe der Kausalen Mediationsanalyse. Wir modellieren den Prozess als kausale Kette: die Eingabe als Behandlung, die latenten Tokens als Mediator und die endgültige Antwort als Ergebnis. Unsere Ergebnisse decken zwei kritische Trennungen auf: (a) Eingabe-Latente-Trennung: Dramatische Störungen der Eingabe führen zu vernachlässigbaren Änderungen an den latenten Tokens, was darauf hindeutet, dass latente Tokens die Eingabesequenz nicht effektiv beachten. (b) Latente-Antwort-Trennung: Störungen der latenten Tokens haben minimalen Einfluss auf die endgültige Antwort, was auf die begrenzte kausale Wirkung hindeutet, die latente Tokens auf das Ergebnis ausüben. Darüber hinaus zeigt eine umfangreiche Analyse, dass latente Tokens nur begrenzte visuelle Informationen kodieren und eine hohe Ähnlichkeit aufweisen. Folglich stellen wir die Notwendigkeit des latenten Reasonings in Frage und schlagen eine einfache Alternative namens CapImagine vor, die dem Modell beibringt, explizit mit Text zu imaginieren. Experimente auf visuell zentrierten Benchmarks zeigen, dass CapImagine komplexe Baseline-Modelle im latenten Raum deutlich übertrifft und das überlegene Potenzial des visuellen Reasonings durch explizite Imagination hervorhebt.
Exploration bleibt der entscheidende Engpass für Agenten auf Basis großer Sprachmodelle, die mit Verstärkungslernen trainiert werden. Während bisherige Methoden vortrainiertes Wissen nutzen, versagen sie in Umgebungen, die die Entdeckung neuartiger Zustände erfordern. Wir schlagen Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO²) vor, ein hybrides RL-Framework, das Gedächtnis für die Exploration nutzt und On- und Off-Policy-Updates kombiniert, um LLMs sowohl mit Gedächtnis leistungsfähig zu machen als auch Robustheit ohne dieses zu gewährleisten. Auf ScienceWorld und WebShop erzielt EMPO² eine Verbesserung von 128,6 % bzw. 11,3 % gegenüber GRPO. Darüber hinaus zeigt EMPO² in Out-of-Distribution-Tests eine überlegene Anpassungsfähigkeit an neue Aufgaben, die nur wenige Versuche mit Gedächtnis und keine Parameteraktualisierungen erfordert. Diese Ergebnisse unterstreichen EMPO² als vielversprechendes Framework für den Aufbau explorativerer und generalisierbarer LLM-basierter Agenten.
Während Multi-Agenten-Systeme (MAS) bei komplexen Denkaufgaben hervorragende Leistungen erbringen, leiden sie unter der kaskadierenden Wirkung fehlerhafter Informationen, die von einzelnen Teilnehmern erzeugt werden. Aktuelle Lösungen greifen oft auf starre Strukturierung oder aufwändiges Fine-Tuning zurück, was ihre Einsatzfähigkeit und Anpassungsfähigkeit einschränkt. Wir schlagen AgentDropoutV2 vor, ein Test-Time-Rectify-or-Reject-Framework zur dynamischen Optimierung des MAS-Informationsflusses ohne Neutraining. Unser Ansatz fungiert als aktive Firewall, die Agentenausgaben abfängt und einen retrieval-augmentierten Korrekturmechanismus einsetzt, um Fehler iterativ auf Basis eines fehlergetriebenen Indikatorpools zu beheben. Dieser Mechanismus ermöglicht die präzise Identifizierung potenzieller Fehler, indem destillierte Fehlermuster als Vorwissen genutzt werden. Nicht reparaturfähige Ausgaben werden anschließend beschnitten, um eine Fehlerfortpflanzung zu verhindern, während eine Fallback-Strategie die Systemintegrität bewahrt. Empirische Ergebnisse auf umfangreichen Mathematik-Benchmarks zeigen, dass AgentDropoutV2 die Aufgabenleistung des MAS signifikant steigert und einen durchschnittlichen Genauigkeitszuwachs von 6,3 Prozentpunkten auf Mathematik-Benchmarks erzielt. Darüber hinaus weist das System eine robuste Generalisierungs- und Anpassungsfähigkeit auf, moduliert dynamisch den Korrekturaufwand basierend auf der Aufgabenschwierigkeit und nutzt kontextbewusste Indikatoren zur Lösung eines breiten Spektrums von Fehlermustern. Unser Code und Datensatz sind unter https://github.com/TonySY2/AgentDropoutV2 veröffentlicht.
Wir stellen MediX-R1 vor, ein offenes Reinforcement-Learning (RL)-Framework für medizinische multimodale Large Language Models (MLLMs), das klinisch fundierte, freiformulierte Antworten jenseits von Multiple-Choice-Formaten ermöglicht. MediX-R1 feintunt ein Basis-Vision-Sprache-Backbone mit gruppenbasiertem RL und einer zusammengesetzten Belohnungsfunktion, die auf medizinisches Reasoning zugeschnitten ist: eine LLM-basierte Genauigkeitsbelohnung, die die semantische Korrektheit mit einer strengen JA/NEIN-Entscheidung bewertet, eine belohnungsbasierte semantische Belohnung auf Grundlage medizinischer Embeddings, um Paraphrasen und Terminologievarianten zu erfassen, sowie leichtgewichtige Format- und Modalitätsbelohnungen, die interpretierbares Reasoning und Modalitätserkennung erzwingen. Dieser Multi-Signal-Ansatz liefert stabile, informative Rückmeldungen für offene Ausgaben, bei denen traditionelle überprüfbare oder nur auf Multiple-Choice basierende Belohnungsfunktionen versagen. Um Fortschritte zu messen, schlagen wir einen einheitlichen Evaluierungsrahmen für sowohl rein textbasierte als auch Bild+Text-Aufgaben vor, der einen referenzbasierten LLM-as-Judge anstelle von anfälligen String-Überlappungsmetriken verwendet und semantische Korrektheit, Reasoning und kontextuelle Ausrichtung erfasst. Trotz der Verwendung von nur sim51K Instruktionsbeispielen erzielt MediX-R1 exzellente Ergebnisse über Standard-Benchmarks für medizinische LLMs (nur Text) und VLMs (Bild + Text) hinweg, übertrifft starke Open-Source-Baselines und erzielt besonders große Verbesserungen bei offenen klinischen Aufgaben. Unsere Ergebnisse demonstrieren, dass offenes RL mit umfassenden Belohnungssignalen und LLM-basierter Evaluation ein praktikabler Weg zu zuverlässigem medizinischem Reasoning in multimodalen Modellen ist. Unsere trainierten Modelle, kuratierten Datensätze und der Quellcode sind verfügbar unter https://medix.cvmbzuai.com.
Aktuelle Deep-Research-Agents verbessern ihre Leistung primär durch Skalierung der Reasoning-Tiefe, was jedoch in suchintensiven Szenarien zu hohen Inferenzkosten und Latenzzeiten führt. Zudem bleibt die Generalisierung über heterogene Forschungsumgebungen hinweg eine Herausforderung. In dieser Arbeit schlagen wir Search More, Think Less (SMTL) vor, ein Framework für langfristige agentenbasierte Suche, das sowohl Effizienz als auch Generalisierung anstrebt. SMTL ersetzt sequenzielles Reasoning durch parallele Evidenzgewinnung und ermöglicht so effizientes Kontextmanagement unter begrenzten Kontextbudgets. Um die Generalisierung über verschiedene Aufgabentypen hinweg zu unterstützen, führen wir zudem eine vereinheitlichte Datensynthese-Pipeline ein, die Suchaufgaben konstruiert, die sowohl deterministische Frage-Antwort-Szenarien als auch offene Forschungsszenarien mit aufgabengerechten Evaluierungsmetriken abdecken. Wir trainieren einen End-to-End-Agenten mittels supervised Fine-Tuning und Reinforcement Learning, der starke und oft state-of-the-art Leistung über Benchmarks einschließlich BrowseComp (48,6 %), GAIA (75,7 %), Xbench (82,0 %) und DeepResearch Bench (45,9 %) erreicht. Im Vergleich zu Mirothinker-v1.0 reduziert SMTL mit maximal 100 Interaktionsschritten die durchschnittliche Anzahl der Reasoning-Schritte auf BrowseComp um 70,7 % bei gleichzeitiger Verbesserung der Genauigkeit.
Wir stellen ein skalierbares 3D-Rekonstruktionsmodell vor, das eine kritische Einschränkung von Offline-Feed-Forward-Verfahren adressiert: deren Rechen- und Speicheranforderungen wachsen quadratisch mit der Anzahl der Eingabebilder. Unser Ansatz basiert auf der zentralen Erkenntnis, dass dieser Engpass auf der variablen Länge der Key-Value (KV)-Raumdarstellung der Szenengeometrie beruht, die wir mittels Test-Time-Training in ein feststehendes Multi-Layer Perceptron (MLP) destillieren. VGG-T^3 (Visual Geometry Grounded Test Time Training) skaliert linear mit der Anzahl der Eingabeansichten, ähnlich wie Online-Modelle, und rekonstruiert eine Sammlung von 1.000 Bildern in nur 54 Sekunden, was eine 11,6-fache Beschleunigung gegenüber Baseline-Modellen darstellt, die auf Softmax-Attention angewiesen sind. Da unsere Methode die globale Szenenaggregationsfähigkeit beibehält, übertrifft unser Rekonstruktionsfehler der Punktwolke andere lineare Verfahren mit großem Abstand. Abschließend demonstrieren wir die visuelle Lokalisierungsfähigkeit unseres Modells, indem wir die Szenendarstellung mit unbekannten Bildern abfragen.
Diffusionsmodelle haben bemerkenswerte Fortschritte bei der hochauflösenden Erzeugung von Bildern, Videos und Audiodaten erzielt, doch der Inferenzvorgang bleibt rechenintensiv. Bisherige Beschleunigungsmethoden für Diffusionsmodelle, die auf verteilter Parallelverarbeitung basieren, leiden jedoch unter sichtbaren Generierungsartefakten und erreichen keine wesentliche Beschleunigung, die proportional zur Anzahl der GPUs ist. Daher schlagen wir ein Hybrid-Parallelisierungsframework vor, das eine neuartige Datenparallelstrategie, die condition-basierte Partitionierung, mit einer optimalen Pipeline-Planungsmethode, dem adaptiven Parallelitätswechsel, kombiniert, um die Generierungslatenz zu verringern und eine hohe Generierungsqualität in konditionalen Diffusionsmodellen zu erreichen. Die zentralen Ideen sind (i) die konditionalen und unkonditionellen Denoising-Pfade als neue Perspektive für die Datenpartitionierung zu nutzen und (ii) optimales Pipeline-Parallelismus adaptiv entsprechend der Denoising-Diskrepanz zwischen diesen beiden Pfaden zu aktivieren. Unser Framework erreicht eine Latenzreduktion um den Faktor 2,31 bei SDXL und 2,07 bei SD3 unter Verwendung von zwei NVIDIA RTX~3090 GPUs, bei gleichzeitiger Beibehaltung der Bildqualität. Dieses Ergebnis bestätigt die Allgemeingültigkeit unseres Ansatzes für U-Net-basierte Diffusionsmodelle und DiT-basierte Flow-Matching-Architekturen. Unser Ansatz übertrifft auch bestehende Methoden in der Beschleunigung unter Hochauflösungs-Synthese-Einstellungen. Der Code ist verfügbar unter https://github.com/kaist-dmlab/Hybridiff.
Die Verheißung universell einsetzbarer Agenten – Systeme, die Aufgaben in unbekannten Umgebungen ohne domainspezifische Anpassungen bewältigen – bleibt größtenteils unerfüllt. Bestehende Agenten sind überwiegend spezialisiert, und obwohl neuere Implementierungen wie der OpenAI SDK Agent und Claude Code auf breitere Fähigkeiten hindeuten, wurde bisher keine systematische Evaluation ihrer allgemeinen Leistungsfähigkeit durchgeführt. Aktuelle Benchmarks für Agenten setzen domainspezifische Integration voraus und kodieren Aufgabeninformationen auf eine Weise, die eine faire Bewertung allgemeiner Agenten ausschließt. Dieser Beitrag etabliert die Evaluation allgemeiner Agenten als primäres Forschungsziel. Wir schlagen konzeptionelle Prinzipien für eine solche Evaluation vor, ein Unified Protocol zur Integration von Agenten in Benchmarks sowie Exgentic – einen praktischen Rahmen zur Evaluation allgemeiner Agenten. Wir evaluieren fünf prominente Agenten-Implementierungen in sechs Umgebungen als erstes Open General Agent Leaderboard. Unsere Experimente zeigen, dass allgemeine Agenten über diverse Umgebungen hinweg generalisieren und eine mit domainspezifischen Agenten vergleichbare Leistung erzielen, ohne jegliche umgebungsspezifische Optimierung. Wir veröffentlichen unser Evaluationsprotokoll, Framework und Leaderboard, um eine Grundlage für systematische Forschung zu universell einsetzbaren Agenten zu schaffen.
Menschliche Verhaltensweisen in der realen Welt kodieren natürlicherweise reiche, langfristige kontextuelle Informationen, die genutzt werden können, um verkörperte Agenten für Wahrnehmung, Verständnis und Handeln zu trainieren. Bisherige Erfassungssysteme sind jedoch typischerweise auf kostspielige Studioaufbauten und Wearable-Geräte angewiesen, was die großflächige Sammlung von szenen-konditionierten menschlichen Bewegungsdaten in unkontrollierten Umgebungen einschränkt. Um dieses Problem zu lösen, schlagen wir EmbodMocap vor, eine portable und kostengünstige Datenerfassungs-Pipeline, die zwei bewegliche iPhones verwendet. Unser zentraler Ansatz ist die gemeinsame Kalibrierung dualer RGB-D-Sequenzen, um sowohl Menschen als auch Szenen innerhalb eines einheitlichen metrischen Weltkoordinatensystems zu rekonstruieren. Die vorgeschlagene Methode ermöglicht eine metrisch skalierte und szenenkonsistente Erfassung in alltäglichen Umgebungen ohne statische Kameras oder Marker und verbindet menschliche Bewegung und Szenengeometrie nahtlos. Im Vergleich mit Ground-Truth-Daten aus optischer Erfassung zeigen wir, dass die Dual-View-Konfiguration eine bemerkenswerte Fähigkeit besitzt, Tiefenmehrdeutigkeiten zu reduzieren, und eine überlegene Ausrichtung und Rekonstruktionsleistung gegenüber Single-iPhone- oder monokularen Modellen erzielt. Basierend auf den gesammelten Daten ermöglichen wir drei verkörperte KI-Aufgaben: monokulare Mensch-Szene-Rekonstruktion, bei der wir Forward-Modelle finetunen, die metrisch skalierte, weltraumausgerichtete Menschen und Szenen ausgeben; physikbasierte Charakteranimation, bei der wir nachweisen, dass unsere Daten genutzt werden können, um Mensch-Objekt-Interaktionsfähigkeiten und szenenbewusste Bewegungsverfolgung zu skalieren; und Roboterbewegungssteuerung, wo wir einen humanoiden Roboter mittels Sim-to-Real Reinforcement Learning trainieren, um in Videos dargestellte menschliche Bewegungen nachzuahmen. Experimentelle Ergebnisse validieren die Wirksamkeit unserer Pipeline und ihren Beitrag zur Weiterentwicklung der Forschung zu verkörperter KI.
Eine rigorose Bewertung der maschinellen Intelligenz anhand des breiten Spektrums der menschlichen Allgemeinintelligenz ist in dieser Ära des raschen technologischen Fortschritts zunehmend wichtig und herausfordernd geworden. Herkömmliche KI-Benchmarks bewerten typischerweise nur eingeschränkte Fähigkeiten in einem begrenzten Bereich menschlicher Aktivitäten. Die meisten sind zudem statisch und sättigen sich schnell, da Entwickler explizit oder implizit für sie optimieren. Wir schlagen vor, dass eine vielversprechendere Methode zur Bewertung einer menschenähnlichen Allgemeinintelligenz in KI-Systemen in einer besonders starken Form des General Game Playing liegt: der Untersuchung, wie und wie gut sie alle denkbaren menschlichen Spiele spielen und erlernen, im Vergleich zu menschlichen Spielern mit demselben Erfahrungsniveau, derselben Zeit oder anderen Ressourcen. Wir definieren ein "menschliches Spiel" als ein von Menschen für Menschen entworfenes Spiel und argumentieren für die Eignung dieses Raums aller solcher Spiele, die sich Menschen vorstellen können und an denen sie Freude haben – das "Multiversum der menschlichen Spiele". Als ersten Schritt in Richtung dieser Vision stellen wir den AI GameStore vor, eine skalierbare und erweiterbare Plattform, die LLMs mit menschlicher Beteiligung nutzt, um neue repräsentative menschliche Spiele zu synthetisieren, indem standardisierte und containerisierte Varianten von Spielumgebungen aus beliebten digitalen Human-Gaming-Plattformen automatisch bezogen und angepasst werden. Als Proof of Concept generierten wir 100 solcher Spiele basierend auf den Top-Charts des Apple App Store und von Steam und bewerteten sieben fortschrittliche Vision-Language-Modelle (VLMs) anhand kurzer Spielepisoden. Die besten Modelle erreichten bei der Mehrheit der Spiele weniger als 10 % der durchschnittlichen menschlichen Punktzahl und hatten besonders mit Spielen zu kämpfen, die das Lernen von Weltmodellen, Gedächtnis und Planungsfähigkeiten herausfordern. Wir schließen mit einer Reihe von nächsten Schritten zum Ausbau des AI GameStore als praktische Methode, um Fortschritte in Richtung einer menschenähnlichen Allgemeinintelligenz in Maschinen zu messen und voranzutreiben.
Energiebasierte prädiktive Weltmodelle bieten einen leistungsstarken Ansatz für mehrstufige visuelle Planung, indem sie über latente Energielandschaften statt durch Generierung von Pixeln reasoning. Bestehende Ansätze stehen jedoch vor zwei großen Herausforderungen: (i) ihre latenten Repräsentationen werden typischerweise im euklidischen Raum gelernt, wobei die zugrundeliegende geometrische und hierarchische Struktur zwischen Zuständen vernachlässigt wird, und (ii) sie haben Schwierigkeiten mit Langzeitprognosen, was zu einem raschen Qualitätsverlust über längere Rollouts führt. Um diese Herausforderungen zu adressieren, führen wir GeoWorld ein, ein geometrisches Weltmodell, das die geometrische Struktur und hierarchische Beziehungen durch einen hyperbolischen JEPA erhält, der latente Repräsentationen vom euklidischen Raum auf hyperbolische Mannigfaltigkeiten abbildet. Wir führen weiterhin Geometrisches Reinforcement Learning zur energiebasierten Optimierung ein, das eine stabile mehrstufige Planung im hyperbolischen latenten Raum ermöglicht. Umfangreiche Experimente auf CrossTask und COIN zeigen eine Verbesserung der Success Rate (SR) von etwa 3 % bei der 3-Schritt-Planung und 2 % bei der 4-Schritt-Planung im Vergleich zum state-of-the-art V-JEPA 2. Projekt-Website: https://steve-zeyu-zhang.github.io/GeoWorld.
Jüngste Fortschritte bei Bewegungsdiffusionsmodellen haben den Realismus der menschlichen Bewegungssynthese erheblich verbessert. Bisherige Ansätze basieren jedoch entweder auf bidirektionalen Vollsequenz-Diffusionsmodellen, die die zeitliche Kausalität und Echtzeitanwendbarkeit einschränken, oder auf autoregressiven Modellen, die unter Instabilität und kumulativen Fehlern leiden. In dieser Arbeit stellen wir Kausale Bewegungsdiffusionsmodelle (CMDM) vor, einen einheitlichen Rahmen für die autoregressive Bewegungsgenerierung auf Basis eines kausalen Diffusionstransformators, der in einem semantisch ausgerichteten latenten Raum operiert. CMDM baut auf einem sprachbasiert-kausalen VAE (MAC-VAE) auf, der Bewegungssequenzen in zeitlich kausale latente Repräsentationen kodiert. Auf dieser latenten Repräsentation wird ein autoregressiver Diffusionstransformator trainiert, der unter Verwendung kausaler Diffusionsforcierung eine zeitlich geordnete Entrauschung über Bewegungsframes hinweg durchführt. Um schnelle Inferenz zu ermöglichen, führen wir einen frame-basierten Sampling-Plan mit kausaler Unsicherheit ein, bei dem jeder nachfolgende Frame aus teilweise entrauschten vorherigen Frames vorhergesagt wird. Das resultierende Framework unterstützt hochwertige Text-zu-Bewegungs-Generierung, Streaming-Synthese und langfristige Bewegungsgenerierung in interaktiven Raten. Experimente auf HumanML3D und SnapMoGen zeigen, dass CMDM bestehende Diffusions- und autoregressive Modelle sowohl in semantischer Treue als auch zeitlicher Glätte übertrifft und dabei die Inferenzlatenz erheblich reduziert.
Fully Sharded Data Parallel (FSDP), auch bekannt als ZeRO, wird häufig für das Training großskaliger Modelle eingesetzt und zeichnet sich durch seine Flexibilität und minimale Eingriffe in den Modellcode aus. Allerdings haben aktuelle FSDP-Systeme Schwierigkeiten mit strukturorientierten Trainingsmethoden (z. B. blockweise quantisiertes Training) und mit nicht-elementweisen Optimierern (z. B. Shampoo und Muon), die in modernsten Modellen (z. B. Gemini, Kimi K2) verwendet werden. Die festen element- oder zeilenweisen Sharding-Formate von FSDP stehen im Konflikt mit blockstrukturierten Berechnungen. Darüber hinaus weisen heutige Implementierungen Defizite in der Kommunikations- und Speichereffizienz auf, was die Skalierung auf Zehntausende von GPUs begrenzt. Wir stellen veScale-FSDP vor, ein neu gestaltetes FSDP-System, das ein flexibles Sharding-Format, RaggedShard, mit einem strukturorientierten Planungsalgorithmus kombiniert, um sowohl Flexibilität als auch Leistung im großen Maßstab zu bieten. veScale-FSDP unterstützt nativ die effiziente Datenplatzierung, die von FSDP benötigt wird, und ermöglicht so blockweise Quantisierung und nicht-elementweise Optimierer. Infolgedessen erzielt veScale-FSDP einen um 5–66 % höheren Durchsatz und einen um 16–30 % geringeren Speicherverbrauch als bestehende FSDP-Systeme, während es effizient auf Zehntausende von GPUs skaliert.
Open-Vocabulary-Segmentierung (OVS) erweitert die Zero-Shot-Erkennungsfähigkeiten von Vision-Language-Modellen (VLMs) auf die Pixelvorhersage und ermöglicht so die Segmentierung beliebiger, durch Textprompts spezifizierter Kategorien. Trotz jüngster Fortschritte bleibt OVS hinter vollüberwachten Ansätzen zurück, was auf zwei Herausforderungen zurückzuführen ist: die grobe, auf Bildebene angewandte Supervision beim Training der VLMs und die semantische Mehrdeutigkeit der natürlichen Sprache. Wir adressieren diese Einschränkungen durch die Einführung eines Few-Shot-Settings, das textuelle Prompts um einen Support-Datensatz mit pixelgenau annotierten Bildern erweitert. Darauf aufbauend schlagen wir einen retrieval-augmentierten Test-Time-Adapter vor, der einen leichtgewichtigen, pro Bild gelernten Klassifikator durch die Fusion textueller und visueller Support-Merkmale erlernt. Im Gegensatz zu früheren Methoden, die auf späte, handgefertigte Fusion angewiesen sind, führt unser Ansatz eine gelernte, pro Query durchgeführte Fusion durch und erreicht so eine stärkere Synergie zwischen den Modalitäten. Die Methode unterstützt kontinuierlich wachsende Support-Datensätze und ist für feinkörnige Aufgaben wie personalisierte Segmentierung geeignet. Experimente zeigen, dass wir die Lücke zwischen Zero-Shot- und überwachter Segmentierung signifikant verkleinern und gleichzeitig die Open-Vocabulary-Fähigkeit erhalten.
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als führendes Paradigma zur Verbesserung des logischen Denkens in großen Sprachmodellen (LLMs) etabliert. Standard-RLVR-Algorithmen leiden jedoch unter einer bekannten Pathologie: Während sie die Pass@1-Genauigkeit durch geschärftes Sampling verbessern, verengen sie gleichzeitig die Denkgrenze des Modells und reduzieren die Generierungsvielfalt. Wir identifizieren eine Ursache, die bestehende Methoden übersehen: die gleichmäßige Bestrafung von Fehlern. Aktuelle Ansätze – seien es Datenfilterungsmethoden, die Prompts nach Schwierigkeit auswählen, oder Advantage-Normalisierungsschemata – behandeln alle falschen Rollouts innerhalb einer Gruppe identisch. Wir zeigen, dass diese Gleichbehandlung es übermütigen Fehlern (falsche Denkpfade, die der RL-Prozess fälschlicherweise verstärkt hat) ermöglicht, zu persistieren und die Wahrscheinlichkeitsmasse zu monopolisieren, was letztlich gültige explorative Trajektorien unterdrückt. Um dies zu adressieren, schlagen wir die Asymmetric Confidence-aware Error Penalty (ACE) vor. ACE führt eine metrik für den Konfidenzversatz pro Rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), ein, um negative Advantages dynamisch zu modulieren. Theoretisch zeigen wir, dass der Gradient von ACE in den Gradienten eines selektiven Regularisierers, der auf übermütige Fehler beschränkt ist, plus ein wohldefiniertes Residuum zerlegt werden kann, das die Stärke des Regularisierers teilweise moderiert. Wir führen umfangreiche Experimente durch, bei denen wir Qwen2.5-Math-7B, Qwen3-8B-Base und Llama-3.1-8B-Instruct auf dem DAPO-Math-17K-Datensatz mit GRPO und DAPO innerhalb des VERL-Frameworks feinabstimmen. Ausgewertet auf MATH-500 und AIME 2025, ergänzt ACE nahtlos bestehende Methoden und verbessert konsistent das gesamte Pass@k-Spektrum über alle drei Modellfamilien und Benchmarks hinweg.
Halluzinationen bei Large Language Models (LLMs) werden üblicherweise als Defekte des Modells oder seiner Dekodierungsstrategie betrachtet. Ausgehend von der klassischen Linguistik argumentieren wir, dass auch die Form einer Anfrage die Antwort eines Zuhörers (und des Modells) beeinflussen kann. Wir operationalisieren diese Erkenntnis, indem wir einen 22-dimensionalen Anfrage-Feature-Vektor konstruieren, der Satzkomplexität, lexikalische Seltenheit sowie Anapher, Negation, Beantwortbarkeit und Intentionsverankerung abdeckt – alles Faktoren, von denen bekannt ist, dass sie das menschliche Verständnis beeinflussen. Anhand von 369.837 realen Anfragen stellen wir die Frage: Gibt es bestimmte Arten von Anfragen, die Halluzinationen wahrscheinlicher machen? Eine groß angelegte Analyse zeigt eine konsistente "Risikolandschaft": Bestimmte Merkmale wie tiefe Satzverschachtelung und Unterbestimmtheit gehen mit einer höheren Halluzinationsneigung einher. Klare Intentionsverankerung und Beantwortbarkeit hingegen korrelieren mit geringeren Halluzinationsraten. Andere Merkmale, einschließlich Domänenspezifität, zeigen gemischte, datensatz- und modellabhängige Effekte. Diese Ergebnisse etablieren somit eine empirisch beobachtbare Repräsentation von Anfragemerkmalen, die mit dem Halluzinationsrisiko korreliert, und ebnen den Weg für gezieltes Query-Rewriting und zukünftige Interventionsstudien.
Wir stellen DLT-Corpus vor, die bislang größte domänenspezifische Textsammlung für die Distributed-Ledger-Technology-(DLT-)Forschung: 2,98 Milliarden Tokens aus 22,12 Millionen Dokumenten, die wissenschaftliche Literatur (37.440 Publikationen), Patente des United States Patent and Trademark Office (USPTO) (49.023 Anmeldungen) und Social-Media-Beiträge (22 Millionen Posts) umfassen. Bestehende Natural-Language-Processing-(NLP-)Ressourcen für DLT konzentrieren sich eng auf Kryptowährungspreisforschung und Smart Contracts, wodurch domänenspezifische Sprache trotz einer Marktkapitalisierung von rund 3 Billionen US-Dollar und rascher technologischer Evolution kaum erforscht bleibt. Wir demonstrieren den Nutzen von DLT-Corpus durch die Analyse von Technologieentstehungsmustern und Korrelationen zwischen Markt und Innovation. Die Ergebnisse zeigen, dass Technologien ihren Ursprung in der wissenschaftlichen Literatur haben, bevor sie Patente und soziale Medien erreichen, was traditionellen Technologietransfermustern folgt. Während die Stimmung in den sozialen Medien selbst während Krypto-Wintern überwiegend bullisch bleibt, wachsen wissenschaftliche und patentbezogene Aktivitäten unabhängig von Marktschwankungen und folgen der gesamten Marktexpansion in einem Kreislauf, bei dem Forschung wirtschaftlichem Wachstum vorausgeht und dieses ermöglicht, welches wiederum weitere Innovation finanziert. Wir veröffentlichen öffentlich den vollständigen DLT-Corpus; LedgerBERT, ein domänenangepasstes Modell, das bei einer DLT-spezifischen Named-Entity-Recognition-(NER-)Aufgabe eine Verbesserung von 23 % gegenüber BERT-base erzielt; sowie alle zugehörigen Tools und Codes.
Fortgeschrittene Reasoning-Fähigkeiten in großen Sprachmodellen (LLMs) führen zu häufigeren Halluzinationen; dennoch konzentriert sich die meiste Gegenmaßnahmen-Forschung auf Open-Source-Modelle zur nachträglichen Erkennung und Parameterbearbeitung. Der Mangel an Studien zu Halluzinationen in Closed-Source-Modellen ist besonders besorgniserregend, da diese die überwiegende Mehrheit der Modelle in institutionellen Einsätzen ausmachen. Wir stellen QueryBandits vor, ein modellagnostisches Contextual-Bandit-Framework, das online adaptiv lernt, die optimale Query-Rewrite-Strategie auszuwählen, indem es eine empirisch validierte und kalibrierte Belohnungsfunktion nutzt. In 16 QA-Szenarien erreicht unser bestes QueryBandit (Thompson Sampling) eine Gewinnrate von 87,5 % gegenüber einer No-Rewrite-Baseline und übertrifft Zero-Shot-statische Strategien (z. B. Paraphrase oder Expand) um 42,6 % bzw. 60,3 %. Darüber hinaus schneiden alle Contextual Bandits in allen Datensätzen besser ab als einfache Bandits, wobei eine höhere Feature-Varianz mit einer größeren Varianz in der Arm-Auswahl einhergeht. Dies untermauert unsere Erkenntnis, dass es keine einzelne Rewrite-Strategie gibt, die für alle Abfragen optimal ist. Wir stellen auch fest, dass bestimmte statische Strategien einen höheren kumulativen Regret verursachen als No-Rewrite, was darauf hindeutet, dass eine unflexible Query-Rewriting-Strategie Halluzinationen verschlimmern kann. Daher kann das Erlernen einer Online-Strategie über semantische Features mit QueryBandits das Modellverhalten allein durch Forward-Pass-Mechanismen verändern, was die Verwendung mit Closed-Source-Modellen ermöglicht und den Bedarf an Neutraining oder gradientenbasierter Anpassung umgeht.
Dank der Fortschritte im Imitationslernen (IL) und umfangreichen Fahrdatensätzen hat das End-to-End-autonome Fahren (E2E-AD) in letzter Zeit große Fortschritte erzielt. IL-basierte Methoden sind derzeit ein Mainstream-Paradigma: Modelle stützen sich auf standardmäßige Fahrverhalten von Experten und lernen, die Diskrepanz zwischen ihren Aktionen und den Expertenaktionen zu minimieren. Dieses Ziel, "nur wie der Experte zu fahren", leidet jedoch unter einer begrenzten Generalisierungsfähigkeit: Wenn sie auf seltene oder ungesehene Long-Tail-Szenarien außerhalb der Verteilung der Expertenaufzeichnungen treffen, neigen Modelle aufgrund fehlender Vorerfahrung zu unsicheren Entscheidungen. Dies wirft eine grundlegende Frage auf: Kann ein E2E-AD-System ohne jegliche Expertenaufsicht zuverlässige Entscheidungen treffen? Ausgehend von dieser Überlegung schlagen wir einen einheitlichen Rahmen namens Risk-aware World Model Predictive Control (RaWMPC) vor, um dieses Generalisierungsdilemma durch robuste Regelung zu lösen, ohne auf Expertenaufzeichnungen angewiesen zu sein. Praktisch nutzt RaWMPC ein Weltmodell, um die Konsequenzen mehrerer Kandidatenaktionen vorherzusagen, und wählt durch explizite Risikobewertung Aktionen mit geringem Risiko aus. Um dem Weltmodell die Fähigkeit zu verleihen, die Folgen riskanter Fahrverhalten vorherzusagen, entwerfen wir eine risikobewusste Interaktionsstrategie, die das Weltmodell systematisch gefährlichen Verhaltensweisen aussetzt, wodurch katastrophale Ergebnisse vorhersehbar und somit vermeidbar werden. Darüber hinaus führen wir eine Selbstbewertungs-Distillationsmethode ein, um die Risikovermeidungsfähigkeiten des gut trainierten Weltmodells in ein generatives Aktionsvorschlagsnetzwerk zu destillieren, ohne auf Expertenaufzeichnungen zurückzugreifen, und so bei Tests Aktionen mit geringem Risiko zu generieren. Umfangreiche Experimente zeigen, dass RaWMPC in In-Distribution- und Out-of-Distribution-Szenarien state-of-the-art-Methoden übertrifft und dabei eine überlegene Entscheidungsinterpretierbarkeit bietet.
Die medizinische Bildsegmentierung bleibt aufgrund begrenzter Anmerkungen für das Training, unklarer anatomischer Merkmale und Domänenverschiebungen eine Herausforderung. Während Vision-Language-Modelle wie CLIP starke cross-modale Repräsentationen bieten, ist ihr Potenzial für eine dichte, textgesteuerte medizinische Bildsegmentierung noch unzureichend erforscht. Wir stellen MedCLIPSeg vor, einen neuartigen Rahmen, der CLIP für eine robuste, dateneffiziente und unsicherheitsbewusste medizinische Bildsegmentierung adaptiert. Unser Ansatz nutzt Patch-level CLIP-Embeddings durch probabilistische cross-modale Aufmerksamkeit, was eine bidirektionale Interaktion zwischen Bild- und Text-Tokens sowie eine explizite Modellierung von prädiktiver Unsicherheit ermöglicht. Zusammen mit einem weichen Patch-level kontrastiven Verlust, der eine differenziertere semantische Lernfähigkeit über verschiedene Text-Prompts hinweg fördert, verbessert MedCLIPSeg effektiv die Dateneffizienz und Domänenverallgemeinerbarkeit. Umfangreiche Experimente über 16 Datensätze, die fünf Bildgebungsmodalitäten und sechs Organe abdecken, zeigen, dass MedCLIPSeg bisherige Methoden in Genauigkeit, Effizienz und Robustheit übertrifft und gleichzeitig interpretierbare Unsicherheitskarten liefert, die die lokale Zuverlässigkeit der Segmentierungsergebnisse hervorheben. Diese Arbeit demonstriert das Potenzial des probabilistischen Vision-Language-Modellierens für die textgesteuerte medizinische Bildsegmentierung.
Die Erzeugung realistischer Konversationsgesten ist entscheidend für natürliche, sozial ansprechende Interaktionen mit digitalen Menschen. Bisherige Methoden bilden typischerweise einen einzelnen Audiostrom auf die Bewegung eines einzelnen Sprechers ab, ohne den sozialen Kontext zu berücksichtigen oder die wechselseitige Dynamik zwischen zwei Gesprächspartnern zu modellieren. Wir stellen DyaDiT vor, einen multimodalen Diffusion-Transformer, der kontextangemessene menschliche Bewegungen aus dyadischen Audiosignalen generiert. Trainiert auf dem Seamless Interaction Dataset, verarbeitet DyaDiT dyadische Audioeingaben mit optionalen Sozialkontext-Tokens, um kontextgerechte Bewegungen zu erzeugen. Die Methode fusioniert Informationen beider Sprecher, um Interaktionsdynamiken zu erfassen, nutzt ein Bewegungslexikon zur Kodierung von Bewegungs-Priors und kann optional die Gesten des Gesprächspartners verwenden, um responsivere Bewegungen zu erzeugen. Wir evaluieren DyaDiT anhand standardisierter Bewegungsgenerierungsmetriken und durch quantitative Nutzerstudien. Die Ergebnisse zeigen, dass unsere Methode nicht nur bestehende Ansätze in objektiven Metriken übertrifft, sondern auch von Nutzern deutlich bevorzugt wird, was ihre Robustheit und sozial vorteilhafte Bewegungsgenerierung unterstreicht. Code und Modelle werden nach Annahme der Arbeit veröffentlicht.
Die Skalierung multimodaler Abgleichung zwischen Video und Audio stellt eine große Herausforderung dar, insbesondere aufgrund limitierter Daten und der Diskrepanz zwischen Textbeschreibungen und frame-basierten Videoinformationen. In dieser Arbeit gehen wir die Skalierungsproblematik bei der multimodalen Audioerzeugung an und untersuchen, ob Modelle, die mit kurzen Instanzen trainiert wurden, sich auf längere Instanzen während des Tests verallgemeinern lassen. Um diese Herausforderung zu bewältigen, stellen wir multimodale hierarchische Netzwerke vor, genannt MMHNet, eine erweiterte Version modernster Video-zu-Audio-Modelle. Unser Ansatz integriert eine hierarchische Methode und nicht-kausales Mamba, um die Erzeugung langformatiger Audiodaten zu unterstützen. Unsere vorgeschlagene Methode verbessert die Erzeugung langer Audiodateien von mehr als 5 Minuten signifikant. Wir beweisen zudem, dass das Trainieren mit kurzen und Testen mit langen Sequenzen in Video-zu-Audio-Aufgaben möglich ist, ohne mit längeren Zeitdauern trainieren zu müssen. Unsere Experimente zeigen, dass unsere Methode bemerkenswerte Ergebnisse auf Benchmarks für lange Videos erzielen und frühere Arbeiten in Video-zu-Audio-Aufgaben übertreffen kann. Darüber hinaus demonstrieren wir die Fähigkeit unseres Modells, Audiodaten von mehr als 5 Minuten Länge zu generieren, während bisherige Video-zu-Audio-Verfahren bei der Generierung langer Zeitdauern versagen.
Daten-effiziente neuronale Dekodierung ist eine zentrale Herausforderung für Sprach-Brain-Computer-Interfaces. Wir präsentieren die erste Demonstration von Transferlernen und aufgabenübergreifender Dekodierung für MEG-basierte Sprachmodelle, die Wahrnehmung und Produktion umfassen. Wir trainieren ein Conformer-basiertes Modell mit 50 Stunden Einzelpersonen-Hördaten vor und führen pro Teilnehmer bei 18 Probanden ein Feinabstimmen mit nur 5 Minuten Daten durch. Transferlernen führt zu konsistenten Verbesserungen mit Genauigkeitssteigerungen von 1–4 % innerhalb derselben Aufgabe und größeren, aufgabenübergreifenden Steigerungen von bis zu 5–6 %. Das Vortraining verbessert nicht nur die Leistung innerhalb jeder Aufgabe, sondern ermöglicht auch eine zuverlässige, aufgabenübergreifende Dekodierung zwischen Wahrnehmung und Produktion. Entscheidend ist, dass Modelle, die auf Sprachproduktion trainiert wurden, passives Hören über die Zufallsschwelle hinaus dekodieren können. Dies bestätigt, dass die gelernten Repräsentationen gemeinsame neuronale Prozesse und nicht aufgabenspezifische motorische Aktivität widerspiegeln.
Kontinuierliches Lernen ist eine Kernanforderung für eingesetzte Sprachmodelle, doch Standard-Trainings- und Feinjustierungspipelines bleiben bei nicht-stationären Daten anfällig. Online-Updates führen häufig zu katastrophalem Vergessen, während Methoden zur Verbesserung der Stabilität oft Latenzzeit, Speicherbedarf oder rechenintensive Operationen derart erhöhen, dass sie sich schlecht auf lange Kontexte skalieren lassen. Wir stellen TRC² (Thalamisch Geroutete Kortikale Kolumnen) vor, eine Decoder-Only-Architektur, die kontinuierliches Lernen auf Ebene der Architektur adressiert. TRC² kombiniert sparse thalamisches Routing über kortikale Kolumnen mit Mechanismen für Modulation, Prädiktion, Gedächtnis und Feedback sowie einen schnellen korrektiven Pfad, der rasche Anpassung ohne Destabilisierung langsamerer Parameter ermöglicht. Der resultierende Block ist sparsam und chunk-parallel, was effizientes Training und Inferenz bei gleichzeitiger klarer Abtrennbarkeit der Subsysteme ermöglicht. Wir implementieren einen reproduzierbaren Trainings- und Evaluierungsstack sowie ein Continuous-Learning-Framework, das Stellvertreter-Vergessen unter fließenden Domänenverschiebungen misst. In Sprachmodellierungs- und Continuous-Learning-Benchmarks verbessert TRC² den Stabilitäts-Plastizitäts-Kompromiss bei vergleichbarer Rechenleistung und ermöglicht so schnelle Anpassung im Datenstrom bei Bewahrung zuvor erlernter Verhaltensweisen.