Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Geschleifte Transformatoren skalieren latente Berechnung durch wiederholte Anwendung gemeinsamer Blöcke, aber sequentielles Schleifen erhöht die Latenz und den KV-Cache-Speicher mit der Anzahl der Schleifen. Parallel-Schleifen-Transformatoren (PLT) mildern diese Kosten durch schleifenübergreifende Positionsversätze (CLP) und eine gemeinsame KV-gesteuerte gleitende Fensteraufmerksamkeit, wodurch die Schleifenanzahl zu einer praktischen Designentscheidung wird. Daher untersuchen wir die Auswahl der PLT-Schleifenanzahl aus einer Nutzen-Kosten-Perspektive: Eine zusätzliche Schleife kann Darstellungen verfeinern, aber CLP führt auch an jeder Schleifengrenze zu einer Positionsinkonsistenz. Wir setzen diese Untersuchung um, indem wir LoopCoder-v2, eine Familie von 7B-PLT-Codierern mit unterschiedlichen Schleifenanzahlen, von Grund auf auf 18 Billionen Tokens trainieren, gefolgt von abgestimmter Instruktionsoptimierung und Evaluierung. Empirisch erzielt die Variante mit zwei Schleifen breite Verbesserungen gegenüber der nicht-geschleiften Baseline bei Codegenerierung, Codeverständnis, agentischer Softwareentwicklung und Tool-Nutzungs-Benchmarks, wobei SWE-bench Verified von 43,0 auf 64,4 Punkte und Multi-SWE von 14,0 auf 31,0 Punkte steigt. Im Gegensatz dazu fallen Varianten mit drei oder mehr Schleifen zurück, was einen stark nicht-monotonen Schleifenanzahl-Effekt offenbart. Unsere Diagnosen zeigen, dass Schleife 2 die wesentliche produktive Verfeinerung liefert, während spätere Schleifen abnehmende, oszillierende Aktualisierungen und reduzierte Darstellungsvielfalt erzeugen. Da die durch CLP verursachte Positionsinkonsistenz nahezu konstant bleibt, während die Verfeinerungsgewinne schrumpfen, dominieren zunehmend die Versatzkosten. Dieser Nutzen-Kosten-Ausgleich erklärt die Sättigung von PLT bei zwei Schleifen und liefert Diagnosen für die Auswahl der Schleifenanzahl.
Vision-Language-Action-Modelle (VLA-Modelle) profitieren von umfangreichen und vielfältigen verkörperten Daten, jedoch ist die Sammlung von Robotertrajektorien kostspielig und arbeitsintensiv. Jüngste Fortschritte zeigen, dass großflächige egozentrische menschliche Videos komplementäre Überwachung aus der realen Welt beim Vortraining liefern. Allerdings bleibt das gemeinsame Training auf menschlichen und Roboterdaten aufgrund von Abweichungen in Aktionsräumen, Verkörperungsstrukturen, zeitlichen Dynamiken und Überwachungsqualität herausfordernd. Wir stellen ACE-EGO-0 vor, ein einheitliches VLA-Vortrainingsframework, das heterogene Datenquellen gemeinsam nutzt. Um eine großflächige Vortrainingsüberwachung aus egozentrischen menschlichen Videos zu extrahieren, bauen wir eine skalierbare egozentrische Video-zu-Aktion-Pipeline auf, die rohe menschliche Videos in Pseudoaktions-Trajektorien im Roboterformat umwandelt. Um diese Labels mit Roboterdemonstrationen vergleichbar zu machen, verwendet ACE-EGO-0 eine einheitliche Aktionsrepräsentation, die auf kamera-basierten Aktionen, Morphologie-Konditionierung und zeitlich ausgerichtetem Aktions-Chunking basiert. Um die verrauschte Pseudoaktions-Überwachung aus egozentrischen menschlichen Videos robust zu nutzen, formulieren wir ein zuverlässigkeitsbewusstes Trainingsziel mit einem menschlichen Hilfsverlust, der die Überwachung auf zuverlässige Signale konzentriert. Wir instanziieren ACE-EGO-0 auf 4.530 Stunden Roboter- und Simulationsdaten sowie auf 1.480 Stunden mit Pseudoaktionslabels versehenen egozentrischen menschlichen Daten. Experimente zeigen, dass die Einbeziehung großflächiger menschlicher Überwachung unter zuverlässigkeitsbewusster Gewichtung sowohl das einheitliche gemeinsame Vortraining als auch das überwachte Feintuning konsistent verbessert. ACE-EGO-0 erzielt eine Spitzenleistung auf RoboCasa GR1 TableTop und RoboTwin 2.0 und demonstriert eine starke Übertragbarkeit auf reale bimanuelle Manipulationen.
Wissensdestillation überträgt die Kompetenz eines Lehrers auf einen kleinen Schüler, ist jedoch im Bereich kleiner Schüler anfällig: Wenn der Schüler gezwungen wird, Logits von einem viel größeren Lehrer zu imitieren, konzentriert er sich auf die schärfsten Modi des Lehrers, was die Generalisierung auf Benchmark-Familien außerhalb des Trainingskorpus beeinträchtigt. Bestärkendes Lernen (RL) vermeidet die Logit-Imitation, indem es auf den eigenen Rollouts des Schülers trainiert. Bei Fragen, bei denen jedoch jeder Rollout fehlschlägt – was zu einem Nullvorteil führt und stillschweigend verworfen wird –, verstößt das Einfügen einer stärkeren Lehrerantwort in den Policy-Gradienten gegen die On-Policy-Annahme und verursacht eine Drift. Wir führen die Zone of Proximal Policy Optimization (ZPPO) ein, inspiriert von Vygotskys Zone der nächsten Entwicklung, die den Lehrer im Prompt und nicht im Policy-Gradienten hält. Bei schwierigen Fragen erstellt ZPPO zwei neu formulierte Prompts: Eine Binary Candidate-included Question (BCQ) paart eine korrekte Lehrerantwort mit einer falschen Schülerantwort als anonymisierte Kandidaten, die der Schüler unterscheiden muss, und eine Negative Candidate-included Question (NCQ) fasst die falschen Rollouts des Schülers in einem einzigen Prompt zusammen, um deren gemeinsame Fehlermodi sichtbar zu machen. Ein Prompt-Replay-Puffer zirkuliert jede schwierige Frage so lange, bis sie entweder abschließt – die durchschnittliche Rollout-Genauigkeit des Schülers erreicht die Hälfte – oder bei begrenzter Kapazität nach dem FIFO-Prinzip entfernt wird, wodurch BCQ und NCQ innerhalb der aktuellen Zone der nächsten Entwicklung des Schülers verstärkt werden. In der Qwen3.5-Familie mit vier Schülergrößen (0,8B–9B) und einem 27B-Lehrer, die als Vision-Language-Modelle nachtrainiert und auf einer 31-Benchmark-Suite (16 VLM, 10 LLM, 5 Video) evaluiert wurden, übertrifft ZPPO die Off/On-Policy-Destillation und GRPO, wobei die größten Verbesserungen bei der kleinsten Größe erzielt werden.
Spielgenerierung ist eine aufstrebende Anwendung von Codierungsagenten, die von Modellen verlangt, natürlichsprachliche Spezifikationen in spielbare interaktive Systeme zu überführen. Im Gegensatz zu traditionellen Codierungsaufgaben findet die Spielgenerierung innerhalb einer Spiel-Engine statt, wobei Skripte, Szenen, Assets, Rendering und Laufzeitinteraktionen gemeinsam ein kohärentes Spielerlebnis erzeugen müssen. Wir formalisieren die End-to-End-Spielgenerierung als das Problem, ein vollständiges Spielartefakt zu erstellen, das eine Spezifikation durch beobachtbare Spieler-Spiel-Interaktion in einer Zielumgebung realisiert. Wir argumentieren, dass die Bewertung dieses Szenarios drei Anforderungen erfordert: Engine-Verankerung, Artefaktvollständigkeit und interaktive Verifizierung. Wir schlagen einen interaktionsbasierten Bewertungsrahmen vor, der ausführbare Spielabläufe durch wiederholte Demonstrationen und rubrikengesteuerte multimodale Bewertung beurteilt. Diesen Rahmen setzen wir als GameCraft-Bench um, einen Benchmark, der 140 Godot-Aufgaben aus 15 Spielefamilien umfasst. Evaluierungen führender Codierungsagenten zeigen, dass die End-to-End-Spielgenerierung nach wie vor äußerst anspruchsvoll ist: Der stärkste Agent erreicht nur 41,46 %, und die meisten Agenten liegen unter 40 %. Die weitere Analyse zeigt, dass Agenten zwar oft erkennbare Mechaniken implementieren, aber Schwierigkeiten haben, vollständige Spiele mit ausreichendem Inhalt, funktionalem visuellem Feedback und kohärenter Präsentation zu liefern. Siehe https://tongxuluo.github.io/gamecraft-bench-website für Demos, Code und Daten.
Effektives personalisiertes KI-gestütztes Lernen erfordert Systeme, die nicht nur lernerspezifische Lehrmaterialien präzise erstellen, sondern ihren Unterricht auch dynamisch an unterschiedliche Lernende anpassen können. Bisherige Bildungsagenten konzentrieren sich jedoch vor allem auf die Automatisierung von Vorlesungsinhalten und Simulationen, die oft nicht ausreichen, um multimodale und verkörperte Instruktionsmethoden abzubilden, die auf den einzelnen Lernenden zugeschnitten sind. Zu diesem Zweck schlagen wir LectūraAgents vor – ein Multi-Agenten-Framework, das personalisiertes Lernen durch adaptive verkörperte Lehre von Anfang bis Ende ermöglicht. Im Kern spiegelt LectūraAgents eine Professor-Studenten-Beziehung wider, bei der ein ProfessorAgent ein kollaboratives Team spezialisierter untergeordneter Agenten durch Recherche, Planung, Überprüfung und verkörperte Vermittlung von Vorlesungsinhalten führt, die sich an die Bedürfnisse eines Lernenden anpassen. Das Framework bietet drei Hauptbeiträge: (1) eine hierarchische Multi-Agenten-Architektur für durchgängiges personalisiertes Lernen; (2) einen adaptiven verkörperten Lehmechanismus, bei dem der ProfessorAgent sichtbare und pädagogisch motivierte Lehraktionen (z. B. handschriftliches Schreiben, Hervorheben, Unterstreichen usw.) in einer Lehrumgebung ausführt; und (3) einen Teaching Action-Speech Alignment (TASA)-Algorithmus, der salienzbasierte Heuristiken und temporale semantische Segmentierung nutzt, um kohärente Sequenzen von Lehraktionen zu generieren, die auf Lernprofile abgestimmt sind. Wir evaluieren LectūraAgents anhand verschiedener Kurse auf Oberstufen-, Bachelor- und Masterniveau mittels stichprobenbasierter Rubrikanalyse; die erstellten Vorlesungsmaterialien und Lehraktionen werden von erfahrenen Pädagogen bewertet und validiert. Die experimentellen Ergebnisse zeigen durchweg Verbesserungen der Vorlesungsinhaltsqualität, der verkörperten Lehrqualität, der Bewertung und der Personalisierung im Vergleich zu bestehenden Ansätzen und positionieren LectūraAgents als pädagogisch fundiertes Framework für personalisiertes Lernen in großem Maßstab.
Auf elektronischen Gesundheitsakten basierende klinische Frühwarnsysteme, in denen klinische Beobachtungen als unregelmäßig abgetastete medizinische Zeitreihen (ISMTS) aufgezeichnet werden, müssen sowohl kalibrierte Risikowerte für die Patiententriage als auch interpretierbare Begründungen liefern, die von Klinikern überprüft werden können. Große Sprachmodelle (LLMs) wurden für diese Aufgabe untersucht, doch sie kollabieren abgestufte klinische Risiken zu übermäßig zuversichtlichen binären Vorhersagen. Diese Risikopolarisierung untergräbt sowohl die Kalibrierung als auch die patientenübergreifende Vergleichbarkeit. Um dies zu adressieren, schlagen wir TRIAGE vor, ein Framework, das ein LLM darauf trainiert, dialektisches Denken über konkurrierende klinische Ergebnisse zu generieren, indem es ausgangsspezifische Begründungen erzeugt. Diese dialektische Formulierung mildert die Risikopolarisierung und ermöglicht es einem einzigen LLM, kontinuierliche Risikowerte zu liefern, die auf explizitem klinischem Denken basieren. Bewertet auf drei ISMTS-Benchmarks erzielt TRIAGE eine durchschnittliche AUPRC-Verbesserung von 3,3% und reduziert den Kalibrierungsfehler um 81% im Vergleich zu den konkurrierenden Baselines. Eine LLM-als-Richter-Bewertung zeigt ferner, dass unsere Begründungen die Post-hoc-Erklärungen der Baseline in der Qualität des klinischen Denkens um 20% übertreffen. Der Quellcode ist verfügbar unter https://github.com/HyeongWon-Jang/TRIAGE .
On-Policy-Selbstdestillation (OPSD) hat sich als wirksam für das Post-Training großer Sprachmodelle (LLMs) erwiesen, jedoch bleibt ihre Anwendung auf Diffusions-LLMs (dLLMs) bisher unerforscht. Bestehende OPSD-Methoden sind inhärent autoregressiv-zentriert: Sie injizieren privilegierte Informationen über eine Links-nach-Rechts-Präfixkonditionierung mit Token-Level-Divergenzüberwachung – ein Design, das grundlegend mit der Generierung in beliebiger Reihenfolge bei dLLMs kollidiert. Wir stellen d-OPSD vor, das erste OPSD-Framework, das speziell für dLLMs entwickelt wurde. Unser Ansatz umfasst zwei Kernbeiträge. Erstens definieren wir die Konstruktion des Selbstlehrers neu, indem wir selbstgenerierte Antworten als Suffixkonditionierung nutzen, sodass das Schülermodell aus „zukünftiger Selbsterfahrung“ anstatt aus privilegierten Präfixen lernen kann. Zweitens verlagern wir die Überwachung von der Token-Ebene auf die Schritt-Ebene und richten das Training so am iterativen Entrauschungsprozess von dLLMs aus. Experimente mit vier Reasoning-Benchmarks zeigen, dass d-OPSD konsistent besser abschneidet als RLVR- und SFT-Baselines, bei deutlich höherer Stichprobeneffizienz: Es benötigt nur etwa 10 % der Optimierungsschritte von RLVR und eröffnet damit einen vielversprechenden Weg für das Post-Training von dLLMs. Der Code ist verfügbar unter https://github.com/xingzhejun/d-OPSD.
Gedächtnis ist zu einem standardmäßigen Substrat für sich selbst evolvierende Agenten geworden, doch Erfahrungen zu behalten ist nicht dasselbe wie zu lernen, wie man sich dadurch weiterentwickelt. Bestehende Gedächtnisagenten können Trajektorien speichern, Reflexionen abrufen oder Fähigkeiten ansammeln, aber es fehlt ihnen oft an der ganzheitlichen Kompetenz, nützliche Erfahrungen auszuwählen, daraus zu handeln, wiederverwendbares Wissen zu schreiben und ein wachsendes Repository zu pflegen. Wir stellen OPD-Evolver vor, ein Slow-Fast-Koevolutionsframework, das einen solchen Agenten-Evolver durch On-Policy-Selbstdestillation kultiviert. In der schnellen Schleife interagiert OPD-Evolver mit einer vierstufigen Gedächtnishierarchie, um Erfahrungen zu lesen, zu nutzen, zu schreiben und für eine schnelle Testzeit-Evolution zu erhalten. In der langsamen Schleife destillieren ergebnis-kalibrierte Gedächtniszuordnung und privilegierte Rückschau diese vier Fähigkeiten in die einsetzbare Policy. In Benchmarks über mehrere Domänen hinweg übertrifft OPD-Evolver Gedächtnissysteme wie ReasoningBank um bis zu 11,5% und trainingsbasierte Methoden wie Skill0 um ~5,8%. Weitere Analysen zeigen, dass OPD-Evolver hochwertige Erfahrungen und Gedächtnisverwaltung verinnerlicht, was es OPD-Evolver-9B ermöglicht, riesige Gegenstücke wie Qwen3.5-397B-A17B und Step-3.5-Flash herauszufordern, und damit über gedächtnisgestützte Agenten hinaus auf wirklich qualifizierte Agenten-Evolver hinweist.
Pixelraum-Diffusionsmodelle werden auf vollbandbreiten verrauschten Bildern trainiert, obwohl das für den Denoiser nutzbare Signal stark frequenzabhängig ist. Unter rectified-flow Diffusion und natürlichen Potenzgesetz-Spektren trennt die bandbezogene Daten-zu-Rauschen-Kontur \( k^{*}(t) = (1-t)^{-2/\alpha} \) zu jedem Zeitpunkt \( t \) einen signalhaltigen Niederfrequenzbereich von einem rauschdominierten Hochfrequenzbereich. Wir zeigen, dass diese implizite Grob-zu-Fein-Struktur nicht nur deskriptiv ist: Sie führt zu einem Kapazitätszuweisungsproblem. Ein Standard-Pixelraum-Denoiser muss die sich verschiebende Bandbreitengrenze intern erkennen und kann Rechenleistung auf Frequenz-Zeit-Regionen verwenden, in denen die optimale Vorhersage auf deterministische Basiswerte reduziert wird, anstatt auf die Modellierung der Datenverteilung. Um diese Grenze explizit zu machen, führen wir Spectral Forcing ein, einen parameterfreien, zeitabhängigen 2D-DCT-Tiefpassoperator, der vor dem Patch-Embedder auf die verrauschte Eingabe angewendet wird. Seine Grenzfrequenz steigt monoton mit der Diffusionszeit und wird am Datenendpunkt zur Identität. Durch kontrollierte synthetische Experimente identifizieren wir das Regime, in dem der Operator vorteilhaft ist: grobe Patch-Tokenisierung und Daten, deren Hochfrequenzgehalt überwiegend aus Rauschen und nicht aus wesentlichem Signal besteht. Auf ImageNet-256 mit JiT-700M/32 verbessert Spectral Forcing sowohl FID als auch Inception Score konsistent über verschiedene Trainingsepochen hinweg und zeigt robuste Gewinne während des gesamten Trainings; bei feinerer Tokenisierung bleibt Spectral Forcing weiterhin konkurrenzfähig. Darüber hinaus setzen wir den unveränderten Operator in SenseNova-U1 ein, einem vereinheitlichten Text-zu-Bild-Modell, wo er DPG-Bench und GenEval verbessert, was zeigt, dass der eingangsseitige spektrale Prior über die klassenbedingte Generierung hinaus übertragbar ist. Diese Ergebnisse deuten auf einen Weg zu kapazitätseffizienter Pixelraum-Diffusion hin, indem sie das Signal zeigen und das Rauschen verbergen.
Bestehende Bildbearbeitungsmethoden lassen sich grob in textuelle anweisungsbasierte und visuelle promptbasierte Ansätze unterteilen. Textuelle Anweisungen sind semantisch ausdrucksstark, jedoch durch die grobe Granularität der räumlichen Steuerung der Bearbeitungsergebnisse eingeschränkt. Im Gegensatz dazu bieten visuelle Prompts wie Ziehen und Punkte präzise räumliche Anleitung, sind jedoch durch die inhärente Ambiguität der semantischen Absicht begrenzt. Um die Stärken von textuellen und visuellen Prompts zu vereinen, stellen wir Text-Vision Co-Instructed Image Editing vor, das textuelle Anweisungen als semantische Absicht und spärliche visuelle Anweisungen als räumliche Führung gemeinsam modelliert, um eine präzise und intent-treue Bildmanipulation zu erreichen. Zu diesem Zweck erstellen wir zunächst einen Datensatz mit gepaarten textuell-visuellen Anweisungen, der mehr als 23.000 aus dynamischen Videos abgeleitete Stichproben umfasst und so eine abgestimmte Überwachung für die modalitätsübergreifende Anweisung ermöglicht. Anschließend schlagen wir TV-Edit vor, ein Framework zur Vereinheitlichung von textuell-visuellen Anweisungen, das zieh- oder punktbasierte visuelle Anweisungen mit Bild-Text-Semantiken kontextualisiert und diese in semantisch bewusste Kontrolldarstellungen für vortrainierte Bearbeitungs-Backbones überführt. Durch die Integration von semantischer Absicht und räumlichen Einschränkungen führt TV-Edit zu präziserer räumlicher Kontrolle, geringerer Anweisungsambiguität und stärkerer struktureller Konsistenz als rein text- oder dragbasierte Alternativen. Schließlich etablieren wir TV-Edit-Bench, einen speziell konzipierten Benchmark zur Bewertung von semantischer Treue, räumlicher Ausrichtung und visueller Konsistenz mit Ground-Truth-Referenzen sowie kontrollierten textuell-visuellen Variationen für eine zuverlässige Beurteilung. Unsere Experimente mit mehreren Bearbeitungs-Backbones zeigen, dass TV-Edit konsistent präzisere und intent-treuere Bearbeitungen liefert und die hochmodernen anweisungsbasierten und dragbasierten Baselines deutlich übertrifft.
Moderne Sprachmodelle übernehmen zunehmend hybride Architekturen, die vollständige Attention mit effizienten Attention-Modulen wie gleitender Fenster-Attention (SWA) und rekurrenten Sequenzmischern kombinieren. Allerdings ist bislang nur unzureichend verstanden, wie diese effizienten Module die Fähigkeiten von Modellen prägen. Um diese Lücke zu schließen, führen wir eine systematische Analyse hybrider Architekturen aus drei Perspektiven durch: Skalierungsverhalten, Mechanismusanalyse und Architekturentwurf. Erstens stellen wir aus Skalierungsperspektive fest, dass das Design effizienter Attention hauptsächlich beeinflusst, wie schnell die Langkontextfähigkeit entsteht, während verschiedene Hybride bei ausreichendem Training letztlich zu vergleichbarer Langkontextleistung konvergieren. Zweitens zeigen wir mechanistisch, dass der Retrieval über große Distanzen hauptsächlich durch vollständige Attention getragen wird, während effiziente Attention dessen Optimierungstrajektorie prägt. Dies erklärt ein kontraintuitives Phänomen, das wir als „Trägheit großer Fenster“ (Large-Window Laziness) bezeichnen: größere SWA-Fenster können die Bildung von Retrieval-Heads in Full-Attention-Schichten verzögern. Drittens zeigen wir, geleitet von diesem Mechanismus, dass die Anwendung von NoPE ausschließlich auf die Full-Attention-Schichten eines SWA-Hybrids mit kleinen Fenstern die Langkontextleistung erheblich verbessert, bei vernachlässigbarer Auswirkung auf die Kurzkontextleistung.
Vision-Language-Modelle (VLMs) werden typischerweise als passive Antwortsysteme trainiert, während ihre Fähigkeit, aktiv diverse, nicht-triviale, visuell-zentrierte und fundierte Fragen zu stellen, bisher kaum erforscht ist. Die Leistung bestehender visueller Fragesteller wird durch die Verfügbarkeit hochwertiger Trainingsdaten oder die Kosten ihrer Zusammenstellung eingeschränkt. Wir zeigen, dass ein VLM sich selbst kontinuierlich als visueller Fragesteller verbessern kann, ohne auf externe Überwachung angewiesen zu sein. Wir schlagen einen selbstentwickelnden Rahmen vor, der ein VLM sowohl als Vorschlags- als auch als Filterinstanz nutzt, um schwierigere, informativere und visuell-zentrierte Fragen zu generieren, während gleichzeitig die Erkundungsdiversität erhalten bleibt, um einen Trainingskollaps zu vermeiden. Diese Fragen werden dann verwendet, um das VLM sowohl im Fragesteller- als auch im Antwortmodus zu trainieren. Zur Bewertung des Fragestellers führen wir ein agentisches Protokoll ein, das Fragen hinsichtlich Wahrnehmung, Schlussfolgerung und Diversität bewertet. Experimente mit verschiedenen Basis-Vision-Sprachmodellen zeigen, dass unsere Methode die Qualität erheblich verbessert und die Schwierigkeitsgrenze der autonomen Fragengenerierung deutlich erweitert. Bei gleichem Budget ist unsere Selbstüberwachung effektiver als das Training auf statischen Quelldaten. Darüber hinaus bleibt der selbstentwickelnde Fragesteller ein konkurrenzfähiges oder sogar besseres Antwortsystem.
Der Wandel von der Videogenerierung hin zum interaktiven Weltmodellieren stellt neue Anforderungen an Daten: Neben untertitelten Videos benötigen Weltmodelle zeitlich ausgerichtete Video-Aktion-Sprache-Trajektorien, die in den Aktionen, Kamerabewegungen, Zuständen und Ereignissen verankert sind, die zukünftige Szenenveränderungen antreiben. Allerdings sind solche Daten nur schwer in großem Umfang zu erhalten. Webvideodatensätze bieten eine breite visuelle Abdeckung, aber es fehlt an ausführbaren Aktionen und zuverlässigen Zuständen; Robotikdatensätze liefern Aktionen und Zustandsüberwachung, sind jedoch teuer und in der Szenenvielfalt eingeschränkt; und bestehenden Simulatoren fehlt es oft an groß angelegten, von Menschen gesteuerten Interaktionstrajektorien. In dieser Arbeit stellen wir EgoCS-400K vor, einen groß angelegten, wiedergabegestützten egozentrischen Counter-Strike-Datensatz für Weltmodelle, der aus öffentlichen professionellen CS- und CS2-Matchdemos erstellt wurde, die menschliche Spielverlaufstrajektorien bewahren und das Analysieren, Wiederabspielen, Rendern und zeitliche Ausrichten ermöglichen. Wir extrahieren Spielerzustände, Blickrichtungen, Bewegungen, Tastatur-/Tasteneingaben, Blickwinkeländerungen, Waffennutzung, Spieleereignisse und Kontext auf Rundenebene und rendern saubere Ego-Perspektiven-Videos aus denselben Trajektorien. EgoCS-400K enthält über 400.000 Ego-Perspektiven-Videos und 10.000 Spielstunden aus mehr als 1.000 Spielen und 40.000 Runden, die 13 Karten und 10 Spielerperspektiven pro Runde abdecken. Es unterstützt eine Reihe interaktiver visueller Modellierungsaufgaben, darunter aktionsabhängige Vorhersage zukünftiger Zustände, zustands- und ereignisbewusste Szenenentwicklung, wiedergabegestützte Bildunterschreibung und egozentrisches Aktionsverständnis von Agenten. Indem es visuelle Beobachtungen mit menschlichen Aktionen, Kamerabewegungen, Spielzuständen und Ereignissen in großem Maßstab verbindet, dient EgoCS-400K als praktische Brücke zwischen passiven Webvideos, steuerbarer Spielsimulation und kostspieligen realen Embodied-Daten.
Aktuelle Weltmodelle stehen vor einer grundlegenden Spannung: Eine getreue langfristige Simulation erfordert tiefgehende Berechnungen, aber tiefere Modelle sind teuer in der Umsetzung und neigen zu sich verstärkenden Fehlern. Wir lösen dies durch die Einführung von Looped World Models (LoopWM), den ersten geschleiften Architekturen für die Weltmodellierung. Unsere Methode verfeinert latente Umgebungszustände iterativ durch einen parametergemeinsamen Transformer-Block. Dies führt zu einer bis zu 100-fachen Parametereffizienz im Vergleich zu herkömmlichen Ansätzen, mit adaptiver Berechnung, die die Tiefe automatisch an die Komplexität jedes Vorhersageschritts anpasst. Orthogonal zur Skalierung der Modellgröße und der Trainingsdaten etabliert LoopWM die iterative latente Tiefe als neue Skalierungsachse für die Weltsimulation, was die Forschung möglicherweise erheblich voranbringen könnte.
Unified Multimodal Modeling zielt darauf ab, visuelles Verständnis und Generierung in einem einzigen System zu integrieren. Allerdings stützen sich bestehende Ansätze typischerweise auf zwei unterschiedliche visuelle Tokenizer, was den Repräsentationsraum aufteilt und eine wirklich einheitliche Modellierung behindert. Wir schlagen UniAR vor, ein einheitliches autoregressives Framework, bei dem ein einziger diskreter visueller Tokenizer als zentrale Brücke zwischen Verständnis und Generierung dient und einen gemeinsamen Kontext ermöglicht, in dem das Modell seine eigenen erzeugten visuellen Tokens ohne zusätzliche Neukodierung direkt interpretieren kann. UniAR adaptiert einen vortrainierten Vision-Encoder mit mehrstufiger Merkmalsfusion und einem lookup-freien bitweisen Quantisierungsschema, wodurch sowohl hochrangige Semantik als auch niedrigrangige Details erhalten bleiben, während das effektive visuelle Vokabular zu minimalen Kosten skaliert wird. Darauf aufbauend verwendet das einheitliche autoregressive Modell eine parallele bitweise Vorhersage, um räumlich gruppierte, mehrstufige visuelle Codes gemeinsam vorherzusagen, wodurch die visuelle Sequenzlänge erheblich reduziert und die Generierung beschleunigt wird. Schließlich arbeitet ein diffusionsbasierter visueller Decoder auf diskreten visuellen Tokens, um hochgetreue Bilder zu dekodieren. Durch groß angelegtes Pre-Training, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning, erreicht UniAR eine Spitzenleistung bei Bildgenerierung und Bildbearbeitung und bleibt gleichzeitig wettbewerbsfähig bei Benchmarks für multimodales Verständnis. Die Projektseite ist verfügbar unter https://sharelab-sii.github.io/uniar-web.
Agentische Suche über große Textkorpora stützt sich auf Retriever-vermittelte Schnittstellen (z. B. BM25 oder ColBERT) für eine skalierbare Kandidatenfindung. Obwohl diese Schnittstellen relevante Dokumente effektiv ranken, präsentieren sie Belege nur als gerankte Ergebnisse oder begrenzte Dokumentenansichten, was die Fähigkeit von Agenten einschränkt, Material neu zu organisieren und Einschränkungen über Dokumente hinweg zu überprüfen. Die Direkte Korpusinteraktion (DCI) behebt diese Einschränkung, indem sie shell-ausführbare Korpusoperationen für flexible Suche, Filterung, Vergleich und Verifikation bereitstellt. Allerdings werden Korpusweite Terminalbefehle mit wachsender Korpusgröße langsam und instabil, was Leistung und Effizienz beeinträchtigt. Wir führen DR-DCI ein, ein Retriever-gesteuertes DCI-Framework, das Retrieval als agentenaufrufbare Aktion zur Erweiterung eines lokalen Arbeitsbereichs behandelt. Anstatt direkt über den gesamten Korpus zu operieren, zieht der Agent dynamisch relevante Dokumente in einen sich entwickelnden Arbeitsbereich und führt darin DCI-Operationen aus. Dieses Design kombiniert Recall auf Retriever-Ebene mit Präzision im DCI-Stil: Retrieval hält die Exploration skalierbar, während DCI die lokalen Operationen bewahrt, die für eine effektive Belegauflösung nötig sind. Experimente zeigen, dass DR-DCI über verschiedene Größenordnungen hinweg sowohl effektiv als auch effizient ist. Auf Browsecomp-Plus erreicht DR-DCI eine Genauigkeit von 71,2 %, was eine Verbesserung von bis zu 8,3 Punkten gegenüber rohem DCI und ablatierten Varianten darstellt, bei gleichzeitig reduzierter Tool-Nutzung, Wandzeit und geschätzten Kosten. Mit einem Arbeitsbereich-erhaltenden Kontext-Reset verbessert sich die Genauigkeit weiter auf 73,3 %. In Korpus-Skalierungsexperimenten bleibt DR-DCI von 100.000 bis 10 Millionen Dokumenten effektiv, während rohes DCI instabil wird und BM25 deutlich schlechter abschneidet. DR-DCI skaliert zudem auf ein Wiki-18-QA-Setting mit 20 Millionen Dateien pro Dokument und erzielt eine durchschnittliche Punktzahl von 63,0 über sechs Benchmarks, wobei es Retrieval-basierte und trainierte Suchagenten-Baselines übertrifft. Ablationsanalysen zeigen weiterhin, dass gerankte Vorschauen und dokumentübergreifende DCI für die Leistung entscheidend sind.
Große Sprachmodelle erzielen zunehmend bessere Ergebnisse auf standardisierten Benchmarks zum logischen Denken, doch ob diese Fähigkeit auch über das Englische hinaus robust bleibt, ist unklar. Wir stellen ChLogic vor, einen Englisch-Chinesischen abgestimmten Benchmark, der testet, ob Modelle ihre Leistungsfähigkeit im logischen Denken bewahren, wenn dieselbe latente logische Struktur auf Englisch und in verschiedenen chinesischen Oberflächenrealisierungen ausgedrückt wird. Der auf formalen logischen Vorlagen basierende Benchmark umfasst drei Datensätze: (i) den allgemeinen abgestimmten Satz, abgeleitet von 60 allgemeinen Aussagen aus neun Vorlagenfamilien; (ii) den schwierigen abgestimmten Satz, abgeleitet von 40 schwierigen Problemen; und (iii) den nur-chinesischen Satz, der 15 sprachspezifische Phänomentypen abdeckt. Jedes abgestimmte Element paart einen englischen Referenzausdruck mit fünf chinesischen Realisierungen. Experimente mit den Modellen Qwen3, Ministral und GLM zeigen eine anhaltende Leistungslücke zwischen Englisch und Chinesisch. Die Rückübersetzung von Standardchinesisch ins Englische verbessert oft die Leistung auf dem allgemeinen abgestimmten Satz, erzeugt jedoch gemischte Effekte auf dem schwierigen abgestimmten Satz, bei dem Qwen3-32B und GLM-5.1 nach der Übersetzung schlechter abschneiden. Diese Ergebnisse deuten darauf hin, dass chinesische Oberflächenrealisierung, Übersetzungsartefakte und modellspezifisches Verhalten gemeinsam das mehrsprachige logische Denken beeinflussen. Insgesamt bietet ChLogic einen nützlichen Belastungstest für die Robustheit mehrsprachigen Denkens.
Bestärkendes Lernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) verbessert das Denken von Sprachmodellen, jedoch neigt die GRPO-artige Optimierung weiterhin zum Kollaps. Wir analysieren diese Instabilität anhand von Token-Level-Gradientendynamiken und leiten eine Taxonomie ab, die vorhersagt, wie Aktualisierungen die Wahrscheinlichkeiten des nächsten Tokens und die Entropie beeinflussen. Die Taxonomie zeigt, dass die Stabilität sowohl vom Vorzeichen des Vorteils (Advantage) als auch von der Tokenverteilung unter der aktuellen Politik abhängt. Motiviert durch diese Erkenntnis schlagen wir Winner Advantage Policy Optimization (WAPO) vor, ein einfaches Online-geclipptes Policy-Gradient-Ziel, das nur auf Vervollständigungen mit positivem Vorteil aktualisiert. Auf Benchmarks für mathematisches Denken und Multi-Hop-QA verbessert WAPO die Trainingsstabilität und entspricht Baselines oder übertrifft sie über mehrere Modellfamilien hinweg. Der vollständige Code ist verfügbar unter https://github.com/layer6ai-labs/wapo.
Die Skalierung der Modellgröße, insbesondere der Tiefe und Breite, hat bedeutende Fortschritte bei Transformer-basierten Sprachmodellen ermöglicht. Allerdings behalten die meisten Architekturen eine konstante Breite über alle Schichten bei und verteilen ein festes Parameter- und Rechenbudget gleichmäßig, obwohl verschiedene Schichten möglicherweise unterschiedliche Rechenrollen spielen. In dieser Arbeit untersuchen wir empirisch eine ungleichmäßige Kapazitätszuweisung über die Netzwerktiefe hinweg, indem wir eine ><former-Architektur vorschlagen. Dieses Design hält die frühen und späten Schichten breiter, während die mittleren Schichten schmaler werden, wobei ein parameterfreier Residual-Resizing-Mechanismus zum Einsatz kommt. Über mehrere decoder-only Sprachmodelle mit 200 Mio. bis 2 Mrd. Parametern (dicht) und 3 Mrd. Parametern (MoE) hinweg übertrifft unser ><former durchgängig parameter-angepasste uniforme Basislinien im Hinblick auf den Sprachmodellierungsverlust. Durch die Reduzierung der durchschnittlichen Schichtbreite erfordert diese Architektur zudem insgesamt weniger FLOPs (22% Reduktion unter angepassten verlust-angepassten Skalierungskurven) sowie einen geringeren KV-Cache-Speicher und niedrigere E/A-Kosten (15% Reduktion). In der Analyse zeigen wir, dass diese Engpassstruktur zu qualitativ unterschiedlichen Repräsentationen in den Residualströmen führt. Insgesamt belegen unsere Ergebnisse, dass eine ungleichmäßige Breitenzuweisung zu einer ressourceneffizienteren Skalierung von Sprachmodellen führen kann.
Interaktive Weltmodelle zielen darauf ab, Umgebungsdynamiken unter Echtzeit-Benutzeraktionen zu simulieren. Ihr Aktionsvokabular ist jedoch weitgehend auf Navigation beschränkt: Die meisten Aktionen entsprechen Bewegungen (z. B. Gehen, Drehen, Umsehen), während Interaktionen mit Objekten in der Szene (z. B. Teller aufheben, Türen öffnen oder physikalische Reaktionen auslösen) entweder fehlen, auf Spielumgebungen beschränkt oder auf Prompt-zu-Vollvideo-Szenarien reduziert sind. Die resultierenden Welten sind visuell erkundbar, aber nicht wirklich handlungsfähig. In dieser Arbeit präsentieren wir ActWorld, ein interaktives Weltmodell, das frühere navigationszentrierte Generatoren erweitert, um Objektinteraktion während der Ausführung in einem Chunk-autoregressiven Rahmen zu unterstützen. Wir argumentieren, dass die Navigations-Interaktions-Lücke auf zwei Engpässe zurückzuführen ist. Erstens ein Datenengpass: der Mangel an Mensch-Objekt-Interaktionsdaten mit präzisen, dichten Annotationen. Zweitens ein Gedächtnisengpass: eine rezenzverzerrte Verlaufskompression in bestehenden Weltmodellen verwirft die Ereignisübergangsbilder, die kausal nachfolgende Objektzustände bestimmen, was zu einer Aktionsvergessenspathologie führt. Auf der Datenseite erstellen wir einen Datensatz mit 100.000 Interaktionsvideos, die jeweils mit Chunk-für-Chunk-Beschreibungen durch Ketten-Denk-Prozess annotiert sind. Auf der Modellseite führen wir ein hierarchisches aktionsbewusstes Gedächtnisdesign ein, das die Verlaufskompression nach Interaktionswichtigkeit lenkt, ergänzt durch einen persistenten Gedächtnisspeicher, der Ereignisaktualisierungs- und Objektidentitätstoken über lange Ausführungen hinweg aufrechterhält. Experimente zeigen, dass ActWorld sowohl flexible Navigation als auch reichhaltige Objektinteraktion in einem einzigen Modell unterstützt und die Interaktionstreue im Vergleich zu rein navigationsbasierten Baselines erheblich verbessert, ohne die Blickwinkelkontrolle zu beeinträchtigen. Die Projektseite ist verfügbar unter https://interactwm.github.io/ActWorld.
Das Training von Computer-Use-Agenten (CUAs) – Modelle, die über Screenshots und Tastatur-/Mausaktionen mit grafischen Desktops interagieren – erfordert umfangreiche, vielfältige Trajektoriendaten, die in vollständigen Desktop-Umgebungen gesammelt werden. Die größte öffentliche Ressource, AgentNet (22.500 menschliche Trajektorien), führt bei Verwendung für überwachtes Feintuning (SFT) zu negativem Transfer: Wenn das Training von UI-TARS 7B auf AgentNet fortgesetzt wird, sinkt die Erfolgsrate bei OSWorld von 26,3 % auf 8–10 %. Wir stellen ProCUA-SFT vor, einen Datensatz mit 3,1 Millionen schrittweisen SFT-Stichproben, gewonnen aus 93.000 synthetischen Trajektorien aus 2.484 Anwendungskombinationen. Der Datensatz wird durch eine vollständig automatisierte Pipeline erstellt, die (i) fundierte Aufgaben auf Live-Desktops mit realen Inhalten anreichert – 912 Tabellenkalkulationen aus SpreadsheetBench, etwa 10.000 frei lizenzierte Präsentationen aus Zenodo10K sowie Multi-Anwendungs-OSWorld-Konfigurationen – und (ii) die Durchführbarkeit jeder Aufgabe vor dem Ausrollen durch eine binäre Vorbedingungsprüfung verifiziert. Ein einzelnes VLM (Kimi-K2.5) fungiert als Zielgenerator, Vorbedingungsprüfer und Trajektorienausführer, wodurch Lücken zwischen Planer- und Aktor-Fähigkeiten beseitigt werden. Jede Trajektorie wird in Schritt-Präfix-Stichproben expandiert, die exakt das bei der Inferenz gesehene Kontextlayout reproduzieren. Feintuning von UI-TARS 7B auf ProCUA-SFT für eine Epoche ergibt 45,0 % bei OSWorld – eine Verbesserung um 18,7 Prozentpunkte gegenüber dem Basismodell und über 35 % über den mit AgentNet trainierten Gegenstücken. Ein Teil von ProCUA wurde in die Trainingsdaten für das Nemotron 3 Nano Omni-Modell aufgenommen und trug zu dessen Computer-Use-Fähigkeiten bei.
Deep-Research-Agenten werden zunehmend anhand ihrer Fähigkeit bewertet, nach Belegen zu suchen, über abgerufene Quellen zu schließen und fundierte Antworten zu generieren. Bestehende Browsing-Benchmarks gehen jedoch weitgehend davon aus, dass die Anfrage des Nutzers und die unterstützenden Belege in derselben Sprache verfasst sind, sodass offenbleibt, ob agentische Suchsysteme funktionieren können, wenn relevante Belege in einer anderen Sprache vorliegen. Wir stellen XBCP (Cross-lingual BrowseComp-Plus) vor, einen kontrollierten Benchmark, der den englischen Frage-Antwort-Raum von BrowseComp-Plus beibehält, aber die Sprachen der unterstützenden Dokumente variiert. XBCP realisiert zwei komplementäre Szenarien: Im cross-lingualen Szenario wird jede Anfrage mit Belegen in einer einzigen zugewiesenen Sprache kombiniert. Im mehrsprachigen Szenario wird der gesamte Belegkorpus gleichmäßig und zufällig auf 12 Sprachen verteilt, die sowohl ressourcenstarke als auch ressourcenschwache Bereiche abdecken. Wir evaluieren vier Deep-Research-Agenten unter Verwendung von spärlichen und dichten mehrsprachigen Retrievern und messen Antwortgenauigkeit, Evidenz-Recall, Suchverhalten, Kalibrierung, Zitierungstreue sowie Oracle-Retrieval. Die Ergebnisse zeigen eine deutliche Verschlechterung, wenn Belege übersetzt werden. Selbst starke, dichte Retriever verlieren an Evidenz-Recall, und die Agenten werden weniger gut kalibriert und zitieren Belege weniger zuverlässig. Bemerkenswert ist, dass die Genauigkeit selbst dann niedriger bleibt, wenn alle Goldbelege direkt bereitgestellt werden. Diese Befunde deuten darauf hin, dass cross-linguale Tiefenrecherche sowohl Retrieval-Fehlschläge als auch eine eigenständige, agentenseitige Schwierigkeit bei der Integration sprachlich nicht übereinstimmender Belege offenlegt.
Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten bei vielen visuellen Aufgaben gezeigt, haben jedoch oft Probleme mit der faktischen Verankerung, wenn sie mit komplexen, offenen Weltszenarien konfrontiert werden. Während neuere multimodale Tiefensuch-Agenten versuchen, dieses Problem durch die Nutzung externer Werkzeuge zu lösen, bleibt das visuell-native Suchparadigma bislang wenig erforscht. Bestehende Methoden basieren hauptsächlich auf einfachen Bildern mit expliziter Semantik und rein textbasierten Evidenzpfaden, was die Fähigkeit des Agenten zur mehrstufigen, modalitätsübergreifenden Argumentation und Suche einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Visual-Seeker vor, einen visuell-nativen multimodalen Tiefensuch-Agenten mittels aktiver visueller Argumentation. Anstatt Vision als statischen Input zu behandeln, richtet unser Agent die Aufmerksamkeit aktiv auf feinkörnige visuelle Details und sammelt dynamisch visuelle Evidenzen während des Suchprozesses. Um sein visuell-natives Potenzial zu entfalten, entwerfen wir eine Datenpipeline für aktive visuelle Argumentation und synthetisieren 5.000 hochwertige multimodale Trajektorien für das Modelltraining. Umfangreiche Experimente belegen die hochmoderne Leistung über fünf anspruchsvolle multimodale Suchbenchmarks hinweg, wobei sogar mehrere proprietäre Modelle übertroffen werden, was eine robuste visuell-native Argumentation und Suche in realen Webumgebungen bestätigt. Der Code und die Daten sind abrufbar unter: https://github.com/ZhengboZhang/Visual-Seeker.
Große Sprachmodelle (LLMs) gezielt bestimmtes Wissen und Werte vergessen zu lassen, ohne ihre allgemeinen Fähigkeiten zu beeinträchtigen, bleibt eine zentrale Herausforderung beim Unlearning. Aktuelle Methoden lassen sich jedoch leicht durch Feinabstimmung oder Few-Shot-Prompting umkehren, was darauf hindeutet, dass ihr Vergessen nur oberflächlich ist. Wir identifizieren die Ursache: Bestehende Verfahren zielen auf Repräsentationen ab, die sowohl mit dem beizubehaltenden Datensatz als auch mit dem Unterraum gemeinsam sind, der durch einen Angreifer mittels Feinabstimmung wiederhergestellt werden kann. Dadurch wird das Unlearning sowohl störend für allgemeine Fähigkeiten als auch leicht umkehrbar. Wir schlagen RepSelect (Repräsentationsselektivität) vor, das forget-set-spezifische Repräsentationen isoliert, indem es die Hauptkomponenten der Gewichtsgradienten vor jedem Update zusammenfallen lässt. Dies erhält die allgemeinen Fähigkeiten, während der Umfang dessen, was durch Feinabstimmung wiederherstellbar ist, begrenzt wird. Wir evaluieren über zwei Vergessenskategorien hinweg – biogefährdendes Wissen und missbräuchliche Tendenzen – sowie über vier Modellfamilien, die dichte und Mixture-of-Experts-Architekturen abdecken (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Im Vergleich zu fünf gängigen Basislinien (GradDiff, NPO, SimNPO, RMU, UNDIAL) erreicht RepSelect eine 4- bis 50-fach größere Reduktion der Antwortgenauigkeit nach erneutem Lernen als die stärkste Basislinie und ist nahezu perfekt robust gegenüber Few-Shot-Prompting-Angriffen. Die gezielte Beeinflussung selektiver Repräsentationen ist daher ein wichtiger Schritt in Richtung tiefgreifenden und robusten Vergessens in LLMs.
Können Große Sprachmodelle (Large Language Models, LLMs) Quantenoperatoren verstehen und darüber nachdenken? Trotz ihrer bemerkenswerten Fähigkeiten in Mathematik und symbolischem Denken bleiben LLMs von Natur aus blind für Quantendarstellungen wie unitäre Matrizen. In dieser Arbeit unternehmen wir einen Schritt zur Überbrückung dieser Lücke, indem wir einen Ansatz vorstellen, der unitäre Operatoren in den latenten Raum eines LLM abbildet und so eine einheitliche Modellierung über Quanten- und Spracheingaben hinweg ermöglicht. Wir setzen diese Idee für die Clifford+T-Schaltkreissynthese über einen Pauli-Rotationsgattersatz um, wobei unser Modell Ergebnisse erzielt, die mit den neuesten Methoden konkurrieren können, und sich konsistent mit den Trainingsdaten skaliert, ohne Anzeichen von Sättigung. Unser Ansatz ermöglicht zudem eine sprachkonditionierte Synthese, bei der während des Trainings nicht gesehene Gattereinschränkungen direkt in natürlicher Sprache spezifiziert werden können. Diese Arbeit deutet einen Weg hin zu quantenbewussten Grundlagenmodellen an, die Quantenoperationen nativ interpretieren und darüber nachdenken können – mit möglicherweise breiteren Auswirkungen, die sich über die Quantenkompilierung und die Algorithmenentdeckung erstrecken.
Bildencoder für das Retrieval werden typischerweise mit Überwachung durch Klassenlabels trainiert: jedes Trainingspaar reduziert sich auf einen Skalar, der die Einbettung gleichmäßig auseinanderdrückt oder zusammenzieht, als ob jedes visuelle Attribut entweder unterschiedlich oder gleich wäre. Ein multimodales großes Sprachmodell (MLLM), dem das gleiche Paar gezeigt wird, kann diese Attribute artikulieren und sie nutzen, um vorherzusagen, ob die Bilder eine gemeinsame Klasse haben. Wir schlagen SAGA vor, ein Framework, das diese sprachbasierte, attributbewusste Wahrnehmung in ein Trainingssignal für den Encoder selbst verwandelt. Insbesondere verwenden wir eine Gruppenrelative Policy-Optimierung (GRPO), um das MLLM für korrekte Vorhersagen auf den Token des Bildencoders zu belohnen. Da korrekte Vorhersagen erfordern, dass diese Token die spezifischen Attribute offenbaren, die sich zwischen dem Paar unterscheiden oder gleichen, treibt der Gradient den Encoder dazu an, diese zu kodieren, und ersetzt den gleichförmigen paarebenen Skalar durch eine attributaufgelöste Überwachung. Ein zusätzlicher Aufmerksamkeits-Destillationsverlust verankert die Einbettung des Encoders in den Token, auf die das MLLM achtete, und ein Standard-Metric-Learning-Verlust formt die Einbettungsgeometrie für das Nächste-Nachbarn-Retrieval. Das MLLM bleibt während des gesamten Prozesses eingefroren und wird zur Inferenz verworfen, was den Bereitstellungskosten einer Metric-Learning-Baseline entspricht. SAGA verbessert die Recall@1 um 3 bis 6 Punkte gegenüber modernsten Basislinien auf CUB-200-2011, Cars-196, FGVC-Aircraft und iNaturalist Aves beim Zero-Shot-Bildretrieval.
Referenzgeführte Generierung (z. B. Objektkomposition, Anpassung) hat rasche Fortschritte gemacht, doch aktuelle Pipelines teilen eine grundlegende Einschränkung: Das von Nutzern bereitgestellte objektzentrierte hochauflösende Referenzbild (HRRI) wird vor der Eingabe in das Modell auf eine feste niedrige Auflösung (LR) herunterskaliert, sodass die feinkörnigen Details bereits vor der eigentlichen Ausgabe verworfen werden. Hinzu kommt, dass der Generierungsschritt auf diesen Verlust aufbauend eigene Artefakte (z. B. Identitätsverzerrung) einführt. Bestehende Verfahren zur referenzgeführten Verfeinerung generierter Inhalte (RefGCR) können einige dieser Artefakte korrigieren, arbeiten jedoch weiterhin im LR-Bereich; referenzgeführte Superauflösungsverfahren (RefSR) stellen die Auflösung wieder her, gehen aber von natürlichen Bilddegradationen aus und ignorieren die Artefaktverteilung generativer Pipelines. Um beide Lücken in einer einheitlichen Formulierung zu schließen, führen wir eine neue Aufgabe ein: referenzgeführte Superauflösungs-Verfeinerung generierter Inhalte (RefGC-SR²), bei der das ursprüngliche HRRI in der Nachbearbeitungsphase wiederverwendet wird, um verlorene Details wiederherzustellen, generative Artefakte zu verfeinern und gleichzeitig die Ausgabe hochzuskalieren. Wir konstruieren die erste Pipeline zur Erzeugung realer Triplettdaten für diese RefGC-SR²-Aufgabe, indem wir einen diptychon-konditionierten Generator trainieren, der gepaarte minderwertige Anker synthetisiert, die öffentliche vortrainierte Modelle nicht liefern können. Darüber hinaus stellen wir ein frequenzbewusstes Diffusionstransformatormodell für RefGC-SR² vor, das selektiv feine Details aus dem HRRI injiziert und gleichzeitig generative Artefakte entfernt. Umfangreiche Experimente zeigen, dass unser RefGC-SR²-Modell erfolgreich (i) die Objektidentität getreu der Referenz verfeinert und (ii) hochauflösende Details wiederherstellt, sodass das Endergebnis im Vergleich zu bestehenden RefGCR- und RefSR-Basislinien signifikant höherwertig und praktisch nutzbarer ist.
Die Erzeugung realistischer menschenähnlicher Bewegungen aus Szenenbildern und Text umfasst sowohl niederfrequente Posen-Semantik als auch hochfrequente physikalische Dynamiken. Viele bestehende Methoden tokenisieren Bewegungen jedoch mit einem einzigen gemeinsamen Codebuch, wodurch heterogene Bewegungssignale in denselben Quantisierungsraum gezwungen werden. Unsere Frequenzbereichsanalyse von menschlichen Bewegungsdaten zeigt eine deutliche Diskrepanz zwischen der Einzelcodebuch-Quantisierung und der Bewegungsstatistik: Fünf DCT-Koeffizienten erfassen 93 % der Gelenkpositionsenergie, aber nur 37 % der Gelenkgeschwindigkeitsenergie, was die Quantisierung zugunsten der Posenstatistik verzerren und hochfrequente Geschwindigkeitskomponenten unterrepräsentieren kann. Eine zweite Herausforderung liegt in der Anpassung eines standardmäßigen autoregressiven Modells zur effektiven Modellierung hochfrequenter physikalischer Signale in Bewegungssequenzen. Daher schlagen wir DSFT vor, einen Dual-Stream-Frequenz-Tokenizer, der Bewegungen in Basis- und physikalische Ströme trennt und diese unabhängig voneinander mittels DCT-Trunkierung und BPE komprimiert. Darüber hinaus präsentieren wir MotionVLA, ein auf Qwen3.5 basierendes Modell, das Basis- und physikalische Tokens in einer einheitlichen Sequenz anordnet, wobei Phys-Tokens nach den Basis-Tokens vorhergesagt werden. Experimente mit HumanML3D und MBench zeigen, dass MotionVLA trotz eines leichten 2B-Backbones die Diversitätslücke zu echten Daten auf HumanML3D um über 50 % reduziert und die Bewegungs-Bedingungs-Konsistenz auf MBench um 3,8 % verbessert, was die frequenzbewusste Dual-Stream-Entkopplung als effektive Formulierung für autoregressive Bewegungserzeugung unterstützt. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.
Disaggregierte Inferenzarchitekturen trennen physisch die Prefill- und Decode-Phasen auf unterschiedliche GPU-Pools auf, wodurch konkurrierende „Agenten" entstehen, die sich ein festes Hardwarebudget teilen. Wir liefern nach unserem Kenntnisstand die erste formale spieltheoretische Analyse dieser Architektur und verwenden NVIDIA Dynamo als konkretes Fallbeispiel. Wir modellieren das disaggregeierte Serving als drei gekoppelte Spiele: ein Zwei-Spieler-Ressourcenspiel zwischen Prefill- und Decode-Pool, ein selbstsüchtiges Caching-Spiel über den hierarchischen KV-Cache und ein Stauspiel mit positiven Externalitäten für das Request-Routing. Die letzten beiden validieren wir empirisch; das P/D-Ressourcenspiel wird analytisch behandelt (Abschnitt 9.2). Wir charakterisieren, wie GPU-Sättigung Regimeübergänge induziert, die die Auszahlungsstruktur des Spiels verschieben: Unterhalb der Sättigung weist egoistisches Verhalten einen begrenzten Price of Anarchy (PoA) auf; bei Sättigung treiben überlineare Latenzen und Cache-Externalitäten unseren empirischen Schätzer PoA-hat (definiert in Abschnitt 6.4) nach oben. Auf dieser Grundlage entwerfen wir einen adaptiven Controller, der Sättigungsübergänge in Echtzeit erkennt und die Routingparameter entsprechend anpasst, indem er von der Ausnutzung von Cache-Affinität zur lastausgeglichenen Überlastvermeidung übergeht. Wir setzen unser Framework auf einem 3-Knoten-NVIDIA-B200-Cluster um, das Dynamo mit zwei Modellen betreibt: Nemotron-4-340B (TP=8, Full-Node-Worker mit Cross-InfiniBand-KV-Transfers) und Llama-3.1-70B (TP=4). Dabei finden wir auf beiden Modellen dieselbe Drei-Regime-PoA-hat-Struktur mit demselben ersten Gitterpunkt nach dem Knick (C=128). Adaptives Routing verschiebt jedes Modell zu einem besseren Arbeitspunkt. Unser stärkstes Ergebnis betrifft die 70B-1P/5D-Topologie, wo PoA-hat in der gesättigten Phase um das 3,1-fache (von 66,4 auf 21,5) sinkt, bei einem Durchsatzkosten von 13%. Bei der 70B-1P/2D-Topologie sinkt PoA-hat um das 2,2-fache und TTFT P99 um das 7,6-fache (siehe Abschnitt 8.5).
Mehr-Agenten-LLM-Systeme teilen Zustände über Speicher-Repositorys, Vektorindizes und Werkzeugregister. Wir modellieren diese gemeinsame Nutzung als langlaufende Lese-Generiere-Schreibe-Operationen unter deterministischer Generierungssemantik – dem Regime, das dauerhafte Ausführungs-Engines durch deterministische Wiederholung erzwingen – und formalisieren in TLA+ vier Parallelitätsanomalien: Veraltete-Generierung (stale-generation), Phantom-Werkzeug (phantom-tool), Kausalkaskade (causal-cascade) sowie Werkzeug-Effekt-Umordnung (tool-effect reordering), strukturelle Analoga klassischer Isolationsanomalien, jeweils mit einem TLC-Gegenbeispiel. Das Exklusionsgitter über diesen Anomalien ist trivial; der Beitrag ist die mechanisch verifizierte Realisierbarkeit und strikte Trennung einer maximalen Kette darin, L_0 subsetneq cdots subsetneq L_4, nach unserem Wissen die erste maschinengeprüfte Konsistenzhierarchie für solche Laufzeitsysteme. Eine Entwicklung von 274 Verus-Obligationen (null assume, null admit; Vertrauensbasis: zwei strukturelle Axiome und eine Mutex-Korrespondenz) beweist die Detektoren als korrekt und vollständig gegenüber den Spezifikationen und jede Laufzeitumgebung als ihre Vermeidungsmenge. Drei eingesetzte Rust-Laufzeitsysteme realisieren L0–L1 (pessimistisches Sperren, serialisierbare Snapshot-Isolation, Default-SI), jedes verifiziert gegen Veraltete-Generierung und verfeinert auf seinen Zustandsautomaten; L2–L4 sind ausführungsmodus-verifiziert mit abhängigkeitsfreien Präventionszwillingen (A3, A6, A2: 0/1000 gegenüber 1000/1000), und L2 wird live über drei Modellfamilien ausgeführt (A3 in allen 120 zurückgezogenen Sitzungen verhindert). Wir reproduzieren einen stillen verlorenen Update in ByteDances Deerflow, formalisieren dessen Behebung als verifizierte L_0- zu L_1-Verfeinerung und zeigen Werkzeug-Effekt-Umordnung im ToolNode von LangGraph bei unveränderter Ausgabe, entfernt durch einen L3-Commit-Order-Sequenzer. Die verifizierten Detektoren, Verfeinerungen und Realisierbarkeitsartefakte sind der Beitrag; die Phänomene und das Gitter sind klassisch.