Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Viele Momente in der realen Welt warten nicht darauf, dass ein Nutzer sie anspricht. Ein Feuer bricht auf einem Sicherheitsmonitor aus, ein Gesichtsausdruck huscht über eine Video-Call-Oberfläche, oder ein Produkt, das ein Zuschauer begehrt, fliegt in einem Livestream vorbei. Dennoch bleiben heutige große Modelle größtenteils zugbasiert (turn-based) konzipiert: Sie antworten nur, wenn sie angesprochen werden, und selbst Video-Call-Apps, die interaktiv erscheinen, funktionieren weiterhin als Frage-Antwort-Systeme, die nur reagieren, wenn sie abgefragt oder aufgefordert werden. Wir plädieren für ein anderes Paradigma: ein Modell, das wie ein Mensch in der Welt präsent ist. Es beobachtet kontinuierlich das aktuelle Geschehen, entscheidet eigenständig, ob es sprechen oder schweigen soll, interagiert in Echtzeit und delegiert schwierige Probleme an ein Hintergrundmodell. Um Interaktionsmodelle und deren Anwendung in verschiedenen Bereichen voranzubringen, leisten wir zwei vollständig quelloffene Beiträge. Erstens veröffentlichen wir JoyAI-VL-Interaction, ein vision-zentriertes VL-Interaktionsmodell im 8B-Maßstab. Das Modell trifft die Entscheidung zur Antwort intern, wählt jede Sekunde zwischen Schweigen, Antworten oder Delegation an ein Hintergrundmodell und zeichnet sich durch vision-getriggerte Reaktionsfähigkeit und Zeitbewusstsein aus. Wir kombinieren es mit einem übertragbaren Trainingsrezept, aus dem Fähigkeiten emergieren, für die wir nie spezifisch trainiert haben – etwa das Führen eines Käufers durch wechselnde App-Bildschirme oder das Improvisieren eines Vortrags aus einer Folienpräsentation. Zweitens veröffentlichen wir ein vollständiges, einsatzbereites System, das um dieses Modell herum aufgebaut ist. Das System streamt jedes laufende Video in das Modell und macht es so echt präsent in der Welt. Alle anderen Komponenten sind ansteckbar, darunter ASR/TTS-Module, Speicher, Visualisierungs-UI und ein Hintergrund-Brain, das an jede API oder jeden Agenten angebunden werden kann. In sechs realen Szenarien bevorzugen menschliche Bewerter JoyAI-VL-Interaction mit großem Abstand gegenüber den integrierten Video-Call-Assistenten von Doubao und Gemini. Nach unserem Wissen ist dies das erste offene, visionsgetriebene Interaktionsmodell, das zusammen mit seinem Trainingsrezept, Daten und einem vollständig einsetzbaren System veröffentlicht wird.
Daten erzählen Geschichten, die die Gesellschaft prägen; die Aufgabe des Datenjournalisten besteht darin, rohe Informationen in Geschichten zu verwandeln, denen auch Laien vertrauen können. Eine hochwertige Nachrichtenreportage erfordert wochenlange Arbeit eines Nachrichtenteams: Kontextsuche, statistische Auswertung, Wahl des Blickwinkels und Gestaltung von Visualisierungen. Aktuelle Agenten bewältigen einzelne Schritte gut: Datenwissenschaftsagenten schließen die Analyseschleife, während Designagenten ansprechende Websites synthetisieren. Aber kann ein Agent als Datenjournalist durchgängig fungieren? Wir stellen den Data Journalist Agent (Data2Story) vor, ein Multi-Agenten-Framework, das spezialisierte Rollen in einer einzigen virtuellen Nachrichtenredaktion orchestriert. Data2Story bietet zwei Neuerungen: (i) Aussagen sind evidenzbasiert: Ein Inspector verknüpft jede Zahl, Perspektive und jedes Asset mit den zugrundeliegenden Daten, dem Code oder einer externen Referenz. (ii) Artikel sind multimodal generativ: Statt standardmäßig auf reinen Text und statische Diagramme zurückzugreifen, überlegt Data2Story, was Leser sehen möchten, und setzt dann multimodale Werkzeuge ein, wie interaktive Karten für Geografie und Audio für Musik. Wir evaluieren Data2Story anhand von 18 Artikeln, die jeweils mit der ursprünglich veröffentlichten Expertenarbeit verglichen werden, entlang von vier Achsen: (a) Abdeckung der Blickwinkel zwischen Mensch und Agent; (b) Rubrikenbewertung mit 53 Teilnehmern über fünf Dimensionen; (c) Computer-Use-Agenten als Bewerter, ein kostensparender Proxy für die Navigation von Lesern durch interaktive Artikel; und (d) Überprüfbarkeit, bei der ein Code-Verifizierer Aussagen erneut anhand der Daten ausführt und Behauptungen gegen Referenzen prüft. Data2Story produziert konkurrenzfähige, evidenzbasierte Multimedia-Geschichten, insbesondere mit Stärken in Transparenz und Nachvollziehbarkeit. Menschliche Artikel behalten einen Vorteil in redaktionellem Blickwinkel, kreativem Design und Präsentation. Wir positionieren Data2Story als Kollaborateur für Journalisten, der eine stärker evidenzbasierte, transparente und überprüfbare Berichterstattung ermöglicht. Code und Demos sind verfügbar unter https://data2story.github.io.
Allgemeine Roboterrichtlinien müssen Benutzeranweisungen befolgen und gleichzeitig über die Interaktionen von Objekten, Kameras und Roboteraktionen in der dreidimensionalen physischen Welt nachdenken. Aktuelle Vision-Language-Action-Modelle (VLAs) und Video-World-Action-Modelle (WAMs) übernehmen starke semantische oder zeitliche A-priori-Wissen aus großen Foundation-Modellen, operieren jedoch weiterhin hauptsächlich auf 2D-Bildern oder aus 2D abgeleiteten latenten Räumen, wodurch die für kontaktreiche Manipulation erforderliche 3D-Geometrie implizit bleibt. Wir schlagen das Geometric Action Model (GAM) vor, eine sprachgesteuerte Manipulationsrichtlinie, die ein vortrainiertes Geometric Foundation Model (GFM) direkt als gemeinsames Substrat für Wahrnehmung, zeitliche Vorhersage und Aktionsdecodierung wiederverwendet. GAM teilt das GFM an einer Zwischenschicht: Die flachen Schichten dienen als Beobachtungsencoder, und ein kausaler Zukunftsvorhersager, der an der Teilungsstelle eingefügt wird, prognostiziert zukünftige latente Tokens basierend auf Sprache, Propriozeption und Aktionshistorie. Die vorhergesagten zukünftigen Tokens werden dann durch die verbleibenden GFM-Blöcke zur Merkmalsausbreitung und Decodierung geleitet, sodass ein einzelnes Rückgrat sowohl zukünftige Geometrie als auch Aktionen erzeugen kann. Dieses Design stattet das GFM mit sprachgesteuerter zeitlicher Weltmodellierung durch minimale architektonische Änderungen aus, während seine reichhaltigen geometrischen A-priori-Wissen erhalten bleiben. In einer breiten Palette von Simulationen und realen Roboter-Manipulations-Benchmarks erweist sich GAM als genauer, robuster, schneller und leichter als aktuelle Baselines im Foundation-Modell-Maßstab.
DreamX-World 1.0 ist ein universelles interaktives Text/Bild-zu-Video-Weltmodell zur steuerbaren Langzeitgenerierung. Es unterstützt Kameranavigation, die Wiederbesuche zuvor beobachteter Regionen sowie promptgesteuerte Ereignisse in fotorealistischen, spielstilisierten und stilisierten Domänen. Unsere Daten-Engine kombiniert kameragenaues Unreal-Engine-Rendering, aktionsreiche Gameplay-Aufzeichnungen und reale Videos mit wiederhergestellter Kamerageometrie. Für die Kamerasteuerung führen wir E-PRoPE ein, eine leichtgewichtige Variante der projektiven Positionskodierung, die die projektive Kamerageometrie von PRoPE beibehält und gleichzeitig kamerabewusste Aufmerksamkeit auf räumlich reduzierte Token anwendet. Wir wandeln einen bidirektionalen Videogenerator in ein autoregressives Weltmodell mit wenigen Schritten um, indem wir kausales Forcing, DMD-artige Destillation und Langzeitausrolltraining einsetzen. Das Training auf selbstgenerierten Langzeitkontexten setzt das Modell seiner eigenen generierten Historie aus und reduziert den Stil- und Farbdrift, der sich über autoregressive Blöcke hinweg ansammelt. Memory-Conditioned Scene Persistence ruft frühere Ansichten über kamerageometriebasiertes Retrieval ab, während Residual Recycling den Konditionierungspfad weniger empfindlich gegenüber unvollkommenen Memory-Latentvariablen macht. Event Instruction Tuning fügt zusammensetzbare Ereignissteuerung hinzu, und Reinforcement-Learning-Alignment stellt Kamerasteuerung und visuelle Qualität nach der Destillation wieder her. Mit Mixed-Precision-DiT-Ausführung, Residuenwiederverwendung, um 75% beschnittener VAE-Dekodierung und asynchronem Pipeline-Parallelismus erreicht DreamX-World 1.0 bis zu 16 FPS auf acht RTX 5090 GPUs. In unserer grundlegenden 5-Sekunden-Evaluierung erzielt DreamX-World 1.0 einen Kamerasteuerungswert von 73,75 und einen Gesamtwert von 84,76 und übertrifft damit HY-WorldPlay 1.5 und LingBot-World im Gesamtwert, die 80,79 bzw. 80,45 erreichen.
Dieser technische Bericht stellt VibeThinker-3B vor, ein kompaktes dichtes Modell mit 3 Milliarden Parametern, das entwickelt wurde, um zu untersuchen, wie weit verifizierbares Denken in einem streng kleinen Modellbereich vorangetrieben werden kann. Aufbauend auf dem Spectrum-to-Signal-Post-Training-Paradigma verbessern wir das Modell systematisch durch eine optimierte Pipeline, die curriculum-basiertes überwachtes Feintuning, Multi-Domänen-Verstärkungslernen und Offline-Selbstdestillation umfasst. Experimentelle Evaluierungen zeigen, dass VibeThinker-3B auf höchst anspruchsvollen verifizierbaren Aufgaben Leistungen auf Spitzenniveau erzielt. Insbesondere erreicht es eine Punktzahl von 94,3 auf AIME26 (verbessert auf 97,1 mit Anspruchslevel-Testzeit-Skalierung), einen 80,2 Pass@1 auf LiveCodeBench v6 und zeigt eine starke Out-of-Distribution-Generalisation mit einer Akzeptanzrate von 96,1 % auf aktuelle, ungesehene LeetCode-Wettbewerbe. Dies platziert es effektiv im Leistungsband erstklassiger Denksysteme, die Flaggschiffmodelle, die um Größenordnungen größer sind, wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro, erreichen oder übertreffen. Darüber hinaus bestätigt eine Punktzahl von 93,4 auf IFEval, dass diese extreme Denkverbesserung die strenge Kontrollierbarkeit von Anweisungen nicht beeinträchtigt. In Erweiterung unserer vorherigen Arbeit mit 1,5B motivieren diese Erkenntnisse die Parametrische Kompressions-Abdeckungs-Hypothese, die verifizierbares Denken als komprimierbar in kompakte Denkkernstrukturen betrachtet, während offenes Domänenwissen und allgemeine Kompetenz eine breite Parameterabdeckung über Fakten, Konzepte und Long-Tail-Szenarien erfordern. Diese Perspektive legt nahe, dass kompakte Modelle nicht nur einsatz-effiziente Substitute sind, sondern einen komplementären Weg zu Spitzenleistungen in parameter-dichten Fähigkeitsbereichen darstellen.
Große Sprachmodelle (LLM) als Codierungsagenten haben bei Softwareentwicklungsaufgaben starke Ergebnisse erzielt, doch die Repository-Erkundung bleibt ein wesentlicher Engpass: Das Auffinden relevanter Codes verbraucht erhebliches Token-Budget und verunreinigt den Kontext des Agenten mit irrelevanten Ausschnitten. In den meisten Agenten erkundet dasselbe Modell das Repository und löst die Aufgabe, sodass explorative Lese- und Suchvorgänge im Verlauf des Lösers verbleiben. Wir stellen FastContext vor, einen spezialisierten Erkundungs-Unteragenten, der die Repository-Erkundung von der Lösung trennt. Bei Bedarf aufgerufen, führt FastContext parallele Tool-Aufrufe durch und gibt präzise Dateipfade und Zeilenbereiche als fokussierten Kontext zurück. FastContext wird von spezialisierten Erkundungsmodellen mit 4B–30B Parametern betrieben. Wir bootstrappen diese aus starken Referenzmodell-Trajektorien und verfeinern sie mit aufgabenbasierten Belohnungen für breite Erstsuche, mehrschrittige Beweissammlung und präzise Zitationserstellung. Über SWE-bench Multilingual, SWE-bench Pro und SWE-QA hinweg verbessert die Integration von FastContext in Mini-SWE-Agent die End-to-End-Lösungsraten um bis zu 5,5 % bei gleichzeitiger Reduzierung des Token-Verbrauchs des Codierungsagenten um bis zu 60 % bei vernachlässigbarem Mehraufwand. Diese Ergebnisse zeigen, dass die Repository-Erkundung von der Lösung getrennt und effektiv von spezialisierten Modellen durchgeführt werden kann. Code und Daten: https://github.com/microsoft/fastcontext
Effiziente und skalierbare agentische Intelligenz erfordert Modelle, die sowohl reaktionsarme Latenz als auch starke Schlussfolgerungsfähigkeiten bieten können, während sie gleichzeitig praktikabel in Training, Bereitstellung und Einsatz bleiben. In diesem Bericht stellen wir Ling-2.6 und Ring-2.6 vor, eine Modellfamilie, die entwickelt wurde, um diese Herausforderung im großen Maßstab zu bewältigen. Ling-2.6 ist optimiert für die sofortige Antwortgenerierung und hohe Leistungsfähigkeit pro Ausgabetoken, während Ring-2.6 auf tiefere Schlussfolgerungen und fortgeschrittenere agentische Arbeitsabläufe zugeschnitten ist. Anstatt von Grund auf zu trainieren, verbessern wir das Basismodell Ling-2.0 durch architektonische Migrations-Vorabtrainings und groß angelegtes Nachtraining. Diese Verbesserung wird durch ein einheitliches Co-Design von Modellarchitektur, Optimierungszielen, Bereitstellungssystemen und agentischen Trainingsumgebungen geleitet, was Verbesserungen sowohl der Modellfähigkeiten als auch der Bereitstellungseffizienz ermöglicht. Auf architektonischer Ebene führen wir ein hybrides lineares Aufmerksamkeitsdesign ein, das Blitzaufmerksamkeit mit MLA integriert und so die Effizienz von langkontextbezogenem Training und Decodierung verbessert. Um die Token-Effizienz weiter zu steigern, optimieren wir die Leistungsfähigkeit pro Ausgabetoken durch evolutionäre Gedankenkette, linguistische Einheiten-Politikoptimierung, bidirektionale Präferenzausrichtung und Destillation der korrektesten und kürzesten Antwort. Für agentische Fähigkeiten schlagen wir KPop vor, ein Reinforcement-Learning-Framework, das entwickelt wurde, um stabiles Training von Ring-2.6-1T auf umgebungsbasierten Daten im großen Maßstab zu unterstützen. KPop verbessert die Trainingseffizienz durch asynchrone Planung über Codierung, Suche, Werkzeugnutzung und Arbeitsablaufausführung hinweg und ermöglicht so skalierbares Lernen aus komplexen Agent-Umgebungs-Interaktionen. Zusammen bieten Ling-2.6 und Ring-2.6 einen praktischen Weg zu effizienten, skalierbaren und offenen agentischen Systemen. Wir veröffentlichen alle Checkpoints der 2.6-Familie als Open Source, um weitere Forschung und Entwicklung in praktischer agentischer Intelligenz zu unterstützen.
Maskierte Diffusions-Sprachmodelle (MDLMs) haben sich als eigenständiges Paradigma für die Sequenzgenerierung etabliert. Da MDLMs hinsichtlich ihrer Fähigkeiten und Wissensabdeckung zunehmend vielfältiger werden, stellt sich die wichtige Frage, wie ihr Wissen kombiniert werden kann. Hierzu untersuchen wir zunächst die einzigartigen Dekodierungsdynamiken von MDLMs. Wir stellen fest, dass erfolgreiche Generierungen stabile Konfidenzdynamiken über antwortrelevante Positionen hinweg aufweisen, während unzuverlässige Trajektorien oft durch die Injektion vielversprechender Zwischenzustände anderer Modelle korrigiert werden können. Ausgehend von dieser Beobachtung schlagen wir TIE (Trajektorienbasiertes Iteratives Ensembling) vor, ein Wissensfusionsframework, bei dem MDLMs iterativ zuverlässige Dekodierungstrajektorien identifizieren und diese zwischen Modellen weiterleiten. TIE verfolgt die Konfidenzdynamiken über antwortrelevante Positionen hinweg, um zu bestimmen, welches Modell aktuell einer zuverlässigeren Trajektorie folgt, und überträgt selektiv teilweise entrauschte Sequenzen zwischen den Modellen. Da sich das Modell auf der vielversprechenderen Trajektorie oft über die Entrauschungsschritte hinweg ändert, ermöglicht TIE verschiedenen Modellen, in verschiedenen Phasen der Generierung komplementäre Stärken beizutragen. Die starke Leistungsfähigkeit über verschiedene Reasoning-Aufgaben hinweg sowie unsere Analysen deuten darauf hin, dass TIE einen praktischen Ansatz für das wenig erforschte Problem des MDLM-Ensemblings bietet.
Das inverse Rendern von urbanen Szenen aus aufgezeichneten Videos ermöglicht zahlreiche Anwendungen, darunter die Inhaltserstellung und Simulation des autonomen Fahrens. Physikbasierte Rendering-Verfahren folgen und steuern die Lichtphysik, leiden jedoch unter Rekonstruktions- und Render-Artefakten. Während generative Modelle realistische Videos erzeugen, bieten sie nur eine begrenzte Konsistenz und Kontrollierbarkeit. Wir stellen BRDFusion vor, ein einheitliches Framework, das zwei komplementäre Modelle für inverses und vorwärtsgerichtetes Rendering kombiniert. Insbesondere rekonstruiert BRDFusion explizite, konsistente Szeneneigenschaften mit physikalischer Modellierung und mildert Optimierungsambiguitäten durch generative Vorwissen. Während des Vorwärts-Renderings liefert das physikalische Modell kontrollierbares Rendering basierend auf der Szenenkonfiguration, während das generative Modell Rauschen reduziert und Artefakte behebt. Daher erzeugt unsere Methode hochwertige Videos bei gleichzeitiger präziser Kontrolle und übertrifft Basislinien in realen und synthetischen Szenen. Darüber hinaus unterstützt BRDFusion Neuansichts-Relighting, Nachtsimulation sowie dynamisches Einfügen/Bearbeiten von Objekten. Projektseite: https://shigon255.github.io/brdfusion-page/
Vision-Language-Modelle dienen als universelle Schnittstellen für komplexe multimodale Aufgaben. Dennoch bestehen bei der Bereitstellung weiterhin drei Lücken: VLMs verursachen typischerweise hohe Latenz und Kosten bei der Verarbeitung dichter Videobilder und langer Prompts, das Agenten-Scaffold bleibt nach der Bereitstellung statisch, und standardmäßige Video-QA-Benchmarks testen nicht, ob Agenten visuelle Belege innerhalb von Werkzeug- Arbeitsbereichen nutzen können. Wir präsentieren VisualClaw, einen selbst-evolvierenden multimodalen Agenten, der auf zwei Prinzipien aufbaut. Erstens reduziert die hybride Kodierung die Bereitstellungskosten, indem sie weniger informative Streaming-Bilder durch ein kaskadiertes Gatter filtert und die Textfähigkeitsbank durch Heiß/Kalt-Top-k-Injektion komprimiert. Zweitens ermöglicht die Fähigkeitsentwicklung dem Agenten, aus Fehlern zu lernen: Abgerufene Erinnerungen konditionieren einen Evolver entweder als direkten verketteten Kontext oder als geführte Belege, was zu Aktualisierungen der Fähigkeitsbank führt, die zukünftige Fragen unterstützen. Über 4 Video-QA-Benchmarks mit 2 VLMs senkt VisualClaw die API-Kosten pro Frage im Durchschnitt um -98 % im Vergleich zum Hochladen aller Bilder und um -25,9 % gegenüber der offline gleichmäßigen 8-Bild-Baseline, während die Genauigkeit in den meisten Umgebungen gesteigert wird, z. B. um durchschnittlich +3,85 % und bis zu +15,80 % auf EgoSchema mit Gemini 3 Flash. Um diese Lücke zu schließen, kuratieren wir VisualClawArena, einen 200-Szenarien umfassenden multimodalen agentischen Benchmark, der durch eine strenge fünffache Pipeline erstellt wurde; Modelle müssen Videobelege, Dokumente, dynamische Aktualisierungen und ausführbare Prüfungen innerhalb eines Arbeitsbereichs nutzen. In VisualClawArena verbessert dasselbe Framework mit Computer-Use-Agenten-Backends die makroskopische Genauigkeit um +2,9 % für Codex (GPT-5.5) und +3,2 % für Claude Code (Sonnet 4.6) gegenüber Baselines ohne Evolution, bei einer Kostenreduktion von -9,5 % im Vergleich zur gleichmäßig abgetasteten Baseline. Diese Eigenschaften machen VisualClaw zu einer natürlichen Wahl für Edge-Anwendungen, wo die Kaskade eine einstündige Streaming-Sitzung von ~3.600 API-Uploads auf nur 5–20 Aufrufe reduziert und die Selbst-Evolution es zu einem perfekten personalisierten Assistenten macht.
Wir stellen Qwen-RobotWorld vor, ein sprachgesteuertes Videoweltmodell für verkörperte Intelligenz. Mit natürlicher Sprache als einheitlicher Aktionsschnittstelle prognostiziert es physikalisch fundierte zukünftige visuelle Trajektorien aus aktuellen Beobachtungen in den Bereichen Robotermanipulation, autonomes Fahren, Indoor-Navigation und Mensch-zu-Roboter-Transfer. Diese einheitliche Formulierung eröffnet drei vielversprechende Anwendungsrichtungen: synthetische Datengenerierung zur Erweiterung des Policy-Trainings, skalierbare virtuelle Umgebungen zur Policy-Evaluierung sowie sprachgesteuerte Planungssignale für die nachgelagerte Robotersteuerung. Dies wird durch ein dreiteiliges Design erreicht: a) Double-Stream MMDiT mit MLLM-Aktionskodierung, wobei ein 60-lagiger Double-Stream-Diffusionstransformer die eingefrorene Qwen2.5-VL-Semantik durch schichtweise gemeinsame Aufmerksamkeit mit Video-VAE-Latents koppelt; b) Embodied World Knowledge (EWK), ein 8,6 Mio. Video-Text-Korpus (über 200 Mio. Frames) mit Aktions-Sprach-Zuordnung über mehr als 20 Verkörperungen und über 500 Aktionskategorien; und c) General+Expert Progressives Curriculum, eine zweistufige Trainingsstrategie, die zunächst allgemeine visuelle A-priori-Kenntnisse erlernt und dann unter einer gemeinsamen Sprachschnittstelle verkörperte Spezialisierung einbringt. Umfangreiche Ergebnisse zeigen eine hohe Wettbewerbsfähigkeit: Insgesamt Platz 1 auf EWMBench und DreamGen Bench, Überlegenheit gegenüber allen Open-Source-Modellen auf WorldModelBench und PBench. Weitere Zero-Shot-Analysen auf dem RoboTwin-IF-Benchmark bestätigen robuste Generalisierung und Multi-View-Konsistenz.
Multitask-Lernen (MTL) ist in Empfehlungssystemen unerlässlich, um komplementäres Lernen aus verschiedenartigem Nutzerfeedback zu ermöglichen. Während moderne industrielle Praktiken von DNNs auf transformerzentrische Architekturen umgestellt haben, um die Sequenzmodellierung und Skalierungskapazität zu stärken, entkoppeln sie weiterhin die Merkmalskodierung von der Multitask-Vorhersage und behandeln den Transformer als aufgabenagnostischen Encoder. Dieses Design schränkt die Leistungsfähigkeit und Skalierbarkeit grundlegend ein, indem es (1) einen Informationsengpass unter heterogenen Aufgabenstellungen erzeugt, (2) Gradienteninterferenz induziert, die zum Wippphänomen führt, und (3) einen Datenflussübergang erzwingt, bei dem aufmerksamkeitsbasiertes, kontextadaptives Repräsentationslernen in eine statische vorwärtsgerichtete Aufgabenvorhersage mit inkompatiblen Informationslese- und -schreibdynamiken umgewandelt wird. Wir schlagen OneRank vor, ein transformernatives Multitask-Ranking-Framework, das die Encoder-Prädiktor-Trennung aufhebt und aufgabenprivate Kanäle für das vorwärtige Repräsentationslernen und die Rückwärtsoptimierung einführt. Dies ermöglicht aufgabenspezialisiertes Lernen bei gleichzeitiger Reduzierung von Interferenzen zwischen Aufgaben. Im Vorwärtspass lernt OneRank aufgabenspezifische Repräsentationen Bottom-up durch aufgabenabhängige Informationsauswahl, kandidatenbewusste Kontextualisierung und kontrollierte aufgabenübergreifende Interaktion. Im Rückwärtspass isoliert die aufgabenübergreifende Gradiententrennung aufgabenprivate Parameteraktualisierungen von gemeinsamen Wissensextraktionsmodulen und verhindert so negativen Transfer. Darüber hinaus ersetzen wir statische aufgabenspezifische MLP-Scorer durch dynamisches matchbasiertes Scoring für kontextbewusstes personalisiertes Ranking. Durch die Verinnerlichung des Multitask-Schlussfolgerns innerhalb des Transformer-Stacks etabliert OneRank ein einheitliches und skalierbares Architekturparadigma. Offline- und Online-Experimente auf groß angelegten industriellen Datensätzen zeigen, dass OneRank die State-of-the-Art-Baselines signifikant übertrifft und dabei die Recheneffizienz beibehält.
Wenn LLM-Agenten in langfristigen Sitzungen eingesetzt werden, treibt die Kontextakkumulation die Inferenzkosten in die Höhe. Bestehende Ansätze nutzen Textbereinigung oder dynamisches Speicherverdrängen, um den Token-Fußabdruck zu minimieren; jedoch verändern ihre uneingeschränkten Sequenzmutationen die Layouts, was zu Präfix-Inkonsistenzen und Cache-Invalidierung führt. Dies offenbart einen kritischen Zielkonflikt zwischen Textsparsamkeit und Prompt-Cache-Kontinuität. Um dies zu adressieren, stellen wir TokenPilot vor, ein dual-granulares Kontextverwaltungsframework. Global fungiert die Ingestion-Aware Compaction als Rahmenwerkzeug, um Prompt-Präfixe zu stabilisieren und offene Umgebungsgeräusche am Aufnahmetor zu eliminieren. Lokal überwacht die Lifecycle-Aware Eviction den fortdauernden Restnutzen von Kontextsegmenten und erzwingt einen konservativen Batch-Turn-Zeitplan, um Inhaltssegmente nur dann auszulagern, wenn die Aufgabenrelevanz abläuft. Experimente auf PinchBench und Claw-Eval sowohl im isolierten als auch im kontinuierlichen Modus zeigen, dass TokenPilot die Kosten um 61% und 56% im isolierten Modus und um 61% und 87% im kontinuierlichen Modus senkt, während es eine wettbewerbsfähige Leistung im Vergleich zu früheren Systemen beibehält. TokenPilot wurde in LightMem2 unter https://github.com/zjunlp/LightMem2 integriert.
Visuelle Weltmodelle (VWMs) synthetisieren interaktive, aktionsabhängige Rollouts aus einem einzelnen Kontextbild. Es bleibt jedoch eine offene Frage, wie robust diese Modelle gegenüber adversarialen Störungen sind. Standardmäßige adversariale Angriffe versagen bei der Bewertung dieser Anfälligkeit, da Angreifer keine Ground-Truth-Zukunftsvideos besitzen und nachfolgende Benutzersteuerungen nicht vorhersagen können. Wir stellen BadWorld vor, ein bezeichnungsfreies adversaries Framework, das speziell für autoregressive VWMs entwickelt wurde und systematisch beide Einschränkungen überwindet. Erstens schlagen wir zur Umgehung des Bedarfs an zukünftiger Überwachung einen selbstüberwachten Geschwindigkeitsangriff vor, der direkt die frühen Entrauschungsdynamiken des Modells stört. Zweitens formulieren wir zur Sicherstellung der Generalisierung des Angriffs über unvorhersehbare Benutzeraktionen hinweg eine trajektorienadaptive zweistufige Optimierung, die aktiv schwierige Steuerungssequenzen abbaut, um steuerungsunabhängige Störungen zu erzeugen. Evaluiert auf repräsentativen VWMs mit kontinuierlichen und diskreten Steuerungen offenbart BadWorld eine schwerwiegende strukturelle Fragilität. Visuell nicht unterscheidbare adversariale Bilder führen zuverlässig zu katastrophaler Verschlechterung in zukünftigen Rollouts, was zu unvollständigem Entrauschen, strukturellem Kollaps und Steuerungsinkonsistenz führt. Diese Ergebnisse decken kritische Risiken für den Einsatz von VWMs in sicherheitskritischen Systemen auf und heben gleichzeitig einen praktischen Mechanismus zum Schutz der Privatsphäre hervor.
Die Erweiterung einer Vision-Language-Action (VLA)-Richtlinie auf eine neue Aufgabe erfordert typischerweise aufgabenspezifische teleoperierte Demonstrationen und ein aufgabenspezifisches Feintuning, was die Anpassung sowohl hinsichtlich des Datensammelns als auch des Rechenaufwands kostspielig macht. In dieser Arbeit zeigen wir, dass dieser zielseitige, aufgabenspezifische Anpassungsaufwand durch Retrieval ersetzt werden kann. Unsere retrieval-erweiterte Richtlinie wird einmalig auf gepaarten Demonstrationen der Zielausführung (Query) und einer günstigeren Ausführung (Pool, z. B. menschliches Handvideo) trainiert und dann eingefroren. Neue Aufgaben werden zur Bereitstellung hinzugefügt, indem Pool-seitige Demonstrationen an einen Retrieval-Pool angehängt werden. Die eingefrorene Richtlinie konditioniert bei jedem Steuerungsschritt auf abgerufene Trajektorien, sodass neue Aufgaben durch Indizierung von Daten aufgenommen werden, anstatt Parameter zu aktualisieren. Feintuning ist nur erforderlich, um eine neue, ungesehene Ausführung zu übernehmen, nicht für jede neue Aufgabe. Wir zeigen, dass Retrieval Richtlinien über ein spezifisches Rückgrat hinaus verbessert, einschließlich standardmäßiger VLA-Richtlinien, aber seine Wirkung ist besonders ausgeprägt in Cosmos Policy, einem auf Videogenerierung basierenden Weltaktionsmodell (WAM). In diesem Setting liefert Retrieval einen groben Aufgabenfortschritt, während das Zukunftsbild-Ziel des WAM ein zusätzliches visuelles Konsistenzsignal bereitstellt, das die retrieval-konditionierten Aktionen verstärkt. Auf PushT untersuchen wir, wie Retrieval einen wiederverwendbaren übergeordneten Bewegungs-Prior für die ausführungsübergreifende Generalisierung auf ungesehene Zielwinkel bereitstellt, während auf RoboTwin 2.0 unsere Methode ausführungsübergreifende Basislinien bei ungesehenen Aufgaben übertrifft, und wir demonstrieren die Methode zusätzlich an einem echten Roboter.
In dieser Arbeit stellen wir SP^3 vor, einen neuartigen Plug-and-Play-Algorithmus, der die Maximum-a-posteriori-Bildrestaurierung beschleunigt, indem er Denoiser als generative Priors durch Sphärische Encoder (SE) ersetzt. SP^3 approximiert den nicht handhabbaren proximalen Prior-Schritt, indem es den eng strukturierten latenten Raum des SE als robuste Projektion auf die natürliche Bildmannigfaltigkeit nutzt. Die Abwechslung dieser Projektion mit einem geschlossenen datenkonsistenten Schritt mittels Half-Quadratic Splitting ermöglicht eine stabile Konvergenz, ohne dass während der Inferenz Gradienten berechnet werden müssen. Diese einzigartige Formulierung erlaubt eine „Anytime“-Restaurierung, die bereits ab der ersten Iteration scharfe, plausible Bilder erzeugt. Bewertungen über verschiedene Bildrestaurierungsaufgaben hinweg zeigen, dass SP^3 eine mit modernsten Zero-Shot-Diffusions- und Flow-Methoden vergleichbare Wahrnehmungsqualität erreicht, dabei jedoch 3- bis 630-mal schneller ist.
Die Generierung von Langformvideos erfordert, dass wiederkehrende Subjekte in verschiedenen Einstellungen, Blickwinkeln, Bewegungen und Szenenübergängen konsistent bleiben. Bestehende Methoden der zeitlichen Zerlegung verbessern die Skalierbarkeit, indem sie Videos Einstellung für Einstellung generieren. Sie konzentrieren sich jedoch hauptsächlich auf die Optimierung plausibler Fortsetzungen der nächsten Einstellung, ohne zu überprüfen, ob der historische Speicher identitätskritische Subjektnachweise bewahrt. Folglich können wiederkehrende Subjekte im Laufe der Generierung verwässert, überschrieben oder vergessen werden. In dieser Arbeit schlagen wir Memento vor, ein subjektrekonstruktionsgestütztes Framework, das die Subjekterhaltung als explizites Identitätsverankerungsproblem behandelt, basierend auf der Prämisse, dass ein Speicher, der ein Subjekt treu bewahrt, die Rekonstruktion dieses Subjekts allein aus dem Speicher unterstützen sollte. Konkret trainiert Memento gemeinsam die autoregressive Generierung der nächsten Einstellung mit der speicherbasierten Subjektrekonstruktion, wobei Zielerscheinungen unter Verwendung des historischen Speichers und globaler Handlungsbeschreibungen wiederhergestellt werden. Um langreichweitige Subjektnachweise von kurzreichweitigen Hinweisen zu entflechten, führt Memento einen Dual-Query-Speichermechanismus ein, bei dem eine Abfrage identitätsrelevante Erinnerungen abruft und die andere Kurzkontext-Schlüsselbilder für eine kohärente Fortsetzung auswählt. Darüber hinaus liefert eine subjektbewusste kinematografische Datenpipeline präzise Rekonstruktionsüberwachung durch konsistente, pronomenfreie Subjektbeschreibungen. Experimente zeigen, dass Memento eine Spitzenleistung in der langfristigen Subjektkonsistenz, der einstellungsübergreifenden Kohärenz und der visuellen Qualität erzielt.
Wir stellen das Massive Video Embedding Benchmark (MVEB) vor, ein Benchmark mit 23 Aufgaben für Video-Embeddings, das Klassifikation, Zero-Shot-Klassifikation, Clustering, Paarklassifikation, Retrieval und videobasierte Fragebeantwortung umfasst. Wir evaluieren 33 Modelle und stellen fest, dass kein einzelnes Modell dominiert: MLLM-basierte Embeddings führen bei Klassifikation, Clustering, Paarklassifikation und QA; multimodale Bindung führt bei Retrieval und Zero-Shot-Klassifikation; generative MLLMs ohne kontrastive Anpassung kollabieren bei cross-modalen Aufgaben. Gepaarte video-only- vs. Audio+Video-Evaluierungen zeigen, dass der Beitrag von Audio von der Annotationsherkunft des Datensatzes abhängt: Audio hilft, wenn Labels aus beiden Modalitäten erstellt wurden, und schadet, wenn sie ausschließlich aus visuellen Informationen stammen – eine über Modellfamilien hinweg konsistente Lücke von sechs Prozentpunkten. MVEB wird aus MVEB+ abgeleitet, einem Pool von 184 Aufgaben, und ist darauf ausgelegt, die Aufgabendiversität zu erhalten, während die Evaluierungskosten gesenkt werden. Es integriert sich in das MTEB-Ökosystem für eine einheitliche Evaluierung über Text, Bild, Audio und Video hinweg. Wir veröffentlichen MVEB und alle 184 Aufgaben zusammen mit Code und einem Leaderboard unter https://github.com/embeddings-benchmark/mteb.
Wir stellen Nemotron 3 Ultra vor, ein Sprachmodell mit Mixture-of-Experts und Hybrid-Mamba-Attention, das insgesamt 550 Milliarden und 55 Milliarden aktive Parameter besitzt. Wir haben Nemotron 3 Ultra auf 20 Billionen Text-Tokens vortrainiert, anschließend die Kontextlänge auf 1 Million Tokens erweitert und mit Supervised Fine Tuning (SFT), Reinforcement Learning (RL) sowie Multi-teacher On-Policy Distillation (MOPD) nachtrainiert. Nemotron 3 Ultra ist unser leistungsfähigstes Modell und nutzt mehrere Schlüsseltechnologien – LatentMoE, Multi Token Prediction (MTP), NVFP4-Vortraining, Multi-Umgebungs-RLVR, MOPD und Reasoning-Budget-Kontrolle. Im Vergleich zu öffentlich verfügbaren modernsten Large Language Models erreicht Nemotron 3 Ultra einen bis zu etwa 6-fach höheren Inferenzdurchsatz bei gleichwertiger Genauigkeit. Die hochmoderne Genauigkeit, der hohe Inferenzdurchsatz und die Kontextlänge von 1 Million Tokens machen Nemotron 3 Ultra ideal für langlebige autonome agentische Aufgaben. Wir stellen die Basis-, nachtrainierten und quantisierten Checkpoints sowie die Trainingsdaten und das Rezept als Open Source auf HuggingFace zur Verfügung.
Fortschrittliche Agenten zeigen zunehmend ihr Potenzial, als autonome Ingenieure zu agieren, was eine wachsende Nachfrage nach Evaluations-Benchmarks schafft, die die Komplexität realer Entwicklungsabläufe abbilden. Solche Umgebungen umfassen typischerweise sowohl komplexen Code als auch große Datenmengen (d. h. ein Dateisystem). Bestehende Benchmarks bewerten jedoch oft codezentrierte oder datenzentrierte Fähigkeiten isoliert, sodass eine deutliche Lücke zu realen Entwicklungsszenarien besteht. In dieser Arbeit schließen wir diese Lücke durch die Einführung von CODA-BENCH, dem ersten Benchmark, der Code- und Datenintelligenz gemeinsam in einer datenintensiven Umgebung evaluiert. Wir konstruieren eine datenintensive Linux-Sandbox auf Basis des Kaggle-Ökosystems (das Hunderte von Datensätzen enthält), in der Agenten aktiv komplexe Dateihierarchien durchsuchen müssen, um relevante Ressourcen zu identifizieren und Code für datengetriebene Analyseaufgaben zu generieren. CODA-BENCH umfasst 1.009 Aufgaben aus 31 Communitys, wobei jede Aufgabenumgebung durchschnittlich 980 Dateien enthält und so realistische Datengrößen und -rauschen simuliert. Evaluierungen fortgeschrittener Agenten zeigen, dass selbst leistungsstarke Systeme Schwierigkeiten haben, Datenentdeckung und Codeausführung effektiv zu integrieren, und lediglich eine Erfolgsrate von 61,1 % erreichen. Diese Ergebnisse verdeutlichen eine erhebliche Lücke in den derzeitigen Agentenfähigkeiten für datenintensive Aufgaben und weisen auf vielversprechende Richtungen für zukünftige Forschung hin.
Web-Agenten agieren über lange Interaktionssequenzen, dennoch bewerten bestehende Benchmarks lediglich den letztendlichen Erfolg, verwerfen sämtliche Prozessinformationen und bieten wenig Anleitung zur Verbesserung. In dieser Arbeit führen wir eine Prozessanalyse auf Handlungsebene von Web-Agenten durch. Wir stellen WebStep vor, einen Benchmark mit 1.800 Aufgabeninstanzen mit kontrolliertem Schwierigkeitsgrad und automatischer semantischer Zustandsverfolgung. Jede Website legt neben der grafischen Benutzeroberfläche ein deterministisches semantisches MDP offen: Der Agent operiert auf der Schnittstelle, während die Umgebung im Hintergrund hochrangige Zustände und Übergänge aufzeichnet, was eine detaillierte Analyse ohne manuelle Annotation ermöglicht. Basierend auf der semantischen Trajektorie zeigen wir zunächst, dass Prozessmetriken Unterschiede offenbaren, die bei der Ergebnisbewertung unsichtbar bleiben: Drei Agenten, deren Erfolgsraten zwischen 31-33% liegen, unterscheiden sich in der Reichweite der Erkundung versus der Ausführungsgenauigkeit. Anschließend charakterisiert eine Zerlegung nach Fähigkeiten die Art dieser Unterschiede und legt gegensätzliche fähigkeitsspezifische Rangfolgen offen, die innerhalb derselben Website verborgen sind: Z. B. übertrifft OpenAI CUA auf Housing Qwen3.5 um 23,7% bei Commit-Aktionen, bleibt aber um 15,6% beim Filtern dahinter zurück, was eine konkrete zu verbessernde Fähigkeit sogar innerhalb einer Domäne identifiziert. Die Bifurkationsanalyse lokalisiert weiterhin den entscheidenden Fehler, der die Aufgabe scheitern lässt, und zeigt, dass dieser Fehler agentenspezifisch und nicht gemeinsam ist. Schließlich vergrößern sich diese Unterschiede mit zunehmendem Aufgabenschwierigkeitsgrad: Die Erfolgsrate ähnelt sich bei einfachen Aufgaben, trennt sich jedoch deutlich, wenn die Erkundung anspruchsvoller wird. Unsere Prozessanalyse eröffnet einen neuen Weg in der Bewertung von Web-Agenten und liefert detaillierte, umsetzbare Einblicke, wo und wie jeder Agent verbessert werden sollte.
Mit dem Fortschritt großer Sprachmodelle (LLMs) stützt sich das nach dem Training durchgeführte Reinforcement Learning (RL) zunehmend auf mehrdimensionale Belohnungen, um umfassende Fähigkeiten zu entwickeln. Dieser Wandel erfordert neuartige Algorithmen, die in der Lage sind, diverse und potenziell konkurrierende Ziele gleichzeitig zu optimieren. Um dies zu adressieren, zerlegen bestehende Methoden wie die Group reward-Decoupled Policy Optimization (GDPO) die Gesamtpunktzahl in unabhängige Belohnungsgruppen und berechnen den RL-Verlust anschließend separat für jede Gruppe. Diese Strategie stößt jedoch weiterhin auf Multi-Belohnungskonflikte: Ein einzelner Rollout kann auf bestimmten Belohnungsdimensionen positive, auf anderen jedoch negative Advantages erzeugen, was dazu führt, dass sich gegensätzliche Signale bei der Aggregation gegenseitig aufheben und die RL-Trainingseffizienz weiter behindern. Inspiriert von der Dynamic sAmpling Policy Optimization (DAPO), die die RL-Trainingseffizienz durch das Herausfiltern ineffektiver Rollouts mit nahezu null Advantages verbessert, schlagen wir die Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) vor. Konkret setzt GD²PO einen konfliktbewussten Filtermechanismus ein, um Rollouts auszublenden, die unter starken belohnungsbezogenen Diskrepanzen leiden. Indem verhindert wird, dass sich widersprüchliche Signale gegenseitig aufheben, bewahrt und verstärkt diese Ausblendungsstrategie die Größe effektiver RL-Advantages und beschleunigt so die Lerneffizienz erheblich. Darüber hinaus führen wir eine Neugewichtung auf Abfrageebene ein, um die Aktualisierungsintensität jeder Abfrage dynamisch auf der Grundlage ihres gesamten Belohnungskonsenses anzupassen. Experimente in verschiedenen Multi-Belohnungsszenarien, darunter Tool Calling und die Ausrichtung an menschlichen Präferenzen, zeigen, dass GD²PO durchgängig und deutlich besser abschneidet als bestehende Basislinien. Der Code ist verfügbar unter https://github.com/Qwen-Applications/GD2PO.
Phone-Agenten werden zunehmend damit beauftragt, reale mobile Arbeitsabläufe vollständig auszuführen, anstatt lediglich die nächste Bildschirmaktion vorherzusagen. Ein Großteil der aktuellen Literatur zu mobilen Agenten bewertet diese jedoch weiterhin primär als GUI-Steuerungen, die einen Bildschirm beobachten, Tipp- und Wischgesten ausführen und anhand des erreichten App-Zustands bewertet werden. Reale Telefonnutzungsaufgaben sind breiter gefasst: Sie erfordern Entscheidungen darüber, wann App-GUIs, geräteseitige Befehle oder strukturierte Werkzeuge eingesetzt werden sollen, während gleichzeitig nachweisbar sein muss, dass die beabsichtigte Nebenwirkung tatsächlich eingetreten ist. Wir stellen PhoneHarness vor, einen Benchmark und eine Ausführungsumgebung für gemischte Aktionen zur Untersuchung von Phone-Agenten bei verifizierbaren mobilen Arbeitsabläufen. PhoneHarness führt eine geräteseitige Agentenschleife über GUI-, CLI- und hostseitige Werkzeugaktionen aus, die deterministische Aktionsweiterleitung mit begrenzter GUI-Delegation und prüfbaren Ausführungsprotokollen kombiniert. Der zugehörige Benchmark, PhoneHarness Bench, bewertet, ob Agenten Aufgaben mit beobachtbaren Nebenwirkungen abschließen, nicht nur, ob sie plausible Endantworten liefern. Im annotierten Evaluierungssplit erreicht PhoneHarness eine Erfolgsquote von 75,0 % und übertrifft die stärksten Nicht-PhoneHarness-Einstellungen um 12,9 Prozentpunkte. PhoneHarness und PhoneHarness Bench spielen daher unterschiedliche, aber voneinander abhängige Rollen: Die Ausführungsumgebung macht gemischte Telefon-Workflows ausführbar, während der Benchmark misst, ob Agenten diese Umgebung zuverlässig und sicher nutzen können. Unsere Ergebnisse deuten darauf hin, dass zuverlässige Telefonautomatisierung von Aktionsoberflächenweiterleitung und verifizierbarer Ausführung abhängt, nicht nur von visueller GUI-Steuerung.
Einheitliche multimodale Modelle (UMMs) haben sich als entscheidende Richtung für allgemeine multimodale Intelligenz etabliert, die Verständnis und Generierung in einem einzigen Rahmenwerk vereint. Allerdings stehen bestehende UMMs vor prominenten Herausforderungen: (1) die inhärenten Lernkonflikte zwischen visuellen Verständnis- und Generierungsaufgaben, die zu suboptimaler Modellierung in beiden Aufgaben führen; (2) unterschiedliche visuelle Räume für Verständnis und Generierung, die die Skalierbarkeit behindern; (3) eine übermäßige Abhängigkeit von aufgabenspezifischen Daten, die die Dualität von Text-Bild-Verständnis und -Generierung vernachlässigt. Um diese Herausforderungen zu bewältigen, schlagen wir UniDDT vor, das einen Noisy-ViT-Encoder zusammen mit einem LLM nutzt, um die semantische Kodierung für visuelle Generierungs- und Verständnisaufgaben zu vereinheitlichen, während ein separater Diffusionsdecoder verwendet wird, um die Diffusionsdekodierung von der Textdekodierung zu entkoppeln. Mit diesem Noisy-ViT-Encoder ist UniDDT in der Lage, den latenten Raum als einheitliche visuelle Repräsentation zu nutzen und eine nahtlose Kompatibilität zwischen Verständnis- und Generierungsaufgaben zu ermöglichen. Dadurch können die Skalierbarkeit innerhalb der Generierungsaufgaben und die semantische Ausdruckskraft innerhalb der Verständnisaufgaben ausbalanciert werden. Außerdem konstruieren wir duale Datenstrukturen aus denselben Bild-Text-Paaren, fördern die gegenseitige Abhängigkeit zwischen Generierungs- und Verständnisdaten und nutzen deren inhärente Dualität. Umfangreiche Experimente zeigen, dass UniDDT eine effektive Vereinheitlichung multimodalen Verständnisses und der Generierung mit verbesserter semantischer Konsistenz und Skalierbarkeit erreicht. Für visuelle Generierungsaufgaben erreicht unser UniDDT einen GenEval-Wert von 0,87 und einen DPG-Gesamtwert von 86,9. Für multimodale Verständnisaufgaben erreicht unser UniDDT eine Punktzahl von 1699,5 auf dem MME-Benchmark und einen Gesamtwert von 76,5 auf SEEDbench.
Die Bereitstellung von Multi-Turn-LLMs akkumuliert Dialogverläufe, deren Key-Value (KV)-Cache mit jeder Runde und jedem Benutzer wächst und schnell die Modellgewichte selbst übersteigt, wodurch der Speicher – und nicht die Rechenleistung – zum begrenzenden Faktor für den Durchsatz wird. Nicht-uniforme KV-Kompression, die heterogene Budgets über Aufmerksamkeitsköpfe verteilt, bewahrt die Genauigkeit weitaus besser als uniforme Verfahren, bleibt jedoch unpraktikabel: Moderne Serving-Stacks gehen von identischen KV-Längen über alle Köpfe hinweg aus, sodass Heterogenität freigegebenen Speicher in Form von Seitenfragmentierung blockiert, bis zu 25 % der Prefill-Zeit für die Rückgewinnung verstreuter Seiten aufwendet und GPU-Workloads verzerrt, die die Dekodierlatenz um bis zu das 1,7-Fache erhöhen oder 15–20 % jedes Dekodierschritts für Neuplanung verbrauchen. Wir beobachten, dass diese Heterogenität nicht zur Laufzeit entdeckt werden muss: Die kopfspezifische Retention folgt einer zweistufigen strukturellen Regelmäßigkeit – einem eingabeinvarianten Kopfranking mit eng begrenzten kopfweisen Verhältnissen – das offline anhand von lediglich 50 Stichproben kalibriert werden kann. Aufbauend auf dieser Erkenntnis präsentieren wir Tangram, ein Serving-Framework, das statisch löst, was bisherige Systeme dynamisch handhaben: Budget Reservation legt den Post-Kompressions-Fußabdruck jedes Kopfes zur Planungszeit fest und eliminiert so die Seitenrückgewinnung; Ragged Paging gruppiert Köpfe mit ähnlichem Budget in unabhängige Seitentabellen und verwandelt Fragmentierung in wiedergewinnbaren Speicher; und Ahead-of-Time Load Balancing berechnet im Voraus ausgewogene GPU-Partitionen ohne Laufzeitplanung. Implementiert auf vLLM, dient Tangram als Drop-in-Substrat für bestehende nicht-uniforme Kompressionsmethoden, erreicht deren Genauigkeit und verbessert gleichzeitig den End-to-End-Durchsatz um bis zu das 2,6-Fache im Vergleich zur Full-KV-Baseline. Unsere Implementierung ist öffentlich verfügbar unter https://github.com/aiha-lab/TANGRAM.
Das Nachrendern eines vorhandenen Videos aus einer neuartigen Kameraperspektive erfordert, dass die Ausgabe der vorgegebenen Kameratrajektorie folgt, während das Erscheinungsbild und die Dynamik der Originalszene in jedem Frame erhalten bleiben. Bestehende Methoden stützen sich auf Frame-bezogene Poseneinbettungen, verrauschte Punktwolken-Renderings oder implizit gelernte Korrespondenzen, von denen keine eine explizite, zeitlich kontinuierliche Verknüpfung zwischen Quell- und Zielpixeln herstellt. Wir schlagen Track2View vor, das einen Videodiffusionstransformer auf gepaarte 3D-Punktspuren konditioniert: dünn besetzte Trajektorien von Szenenpunkten, die sowohl in die Quell- als auch in die Zielkameraperspektive projiziert werden. Diese Spuren liefern explizite raumzeitliche Korrespondenzen, die per Konstruktion zeitlich kontinuierlich sind und kodieren, welcher Inhalt wo und wann erscheinen soll. Kernstück von Track2View ist ein Dual-View-Track-Conditioner, der visuellen Kontext von der Quell- zur Zielansicht durch parameterfreie geometrische Operationen und gelernte zeitliche Aggregation überträgt und so die Verallgemeinerung auf beliebige Kameratrajektorien ohne das Einprägen spezifischer Bewegungen sicherstellt. Wir führen ferner eine Datenaufbereitungspipeline ein, die Eins-zu-Eins-Spurkorrespondenzen extrahiert, indem sie einen 3D-Punktverfolger auf zeitlich verketteten Multikamera-Ansichtspaaren ausführt. Auf einem 400-Videos umfassenden Benchmark mit statischen und dynamischen Szenen erzielt Track2View Spitzenergebnisse in Bezug auf visuelle Qualität, Ansichtssynchronisation und Kameragenauigkeit, wobei der Rotationsfehler um 30–65% und der Translationsfehler um 61–72% gegenüber führenden Basislinien reduziert wird. Eine Projektseite ist verfügbar unter dieser https URL: https://qjizhi.github.io/track2view
Wenn vortrainierte VLA-Policies mittels Online-RL feinjustiert werden, erzeugt jede Rollout-Episode nur ein einziges binäres Ergebnis (Erfolg oder Misserfolg), während die Aktualisierung des Akteurs eine Überwachung pro Übergang erfordert. Bestehende Ansätze reduzieren dieses spärliche Ergebnis üblicherweise auf ein einzelnes skalares Belohnungs- oder Advantage-Signal, was unterschiedliche Formen von Übergangs-Feedback vermischt und nur begrenzte Orientierung bietet, sobald grundlegender Aufgabenerfolg erreichbar wird. Erstens vermischt ein einzelnes skalares Signal die beiden Ziele Lebensfähigkeit und Effizienz; sobald der grundlegende Erfolg erreicht ist, liefert die binäre Kennzeichnung keinen Gradienten, um effiziente Abschlüsse von langsamen zu unterscheiden. Zweitens mischen reale Rollouts autonome und Interventionssegmente; eine naive Zuweisung von Episodenergebnissen über diese Grenzen hinweg führt zu einer falschen Bewertungszuweisung. Um diese Probleme zu adressieren, schlagen wir Hierarchical Advantage-Weighted Behavior Cloning (HABC) vor, das separate Kritik-Köpfe für diese beiden Ziele auf unterschiedlichen Daten-Untermengen trainiert und deren Ausgaben mit einer zustandsadaptiven Balance kombiniert. Ein zustandsadaptives Gate \(g_t\) führt deren Ein-Schritt-Vorteile zusammen, priorisiert Lebensfähigkeit, wenn der Erfolg unsicher ist, und schwenkt nur bei hoher Lebensfähigkeit auf Effizienz um; das Ergebnis wird in Gewichte pro Übergang für den Actor-Verlust umgewandelt. Eine interventionsbewusste Bewertungszuweisung schränkt die Ergebnislabels ferner auf Segmente ein, die von der aktuellen Policy ausgeführt wurden, und verhindert so, dass Überwachung über Interventionsgrenzen hinweg durchsickert. In realen Roboter-Experimenten an drei kontaktreichen bimanuellen Aufgaben steigert HABC die Erfolgsrate von überwachten Feintuning-Baselines (SFT) von 36 %, 44 % und 12 % auf 92 %, 88 % bzw. 38 %.
Fortschritte in der KI wurden größtenteils durch Methoden vorangetrieben, die weniger Annahmen treffen. Mit zunehmender Rechenleistung und Datenmenge übertreffen Ansätze mit schwächeren induktiven Biases im Allgemeinen solche mit stärkeren Annahmen. Dies ist besonders charakteristisch für das Gebiet des visuellen Repräsentationslernens, wo Ansätze von der Dominanz des überwachten Lernens über das schwach überwachte Lernen bis hin zum heutigen weit verbreiteten Erfolg des selbstüberwachten Lernens ohne menschliche Labels übergegangen sind. Dennoch sind selbst moderne Ansätze des selbstüberwachten Lernens noch auf starke induktive Biases angewiesen, wie Augmentierungen, Maskierung oder Zuschneiden. Wenn dieser Trend anhält, sollten selbst diese verbleibenden Biases im großen Maßstab zu Engpässen werden – und unsere Experimente bestätigen dies: Die optimale Stärke der induktiven Biases nimmt mit wachsenden Datenmengen ab. Dies motiviert die Suche nach Ansätzen, die auf weniger Annahmen beruhen. Zu diesem Zweck führen wir Temporal Difference in Vision (TDV) ein, ein neues Paradigma für selbstüberwachtes Lernen aus Videos, das bestehende induktive Biases vermeidet und stattdessen auf einer kausalen Annahme beruht, dass die Vergangenheit die Zukunft verursacht. TDV funktioniert durch gemeinsames Training eines Bild-Encoders und eines Bewegungs-Encoders, sodass die Repräsentation des aktuellen Bildes plus die kodierte Bewegung der Repräsentation des nächsten Bildes entspricht. Obwohl TDV keine starken induktiven Biases nutzt, erreicht es auf dichten räumlichen Aufgaben das Niveau von State-of-the-Art-Verfahren und legt damit den Grundstein für Repräsentationslernen ohne starke Annahmen.
Sparse Autoencoder (SAEs) werden häufig zur Interpretation neuronaler Netzwerkrepräsentationen eingesetzt, ihr Nutzen hängt jedoch davon ab, ob die gelernten Merkmale über Trainingsläufe hinweg reproduzierbar sind. Wir untersuchen diese Frage mittels Merkmalsstabilität: Für jedes SAE-Merkmal schätzen wir die Wahrscheinlichkeit, dass ein ähnliches Merkmal in einem unabhängig trainierten SAE wieder auftritt. Dies ergibt ein skalierbares, merkmalsbezogenes Signal, das stabile von instabilen Merkmalen unterscheidet. In einer groß angelegten Studie über Seeds, Modelle, Schichten, Wörterbuchgrößen und SAE-Varianten hinweg stellen wir eine ausgeprägte funktionale Asymmetrie fest: Stabile Merkmale tragen den Großteil des rekonstruktions- und vorhersagerelevanten Signals, während instabile Merkmale einen schwachen marginalen Einfluss haben und von niederfrequenten Oberflächenformauslösern sowohl in den Aktivierungsstatistiken als auch in automatischen Erklärungen dominiert werden. Geometrisch betrachtet sind instabile Merkmale einzeln nicht reproduzierbar, konzentrieren sich jedoch in reproduzierbaren Unterräumen niedrigen Rangs, was darauf hindeutet, dass die Seed-Abhängigkeit oft eine Basisambiguität innerhalb eines gemeinsamen Bereichs des Aktivierungsraums widerspiegelt, nicht bloßes Rauschen. Ein kontrolliertes synthetisches Modell macht diesen Mechanismus explizit und zeigt, dass zugrunde liegende Merkmale niedrigen Rangs auf Unterraumebene wiederhergestellt werden können, während sie als einzelne SAE-Latente über Seeds hinweg nicht identifizierbar bleiben. Schließlich konstruieren wir durch Zusammenführen einzigartiger Seed-übergreifender Merkmale stabilere SAEs, während wir die erklärte Varianz in diesem Setting bewahren. Zusammengenommen zeigen diese Ergebnisse, dass instabile Merkmale nicht bloß fehlgeschlagene oder verrauschte Latente sind: Sie haben einen schwachen individuellen funktionalen Einfluss, spiegeln jedoch eine reproduzierbare niedrigdimensionale Struktur wider, die von standardmäßigen SAEs über Seeds hinweg unterschiedlich aufgelöst wird.
Diffusionstransformatoren haben bemerkenswerte generative Fähigkeiten gezeigt, jedoch werden die reichhaltigen Wahrnehmungsrepräsentationen, die entlang ihrer Entrauschungstrajektorie berechnet werden, verworfen, sobald der Inhalt erzeugt ist. Wir stellen MMDiff vor, ein Framework, das einen eingefrorenen Diffusionstransformator in ein multimodales generatives System verwandelt, das Bilder zusammen mit einer beliebigen Kombination dichter Wahrnehmungsmodalitäten unter Verwendung leichter Decoder-Köpfe erzeugt. Unsere zentrale Erkenntnis ist, dass Wahrnehmungsinformationen zeitlich entlang der Entrauschungstrajektorie verteilt sind und dass eine Mehrschritt-Feature-Fusion mit räumlich variierenden Aggregationsgewichten essenziell ist, wodurch die Ergebnisse der semantischen Segmentierung im Vergleich zur Ein-Schritt-Extraktion um bis zu 28,7 % mIoU verbessert werden. Darüber hinaus nutzen wir die konzeptgesteuerte Aufmerksamkeitsextraktion für eine interpretierbare räumliche Steuerung und zeigen, dass eingefrorene Diffusionsfeatures mit modernsten Encodern wie DINOv3 konkurrieren können und diese ergänzen. Indem wir nur leichte Decoder-Köpfe auf einem eingefrorenen Backbone trainieren, erzielen wir eine hohe Leistung bei der semantischen Segmentierung, der salienten Objekterkennung und der Tiefenschätzung und demonstrieren, dass dieses Framework eine effektive synthetische Datengenerierung im großen Maßstab ermöglicht.
Fortschrittliches Denken erfordert typischerweise Chain-of-Thought-Prompting, das zwar präzise ist, aber unannehmbare Latenz und erhebliche Testzeit-Inferenzkosten verursacht. Die übliche Alternative, die Feinabstimmung kleinerer Modelle, geht oft auf Kosten der Interpretierbarkeit und bringt gleichzeitig erheblichen Ressourcen- und Betriebsaufwand mit sich. Um diese Einschränkungen zu adressieren, führen wir Prompt-Level Distillation (PLD) ein. Wir extrahieren explizite Denkmuster aus einem Teacher-Modell und organisieren sie in einer strukturierten Liste ausdrucksstarker Anweisungen für den System-Prompt des Student-Modells. Bei der Evaluierung mit Gemma-3 4B verbesserte PLD die Makro-F1-Werte auf StereoSet (von 57 % auf 90,0 %) und Contract-NLI (von 67 % auf 83 %) und steigerte gleichzeitig die Genauigkeit bei LogiQA auf 70 %. Ähnliche Ergebnisse mit Mistral Small 3.1 belegen die architekturübergreifende Generalisierbarkeit, sodass diese kompakten Modelle mit vernachlässigbarem Latenz-Overhead Spitzenleistungen erreichen können. Diese ausdrucksstarken Anweisungen machen den Entscheidungsprozess transparent und ermöglichen eine vollständige menschliche Überprüfung der Logik, was diesen Ansatz ideal für regulierte Branchen wie Recht, Finanzen und Content-Moderation sowie für Anwendungsfälle mit hohem Volumen und Edge-Geräte macht.
Reinforcement Learning (RL) mit spärlichen Belohnungen ist zu einem Standardwerkzeug zur Verbesserung des Denkens von LLMs geworden, aber sein Erfolg hängt entscheidend von der Abdeckung im Basismodell ab. In der Praxis werden Modelle oft durch Mid-Training auf kuratierten Reasoning-Spuren für RL vorbereitet, die nützliche primitive Fähigkeiten wie Zerlegung, Verifikation oder Selbstkorrektur vermitteln. Obwohl effektiv, erfordert diese Strategie die manuelle Spezifikation dessen, was das Modell lernen soll, und es bleibt unklar, ob eine solche primitive Abdeckung für wesentlich schwierigere Probleme ausreicht, die die Kombination dieser Fähigkeiten zu umfassenderen Lösungsstrategien erfordern. Wir untersuchen einen stärker automatisierten Ansatz: RL-basiertes Mid-Training unter Verwendung großer Korpora menschlich verfasster Frage-Antwort-Daten. Anstatt Referenzlösungen als zu imitierende Ziele zu behandeln, nutzt unsere Methode ExpRL sie als Belohnungsgerüste: Referenzen werden der Policy verborgen und nur zur Konstruktion problemspezifischer Bewertungsrubriken verwendet, um On-Policy-Reasoning-Spuren zu bewerten. Die Policy samplet aus dem ursprünglichen Problem-Prompt, während ein LLM-Richter die gesampelte Reasoning-Spur mit der Referenzlösung vergleicht und dichte Belohnungen auf Ergebnis- oder Prozessebene zuweist. Dies ermöglicht ExpRL, partiellen Fortschritt, nützliche Zwischenreduktionen und produktive Reasoning-Verhaltensweisen zu verstärken, die spärliche Endbelohnungen oft nicht ausreichend gewichten. Bei anspruchsvollen mathematischen Reasoning-Aufgaben erzielt ExpRL eine stärkere RL-Vorbereitung als SFT, GRPO mit spärlichen Belohnungen und Selbst-Destillation und bietet eine bessere Initialisierung für nachfolgendes RL mit spärlichen Belohnungen. Zusätzliche Experimente mit gemischten Domänen deuten ferner darauf hin, dass ExpRL über die ursprüngliche rein mathematische Umgebung hinaus erweitert werden kann.
Konsistente Videogenerierung unter Bearbeitungsoperationen erfordert Persistenz: Wenn Bearbeitungen das Erscheinungsbild oder Layout einer Szene verändern, müssen nachfolgende Generationen über Zeit und Blickwinkel hinweg kohärent bleiben. Bestehende Speicherkonzepte haben jedoch Schwierigkeiten, nach solchen Änderungen eine langfristige Konsistenz aufrechtzuerhalten, da gespeicherte Kontexte veralten oder ungültig werden können. Um dies zu adressieren, schlagen wir PermaVid vor, ein neuartiges Framework, das auf einem multimodalen Kontextspeicher aufbaut, der den räumlichen Kontext in semantische Erscheinung und geometrische Struktur aufteilt, zusammen mit einer bearbeitungsbewussten Speicheraktualisierungs- und Abrufstrategie, die die Speicherentwicklung an nachfolgende Beobachtungen anpasst. Konkret entwickeln wir zwei komplementäre Speicherbänke: einen RGB-Kontextspeicher, der erscheinungsbewusste Beobachtungen erfasst und gleichzeitig Geometrie implizit codiert, und einen Tiefenkontextspeicher, der die rein geometrische Struktur, losgelöst von Semantik, bewahrt. Aufbauend auf diesem Design führen wir ein speichergesteuertes Videogenerierungsmodell ein, das multimodale Merkmalsfusion unter Referenzbedingungen durchführt, die aus gemischtmodalen Speicherkontexten stammen. Experimente zeigen, dass unsere Methode nach Bearbeitungen eine starke langfristige semantische und strukturelle Konsistenz aufrechterhält und moderne Methoden deutlich übertrifft.
Willkommen zum neunten Bericht des AI Index. Während KI rasant weiter voranschreitet, stellt sich die Frage, ob die darauf aufbauenden Systeme Schritt halten können. Governance-Rahmenwerke, Evaluierungsmethoden, Bildungssysteme und die Dateninfrastruktur, die zur Erfassung der KI-Wirkung erforderlich ist, haben Mühe, mit dem Tempo der Technologie selbst mitzuhalten. Diese Kluft zwischen dem, was KI leisten kann, und unserer Bereitschaft, sie zu steuern, zieht sich durch jedes Kapitel des diesjährigen Berichts. Neu in dieser Ausgabe verfolgt der Bericht, wie KI ehrgeiziger in den Bereichen Argumentation, Sicherheit und Ausführung realer Aufgaben getestet wird – und warum diese Messungen zunehmend unzuverlässig werden. Er enthält zudem neue Schätzungen des wirtschaftlichen Werts generativer KI sowie neu aufkommende Belege für ihre Arbeitsmarkteffekte, einen Analyse-Rahmen zur KI-Souveränität und ein in Zusammenarbeit mit Schmidt Sciences entwickeltes Wissenschaftskapitel. Erstmals beinhaltet der Bericht eigenständige Kapitel zu KI in der Wissenschaft und KI in der Medizin, was den wachsenden Einfluss der KI in diesen beiden Bereichen widerspiegelt.
Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als Grundlage für Generative Empfehlung (Generative Recommendation, GR) eingesetzt, da sie Zugang zu vortrainiertem Weltwissen versprechen. Dennoch ist die zuverlässige Aktivierung dieses Wissens für GR noch wenig verstanden. Ein zentrales Hindernis besteht darin, dass LLM-basierte GR typischerweise Elemente durch semantische IDs (Semantic IDs, SIDs) repräsentiert, was die natürlichsprachliche Argumentationsschnittstelle der LLMs stört, da diese Token während des Vortrainings für das LLM unsichtbar waren. Bestehende Ansätze begegnen diesem Problem mit aufwändigen mehrstufigen Pipelines, die SIDs verankern und explizite Begründungen ableiten, bieten jedoch nur begrenzte Einblicke, wann und warum jede Stufe notwendig ist. In dieser Arbeit zerlegen wir systematisch explizite Argumentationstrainingspipelines für LLM-basierte GR und decken drei wesentliche Einschränkungen auf: abgeschwächte Verbalisierung von Weltwissen, Fehlanpassung zwischen den Einbettungsräumen von SIDs und natürlichsprachlichen Token sowie Empfindlichkeit gegenüber der Qualität der Begründungen – all dies beeinträchtigt die Leistung expliziter Argumentation. Um diese Probleme zu umgehen, schlagen wir PauseRec vor, ein leichtgewichtiges implizites Argumentationsparadigma, das speziell für GR entwickelt wurde. PauseRec ist außergewöhnlich praktisch, da es aufwändige Erfassung von Argumentationsspuren und Argumentations-Abstimmungstraining vermeidet, was zu einer Vielzahl von Vorteilen führt: (1) es übertrifft standardmäßige explizite CoT-Methoden um bis zu 6,22 %, (2) es reduziert die Trainingskosten um bis zu 65 % GPU-Stunden und (3) es beschleunigt die Inferenz um bis zu 71,3 %. Diese Ergebnisse positionieren PauseRec als leichtgewichtige Alternative zur expliziten Begründungsgenerierung und ermöglichen eine effektivere und effizientere LLM-basierte GR.
Menschen verstehen die Objektphysik durch alltägliche Interaktionen auf natürliche Weise, aber die zuverlässige Vorhersage komplexer deformierbarer Dynamiken, wie etwa bei elastischen Materialien und Stoffen, bleibt eine große Herausforderung für Computervision und Robotik. Wir stellen EgoPhys vor, ein Framework, das deformierbare physikalische digitale Zwillinge aus egozentrischem RGB-Video unter Verwendung generalisierbarer Priors erstellt. EgoPhys überwindet die Einschränkungen bestehender Methoden, um die steuerbare Generierung deformierbarer digitaler Zwillinge aus egozentrischen Videos zu ermöglichen, indem es objektspezifische inverse Physiklösungen in ein kompaktes Codebuch destilliert. Dies ermöglicht die Vorhersage dichter Federsteifigkeitsfelder für unbekannte Objekte ohne Optimierung pro Feder zur Testzeit. Trainiert mit generalisierbaren Priors aus verschiedenen egozentrischen Interaktionen übertrifft EgoPhys Basislinien in Rekonstruktion, Zukunftsprognose und Nullschuss-Generalisation. Zur Unterstützung von Training und Evaluation stellen wir einen egozentrischen Interaktionsdatensatz zusammen, der verschiedene deformierbare Objekte, Szenen und Manipulationsstile abdeckt. Wir setzen EgoPhys auf einem echten xArm6-Roboter ein und zeigen, dass ein digitaler Zwilling, der aus einem einzigen egozentrischen menschlichen Spielvideo initialisiert wurde, als interne Weltenrepräsentation dienen kann, um die Planung mit deformierbaren Objekten zu unterstützen. Dies unterstreicht, dass egozentrische RGB-Beobachtungen einen skalierbaren Weg zu Real-zu-Sim-Pipelines darstellen.
Standard-Genauigkeits-Benchmarks sind darauf ausgelegt, zu testen, wie nahe große Sprachmodelle (LLMs) an korrekte Antworten herankommen, eignen sich jedoch nicht dafür, zu prüfen, ob LLMs bei einer korrekten Antwort bleiben, wenn diese durch ein plausibles Gegenargument in Frage gestellt wird. Wir führen ein kontrolliertes Protokoll zur Bewertung der Antwortstabilität ein: Nachdem ein Modell eine Multiple-Choice-Frage korrekt beantwortet hat, konfrontieren wir das Modell mit einem kohärenten Argument für eine falsche Option und messen, ob das Modell umschwenkt. Das Setup (a) isoliert argumentativen Inhalt von offenem sozialem Druck und (b) variiert Argumentlänge, Selbstzuschreibung und modellübergreifende Quelle. Über sieben führende Modelle und 57 MMLU-Fachgebiete hinweg reichen die Wechselraten von 17,5 % bis 97,3 %, was große Unterschiede in der Stabilität offenbart, die allein durch Genauigkeitsmetriken nicht erfasst werden. Wir stellen fest, dass Selbstzuschreibung die Wechselraten konsistent erhöht (im Mittel +7,1 Prozentpunkte, bis zu +18,7 Prozentpunkte). Zudem ergibt die Zusammenführung von Argumenten für falsche Antworten über Modelle hinweg und die Auswahl des jeweils wirksamsten Arguments pro Frage stärkere adversariale Herausforderungen als die Abhängigkeit von einem einzelnen Quellmodell. Weiterhin erstellen wir MaxFlip, einen kuratierten Herausforderungssatz, der Wechselraten um bis zu +23,6 Prozentpunkte im Vergleich zu standardmäßigen selbstgenerierten Herausforderungen verstärkt. Wir veröffentlichen das Protokoll, die Herausforderungsaufzeichnungen und MaxFlip, um die Stabilitätsbewertung neben den üblichen Genauigkeits-Benchmarks zu unterstützen. Die Materialien sind verfügbar unter https://github.com/nafisenik/WhoFlips und https://hf.co/datasets/nafisehNik/WhoFlips.
Vision-Language-Action-Modelle (VLAs) nutzen groß angelegtes Vision-Language-Pretraining für semantische Robotersteuerung, entbehren jedoch oft einer expliziten Voraussicht darüber, wie Roboteraktionen die Szene verändern. Welt-Aktions-Modelle (World-Action Models, WAMs) beheben diese Einschränkung, indem sie Policies auf vorhergesagte Zukünfte konditionieren, doch bestehende Ansätze basieren typischerweise auf rechenintensiver Videogenerierung mit erheblicher Pixel-Redundanz. Wir stellen LaWAM vor, ein Latentes-Welt-Aktions-Modell, das robotischen Policies predictive Dynamiken durch kompakte latente visuelle Teilziele anstelle von rekonstruiertem Zukunftsvideo zugänglich macht. Kern von LaWAM ist ein latent-aktionskonditioniertes Latentes-Welt-Modell (Latent World Model, LaWM). Wir gewinnen LaWM, indem wir ein latentes Aktionsmodell im latenten Raum eines vortrainierten Vision-Foundation-Modells trainieren und dessen Vorwärts-Decoder umfunktionieren, um zukünftige Observationsmerkmale für die Szenenentwicklung vorherzusagen. LaWAM konditioniert dann die Aktionsgenerierung auf diese vorhergesagten latenten visuellen Teilziele, um eine dynamikbewusste Robotersteuerung zu ermöglichen. LaWAM erzielt überdurchschnittliche oder konkurrierende Erfolgsraten (Success Rates, SRs) bei LIBERO (98,6 % SR), RoboTwin (91,22 % SR) und realen Manipulationsaufgaben, während es eine niedrige Inferenzlatenz beibehält. LaWAM läuft in 187 ms pro Aktions-Chunk-Vorhersage und erreicht eine bis zu 24-fach niedrigere Wanduhr-Latenz als Pixel-Raum-WAMs.
Ein Inhaltsmoderationssystem kann bei allen gängigen Genauigkeitsmetriken gut abschneiden und dennoch echten Schaden anrichten, wenn seine Fehler die wenigen Nutzer treffen, die ansonsten getrennte Gemeinschaften verbinden. Wir zeigen dies in einem agentenbasierten Modell, in dem N=240 lernende Agenten in einem gemeinschaftsstrukturierten Netzwerk jeweils harmlose, produktive oder gefährliche Inhalte posten, und ein Regulator alles entfernt oder bestraft, was ein verrauschter Klassifikator kennzeichnet. Der Gesamtnutzen ändert sich kaum mit dem Rauschen (einfaktorielle ANOVA, p=0,96): Nach aggregierten Maßen wirkt nichts falsch. Der Schaden konzentriert sich stattdessen auf diese Brückennutzer, deren nützliche Beiträge zu Unrecht unterdrückt und deren gefährliche Beiträge zu Unrecht verschont werden. Ein Governance-Verlust (L_gov), der diese beiden Fehler getrennt von den Durchsetzungskosten bepreist, steigt unter falsch-positiv-lastigem Rauschen auf mehr als das Doppelte. Die aggregierte Genauigkeit verdeckt, wer geschädigt wird, und das günstig zu prüfende Maß ist, wie viele Verbindungen ein Nutzer hat (Grad), ein nahezu perfekter Proxy für die Betweenness, die einen Brückennutzer definiert (r=0,96).
Trotz erheblicher Fortschritte bei der Entwicklung von maschinellen Texterkennern hat die Leichtigkeit, mit der maschineller Text manipuliert werden kann, um einer Erkennung zu entgehen, zu der Annahme geführt, dass das Problem grundsätzlich unlösbar sei. In dieser Arbeit untersuchen wir die Grenzen solcher Umgehungsstrategien. Wir zeigen, dass aktuelle Angriffe – von Prompt-Engineering bis hin zu detektorgeleiteter Optimierung – zwar die Leistung standardmäßiger Detektoren wirksam beeinträchtigen können, es ihnen jedoch nicht gelingt, die zugrundeliegenden stilistischen „Fingerabdrücke" maschinellen Textes zu tilgen. Wir zeigen, dass Few-Shot-Detektoren, die den stilistischen Merkmalsraum nutzen, robust gegenüber diesen Umgehungsversuchen sind und zuverlässig Proben selbst von Modellen erkennen, die explizit darauf abgestimmt sind, eine Erkennung zu verhindern. Dies wirft die Frage auf: Stellt Stil eine universelle Verteidigung gegen maschinelle Erkennungsangriffe dar? Wir demonstrieren, dass die Antwort „Nein" lautet, indem wir einen neuartigen Paraphrasierungsansatz einführen, der gleichzeitig für Nichterkennbarkeit und die Anpassung an spezifische menschliche Stile optimiert. Wir zeigen, dass dieser Angriff im Gegensatz zu früheren Methoden effektiv allen betrachteten Detektoren entgeht, einschließlich jener, die den Schreibstil nutzen. Allerdings stellen wir fest, dass diese Umgehung nicht absolut ist: Mit zunehmender Anzahl der für die Analyse verfügbaren Dokumente werden die menschlichen und maschinellen Verteilungen wieder unterscheidbar. Insgesamt deuten unsere Ergebnisse darauf hin, dass eine zuverlässige Erkennung maschinellen Textes über die Einzeldokumentanalyse hinaus zur Mehrdokumentanalyse übergehen muss.
Menschen können Gegenstände mühelos greifen, während mehrfingrige Roboter weit von diesem Allgemeinheitsgrad entfernt sind. Wir argumentieren, dass die natürlichste Quelle für Robotergreifdaten der Mensch ist, der täglich tausende von Objekten aufnimmt. Wir stellen HUG vor, ein Flow-Matching-Modell, das verschiedene menschliche Griffe für jedes benutzerdefinierte Objekt in einem einzelnen RGB-D-Bild erzeugt, das von einer Stereokamera aufgenommen wurde. Mithilfe einer Smart-Brille erfassen wir zunächst 1M-HUGs, einen egozentrischen Datensatz menschlicher Griffe, der 1 Million Bildsequenzen (27,8 Stunden) und 6.707 Objektinstanzen in 41 Gebäuden umfasst. Um die Verteilung natürlicher menschlicher Griffe zu modellieren, fusioniert unser neuartiges Flow-Matching-Modell RGB- und Tiefenbeobachtungen und gibt einen Greifer aus, der durch Handgelenkstranslation, Handgelenksrotation und MANO-Handpose parametrisiert ist. Die vorhergesagten Griffe können auf verschiedene Roboterhände umtargetiert werden, was Null-Shot-Greifen in alltäglichen Szenen ermöglicht. Zur Standardisierung der Evaluierung erstellen wir einen neuen simulierten Benchmark, HUG-Bench, mit 90 ungesehenen Objekten aus fünf geometrischen Kategorien und verschiedenen Größen, einschließlich maßstabsgetreuer 3D-Meshes. Wir evaluieren HUG in der realen Welt anhand des 30-Objekt-Testsets von HUG-Bench über mehrere Stereokameras, Roboterausführungen und Haushaltsumgebungen hinweg. HUG übertrifft die modernsten Greifbasislinien um +23 % und +34 % in unserem anspruchsvollen Objektset. Code, Daten, Benchmark, Checkpoints und eine interaktive Demo sind auf unserer Website veröffentlicht: https://grasping.io/
Polymarket hat sich zu einer prominenten Prognosemarkt-Plattform und einer der am schnellsten wachsenden Anwendungen im DeFi-Bereich entwickelt. Um einen Handel mit geringer Latenz zu ermöglichen, setzt es eine hybride Architektur ein, die Aufträge außerhalb der Kette abgleicht, aber zur endgültigen Ausführung auf der Kette abrechnet. Dieses Design erzeugt eine Konsistenzlücke, die wir als „Ghost Fills“ bezeichnen: Ein Auftrag, der außerhalb der Kette erfolgreich abgeglichen wurde, kann später während der Abrechnung auf der Kette scheitern. Um die Sicherheitsauswirkungen dieser Lücke zu verstehen, untersuchen wir solche fehlgeschlagenen Abrechnungen, indem wir GHOSTHUNTER entwickeln, das diese aus On-Chain-Spuren rekonstruiert und konkreten Angriffsmustern zuordnet. In 1.952.440 rückgängig gemachten Match-Order-Transaktionen stellen wir fest, dass Angreifer die zeitliche Lücke zwischen Abgleich und Abrechnung ausnutzen, um bereits abgeglichene Aufträge zu annullieren, bevor sie auf der Kette finalisiert werden. Aus diesen Vorfällen identifizieren wir vier Angriffsvektoren: Nonce Bump, Balance Drain, Allowance Revoke und Proxy Trap, die in 35 sich weiterentwickelnden Varianten realisiert werden. Diese Vektoren ermöglichen es Angreifern, 980.133 ausgeführte Aufträge selektiv rückgängig zu machen, was risikofreie Vorhersagen, die Jagd auf Arbitrage-Bots und die Manipulation von Liquiditätsbelohnungen ermöglicht, wodurch ein Gewinn von mindestens 1,49 M USD erzielt wird. Dies setzt 1,78 Mrd. USD einem Risiko aus und führt zu Zahlungen des Betreibers in Höhe von 2,17 M POL (etwa 212.000 USD). Während der Hauptverkehrszeiten wurden mehr als 24,3 % aller ausgeführten Aufträge rückgängig gemacht, was faktische DoS-Angriffe verursacht. Wir stellen auch fest, dass Code, der von dem fehlerhaften Vertrag abgeleitet ist, weiterhin in 167 unabhängigen Verträgen über 10 Chains vorkommt, die mindestens 23 M USD an Nutzergeldern halten, wodurch die Auswirkungen über Polymarket hinausgehen. Wir haben unsere Beweise den betroffenen Parteien offengelegt, und das Problem wurde teilweise entschärft.
Wir stellen TuneJury vor, ein offenes, instanzbasiertes paarweises Belohnungsmodell für Text-zu-Musik, das aus einer Textaufforderung und einem Audioclip eine Musikpräferenzbewertung vorhersagt. Der veröffentlichte Modellcheckpoint wird auf öffentlich verfügbaren menschlichen Präferenzlabels trainiert, die Arena-Stil-Abstimmungen (A vs. B), metrische Ausrichtung von Präferenzpaaren, per Crowdsourcing erstellte paarweise Vergleiche und ästhetische Bewertungen von Experten umfassen. Der vorhergesagte Bewertungsabstand zwischen zwei Clips ist auf unserem zurückgehaltenen Testsplit gut kalibriert, was eine Datenfilterung mittels eines einfachen Bewertungsschwellenwerts ermöglicht. TuneJury verallgemeinert sich sowohl auf zurückgehaltene Testpaare als auch auf Out-of-Distribution-Benchmarks und bleibt bei letzteren wettbewerbsfähig mit früheren Basislinien. Für Generatoren, die nach dem Training veröffentlicht werden, führen wir die Ankerkalibrierung ein, eine nachträgliche, pro-systemspezifische Bradley-Terry-Kalibrierung, die die Übereinstimmung mit erheblich besserer Dateneffizienz wiederherstellt als ein erneutes Training von Grund auf. Dieselbe eingefrorene Belohnung führt zu konsistenten Verbesserungen entlang der Belohnungsachse bei drei nachgelagerten Anwendungen: Best-of-N-Auswahl zur Inferenzzeit, latente Optimierung im DITTO-Stil und Post-Training mit Experteniteration. TuneJury ist verfügbar unter https://github.com/yonghyunk1m/TuneJury.