HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

43 papers found

JoyAI-VL-Interaktion: Echtzeit-Vision-Language-Interaktionsintelligenz
JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

Jun 10

ByDingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang

171

Viele Momente in der realen Welt warten nicht darauf, dass ein Nutzer sie anspricht. Ein Feuer bricht auf einem Sicherheitsmonitor aus, ein Gesichtsausdruck huscht über eine Video-Call-Oberfläche, oder ein Produkt, das ein Zuschauer begehrt, fliegt in einem Livestream vorbei. Dennoch bleiben heutige große Modelle größtenteils zugbasiert (turn-based) konzipiert: Sie antworten nur, wenn sie angesprochen werden, und selbst Video-Call-Apps, die interaktiv erscheinen, funktionieren weiterhin als Frage-Antwort-Systeme, die nur reagieren, wenn sie abgefragt oder aufgefordert werden. Wir plädieren für ein anderes Paradigma: ein Modell, das wie ein Mensch in der Welt präsent ist. Es beobachtet kontinuierlich das aktuelle Geschehen, entscheidet eigenständig, ob es sprechen oder schweigen soll, interagiert in Echtzeit und delegiert schwierige Probleme an ein Hintergrundmodell. Um Interaktionsmodelle und deren Anwendung in verschiedenen Bereichen voranzubringen, leisten wir zwei vollständig quelloffene Beiträge. Erstens veröffentlichen wir JoyAI-VL-Interaction, ein vision-zentriertes VL-Interaktionsmodell im 8B-Maßstab. Das Modell trifft die Entscheidung zur Antwort intern, wählt jede Sekunde zwischen Schweigen, Antworten oder Delegation an ein Hintergrundmodell und zeichnet sich durch vision-getriggerte Reaktionsfähigkeit und Zeitbewusstsein aus. Wir kombinieren es mit einem übertragbaren Trainingsrezept, aus dem Fähigkeiten emergieren, für die wir nie spezifisch trainiert haben – etwa das Führen eines Käufers durch wechselnde App-Bildschirme oder das Improvisieren eines Vortrags aus einer Folienpräsentation. Zweitens veröffentlichen wir ein vollständiges, einsatzbereites System, das um dieses Modell herum aufgebaut ist. Das System streamt jedes laufende Video in das Modell und macht es so echt präsent in der Welt. Alle anderen Komponenten sind ansteckbar, darunter ASR/TTS-Module, Speicher, Visualisierungs-UI und ein Hintergrund-Brain, das an jede API oder jeden Agenten angebunden werden kann. In sechs realen Szenarien bevorzugen menschliche Bewerter JoyAI-VL-Interaction mit großem Abstand gegenüber den integrierten Video-Call-Assistenten von Doubao und Gemini. Nach unserem Wissen ist dies das erste offene, visionsgetriebene Interaktionsmodell, das zusammen mit seinem Trainingsrezept, Daten und einem vollständig einsetzbaren System veröffentlicht wird.

Datenjournalisten-Agent: Daten in verifizierbare multimodale Geschichten verwandeln
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Jun 9

ByKevin Qinghong Lin, Batu EI, Yuhong Shi, Pan Lu, Philip Torr, James Zou

110

Daten erzählen Geschichten, die die Gesellschaft prägen; die Aufgabe des Datenjournalisten besteht darin, rohe Informationen in Geschichten zu verwandeln, denen auch Laien vertrauen können. Eine hochwertige Nachrichtenreportage erfordert wochenlange Arbeit eines Nachrichtenteams: Kontextsuche, statistische Auswertung, Wahl des Blickwinkels und Gestaltung von Visualisierungen. Aktuelle Agenten bewältigen einzelne Schritte gut: Datenwissenschaftsagenten schließen die Analyseschleife, während Designagenten ansprechende Websites synthetisieren. Aber kann ein Agent als Datenjournalist durchgängig fungieren? Wir stellen den Data Journalist Agent (Data2Story) vor, ein Multi-Agenten-Framework, das spezialisierte Rollen in einer einzigen virtuellen Nachrichtenredaktion orchestriert. Data2Story bietet zwei Neuerungen: (i) Aussagen sind evidenzbasiert: Ein Inspector verknüpft jede Zahl, Perspektive und jedes Asset mit den zugrundeliegenden Daten, dem Code oder einer externen Referenz. (ii) Artikel sind multimodal generativ: Statt standardmäßig auf reinen Text und statische Diagramme zurückzugreifen, überlegt Data2Story, was Leser sehen möchten, und setzt dann multimodale Werkzeuge ein, wie interaktive Karten für Geografie und Audio für Musik. Wir evaluieren Data2Story anhand von 18 Artikeln, die jeweils mit der ursprünglich veröffentlichten Expertenarbeit verglichen werden, entlang von vier Achsen: (a) Abdeckung der Blickwinkel zwischen Mensch und Agent; (b) Rubrikenbewertung mit 53 Teilnehmern über fünf Dimensionen; (c) Computer-Use-Agenten als Bewerter, ein kostensparender Proxy für die Navigation von Lesern durch interaktive Artikel; und (d) Überprüfbarkeit, bei der ein Code-Verifizierer Aussagen erneut anhand der Daten ausführt und Behauptungen gegen Referenzen prüft. Data2Story produziert konkurrenzfähige, evidenzbasierte Multimedia-Geschichten, insbesondere mit Stärken in Transparenz und Nachvollziehbarkeit. Menschliche Artikel behalten einen Vorteil in redaktionellem Blickwinkel, kreativem Design und Präsentation. Wir positionieren Data2Story als Kollaborateur für Journalisten, der eine stärker evidenzbasierte, transparente und überprüfbare Berichterstattung ermöglicht. Code und Demos sind verfügbar unter https://data2story.github.io.

Geometrisches Aktionsmodell für das Policy-Lernen von Robotern
Geometric Action Model for Robot Policy Learning

Jun 15

ByJisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

101

Allgemeine Roboterrichtlinien müssen Benutzeranweisungen befolgen und gleichzeitig über die Interaktionen von Objekten, Kameras und Roboteraktionen in der dreidimensionalen physischen Welt nachdenken. Aktuelle Vision-Language-Action-Modelle (VLAs) und Video-World-Action-Modelle (WAMs) übernehmen starke semantische oder zeitliche A-priori-Wissen aus großen Foundation-Modellen, operieren jedoch weiterhin hauptsächlich auf 2D-Bildern oder aus 2D abgeleiteten latenten Räumen, wodurch die für kontaktreiche Manipulation erforderliche 3D-Geometrie implizit bleibt. Wir schlagen das Geometric Action Model (GAM) vor, eine sprachgesteuerte Manipulationsrichtlinie, die ein vortrainiertes Geometric Foundation Model (GFM) direkt als gemeinsames Substrat für Wahrnehmung, zeitliche Vorhersage und Aktionsdecodierung wiederverwendet. GAM teilt das GFM an einer Zwischenschicht: Die flachen Schichten dienen als Beobachtungsencoder, und ein kausaler Zukunftsvorhersager, der an der Teilungsstelle eingefügt wird, prognostiziert zukünftige latente Tokens basierend auf Sprache, Propriozeption und Aktionshistorie. Die vorhergesagten zukünftigen Tokens werden dann durch die verbleibenden GFM-Blöcke zur Merkmalsausbreitung und Decodierung geleitet, sodass ein einzelnes Rückgrat sowohl zukünftige Geometrie als auch Aktionen erzeugen kann. Dieses Design stattet das GFM mit sprachgesteuerter zeitlicher Weltmodellierung durch minimale architektonische Änderungen aus, während seine reichhaltigen geometrischen A-priori-Wissen erhalten bleiben. In einer breiten Palette von Simulationen und realen Roboter-Manipulations-Benchmarks erweist sich GAM als genauer, robuster, schneller und leichter als aktuelle Baselines im Foundation-Modell-Maßstab.

DreamX-World 1.0: Ein Allzweck-interaktives Weltmodell
DreamX-World 1.0: A General-Purpose Interactive World Model

Jun 15

ByDreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu

DreamX-World 1.0 ist ein universelles interaktives Text/Bild-zu-Video-Weltmodell zur steuerbaren Langzeitgenerierung. Es unterstützt Kameranavigation, die Wiederbesuche zuvor beobachteter Regionen sowie promptgesteuerte Ereignisse in fotorealistischen, spielstilisierten und stilisierten Domänen. Unsere Daten-Engine kombiniert kameragenaues Unreal-Engine-Rendering, aktionsreiche Gameplay-Aufzeichnungen und reale Videos mit wiederhergestellter Kamerageometrie. Für die Kamerasteuerung führen wir E-PRoPE ein, eine leichtgewichtige Variante der projektiven Positionskodierung, die die projektive Kamerageometrie von PRoPE beibehält und gleichzeitig kamerabewusste Aufmerksamkeit auf räumlich reduzierte Token anwendet. Wir wandeln einen bidirektionalen Videogenerator in ein autoregressives Weltmodell mit wenigen Schritten um, indem wir kausales Forcing, DMD-artige Destillation und Langzeitausrolltraining einsetzen. Das Training auf selbstgenerierten Langzeitkontexten setzt das Modell seiner eigenen generierten Historie aus und reduziert den Stil- und Farbdrift, der sich über autoregressive Blöcke hinweg ansammelt. Memory-Conditioned Scene Persistence ruft frühere Ansichten über kamerageometriebasiertes Retrieval ab, während Residual Recycling den Konditionierungspfad weniger empfindlich gegenüber unvollkommenen Memory-Latentvariablen macht. Event Instruction Tuning fügt zusammensetzbare Ereignissteuerung hinzu, und Reinforcement-Learning-Alignment stellt Kamerasteuerung und visuelle Qualität nach der Destillation wieder her. Mit Mixed-Precision-DiT-Ausführung, Residuenwiederverwendung, um 75% beschnittener VAE-Dekodierung und asynchronem Pipeline-Parallelismus erreicht DreamX-World 1.0 bis zu 16 FPS auf acht RTX 5090 GPUs. In unserer grundlegenden 5-Sekunden-Evaluierung erzielt DreamX-World 1.0 einen Kamerasteuerungswert von 73,75 und einen Gesamtwert von 84,76 und übertrifft damit HY-WorldPlay 1.5 und LingBot-World im Gesamtwert, die 80,79 bzw. 80,45 erreichen.

VibeThinker-3B: Erkundung der Grenzen des verifizierbaren Denkens in kleinen Sprachmodellen
VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Jun 15

BySen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang

Dieser technische Bericht stellt VibeThinker-3B vor, ein kompaktes dichtes Modell mit 3 Milliarden Parametern, das entwickelt wurde, um zu untersuchen, wie weit verifizierbares Denken in einem streng kleinen Modellbereich vorangetrieben werden kann. Aufbauend auf dem Spectrum-to-Signal-Post-Training-Paradigma verbessern wir das Modell systematisch durch eine optimierte Pipeline, die curriculum-basiertes überwachtes Feintuning, Multi-Domänen-Verstärkungslernen und Offline-Selbstdestillation umfasst. Experimentelle Evaluierungen zeigen, dass VibeThinker-3B auf höchst anspruchsvollen verifizierbaren Aufgaben Leistungen auf Spitzenniveau erzielt. Insbesondere erreicht es eine Punktzahl von 94,3 auf AIME26 (verbessert auf 97,1 mit Anspruchslevel-Testzeit-Skalierung), einen 80,2 Pass@1 auf LiveCodeBench v6 und zeigt eine starke Out-of-Distribution-Generalisation mit einer Akzeptanzrate von 96,1 % auf aktuelle, ungesehene LeetCode-Wettbewerbe. Dies platziert es effektiv im Leistungsband erstklassiger Denksysteme, die Flaggschiffmodelle, die um Größenordnungen größer sind, wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro, erreichen oder übertreffen. Darüber hinaus bestätigt eine Punktzahl von 93,4 auf IFEval, dass diese extreme Denkverbesserung die strenge Kontrollierbarkeit von Anweisungen nicht beeinträchtigt. In Erweiterung unserer vorherigen Arbeit mit 1,5B motivieren diese Erkenntnisse die Parametrische Kompressions-Abdeckungs-Hypothese, die verifizierbares Denken als komprimierbar in kompakte Denkkernstrukturen betrachtet, während offenes Domänenwissen und allgemeine Kompetenz eine breite Parameterabdeckung über Fakten, Konzepte und Long-Tail-Szenarien erfordern. Diese Perspektive legt nahe, dass kompakte Modelle nicht nur einsatz-effiziente Substitute sind, sondern einen komplementären Weg zu Spitzenleistungen in parameter-dichten Fähigkeitsbereichen darstellen.

FastContext: Training eines effizienten Repository-Explorers für Code-Agenten
FastContext: Training Efficient Repository Explorer for Coding Agents

Jun 12

ByShaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Rao Fu, Shengyu Fu

Große Sprachmodelle (LLM) als Codierungsagenten haben bei Softwareentwicklungsaufgaben starke Ergebnisse erzielt, doch die Repository-Erkundung bleibt ein wesentlicher Engpass: Das Auffinden relevanter Codes verbraucht erhebliches Token-Budget und verunreinigt den Kontext des Agenten mit irrelevanten Ausschnitten. In den meisten Agenten erkundet dasselbe Modell das Repository und löst die Aufgabe, sodass explorative Lese- und Suchvorgänge im Verlauf des Lösers verbleiben. Wir stellen FastContext vor, einen spezialisierten Erkundungs-Unteragenten, der die Repository-Erkundung von der Lösung trennt. Bei Bedarf aufgerufen, führt FastContext parallele Tool-Aufrufe durch und gibt präzise Dateipfade und Zeilenbereiche als fokussierten Kontext zurück. FastContext wird von spezialisierten Erkundungsmodellen mit 4B–30B Parametern betrieben. Wir bootstrappen diese aus starken Referenzmodell-Trajektorien und verfeinern sie mit aufgabenbasierten Belohnungen für breite Erstsuche, mehrschrittige Beweissammlung und präzise Zitationserstellung. Über SWE-bench Multilingual, SWE-bench Pro und SWE-QA hinweg verbessert die Integration von FastContext in Mini-SWE-Agent die End-to-End-Lösungsraten um bis zu 5,5 % bei gleichzeitiger Reduzierung des Token-Verbrauchs des Codierungsagenten um bis zu 60 % bei vernachlässigbarem Mehraufwand. Diese Ergebnisse zeigen, dass die Repository-Erkundung von der Lösung getrennt und effektiv von spezialisierten Modellen durchgeführt werden kann. Code und Daten: https://github.com/microsoft/fastcontext

Ling and Ring 2.6 Technischer Bericht: Effiziente und sofortige agentische Intelligenz im Billionen-Parameter-Maßstab
Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

Jun 13

ByAng Li, Ben Liu, Bin Han, Bin Hu, Bin Jing, Binbin Hu, Bing Li, Cai Chen, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Liang, Chen Qian, Chengfu Tang, Chengyao Wen, Chilin Fu, Chunwei Wu, Cong Zhang, Cunyin Peng, Daixin Wang, Dalong Zhang, Deng Zhao, Dingnan Jin, Dingyuan Zhu, Donghao Zhang, Fan Yuan, Fangzheng Zhao, Fanzhuang Meng, Feifan Wu, Feng Xu, Fengbin Fang, Gangshan Wang, Guodong Yang, Hailin Zhao, Haitao Wang, Haitao Zhang, Hanxiao Zhang, Hanzi Wang, Hao Dai, Hao Liu, Hao Qian, Hao Wu, Haoxiong Liu, Haoyu Xu, Heng Zhang, Hong Liu, Hongliang Zhang, Hongrui Liu, Hongxun Li, Hongzhi Ruan, Huaidong Xiong, Huihuang Zheng, Huikang Tang, Jia Guo, Jia Li, Jia Liu, Jiameng Wang, Jiaming Liu, Jiannan Shi, Jianping Wei, Jiaolong Yang, Jiapeng Wang, Jie Gao, Jie Wang, Jiewei Wu, Jin Yang, Jinjin Li, Jinjing Huang, Jinquan Sun, Jinyao Chen, Juanhui Tu, Jun Liu, Jun Mei, Jun Xu, Jun Zhou, Junjie Ou, Junnan Sipan, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kuan Xu, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Chen, Lei Liang, Lei Xu, Li Tang, Liang Jiang, Liangcheng Fu, Lihui Zhang, Linfeng Shi, Lintao Ma, Liyuan Liu, Longfei Li, Longfei Zheng, Lu Liu, Lu Yu, Man Li, Meiqi Zhu, Meng Li, Mengjie Gao, Mengshu Sun, Mingming Yin, Mingyang Zhang, Mingyuan Fan, Nuo Xu, Pan Tang, Peijie Jiang, Peilong Zhao, Peng Lin, Pingping Liu, Qi Zuo, Qian Zhao, Qiang Cheng, Qianggang Cao, Qiaoben Bao, Qing Cui, Qingyuan Yang, Qitao Shi, Qiyin Huang, Qizheng Zhou, Quan Wan, Runyuan Zhao, Shaomian Zheng, Shaowei Wei, Shengnan Zhang, Shuaicheng Li, Shujie Li, Shuo Zhang, Sikang Bian, Tianchu Yao, Tiange Xu, Tianshu Wang, Ting Guo, Tinghao Wang, Tingwei Huang, Tong Zhao, Tongkai Yang, Wang Hong, Wanli Gu, Wei Lu, Weichang Wu, Weiguang Han, Weiquan Li, Wenbo Shen, Wenjing Fang, Wenzhi Tang, Xiang Shu, Xiao Shi, Xiaodong Yan, Xiaolu Zhang, Xiaopei Wan, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xinxing Yang, Xinyao Tang, Xinyu Kong, Xinyu Liu, Xiong Xu, Xuan Sun, Xudong Han, Xudong Wang, Xujie Shen, Yalin Zhang, Yangyang Hou, Yankun Ren, Yao Zhao, Ye Chen, Yeyang Chen, Yibo Cao, Yifan Zuo, Yijie Chen, Ying Li, Yingjie Song, Yingxue Li, Yiqi Wang, Yixuan Sun, Yizhu Xiao, Yongfei Xu, Yu Liu, Yuchen Fang, Yue Gao, Yue Yu, Yue Zhang, Yuqi Zhang, Yuxiao He, Yuxiao Lu, Yuxin Tian, Yuxuan Li, Yuzhuo Fu, Zhankai Xu, Zhaoxin Huan, Zhenduo Zhang, Zhengke Gui, Zhengyu Huang, Zhenjun Ma, Zhenxuan Pan, Zheping Qu, Zhibo Zhu, Zhidong Fan, Zhigang Huangfu, Zhihao Wang, Zhiqiang Zhang, Zhizhen Liu, Zhuyan Zhou, Zibin Lin, Zihang Zeng, Zihao Wang, Zilong Wang, Ziqi Liu, Zitao Xuan, Zixuan Cheng, Zujie Wen, Zuoli Tang

Effiziente und skalierbare agentische Intelligenz erfordert Modelle, die sowohl reaktionsarme Latenz als auch starke Schlussfolgerungsfähigkeiten bieten können, während sie gleichzeitig praktikabel in Training, Bereitstellung und Einsatz bleiben. In diesem Bericht stellen wir Ling-2.6 und Ring-2.6 vor, eine Modellfamilie, die entwickelt wurde, um diese Herausforderung im großen Maßstab zu bewältigen. Ling-2.6 ist optimiert für die sofortige Antwortgenerierung und hohe Leistungsfähigkeit pro Ausgabetoken, während Ring-2.6 auf tiefere Schlussfolgerungen und fortgeschrittenere agentische Arbeitsabläufe zugeschnitten ist. Anstatt von Grund auf zu trainieren, verbessern wir das Basismodell Ling-2.0 durch architektonische Migrations-Vorabtrainings und groß angelegtes Nachtraining. Diese Verbesserung wird durch ein einheitliches Co-Design von Modellarchitektur, Optimierungszielen, Bereitstellungssystemen und agentischen Trainingsumgebungen geleitet, was Verbesserungen sowohl der Modellfähigkeiten als auch der Bereitstellungseffizienz ermöglicht. Auf architektonischer Ebene führen wir ein hybrides lineares Aufmerksamkeitsdesign ein, das Blitzaufmerksamkeit mit MLA integriert und so die Effizienz von langkontextbezogenem Training und Decodierung verbessert. Um die Token-Effizienz weiter zu steigern, optimieren wir die Leistungsfähigkeit pro Ausgabetoken durch evolutionäre Gedankenkette, linguistische Einheiten-Politikoptimierung, bidirektionale Präferenzausrichtung und Destillation der korrektesten und kürzesten Antwort. Für agentische Fähigkeiten schlagen wir KPop vor, ein Reinforcement-Learning-Framework, das entwickelt wurde, um stabiles Training von Ring-2.6-1T auf umgebungsbasierten Daten im großen Maßstab zu unterstützen. KPop verbessert die Trainingseffizienz durch asynchrone Planung über Codierung, Suche, Werkzeugnutzung und Arbeitsablaufausführung hinweg und ermöglicht so skalierbares Lernen aus komplexen Agent-Umgebungs-Interaktionen. Zusammen bieten Ling-2.6 und Ring-2.6 einen praktischen Weg zu effizienten, skalierbaren und offenen agentischen Systemen. Wir veröffentlichen alle Checkpoints der 2.6-Familie als Open Source, um weitere Forschung und Entwicklung in praktischer agentischer Intelligenz zu unterstützen.

Wer sollte jetzt die Decodierung leiten? Verfolgung zuverlässiger Trajektorien für das Ensembling maskierter Diffusions-Sprachmodelle
Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Jun 15

ByHeecheol Yun, Joonhyung Park, Joowon Kim, Eunho Yang

Maskierte Diffusions-Sprachmodelle (MDLMs) haben sich als eigenständiges Paradigma für die Sequenzgenerierung etabliert. Da MDLMs hinsichtlich ihrer Fähigkeiten und Wissensabdeckung zunehmend vielfältiger werden, stellt sich die wichtige Frage, wie ihr Wissen kombiniert werden kann. Hierzu untersuchen wir zunächst die einzigartigen Dekodierungsdynamiken von MDLMs. Wir stellen fest, dass erfolgreiche Generierungen stabile Konfidenzdynamiken über antwortrelevante Positionen hinweg aufweisen, während unzuverlässige Trajektorien oft durch die Injektion vielversprechender Zwischenzustände anderer Modelle korrigiert werden können. Ausgehend von dieser Beobachtung schlagen wir TIE (Trajektorienbasiertes Iteratives Ensembling) vor, ein Wissensfusionsframework, bei dem MDLMs iterativ zuverlässige Dekodierungstrajektorien identifizieren und diese zwischen Modellen weiterleiten. TIE verfolgt die Konfidenzdynamiken über antwortrelevante Positionen hinweg, um zu bestimmen, welches Modell aktuell einer zuverlässigeren Trajektorie folgt, und überträgt selektiv teilweise entrauschte Sequenzen zwischen den Modellen. Da sich das Modell auf der vielversprechenderen Trajektorie oft über die Entrauschungsschritte hinweg ändert, ermöglicht TIE verschiedenen Modellen, in verschiedenen Phasen der Generierung komplementäre Stärken beizutragen. Die starke Leistungsfähigkeit über verschiedene Reasoning-Aufgaben hinweg sowie unsere Analysen deuten darauf hin, dass TIE einen praktischen Ansatz für das wenig erforschte Problem des MDLM-Ensemblings bietet.

BRDFusion: Physik trifft Generierung für das inverse Rendern urbaner Szenen
BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

Jun 15

ByYi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang, Yu-Lun Liu, Chih-Hao Lin

Das inverse Rendern von urbanen Szenen aus aufgezeichneten Videos ermöglicht zahlreiche Anwendungen, darunter die Inhaltserstellung und Simulation des autonomen Fahrens. Physikbasierte Rendering-Verfahren folgen und steuern die Lichtphysik, leiden jedoch unter Rekonstruktions- und Render-Artefakten. Während generative Modelle realistische Videos erzeugen, bieten sie nur eine begrenzte Konsistenz und Kontrollierbarkeit. Wir stellen BRDFusion vor, ein einheitliches Framework, das zwei komplementäre Modelle für inverses und vorwärtsgerichtetes Rendering kombiniert. Insbesondere rekonstruiert BRDFusion explizite, konsistente Szeneneigenschaften mit physikalischer Modellierung und mildert Optimierungsambiguitäten durch generative Vorwissen. Während des Vorwärts-Renderings liefert das physikalische Modell kontrollierbares Rendering basierend auf der Szenenkonfiguration, während das generative Modell Rauschen reduziert und Artefakte behebt. Daher erzeugt unsere Methode hochwertige Videos bei gleichzeitiger präziser Kontrolle und übertrifft Basislinien in realen und synthetischen Szenen. Darüber hinaus unterstützt BRDFusion Neuansichts-Relighting, Nachtsimulation sowie dynamisches Einfügen/Bearbeiten von Objekten. Projektseite: https://shigon255.github.io/brdfusion-page/

VisualClaw: Ein Echtzeit-, personalisierter Agent für die physische Welt
VisualClaw: A Real-Time, Personalized Agent for the Physical World

Jun 15

ByHaoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie

Vision-Language-Modelle dienen als universelle Schnittstellen für komplexe multimodale Aufgaben. Dennoch bestehen bei der Bereitstellung weiterhin drei Lücken: VLMs verursachen typischerweise hohe Latenz und Kosten bei der Verarbeitung dichter Videobilder und langer Prompts, das Agenten-Scaffold bleibt nach der Bereitstellung statisch, und standardmäßige Video-QA-Benchmarks testen nicht, ob Agenten visuelle Belege innerhalb von Werkzeug- Arbeitsbereichen nutzen können. Wir präsentieren VisualClaw, einen selbst-evolvierenden multimodalen Agenten, der auf zwei Prinzipien aufbaut. Erstens reduziert die hybride Kodierung die Bereitstellungskosten, indem sie weniger informative Streaming-Bilder durch ein kaskadiertes Gatter filtert und die Textfähigkeitsbank durch Heiß/Kalt-Top-k-Injektion komprimiert. Zweitens ermöglicht die Fähigkeitsentwicklung dem Agenten, aus Fehlern zu lernen: Abgerufene Erinnerungen konditionieren einen Evolver entweder als direkten verketteten Kontext oder als geführte Belege, was zu Aktualisierungen der Fähigkeitsbank führt, die zukünftige Fragen unterstützen. Über 4 Video-QA-Benchmarks mit 2 VLMs senkt VisualClaw die API-Kosten pro Frage im Durchschnitt um -98 % im Vergleich zum Hochladen aller Bilder und um -25,9 % gegenüber der offline gleichmäßigen 8-Bild-Baseline, während die Genauigkeit in den meisten Umgebungen gesteigert wird, z. B. um durchschnittlich +3,85 % und bis zu +15,80 % auf EgoSchema mit Gemini 3 Flash. Um diese Lücke zu schließen, kuratieren wir VisualClawArena, einen 200-Szenarien umfassenden multimodalen agentischen Benchmark, der durch eine strenge fünffache Pipeline erstellt wurde; Modelle müssen Videobelege, Dokumente, dynamische Aktualisierungen und ausführbare Prüfungen innerhalb eines Arbeitsbereichs nutzen. In VisualClawArena verbessert dasselbe Framework mit Computer-Use-Agenten-Backends die makroskopische Genauigkeit um +2,9 % für Codex (GPT-5.5) und +3,2 % für Claude Code (Sonnet 4.6) gegenüber Baselines ohne Evolution, bei einer Kostenreduktion von -9,5 % im Vergleich zur gleichmäßig abgetasteten Baseline. Diese Eigenschaften machen VisualClaw zu einer natürlichen Wahl für Edge-Anwendungen, wo die Kaskade eine einstündige Streaming-Sitzung von ~3.600 API-Uploads auf nur 5–20 Aufrufe reduziert und die Selbst-Evolution es zu einem perfekten personalisierten Assistenten macht.

Qwen-RobotWorld Technischer Bericht: Vereinheitlichung der verkörperten Weltmodellierung durch sprachgesteuerte Videogenerierung
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Jun 15

ByJie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu

Wir stellen Qwen-RobotWorld vor, ein sprachgesteuertes Videoweltmodell für verkörperte Intelligenz. Mit natürlicher Sprache als einheitlicher Aktionsschnittstelle prognostiziert es physikalisch fundierte zukünftige visuelle Trajektorien aus aktuellen Beobachtungen in den Bereichen Robotermanipulation, autonomes Fahren, Indoor-Navigation und Mensch-zu-Roboter-Transfer. Diese einheitliche Formulierung eröffnet drei vielversprechende Anwendungsrichtungen: synthetische Datengenerierung zur Erweiterung des Policy-Trainings, skalierbare virtuelle Umgebungen zur Policy-Evaluierung sowie sprachgesteuerte Planungssignale für die nachgelagerte Robotersteuerung. Dies wird durch ein dreiteiliges Design erreicht: a) Double-Stream MMDiT mit MLLM-Aktionskodierung, wobei ein 60-lagiger Double-Stream-Diffusionstransformer die eingefrorene Qwen2.5-VL-Semantik durch schichtweise gemeinsame Aufmerksamkeit mit Video-VAE-Latents koppelt; b) Embodied World Knowledge (EWK), ein 8,6 Mio. Video-Text-Korpus (über 200 Mio. Frames) mit Aktions-Sprach-Zuordnung über mehr als 20 Verkörperungen und über 500 Aktionskategorien; und c) General+Expert Progressives Curriculum, eine zweistufige Trainingsstrategie, die zunächst allgemeine visuelle A-priori-Kenntnisse erlernt und dann unter einer gemeinsamen Sprachschnittstelle verkörperte Spezialisierung einbringt. Umfangreiche Ergebnisse zeigen eine hohe Wettbewerbsfähigkeit: Insgesamt Platz 1 auf EWMBench und DreamGen Bench, Überlegenheit gegenüber allen Open-Source-Modellen auf WorldModelBench und PBench. Weitere Zero-Shot-Analysen auf dem RoboTwin-IF-Benchmark bestätigen robuste Generalisierung und Multi-View-Konsistenz.

OneRank: Einheitliche Transformer-native Ranking-Architektur für Multi-Task-Empfehlung
OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

Jun 15

ByJiakai Tang, Sunhao Dai, Kun Wang, Zhiluohan Guo, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Xu Chen, Jun Xu

Multitask-Lernen (MTL) ist in Empfehlungssystemen unerlässlich, um komplementäres Lernen aus verschiedenartigem Nutzerfeedback zu ermöglichen. Während moderne industrielle Praktiken von DNNs auf transformerzentrische Architekturen umgestellt haben, um die Sequenzmodellierung und Skalierungskapazität zu stärken, entkoppeln sie weiterhin die Merkmalskodierung von der Multitask-Vorhersage und behandeln den Transformer als aufgabenagnostischen Encoder. Dieses Design schränkt die Leistungsfähigkeit und Skalierbarkeit grundlegend ein, indem es (1) einen Informationsengpass unter heterogenen Aufgabenstellungen erzeugt, (2) Gradienteninterferenz induziert, die zum Wippphänomen führt, und (3) einen Datenflussübergang erzwingt, bei dem aufmerksamkeitsbasiertes, kontextadaptives Repräsentationslernen in eine statische vorwärtsgerichtete Aufgabenvorhersage mit inkompatiblen Informationslese- und -schreibdynamiken umgewandelt wird. Wir schlagen OneRank vor, ein transformernatives Multitask-Ranking-Framework, das die Encoder-Prädiktor-Trennung aufhebt und aufgabenprivate Kanäle für das vorwärtige Repräsentationslernen und die Rückwärtsoptimierung einführt. Dies ermöglicht aufgabenspezialisiertes Lernen bei gleichzeitiger Reduzierung von Interferenzen zwischen Aufgaben. Im Vorwärtspass lernt OneRank aufgabenspezifische Repräsentationen Bottom-up durch aufgabenabhängige Informationsauswahl, kandidatenbewusste Kontextualisierung und kontrollierte aufgabenübergreifende Interaktion. Im Rückwärtspass isoliert die aufgabenübergreifende Gradiententrennung aufgabenprivate Parameteraktualisierungen von gemeinsamen Wissensextraktionsmodulen und verhindert so negativen Transfer. Darüber hinaus ersetzen wir statische aufgabenspezifische MLP-Scorer durch dynamisches matchbasiertes Scoring für kontextbewusstes personalisiertes Ranking. Durch die Verinnerlichung des Multitask-Schlussfolgerns innerhalb des Transformer-Stacks etabliert OneRank ein einheitliches und skalierbares Architekturparadigma. Offline- und Online-Experimente auf groß angelegten industriellen Datensätzen zeigen, dass OneRank die State-of-the-Art-Baselines signifikant übertrifft und dabei die Recheneffizienz beibehält.

TokenPilot: Cache-effiziente Kontextverwaltung für LLM-Agenten
TokenPilot: Cache-Efficient Context Management for LLM Agents

Jun 15

ByBuqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

Wenn LLM-Agenten in langfristigen Sitzungen eingesetzt werden, treibt die Kontextakkumulation die Inferenzkosten in die Höhe. Bestehende Ansätze nutzen Textbereinigung oder dynamisches Speicherverdrängen, um den Token-Fußabdruck zu minimieren; jedoch verändern ihre uneingeschränkten Sequenzmutationen die Layouts, was zu Präfix-Inkonsistenzen und Cache-Invalidierung führt. Dies offenbart einen kritischen Zielkonflikt zwischen Textsparsamkeit und Prompt-Cache-Kontinuität. Um dies zu adressieren, stellen wir TokenPilot vor, ein dual-granulares Kontextverwaltungsframework. Global fungiert die Ingestion-Aware Compaction als Rahmenwerkzeug, um Prompt-Präfixe zu stabilisieren und offene Umgebungsgeräusche am Aufnahmetor zu eliminieren. Lokal überwacht die Lifecycle-Aware Eviction den fortdauernden Restnutzen von Kontextsegmenten und erzwingt einen konservativen Batch-Turn-Zeitplan, um Inhaltssegmente nur dann auszulagern, wenn die Aufgabenrelevanz abläuft. Experimente auf PinchBench und Claw-Eval sowohl im isolierten als auch im kontinuierlichen Modus zeigen, dass TokenPilot die Kosten um 61% und 56% im isolierten Modus und um 61% und 87% im kontinuierlichen Modus senkt, während es eine wettbewerbsfähige Leistung im Vergleich zu früheren Systemen beibehält. TokenPilot wurde in LightMem2 unter https://github.com/zjunlp/LightMem2 integriert.

BadWorld: Adversarielle Angriffe auf Weltmodelle
BadWorld: Adversarial Attacks on World Models

Jun 15

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Visuelle Weltmodelle (VWMs) synthetisieren interaktive, aktionsabhängige Rollouts aus einem einzelnen Kontextbild. Es bleibt jedoch eine offene Frage, wie robust diese Modelle gegenüber adversarialen Störungen sind. Standardmäßige adversariale Angriffe versagen bei der Bewertung dieser Anfälligkeit, da Angreifer keine Ground-Truth-Zukunftsvideos besitzen und nachfolgende Benutzersteuerungen nicht vorhersagen können. Wir stellen BadWorld vor, ein bezeichnungsfreies adversaries Framework, das speziell für autoregressive VWMs entwickelt wurde und systematisch beide Einschränkungen überwindet. Erstens schlagen wir zur Umgehung des Bedarfs an zukünftiger Überwachung einen selbstüberwachten Geschwindigkeitsangriff vor, der direkt die frühen Entrauschungsdynamiken des Modells stört. Zweitens formulieren wir zur Sicherstellung der Generalisierung des Angriffs über unvorhersehbare Benutzeraktionen hinweg eine trajektorienadaptive zweistufige Optimierung, die aktiv schwierige Steuerungssequenzen abbaut, um steuerungsunabhängige Störungen zu erzeugen. Evaluiert auf repräsentativen VWMs mit kontinuierlichen und diskreten Steuerungen offenbart BadWorld eine schwerwiegende strukturelle Fragilität. Visuell nicht unterscheidbare adversariale Bilder führen zuverlässig zu katastrophaler Verschlechterung in zukünftigen Rollouts, was zu unvollständigem Entrauschen, strukturellem Kollaps und Steuerungsinkonsistenz führt. Diese Ergebnisse decken kritische Risiken für den Einsatz von VWMs in sicherheitskritischen Systemen auf und heben gleichzeitig einen praktischen Mechanismus zum Schutz der Privatsphäre hervor.

Abrufen, nicht neu trainieren: Erweiterung von Vision-Language-Action-Modellen auf neue Aufgaben zur Testzeit
Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Jun 14

ByJeongeun Park, Juhan Park, Taekyung Kim, Sungjoon Choi, Dongyoon Han, Sangdoo Yun

Die Erweiterung einer Vision-Language-Action (VLA)-Richtlinie auf eine neue Aufgabe erfordert typischerweise aufgabenspezifische teleoperierte Demonstrationen und ein aufgabenspezifisches Feintuning, was die Anpassung sowohl hinsichtlich des Datensammelns als auch des Rechenaufwands kostspielig macht. In dieser Arbeit zeigen wir, dass dieser zielseitige, aufgabenspezifische Anpassungsaufwand durch Retrieval ersetzt werden kann. Unsere retrieval-erweiterte Richtlinie wird einmalig auf gepaarten Demonstrationen der Zielausführung (Query) und einer günstigeren Ausführung (Pool, z. B. menschliches Handvideo) trainiert und dann eingefroren. Neue Aufgaben werden zur Bereitstellung hinzugefügt, indem Pool-seitige Demonstrationen an einen Retrieval-Pool angehängt werden. Die eingefrorene Richtlinie konditioniert bei jedem Steuerungsschritt auf abgerufene Trajektorien, sodass neue Aufgaben durch Indizierung von Daten aufgenommen werden, anstatt Parameter zu aktualisieren. Feintuning ist nur erforderlich, um eine neue, ungesehene Ausführung zu übernehmen, nicht für jede neue Aufgabe. Wir zeigen, dass Retrieval Richtlinien über ein spezifisches Rückgrat hinaus verbessert, einschließlich standardmäßiger VLA-Richtlinien, aber seine Wirkung ist besonders ausgeprägt in Cosmos Policy, einem auf Videogenerierung basierenden Weltaktionsmodell (WAM). In diesem Setting liefert Retrieval einen groben Aufgabenfortschritt, während das Zukunftsbild-Ziel des WAM ein zusätzliches visuelles Konsistenzsignal bereitstellt, das die retrieval-konditionierten Aktionen verstärkt. Auf PushT untersuchen wir, wie Retrieval einen wiederverwendbaren übergeordneten Bewegungs-Prior für die ausführungsübergreifende Generalisierung auf ungesehene Zielwinkel bereitstellt, während auf RoboTwin 2.0 unsere Methode ausführungsübergreifende Basislinien bei ungesehenen Aufgaben übertrifft, und wir demonstrieren die Methode zusätzlich an einem echten Roboter.

SP^3: Sphärische Priors für die Plug-and-Play-Restauration
SP^3: Spherical Priors for Plug-and-Play Restoration

Jun 15

BySean Man, Ron Raphaeli, Matan Kleiner, Or Ronai

In dieser Arbeit stellen wir SP^3 vor, einen neuartigen Plug-and-Play-Algorithmus, der die Maximum-a-posteriori-Bildrestaurierung beschleunigt, indem er Denoiser als generative Priors durch Sphärische Encoder (SE) ersetzt. SP^3 approximiert den nicht handhabbaren proximalen Prior-Schritt, indem es den eng strukturierten latenten Raum des SE als robuste Projektion auf die natürliche Bildmannigfaltigkeit nutzt. Die Abwechslung dieser Projektion mit einem geschlossenen datenkonsistenten Schritt mittels Half-Quadratic Splitting ermöglicht eine stabile Konvergenz, ohne dass während der Inferenz Gradienten berechnet werden müssen. Diese einzigartige Formulierung erlaubt eine „Anytime“-Restaurierung, die bereits ab der ersten Iteration scharfe, plausible Bilder erzeugt. Bewertungen über verschiedene Bildrestaurierungsaufgaben hinweg zeigen, dass SP^3 eine mit modernsten Zero-Shot-Diffusions- und Flow-Methoden vergleichbare Wahrnehmungsqualität erreicht, dabei jedoch 3- bis 630-mal schneller ist.

Memento: Rekonstruieren zum Erinnern für konsistente Langzeitvideogenerierung
Memento: Reconstruct to Remember for Consistent Long Video Generation

Jun 12

ByXuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong

Die Generierung von Langformvideos erfordert, dass wiederkehrende Subjekte in verschiedenen Einstellungen, Blickwinkeln, Bewegungen und Szenenübergängen konsistent bleiben. Bestehende Methoden der zeitlichen Zerlegung verbessern die Skalierbarkeit, indem sie Videos Einstellung für Einstellung generieren. Sie konzentrieren sich jedoch hauptsächlich auf die Optimierung plausibler Fortsetzungen der nächsten Einstellung, ohne zu überprüfen, ob der historische Speicher identitätskritische Subjektnachweise bewahrt. Folglich können wiederkehrende Subjekte im Laufe der Generierung verwässert, überschrieben oder vergessen werden. In dieser Arbeit schlagen wir Memento vor, ein subjektrekonstruktionsgestütztes Framework, das die Subjekterhaltung als explizites Identitätsverankerungsproblem behandelt, basierend auf der Prämisse, dass ein Speicher, der ein Subjekt treu bewahrt, die Rekonstruktion dieses Subjekts allein aus dem Speicher unterstützen sollte. Konkret trainiert Memento gemeinsam die autoregressive Generierung der nächsten Einstellung mit der speicherbasierten Subjektrekonstruktion, wobei Zielerscheinungen unter Verwendung des historischen Speichers und globaler Handlungsbeschreibungen wiederhergestellt werden. Um langreichweitige Subjektnachweise von kurzreichweitigen Hinweisen zu entflechten, führt Memento einen Dual-Query-Speichermechanismus ein, bei dem eine Abfrage identitätsrelevante Erinnerungen abruft und die andere Kurzkontext-Schlüsselbilder für eine kohärente Fortsetzung auswählt. Darüber hinaus liefert eine subjektbewusste kinematografische Datenpipeline präzise Rekonstruktionsüberwachung durch konsistente, pronomenfreie Subjektbeschreibungen. Experimente zeigen, dass Memento eine Spitzenleistung in der langfristigen Subjektkonsistenz, der einstellungsübergreifenden Kohärenz und der visuellen Qualität erzielt.

MVEB: Massiver Video-Embedding-Benchmark
MVEB: Massive Video Embedding Benchmark

Jun 12

ByAdnan El Assadi, Roman Solomatin, Isaac Chung, Chenghao Xiao, Deep Shah, Manan Dey, Shriya Sudhakar, Zacharie Bugaud, Wissam Siblini, Ayush Sunil Munot, Yashwanth Devavarapu, Rakshitha Ireddi, Michelle Yang, Márton Kardos, Niklas Muennighoff, Kenneth Enevoldsen

Wir stellen das Massive Video Embedding Benchmark (MVEB) vor, ein Benchmark mit 23 Aufgaben für Video-Embeddings, das Klassifikation, Zero-Shot-Klassifikation, Clustering, Paarklassifikation, Retrieval und videobasierte Fragebeantwortung umfasst. Wir evaluieren 33 Modelle und stellen fest, dass kein einzelnes Modell dominiert: MLLM-basierte Embeddings führen bei Klassifikation, Clustering, Paarklassifikation und QA; multimodale Bindung führt bei Retrieval und Zero-Shot-Klassifikation; generative MLLMs ohne kontrastive Anpassung kollabieren bei cross-modalen Aufgaben. Gepaarte video-only- vs. Audio+Video-Evaluierungen zeigen, dass der Beitrag von Audio von der Annotationsherkunft des Datensatzes abhängt: Audio hilft, wenn Labels aus beiden Modalitäten erstellt wurden, und schadet, wenn sie ausschließlich aus visuellen Informationen stammen – eine über Modellfamilien hinweg konsistente Lücke von sechs Prozentpunkten. MVEB wird aus MVEB+ abgeleitet, einem Pool von 184 Aufgaben, und ist darauf ausgelegt, die Aufgabendiversität zu erhalten, während die Evaluierungskosten gesenkt werden. Es integriert sich in das MTEB-Ökosystem für eine einheitliche Evaluierung über Text, Bild, Audio und Video hinweg. Wir veröffentlichen MVEB und alle 184 Aufgaben zusammen mit Code und einem Leaderboard unter https://github.com/embeddings-benchmark/mteb.

Nemotron 3 Ultra: Offenes, effizientes Mixture-of-Experts-Hybrid-Mamba-Transformer-Modell für agentisches Denken
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Jun 12

ByNVIDIA, Aaron Blakeman, Aaron Thomas, Aastha Jhunjhunwala, Abhibha Gupta, Abhinav Khattar, Adam Rajfer, Adi Renduchintala, Adil Asif, Aditya Vavre, Adriana Flores Miranda, Ahmad Bilal, Aileen Zaman, Ajay Hotchandani, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Alex Gronskiy, Alex Kondratenko, Alex Steiner, Alex Ye, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alice Gatti, Alisa Liu, Alok Kumar, Amar Phanishayee, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Anahita Bhiwandiwalla, Ananth Subramaniam, Andrea Santilli, Andrew Fulks, Andrew McHarg, Andrew Tao, Andrii Skliar, Anjulie Agrusa, Ankur Srivastava, Ankur Verma, Anna Shors, Anna Warno, Antoni-Joan Solergibert I Llaquet, Arham Mehta, Arkadiusz Nowaczynski, Arti Jain, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Atefeh Sohrabizadeh, Avinash Kaur, Avinash Vem, Ayush Dattagupta, Barath Subramaniam Anandan, Bardiya Sadeghi, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bill Thiede, Bita Darvish Rouhani, Bo Deng, Bob Schatz, Boris Ginsburg, Boxin Wang, Brad Nemire, Brandon Norick, Brian Dang, Brian Westphal, Brian Yu, Brucek Khailany, Bryan Catanzaro, Carlo del Mundo, Caryln Aarish, Chankyu Lee, Chantal Hwang, Charbel Sakr, Charles Wang, Charlie Truong, Chen Cui, Cheng Cheng, Cheng-Ping Hsieh, Chenghao Zhang, Chenhui Deng, Chintan Patel, Chris Alexiuk, Christian Cosgrove, Christian Munley, Christine Harvey, Christopher Parisien, Chunyang Shen, Coco Li, Collin Neale, Cynthia Gao, Cyril Meurillon, Dan Gil, Dan Su, Dan Zhao, Dane Corneil, Daniel Afrimi, Daniel Egert, Daniel Korzekwa, Daniel Lo, Daniel Machlab, Daniel Serebrenik, Daniil Sorokin, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, David Yu, Davit Karamyan, Deena Donia, Deep Debroy, Deepak Narayanan, Devin O'Kelly, Dheeraj Peri, Dhruv Nathawani, Di, Wu, Dima Rekesh, Divyanshu Kakwani, Donald Plummer, Dong Anh, Dongfeng Yu, Dongfu Jiang, Donnie Kim, Dorrin Poorkay, Duncan Riach, Dusan Stosic, Dustin VanStee, Eavan Meng, Edgar Minasyan, Edward Lin, Eileen Margaret Peters Long, Elad Sarafin, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Pham-Hung, Eric Tramel, Eric Yang, Erick Galinkin, Erik Pounds, Erika Goncalves Goncalves, Evan Briones, Evan Wu, Evelina Bakhturina, Evgeny Tsykunov, Ewa Dobrowolska, Faisal Ladhak, Farzan Memarian, Fay Wang, Fei Jia, Felipe Soares, Felipe Vieira Frujeri, Feng Chen, Fengguang Lin, Ferenc Galko, Frank Sun, Frankie Siino, Frida Hou, Gal Hubara Agam, Gal Kaplun, Gantavya Bhatt, Gargi Prasad, Garvit Kulshreshtha, George Armstrong, Gerald Shen, Giulio Borghesi, Gordana Neskovic, Gorkem Batmaz, Grace Lam, Greg Mason, Greg Pauloski, Grigor Nalbandyan, Grzegorz Chlebus, Grzegorz Karch, Guan-Ting Liu, Guoming Zhang, Guyue Huang, Haggai Maron, Haifeng Qian, Haim Elisha, Haoxing Ren, Haran Kumar Shiv Kumar, Haribhau Hud, Harris Nover, Harrison Saturley Hall, Hayate Iso, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hovhannes Tamoyan, Hua Li, Huanhuan Chen, Hui Li, Hui Wang, Huy Nguyen, Ian Chiles, Ido Galil, Ido Shahaf, Igor Gitman, Igor Shovkun, Ilya Loshchilov, Ingo Guehring, Itamar Schen, Itay Levy, Itay Neeman, Ivan Moshkov, Izik Golan, Izzy Putterman, Jaemin Choi, Jakub Slowikowski, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jiacheng Xu, Jiafan Zhu, Jialin Song, Jian Zhang, Jiantao Jiao, Jiaqi Zeng, Jie Lou, Jim King, Jimmy Zhang, Jingquan Wang, Jinhang Choi, Jinju Chu, Joey Conway, Joey Guman, Johan Jatko, Johannes Rausch, John Kamalu, John Roberts, Johnny Greco, Johnny Mensel, Jonah Alben, Jonas Yang, Jonathan Cohen, Jonathan Raiman, Joseph Jennings, Joshua Mabry, Joshua Pierce, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kajal Jain, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Willowhawk, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khanh Nguyen, Khushi Bhardwaj, Kirthi Shankar Sivamani, Konstantinos Krommydas, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Kyle Keprios, Kylie Day, Lawrence McAfee, Leo Du, Leon Derczynski, Li Ding, Linda Liu, Lingjie Wu, Lior Kadoch, Lizzie Wei, Luis Vega, Luke Robison, Lun Su, Maarten Van Segbroeck, Maciej Jakub Mikulski, Maer Rodrigues de Melo, Magda Sypula, Mahan Fathi, Makesh Narsimhan Sreedhar, Makesh Tarun Chandran, Manoj Kilaru, Maor Ashkenazi, Marc Cuevas, Marc Romeijn, Marcin Chochowski, Mark Cai, Mark Mozolewski, Markus Kliegl, Marta Stepniewska-Dziubinska, Martyna Patelka, Mattei Machczynski, Matvei Novikov, Mauricio Ferrato, Maximilian Golub, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Mengxi Wu, Meredith Price, Meriem Boubdir, Micah Schaffer, Michael Andersch, Michael Boone, Michael Gschwind, Michael Lightstone, Michael Loh, Michal Bien, Michal Zawalski, Michelle Gill, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Mike Houston, Mingyuan Ma, Minseok Lee, Mohamed Fawzy, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Namit Dhameja, Narimane Hennouni, Natalie Hereth, Nathaniel Pinckney, Nave Algarici, Nave Assaf, Netanel Haber, Nicholas Knight, Nick Reamaroon, Nickson Quak, Nidhi Bhatia, Nikhil Desai, Nikolai Ludwig, Nima Tajbakhsh, Ning Xu, Nir Ailon, Nirmal Juluru, Nitin Nitin, Ofri Masad, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivia Viessmann, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Pablo Ribalta, Pallab Bhattacharya, Panos Lampropoulos, Parth Mannan, Pasha Shamis, Patrick Legresley, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pierre-Yves Aquilanti, Pinky Xu, Piotr Januszewski, Piotr Laskiewicz, Pooya Jannaty, Prakash Gurumurthy, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Puhui Meng, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachel Oberman, Rachit Garg, Radha Sri-Tharan, Rahul Kandu, Rakshit Sanadhya, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Ray Macalisang, Rayen Tian, Reka Kovacs, Renjie Pi, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Rishi Puri, Rita Fernandes Neves, Ritchie Zhao, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Clark, Robert Hesse, Robert Kirby, Roger Waleffe, Rohit Watve, Roi Koren, Ron Banner, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Ryan Stewart, Ryota Egashira, Sadegh Mahdavi, Saee Paliwal, Sagar Singh, Sahil Modi, Salika Dave, Samantha Shinagawa, Samuel Kriman, Sandip Bhaskar, Sangkug Lym, Sanjay Kariyappa, Sanjeev Satheesh, Saran Vikas Murari, Satish Pasumarthi, Saurabh Mishra, Saurav Muralidharan, Scott Hara, Sean Narentharen, Selvaraj Anandaraj, Seonjin Na, Seonmeyong Bak, Seonmyeong Bak, Sepehr Sameni, Seph Mard, Serge Panev, Seth Henneman, Seth Poulos, Shahar Mor, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Mendelson, Shaun Kotek, Shawn Wang, Shay Aharon, Shaya Gharghabi, Sheng-Chieh Lin, Shi Chen, Shiqing Fan, Shirish Baskaran, Shreya Gopa, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Shwetha Krishnamurthy, Siddharth Singh, Simeng Sun, Sirshak Das, Sivakumar Arayandi Thottakara, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Sri Harsha Singudasu, Sridhar Bhuvanapalli, Srimukh Veccham, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Su Rong, Sugam Dipak Devare, Sukrit Rao, Sumeet Kumar Barua, Sungsoo Ha, Sunny Gai, Suriya Gunasekar, Suseella Panguluri, Suyog Gupta, Sviataslau Hinzburh, Sweta Priyadarshi, Syeda Nahida Akter, Talor Abramovich, Tan Bui, Tanay Varshney, Tatevik Ter-Hovhannisyan, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tianhe Zhang, Tiffany Moore, Tijmen Blankevoort, Tim Moon, Tiyasa Mitra, Tom Balough, Tomasz Grzegorzek, Tomasz Hliwiak, Tomer Asida, Tomer Bar Natan, Tomer Keren, Tomer Ronen, Tony Salim, Tony Wang, Traian Rebedea, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Venkat Srinivasan, Venmugil Elango, Vibhor Agrawal, Victor Cui, Vijay Korthikanti, Vikas Mehta, Vinay Rao, Virginia Wu, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Vu Pham, Wanli Jiang, Wasi Uddin Ahmad, Wataru Ishihara, Wei Du, Wei Ping, Weiheng Chai, Wenliang Dai, Wesley Helmholz, Will Jennings, Will Zhu, Wojciech Prazuch, Xiaowei Ren, Xiwen Yu, Yan Breek, Yang Chen, Yang Yu, Yangyi Chen, Yaniv Galron, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Ying Lin, Yonatan Geifman, Yonggan Fu, Youngeun Kwon, Yu Yao, Yugi Guvvla, Yuki Huang, Yunsheng Liu, Zach Moshe, Zachary Newell, Zhilin Wang, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zihan Liu, Zijie Yan, Zsolt-Alon Wertheimer

Wir stellen Nemotron 3 Ultra vor, ein Sprachmodell mit Mixture-of-Experts und Hybrid-Mamba-Attention, das insgesamt 550 Milliarden und 55 Milliarden aktive Parameter besitzt. Wir haben Nemotron 3 Ultra auf 20 Billionen Text-Tokens vortrainiert, anschließend die Kontextlänge auf 1 Million Tokens erweitert und mit Supervised Fine Tuning (SFT), Reinforcement Learning (RL) sowie Multi-teacher On-Policy Distillation (MOPD) nachtrainiert. Nemotron 3 Ultra ist unser leistungsfähigstes Modell und nutzt mehrere Schlüsseltechnologien – LatentMoE, Multi Token Prediction (MTP), NVFP4-Vortraining, Multi-Umgebungs-RLVR, MOPD und Reasoning-Budget-Kontrolle. Im Vergleich zu öffentlich verfügbaren modernsten Large Language Models erreicht Nemotron 3 Ultra einen bis zu etwa 6-fach höheren Inferenzdurchsatz bei gleichwertiger Genauigkeit. Die hochmoderne Genauigkeit, der hohe Inferenzdurchsatz und die Kontextlänge von 1 Million Tokens machen Nemotron 3 Ultra ideal für langlebige autonome agentische Aufgaben. Wir stellen die Basis-, nachtrainierten und quantisierten Checkpoints sowie die Trainingsdaten und das Rezept als Open Source auf HuggingFace zur Verfügung.

CODA-BENCH: Können Code-Agenten datenintensive Aufgaben bewältigen?
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Jun 13

ByYuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du

Fortschrittliche Agenten zeigen zunehmend ihr Potenzial, als autonome Ingenieure zu agieren, was eine wachsende Nachfrage nach Evaluations-Benchmarks schafft, die die Komplexität realer Entwicklungsabläufe abbilden. Solche Umgebungen umfassen typischerweise sowohl komplexen Code als auch große Datenmengen (d. h. ein Dateisystem). Bestehende Benchmarks bewerten jedoch oft codezentrierte oder datenzentrierte Fähigkeiten isoliert, sodass eine deutliche Lücke zu realen Entwicklungsszenarien besteht. In dieser Arbeit schließen wir diese Lücke durch die Einführung von CODA-BENCH, dem ersten Benchmark, der Code- und Datenintelligenz gemeinsam in einer datenintensiven Umgebung evaluiert. Wir konstruieren eine datenintensive Linux-Sandbox auf Basis des Kaggle-Ökosystems (das Hunderte von Datensätzen enthält), in der Agenten aktiv komplexe Dateihierarchien durchsuchen müssen, um relevante Ressourcen zu identifizieren und Code für datengetriebene Analyseaufgaben zu generieren. CODA-BENCH umfasst 1.009 Aufgaben aus 31 Communitys, wobei jede Aufgabenumgebung durchschnittlich 980 Dateien enthält und so realistische Datengrößen und -rauschen simuliert. Evaluierungen fortgeschrittener Agenten zeigen, dass selbst leistungsstarke Systeme Schwierigkeiten haben, Datenentdeckung und Codeausführung effektiv zu integrieren, und lediglich eine Erfolgsrate von 61,1 % erreichen. Diese Ergebnisse verdeutlichen eine erhebliche Lücke in den derzeitigen Agentenfähigkeiten für datenintensive Aufgaben und weisen auf vielversprechende Richtungen für zukünftige Forschung hin.

Wo ist es schiefgelaufen? Prozessebenenbewertung von Web-Agenten mit semantischer Zustandsverfolgung
Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

Apr 8

ByJiwan Chung, JiHyuk Byun, Vibhav Vineet, Seon Joo Kim

Web-Agenten agieren über lange Interaktionssequenzen, dennoch bewerten bestehende Benchmarks lediglich den letztendlichen Erfolg, verwerfen sämtliche Prozessinformationen und bieten wenig Anleitung zur Verbesserung. In dieser Arbeit führen wir eine Prozessanalyse auf Handlungsebene von Web-Agenten durch. Wir stellen WebStep vor, einen Benchmark mit 1.800 Aufgabeninstanzen mit kontrolliertem Schwierigkeitsgrad und automatischer semantischer Zustandsverfolgung. Jede Website legt neben der grafischen Benutzeroberfläche ein deterministisches semantisches MDP offen: Der Agent operiert auf der Schnittstelle, während die Umgebung im Hintergrund hochrangige Zustände und Übergänge aufzeichnet, was eine detaillierte Analyse ohne manuelle Annotation ermöglicht. Basierend auf der semantischen Trajektorie zeigen wir zunächst, dass Prozessmetriken Unterschiede offenbaren, die bei der Ergebnisbewertung unsichtbar bleiben: Drei Agenten, deren Erfolgsraten zwischen 31-33% liegen, unterscheiden sich in der Reichweite der Erkundung versus der Ausführungsgenauigkeit. Anschließend charakterisiert eine Zerlegung nach Fähigkeiten die Art dieser Unterschiede und legt gegensätzliche fähigkeitsspezifische Rangfolgen offen, die innerhalb derselben Website verborgen sind: Z. B. übertrifft OpenAI CUA auf Housing Qwen3.5 um 23,7% bei Commit-Aktionen, bleibt aber um 15,6% beim Filtern dahinter zurück, was eine konkrete zu verbessernde Fähigkeit sogar innerhalb einer Domäne identifiziert. Die Bifurkationsanalyse lokalisiert weiterhin den entscheidenden Fehler, der die Aufgabe scheitern lässt, und zeigt, dass dieser Fehler agentenspezifisch und nicht gemeinsam ist. Schließlich vergrößern sich diese Unterschiede mit zunehmendem Aufgabenschwierigkeitsgrad: Die Erfolgsrate ähnelt sich bei einfachen Aufgaben, trennt sich jedoch deutlich, wenn die Erkundung anspruchsvoller wird. Unsere Prozessanalyse eröffnet einen neuen Weg in der Bewertung von Web-Agenten und liefert detaillierte, umsetzbare Einblicke, wo und wie jeder Agent verbessert werden sollte.

GD^2PO: Minderung von Multi-Belohnungs-Konflikten durch gruppendynamische belohnungsentkoppelte Policy-Optimierung
GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Jun 15

ByHaotian Liu, Yihao Liu, Jingwei Ni, Siyuan Huang, Xinpeng Liu, Pengyu Cheng, Jiajun Song, Ruijin Ding, Junfeng Li, Zhechao Yu, Mengyu Zhou, Hongteng Xu, Xiaoxi Jiang, Guanjun Jiang

Mit dem Fortschritt großer Sprachmodelle (LLMs) stützt sich das nach dem Training durchgeführte Reinforcement Learning (RL) zunehmend auf mehrdimensionale Belohnungen, um umfassende Fähigkeiten zu entwickeln. Dieser Wandel erfordert neuartige Algorithmen, die in der Lage sind, diverse und potenziell konkurrierende Ziele gleichzeitig zu optimieren. Um dies zu adressieren, zerlegen bestehende Methoden wie die Group reward-Decoupled Policy Optimization (GDPO) die Gesamtpunktzahl in unabhängige Belohnungsgruppen und berechnen den RL-Verlust anschließend separat für jede Gruppe. Diese Strategie stößt jedoch weiterhin auf Multi-Belohnungskonflikte: Ein einzelner Rollout kann auf bestimmten Belohnungsdimensionen positive, auf anderen jedoch negative Advantages erzeugen, was dazu führt, dass sich gegensätzliche Signale bei der Aggregation gegenseitig aufheben und die RL-Trainingseffizienz weiter behindern. Inspiriert von der Dynamic sAmpling Policy Optimization (DAPO), die die RL-Trainingseffizienz durch das Herausfiltern ineffektiver Rollouts mit nahezu null Advantages verbessert, schlagen wir die Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) vor. Konkret setzt GD²PO einen konfliktbewussten Filtermechanismus ein, um Rollouts auszublenden, die unter starken belohnungsbezogenen Diskrepanzen leiden. Indem verhindert wird, dass sich widersprüchliche Signale gegenseitig aufheben, bewahrt und verstärkt diese Ausblendungsstrategie die Größe effektiver RL-Advantages und beschleunigt so die Lerneffizienz erheblich. Darüber hinaus führen wir eine Neugewichtung auf Abfrageebene ein, um die Aktualisierungsintensität jeder Abfrage dynamisch auf der Grundlage ihres gesamten Belohnungskonsenses anzupassen. Experimente in verschiedenen Multi-Belohnungsszenarien, darunter Tool Calling und die Ausrichtung an menschlichen Präferenzen, zeigen, dass GD²PO durchgängig und deutlich besser abschneidet als bestehende Basislinien. Der Code ist verfügbar unter https://github.com/Qwen-Applications/GD2PO.

PhoneHarness: Nutzung von Smartphone-Nutzungsagenten durch gemischte GUI-, CLI- und Tool-Aktionen
PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Jun 12

ByChenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

Phone-Agenten werden zunehmend damit beauftragt, reale mobile Arbeitsabläufe vollständig auszuführen, anstatt lediglich die nächste Bildschirmaktion vorherzusagen. Ein Großteil der aktuellen Literatur zu mobilen Agenten bewertet diese jedoch weiterhin primär als GUI-Steuerungen, die einen Bildschirm beobachten, Tipp- und Wischgesten ausführen und anhand des erreichten App-Zustands bewertet werden. Reale Telefonnutzungsaufgaben sind breiter gefasst: Sie erfordern Entscheidungen darüber, wann App-GUIs, geräteseitige Befehle oder strukturierte Werkzeuge eingesetzt werden sollen, während gleichzeitig nachweisbar sein muss, dass die beabsichtigte Nebenwirkung tatsächlich eingetreten ist. Wir stellen PhoneHarness vor, einen Benchmark und eine Ausführungsumgebung für gemischte Aktionen zur Untersuchung von Phone-Agenten bei verifizierbaren mobilen Arbeitsabläufen. PhoneHarness führt eine geräteseitige Agentenschleife über GUI-, CLI- und hostseitige Werkzeugaktionen aus, die deterministische Aktionsweiterleitung mit begrenzter GUI-Delegation und prüfbaren Ausführungsprotokollen kombiniert. Der zugehörige Benchmark, PhoneHarness Bench, bewertet, ob Agenten Aufgaben mit beobachtbaren Nebenwirkungen abschließen, nicht nur, ob sie plausible Endantworten liefern. Im annotierten Evaluierungssplit erreicht PhoneHarness eine Erfolgsquote von 75,0 % und übertrifft die stärksten Nicht-PhoneHarness-Einstellungen um 12,9 Prozentpunkte. PhoneHarness und PhoneHarness Bench spielen daher unterschiedliche, aber voneinander abhängige Rollen: Die Ausführungsumgebung macht gemischte Telefon-Workflows ausführbar, während der Benchmark misst, ob Agenten diese Umgebung zuverlässig und sicher nutzen können. Unsere Ergebnisse deuten darauf hin, dass zuverlässige Telefonautomatisierung von Aktionsoberflächenweiterleitung und verifizierbarer Ausführung abhängt, nicht nur von visueller GUI-Steuerung.

UniDDT: Vereinheitlichung von multimodalem Verstehen und Generieren mit entkoppeltem Diffusions-Transformator
UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Jun 15

ByShuai Wang, Liang Li, Yang Chen, Ruopeng Gao, Yao Teng, Limin Wang

Einheitliche multimodale Modelle (UMMs) haben sich als entscheidende Richtung für allgemeine multimodale Intelligenz etabliert, die Verständnis und Generierung in einem einzigen Rahmenwerk vereint. Allerdings stehen bestehende UMMs vor prominenten Herausforderungen: (1) die inhärenten Lernkonflikte zwischen visuellen Verständnis- und Generierungsaufgaben, die zu suboptimaler Modellierung in beiden Aufgaben führen; (2) unterschiedliche visuelle Räume für Verständnis und Generierung, die die Skalierbarkeit behindern; (3) eine übermäßige Abhängigkeit von aufgabenspezifischen Daten, die die Dualität von Text-Bild-Verständnis und -Generierung vernachlässigt. Um diese Herausforderungen zu bewältigen, schlagen wir UniDDT vor, das einen Noisy-ViT-Encoder zusammen mit einem LLM nutzt, um die semantische Kodierung für visuelle Generierungs- und Verständnisaufgaben zu vereinheitlichen, während ein separater Diffusionsdecoder verwendet wird, um die Diffusionsdekodierung von der Textdekodierung zu entkoppeln. Mit diesem Noisy-ViT-Encoder ist UniDDT in der Lage, den latenten Raum als einheitliche visuelle Repräsentation zu nutzen und eine nahtlose Kompatibilität zwischen Verständnis- und Generierungsaufgaben zu ermöglichen. Dadurch können die Skalierbarkeit innerhalb der Generierungsaufgaben und die semantische Ausdruckskraft innerhalb der Verständnisaufgaben ausbalanciert werden. Außerdem konstruieren wir duale Datenstrukturen aus denselben Bild-Text-Paaren, fördern die gegenseitige Abhängigkeit zwischen Generierungs- und Verständnisdaten und nutzen deren inhärente Dualität. Umfangreiche Experimente zeigen, dass UniDDT eine effektive Vereinheitlichung multimodalen Verständnisses und der Generierung mit verbesserter semantischer Konsistenz und Skalierbarkeit erreicht. Für visuelle Generierungsaufgaben erreicht unser UniDDT einen GenEval-Wert von 0,87 und einen DPG-Gesamtwert von 86,9. Für multimodale Verständnisaufgaben erreicht unser UniDDT eine Punktzahl von 1699,5 auf dem MME-Benchmark und einen Gesamtwert von 76,5 auf SEEDbench.

Tangram: Erschließung der nicht-einheitlichen KV-Cache-Kompression für effizientes Multi-Turn-LLM-Serving
Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Jun 15

ByHyungmin Kim, Minsoo Kim, Hongseok Kim, Jungwook Choi

Die Bereitstellung von Multi-Turn-LLMs akkumuliert Dialogverläufe, deren Key-Value (KV)-Cache mit jeder Runde und jedem Benutzer wächst und schnell die Modellgewichte selbst übersteigt, wodurch der Speicher – und nicht die Rechenleistung – zum begrenzenden Faktor für den Durchsatz wird. Nicht-uniforme KV-Kompression, die heterogene Budgets über Aufmerksamkeitsköpfe verteilt, bewahrt die Genauigkeit weitaus besser als uniforme Verfahren, bleibt jedoch unpraktikabel: Moderne Serving-Stacks gehen von identischen KV-Längen über alle Köpfe hinweg aus, sodass Heterogenität freigegebenen Speicher in Form von Seitenfragmentierung blockiert, bis zu 25 % der Prefill-Zeit für die Rückgewinnung verstreuter Seiten aufwendet und GPU-Workloads verzerrt, die die Dekodierlatenz um bis zu das 1,7-Fache erhöhen oder 15–20 % jedes Dekodierschritts für Neuplanung verbrauchen. Wir beobachten, dass diese Heterogenität nicht zur Laufzeit entdeckt werden muss: Die kopfspezifische Retention folgt einer zweistufigen strukturellen Regelmäßigkeit – einem eingabeinvarianten Kopfranking mit eng begrenzten kopfweisen Verhältnissen – das offline anhand von lediglich 50 Stichproben kalibriert werden kann. Aufbauend auf dieser Erkenntnis präsentieren wir Tangram, ein Serving-Framework, das statisch löst, was bisherige Systeme dynamisch handhaben: Budget Reservation legt den Post-Kompressions-Fußabdruck jedes Kopfes zur Planungszeit fest und eliminiert so die Seitenrückgewinnung; Ragged Paging gruppiert Köpfe mit ähnlichem Budget in unabhängige Seitentabellen und verwandelt Fragmentierung in wiedergewinnbaren Speicher; und Ahead-of-Time Load Balancing berechnet im Voraus ausgewogene GPU-Partitionen ohne Laufzeitplanung. Implementiert auf vLLM, dient Tangram als Drop-in-Substrat für bestehende nicht-uniforme Kompressionsmethoden, erreicht deren Genauigkeit und verbessert gleichzeitig den End-to-End-Durchsatz um bis zu das 2,6-Fache im Vergleich zur Full-KV-Baseline. Unsere Implementierung ist öffentlich verfügbar unter https://github.com/aiha-lab/TANGRAM.

Track2View: 4D-konsistente kameragesteuerte Videogenerierung mittels gepaarter 3D-Punktspuren
Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

Jun 14

ByFeng Qiao, Zhaochong An, Zhexiao Xiong, Serge Belongie, Nathan Jacobs

Das Nachrendern eines vorhandenen Videos aus einer neuartigen Kameraperspektive erfordert, dass die Ausgabe der vorgegebenen Kameratrajektorie folgt, während das Erscheinungsbild und die Dynamik der Originalszene in jedem Frame erhalten bleiben. Bestehende Methoden stützen sich auf Frame-bezogene Poseneinbettungen, verrauschte Punktwolken-Renderings oder implizit gelernte Korrespondenzen, von denen keine eine explizite, zeitlich kontinuierliche Verknüpfung zwischen Quell- und Zielpixeln herstellt. Wir schlagen Track2View vor, das einen Videodiffusionstransformer auf gepaarte 3D-Punktspuren konditioniert: dünn besetzte Trajektorien von Szenenpunkten, die sowohl in die Quell- als auch in die Zielkameraperspektive projiziert werden. Diese Spuren liefern explizite raumzeitliche Korrespondenzen, die per Konstruktion zeitlich kontinuierlich sind und kodieren, welcher Inhalt wo und wann erscheinen soll. Kernstück von Track2View ist ein Dual-View-Track-Conditioner, der visuellen Kontext von der Quell- zur Zielansicht durch parameterfreie geometrische Operationen und gelernte zeitliche Aggregation überträgt und so die Verallgemeinerung auf beliebige Kameratrajektorien ohne das Einprägen spezifischer Bewegungen sicherstellt. Wir führen ferner eine Datenaufbereitungspipeline ein, die Eins-zu-Eins-Spurkorrespondenzen extrahiert, indem sie einen 3D-Punktverfolger auf zeitlich verketteten Multikamera-Ansichtspaaren ausführt. Auf einem 400-Videos umfassenden Benchmark mit statischen und dynamischen Szenen erzielt Track2View Spitzenergebnisse in Bezug auf visuelle Qualität, Ansichtssynchronisation und Kameragenauigkeit, wobei der Rotationsfehler um 30–65% und der Translationsfehler um 61–72% gegenüber führenden Basislinien reduziert wird. Eine Projektseite ist verfügbar unter dieser https URL: https://qjizhi.github.io/track2view

Hierarchische Vorteilsgewichtung für das Online-RL-Feintuning von VLAs aus spärlichen Episodenergebnissen
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Jun 15

ByTongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li

Wenn vortrainierte VLA-Policies mittels Online-RL feinjustiert werden, erzeugt jede Rollout-Episode nur ein einziges binäres Ergebnis (Erfolg oder Misserfolg), während die Aktualisierung des Akteurs eine Überwachung pro Übergang erfordert. Bestehende Ansätze reduzieren dieses spärliche Ergebnis üblicherweise auf ein einzelnes skalares Belohnungs- oder Advantage-Signal, was unterschiedliche Formen von Übergangs-Feedback vermischt und nur begrenzte Orientierung bietet, sobald grundlegender Aufgabenerfolg erreichbar wird. Erstens vermischt ein einzelnes skalares Signal die beiden Ziele Lebensfähigkeit und Effizienz; sobald der grundlegende Erfolg erreicht ist, liefert die binäre Kennzeichnung keinen Gradienten, um effiziente Abschlüsse von langsamen zu unterscheiden. Zweitens mischen reale Rollouts autonome und Interventionssegmente; eine naive Zuweisung von Episodenergebnissen über diese Grenzen hinweg führt zu einer falschen Bewertungszuweisung. Um diese Probleme zu adressieren, schlagen wir Hierarchical Advantage-Weighted Behavior Cloning (HABC) vor, das separate Kritik-Köpfe für diese beiden Ziele auf unterschiedlichen Daten-Untermengen trainiert und deren Ausgaben mit einer zustandsadaptiven Balance kombiniert. Ein zustandsadaptives Gate \(g_t\) führt deren Ein-Schritt-Vorteile zusammen, priorisiert Lebensfähigkeit, wenn der Erfolg unsicher ist, und schwenkt nur bei hoher Lebensfähigkeit auf Effizienz um; das Ergebnis wird in Gewichte pro Übergang für den Actor-Verlust umgewandelt. Eine interventionsbewusste Bewertungszuweisung schränkt die Ergebnislabels ferner auf Segmente ein, die von der aktuellen Policy ausgeführt wurden, und verhindert so, dass Überwachung über Interventionsgrenzen hinweg durchsickert. In realen Roboter-Experimenten an drei kontaktreichen bimanuellen Aufgaben steigert HABC die Erfolgsrate von überwachten Feintuning-Baselines (SFT) von 36 %, 44 % und 12 % auf 92 %, 88 % bzw. 38 %.

Man braucht keine starken Annahmen: Visuelles Repräsentationslernen mittels zeitlicher Differenzen
You Don't Need Strong Assumptions: Visual Representation Learning via Temporal Differences

Jun 14

ByNinad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji

Fortschritte in der KI wurden größtenteils durch Methoden vorangetrieben, die weniger Annahmen treffen. Mit zunehmender Rechenleistung und Datenmenge übertreffen Ansätze mit schwächeren induktiven Biases im Allgemeinen solche mit stärkeren Annahmen. Dies ist besonders charakteristisch für das Gebiet des visuellen Repräsentationslernens, wo Ansätze von der Dominanz des überwachten Lernens über das schwach überwachte Lernen bis hin zum heutigen weit verbreiteten Erfolg des selbstüberwachten Lernens ohne menschliche Labels übergegangen sind. Dennoch sind selbst moderne Ansätze des selbstüberwachten Lernens noch auf starke induktive Biases angewiesen, wie Augmentierungen, Maskierung oder Zuschneiden. Wenn dieser Trend anhält, sollten selbst diese verbleibenden Biases im großen Maßstab zu Engpässen werden – und unsere Experimente bestätigen dies: Die optimale Stärke der induktiven Biases nimmt mit wachsenden Datenmengen ab. Dies motiviert die Suche nach Ansätzen, die auf weniger Annahmen beruhen. Zu diesem Zweck führen wir Temporal Difference in Vision (TDV) ein, ein neues Paradigma für selbstüberwachtes Lernen aus Videos, das bestehende induktive Biases vermeidet und stattdessen auf einer kausalen Annahme beruht, dass die Vergangenheit die Zukunft verursacht. TDV funktioniert durch gemeinsames Training eines Bild-Encoders und eines Bewegungs-Encoders, sodass die Repräsentation des aktuellen Bildes plus die kodierte Bewegung der Repräsentation des nächsten Bildes entspricht. Obwohl TDV keine starken induktiven Biases nutzt, erreicht es auf dichten räumlichen Aufgaben das Niveau von State-of-the-Art-Verfahren und legt damit den Grundstein für Repräsentationslernen ohne starke Annahmen.

Instabile Merkmale, reproduzierbare Unterräume: Verständnis der Seed-Abhängigkeit in Sparse Autoencodern
Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Jun 10

ByGleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

Sparse Autoencoder (SAEs) werden häufig zur Interpretation neuronaler Netzwerkrepräsentationen eingesetzt, ihr Nutzen hängt jedoch davon ab, ob die gelernten Merkmale über Trainingsläufe hinweg reproduzierbar sind. Wir untersuchen diese Frage mittels Merkmalsstabilität: Für jedes SAE-Merkmal schätzen wir die Wahrscheinlichkeit, dass ein ähnliches Merkmal in einem unabhängig trainierten SAE wieder auftritt. Dies ergibt ein skalierbares, merkmalsbezogenes Signal, das stabile von instabilen Merkmalen unterscheidet. In einer groß angelegten Studie über Seeds, Modelle, Schichten, Wörterbuchgrößen und SAE-Varianten hinweg stellen wir eine ausgeprägte funktionale Asymmetrie fest: Stabile Merkmale tragen den Großteil des rekonstruktions- und vorhersagerelevanten Signals, während instabile Merkmale einen schwachen marginalen Einfluss haben und von niederfrequenten Oberflächenformauslösern sowohl in den Aktivierungsstatistiken als auch in automatischen Erklärungen dominiert werden. Geometrisch betrachtet sind instabile Merkmale einzeln nicht reproduzierbar, konzentrieren sich jedoch in reproduzierbaren Unterräumen niedrigen Rangs, was darauf hindeutet, dass die Seed-Abhängigkeit oft eine Basisambiguität innerhalb eines gemeinsamen Bereichs des Aktivierungsraums widerspiegelt, nicht bloßes Rauschen. Ein kontrolliertes synthetisches Modell macht diesen Mechanismus explizit und zeigt, dass zugrunde liegende Merkmale niedrigen Rangs auf Unterraumebene wiederhergestellt werden können, während sie als einzelne SAE-Latente über Seeds hinweg nicht identifizierbar bleiben. Schließlich konstruieren wir durch Zusammenführen einzigartiger Seed-übergreifender Merkmale stabilere SAEs, während wir die erklärte Varianz in diesem Setting bewahren. Zusammengenommen zeigen diese Ergebnisse, dass instabile Merkmale nicht bloß fehlgeschlagene oder verrauschte Latente sind: Sie haben einen schwachen individuellen funktionalen Einfluss, spiegeln jedoch eine reproduzierbare niedrigdimensionale Struktur wider, die von standardmäßigen SAEs über Seeds hinweg unterschiedlich aufgelöst wird.

MMDiff: Erweiterung von Diffusion Transformers für multimodale Generierung
MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Jun 15

ByYagmur Akarken, Orest Kupyn, Christian Rupprecht

Diffusionstransformatoren haben bemerkenswerte generative Fähigkeiten gezeigt, jedoch werden die reichhaltigen Wahrnehmungsrepräsentationen, die entlang ihrer Entrauschungstrajektorie berechnet werden, verworfen, sobald der Inhalt erzeugt ist. Wir stellen MMDiff vor, ein Framework, das einen eingefrorenen Diffusionstransformator in ein multimodales generatives System verwandelt, das Bilder zusammen mit einer beliebigen Kombination dichter Wahrnehmungsmodalitäten unter Verwendung leichter Decoder-Köpfe erzeugt. Unsere zentrale Erkenntnis ist, dass Wahrnehmungsinformationen zeitlich entlang der Entrauschungstrajektorie verteilt sind und dass eine Mehrschritt-Feature-Fusion mit räumlich variierenden Aggregationsgewichten essenziell ist, wodurch die Ergebnisse der semantischen Segmentierung im Vergleich zur Ein-Schritt-Extraktion um bis zu 28,7 % mIoU verbessert werden. Darüber hinaus nutzen wir die konzeptgesteuerte Aufmerksamkeitsextraktion für eine interpretierbare räumliche Steuerung und zeigen, dass eingefrorene Diffusionsfeatures mit modernsten Encodern wie DINOv3 konkurrieren können und diese ergänzen. Indem wir nur leichte Decoder-Köpfe auf einem eingefrorenen Backbone trainieren, erzielen wir eine hohe Leistung bei der semantischen Segmentierung, der salienten Objekterkennung und der Tiefenschätzung und demonstrieren, dass dieses Framework eine effektive synthetische Datengenerierung im großen Maßstab ermöglicht.

Prompt-Level-Destillation: Eine nicht-parametrische Alternative zum Modell-Feintuning für effizientes Reasoning
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Jun 2

BySanket Badhe, Deep Shah

Fortschrittliches Denken erfordert typischerweise Chain-of-Thought-Prompting, das zwar präzise ist, aber unannehmbare Latenz und erhebliche Testzeit-Inferenzkosten verursacht. Die übliche Alternative, die Feinabstimmung kleinerer Modelle, geht oft auf Kosten der Interpretierbarkeit und bringt gleichzeitig erheblichen Ressourcen- und Betriebsaufwand mit sich. Um diese Einschränkungen zu adressieren, führen wir Prompt-Level Distillation (PLD) ein. Wir extrahieren explizite Denkmuster aus einem Teacher-Modell und organisieren sie in einer strukturierten Liste ausdrucksstarker Anweisungen für den System-Prompt des Student-Modells. Bei der Evaluierung mit Gemma-3 4B verbesserte PLD die Makro-F1-Werte auf StereoSet (von 57 % auf 90,0 %) und Contract-NLI (von 67 % auf 83 %) und steigerte gleichzeitig die Genauigkeit bei LogiQA auf 70 %. Ähnliche Ergebnisse mit Mistral Small 3.1 belegen die architekturübergreifende Generalisierbarkeit, sodass diese kompakten Modelle mit vernachlässigbarem Latenz-Overhead Spitzenleistungen erreichen können. Diese ausdrucksstarken Anweisungen machen den Entscheidungsprozess transparent und ermöglichen eine vollständige menschliche Überprüfung der Logik, was diesen Ansatz ideal für regulierte Branchen wie Recht, Finanzen und Content-Moderation sowie für Anwendungsfälle mit hohem Volumen und Edge-Geräte macht.

ExpRL: Exploratives RL für das Mid-Training von LLMs
ExpRL: Exploratory RL for LLM Mid-Training

Jun 15

ByViolet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

Reinforcement Learning (RL) mit spärlichen Belohnungen ist zu einem Standardwerkzeug zur Verbesserung des Denkens von LLMs geworden, aber sein Erfolg hängt entscheidend von der Abdeckung im Basismodell ab. In der Praxis werden Modelle oft durch Mid-Training auf kuratierten Reasoning-Spuren für RL vorbereitet, die nützliche primitive Fähigkeiten wie Zerlegung, Verifikation oder Selbstkorrektur vermitteln. Obwohl effektiv, erfordert diese Strategie die manuelle Spezifikation dessen, was das Modell lernen soll, und es bleibt unklar, ob eine solche primitive Abdeckung für wesentlich schwierigere Probleme ausreicht, die die Kombination dieser Fähigkeiten zu umfassenderen Lösungsstrategien erfordern. Wir untersuchen einen stärker automatisierten Ansatz: RL-basiertes Mid-Training unter Verwendung großer Korpora menschlich verfasster Frage-Antwort-Daten. Anstatt Referenzlösungen als zu imitierende Ziele zu behandeln, nutzt unsere Methode ExpRL sie als Belohnungsgerüste: Referenzen werden der Policy verborgen und nur zur Konstruktion problemspezifischer Bewertungsrubriken verwendet, um On-Policy-Reasoning-Spuren zu bewerten. Die Policy samplet aus dem ursprünglichen Problem-Prompt, während ein LLM-Richter die gesampelte Reasoning-Spur mit der Referenzlösung vergleicht und dichte Belohnungen auf Ergebnis- oder Prozessebene zuweist. Dies ermöglicht ExpRL, partiellen Fortschritt, nützliche Zwischenreduktionen und produktive Reasoning-Verhaltensweisen zu verstärken, die spärliche Endbelohnungen oft nicht ausreichend gewichten. Bei anspruchsvollen mathematischen Reasoning-Aufgaben erzielt ExpRL eine stärkere RL-Vorbereitung als SFT, GRPO mit spärlichen Belohnungen und Selbst-Destillation und bietet eine bessere Initialisierung für nachfolgendes RL mit spärlichen Belohnungen. Zusätzliche Experimente mit gemischten Domänen deuten ferner darauf hin, dass ExpRL über die ursprüngliche rein mathematische Umgebung hinaus erweitert werden kann.

PermaVid: Konsistente Videogenerierung über Bearbeitungen hinweg durch entkoppeltes Kontextgedächtnis
PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

Jun 15

ByShuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu

Konsistente Videogenerierung unter Bearbeitungsoperationen erfordert Persistenz: Wenn Bearbeitungen das Erscheinungsbild oder Layout einer Szene verändern, müssen nachfolgende Generationen über Zeit und Blickwinkel hinweg kohärent bleiben. Bestehende Speicherkonzepte haben jedoch Schwierigkeiten, nach solchen Änderungen eine langfristige Konsistenz aufrechtzuerhalten, da gespeicherte Kontexte veralten oder ungültig werden können. Um dies zu adressieren, schlagen wir PermaVid vor, ein neuartiges Framework, das auf einem multimodalen Kontextspeicher aufbaut, der den räumlichen Kontext in semantische Erscheinung und geometrische Struktur aufteilt, zusammen mit einer bearbeitungsbewussten Speicheraktualisierungs- und Abrufstrategie, die die Speicherentwicklung an nachfolgende Beobachtungen anpasst. Konkret entwickeln wir zwei komplementäre Speicherbänke: einen RGB-Kontextspeicher, der erscheinungsbewusste Beobachtungen erfasst und gleichzeitig Geometrie implizit codiert, und einen Tiefenkontextspeicher, der die rein geometrische Struktur, losgelöst von Semantik, bewahrt. Aufbauend auf diesem Design führen wir ein speichergesteuertes Videogenerierungsmodell ein, das multimodale Merkmalsfusion unter Referenzbedingungen durchführt, die aus gemischtmodalen Speicherkontexten stammen. Experimente zeigen, dass unsere Methode nach Bearbeitungen eine starke langfristige semantische und strukturelle Konsistenz aufrechterhält und moderne Methoden deutlich übertrifft.

Künstliche-Intelligenz-Indexbericht 2026
Artificial Intelligence Index Report 2026

Apr 14

BySha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld

Willkommen zum neunten Bericht des AI Index. Während KI rasant weiter voranschreitet, stellt sich die Frage, ob die darauf aufbauenden Systeme Schritt halten können. Governance-Rahmenwerke, Evaluierungsmethoden, Bildungssysteme und die Dateninfrastruktur, die zur Erfassung der KI-Wirkung erforderlich ist, haben Mühe, mit dem Tempo der Technologie selbst mitzuhalten. Diese Kluft zwischen dem, was KI leisten kann, und unserer Bereitschaft, sie zu steuern, zieht sich durch jedes Kapitel des diesjährigen Berichts. Neu in dieser Ausgabe verfolgt der Bericht, wie KI ehrgeiziger in den Bereichen Argumentation, Sicherheit und Ausführung realer Aufgaben getestet wird – und warum diese Messungen zunehmend unzuverlässig werden. Er enthält zudem neue Schätzungen des wirtschaftlichen Werts generativer KI sowie neu aufkommende Belege für ihre Arbeitsmarkteffekte, einen Analyse-Rahmen zur KI-Souveränität und ein in Zusammenarbeit mit Schmidt Sciences entwickeltes Wissenschaftskapitel. Erstmals beinhaltet der Bericht eigenständige Kapitel zu KI in der Wissenschaft und KI in der Medizin, was den wachsenden Einfluss der KI in diesen beiden Bereichen widerspiegelt.

Implizite Schlussfolgerung für generative Empfehlung auf Basis großer Sprachmodelle
Implicit Reasoning for Large Language Model-based Generative Recommendation

Jun 15

ByYinhan He, Liam Collins, Bhuvesh Kumar, Jundong Li, Neil Shah, Donald Loveland

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als Grundlage für Generative Empfehlung (Generative Recommendation, GR) eingesetzt, da sie Zugang zu vortrainiertem Weltwissen versprechen. Dennoch ist die zuverlässige Aktivierung dieses Wissens für GR noch wenig verstanden. Ein zentrales Hindernis besteht darin, dass LLM-basierte GR typischerweise Elemente durch semantische IDs (Semantic IDs, SIDs) repräsentiert, was die natürlichsprachliche Argumentationsschnittstelle der LLMs stört, da diese Token während des Vortrainings für das LLM unsichtbar waren. Bestehende Ansätze begegnen diesem Problem mit aufwändigen mehrstufigen Pipelines, die SIDs verankern und explizite Begründungen ableiten, bieten jedoch nur begrenzte Einblicke, wann und warum jede Stufe notwendig ist. In dieser Arbeit zerlegen wir systematisch explizite Argumentationstrainingspipelines für LLM-basierte GR und decken drei wesentliche Einschränkungen auf: abgeschwächte Verbalisierung von Weltwissen, Fehlanpassung zwischen den Einbettungsräumen von SIDs und natürlichsprachlichen Token sowie Empfindlichkeit gegenüber der Qualität der Begründungen – all dies beeinträchtigt die Leistung expliziter Argumentation. Um diese Probleme zu umgehen, schlagen wir PauseRec vor, ein leichtgewichtiges implizites Argumentationsparadigma, das speziell für GR entwickelt wurde. PauseRec ist außergewöhnlich praktisch, da es aufwändige Erfassung von Argumentationsspuren und Argumentations-Abstimmungstraining vermeidet, was zu einer Vielzahl von Vorteilen führt: (1) es übertrifft standardmäßige explizite CoT-Methoden um bis zu 6,22 %, (2) es reduziert die Trainingskosten um bis zu 65 % GPU-Stunden und (3) es beschleunigt die Inferenz um bis zu 71,3 %. Diese Ergebnisse positionieren PauseRec als leichtgewichtige Alternative zur expliziten Begründungsgenerierung und ermöglichen eine effektivere und effizientere LLM-basierte GR.

EgoPhys: Lernen von verallgemeinerbaren Physikmodellen verformbarer Objekte aus egozentrischem Video
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

Jun 15

ByHyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang

Menschen verstehen die Objektphysik durch alltägliche Interaktionen auf natürliche Weise, aber die zuverlässige Vorhersage komplexer deformierbarer Dynamiken, wie etwa bei elastischen Materialien und Stoffen, bleibt eine große Herausforderung für Computervision und Robotik. Wir stellen EgoPhys vor, ein Framework, das deformierbare physikalische digitale Zwillinge aus egozentrischem RGB-Video unter Verwendung generalisierbarer Priors erstellt. EgoPhys überwindet die Einschränkungen bestehender Methoden, um die steuerbare Generierung deformierbarer digitaler Zwillinge aus egozentrischen Videos zu ermöglichen, indem es objektspezifische inverse Physiklösungen in ein kompaktes Codebuch destilliert. Dies ermöglicht die Vorhersage dichter Federsteifigkeitsfelder für unbekannte Objekte ohne Optimierung pro Feder zur Testzeit. Trainiert mit generalisierbaren Priors aus verschiedenen egozentrischen Interaktionen übertrifft EgoPhys Basislinien in Rekonstruktion, Zukunftsprognose und Nullschuss-Generalisation. Zur Unterstützung von Training und Evaluation stellen wir einen egozentrischen Interaktionsdatensatz zusammen, der verschiedene deformierbare Objekte, Szenen und Manipulationsstile abdeckt. Wir setzen EgoPhys auf einem echten xArm6-Roboter ein und zeigen, dass ein digitaler Zwilling, der aus einem einzigen egozentrischen menschlichen Spielvideo initialisiert wurde, als interne Weltenrepräsentation dienen kann, um die Planung mit deformierbaren Objekten zu unterstützen. Dies unterstreicht, dass egozentrische RGB-Beobachtungen einen skalierbaren Weg zu Real-zu-Sim-Pipelines darstellen.

Wer ändert seine Meinung? Eigene und modellübergreifende Gegenargumente offenbaren Antwortinstabilität in LLMs
Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

Jun 14

ByNafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

Standard-Genauigkeits-Benchmarks sind darauf ausgelegt, zu testen, wie nahe große Sprachmodelle (LLMs) an korrekte Antworten herankommen, eignen sich jedoch nicht dafür, zu prüfen, ob LLMs bei einer korrekten Antwort bleiben, wenn diese durch ein plausibles Gegenargument in Frage gestellt wird. Wir führen ein kontrolliertes Protokoll zur Bewertung der Antwortstabilität ein: Nachdem ein Modell eine Multiple-Choice-Frage korrekt beantwortet hat, konfrontieren wir das Modell mit einem kohärenten Argument für eine falsche Option und messen, ob das Modell umschwenkt. Das Setup (a) isoliert argumentativen Inhalt von offenem sozialem Druck und (b) variiert Argumentlänge, Selbstzuschreibung und modellübergreifende Quelle. Über sieben führende Modelle und 57 MMLU-Fachgebiete hinweg reichen die Wechselraten von 17,5 % bis 97,3 %, was große Unterschiede in der Stabilität offenbart, die allein durch Genauigkeitsmetriken nicht erfasst werden. Wir stellen fest, dass Selbstzuschreibung die Wechselraten konsistent erhöht (im Mittel +7,1 Prozentpunkte, bis zu +18,7 Prozentpunkte). Zudem ergibt die Zusammenführung von Argumenten für falsche Antworten über Modelle hinweg und die Auswahl des jeweils wirksamsten Arguments pro Frage stärkere adversariale Herausforderungen als die Abhängigkeit von einem einzelnen Quellmodell. Weiterhin erstellen wir MaxFlip, einen kuratierten Herausforderungssatz, der Wechselraten um bis zu +23,6 Prozentpunkte im Vergleich zu standardmäßigen selbstgenerierten Herausforderungen verstärkt. Wir veröffentlichen das Protokoll, die Herausforderungsaufzeichnungen und MaxFlip, um die Stabilitätsbewertung neben den üblichen Genauigkeits-Benchmarks zu unterstützen. Die Materialien sind verfügbar unter https://github.com/nafisenik/WhoFlips und https://hf.co/datasets/nafisehNik/WhoFlips.

LaWAM: Latente Welt-Aktionsmodelle für effiziente dynamikbewusste Roboterpolitiken
LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Jun 14

ByJialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

Vision-Language-Action-Modelle (VLAs) nutzen groß angelegtes Vision-Language-Pretraining für semantische Robotersteuerung, entbehren jedoch oft einer expliziten Voraussicht darüber, wie Roboteraktionen die Szene verändern. Welt-Aktions-Modelle (World-Action Models, WAMs) beheben diese Einschränkung, indem sie Policies auf vorhergesagte Zukünfte konditionieren, doch bestehende Ansätze basieren typischerweise auf rechenintensiver Videogenerierung mit erheblicher Pixel-Redundanz. Wir stellen LaWAM vor, ein Latentes-Welt-Aktions-Modell, das robotischen Policies predictive Dynamiken durch kompakte latente visuelle Teilziele anstelle von rekonstruiertem Zukunftsvideo zugänglich macht. Kern von LaWAM ist ein latent-aktionskonditioniertes Latentes-Welt-Modell (Latent World Model, LaWM). Wir gewinnen LaWM, indem wir ein latentes Aktionsmodell im latenten Raum eines vortrainierten Vision-Foundation-Modells trainieren und dessen Vorwärts-Decoder umfunktionieren, um zukünftige Observationsmerkmale für die Szenenentwicklung vorherzusagen. LaWAM konditioniert dann die Aktionsgenerierung auf diese vorhergesagten latenten visuellen Teilziele, um eine dynamikbewusste Robotersteuerung zu ermöglichen. LaWAM erzielt überdurchschnittliche oder konkurrierende Erfolgsraten (Success Rates, SRs) bei LIBERO (98,6 % SR), RoboTwin (91,22 % SR) und realen Manipulationsaufgaben, während es eine niedrige Inferenzlatenz beibehält. LaWAM läuft in 187 ms pro Aktions-Chunk-Vorhersage und erreicht eine bis zu 24-fach niedrigere Wanduhr-Latenz als Pixel-Raum-WAMs.

Selektive Kontrolle unter verrauschter Wahrnehmung: Governance-Versagen verborgen durch aggregierte Metriken in modularen Netzwerken
Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

Jun 12

ByIgor Itkin

Ein Inhaltsmoderationssystem kann bei allen gängigen Genauigkeitsmetriken gut abschneiden und dennoch echten Schaden anrichten, wenn seine Fehler die wenigen Nutzer treffen, die ansonsten getrennte Gemeinschaften verbinden. Wir zeigen dies in einem agentenbasierten Modell, in dem N=240 lernende Agenten in einem gemeinschaftsstrukturierten Netzwerk jeweils harmlose, produktive oder gefährliche Inhalte posten, und ein Regulator alles entfernt oder bestraft, was ein verrauschter Klassifikator kennzeichnet. Der Gesamtnutzen ändert sich kaum mit dem Rauschen (einfaktorielle ANOVA, p=0,96): Nach aggregierten Maßen wirkt nichts falsch. Der Schaden konzentriert sich stattdessen auf diese Brückennutzer, deren nützliche Beiträge zu Unrecht unterdrückt und deren gefährliche Beiträge zu Unrecht verschont werden. Ein Governance-Verlust (L_gov), der diese beiden Fehler getrennt von den Durchsetzungskosten bepreist, steigt unter falsch-positiv-lastigem Rauschen auf mehr als das Doppelte. Die aggregierte Genauigkeit verdeckt, wer geschädigt wird, und das günstig zu prüfende Maß ist, wie viele Verbindungen ein Nutzer hat (Grad), ein nahezu perfekter Proxy für die Betweenness, die einen Brückennutzer definiert (r=0,96).

Angriffe auf Detektoren für maschinell erzeugten Text weisen weiterhin stilistische Fingerabdrücke auf.
Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

Jun 8

ByRafael Rivera Soto, Barry Chen, Nicholas Andrews

Trotz erheblicher Fortschritte bei der Entwicklung von maschinellen Texterkennern hat die Leichtigkeit, mit der maschineller Text manipuliert werden kann, um einer Erkennung zu entgehen, zu der Annahme geführt, dass das Problem grundsätzlich unlösbar sei. In dieser Arbeit untersuchen wir die Grenzen solcher Umgehungsstrategien. Wir zeigen, dass aktuelle Angriffe – von Prompt-Engineering bis hin zu detektorgeleiteter Optimierung – zwar die Leistung standardmäßiger Detektoren wirksam beeinträchtigen können, es ihnen jedoch nicht gelingt, die zugrundeliegenden stilistischen „Fingerabdrücke" maschinellen Textes zu tilgen. Wir zeigen, dass Few-Shot-Detektoren, die den stilistischen Merkmalsraum nutzen, robust gegenüber diesen Umgehungsversuchen sind und zuverlässig Proben selbst von Modellen erkennen, die explizit darauf abgestimmt sind, eine Erkennung zu verhindern. Dies wirft die Frage auf: Stellt Stil eine universelle Verteidigung gegen maschinelle Erkennungsangriffe dar? Wir demonstrieren, dass die Antwort „Nein" lautet, indem wir einen neuartigen Paraphrasierungsansatz einführen, der gleichzeitig für Nichterkennbarkeit und die Anpassung an spezifische menschliche Stile optimiert. Wir zeigen, dass dieser Angriff im Gegensatz zu früheren Methoden effektiv allen betrachteten Detektoren entgeht, einschließlich jener, die den Schreibstil nutzen. Allerdings stellen wir fest, dass diese Umgehung nicht absolut ist: Mit zunehmender Anzahl der für die Analyse verfügbaren Dokumente werden die menschlichen und maschinellen Verteilungen wieder unterscheidbar. Insgesamt deuten unsere Ergebnisse darauf hin, dass eine zuverlässige Erkennung maschinellen Textes über die Einzeldokumentanalyse hinaus zur Mehrdokumentanalyse übergehen muss.

Universelles menschliches Greifen
Human Universal Grasping

Jun 15

ByKevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

Menschen können Gegenstände mühelos greifen, während mehrfingrige Roboter weit von diesem Allgemeinheitsgrad entfernt sind. Wir argumentieren, dass die natürlichste Quelle für Robotergreifdaten der Mensch ist, der täglich tausende von Objekten aufnimmt. Wir stellen HUG vor, ein Flow-Matching-Modell, das verschiedene menschliche Griffe für jedes benutzerdefinierte Objekt in einem einzelnen RGB-D-Bild erzeugt, das von einer Stereokamera aufgenommen wurde. Mithilfe einer Smart-Brille erfassen wir zunächst 1M-HUGs, einen egozentrischen Datensatz menschlicher Griffe, der 1 Million Bildsequenzen (27,8 Stunden) und 6.707 Objektinstanzen in 41 Gebäuden umfasst. Um die Verteilung natürlicher menschlicher Griffe zu modellieren, fusioniert unser neuartiges Flow-Matching-Modell RGB- und Tiefenbeobachtungen und gibt einen Greifer aus, der durch Handgelenkstranslation, Handgelenksrotation und MANO-Handpose parametrisiert ist. Die vorhergesagten Griffe können auf verschiedene Roboterhände umtargetiert werden, was Null-Shot-Greifen in alltäglichen Szenen ermöglicht. Zur Standardisierung der Evaluierung erstellen wir einen neuen simulierten Benchmark, HUG-Bench, mit 90 ungesehenen Objekten aus fünf geometrischen Kategorien und verschiedenen Größen, einschließlich maßstabsgetreuer 3D-Meshes. Wir evaluieren HUG in der realen Welt anhand des 30-Objekt-Testsets von HUG-Bench über mehrere Stereokameras, Roboterausführungen und Haushaltsumgebungen hinweg. HUG übertrifft die modernsten Greifbasislinien um +23 % und +34 % in unserem anspruchsvollen Objektset. Code, Daten, Benchmark, Checkpoints und eine interaktive Demo sind auf unserer Website veröffentlicht: https://grasping.io/

Die Geister von Polymarket: Wenn Off-Chain-Matches auf On-Chain-Reverts treffen
The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

Jun 15

ByYiming Shen, Yuhan Jin, Shuohan Wu, Yanlin Wang, Jiachi Chen

Polymarket hat sich zu einer prominenten Prognosemarkt-Plattform und einer der am schnellsten wachsenden Anwendungen im DeFi-Bereich entwickelt. Um einen Handel mit geringer Latenz zu ermöglichen, setzt es eine hybride Architektur ein, die Aufträge außerhalb der Kette abgleicht, aber zur endgültigen Ausführung auf der Kette abrechnet. Dieses Design erzeugt eine Konsistenzlücke, die wir als „Ghost Fills“ bezeichnen: Ein Auftrag, der außerhalb der Kette erfolgreich abgeglichen wurde, kann später während der Abrechnung auf der Kette scheitern. Um die Sicherheitsauswirkungen dieser Lücke zu verstehen, untersuchen wir solche fehlgeschlagenen Abrechnungen, indem wir GHOSTHUNTER entwickeln, das diese aus On-Chain-Spuren rekonstruiert und konkreten Angriffsmustern zuordnet. In 1.952.440 rückgängig gemachten Match-Order-Transaktionen stellen wir fest, dass Angreifer die zeitliche Lücke zwischen Abgleich und Abrechnung ausnutzen, um bereits abgeglichene Aufträge zu annullieren, bevor sie auf der Kette finalisiert werden. Aus diesen Vorfällen identifizieren wir vier Angriffsvektoren: Nonce Bump, Balance Drain, Allowance Revoke und Proxy Trap, die in 35 sich weiterentwickelnden Varianten realisiert werden. Diese Vektoren ermöglichen es Angreifern, 980.133 ausgeführte Aufträge selektiv rückgängig zu machen, was risikofreie Vorhersagen, die Jagd auf Arbitrage-Bots und die Manipulation von Liquiditätsbelohnungen ermöglicht, wodurch ein Gewinn von mindestens 1,49 M USD erzielt wird. Dies setzt 1,78 Mrd. USD einem Risiko aus und führt zu Zahlungen des Betreibers in Höhe von 2,17 M POL (etwa 212.000 USD). Während der Hauptverkehrszeiten wurden mehr als 24,3 % aller ausgeführten Aufträge rückgängig gemacht, was faktische DoS-Angriffe verursacht. Wir stellen auch fest, dass Code, der von dem fehlerhaften Vertrag abgeleitet ist, weiterhin in 167 unabhängigen Verträgen über 10 Chains vorkommt, die mindestens 23 M USD an Nutzergeldern halten, wodurch die Auswirkungen über Polymarket hinausgehen. Wir haben unsere Beweise den betroffenen Parteien offengelegt, und das Problem wurde teilweise entschärft.

TuneJury: Eine offene Metrik zur Verbesserung der Präferenzanpassung bei der Musikgenerierung
TuneJury: An Open Metric for Improving Music Generation Preference Alignment

Jun 15

ByYonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

Wir stellen TuneJury vor, ein offenes, instanzbasiertes paarweises Belohnungsmodell für Text-zu-Musik, das aus einer Textaufforderung und einem Audioclip eine Musikpräferenzbewertung vorhersagt. Der veröffentlichte Modellcheckpoint wird auf öffentlich verfügbaren menschlichen Präferenzlabels trainiert, die Arena-Stil-Abstimmungen (A vs. B), metrische Ausrichtung von Präferenzpaaren, per Crowdsourcing erstellte paarweise Vergleiche und ästhetische Bewertungen von Experten umfassen. Der vorhergesagte Bewertungsabstand zwischen zwei Clips ist auf unserem zurückgehaltenen Testsplit gut kalibriert, was eine Datenfilterung mittels eines einfachen Bewertungsschwellenwerts ermöglicht. TuneJury verallgemeinert sich sowohl auf zurückgehaltene Testpaare als auch auf Out-of-Distribution-Benchmarks und bleibt bei letzteren wettbewerbsfähig mit früheren Basislinien. Für Generatoren, die nach dem Training veröffentlicht werden, führen wir die Ankerkalibrierung ein, eine nachträgliche, pro-systemspezifische Bradley-Terry-Kalibrierung, die die Übereinstimmung mit erheblich besserer Dateneffizienz wiederherstellt als ein erneutes Training von Grund auf. Dieselbe eingefrorene Belohnung führt zu konsistenten Verbesserungen entlang der Belohnungsachse bei drei nachgelagerten Anwendungen: Best-of-N-Auswahl zur Inferenzzeit, latente Optimierung im DITTO-Stil und Post-Training mit Experteniteration. TuneJury ist verfügbar unter https://github.com/yonghyunk1m/TuneJury.