HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

31 papers found

Step-GUI-Technischer Bericht
Step-GUI Technical Report

Dec 17

ByHaolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang

113

Jüngste Fortschritte bei multimodalen großen Sprachmodellen eröffnen beispiellose Möglichkeiten für die GUI-Automatisierung. Eine grundlegende Herausforderung bleibt jedoch bestehen: Wie können hochwertige Trainingsdaten effizient erfasst werden, während die Zuverlässigkeit der Annotation gewährleistet bleibt? Wir stellen eine sich selbst weiterentwickelnde Trainingspipeline vor, die durch ein kalibriertes Stufenbelohnungssystem angetrieben wird. Dieses System wandelt modellgenerierte Trajektorien durch trajektorienbasierte Kalibrierung in zuverlässige Trainingssignale um und erreicht eine Annotationsgenauigkeit von über 90 % bei 10- bis 100-fach geringeren Kosten. Aufbauend auf dieser Pipeline präsentieren wir Step-GUI, eine Modellfamilie (4B/8B), die state-of-the-art GUI-Leistung erzielt (8B: 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) und dabei robuste allgemeine Fähigkeiten beibehält. Da die Fähigkeiten von GUI-Agenten zunehmen, erfordert der praktische Einsatz standardisierte Schnittstellen über heterogene Geräte hinweg bei gleichzeitigem Schutz der Benutzerprivatsphäre. Zu diesem Zweck schlagen wir GUI-MCP vor, das erste Model Context Protocol für die GUI-Automatisierung mit einer hierarchischen Architektur, die Low-Level-Atomoperationen und High-Level-Aufgabendelegierung an lokale Spezialmodelle kombiniert. Dies ermöglicht eine hochgradig private Ausführung, bei der sensible Daten auf dem Gerät verbleiben. Schließlich führen wir AndroidDaily ein, um zu bewerten, ob Agenten authentische alltägliche Nutzungsszenarien bewältigen können. Dieser Benchmark basiert auf realen mobilen Nutzungsmustern und umfasst 3146 statische Aktionen und 235 End-to-End-Aufgaben in hochfrequenten Alltagsszenarien (8B: statisch 89,91 %, End-to-End 52,50 %). Unsere Arbeit fördert die Entwicklung praktischer GUI-Agenten und demonstriert ein großes Potenzial für den realen Einsatz in alltäglichen digitalen Interaktionen.

DEER: Entwurf mit Diffusion, Verifikation mit autoregressiven Modellen
DEER: Draft with Diffusion, Verify with Autoregressive Models

Dec 17

ByZicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu

Effizienz als zentrale praktische Herausforderung für LLM-gesteuerte agentenbasierte und reasoning-Systeme wird zunehmend durch die inhärente Latenz des autoregressiven (AR) Decodierens eingeschränkt. Speculative Decoding mildert diese Kosten durch ein Draft-Verify-Schema, doch bestehende Ansätze verlassen sich auf AR-Draft-Modelle (sog. Drafter), die zwei grundlegende Probleme aufwerfen: (1) schrittweise Unsicherheitsakkumulation führt zu einem progressiven Vertrauensverlust zwischen Zielmodell und Drafter, und (2) inhärent sequenzielles Decodieren von AR-Draftern. Gemeinsam führen diese Faktoren zu begrenzten Beschleunigungen. In dieser Arbeit zeigen wir, dass Drafter auf Basis von Diffusion Large Language Models (dLLMs) diese Probleme auf natürliche Weise durch ihre fundamental unterschiedliche probabilistische Modellierung und effiziente parallele Decodierstrategie überwinden können. Aufbauend auf dieser Erkenntnis stellen wir DEER vor, einen effizienten Speculative-Decoding-Rahmen, der mit Diffusion drafted und mit AR-Modellen verifiziert. Um hochwertiges Drafting zu ermöglichen, nutzt DEER eine zweistufige Trainingspipeline, um die dLLM-basierten Drafter am Ziel-AR-Modell auszurichten, und setzt zusätzlich Einzelschritt-Decodierung ein, um lange Draft-Segmente zu generieren. Experimente zeigen, dass DEER Draft-Akzeptanzlängen von bis zu 32 Tokens erreicht, was die von EAGLE-3 erreichten 10 Tokens bei weitem übertrifft. Darüber hinaus erzielt DEER auf HumanEval mit Qwen3-30B-A3B eine 5,54-fache Beschleunigung, während EAGLE-3 nur 2,41-fach beschleunigt. Code, Modelle, Demo usw. werden unter https://czc726.github.io/DEER/ verfügbar sein.

Schnelle und präzise kausale parallele Dekodierung mittels Jacobi-Forcing
Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Dec 16

ByLanxiang Hu, Siqi Kou, Yichao Fu, Samyam Rajbhandari, Tajana Rosing, Yuxiong He, Zhijie Deng, Hao Zhang

Die Multi-Token-Generierung hat sich als vielversprechendes Paradigma zur Beschleunigung der Inferenz transformerbasierter Großmodelle etabliert. Aktuelle Forschungsbemühungen untersuchen vorrangig diffuse Large Language Models (dLLMs) für paralleles Decodieren, um die Inferenzlatenz zu verringern. Um AR-ähnliche Generierungsqualität zu erreichen, passen viele Techniken AR-Modelle an dLLMs an, um paralleles Decodieren zu ermöglichen. Allerdings weisen sie im Vergleich zu AR-Modellen eine begrenzte Beschleunigung auf, bedingt durch eine Diskrepanz zwischen Pre-Training und Post-Training. Konkret weicht die maskierte Datenverteilung im Post-Training signifikant von der realen Datenverteilung während des Pre-Trainings ab, und dLLMs nutzen bidirektionale Aufmerksamkeit, was im Widerspruch zum kausalen Prior des Pre-Trainings steht und die Integration exakter KV-Cache-Wiederverwendung behindert. Um dies zu adressieren, führen wir Jacobi Forcing ein, ein Paradigma progressiver Distillation, bei dem Modelle anhand ihrer eigenen generierten parallelen Decodierungspfade trainiert werden. Dies wandelt AR-Modelle schrittweise in effiziente parallele Decodierer um und bewahrt dabei ihre vortrainierte kausale Inferenzeigenschaft. Die nach diesem Paradigma trainierten Modelle, Jacobi Forcing Models, erreichen eine 3,8-fache Echtzeit-Beschleunigung bei Coding- und Math-Benchmarks bei minimalem Leistungsverlust. Basierend auf den Trajektorie-Eigenschaften von Jacobi Forcing Models führen wir Multi-Block-Decodierung mit Rejection Recycling ein, die bis zu 4,5-mal mehr akzeptierte Tokens pro Iteration und nahezu eine 4,0-fache Echtzeit-Beschleunigung ermöglicht, wodurch effektiv zusätzliche Rechenleistung gegen geringere Inferenzlatenz getauscht wird. Unser Code ist verfügbar unter https://github.com/hao-ai-lab/JacobiForcing.

HyperVL: Ein effizientes und dynamisches multimodales Großsprachmodell für Edge-Geräte
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Dec 16

ByHyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang

Aktuelle multimodale Großsprachmodelle verfügen über starke Wahrnehmungs- und Schlussfolgerungsfähigkeiten, doch hohe Rechen- und Speicheranforderungen erschweren ihren direkten Einsatz in On-Device-Umgebungen. Während kleinere Modelle mit geringerer Parameterzahl zunehmend mit starken allgemeinen Fähigkeiten ausgestattet werden, bleiben standardmäßige Vision-Transformer-(ViT)-Encoder ein kritischer Engpass, da sie bei der Verarbeitung hochauflösender Eingaben unter übermäßiger Latenz und hohem Speicherverbrauch leiden. Um diese Herausforderungen zu bewältigen, stellen wir HyperVL vor, ein effizientes multimodales Großsprachmodell, das für die Inferenz auf Endgeräten optimiert ist. HyperVL setzt eine Bildkachelungsstrategie ein, um den Spitzenspeicherverbrauch zu begrenzen, und integriert zwei neuartige Techniken: (1) einen visuellen Auflösungskompressor (VRC), der adaptiv optimale Encodierungsauflösungen vorhersagt, um redundante Berechnungen zu eliminieren, und (2) Dual Consistency Learning (DCL), das Multi-Scale-ViT-Encoder innerhalb eines einheitlichen Frameworks abstimmt und einen dynamischen Wechsel zwischen visuellen Verarbeitungszweigen unter einer gemeinsamen LLM-Architektur ermöglicht. Umfangreiche Experimente belegen, dass HyperVL bei Modellen vergleichbarer Größe state-of-the-art Leistung in mehreren Benchmarks erreicht. Darüber hinaus reduziert es die Latenz und den Energieverbrauch auf realen Mobilgeräten erheblich, was seine Praxistauglichkeit für die multimodale On-Device-Inferenz unterstreicht.

Puzzle-Curriculum GRPO für visuell-zentriertes Denken
Puzzle Curriculum GRPO for Vision-Centric Reasoning

Dec 16

ByAhmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk

Aktuelle Reinforcement-Learning (RL)-Ansätze wie das auf Ergebnisse überwachte GRPO haben das Chain-of-Thought-Reasoning in Vision-Language-Models (VLMs) vorangetrieben, doch bestehen zentrale Probleme fort: (i) die Abhängigkeit von kostspieligen und verrauschten, manuell erstellten Annotationen oder externen Verifizierern; (ii) flache und spärliche Belohnungsschemata in GRPO; und (iii) die logische Inkonsistenz zwischen der Begründungskette und ihrer endgültigen Antwort. Wir stellen Puzzle Curriculum GRPO (PC-GRPO) vor, ein aufsichtsfreies Verfahren für RL mit verifizierbaren Belohnungen (RLVR), das das visuelle Reasoning in VLMs ohne Annotationen oder externe Verifizierer stärkt. PC-GRPO ersetzt Labels durch drei selbstüberwachte Puzzle-Umgebungen: PatchFit, Rotation (mit binären Belohnungen) und Jigsaw (mit abgestufter Teilpunktevergabe, die die Belohnungssparsamkeit mildert). Um flachen Belohnungen und schwindenden gruppenrelativen Vorteilen entgegenzuwirken, führen wir einen schwierigkeitsbasierten Lehrplan ein, der Proben dynamisch gewichtet und bei mittlerer Schwierigkeit kulminiert. Weiterhin überwachen wir die Reasoning-Antwort-Konsistenz (RAC) während des Post-Trainings: In Übereinstimmung mit Berichten zu Standard-GRPO in LLMs steigt die RAC typischerweise zunächst an, um dann abzufallen; unser Lehrplan verzögert diesen Abfall, und konsistenzerzwingende Belohnungsschemata steigern die RAC weiter. Die RAC korreliert mit der Downstream-Genauigkeit. Über diverse Benchmarks hinweg und auf Qwen-7B- und Qwen-3B-Backbones verbessert PC-GRPO die Reasoning-Qualität, die Trainingsstabilität und die Endaufgabengenauigkeit und bietet damit einen praktischen Weg zu skalierbarem, verifizierbarem und interpretierbarem RL-Post-Training für VLMs.

Universelles Modell des logischen Denkens
Universal Reasoning Model

Dec 16

ByZitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai

Universal Transformer (UT) wurden bereits häufig für komplexe Reasoning-Aufgaben wie ARC-AGI und Sudoku eingesetzt, doch die spezifischen Ursachen für ihre Leistungssteigerungen sind bisher kaum erforscht. In dieser Arbeit analysieren wir systematisch UT-Varianten und zeigen, dass die Verbesserungen bei ARC-AGI hauptsächlich auf den rekurrenten Inductive Bias und die starken nichtlinearen Komponenten des Transformers zurückzuführen sind, und nicht auf aufwändige Architekturdesigns. Aufbauend auf dieser Erkenntnis schlagen wir das Universal Reasoning Model (URM) vor, das den UT durch kurze Faltungsoperationen und truncated Backpropagation erweitert. Unser Ansatz verbessert die Reasoning-Leistung erheblich und erreicht state-of-the-art Werte von 53,8 % pass@1 auf ARC-AGI 1 und 16,0 % pass@1 auf ARC-AGI 2. Unser Code ist verfügbar unter https://github.com/zitian-gao/URM.

Qwen-Image-Layered: Hin zu inhärenter Editierbarkeit durch Schichtzerlegung
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Dec 17

ByShengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu

Aktuelle visuelle Generative Modelle haben häufig mit Inkonsistenzen bei der Bildbearbeitung zu kämpfen, was auf die verschränkte Natur von Rasterbildern zurückzuführen ist, bei der alle visuellen Inhalte zu einer einzigen Bildebene verschmolzen sind. Im Gegensatz dazu verwenden professionelle Design-Tools geschichtete Darstellungen, die isolierte Bearbeitungen bei gleichzeitiger Wahrung der Konsistenz ermöglichen. Ausgehend von dieser Beobachtung schlagen wir Qwen-Image-Layered vor, ein End-to-End-Diffusionsmodell, das ein einzelnes RGB-Bild in mehrere semantisch entflochtene RGBA-Ebenen zerlegt. Dies ermöglicht eine inhärente Bearbeitbarkeit, bei der jede RGBA-Ebene unabhängig manipuliert werden kann, ohne andere Inhalte zu beeinflussen. Um die Zerlegung in eine variable Anzahl von Ebenen zu unterstützen, führen wir drei Schlüsselkomponenten ein: (1) ein RGBA-VAE zur Vereinheitlichung der latenten Darstellungen von RGB- und RGBA-Bildern; (2) eine VLD-MMDiT-Architektur (Variable Layers Decomposition MMDiT), die in der Lage ist, eine variable Anzahl von Bildebenen zu zerlegen; und (3) eine mehrstufige Trainingsstrategie, um ein vortrainiertes Bildgenerierungsmodell an die Aufgabe der Mehrschicht-Bildzerlegung anzupassen. Darüber hinaus haben wir, um dem Mangel an hochwertigen Mehrschicht-Trainingsbildern entgegenzuwirken, eine Pipeline entwickelt, um mehrschichtige Bilder aus Photoshop-Dokumenten (PSD) zu extrahieren und zu annotieren. Experimente zeigen, dass unsere Methode bestehende Ansätze in der Zerlegungsqualität deutlich übertrifft und ein neues Paradigma für konsistente Bildbearbeitung etabliert. Unser Code und unsere Modelle sind unter https://github.com/QwenLM/Qwen-Image-Layered veröffentlicht.

IC-Effect: Präzise und effiziente Videobearbeitungseffekte durch In-Context-Learning
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Dec 17

ByYuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao

Wir stellen IC-Effect vor, ein befehlsgeführtes, DiT-basiertes Framework für Few-Shot-Video-VFX-Bearbeitung, das komplexe Effekte (z.B. Flammen, Partikel und Zeichentrickfiguren) synthetisiert und dabei strikt die räumliche und zeitliche Konsistenz bewahrt. Die VFX-Bearbeitung von Videos ist äußerst anspruchsvoll, da eingefügte Effekte nahtlos mit dem Hintergrund verschmelzen müssen, der Hintergrund selbst vollständig unverändert bleiben muss und Effektmuster effizient aus begrenzten gepaarten Daten erlernt werden müssen. Bisherige Videobearbeitungsmodelle erfüllen diese Anforderungen jedoch nicht. IC-Effect nutzt das Quellvideo als saubere kontextuelle Bedingung und macht sich die kontextuelle Lernfähigkeit von DiT-Modellen zunutze, um eine präzise Hintergrunderhaltung und natürliche Effekteinblendung zu erreichen. Eine zweistufige Trainingsstrategie – bestehend aus allgemeiner Bearbeitungsanpassung gefolgt von effektspezifischem Lernen via Effect-LoRA – gewährleistet eine starke Befolgung von Anweisungen und robuste Effektmodellierung. Um die Effizienz weiter zu steigern, führen wir eine raumzeitlich sparse Tokenisierung ein, die hohe Qualität bei deutlich reduziertem Rechenaufwand ermöglicht. Zudem veröffentlichen wir einen gepaarten VFX-Bearbeitungs-Datensatz, der 15 hochwertige visuelle Stile umfasst. Umfangreiche Experimente zeigen, dass IC-Effect hochwertige, steuerbare und zeitlich konsistente VFX-Bearbeitung liefert und neue Möglichkeiten für die Videoproduktion eröffnet.

MMSI-Video-Bench: Ein holistischer Benchmark für videobasierte räumliche Intelligenz
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

Dec 11

ByJingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang

Räumliches Verständnis kontinuierlicher visueller Eingaben ist entscheidend dafür, dass MLLMs sich zu universellen Assistenten in physischen Umgebungen entwickeln. Dennoch existiert bisher kein umfassender Benchmark, der die Fortschritte hin zu diesem Ziel ganzheitlich bewertet. In dieser Arbeit stellen wir MMSI-Video-Bench vor, einen vollständig humanannotierten Benchmark für videobasierte räumliche Intelligenz in MLLMs. Er operationalisiert ein Vier-Ebenen-Framework – Wahrnehmung, Planung, Vorhersage und videoübergreifendes Schließen – mittels 1.106 Fragen, die auf 1.278 Videosequenzen aus 25 Datensätzen und internen Videos basieren. Jeder Eintrag wurde sorgfältig von 3DV-Experten entworfen und geprüft, mit erläuternden Begründungen, um eine präzise, eindeutige Verankerung zu gewährleisten. Dank seiner diversen Datenquellen und ganzheitlichen Aufgabenabdeckung unterstützt MMSI-Video-Bench zudem drei domänenspezifische Sub-Benchmarks (Indoor Scene Perception Bench, Robot Bench und Grounding Bench) für gezielte Fähigkeitsbewertungen. Wir evaluieren 25 leistungsstarke Open-Source- und proprietäre MLLMs und zeigen eine eklatante Mensch-KI-Lücke auf: Viele Modelle liegen nahe der Ratewahrscheinlichkeit, und das beste Reasoning-Modell liegt fast 60 % hinter dem Menschen zurück. Wir stellen weiter fest, dass räumlich feinabgestimmte Modelle auf unserem Benchmark immer noch keine effektive Generalisierung erreichen. Eine feingranulare Fehleranalyse deckt systematische Schwächen beim geometrischen Schließen, der Bewegungsverankerung, langfristigen Vorhersagen und der videoübergreifenden Korrespondenz auf. Wir zeigen auch, dass gängige Frame-Sampling-Strategien sich schlecht auf unseren reasoning-intensiven Benchmark übertragen lassen und dass weder 3D-räumliche Hinweise noch Chain-of-Thought-Prompting signifikante Verbesserungen bringen. Wir erwarten, dass unser Benchmark eine solide Testgrundlage für die Weiterentwicklung videobasierter räumlicher Intelligenz schaffen wird.

Skyra: KI-generierte Videoerkennung durch fundierte Artefaktanalyse
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Dec 17

ByYifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu

Der Missbrauch von KI-gesteuerter Videogenerierungstechnologie hat ernsthafte gesellschaftliche Bedenken aufgeworfen und unterstreicht die dringende Notwendigkeit zuverlässiger Detektoren für KI-generierte Videos. Bisher beschränken sich die meisten existierenden Methoden jedoch auf binäre Klassifikation und entbehren der notwendigen Erklärungen für die menschliche Interpretation. In diesem Artikel stellen wir Skyra vor, ein spezialisiertes multimodales großes Sprachmodell (MLLM), das menschlich wahrnehmbare visuelle Artefakte in KI-generierten Videos identifiziert und diese als fundierte Beweise sowohl für die Detektion als auch für die Erklärung nutzt. Um dieses Ziel zu unterstützen, erstellen wir ViF-CoT-4K für Supervised Fine-Tuning (SFT), den ersten groß angelegten Datensatz von Artefakten in KI-generierten Videos mit feingranularen menschlichen Annotationen. Anschließend entwickeln wir eine zweistufige Trainingsstrategie, die systematisch die räumlich-zeitliche Artefaktwahrnehmung, die Erklärungsfähigkeit und die Detektionsgenauigkeit unseres Modells verbessert. Für eine umfassende Evaluation von Skyra führen wir ViF-Bench ein, einen Benchmark, der 3.000 hochwertige Beispiele umfasst, die von mehr als zehn modernsten Video-Generatoren erzeugt wurden. Umfangreiche Experimente belegen, dass Skyra existierende Methoden über mehrere Benchmarks hinweg übertrifft, während unsere Evaluation wertvolle Einblicke für die Weiterentwicklung erklärbarer KI-generierter Videodetektion liefert.

Robuste und kalibrierte Erkennung authentischer Multimedia-Inhalte
Robust and Calibrated Detection of Authentic Multimedia Content

Dec 17

BySarim Hashmi, Abdelrahman Elsayed, Mohammed Talha Alam, Samuele Poppi, Nils Lukas

Generative Modelle können hochrealistische Inhalte, sogenannte Deepfakes, synthetisieren, die bereits in großem Umfang missbraucht werden, um die Authentizität digitaler Medien zu untergraben. Aktuelle Methoden zur Deepfake-Erkennung sind aus zwei Gründen unzuverlässig: (i) Die nachträgliche Unterscheidung von nicht-authentischen Inhalten ist oft unmöglich (z.B. bei memorisierten Stichproben), was zu einer unbegrenzten False-Positive-Rate (FPR) führt; und (ii) der Erkennungsprozess mangelt es an Robustheit, da Gegner mit minimalen Rechenressourcen eine nahezu perfekte Anpassungsgenauigkeit an bekannte Detektoren erreichen können. Um diese Einschränkungen zu adressieren, schlagen wir ein Resynthese-Framework vor, um zu bestimmen, ob eine Stichprobe authentisch ist oder ob ihre Authentizität plausibel bestritten werden kann. Wir leisten zwei wesentliche Beiträge mit Fokus auf das Hochpräzisions-, Niedrig-Trefferquote-Setting gegenüber effizienten (d.h. rechenbeschränkten) Gegnern. Erstens demonstrieren wir, dass unsere kalibrierte Resynthesemethode der zuverlässigste Ansatz zur Verifikation authentischer Stichproben bei gleichzeitig kontrollierbarer, niedriger FPR ist. Zweitens zeigen wir, dass unsere Methode gegenüber effizienten Gegnern adversariale Robustheit erreicht, während frühere Methoden unter identischen Rechenbudgets leicht umgangen werden können. Unser Ansatz unterstützt multiple Modalitäten und nutzt modernste Inversionstechniken.

SAGE: Training intelligenter Any-Horizon-Agenten für Langzeit-Videoverstehen mit Reinforcement Learning
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Dec 15

ByJitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi

Als Menschen sind wir natürlicherweise Denker mit beliebigem Zeithorizont, d.h. wir können je nach Aufgabe entscheiden, ob wir lange Videos iterativ überfliegen oder kurze bei Bedarf vollständig ansehen. Vor diesem Hintergrund würde man erwarten, dass Video-Verstehensmodelle flexibel über verschiedene Zeiträume hinweg schlussfolgern. State-of-the-Art-Modelle werden jedoch nach wie vor so trainiert, dass sie Antworten in einem einzigen Durchgang vorhersagen, während sie eine große Anzahl von Frames verarbeiten – ähnlich dem Ansehen eines gesamten langen Videos –, was erhebliche Ressourcen erfordert. Dies wirft die Frage auf: Ist es möglich, leistungsstarke Video-Verstehensysteme mit beliebigem Zeithorizont zu entwickeln? Inspiriert vom menschlichen Verhalten schlagen wir erstens SAGE vor, ein Agentensystem, das mehrstufige Schlussfolgerungen bei langen Videos durchführt, während es einfachere Probleme in einem einzigen Durchgang löst. Zweitens führen wir eine einfache Pipeline zur Erzeugung synthetischer Daten unter Verwendung von Gemini-2.5-Flash ein, um den Orchestrator SAGE-MM zu trainieren, der das Herzstück von SAGE bildet. Wir schlagen weiterhin ein effektives Reinforcement-Learning-Nachtraining vor, das entscheidend ist, um SAGE-MM die Fähigkeit zum Denken mit beliebigem Zeithorizont zu verleihen. Drittens stellen wir SAGE-Bench mit einer durchschnittlichen Dauer von mehr als 700 Sekunden zusammen, um die Video-Verstehensfähigkeit in realen Unterhaltungsszenarien zu bewerten. Schließlich validieren wir empirisch die Wirksamkeit unseres Systems, unserer Daten und unserer RL-Methode und beobachten bemerkenswerte Verbesserungen von bis zu 6,1 % bei offenen Video-Verstehensaufgaben sowie eine beeindruckende Steigerung von 8,2 % bei Videos, die länger als 10 Minuten sind.

DiffusionVL: Umwandlung beliebiger autoregressiver Modelle in Diffusions-Vision-Sprach-Modelle
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

Dec 17

ByLunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang

In der aktuellen multimodalen Forschung hat sich das Diffusionsparadigma aufgrund seiner einzigartigen Dekodierungsvorteile als vielversprechende Alternative zum autoregressiven Paradigma (AR) etabliert. Aufgrund der Fähigkeitsbeschränkungen des zugrundeliegenden Diffusions-Sprachmodells hinkt die Leistung des Diffusions-Vision-Sprachmodells (dVLM) jedoch immer noch deutlich hinter der von Mainstream-Modellen her. Dies wirft eine einfache, aber grundlegende Frage auf: Ist es möglich, dVLMs auf der Basis bestehender leistungsstarker AR-Modelle zu konstruieren? Als Antwort darauf schlagen wir DiffusionVL vor, eine dVLM-Familie, die aus beliebigen leistungsfähigen AR-Modellen übertragen werden kann. Durch einfaches Fine-Tuning passen wir AR-vortrainierte Modelle erfolgreich an das Diffusionsparadigma an. Dieser Ansatz führt zu zwei wichtigen Erkenntnissen: (1) Der Paradigmenwechsel von AR-basierten multimodalen Modellen zur Diffusion ist bemerkenswert effektiv. (2) Die direkte Konvertierung eines AR-Sprachmodells in ein dVLM ist ebenfalls machbar und erreicht eine Leistung, die mit LLaVA-style Visual-Instruction-Tuning vergleichbar ist. Darüber hinaus führen wir ein Block-Decoding-Design in dVLMs ein, das die Generierung beliebiger Längen und die Wiederverwendung des KV-Caches unterstützt und damit eine erhebliche Beschleunigung der Inferenz erreicht. Wir führen eine große Anzahl von Experimenten durch. Obwohl mit weniger als 5 % der von früheren Methoden benötigten Daten trainiert, erzielt DiffusionVL eine umfassende Leistungssteigerung – ein Zuwachs von 34,4 % auf der MMMU-Pro (Vision)-Benchmark und 37,5 % auf der MME (Cog.)-Benchmark – bei gleichzeitiger Verdopplung der Inferenzgeschwindigkeit. Das Modell und der Code sind unter https://github.com/hustvl/DiffusionVL veröffentlicht.

Können LLMs ihre eigene Erkundung lenken? Gradientengesteuertes Reinforcement Learning für das LLM-Denkvermögen
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Dec 17

ByZhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu

Reinforcement Learning ist entscheidend geworden, um die Reasoning-Fähigkeiten großer Sprachmodelle zu stärken, doch bestehende Explorationsmechanismen sind grundlegend fehlausgerichtet mit der Art und Weise, wie diese Modelle tatsächlich lernen. Entropie-Boni und externe semantische Komparatoren fördern oberflächliche Variation, bieten aber keine Garantie dafür, dass gesampelte Trajektorien sich in den Update-Richtungen unterscheiden, welche die Optimierung prägen. Wir schlagen G2RL vor, einen Gradienten-geführten Reinforcement-Learning-Rahmen, in dem Exploration nicht durch externe Heuristiken, sondern durch die interne Update-Geometrie erster Ordnung des Modells gesteuert wird. Für jede Antwort konstruiert G2RL ein Sequenz-level-Merkmal aus der Sensitivität der letzten Modellschicht, die mit vernachlässigbarem Aufwand aus einem Standard-Forward-Pass gewonnen werden kann, und misst, wie jede Trajektorie die Policy verändern würde, indem diese Merkmale innerhalb einer gesampelten Gruppe verglichen werden. Trajektorien, die neuartige Gradientenrichtungen einführen, erhalten einen begrenzten multiplikativen Reward-Scaler, während redundante oder "off-manifold"-Updates abgeschwächt werden. Dies ergibt ein selbstreferenzielles Explorationssignal, das natürlich mit PPO-ähnlicher Stabilität und KL-Kontrolle kompatibel ist. In Mathematik- und allgemeinen Reasoning-Benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) mit Qwen3-Basismodellen (1.7B und 4B) verbessert G2RL konsistent pass@1, maj@16 und pass@k im Vergleich zu entropiebasiertem GRPO und Methoden mit externen Embeddings. Eine Analyse der induzierten Geometrie zeigt, dass G2RL die Exploration in deutlich orthogonalere und oft entgegengesetzte Gradientenrichtungen ausdehnt, bei gleichzeitiger Wahrung der semantischen Kohärenz. Dies offenbart, dass der eigene Update-Raum einer Policy eine wesentlich treuere und effektivere Grundlage für die Steuerung der Exploration im Reinforcement Learning großer Sprachmodelle bietet.

FiNERweb: Datasets und Artefakte für skalierbare mehrsprachige Erkennung von Entitäten
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

Dec 15

ByJonas Golde, Patrick Haller, Alan Akbik

Aktuelle Arbeiten zur mehrsprachigen Erkennung von benannten Entitäten (NER) haben gezeigt, dass große Sprachmodelle (LLMs) effektive synthetische Supervision bieten können. Dennoch sind solche Datensätze meist als Nebenprodukte breiter angelegter Experimente entstanden und nicht als systematische, wiederverwendbare Ressourcen. Wir stellen FiNERweb vor, eine Pipeline zur Datensatzerstellung, die das Lehrer-Schüler-Paradigma auf 91 Sprachen und 25 Schriftsysteme skaliert. Aufbauend auf FineWeb-Edu trainiert unser Ansatz Regressionsmodelle, um NER-relevante Textpassagen zu identifizieren, und annotiert diese mit mehrsprachigen LLMs. Das Ergebnis sind etwa 225.000 Passagen mit 235.000 verschiedenen Entitäten-Labels. Unsere Experimente zeigen, dass das Regressionsmodell einen F1-Score von über 84 erreicht und dass Modelle, die auf FiNERweb trainiert wurden, vergleichbare oder verbesserte Leistung in Zero-Shot-Transfer-Szenarien für Englisch, Thailändisch und Swahili erzielen – obwohl sie mit 19-mal weniger Daten trainiert wurden als starke Baseline-Modelle. Zusätzlich bewerten wir die Annotationsqualität mittels LLM-as-a-judge und beobachten durchgängig hohe Werte sowohl für die Korrektheit (3,99 von 5) als auch für die Vollständigkeit (4,05 von 5), was auf zuverlässige und informative Annotationen hindeutet. Darüber hinaus veröffentlichen wir den Datensatz sowohl mit englischen Labels als auch mit übersetzten Labelsets in den jeweiligen Zielsprachen, da wir feststellen, dass die Leistung aktueller state-of-the-art Modelle um 0,02 bis 0,09 F1-Score absinkt, wenn sie mit zielsprachigen Labels statt englischen Labels evaluiert werden. Wir stellen FiNERweb zusammen mit allen begleitenden Artefakten der Forschungsgemeinschaft zur Verfügung, um ein effektiveres Lehrer-Schüler-Training für die mehrsprachige Erkennung von benannten Entitäten zu ermöglichen.

VOYAGER: Ein trainingsfreier Ansatz zur Erzeugung vielfältiger Datensätze mit LLMs
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs

Dec 12

ByAvinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi

Große Sprachmodelle (LLMs) werden zunehmend zur Erstellung synthetischer Datensätze für die Evaluierung und das Training nachgelagerter Modelle eingesetzt. Frühere Arbeiten haben jedoch festgestellt, dass solche generierten Daten an Diversität mangeln. In diesem Artikel stellen wir Voyager vor, einen neuartigen, prinzipienbasierten Ansatz zur Erzeugung diverser Datensätze. Unser Ansatz ist iterativ und optimiert direkt eine mathematische Größe, die die Vielfalt des Datensatzes unter Verwendung der Theorie der Determinanten-Punktprozesse maximiert. Darüber hinaus ist unser Ansatz trainingsfrei, auf Closed-Source-Modelle anwendbar und skalierbar. Neben der theoretischen Begründung für die Funktionsweise unserer Methode zeigen wir in umfassenden Experimenten, dass Voyager gängige Baseline-Ansätze deutlich übertrifft, indem es eine 1,5- bis 3-fache Steigerung der Diversität erreicht.

End-to-End-Training für autoregressive Video-Diffusion durch Selbst-Neuabtastung
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Dec 17

ByYuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin

Autoregressive Videodiffusionsmodelle versprechen viel für die Weltsimulation, sind jedoch anfällig für Exposure Bias, der aus der Diskrepanz zwischen Trainings- und Testphase resultiert. Während neuere Arbeiten dies durch Nachbearbeitung adressieren, stützen sie sich typischerweise auf ein bidirektionales Lehrer-Modell oder einen Online-Diskriminator. Um eine End-to-End-Lösung zu erreichen, führen wir Resampling Forcing ein, ein lehrerfreies Framework, das das Training autoregressiver Videomodelle von Grund auf und in großem Maßstab ermöglicht. Kern unseres Ansatzes ist ein Self-Resampling-Schema, das Modellfehler, wie sie zur Inferenzzeit auftreten, während des Trainings auf historischen Bildern simuliert. Bedingt durch diese beeinträchtigten Verläufe, erzwingt eine sparse kausale Maske die zeitliche Kausalität und ermöglicht gleichzeitig paralleles Training mit Frame-level Diffusionsverlust. Um eine effiziente Langzeitgenerierung zu ermöglichen, führen wir weiterhin History Routing ein, einen parameterfreien Mechanismus, der für jede Abfrage dynamisch die k relevanten historischen Bilder abruft. Experimente zeigen, dass unser Ansatz eine mit distillationsbasierten Baseline-Modellen vergleichbare Leistung erzielt und aufgrund des nativen Langzeittrainings eine überlegene zeitliche Konsistenz bei längeren Videos aufweist.

Vision-Language-Action-Modelle für das autonome Fahren: Vergangenheit, Gegenwart und Zukunft
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Dec 18

ByTianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang

Das autonome Fahren hat lange auf modulare "Wahrnehmungs-Entscheidungs-Handlungs"-Architekturen gesetzt, bei denen handgefertigte Schnittstellen und regelbasierte Komponenten in komplexen oder langschwänzigen Szenarien häufig versagen. Ihr kaskadierter Designansatz verstärkt zudem Wahrnehmungsfehler, was die nachgelagerten Planungs- und Steuerungsprozesse beeinträchtigt. Vision-Action (VA)-Modelle adressieren einige dieser Einschränkungen, indem sie direkte Abbildungen von visuellen Eingaben auf Aktionen erlernen, bleiben jedoch intransparent, anfällig für Distributionsverschiebungen und verfügen weder über strukturierte Reasoning-Fähigkeiten noch die Möglichkeit, Anweisungen zu befolgen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und multimodalem Lernen haben die Entstehung von Vision-Language-Action (VLA)-Architekturen befördert, die Wahrnehmung mit sprachbasiertem Entscheidungsfinden integrieren. Durch die Vereinheitlichung von visuellem Verständnis, linguistischem Reasoning und ausführbaren Ausgaben eröffnen VLAs einen Weg zu interpretierbareren, generalisierbareren und menschlich-kompatibleren Fahrstrategien. Diese Arbeit bietet eine strukturierte Charakterisierung der aufkommenden VLA-Landschaft für das autonome Fahren. Wir zeichnen die Entwicklung von frühen VA-Ansätzen hin zu modernen VLA-Architekturen nach und unterteilen bestehende Methoden in zwei Hauptparadigmen: End-to-End-VLA, das Wahrnehmung, Reasoning und Planung in einem einzigen Modell vereint, und Dual-System-VLA, das langsame Deliberation (mittels VLMs) von schneller, sicherheitskritischer Ausführung (mittels Planern) trennt. Innerhalb dieser Paradigmen unterscheiden wir weiterhin Subklassen, wie textbasierte versus numerische Aktionsgeneratoren und explizite versus implizite Steuerungsmechanismen. Zudem fassen wir repräsentative Datensätze und Benchmarks zur Evaluierung VLA-basierter Fahrzeugsysteme zusammen und beleuchten zentrale Herausforderungen und offene Forschungsrichtungen, darunter Robustheit, Interpretierbarkeit und Instruktionstreue. Insgesamt zielt diese Arbeit darauf ab, eine kohärente Grundlage für die Weiterentwicklung menschlich-kompatibler autonomer Fahrzeugsysteme zu schaffen.

VABench: Ein umfassender Benchmark für Audio-Video-Generierung
VABench: A Comprehensive Benchmark for Audio-Video Generation

Dec 10

ByDaili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang

Jüngste Fortschritte in der Videogenerierung sind bemerkenswert und ermöglichen es Modellen, visuell überzeugende Videos mit synchronisiertem Audio zu erzeugen. Während bestehende Benchmarks für die Videogenerierung umfassende Metriken für die visuelle Qualität bieten, fehlt es ihnen an überzeugenden Evaluierungen für die Audio-Video-Generierung, insbesondere für Modelle, die darauf abzielen, synchronisierte Audio-Video-Ausgaben zu erzeugen. Um diese Lücke zu schließen, stellen wir VABench vor, einen umfassenden und mehrdimensionalen Benchmark-Rahmen, der entwickelt wurde, um die Fähigkeiten der synchronen Audio-Video-Generierung systematisch zu bewerten. VABench umfasst drei primäre Aufgabentypen: Text-zu-Audio-Video (T2AV), Bild-zu-Audio-Video (I2AV) und stereophone Audio-Video-Generierung. Darüber hinaus etabliert es zwei Hauptbewertungsmodule, die 15 Dimensionen abdecken. Diese Dimensionen bewerten spezifisch paarweise Ähnlichkeiten (Text-Video, Text-Audio, Video-Audio), Audio-Video-Synchronisation, Lippen-Sprache-Konsistenz sowie sorgfältig kuratierte Audio- und Video-Frage-Antwort-Paare (QA) unter anderem. Zudem deckt VABench sieben Hauptinhaltskategorien ab: Tiere, menschliche Geräusche, Musik, Umgebungsgeräusche, synchrone physikalische Geräusche, komplexe Szenen und virtuelle Welten. Wir bieten eine systematische Analyse und Visualisierung der Bewertungsergebnisse, mit dem Ziel, einen neuen Standard für die Bewertung von Videogenerierungsmodellen mit synchronen Audiofähigkeiten zu etablieren und die umfassende Weiterentwicklung des Feldes zu fördern.

Auf der Suche nach Pixel-Supervision für visuelles Pre-Training
In Pursuit of Pixel Supervision for Visual Pre-training

Dec 17

ByLihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu

Auf grundlegendster Ebene sind Pixel die Quelle der visuellen Informationen, durch die wir die Welt wahrnehmen. Pixel enthalten Informationen auf allen Ebenen, von einfachen Attributen bis hin zu komplexen Konzepten. Autoencoder stellen ein klassisches und langjähriges Paradigma zum Erlernen von Repräsentationen aus Pixeln oder anderen Rohdaten dar. In dieser Arbeit zeigen wir, dass selbstüberwachtes Lernen auf Basis von Autoencodern auch heute noch wettbewerbsfähig ist und starke Repräsentationen für nachgelagerte Aufgaben erzeugen kann, dabei jedoch einfach, stabil und effizient bleibt. Unser Modell mit dem Codenamen "Pixio" ist ein verbesserter maskierter Autoencoder (MAE) mit anspruchsvolleren Vortrainingsaufgaben und leistungsfähigeren Architekturen. Das Modell wird auf 2B webgecrawlten Bildern mit einer selbstkuratierten Strategie und minimaler menschlicher Kuratierung trainiert. Pixio schneidet bei einer Vielzahl von nachgelagerten Aufgaben in realen Szenarien wettbewerbsfähig ab, einschließlich monokularer Tiefenschätzung (z.B. Depth Anything), direktem 3D-Rekonstruktionsverfahren (d.h. MapAnything), semantischer Segmentierung und Robotik-Lernen, und übertrifft oder erreicht DINOv3, das in ähnlichem Umfang trainiert wurde. Unsere Ergebnisse deuten darauf hin, dass selbstüberwachtes Lernen im Pixelraum eine vielversprechende Alternative und Ergänzung zu Ansätzen im Latentraum darstellen kann.

Ist Nano Banana Pro ein Alleskönner für Low-Level Vision? Eine umfassende Evaluation anhand von 14 Aufgaben und 40 Datensätzen
Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

Dec 17

ByJialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao

Die rasante Entwicklung von Text-zu-Bild-Generierungsmodellen hat die Erstellung visueller Inhalte revolutioniert. Während kommerzielle Produkte wie Nano Banana Pro erhebliche Aufmerksamkeit erregt haben, ist ihr Potenzial als universelle Lösungsansätze für traditionelle Low-Level-Vision-Herausforderungen weitgehend unerforscht. In dieser Studie gehen wir der entscheidenden Frage nach: Ist Nano Banana Pro ein Allrounder für Low-Level Vision? Wir führten eine umfassende Zero-Shot-Evaluierung über 14 verschiedene Low-Level-Aufgaben und 40 diverse Datensätze hinweg durch. Durch die Verwendung einfacher textueller Prompts ohne Feinabstimmung verglichen wir Nano Banana Pro mit state-of-the-art spezialisierten Modellen. Unsere umfangreiche Analyse zeigt eine deutliche Leistungsdichotomie: Während Nano Banana Pro eine überlegene subjektive visuelle Qualität demonstriert und oft plausible Hochfrequenzdetails halluziniert, die spezialisierte Modelle übertreffen, bleibt es in traditionellen referenzbasierten quantitativen Metriken zurück. Wir führen diese Diskrepanz auf die inhärente Stochastizität generativer Modelle zurück, die Schwierigkeiten haben, die strikte Pixelgenauigkeit zu gewährleisten, die von konventionellen Metriken gefordert wird. Dieser Bericht identifiziert Nano Banana Pro als einen fähigen Zero-Shot-Kandidaten für Low-Level-Vision-Aufgaben, betont jedoch, dass die Erreichung der hohen Genauigkeit von Domänenspezialisten nach wie vor eine erhebliche Hürde darstellt.

FrontierCS: Sich wandelnde Herausforderungen für sich entwickelnde Intelligenz
FrontierCS: Evolving Challenges for Evolving Intelligence

Dec 17

ByQiuyang Mang, Wenhao Chai, Zhifei Li, Huanzhi Mao, Shang Zhou, Alexander Du, Hanchen Li, Shu Liu, Edwin Chen, Yichuan Wang, Xieting Chu, Zerui Cheng, Yuan Xu, Tian Xia, Zirui Wang, Tianneng Shi, Jianzhu Yao, Yilong Zhao, Qizheng Zhang, Charlie Ruan, Zeyu Shen, Kaiyuan Liu, Runyuan He, Dong Xing, Zerui Li, Zirong Zeng, Yige Jiang, Lufeng Cheng, Ziyi Zhao, Youran Sun, Wesley Zheng, Meiyuwang Zhang, Ruyi Ji, Xuechang Tu, Zihan Zheng, Zexing Chen, Kangyang Zhou, Zhaozi Wang, Jingbang Chen, Aleksandra Korolova, Peter Henderson, Pramod Viswanath, Vijay Ganesh, Saining Xie, Zhuang Liu, Dawn Song, Sewon Min, Ion Stoica, Joseph E. Gonzalez, Jingbo Shang, Alvin Cheung

Wir stellen FrontierCS vor, einen Benchmark mit 156 offenen Problemen aus verschiedenen Bereichen der Informatik, der von Experten – einschließlich CS-Promovierten, Top-Teilnehmern im kompetitiven Programmieren und Aufgabenstellern – entworfen und begutachtet wurde. Im Gegensatz zu bestehenden Benchmarks, die sich auf Aufgaben mit bekannten optimalen Lösungen konzentrieren, zielt FrontierCS auf Probleme ab, bei denen die optimale Lösung unbekannt ist, die Qualität einer Lösung jedoch objektiv bewertet werden kann. Modelle lösen diese Aufgaben durch die Implementierung ausführbarer Programme anstatt durch die direkte Ausgabe einer Antwort. FrontierCS umfasst algorithmische Probleme, bei denen es sich oft um NP-schwere Varianten von Wettbewerbsprogrammieraufgaben mit objektiver Teilpunktvergabe handelt, sowie Forschungsprobleme mit derselben Eigenschaft. Für jedes Problem stellen wir eine Experten-Referenzlösung und einen automatischen Evaluator bereit. Durch die Kombination von offenem Design, messbarem Fortschritt und Expertenkuratierung bietet FrontierCS einen Benchmark an der Grenze des informatisch Machbaren. Empirisch stellen wir fest, dass fortschrittliche Reasoning-Modelle auf beiden Spuren – algorithmisch und forschungsbasiert – noch deutlich hinter menschlichen Experten zurückbleiben, dass eine Erhöhung des Reasoning-Budgets allein diese Lücke nicht schließt, und dass Modelle häufig darauf optimieren, lediglich funktionierenden Code zu generieren, anstatt hochwertige Algorithmen und Systemdesigns zu entdecken.

VTCBench: Können Vision-Language-Modelle langen Kontext mit Bild-Text-Kompression verstehen?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

Dec 17

ByHongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang

Die mit der Erweiterung des Kontextfensters von LLMs verbundenen Rechen- und Speicheraufwände schränken deren Skalierbarkeit erheblich ein. Eine bemerkenswerte Lösung ist die Vision-Text-Kompression (VTC), die durch Frameworks wie DeepSeek-OCR und Glyph veranschaulicht wird und lange Texte in dichte 2D-Visualisierungen umwandelt, wodurch Token-Kompressionsraten von 3x bis 20x erreicht werden. Die Auswirkungen dieser hohen Informationsdichte auf die zentralen Langkontextfähigkeiten von Vision-Language-Models (VLMs) sind jedoch noch unzureichend erforscht. Um diese Lücke zu schließen, führen wir den ersten Benchmark für VTC ein und bewerten systematisch die Leistung von VLMs in drei Langkontext-Verständnisszenarien: VTC-Retrieval, das die Fähigkeit des Modells zur Informationsabfrage und -aggregation bewertet; VTC-Reasoning, das von Modellen das Ableiten latenter Assoziationen zur Faktenlokalisierung bei minimaler lexikalischer Überlappung erfordert; und VTC-Memory, das umfassende Fragebeantwortung im Langzeitdialoggedächtnis misst. Zusätzlich etablieren wir VTCBench-Wild zur Simulation diverser Eingabeszenarien. Wir evaluieren umfassend führende Open-Source- und proprietäre Modelle anhand unserer Benchmarks. Die Ergebnisse zeigen, dass die meisten VLMs – obwohl sie Textinformationen (z.B. via OCR) gut decodieren können – überraschend schwache Langkontext-Verständnisfähigkeiten bei VTC-komprimierten Informationen aufweisen und lange Assoziationen oder Abhängigkeiten im Kontext nicht erfassen können. Diese Studie liefert ein vertieftes Verständnis von VTC und bildet eine Grundlage für die Entwicklung effizienterer und skalierbarer VLMs.

BEREICH: Prompt-Evolution zur Steigerung der Agentenwirksamkeit
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

Dec 17

ByZehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu

Große Sprachmodell-Agenten (LLM) werden zunehmend in Umgebungen eingesetzt, die massive, dynamische Kontexte generieren. Ein kritischer Engpass bleibt jedoch bestehen: Während Agenten Zugang zu diesem Kontext haben, fehlen ihren statischen Prompts die Mechanismen, um ihn effektiv zu verwalten, was zu wiederkehrenden Korrektur- und Verbesserungsfehlern führt. Um diese Fähigkeitslücke zu schließen, stellen wir SCOPE (Self-evolving Context Optimization via Prompt Evolution) vor. SCOPE fasst Kontextmanagement als ein Online-Optimierungsproblem auf und synthetisiert Richtlinien aus Ausführungspfaden, um den Prompt des Agenten automatisch weiterzuentwickeln. Wir schlagen einen Dual-Stream-Mechanismus vor, der taktische Spezifität (Lösen unmittelbarer Fehler) mit strategischer Allgemeingültigkeit (Weiterentwicklung langfristiger Prinzipien) in Einklang bringt. Darüber hinaus führen wir perspektivengesteuerte Exploration ein, um die Strategieabdeckung zu maximieren und so die Wahrscheinlichkeit zu erhöhen, dass der Agent für jede gegebene Aufgabe die richtige Strategie besitzt. Experimente auf dem HLE-Benchmark zeigen, dass SCOPE die Aufgaben-Erfolgsrate von 14,23 % auf 38,64 % steigert, ohne menschliches Eingreifen. Unser Code ist öffentlich verfügbar unter https://github.com/JarvisPei/SCOPE.

WEG: Schätzung des Schiffsbestimmungsorts in weltweiten AIS-Trajektorien
WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory

Dec 15

ByJin Sob Kim, Hyun Joon Park, Wooseok Shin, Dongil Park, Sung Won Han

Das Automatic Identification System (AIS) ermöglicht eine datengestützte maritime Überwachung, leidet jedoch unter Zuverlässigkeitsproblemen und unregelmäßigen Intervallen. Wir behandeln die Schiffszielschätzung unter Verwendung globaler AIS-Daten, indem wir einen differenzierten Ansatz vorschlagen, der lange Hafen-zu-Hafen-Trajektorien als eine geschachtelte Sequenzstruktur neu formuliert. Diese Methode mildert unter Verwendung räumlicher Raster räumlich-zeitliche Verzerrungen ab, während sie die detaillierte Auflösung beibehält. Wir stellen eine neuartige Deep-Learning-Architektur namens WAY vor, die dafür konzipiert ist, diese umformulierten Trajektorien zur langfristigen Ziels

Verständnis und Verbesserung von hyperbolischem Deep Reinforcement Learning
Understanding and Improving Hyperbolic Deep Reinforcement Learning

Dec 16

ByTimo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek

Die Leistung von Reinforcement Learning (RL)-Agenten hängt entscheidend von der Qualität der zugrundeliegenden Merkmalsrepräsentationen ab. Hyperbolische Merkmalsräume sind hierfür besonders geeignet, da sie von Natur aus hierarchische und relationale Strukturen erfassen, die oft in komplexen RL-Umgebungen vorhanden sind. Die Nutzung dieser Räume steht jedoch häufig vor Optimierungsherausforderungen aufgrund der Nichtstationarität von RL. In dieser Arbeit identifizieren wir Schlüsselfaktoren, die den Erfolg und das Scheitern beim Training hyperbolischer Deep-RL-Agenten bestimmen. Durch Analyse der Gradienten grundlegender Operationen in den Poincaré-Ball- und Hyperboloid-Modellen der hyperbolischen Geometrie zeigen wir, dass Einbettungen mit großer Norm gradientenbasiertes Training destabilisieren, was zu Verletzungen der Trust-Region bei der proximalen Politikoptimierung (PPO) führt. Aufbauend auf diesen Erkenntnissen stellen wir Hyper++ vor, einen neuen hyperbolischen PPO-Agenten, der aus drei Komponenten besteht: (i) stabiles Critic-Training durch einen kategorialen Wertverlust anstelle von Regression; (ii) Merkmalsregularisierung, die begrenzte Normen gewährleistet und gleichzeitig den Fluch der Dimensionalität durch Clipping vermeidet; und (iii) eine optimierungsfreundlichere Formulierung hyperbolischer Netzwerkschichten. In Experimenten mit ProcGen zeigen wir, dass Hyper++ stabiles Lernen garantiert, bisherige hyperbolische Agenten übertrifft und die Echtzeit um etwa 30 % reduziert. Bei Atari-5 mit Double DQN übertrifft Hyper++ euklidische und hyperbolische Baseline-Methoden deutlich. Unser Code ist unter https://github.com/Probabilistic-and-Interactive-ML/hyper-rl verfügbar.

Hybride Attributionsprioren für erklärbare und robuste Modelltrainingsverfahren
Hybrid Attribution Priors for Explainable and Robust Model Training

Dec 9

ByZhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong

Kleine Sprachmodelle (SLMs) werden häufig für Aufgaben eingesetzt, die geringe Latenz und schlanke Bereitstellung erfordern, insbesondere für Klassifikation. Da Interpretierbarkeit und Robustheit zunehmend an Bedeutung gewinnen, hat sich erklärungsgeführtes Lernen als effektiver Rahmen etabliert, der auf attributionsbasierter Überwachung während des Trainings basiert; jedoch bleibt die Ableitung allgemeiner und zuverlässiger Attributions-Priors eine große Herausforderung. Durch eine Analyse repräsentativer Attributionsmethoden in Klassifikationsszenarien stellen wir fest, dass diese Methoden zwar zuverlässig klassenrelevante Tokens hervorheben können, sich jedoch oft auf gemeinsame Schlüsselwörter konzentrieren, die von semantisch ähnlichen Klassen geteilt werden. Da solche Klassen bereits unter Standardtraining schwer zu unterscheiden sind, liefern diese Attributionen unzureichende diskriminative Hinweise, was ihre Fähigkeit zur Verbesserung der Modellunterscheidung begrenzt. Um diese Einschränkung zu überwinden, schlagen wir Class-Aware Attribution Prior (CAP) vor, ein neuartiges Framework zur Extraktion von Attributions-Priors, das Sprachmodelle dazu anleitet, feinkörnige Klassenunterschiede zu erfassen und salientere, diskriminativere Attributions-Priors zu erzeugen. Aufbauend auf dieser Idee führen wir weiterhin CAP Hybrid ein, das Priors von CAP mit denen bestehender Attributionstechniken kombiniert, um ein umfassenderes und ausgewogeneres Überwachungssignal zu bilden. Indem wir die Selbstattribution eines Modells mit diesen angereicherten Priors in Einklang bringen, fördert unser Ansatz das Erlernen vielfältiger, entscheidungsrelevanter Merkmale. Umfangreiche Experimente in Szenarien mit vollständigen Daten, Few-Shot-Lernen und adversariellen Angriffen demonstrieren, dass unsere Methode konsistent sowohl die Interpretierbarkeit als auch die Robustheit verbessert.

SonicMoE: Beschleunigung von MoE durch E/A- und Tile-bewusste Optimierungen
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Dec 16

ByWentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao

Mixture of Experts (MoE)-Modelle haben sich als de-facto-Architektur etabliert, um Sprachmodelle zu skalieren, ohne die Rechenkosten erheblich zu erhöhen. Aktuelle MoE-Modelle zeigen einen klaren Trend zu hoher Expertengranularität (kleinere Zwischendimension der Experten) und höherer Sparsity (konstante Anzahl aktivierter Experten bei höherer Gesamtzahl an Experten), was die Modellqualität pro FLOP verbessert. Allerdings leiden feingranulare MoEs unter einem erhöhten Aktivierungsspeicherbedarf und reduzierter Hardware-Effizienz aufgrund höherer IO-Kosten, während sparsere MoEs unter Rechenverschwendung durch Padding in gruppierten GEMM-Kerneln leiden. Als Antwort darauf schlagen wir einen speichereffizienten Algorithmus vor, um die Vorwärts- und Rückwärtspass-Berechnungen von MoEs mit minimaler Aktivierungspufferung für den Rückwärtspass durchzuführen. Wir entwickeln auch GPU-Kernel, die Speicher-IO mit Berechnungen überlappen und allen MoE-Architekturen zugutekommen. Schließlich schlagen wir eine neuartige "Token-Rounding"-Methode vor, die die Rechenverschwendung durch Padding in gruppierten GEMM-Kerneln minimiert. Infolgedessen reduziert unsere Methode SonicMoE den Aktivierungsspeicher um 45 % und erreicht einen 1,86-fachen Durchsatzgewinn auf Hopper-GPUs im Vergleich zu ScatterMoEs BF16-MoE-Kernel für ein feingranulares 7B-MoE. Konkret erzielt SonicMoE auf 64 H100s einen Trainingsdurchsatz von 213 Milliarden Token pro Tag, vergleichbar mit ScatterMoEs 225 Milliarden Token pro Tag auf 96 H100s für ein 7B-MoE-Modelltraining mit FSDP-2 unter Verwendung der lm-engine-Codebasis. Unter Einstellungen mit hoher MoE-Sparsity erzielt unser tile-aware Token-Rounding-Algorithmus eine zusätzliche Beschleunigung der Kernel-Ausführungszeit um den Faktor 1,16 im Vergleich zum herkömmlichen Top-K-Routing bei ähnlicher Downstream-Leistung. Wir stellen alle unsere Kernel als Open Source zur Verfügung, um ein schnelleres MoE-Modelltraining zu ermöglichen.

LikeBench: Bewertung der subjektiven Sympathie in LLMs für Personalisierung
LikeBench: Evaluating Subjective Likability in LLMs for Personalization

Dec 15

ByMd Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli

Ein personalisiertes LLM sollte Nutzerfakten speichern, korrekt anwenden und sich im Laufe der Zeit anpassen, um Antworten zu liefern, die der Nutzer bevorzugt. Bestehende Benchmarks für die LLM-Personalisierung konzentrieren sich weitgehend auf zwei Achsen: die präzise Erinnerung von Nutzerinformationen und die korrekte Anwendung der gespeicherten Informationen in nachgelagerten Aufgaben. Wir vertreten die Auffassung, dass eine dritte Achse – die Sympathie (Likability) – sowohl subjektiv als auch zentral für das Nutzererlebnis ist, jedoch von aktuellen Benchmarks unzureichend erfasst wird. Um Sympathie ganzheitlich zu messen, führen wir LikeBench ein, einen mehrsitzigen, dynamischen Evaluierungsrahmen, der Sympathie über mehrere Dimensionen hinweg misst, indem er erfasst, inwieweit sich ein LLM im Laufe der Zeit an die Präferenzen eines Nutzers anpassen kann, um sympathischere Antworten zu geben. In LikeBench führen die LLMs Konversationen mit einem simulierten Nutzer und lernen Präferenzen ausschließlich aus dem laufenden Dialog. Während die Interaktion fortschreitet, versuchen die Modelle, sich an die Antworten anzupassen, und nach jedem Zug werden sie vom selben simulierten Nutzer in sieben Dimensionen auf Sympathie bewertet. Nach unserem Wissenstand sind wir die Ersten, die Sympathie in mehrere diagnostische Metriken zerlegen: emotionale Anpassung, Formality-Abgleich, Wissensanpassung, Referenzverständnis, Passgenauigkeit der Gesprächslänge, Humor-Passung und Callback (Rückbezug), was es erleichtert, Schwachstellen eines Modells zu identifizieren. Um den simulierten Nutzer realistischer und diskriminativer zu gestalten, verwendet LikeBench feinkörnige, psychologisch fundierte descriptive Personas anstelle der grob auf High/Low-Merkmalen basierenden Bewertungspersonas aus früheren Arbeiten. Unser Benchmark zeigt, dass eine starke Gedächtnisleistung keine hohe Sympathie garantiert: DeepSeek R1 mit geringerer Gedächtnisgenauigkeit (86 %, 17 Fakten/Profil) übertraf Qwen3 bei der Sympathiebewertung um 28 %, obwohl Qwen3 eine höhere Gedächtnisgenauigkeit (93 %, 43 Fakten/Profil) aufwies. Selbst SOTA-Modelle wie GPT-5 passen sich in kurzen Austauschen gut an, zeigen aber nur begrenzte Robustheit in längeren, verrauschteren Interaktionen.

Simultane taktil-visuelle Wahrnehmung zum Erlernen multimodaler Roboter-Manipulation
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Dec 10

ByYuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu

Roboter-Manipulation erfordert sowohl eine umfassende multimodale Wahrnehmung als auch effektive Lernframeworks, um komplexe Aufgaben in der realen Welt zu bewältigen. Durchsicht-Haut (STS)-Sensoren, die taktile und visuelle Wahrnehmung kombinieren, bieten vielversprechende Erfassungsfähigkeiten, während moderne Imitationslernverfahren leistungsstarke Werkzeuge zur Politikakquisition bereitstellen. Allerdings fehlt es bestehenden STS-Designs an simultaner multimodaler Wahrnehmung und sie leiden unter unzuverlässiger taktiler Erfassung. Darüber hinaus bleibt die Integration dieser reichhaltigen multimodalen Signale in lernbasierte Manipulationspipelines eine ungelöste Herausforderung. Wir stellen TacThru vor, einen STS-Sensor, der simultane visuelle Wahrnehmung und robuste taktile Signalerfassung ermöglicht, sowie TacThru-UMI, ein Imitationslernframework, das diese multimodalen Signale für die Manipulation nutzt. Unser Sensor zeichnet sich durch ein vollständig transparentes Elastomer, dauerhafte Beleuchtung, neuartige Markierungslinien und effiziente Erfassung aus, während unser Lernsystem diese Signale durch eine transformerbasierte Diffusionspolitik integriert. Experimente mit fünf anspruchsvollen realen Aufgaben zeigen, dass TacThru-UMI eine durchschnittliche Erfolgsrate von 85,5 % erreicht und damit die Baseline-Ansätze mit abwechselnd taktil-visueller (66,3 %) und rein visueller Wahrnehmung (55,4 %) signifikant übertrifft. Das System überzeugt in kritischen Szenarien, einschließlich der Kontakterkennung mit dünnen und weichen Objekten sowie Präzisionsmanipulationen, die multimodale Koordination erfordern. Diese Arbeit zeigt, dass die Kombination von simultaner multimodaler Wahrnehmung mit modernen Lernframeworks eine präzisere und anpassungsfähigere Roboter-Manipulation ermöglicht.

In Richtung nahtloser Interaktion: Kausale Modellierung der Kopf dynamik auf Turn-Ebene in interaktiven 3D-Konversationen
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Dec 17

ByJunjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang

Menschliche Konversation beinhaltet kontinuierliche Wechsel von Sprache und nonverbalen Signalen wie Kopfnicken, Blickwechseln und Gesichtsausdrücken, die Aufmerksamkeit und Emotionen vermitteln. Die Modellierung dieser bidirektionalen Dynamiken in 3D ist entscheidend für die Erstellung ausdrucksstarker Avatare und interaktiver Roboter. Bisherige Frameworks behandeln Sprechen und Zuhören jedoch oft als unabhängige Prozesse oder verlassen sich auf nicht-kausale Vollsequenz-Modellierung, was die zeitliche Kohärenz über Sprechwechsel hinweg beeinträchtigt. Wir stellen TIMAR (Turn-level Interleaved Masked AutoRegression) vor, einen kausalen Framework für 3D-Konversationskopfgenerierung, der Dialoge als verschachtelte audiovisuelle Kontexte modelliert. Es fusioniert multimodale Informationen innerhalb jedes Sprechwechsels und wendet wechselbezogene kausale Aufmerksamkeit an, um Konversationsverlauf zu akkumulieren, während ein leichtgewichtiger Diffusionskopf kontinuierliche 3D-Kopfdynamiken vorhersagt, die sowohl Koordination als auch ausdrucksstarke Variabilität erfassen. Experimente auf dem DualTalk-Benchmark zeigen, dass TIMAR die Fréchet-Distanz und MSE auf dem Testset um 15-30% reduziert und ähnliche Verbesserungen bei Out-of-Distribution-Daten erzielt. Der Quellcode wird im GitHub-Repository https://github.com/CoderChen01/towards-seamleass-interaction veröffentlicht.