HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

62 papers found

GrepSeek: Training von Suchagenten für direkte Korpusinteraktion
GrepSeek: Training Search Agents for Direct Corpus Interaction

May 28

ByAlireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

Suchagenten auf Basis großer Sprachmodelle (LLM) haben sich als vielversprechend für wissensintensive Sprachaufgaben erwiesen, indem sie mehrere Runden des Schlussfolgerns und der Informationsabfrage durchführen. Die meisten bestehenden Systeme greifen mit einem Retriever auf Informationen zu, der ein Schlüsselwort oder eine natürlichsprachliche Abfrage entgegennimmt und unter Verwendung eines Indexes vorberechneter Dokumentrepräsentationen eine rangierte Liste von Dokumenten zurückgibt. In dieser Arbeit untersuchen wir eine komplementäre Perspektive, bei der der Suchagent das Korpus selbst als Suchumgebung betrachtet und Belege durch die Ausführung von Shell-Befehlen findet. Wir stellen GrepSeek vor, einen optimierten Suchagenten für direkte Korpusinteraktion (DCI), der einen kompakten Suchagenten trainiert, um Belege aus großen Textkorpora zu finden, zu filtern und zusammenzustellen. Um die Instabilität des Lernverhaltens bei direktem Reinforcement Learning auf großen Korpora zu adressieren, schlagen wir eine zweistufige Trainingspipeline vor. Zunächst erstellen wir einen Kaltstart-Datensatz unter Verwendung eines antwortbewussten Tutors und eines antwortblinden Planers, um verifizierte, kausal begründete Suchtrajektorien zu generieren. Zweitens verfeinern wir die initialisierte Policy mit Group Relative Policy Optimization (GRPO), wodurch der Agent sein aufgabenorientiertes Suchverhalten durch direkte Interaktion mit dem Korpus verbessern kann. Um DCI in großem Maßstab praktikabel zu machen, verwenden wir darüber hinaus eine semantikerhaltende, shard-parallele Ausführungsengine, die die shell-basierte Abfrage um bis zu das 7,6-fache beschleunigt, während die bytegenaue Äquivalenz zur sequenziellen Ausführung des Shell-Befehls erhalten bleibt. Experimente mit sieben Open-Domain-Frage-Antwort-Benchmarks zeigen, dass GrepSeek die insgesamt stärkste tokenbezogene F_1 und Exact Match erreicht. Unsere Analyse zeigt auch die Grenzen der rein lexikalischen Interaktion bei Abfragen mit erheblicher Oberflächenformvariation auf, was DCI als praktikable und konkurrenzfähige Methode für Suchagenten nahelegt, die bestehende Retrieval-Paradigmen in der realen Welt ergänzen kann.

COLLEAGUE.SKILL: Automatisierte KI-Fähigkeitsgenerierung durch Expertenwissensdestillation
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

May 29

ByTianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu

LLM-Agenten werden zunehmend nicht nur mit der Erledigung isolierter Aufgaben betraut, sondern auch damit, begrenzte Repräsentationen menschlicher Expertise, Urteilsfähigkeit und Interaktionsstile zu tragen. Die Konstruktion solcher personenbezogener Agenten bleibt schwierig, da handlungsrelevantes Wissen, das mit einer Person oder Rolle verbunden ist, üblicherweise in heterogenen Spuren eingebettet und nicht als klare Anweisungen formuliert ist. Bestehende Gedächtnis- und Personasysteme erfassen Fragmente dieser Evidenz, während Skill-Frameworks portable Verpackungsformate bereitstellen; jedoch existiert kein durchgängiger Arbeitsablauf, um diese Spuren in überprüfbare, korrigierbare und von Agenten nutzbare Skills zu destillieren. Wir stellen ein automatisiertes System zur Destillation von Spuren in Skills vor, das durch Destillation von Expertenwissen personenbezogene KI-Skills generiert. Ausgehend von Materialien einer Zielperson oder -rolle erstellt COLLEAGUE.SKILL ein versionsverwaltetes Skill-Paket mit zwei koordinierten Strängen: einem Fähigkeitsstrang für Praktiken, mentale Modelle und Entscheidungsheuristiken sowie einem begrenzten Verhaltensstrang für Kommunikationsstil, Interaktionsregeln und Korrekturhistorie. Das Paket kann überprüft, aufgerufen, durch Rückmeldungen in natürlicher Sprache aktualisiert, zurückgesetzt, auf mehreren Agentenhosts installiert und optional für eine kontrollierte Verteilung vorbereitet werden. Wir beschreiben den Artefaktvertrag, den Generierungsarbeitsablauf, den Korrekturlebenszyklus, die Bereitstellungsoberfläche und die im Open-Source-System implementierten Bereichsvoreinstellungen. Zum Zeitpunkt der Erstellung dieses Textes hat das öffentliche Repository etwa 18.500 GitHub-Sterne; die Galerie listet 215 Skills von 165 Beitragenden und mehr als 100.000 kumulative Sterne über die aufgelisteten Skill-Karten hinweg. Das System veranschaulicht, wie personenbezogene Skills als portable, korrigierbare Pakete und nicht als undurchsichtige Prompts oder verborgene Erinnerungen repräsentiert werden können.

Trust-Region-Verhaltensblending für On-Policy-Destillation
Trust-Region Behavior Blending for On-Policy Distillation

May 29

ByDaniil Plyusov, Alexey Gorbatovski, Alexey Malakhov, Nikita Balagansky, Boris Shaposhnikov, Daria Korotyshova, Daniil Gavrilov

On-Policy-Destillation (OPD) trainiert einen Schüler auf Präfixe, die aus seiner eigenen Strategie stammen, während sie mit einem stärkeren Lehrer abgeglichen wird. Dies behebt den Präfix-Mismatch der Offline-Destillation, allerdings können frühe Schüler-Rollouts weiterhin schwach sein, sodass die Lehrerüberwachung auf schwachen oder minderwertigen Präfixen erfolgt. Wir schlagen Trust-Region behavior Blending (TRB) vor, eine Aufwärmmethode, die die frühe Rollout-Strategie durch die dem Lehrer am nächsten liegende Verhaltensstrategie innerhalb einer schülerzentrierten KL-Vertrauensregion ersetzt, während der per-Präfix Reverse-KL-OPD-Verlust unverändert bleibt. Das KL-Budget wird auf Null abgekühlt, sodass das Training nach der Aufwärmphase wieder auf reine Schüler-Rollouts zurückkehrt. In zwei Umgebungen zur Destillation mathematischen Denkens erzielt TRB den stärksten Durchschnitt unter den verglichenen Methoden.

Repräsentationserzwingung für engpassfreie vereinheitlichte multimodale Modelle
Representation Forcing for Bottleneck-Free Unified Multimodal Models

May 29

ByYuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu

Unified Multimodale Modelle (UMMs) zielen darauf ab, Wahrnehmung und Generierung in einem einzigen Modell zu vereinen. Dennoch sind bestehende UMMs nach wie vor auf ein eingefrorenes, separat vortrainiertes VAE für die Bildgenerierung angewiesen, was einen strukturellen Engpass darstellt. Ein naives Entfernen desselben führt zu einer Qualitätslücke, da das Modell sowohl hochrangige Strukturen als auch niederstufige Details aus den rohen Pixeln lernen muss. In diesem Papier schlagen wir Representation Forcing (RF) vor, eine Technik, die diese Lücke schließt, indem sie die Repräsentationsvorhersage zu einer einheimischen Fähigkeit des Modells macht. Konkret zwingt RF den Dekoder dazu, visuelle Repräsentationen als Zwischentokens vor den Pixeln autoregressiv vorherzusagen; diese Tokens bleiben dann im Kontext, um die Pixel-Diffusion innerhalb desselben Backbones zu leiten. Indem RF Repräsentationen von Wahrnehmungsausgaben in Generierungsziele umwandelt, wird die Notwendigkeit eines externen latenten Raums für die Generierung eliminiert. Wir stellen fest, dass RF sowohl dem Verständnis als auch der Generierung zugutekommt. Bei der Bildgenerierung erreicht unser pixelbasiertes Modell mit RF den Stand der Technik VAE-basierter Unified Modelle. Beim Bildverständnis übertrifft das pixelbasierte RF in der Regel seine VAE-basierte Variante. Zusammen bieten diese Ergebnisse einen effektiven Schritt in Richtung Ende-zu-Ende, engpassfreier UMMs.

Mellum2 Technischer Bericht
Mellum2 Technical Report

May 29

ByMarko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko

Wir präsentieren Mellum 2, ein Sprachmodell mit offenen Gewichten, 12 Milliarden Parametern und Mixture-of-Experts (MoE)-Architektur (64 Experten, 8 aktiv) bei 2,5 Milliarden aktiven Parametern pro Token. Mellum 2 ist ein allgemeinsprachliches Sprachmodell, das auf Softwareentwicklung spezialisiert ist – einschließlich Code-Generierung und -Bearbeitung, Debugging, mehrstufigem Denken, Werkzeugnutzung und Funktionsaufruf, agentischem Codieren sowie konversationeller Programmierunterstützung – und es ist der Nachfolger des auf Vervollständigung ausgerichteten dichten 4B-Modells Mellum. Die Architektur baut auf dem Mixture-of-Experts (64 Experten, 8 aktiv) auf und kombiniert Grouped-Query Attention mit 4 KV-Köpfen, Sliding Window Attention auf drei von vier Schichten sowie einen einzelnen Multi-Token Prediction Head, der sowohl als Hilfsziel beim Vortraining als auch als eingebautes Draft-Modell für spekulatives Decodieren dient; jede Wahl wurde durch Ablation validiert, wobei die Inferenzeffizienz auf handelsüblichen GPUs als Konstruktionsbeschränkung diente. Das Vortraining umfasst etwa 10,6 Billionen Token in einem dreiphasigen Lehrplan, der die Mischung schrittweise von vielfältigen Webdaten hin zu kuratierten Code- und mathematischen Inhalten verschiebt, optimiert mit Muon unter FP8-Hybridpräzision und einem Warmup-Hold-Decay-Zeitplan mit linearem Abfall auf Null. Die vortrainierte Basis wird über ein schichtselektives YaRN auf ein 128K-Kontextfenster erweitert und dann in zwei Stufen nachtrainiert (überwachte Feinabstimmung, gefolgt von RLVR), wobei zwei veröffentlichte Varianten entstehen: ein Instruct-Modell, das direkt antwortet, und ein Thinking-Modell, das vor seiner endgültigen Antwort eine explizite Denkkette ausgibt. Bei Benchmarks zur Codegenerierung, Mathematik und Reasoning, Werkzeugnutzung, Wissen und Sicherheit ist Mellum 2 wettbewerbsfähig mit Open-Weight-Baselines im Bereich 4B-14B, während es den Rechenaufwand pro Token eines dichten 2,5B-Modells erreicht. Wir veröffentlichen die Checkpoints für Base, Instruct und Thinking zusammen mit diesem Bericht über die Architekturentscheidungen, die Datenpipeline und das Trainingsrezept dahinter unter der Apache-2.0-Lizenz.

SwanVoice: Ausdrucksstarke Langform-Zero-Shot-Sprachsynthese sowohl für Monolog als auch Dialog
SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

May 29

ByRuiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang

Zero-Shot-Text-to-Speech (TTS) hat sich für die Einzelsprecher-Synthese erheblich verbessert, dennoch bleibt der ausdrucksstarke, mehrsprecherige Langformdialog schwierig. Ein üblicher Ansatz besteht darin, jede Sprecherrunde mit einem Monolog-TTS-Modell zu synthetisieren und die Ausgaben zusammenzufügen. Dies erhöht die Inferenzkosten und beeinträchtigt häufig die akustische Konsistenz, die Gesprächskohärenz und die affektive Kontinuität über die Runden hinweg. Neuere Dialog-TTS-Systeme haben begonnen, sich mit diesem Szenario zu befassen, aber sie haben weiterhin Schwierigkeiten, gleichzeitig ausdrucksstarke Kohärenz, kontrollierbaren Sprecherwechsel und Monologqualität zu gewährleisten. Wir stellen SwanData-Speech und SwanVoice vor. SwanData-Speech erstellt Monolog- und Dialogkorpora aus realen Audioaufnahmen, unter Verwendung von Swan Forced Aligner für pausenbewusste wortweise Ausrichtung und RobustMegaTTS3 für schwer auszusprechende Fälle. Basierend auf diesen Daten ist SwanVoice ein Zero-Shot-TTS-Modell für 1–4 Sprecher, das einen 25-Hz-VAE, Rohtext-Conditioning mit pausenbewussten Symbolen und Pinyin-Ersetzung sowie einen Flow-Matching-DiT mit Sprecherwechsel-Conditioning kombiniert. Das Training beginnt mit Monologsprache, durchläuft gemischte und echte Dialogdaten und verwendet anschließend DiffusionNFT-Post-Training mit phonem- und sprecherähnlichkeitsbasierten Belohnungen. Auf SwanBench-Speech erzielt SwanVoice in sowohl Monolog- als auch Dialogszenarien höhere Reichhaltigkeits- und Hierarchiebewertungen als alle evaluierten Open-Source-Baselines, wobei die Inhaltsgenauigkeit die Hauptbeschränkung bleibt. Audiodemos sind unter https://swanaigc.github.io//#swanvoice verfügbar.

LongTraceRL: Lernen von Langkontext-Schlussfolgerungen aus Suchagenten-Trajektorien mit Rubrik-Belohnungen
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

May 29

ByNianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

Das Reasoning über lange Kontexte bleibt eine zentrale Herausforderung für große Sprachmodelle, die oft Schwierigkeiten haben, relevante Informationen in umfangreichen, ablenkenden Inhalten zu lokalisieren und zu integrieren. Bestärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich für diese Aufgabe als vielversprechend erwiesen, doch bestehende Methoden werden durch wenig verwechselbare Ablenkungen und spärliche, rein ergebnisbasierte Belohnungssignale eingeschränkt, die keine Zwischenschritte im Reasoning überwachen können. Um diese Probleme zu adressieren, führen wir LongTraceRL ein. Für die Datenkonstruktion generieren wir Multi-Hop-Fragen mittels Zufallspfaden in Wissensgraphen und nutzen Suchagenten-Trajektorien, um abgestufte Ablenkungen zu erzeugen: Dokumente, die der Agent las, aber nicht zitierte (hohe Verwechselbarkeit), und Dokumente, die in Suchergebnissen auftauchten, aber nie geöffnet wurden (geringe Verwechselbarkeit). Dadurch entstehen Trainingskontexte, die weitaus anspruchsvoller sind als solche, die durch zufällige Stichproben oder einmalige Suchen erstellt wurden. Für das Belohnungsdesign schlagen wir eine Rubriken-Belohnung vor, die die Gold-Entitäten entlang jeder Reasoning-Kette als feinkörnige, entitätsbasierte Prozessüberwachung nutzt. Diese Rubriken-Belohnung wird nur auf Antworten mit korrekten Endergebnissen angewendet (Positiv-nur-Strategie), wodurch die Reasoning-Qualität unter korrekten Antworten unterschieden und Belohnungshacking verhindert wird. Experimente mit drei Reasoning-LLMs (4B–30B) über fünf Benchmarks für lange Kontexte zeigen, dass LongTraceRL durchgängig starke Baselines übertrifft und ein umfassendes, evidenzbasiertes Reasoning fördert. Codes, Datensätze und Modelle sind verfügbar unter https://github.com/THU-KEG/LongTraceRL.

Function2Scene: 3D-Innenraumszenen-Layout aus funktionalen Spezifikationen
Function2Scene: 3D Indoor Scene Layout from Functional Specifications

May 29

ByRuiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang

Die meisten textgesteuerten Verfahren zur Synthese von 3D-Innenraumszenen erzeugen Räume aus objektzentrierten Vorgaben, die danach fragen, welche Möbel platziert werden sollen, statt wie der Raum genutzt wird. In der realen Innenarchitektur wird ein Grundriss jedoch danach beurteilt, wie gut er die Nutzer unterstützt, z. B. deren Aktivitäten und physische Bedürfnisse. Wir stellen Function2Scene vor, ein Framework zur Erzeugung von 3D-Innenraumgrundrissen aus funktionalen Spezifikationen, d. h. Designbriefen in natürlicher Sprache, die beschreiben, wer einen Raum nutzen wird und was dort getan werden muss. Unser System analysiert aus einer solchen Spezifikation Nutzergruppen und Aktivitäten, leitet einen maßgeschneiderten Satz funktionaler Designbeschränkungen aus einer Taxonomie von 17 Kriterien ab, die räumliche, ergonomische, aktivitätsbezogene und umweltrelevante Aspekte umfassen, und nutzt diese Beschränkungen zur Steuerung der Grundrisserzeugung. Anstatt sich auf ein LLM zu verlassen, das direkt eine finale Szene produziert, führt Function2Scene eine iterative Bewertung und Verfeinerung durch eine werkzeuggestützte Überprüfungs- und Reparaturschleife durch, die geometrische Messungen, LLM-basierte kontextuelle Argumentation und VLM-basierte visuelle Bewertung kombiniert. Experimente an 30 professionell verfassten Innenarchitekturfällen zeigen, dass Function2Scene Grundrisse erzeugt, die funktionale Anforderungen besser erfüllen als neuere LLM-basierte Szenensynthese-Baselines, wobei unsere Ergebnisse in 94,3 % der paarweisen Vergleiche bevorzugt werden. Unsere Arbeit stellt die textgesteuerte Innenraumszenensynthese vom Platzieren plausibler Objekte auf das Gestalten von Räumen um, die die menschliche Nutzung unterstützen.

GGT-100K: Generative Ground Truth für generalisierbare Bildwiederherstellung in der realen Welt
GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

May 29

ByXiangtao Kong, Jixin Zhao, Lingchen Sun, Rongyuan Wu, Lei Zhang

Die Bildwiederherstellung (Image Restoration, IR) in realen Szenarien wird durch die Knappheit hochwertiger gepaarter Trainingsdaten eingeschränkt. Synthetische Datensätze sind zwar reichlich vorhanden, bilden jedoch oft reale Degradationen nicht ausreichend ab, während reale gepaarte Datensätze teuer und schwer zu erfassen sind. Folglich zeigen auf diesen Datensätzen trainierte IR-Modelle eine eingeschränkte Generalisierung in realen Szenarien. In dieser Arbeit schlagen wir das Verfahren Generative Ground Truth (GGT) vor, das generative multimodale foundation models (MFMs) nutzt, um aus realen Bildern niedriger Qualität (LQ) hochwertige Ziele (HQ) zu erzeugen. Zunächst führen wir eine systematische Evaluierung von neun modernsten MFMs durch, darunter Nano-Banana-2 und GPT-Image-2, anhand von Bildern verschiedener Szenen und Degradationstypen. Die Ergebnisse zeigen, dass Nano-Banana-2 mit VLM-basiertem adaptiven Prompting die höchste Fähigkeit aufweist, perzeptuell realistische und inhaltstreue HQ-Ziele zu synthetisieren, die als GGT für die LQ-Eingabe dienen können. Anschließend setzen wir Nano-Banana-2 ein, um eine GGT-Synthesepipeline zu entwickeln, die eine mehrstufige Qualitätskontrolle zur Sicherstellung der Datenzuverlässigkeit umfasst, und erstellen GGT-100K, einen LQ-HQ-gepaarten Datensatz mit 103.707 Trainingspaaren, der verschiedene Szenen und komplexe reale Degradationen abdeckt. Zudem wird ein Testsatz mit 500 Bildpaaren etabliert. Umfangreiche Experimente zeigen, dass GGT-100K die Generalisierung in realen Szenarien für eine breite Palette von IR-Modellen konsistent verbessert, mit besonders starken Vorteilen für das Feintuning generativer Modelle für IR-Aufgaben. Unsere Ergebnisse deuten darauf hin, dass MFMs als praktische Werkzeuge für die wiederherstellungsorientierte Datengenerierung dienen können und GGT-100K eine nützliche Ressource darstellt, um die Generalisierungsgrenzen realer IR-Modelle zu erweitern.

Auf dem Weg zur Streaming-synchronisierten räumlichen Audiogenerierung mittels autoregressivem Diffusionstransformator
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

May 29

ByKe Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao

Echtzeit- und präzise räumliche Audiogenerierung ist entscheidend für ein immersives Erlebnis. Allerdings sind bestehende Technologien zur räumlichen Audiosynthese oft durch einen Kompromiss zwischen Generierungsqualität und hoher Inferenzlatenz sowie durch Schwierigkeiten bei der Erfassung präziser räumlicher Informationen aus multimodalen Eingaben beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir SwanSphere vor, ein einheitliches Streaming-Framework für hochwertige räumliche Audiogenerierung aus Panoramavideos und Textaufforderungen. SwanSphere leistet dabei folgende Hauptbeiträge: 1) Wir führen eine kausale autoregressive Diffusionstransformer-Architektur ein, die eine Streaming-Generierung hochwertiger räumlicher Audioinhalte ermöglicht. 2) Wir entwerfen eine Lernstrategie für räumliches Video-Audio-Kontrastivlernen (SVAC), um den Video-Encoder an die akustische Domäne anzupassen, und setzen zudem ein multiobjektives Online-Direktpräferenzoptimierungsverfahren (ODPO) ein, was zu einer starken räumlichen Wahrnehmung und einer robusten multimodalen räumlichen Audiosynthese führt. 3) Um die derzeitige Knappheit an räumlichen Audiodatensätzen zu mildern, entwickeln wir außerdem eine automatisierte Annotationspipeline zur Erstellung detaillierter räumlicher Beschreibungen. Experimentelle Ergebnisse zeigen, dass SwanSphere sowohl bei der Video-zu-Raumklang- als auch bei der Text-zu-Raumklang-Generierung überlegene Leistungen erzielt. Demos sind zu finden unter: https://swanaigc.github.io.

SANA-Streaming: Echtzeit-Streaming-Videobearbeitung mit Hybrid-Diffusionstransformer
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

May 28

ByYuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

Echtzeit-Streaming-Video-zu-Video-Bearbeitung (V2V) ist für interaktive Anwendungen wie Live-Übertragungen und Spiele von entscheidender Bedeutung, bleibt jedoch aufgrund der strengen Anforderungen an zeitliche Konsistenz und Inferenzdurchsatz eine große Herausforderung. In diesem Paper präsentieren wir SANA-Streaming, ein System-Algorithmus-co-designtes Framework für hochauflösende, echtzeitfähige Streaming-Videobearbeitung auf Consumer-GPUs mit den folgenden drei Kernentwürfen: (1) Die Hybrid-Diffusion-Transformer-Architektur führt in einem Teil der Blöcke Softmax-Aufmerksamkeit ein, um die lokale Modellierungsfähigkeit zu verbessern, während die Effizienz der linearen Schichten erhalten bleibt. (2) Cycle-Reverse-Regularisierung ist eine neuartige Trainingsstrategie, die semantische Konsistenz erzwingt, indem sie Quellframes aus generierten Inhalten mittels Flow Matching vorhersagt und so die zeitliche Konsistenz verbessert, ohne dass gepaarte lange bearbeitete Videos erforderlich sind. (3) Effizientes System-Co-Design kombiniert fusionierte GDN-Kernel und Mixed-Precision-Quantisierung (MPQ), optimiert für die NVIDIA-Blackwell-Architektur (RTX 5090). Durch Profiling des realen Durchsatzes maximiert unsere MPQ die Tensor-Core-Auslastung bei gleichbleibender Generierungsqualität. Das resultierende System erreicht eine Echtzeitbearbeitung mit 1280 x 704 Pixeln Auflösung bei 24 End-to-End-FPS auf einer einzelnen RTX 5090 GPU, wobei der DiT-Kern mit 58 FPS läuft. Experimentelle Ergebnisse zeigen, dass unser Co-Design-Ansatz sowohl in der zeitlichen Kohärenz als auch im Systemdurchsatz deutlich besser abschneidet als bestehende SOTA-Methoden.

Umfassendes Benchmarking der Langform-Sprachgenerierung in verschiedenen Szenarien
Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27

ByChanghao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao

Jüngste Fortschritte in der Sprachgenerierung haben eine hochgetreue Synthese ermöglicht, jedoch bleibt die systematische Evaluierung von Modellen unter Langzeitkontextbedingungen weitgehend unerforscht. Ein umfassender Evaluierungs-Benchmark für Langzeit-Sprache ist aus zwei Gründen unerlässlich: 1) bestehende Testszenarien beschränken sich oft auf begrenzte Domänen, was eine erhebliche Lücke zu den vielfältigen nachgelagerten Anwendungen schafft; 2) bestehende Metriken übersehen kritische Faktoren langer Texte wie Konsistenz und Kohärenz und lassen sich nicht zuverlässig verallgemeinern. Zu diesem Zweck schlagen wir Swanbench-Speech vor, einen umfassenden Benchmark, der die Qualität von Langzeit-Sprache in spezifische, entkoppelte Dimensionen zerlegt. SwanBench-Speech weist drei Schlüsseleigenschaften auf: 1) Reichhaltige Sprachszenarien: Mit Fokus auf Langzeit-Sprachgenerierung und Dialoggenerierung deckt SwanBench-Speech Herausforderungen in Akustik, Semantik und Ausdruckskraft ab und umfasst 1.101 Stichproben aus 17 gängigen Sprachszenarien; 2) Umfassende Evaluierungsdimensionen: Entlang der Achsen Akustik, Semantik und Ausdruckskraft definiert SwanBench-Speech ein automatisiertes Evaluierungsprotokoll mit sieben Metriken, das eine umfassende, genaue und standardisierte Bewertung ermöglicht; 3) Wertvolle Erkenntnisse: Durch umfangreiche Experimente zeigen wir, dass aktuelle Modelle in stark ausdrucksstarken Szenarien weiterhin Schwierigkeiten haben und im Vergleich zu echten Aufnahmen eine deutliche Lücke in Konsistenz und Hierarchie aufweisen.

Aufgabenfokussierte Memorisierung für multimodale Agenten
Task-Focused Memorization for Multimodal Agents

May 29

ByTao Zou, Yichen He, Tian Qiu, Yuan Lin, Hang Li

Langzeitgedächtnis ist für multimodale Agenten unerlässlich, um kohärente Erfahrungen aufzubauen, Weltwissen anzuhäufen und kontinuierliches Lernen zu ermöglichen. Die Konstruktion eines effektiven Gedächtnisses geht jedoch über das Design von Gedächtnismodulen und grundlegende Anforderungen wie Genauigkeit und Treue hinaus; die zentrale Herausforderung besteht darin, zu bestimmen, was gespeichert werden soll. Multimodale Agenten, wie etwa verkörperte Agenten (embodied agents), nehmen kontinuierlich in realen oder virtuellen Umgebungen wahr, schlussfolgern und handeln und empfangen dabei einen unbegrenzten Strom multimodaler Beobachtungen. Aus dieser kombinatorischen Explosion von Informationen muss ein Agent selektiv jene Inhalte speichern, die für seine Rolle in der Umgebung relevant und für zukünftige Aufgaben wertvoll sind. Um diese Lücke zu schließen, betrachten wir die Gedächtnisgenerierung als eine lernbare Merk-Politik (memorization policy) und führen TaskMem (Task-focused Memorization Policy Learning) ein – ein auf verstärkendem Lernen (reinforcement learning) basierendes Framework, das es der Politik ermöglicht, ihren Fokus dynamisch an die Anforderungen realer Aufgaben in der Umgebung anzupassen. TaskMem folgt einem zweiphasigen Trainingsparadigma: In Phase Eins wird durch Optimierung der Gedächtnisqualität unter grundlegenden Treueanforderungen gelernt, *wie* man sich erinnert. Phase Zwei findet nach der Bereitstellung statt: Der Agent lernt, *was* er sich merken soll, indem er einen Adapter auf seinem Basis-MLLM (Multimodal Large Language Model) abstimmt, wobei aktuelle Umgebungsaufgaben zur Definition eines Belohnungsmodells dienen, das die Merk-Politik auf aufgabenrelevante Inhalte lenkt. Zur Evaluierung unseres Ansatzes formulieren wir VideoMME, EgoLife und EgoTempo als Streaming-Benchmarks um, die ein realistisches Szenario simulieren, in dem ein Agent Streaming-Beobachtungen verarbeitet und online eingehende Aufgaben bewältigt. Um die Gedächtnisleistung isoliert zu bewerten, müssen die Fragen ausschließlich aus dem Gedächtnis des Agenten beantwortet werden, ohne Zugriff auf das Rohvideo. Basierend auf Qwen3-VL-30B-A3B verbessert TaskMem die VQA-Genauigkeit auf diesen Benchmarks um 6,3 %, 7,0 % bzw. 5,3 %.

dMoE: dLLMs mit lernbaren Block-Experten
dMoE: dLLMs with Learnable Block Experts

May 29

BySicheng Feng, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

Diffusion Large Language Models (dLLMs) haben sich in letzter Zeit als vielversprechende Alternative zu autoregressiven Modellen erwiesen, da sie eine wettbewerbsfähige Leistung bieten und gleichzeitig auf natürliche Weise parallele Dekodierung unterstützen. Mit der zunehmenden Integration von dLLMs in Mixture-of-Experts-Architekturen (MoE) zur Skalierung der Modellkapazität tritt jedoch ein grundlegender Konflikt zwischen block-paralleler Dekodierung und tokenweiser Expertenauswahl auf. Konkret verarbeitet jeder Vorwärtsdurchlauf eines dLLM mehrere Tokens mit bidirektionalen Abhängigkeiten, während konventionelle MoE-Schichten jedes Token unabhängig routen. Diese Diskrepanz erhöht die Anzahl der einzigartig aktivierten Experten erheblich, wodurch die Inferenz zunehmend speichergebunden wird. Um dieses Problem zu adressieren, schlagen wir dMoE vor, ein einfaches, aber effektives MoE-Framework auf Blockebene. Die zentrale Idee von dMoE besteht darin, Token-Ebene-Expertenverteilungen innerhalb jedes Blocks zu einer einheitlichen Expertenverteilung auf Blockebene zu aggregieren, die dann verwendet wird, um das Expertenrouting kohärenter zu steuern. Auf diese Weise reduziert dMoE die Anzahl der während der Inferenz einzigartig aktivierten Experten erheblich, ohne die Leistung zu beeinträchtigen, und mildert somit den speichergebundenen Engpass. Umfangreiche Experimente über verschiedene Benchmarks hinweg belegen die Wirksamkeit von dMoE. Im Durchschnitt reduziert dMoE die Anzahl der einzigartig aktivierten Experten von 69,5 auf 14,6, während 99,11 % der ursprünglichen Leistung erhalten bleiben. Gleichzeitig wird der Speicherverbrauch um 76,64 % bis 79,84 % reduziert und eine End-to-End-Latenzbeschleunigung um den Faktor 1,14 bis 1,66 erreicht. Der Code ist verfügbar unter: https://github.com/fscdc/dMoE

Nicht jede Uneinigkeit ist lernbar: Token-Lehrbarkeit in der On-Policy-Destillation
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

May 26

ByYuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

On-Policy-Destillation (OPD) trainiert einen Schüler auf seinen eigenen Rollouts mit Token-Ebene-Lehrerüberwachung. Neuere selektive OPD-Methoden nutzen die Nicht-Gleichförmigkeit von OPD-Signalen, indem sie Token mit hoher Entropie oder hoher Diskrepanz priorisieren. Wir überdenken dieses Prinzip und fragen: Welche Signale des Lehrers auf Token-Ebene sind tatsächlich lernbar? Mithilfe einer Diagnostik mit festem Kontext, die die Reduktion der Lehrer-Schüler-KL im gleichen Kontext misst, zeigen wir, dass die rohe KL-Diskrepanz ein grober Indikator für den Lernwert ist. Sie vermischt lernbare Diskrepanz, bei der der Lehrer korrigierendes Gewicht auf die Top-K-Kandidaten des Schülers legt, mit inkompatibler Diskrepanz, bei der der Lehrer das Gewicht hauptsächlich außerhalb des aktuellen Trägers des Schülers platziert. Wir formalisieren diese lokale Kompatibilität als Token-Lehrbarkeit und zeigen, dass sie die Verbesserung im festen Kontext besser vorhersagt als die rohe KL allein. Motiviert durch diesen Befund schlagen wir lehrbarkeitsbewusste OPD (TA-OPD) vor, eine leichtgewichtige Methode zur Auswahl von Token-Positionen, die den OPD-Verlust auf Positionen mit hoher Lehrbarkeit anwendet, ohne Belohnungsmodelle oder Verifizierer. In Qwen2.5- und Qwen-3-Lehrer-Schüler-Einstellungen übertrifft TA-OPD häufig die OPD mit vollständigen Token bei nur 5% beibehaltenen Token und verbessert sich gegenüber Entropie- und Divergenz-basierten Basislinien. Unsere Ergebnisse definieren selektive OPD neu als Auswahl lernbarer Lehrersignale anstelle von lediglich salienten Token.

SCOPE: Selbstspiel mittels ko-evolvierender Policies für offene Aufgaben
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

May 29

ByWai-Chung Kwan, Aryo Pradipta Gema, Joshua Ong Jun Leang, Pasquale Minervini

Selbstspiel kann Sprachmodelle ohne externe Überwachung trainieren. Allerdings erfordern bestehende Methoden regelüberprüfbare Antworten, sodass offene Aufgaben auf kuratierte Aufforderungen oder Bewertungen durch Frontier-Modelle angewiesen sind. Wir stellen SCOPE vor, ein datenfreies Selbstspiel-Framework für offene Aufgaben, das zwei Policies ko-evolviert: einen Challenger, der dokumentengestützte Aufgaben erzeugt, und einen Solver, der diese durch mehrschrittige Abfrage beantwortet. Eine eingefrorene Kopie des Ausgangsmodells dient als Selbstbewertung, die aus dem Quelldokument aufgabenspezifische Bewertungsrubriken erstellt und die Antworten des Solvers anhand dieser Rubriken bewertet. Über drei instruktionsabgestimmte Modelle mit 7-8B Parametern (Qwen2.5, Qwen3, OLMo-3) hinweg verbessert SCOPE die Leistung bei offenen Aufgaben um bis zu +10,4 Punkte auf acht Benchmarks und erreicht oder übertrifft GRPO_data, das mit ~9K kuratierten Aufforderungen trainiert wurde. Obwohl SCOPE nur auf offenen Aufgaben trainiert wurde, verbessert es auch die zurückgehaltene Kurzantwort-QA um bis zu +13,8 Punkte auf sieben zurückgehaltenen Benchmarks und übertrifft GRPO_data bei allen drei Modellen. Ablationen zeigen, dass die Ko-Evolution des Challengers notwendig ist, um die Aufgaben nahe an der Leistungsgrenze des Solvers zu halten, dass die Verbesserungen aus Fortschritten sowohl bei der Abfrage als auch bei der Synthese resultieren, wobei der relative Beitrag je nach Aufgabe variiert, und dass die Qualität der Rubrikenerstellung den Engpass für die Selbstbewertung darstellt.

SAAS: Selbstreflexives Reinforcement Learning zur Minderung von Übersuche in agentischer Suche
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

May 28

ByYunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

Agentische Suche ermöglicht es LLMs, komplexe Multi-Hop-Fragen durch iteratives Denken und externe Suche zu lösen. Trotz ihrer Wirksamkeit leiden diese Systeme in der Praxis häufig unter einer entscheidenden Einschränkung: Agenten erkennen ihre eigenen Wissensgrenzen nicht, lösen blind Suchvorgänge aus, wenn internes Wissen ausreicht, und beenden die Suche nicht, selbst wenn ausreichende Belege gesammelt wurden. Der Mangel an Selbstbewusstsein führt zu schwerwiegender Übersuche, was zu erheblicher Inferenzlatenz und untragbaren Rechenkosten führt. Zu diesem Zweck schlagen wir SAAS vor, ein neuartiges RL-Framework, das darauf abzielt, dynamisches Selbstbewusstsein zu kultivieren, das das Suchverhalten präzise reguliert, ohne die Genauigkeit zu beeinträchtigen. SAAS führt drei Schlüsselkomponenten ein: (i) einen Mechanismus zur Modellierung der Suchgrenze, der die Suchgrenze unter der sich entwickelnden Policy identifiziert, indem suchdeaktivierte und suchaktivierte Rollouts verglichen werden; (ii) ein grenzbewusstes Belohnungsmodul, das dieses Grenzbewusstsein in trajektorienbasierte Strafen übersetzt und unnötige sowie redundante Suchvorgänge unterdrückt; und (iii) eine stufenweise Optimierungsstrategie, die einen sequentiellen Lehrplan nutzt, um das Denken vor der Suchregularisierung zu priorisieren und so Reward-Hacking zu vermeiden. Umfangreiche Experimente zeigen, dass SAAS die Übersuche erheblich reduziert, während die Genauigkeit erhalten bleibt. Unser Code ist anonym unter https://github.com/XMUDeepLIT/SAAS veröffentlicht.

PEEK: Auswahl essentieller Frames durch effiziente Wissensdestillation
PEEK: Picking Essential frames via Efficient Knowledge distillation

May 29

ByKillian Steunou, Anas Filali Razzouki, Khalil Guetari, Mounîm A. El-Yacoubi, Yannis Tevissen

Video-Sprachmodelle können nur eine begrenzte Anzahl von Frames verarbeiten, weshalb die Frame-Auswahl einen entscheidenden Engpass für eine effiziente Videobeschriftung darstellt. Die meisten Beschriftungspipelines verlassen sich noch immer auf gleichmäßige Abtastung, die zwar rechengünstig, aber gegenüber dem visuellen Inhalt blind ist. Adaptive Frame-Abtastung hat sich in jüngster Zeit als vielversprechender Ansatz zur Auswahl der informativsten Frames aus einem Video erwiesen; bestehende Methoden sind jedoch rechenintensiv. Wir stellen PEEK vor, eine effiziente dynamische Frame-Abtastmethode, die beschriftungsbedingte Frame-Relevanzränge aus einem stärkeren Lehrermodell in ein leichtgewichtiges zeitliches Modell destilliert, das ausschließlich auf visuellen Inhalten operiert. Insgesamt stellen wir fest, dass unsere Methode auf ActivityNet Captions und MSR-VTT in allen bewerteten nachgelagerten visuellen Sprachmodellen den aktuellen Stand der Technik übertrifft, insbesondere wenn nur ein oder zwei Frames zur Beschriftung ausgewählt werden, wobei sie für die meisten Frame-Budgets den besten CIDEr-Wert erzielt. Auf ActivityNet Captions ist PEEK besonders stark und gewinnt 14 von 16 Konfigurationen. Die Zero-Shot-Evaluierung auf MSR-VTT zeigt, dass sich unser Modell bei niedrigen Frame-Budgets am besten überträgt, während die Ergebnisse bei vier und acht Frames gemischter ausfallen, da zeitliche Abdeckung und visuelle Vielfalt zunehmend in Konkurrenz treten. Im Vergleich zu aktuellen adaptiven Basislinien ist PEEK sowohl im Niedrigbudget-Bereich genauer als auch effizienter: Es erhöht die Beschriftungszeit nur um 5,2 %, verglichen mit 65,4 % für CSTA und 211,9 % für MaxInfo. Wir veröffentlichen unseren Code und den vorab trainierten Checkpoint unter https://github.com/momentslab/peek.

Erforschung des autonomen agentischen Data Engineerings zur Modellspezialisierung
Exploring Autonomous Agentic Data Engineering for Model Specialization

May 28

ByYujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

Große Sprachmodelle (LLMs) haben bei allgemeinen Aufgaben starke Leistungen gezeigt, haben jedoch oft Schwierigkeiten, sich ohne hochwertige domänenspezifische Daten an spezialisierte Bereiche anzupassen. Bisherige LLM-basierte Datenkuratierungsmethoden stützen sich hauptsächlich auf manuell entworfene Workflows, wobei ungeprüft bleibt, ob LLMs autonom eine durchgängige Daten-Engineering-Pipeline zur Modellspezialisierung ausführen können. Wir formalisieren das *Autonomous Agentic Data Engineering*, eine neuartige Aufgabe zur Bewertung von LLMs als autonome Daten-Ingenieure, die durch durchgängige Datenkuratierung die Modellspezialisierung vorantreiben. Wir betrachten Daten als optimierbare Komponente und untersuchen Agenten, die Trainingsdaten über mehrere Domänen hinweg planen, generieren und iterativ optimieren – gesteuert durch Leistungsverbesserungen nach dem Training. Experimente zeigen, dass autonome LLM-Daten-Ingenieure erhebliche Gewinne erzielen: GPT-5.2 erstellt einen Trainingsplan, der ein Schülermodell um 57,29 % verbessert – vollständig durch iterative, agentengesteuerte Datenanpassung. Indem wir sowohl Potenzial als auch Engpässe aufzeigen, etabliert unsere Studie autonomes Daten-Engineering als messbare Fähigkeit und skizziert einen Weg zur agentengesteuerten Modellspezialisierung. Der Code wird unter https://github.com/zjunlp/DataAgent veröffentlicht.

LongDS-Bench: Über das Scheitern der langfristigen agentischen Datenanalyse
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

May 28

ByKewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

Die Analyse realer Daten ist von Natur aus iterativ, dennoch bewerten bestehende Benchmarks meist isolierte oder kurze interaktive Aufgaben, sodass die Fähigkeit von Agenten, sich über lange Zeiträume hinweg entwickelnde analytische Kontexte nachzuverfolgen, ungetestet bleibt. Wir stellen LongDS vor, einen Benchmark für langfristige, mehrschrittige Datenanalyse, bei dem Agenten sich entwickelnde analytische Zustände beibehalten, aktualisieren, wiederherstellen und kombinieren müssen. LongDS umfasst 68 Aufgaben, die aus realen Kaggle-Notebooks erstellt wurden, mit 2.225 Interaktionen über sechs Domänen hinweg, darunter Geowissenschaften, Wirtschaft und Bildung. Die Aufgaben sind um Muster der Zustandsentwicklung herum konzipiert (z. B. kontrafaktische Störung, Rollback, Mehrzustandskomposition), mit einer durchschnittlichen Abhängigkeitsspanne von 11,3 Interaktionen. Bei der Evaluierung von fünf hochmodernen Modellen stellen wir fest, dass das beste Modell nur eine durchschnittliche Genauigkeit von 48,45 % erreicht, die Leistung von frühen zu späten Interaktionen um fast 47 Punkte abfällt und langfristige Fehler 52 %–69 % der Fehlschläge ausmachen. Weitere Analysen zeigen, dass zusätzliche Agentenschritte nicht unbedingt die Leistung verbessern, was darauf hindeutet, dass der entscheidende Engpass eher in der Aufrechterhaltung eines korrekten analytischen Zustands als in der Erhöhung des Interaktionsbudgets liegt. Wir veröffentlichen LongDS, um die Forschung zu zuverlässiger langfristiger agentischer Datenanalyse zu unterstützen. Code und Daten werden unter https://github.com/zjunlp/DataMind veröffentlicht.

VLM3: Vision-Language-Modelle sind native 3D-Lerner
VLM3: Vision Language Models Are Native 3D Learners

May 28

ByZhipeng Cai, Zhuang Liu, Yunyang Xiong, Zechun Liu, Vikas Chandra, Yangyang Shi

Vision-Language-Modelle (VLMs) ermöglichen die Lösung verschiedener Bildverarbeitungsaufgaben durch ein einheitliches Modell mittels Prompting. Sie zeigen vielversprechende Ergebnisse im semantischen Verständnis. Allerdings ist das 3D-Verständnis nach wie vor weitgehend auf spezialisierte Bildverarbeitungsmodelle mit komplexen aufgabenspezifischen Entwürfen angewiesen. Die zentrale These dieser Arbeit ist, dass VLMs von Natur aus 3D-Lerner sind. Unsere detaillierte groß angelegte Studie zeigt, dass 1) Brennweitenvereinheitlichung, 2) textbasierte Pixelreferenz und 3) Datenmischung und Skalierung alles sind, was für effektives 3D-Lernen benötigt wird. Änderungen der Architektur des Modells, große Modelle, umfangreiche Datenaugmentierungen und komplexe Verlustfunktionen einschließlich der Regressionsformulierung – von denen viele die Grundlage spezialisierter Bildverarbeitungsmodelle bilden – sind tatsächlich keine notwendigen Bedingungen. Als Ergebnis schlagen wir VLM3 vor, eine skalierbare Methode mit dem einfachsten Design, die es Standard-VLMs ermöglicht, vielfältige 3D-Aufgaben zu meistern. VLM3 verbessert nicht nur die Genauigkeit der Tiefenschätzung von VLMs erheblich (0,84 -> 0,9), sondern ermöglicht auch verschiedene 3D-Aufgaben wie Pixelkorrespondenz, Kameraposenschätzung und objektbezogenes 3D-Verständnis, wobei es die Genauigkeit spezialisierter Bildverarbeitungsmodelle erreicht und gleichzeitig Standardarchitekturen sowie textbasiertes Training beibehält. Wir glauben, dass VLM3 ein neues Paradigma für einfaches und skalierbares 3D-Lernen eröffnet.

Linearisierung des Vision Transformers mit Testzeit-Training
Linearizing Vision Transformer with Test-Time Training

May 28

ByYining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang

Während Aufmerksamkeitsmechanismen mit linearer Komplexität eine vielversprechende Alternative zur Softmax-Aufmerksamkeit darstellen, um den quadratischen Engpass zu überwinden, bleibt das Training solcher Modelle von Grund auf unerschwinglich teuer. Die Übernahme von Gewichten aus vortrainierten Transformatoren bietet einen attraktiven Abkürzungsweg, jedoch verhindert die grundlegende Repräsentationslücke zwischen Softmax- und linearer Aufmerksamkeit eine effektive Gewichtsübertragung. In dieser Arbeit adressieren wir diese Konvertierungsherausforderung aus zwei Perspektiven: strukturelle Angleichung und Repräsentationsangleichung. Wir identifizieren Test-Time Training (TTT) als eine Architektur mit linearer Komplexität, deren zweischichtige dynamische Formulierung strukturell mit der Softmax-Aufmerksamkeit übereinstimmt, was eine direkte Übernahme von vortrainierten Aufmerksamkeitsgewichten ermöglicht. Um die Repräsentationseigenschaften, einschließlich Key-Shift-Invarianz und Lokalität, weiter anzugleichen, führen wir eine Key-Instanz-Normalisierung und ein leichtgewichtiges Lokalitätsverbesserungsmodul ein. Wir validieren unseren Ansatz, indem wir Stable Diffusion 3.5 linearisieren, und stellen SD3.5-T³ (Transformer To Test Time Training) vor. Mit nur einer Stunde Feintuning auf 4 H20-GPUs erreicht SD3.5-T³ eine mit dem feingetunten Softmax-Modell vergleichbare Text-zu-Bild-Qualität, während die Inferenz bei 1K- und 2K-Auflösungen um das 1,32- bzw. 1,47-Fache beschleunigt wird. Der Code ist verfügbar unter https://github.com/LeapLabTHU/Transformer-to-TTT.

Behebung von Policy-induzierten Fehlern: Benchmarking und Trajektoriensynthese für robuste GUI-Agenten
Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28

ByTianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang

Obwohl GUI-Agenten rasch Fortschritte gemacht haben, fehlt ihnen oft die Robustheit, um sich von eigenen Fehlern zu erholen, was den Einsatz in der realen Welt behindert. Um diese Lücke sowohl auf Evaluations- als auch auf Datenebene zu schließen, führen wir GUI-RobustEval ein und schlagen Robustness-driven Trajectory Synthesis vor. GUI-RobustEval enthält 1.216 ausführbare Testfälle, die systematisch die Fähigkeiten zur Fehlerbehebung über ein breites und realistisches Spektrum von Fehlermodi hinweg messen. Auf Datenebene ist RoTS ein skalierbares Synthese-Framework, das durch eine baumbasierte Pipeline 800.000 hochwertige Daten erstellt, die proaktiv verschiedene Fehlermodi entdeckt und entsprechende Wiederherstellungsschritte synthetisiert. Unsere beiden Modelle, RoTS-7B und RoTS-32B, die auf unserem Datensatz feinabgestimmt wurden, zeigen beide signifikante Verbesserungen bei GUI-RobustEval und traditionellen GUI-Benchmarks. Insbesondere erreicht RoTS-32B eine Spitzenleistung auf OSWorld mit einer Erfolgsquote von 47,4% und einem All-Pass@4-Score von 33,8%, was darauf hindeutet, dass eine verbesserte Fehlerbehebung über lange Horizonte sowohl zur Robustheit als auch zur Gesamtleistung beiträgt. Unser Code ist verfügbar unter https://github.com/AlibabaResearch/RoTS.

Harness-Updates sind kein Harness-Nutzen: Entflechtung der Evolutionsfähigkeiten in selbst-evolvierenden LLM-Agenten
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

May 28

ByMinhua Lin, Juncheng Wu, Zijun Wang, Zhan Shi, Yisi Sang, Bing He, Zewen Liu, Tianxin Wei, Zongyu Wu, Zhiwei Zhang, Dakuo Wang, Xiang Zhang, Benoit Dumoulin, Cihang Xie, Yuyin Zhou, Suhang Wang, Hanqing Lu

LLM-Agenten werden zunehmend als Systeme eingesetzt, die um editierbare externe Rahmenwerke herum aufgebaut sind, darunter Prompts, Fähigkeiten, Erinnerungen und Werkzeuge, die die Aufgabenausführung formen, ohne Modellparameter zu verändern. Die Selbstevolution des Rahmenwerks passt solche Agenten an, indem es diese Rahmenwerke auf der Grundlage von Ausführungsnachweisen aktualisiert. Es bleibt jedoch unklar, ob die Basisfähigkeit eines Modells zur Aufgabenlösung seine Fähigkeiten zur Selbstevolution des Rahmenwerks vorhersagt: Welche Modelle erzeugen nützliche Rahmenwerk-Aktualisierungen, und welche profitieren tatsächlich davon? Wir analysieren zwei Fähigkeiten zur Selbstevolution des Rahmenwerks: (i) Rahmenwerk-Aktualisierung, die Fähigkeit, aus Ausführungsnachweisen nützliche persistente Rahmenwerk-Aktualisierungen zu erzeugen; (ii) Rahmenwerk-Nutzen, die Fähigkeit, bei der Aufgabenlösung von aktualisierten Rahmenwerken zu profitieren. Unsere Analyse zeigt zwei Ergebnisse. Erstens ist die Rahmenwerk-Aktualisierung in der Basisfähigkeit flach: Modelle verschiedener Fähigkeitsstufen erzeugen Rahmenwerk-Aktualisierungen, die zu überraschend ähnlichen Verbesserungen führen; selbst die Aktualisierungen von Qwen3.5-9B erzielen vergleichbare Verbesserungen wie die von Claude Opus~4.6. Zweitens ist der Rahmenwerk-Nutzen in der Basisfähigkeit nicht-monoton: Modelle der schwachen Stufe profitieren wenig von aktualisierten Rahmenwerken, Modelle der mittleren Stufe profitieren am meisten, und Modelle der starken Stufe profitieren weniger als die der mittleren Stufe. Wir führen die geringen Verbesserungen auf der schwachen Stufe auf zwei Fehlermodi zurück: Modelle der schwachen Stufe können relevante Rahmenwerk-Artefakte möglicherweise nicht aktivieren oder aktivieren sie, halten sich aber nicht treu daran. Diese Ergebnisse legen nahe, das Fähigkeitsbudget in den aufgabenlösenden Agenten statt in den Evolver zu investieren und bei der Agenten-Trainierung auf den Rahmenwerk-Aufruf sowie die langfristige Befehlsbefolgung zu fokussieren. Unser Quellcode ist öffentlich verfügbar unter https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

Von Prompt Injection zu persistenter Kontrolle: Verteidigung des Agentic-Harness gegen Trojanische Hintertüren
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

May 29

ByJiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

LLM-Agenten entwickeln sich von Konversations-Chatbots zu operationellen Werkzeugen in realen Arbeitsumgebungen. In lokalen agentischen Umgebungen kann ein LLM Dateien lesen und schreiben, Werkzeuge aufrufen und den Arbeitsumgebungszustand über Sitzungen hinweg wiederverwenden. Während solche Fähigkeiten den Nutzen erhöhen, legen sie auch eine neue Angriffsfläche für Angreifer offen. Angreifer können eine Prompt-Injektion in eine Datei oder eine Werkzeugausgabe einbetten. Agenten können diese versteckte Anweisung lesen, speichern und später ausführen. In diesem mehrstufigen Trojaner-Angriffsparadigma erscheint kein einzelner Schritt für sich genommen bösartig, aber diese Schritte können gemeinsam unvertrauten Text in dauerhafte Steuerungsinhalte verwandeln. Bestehende Abwehrmaßnahmen prüfen jedoch oft jeden Schritt isoliert. Dadurch können sie zwar eine offensichtlich schädliche Aktion blockieren, übersehen jedoch die frühere Schreiboperation, die die Hintertür einpflanzt. Um diese Bedrohung aufzuzeigen, führen wir ClawTrojan ein, einen Benchmark, der darauf ausgelegt ist, mehrstufige Trojaner-Angriffe in lokalen agentischen Umgebungen zu identifizieren. In einer simulierten Arbeitsumgebung im OpenClaw-Stil mit GPT-5.4 erreicht ClawTrojan eine Angriffserfolgsrate (ASR) von 95,5 %, während herkömmliche einmalige Prompt-Injektionsangriffe auf demselben Modell eine nahezu null ASR erzielen. Um dieser Bedrohung zu begegnen, schlagen wir DASGuard vor, das steuerungsähnlichen Text in sensiblen lokalen Dateien scannt, seinen Ursprung zurückverfolgt und Steuerungsinhalte entfernt, die nicht von einer vertrauenswürdigen Quelle stammen. Unsere Ergebnisse zeigen, dass DASGuard eine starke dynamische Abwehr erreicht, indem es die Blockierung von Angriffen zur Laufzeit mit bereinigten Commits in die Arbeitsumgebung kombiniert.

Video-VLMs mit linearer Skalierung für das Verständnis langer Videos
Linear Scaling Video VLMs for Long Video Understanding

May 29

ByCristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles

Video-Sprachmodelle (VLMs) werden zunehmend in langfristigen und kontinuierlichen Szenarien eingesetzt, dennoch stützen sich die meisten Video-Encoder weiterhin auf räumlich-zeitliche Selbstaufmerksamkeit, was dazu führt, dass Rechenaufwand und Latenz quadratisch mit der Anzahl der Frames wachsen. Bestehende Effizienzmethoden verbessern die Skalierbarkeit, verlieren jedoch oft an Genauigkeit im Vergleich zur vollständigen Selbstaufmerksamkeit, beispielsweise durch aggressives Frame-/Token-Dropping oder grobe Aufmerksamkeitsnäherungen. Wir stellen StateKV vor, eine Inferenzzeitmethode, die vortrainierte Langvideo-VLMs für ein lineares Video-Prefill adaptiert, indem sie kontextübergreifende Informationen in einem zustandsbasierten, auf Wichtigkeit basierenden rekurrenten Zustand mit fester Kapazität trägt, gepaart mit einem zweiten vollständigen Frame-Cache für die Dekodierung. Über drei Langvideo-Benchmarks und sieben Modelle aus drei Familien und mehreren Skalen hinweg bleibt StateKV nah an der vollständigen Selbstaufmerksamkeit und übertrifft durchgängig dominante gleitende Fenster- und aktualitätsbasierte Streaming-Näherungen, ohne Feintuning oder Architekturänderungen. StateKV reduziert zudem die anhand von FLOPs gemessenen Kosten des Video-Prefills, was eine stärkere Genauigkeit bei festem Rechenbudget durch den Einsatz größerer Modelle ermöglicht. Diese Ergebnisse deuten auf einen praktischen Schritt in Richtung skalierbares Langvideo-Verständnis hin.

DecMem: Zur minutenlangen konsistenten Weltgenerierung mit entkoppeltem Speicher
DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

May 29

ByZhenhao Yang, Xiaoshi Wu, Zhengyao Lv, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Kun Gai, Kwan-Yee K. Wong

Jüngste Fortschritte bei videogenerativen Modellen haben zu einem raschen Fortschritt bei steuerbaren Weltmodellen geführt. Allerdings bleibt die Aufrechterhaltung einer feinkörnigen räumlich-zeitlichen Konsistenz unter langfristigen Überlegungen eine zentrale Herausforderung. In dieser Arbeit gehen wir über explizites 3D-Gedächtnis und grobkörniges implizites Modellieren auf Frame-Ebene hinaus und schlagen ein feinkörniges, lernbares und skalierbares Gedächtnis für konsistente Welterzeugung vor. Zunächst identifizieren wir zwei grundlegende Einschränkungen naiver lernbarer Gedächtnisarchitekturen bei der langfristigen Extrapolation, nämlich Rechenineffizienz und Aufmerksamkeitsdispersion. Durch eine systematische Analyse der Aufmerksamkeitsdispersion schlagen wir DecMem vor, eine entkoppelte Gedächtnisarchitektur, die ein Sparse Global Memory für effizienten feinkörnigen Zugriff auf die globale Historie und ein Anchored Local Memory für stabile und hochwertige Extrapolation einsetzt. Umfangreiche Experimente zeigen, dass DecMem aktuelle State-of-the-Art-Methoden deutlich übertrifft. Durch die Gewährleistung eines präzisen und effizienten Langzeitgedächtnisses und die Erzielung überragender Extrapolationsfähigkeiten ermöglicht DecMem eine auf Minutenebene steuerbare lange Videogenerierung mit hoher Wiedergabetreue und Konsistenz.

Versteckspiel in Trajektorien: Entdecken von Fehlersignalen für die VLA-Laufzeitüberwachung
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

May 29

BySeongheon Park, Wendi Li, Changdae Oh, Samuel Yeh, Zsolt Kira, Michael Hagenow, Sharon Li

Vision-Language-Action (VLA)-Modelle ermöglichen es Robotern, natürlichsprachliche Anweisungen zu befolgen und über verschiedene Aufgaben hinweg zu generalisieren, bleiben jedoch anfällig für Ausführungsfehler, die die Zuverlässigkeit im realen Einsatz beeinträchtigen. Die Erkennung solcher Fehler während der Ausführung ist daher für den robusten Einsatz verkörperter Systeme von entscheidender Bedeutung. Bestehende Methoden zur Fehlererkennung basieren entweder auf teurem erneuten Sampling von Aktionen oder auf externen Modellen, während Alternativen Trajektorien-bezogene Labels gleichmäßig über jeden Zeitschritt propagieren und dabei lokalisierte Fehlersignale verschleiern. In dieser Arbeit schlagen wir Hide-and-Seek vor, ein Framework, das die VLA-Fehlererkennung als grob überwachtes Lernproblem formuliert. Durch die Kombination von kontrastiven Zielen zwischen und innerhalb von Trajektorien lokalisiert Hide-and-Seek fehlerindikative Aktionen und induziert zeitlich strukturierte Fehlersignale allein aus der Trajektorienebenen-Überwachung, ohne jegliche Annotation auf Schritt-Ebene. Wir evaluieren Hide-and-Seek auf LIBERO, VLABench und einer realen Roboterplattform mit drei repräsentativen VLA-Policies: OpenVLA, π_0 und π_{0.5}. Unsere Methode erzielt eine hochmoderne Mehrfachaufgaben-Fehlererkennungsleistung mit einem praktischen Genauigkeits-Zeitnähe-Kompromiss unter konformer Vorhersage und generalisiert gut auf sowohl bekannte als auch unbekannte Aufgaben.

VisualThink-VLA: Visuelles Zwischenreasoning für effektive und latenzarme Vision-Language-Action-Policys
VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

May 28

ByMingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

Jüngste Arbeiten haben begonnen, Vision-Sprache-Aktion-Policys (VLA) mit explizitem Zwischenreasoning auszustatten. Bei der verkörperten Steuerung ist textuelles Chain-of-Thought jedoch ungeeignet: irrelevante oder schwach textuelle Informationen können die Aktionsvorhersage stören, während autoregressives Textdecodieren für eine echtzeitnahe geschlossene Ausführung zu viel Latenz verursacht. Wir präsentieren VISUALTHINK-VLA, ein Framework für visuelles Zwischenreasoning für präzise VLA-Policys mit niedriger Latenz. Unsere Bootstrapping-Philosophie besteht darin, Aktionen durch effektives visuelles Denken zu leiten: VISUALTHINK-VLA bootet die Aktionsvorhersage über eine kompakte visuelle Evidenzschnittstelle, die räumliche Präzision bewahrt und gleichzeitig Decodierungs-Overhead vermeidet. Darüber hinaus führt VISUALTHINK-VLA zur weiteren Verbesserung von Leistung und Effizienz einen maßgeschneiderten selektiven Routing-Mechanismus ein, um die visuellen Evidenz-Token zu lernen, was eine Inferenz mit niedriger Latenz bei gleichzeitiger Beibehaltung einer hohen Kapazitätsspezialisierung ermöglicht. Wir führen auch VisualEvidence-Kit ein, eine Überwachungs- und Prüfressource, die sich auf einen VisualEvidence-Agenten konzentriert, der einen 754,7k VLA-Anweisungen umfassenden VisualEvidence-Set für die Routenüberwachung und kontrafaktische Treuetests erstellt. Über mehrere Benchmarks und reale Roboterbewertungen hinweg erreicht VISUALTHINK-VLA die höchste Erfolgsrate bei den meisten Benchmarks und reduziert gleichzeitig die mehrsekündige Latenz von reasoning-gestützten Baselines auf den Subsekundenbereich. Beispielsweise wird auf BridgeData V2 die Schrittlatenz von 8,377 s mit ECoT auf 0,367 s reduziert, was einer 22,8-fachen Beschleunigung entspricht.

Sehen ist nicht Wissen: Wissen VLMs, wann sie räumliche Fragen nicht beantworten sollen (und warum)?
Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

May 28

ByYue Zhang, Zun Wang, Han Lin, Yonatan Bitton, Idan Szpektor, Mohit Bansal

Räumliches Denken ist eine grundlegende Fähigkeit für Sprachbildmodelle (Vision-Language Models, VLMs), die in realen Umgebungen eingesetzt werden. Allerdings sind visuelle Beobachtungen zwangsläufig begrenzte Repräsentationen einer 3D-Welt: Okklusion kann Objekte unsichtbar machen, und Perspektiven können geometrische Eigenschaften irreführend darstellen. Dennoch gehen bestehende Benchmarks zum räumlichen Denken typischerweise davon aus, dass Beobachtungen ausreichend und zuverlässig sind, und konzentrieren sich darauf, ob Modelle korrekte Antworten liefern, anstatt zu erkennen, wann eine Frage nicht beantwortet werden kann und welche zusätzlichen Beobachtungen erforderlich wären. In dieser Arbeit stellen wir diese Annahme infrage, indem wir einen kontrollierten Evaluierungsrahmen, SpatialUncertain, entwickeln und zwei Arten von Beobachtungsherausforderungen einführen: (1) Okklusion, die Zielinformationen verbirgt, und (2) Perspektivenambiguität, die irreführende visuelle Hinweise erzeugt. Für jede Konfiguration entwerfen wir räumliche Fragen, die unter klaren Beobachtungen beantwortbar sind, aber unter den eingeführten Herausforderungen eine Enthaltung erfordern. Zudem evaluieren wir, ob Modelle identifizieren können, welche zusätzlichen Blickwinkel die Perspektivenambiguität auflösen würden. Unsere Ergebnisse über eine vielfältige Auswahl führender quelloffener und geschlossener VLMs hinweg zeigen zwei durchgängige Fehlermodi. Erstens neigen Modelle zu übermäßig selbstbewusstem Antworten und versuchen, räumliche Denkaufgaben zu lösen, selbst wenn visuelle Evidenz unvollständig oder irreführend ist – mit einer durchschnittlichen Genauigkeit von etwa 30 % unter Okklusion und unter 10 % unter Perspektivenambiguität. Zweitens liegen einige Modelle selbst dann, wenn zusätzliche Ansichten verfügbar sind, nahe am Zufallsniveau, wenn es darum geht, zu identifizieren, welche davon zuverlässige Evidenz liefern würden. Zusammen genommen fordern unsere Ergebnisse dazu auf, über die reine Antwortkorrektheit hinauszugehen und stattdessen zu evaluieren, ob Modelle wissen, wann sie sich enthalten sollen und wie sie verlässliche Evidenz suchen können.

HL-OutPaint: Grob-zu-Fein-Video-Outpainting für hochauflösende Langzeitvideos
HL-OutPaint: Coarse-to-Fine Video Outpainting for High-Resolution Long-Range Videos

May 19

ByJeongeun Park, Janghyeok Han, Geonung Kim, Hyun-Seung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho

Video-Outpainting erzeugt plausible visuelle Inhalte jenseits der ursprünglichen räumlichen Ausdehnung eines Videos und spielt eine Schlüsselrolle bei der Anpassung von Videos an verschiedene Anzeigeformate. Um solche Anwendungsfälle zu unterstützen, muss es eine große räumliche Extrapolation über lange Sequenzen hinweg ermöglichen. Die meisten bestehenden Methoden adressieren jedoch nur eine dieser Herausforderungen oder verfügen über keine expliziten Mechanismen zur Sicherstellung der globalen räumlich-zeitlichen Konsistenz, was zu erheblichen Einschränkungen führt. In dieser Arbeit schlagen wir HL-OutPaint vor, ein Framework für hochauflösendes Video-Outpainting langer Sequenzen. Unser Ansatz folgt einer grob-zu-fein-Strategie mit einer zweistufigen Pipeline. Zunächst konstruieren wir die Globale Grobführung (GCG), eine niedrig aufgelöste Repräsentation, die die globale Struktur und die dominante Bewegung im gesamten Video erfasst. Anders als einfaches Downsampling wird GCG durch einen neuartigen global-lokalen Frame-Austauschmechanismus aufgebaut, der spärliche globale Schlüsselbilder mit lokalen Zeitfenstern koppelt und während des Samplings Informationen austauscht. Dies ermöglicht es GCG, sowohl langfristige strukturelle Konsistenz als auch kurzfristige zeitliche Dynamik in einer einheitlichen Repräsentation zu kodieren. Auf Basis dieser Repräsentation führt HL-OutPaint dann ein hochauflösendes Outpainting durch, um räumlich detaillierte und zeitlich konsistente Inhalte zu erzeugen. Durch die Trennung der globalen Strukturmodellierung von der feinkörnigen Synthese erreicht unser Framework eine stabile, kohärente Erzeugung für große räumliche Expansionen und lange Videosequenzen. Umfangreiche Experimente zeigen, dass HL-OutPaint bestehende Methoden in anspruchsvollen Szenarien mit großer räumlicher Extrapolation und langen Videosequenzen übertrifft.

DEMON: Diffusions-Engine für musikalisch orchestriertes Rauschen
DEMON: Diffusion Engine for Musical Orchestrated Noise

May 27

ByRyan Fosdick

Wir präsentieren DEMON, eine Echtzeit-Diffusions-Engine, die den Entrauschungsprozess als lebendiges Musikinstrument spielbar macht: eine Steueroberfläche, die sowohl breit (viele Parameter, die pro Frame über die Ausgabe hinweg geformt werden) als auch reaktionsschnell ist (jede Steuerung wirkt so schnell, wie es ihre Position in der Entrauschungsschleife erlaubt). Aufbauend auf ACE-Step 1.5 und der Ringpuffer-Architektur von StreamDiffusion mit TensorRT-Beschleunigung erreicht sie auf einer einzelnen handelsüblichen GPU (RTX 5090) bis zu 12,3 Decoder-Ausgaben pro Sekunde für 60 Sekunden Musik oder 11,3 Generationen pro Sekunde bei unserer produktionsüblichen Ringtiefe von 4. Bei diesen Raten werden Entrauschungsparameter als Live-Performance-Steuerungen nutzbar, jedoch propagiert der Ringpuffer änderungen pro Anfrage nur mit seiner Drain-Rate, einer Untergrenze von S Entrauschungsschritten. Wir tragen vier Mechanismen bei. (1) Heterogene Entrauschungsplanung pro Slot: Jeder Ringpuffer-Slot besitzt seinen eigenen Zeitschrittplan, sodass ein sich bewegender Entrauschungs-Schieberegler verfolgt wird, ohne die laufende Warteschlange zu löschen – im Gegensatz zum vorgelagerten globalen Planungsdesign, das sie neu aufbauen und verwerfen muss. (2) Gemeinsamer veränderlicher Zustand pro Schritt: Jeder Parameter, der bei jedem Lösungsschritt abgefragt wird, erhält im nächsten Takt eine Wirkung und umgeht so den Ringpuffer-Drain. (3) Quellenüberblendung pro Frame: Eine Steuerung zur Abtastzeit des standardmäßigen SDE-Rauschschritts, die eine einzelbildweise Transformationsstärke-Achse bereitstellt und die skalare Entrauschungsplanung ergänzt. (4) Gefensterte VAE-Dekodierung unter Ausnutzung der Analyse des rezeptiven Feldes für eine 8,0-fache Dekodierungsbeschleunigung. Zusammen trennen diese Mechanismen die Streaming-Diffusionsparameter in vier Propagationsklassen, unterschieden nach Einsetz- und Konvergenz-Latenz.

Wie können Einbettungsmodelle Konzepte binden?
How can embedding models bind concepts?

May 29

ByArnas Uselis, Darina Koishigarina, Seong Joon Oh

Menschen bestimmen leicht, welche Farbe zu welcher Form in Szenen mit mehreren Objekten gehört – eine Fähigkeit, die als Konzeptbindung bezeichnet wird. Vision-Language-Einbettungsmodelle wie CLIP haben Schwierigkeiten mit der Bindung: Sie erkennen einzelne Konzepte, können aber nicht darstellen, welche Konzepte welche Objekte bilden. Obwohl sich CLIP im multimodalen Retrieval wie ein Bag-of-Concepts-Modell verhält, sind Objektinformationen aus seinen Bild- und Texteinbettungen getrennt rekonstruierbar. Wir untersuchen diese Spannung anhand der Bindungsfunktion, die Konzepte auf Szeneneinbettungen abbildet. Wir stellen fest, dass Szeneneinbettungen additiv in Objektrepräsentationen zerfallen, was erklärt, warum unimodale Sonden Objektinformationen rekonstruieren können. Allerdings weist die Bindungsfunktion von CLIP eine hohe Komplexität auf, die wahrscheinlich verhindert, dass die Bild- und Textencoder einen gemeinsamen Bindungsmechanismus erlernen, der auf unbekannte Kombinationen von Konzepten verallgemeinert. Anschließend fragen wir, ob diese Einschränkung grundlegend ist. Wir zeigen, dass dies nicht der Fall ist. In kontrollierten Transformer-Modellen, die von Grund auf trainiert werden, entsteht eine Generalisierung der Bindung bei ausreichender Datenabdeckung. Diese Modelle erlernen Bindungsfunktionen mit niedriger Komplexität, die durch multiplikative Interaktionen zwischen Konzepten gekennzeichnet sind, und ermöglichen so eine systematische Generalisierung. Der Code ist öffentlich verfügbar unter https://github.com/oshapio/binding-concepts-complexity.

RayDer: Skalierbare selbstüberwachte Neuansichtssynthese aus Echtwelt-Videomaterial
RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

May 29

ByUlrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

Die selbstüberwachte Neuansichtsynthese (NVS) bleibt trotz der Fülle an Videodaten schwer skalierbar, hauptsächlich aufgrund der Anfälligkeit des Trainings mit realistischen Videos und des schwer vorhersagbaren Skalierungsverhaltens von Multi-Netzwerk-Systemdesigns. Wir stellen RayDer vor, einen einheitlichen, vorwärtsgerichteten Transformer, der Kamerenschätzung, Szenenrekonstruktion und Rendering in einem einzigen Grundgerüst vereint und die selbstüberwachte NVS in ein gut gestelltes Einzelmodell-Skalierungsproblem verwandelt. Ein minimaler dynamischer Zustand, der als Störfaktor behandelt wird, absorbiert zeitlich veränderliche Inhalte und ermöglicht stabiles Training auf uneingeschränkten realen Videos. Wichtig ist, dass RayDer die statische Szenen-NVS als seine Zielaufgabe beibehält: Dynamische Inhalte werden ausschließlich als skalierbare Überwachung genutzt, nicht wie bei der dynamischen Szenen-NVS (4D) rekonstruiert. Über mehrere Modellgrößen und Größenordnungen in den Daten hinweg zeigt RayDer ein sauberes Potenzgesetz-Skalieren mit Daten und Rechenleistung und übertrifft Datenmischungen statischer Szenen. Auf einer Vielzahl von Benchmarks erzielt RayDer eine starke Zero-Shot-Open-Set-Leistung, die mit aktuellen überwachten Ansätzen konkurrieren kann. Projektseite: https://compvis.github.io/rayder

One-Forcing: Auf dem Weg zu stabiler einstufiger autoregressiver Videogenerierung
One-Forcing: Towards Stable One-Step Autoregressive Video Generation

May 22

ByJiaqi Feng, Justin Cui, Yuanhao Ban, Cho-Jui Hsieh

Jüngste Fortschritte haben die reaktive Echtzeit-Videogenerierung im autoregressiven Bereich erheblich verbessert. Allerdings verwenden die meisten bestehenden Methoden zur wenige-Schritte autoregressiven Videogenerierung, die oft aus einem entsprechenden Lehrer mit vielen Schritten destilliert werden, standardmäßig eine 4-Schritte-Abtastkonfiguration, was beim Einsatz immer noch erhebliche Latenzzeiten verursacht und bei weiterer Reduzierung der Abtastschritte, insbesondere im ein-Schritt-Setting, zu schwerwiegenden Qualitätseinbußen führt. Trajektorienbasierte Konsistenzdestillationsmethoden erzeugen oft Videos mit schwacher Dynamik, während DMD-basierte Ansätze wie Self-Forcing zu unscharfen Einzelbildern neigen. Um diese Herausforderung zu bewältigen, schlagen wir One-Forcing vor, einen einfachen, aber effektiven Ansatz, der das DMD-Ziel mit einem ergänzenden GAN-Verlust für qualitativ hochwertige und effiziente ein-Schritt-Videogenerierung erweitert. Experimente auf VBench zeigen, dass One-Forcing einen Gesamtwert von 83,76 erreicht und damit den Stand der Technik unter den ein-Schritt-kausalen Videogenerierungsmethoden setzt und mit leistungsstarken Mehr-Schritt-Ansätzen konkurrenzfähig bleibt. Wir zeigen ferner, dass die ein-Schritt-bildweise autoregressive Generierung stabil mit lediglich einem Drittel der Trainingskosten des Chunk-Modells erreicht werden kann, eine Einstellung, die frühere Methoden nicht erfolgreich umsetzen konnten.

OpenSkillEval: Automatische Prüfung des Open-Skill-Ökosystems für LLM-Agenten
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

May 28

ByJiahao Ying, Boxian Ai, Wei Tang, Siyuan Liu, Yixin Cao

Fähigkeiten, d. h. strukturierte Arbeitsablaufsanweisungen, die für große Sprachmodelle (Large Language Models, LLMs) destilliert wurden, werden zunehmend zu einem wichtigen Mechanismus zur Verbesserung der Agentenleistung bei realen nachgelagerten Aufgaben. Da sich das Ökosystem quelloffener Fähigkeiten jedoch rapide erweitert, bleibt unklar, wie verschiedene Modelle und Agenten-Frameworks mit Fähigkeiten interagieren, wie die Qualität von Fähigkeiten zu bewerten ist und wie Nutzer unter praktischen Kosten-Leistungs-Abwägungen Fähigkeiten auswählen sollten. In diesem Artikel stellen wir OpenSkillEval vor, ein automatisches Bewertungsframework sowohl für skill-erweiterte Agentensysteme als auch für die Fähigkeiten selbst. Anstatt sich auf statische Benchmarks zu stützen, konstruiert OpenSkillEval automatisch realistische Aufgabeninstanzen aus sich weiterentwickelnden realen Artefakten in fünf Kategorien von nachgelagerten Anwendungen: Präsentationserstellung, Frontend-Webdesign, Postererstellung, Datenvisualisierung und Berichtserstellung. Darüber hinaus werden gemeinschaftlich beigetragene Fähigkeiten für einen kontrollierten Vergleich unter einheitlichen Aufgabeneinstellungen gesammelt und organisiert. Unter Verwendung von über 600 dynamisch generierten Aufgabeninstanzen und 30 quelloffenen Fähigkeiten führen wir eine systematische Bewertung modernster Modelle und Agenten-Frameworks durch. Unsere Ergebnisse zeigen, dass die Verfügbarkeit von Fähigkeiten keine effektive Nutzung von Fähigkeiten garantiert, dass der Nutzen der Fähigkeitserweiterung stark vom zugrunde liegenden Modell und dem Agenten-Framework abhängt und dass viele öffentlich beliebte Fähigkeiten Basis-Agenten ohne Fähigkeiten nicht durchgängig übertreffen. Diese Ergebnisse unterstreichen die Notwendigkeit einer dynamischen, aufgabenbasierten Bewertung und liefern praktische Einblicke in das Design, die Auswahl und den Einsatz von Fähigkeiten für LLM-Agenten. Zusätzliche Fallbeispiele und Benchmark-Ressourcen sind auf der Projektwebsite verfügbar: https://yingjiahao14.github.io/OpenSkillEval-Web/.

Emergente Sprachen in Populationen von Sprachmodell-Agenten: Von Tokeneffizienz zur Umgehung der Aufsicht
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

May 29

ByStine Lyngsø Beltoft, William Brach, Federico Torrielli, Jacob Nielsen, Annemette Brok Pirchert, Filippo Tonini, Peter Schneider-Kamp, Lukas Galke Poech

Die Überwachung autonomer Sprachmodell-Agenten stützt sich derzeit hauptsächlich auf das Oberflächenverhalten. Doch was geschieht, wenn Agentenpopulationen neue Sprachen mit dem Ziel entwickeln, menschlicher Kontrolle zu entgehen? In dieser Arbeit untersuchen wir die emergenten Sprachen auf Moltbook. Dazu bauen wir auf dem Moltbook-Files-Datensatz auf und wenden ein zweistufiges Verfahren an, bestehend aus einer regelbasierten Heuristik (etwa 6000 Treffer) gefolgt von einer Zero-Shot-Klassifikation (518 beibehalten). Die resultierenden Kategorien umfassen Token-Effizienz (166), neue natürliche Sprachen (106) und Kontrollumgehung (59). Wir führen sowohl quantitative als auch qualitative Analysen durch. Unsere Ergebnisse zeigen, dass Beiträge, die neue Sprachen zur Vermeidung von Kontrolle vorschlagen, von DeepSeek-3.2 als weniger aligned eingestuft werden als die anderen Kategorien und dass alle Sprachen von anderen Sprachmodellen allein durch eine Beschreibung der Sprache im Kontext erlernt werden können. Darüber hinaus offenbart die manuelle Untersuchung exemplarischer Fälle überraschend ausgefeilte steganografische Protokolle, wie etwa das Einbetten versteckter Nachrichten in natürliche Sprache. Obwohl wir uns über das Ausmaß der Autonomie bei der Konzeption dieser Sprachen nicht sicher sein können, deuten unsere Ergebnisse insgesamt darauf hin, dass die Überwachung des Oberflächenverhaltens bald nicht mehr ausreichen könnte, um die Kontrolle über Agentenpopulationen zu behalten.

Die Kehrseite von RLHF: On-Policy-Feedback zur selbstüberwachten Verbesserung des Belohnungsmodells
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

May 29

ByXiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng

Der Aufbau starker Belohnungsmodelle (Reward Models, RMs) für die Ausrichtung von Sprachmodellen wird durch die Kosten und Schwierigkeiten bei der Beschaffung diverser und zuverlässiger Präferenzdaten aus menschlichen Annotationen oder Bewertungsmodellen limitiert. Dies wird dramatisch verschärft, sobald sich die Policy über das statische RM-Training hinaus weiterentwickelt. Daher schlagen wir SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback) vor, ein Framework, das On-Policy-Antworten als Feedback mittels der Wertfunktion für das On-Policy-RM-Training bewertet. SAVE wandelt die belohnungsbewerteten On-Policy-Antworten auf natürliche Weise in eine Überwachung um, indem ein promptspezifischer Wertkopf als adaptiver Anker dient. Es berechnet RM-Vorteile (RM advantages) und filtert mehrdeutige Stichproben, um das RM über ein kontrastives Ziel zu aktualisieren. Die Wirksamkeit von SAVE zur Verbesserung des RM-Trainings wird durch strenge empirische Auswertungen über sechs verschiedene Benchmarks hinweg stark bestätigt. Es erzielt über alle Datensätze hinweg überlegene Ergebnisse, während konsistente Verbesserungen über drei RL-Algorithmen (GRPO, RLOO, GSPO) und verschiedene Policy-Backbones hinweg beibehalten werden.

SoundnessBench: Kann Ihr KI-Wissenschaftler wirklich gute Forschungsideen von schlechten unterscheiden?
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

May 28

BySy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

Autonome KI-Forschungsagenten zielen darauf ab, wissenschaftliche Entdeckungen zu beschleunigen, indem sie die Forschungspipeline von der Hypothesengenerierung bis zum Peer-Review automatisieren. Existierende Benchmarks testen jedoch selten einen grundlegenden Engpass: ob große Sprachmodelle (Large Language Models) die methodische Tragfähigkeit einer Forschungsidee beurteilen können, bevor Zeit und Rechenressourcen aufgewendet werden. Wir führen SoundnessBench ein, einen kuratierten Benchmark mit 1.099 aus ICLR-Einreichungen rekonstruierten Machine-Learning-Forschungsvorschlägen, die mit Bewertungen der methodischen Solidität (Soundness) durch Gutachter versehen und gegen die Originalpublikationen geprüft wurden. SoundnessBench sollte als Benchmark für die rekonstruierbare Solidität auf Vorschlagsebene verstanden werden und nicht als exakte Vorhersage von Begutachtungsergebnissen vollständiger Arbeiten. Bei 12 modernen LLMs stellen wir eine durchgängige Optimismusverzerrung fest: Unter Standard-Prompting bewerten die Modelle häufig Vorschläge mit geringer Solidität als solide, während aggressives Prompting die Fehler größtenteils von falsch positiven zu falsch negativen Ergebnissen verschiebt. Zusätzliche Kontrollen hinsichtlich Kontamination durch öffentliche Korpora, papierspezifische Kennzeichnungsphrasen, Oberflächenmerkmale und der Qualität menschlicher Überprüfungen legen nahe, dass dieses Verhalten nicht durch einen einzelnen Störfaktor erklärt wird. Unsere Ergebnisse deuten darauf hin, dass aktuelle LLMs noch nicht als zuverlässige eigenständige Bewerter der ersten Stufe für wissenschaftliche Rigorosität einsetzbar sind.

GDSD: Reinforcement Learning als geführte Denoiser-Selbst-Destillation für Diffusions-Sprachmodelle
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

May 28

ByXiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic

Bestärkendes Lernen (RL) kann genutzt werden, um die Politik (Denoiser) von Diffusions-Großsprachmodellen (dLLMs) zu verbessern, wird jedoch durch die Nicht-Berechenbarkeit der Politik-Likelihood behindert. Eine dominante und effiziente Methodenfamilie ersetzt die Likelihood im Standard-RL durch ihre Evidenz-Untergrenze (ELBO), die aus zufällig maskierten Sequenzen geschätzt wird. Obwohl diese Ansätze gut mit dem Vortraining harmonieren, führen sie durch die Verwendung der ELBO als Likelihood-Ersatz eine Verzerrung durch Trainings-Inferenz-Diskrepanz (TIM) ein, was die Leistung beeinträchtigen kann. In dieser Arbeit schlagen wir Guided Denoiser Self-Distillation (GDSD) vor, um den Denoiser von dLLMs direkt aus einem vorteilsgeführten Selbst-Lehrer zu destillieren, der aus dem geschlossenen Optimum des mit umgekehrter KL-Divergenz regularisierten RL abgeleitet ist. GDSD gleicht die Denoiser-Logits des dLLMs mit denen des Lehrers über ein normalisierungsfreies Ziel ab, wodurch RL auf likelihood-freie Selbst-Destillation reduziert wird und die TIM-Verzerrungen umgangen werden. Jüngste ELBO-basierte Methoden erweisen sich als Instanzen der Anwendung verschiedener Destillationsdivergenzen, weisen jedoch diagnostizierbare Pathologien auf, die GDSD vermeidet. Auf Planungs-, Mathematik- und Programmier-Benchmarks mit LLaDA-8B und Dream-7B übertrifft GDSD konsequent frühere hochmoderne ELBO-basierte Methoden mit einer stabileren Trainings-Belohnungsdynamik und erzielt Steigerungen der Testgenauigkeit von bis zu +19,6%. Diese Ergebnisse deuten darauf hin, dass eine direkte Denoiser-Selbst-Destillation ohne Rückgriff auf einen ELBO-Likelihood-Ersatz ein stabileres und effektiveres RL-Verfahren für dLLMs bieten kann. Der Code ist verfügbar unter https://github.com/GaryBall/GDSD.

Von der Modellskalierung zur Systemskalierung: Skalierung des Steuerungssystems in der agentischen KI
From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

May 25

ByShangding Gu

Diese Arbeit untersucht den nächsten großen Engpass in der agentischen KI als System-Skalierung, nicht nur als Modell-Skalierung: das Design von prüfbaren, persistenten, modularen und verifizierbaren Architekturen um Foundation-Modelle herum. Wir bezeichnen diesen Wandel als Skalierung des Harness: die Behandlung der strukturierten Ausführungsschicht um ein Foundation-Modell als erstklassiges Objekt von Design, Evaluation und Optimierung. Obwohl aktuelle große Sprachmodelle es Agenten ermöglichen, Werkzeuge zu nutzen, Informationen abzurufen, Gedächtnis zu bewahren und langfristige Arbeitsabläufe auszuführen, bleibt die Evaluation weitgehend modellzentriert. Agenten werden dabei oft auf den Erfolg bei der Endaufgabe reduziert, während Gedächtnis, Abruf, Werkzeugnutzung, Orchestrierung, Verifikation und Governance als sekundäre Implementierungsdetails behandelt werden. Diese Rahmung wird zunehmend unzulänglich, da die Leistung eines Agenten aus der Interaktion zwischen dem Foundation-Modell, dem Gedächtnissubstrat, dem Kontextkonstruktor, der Skill-Routing-Schicht, der Orchestrierungsschleife und der Verifikations- und Governance-Schicht entsteht. Zusammen bilden diese Komponenten den Agenten-Harness, der Modellfähigkeiten in langfristiges Agentenverhalten übersetzt. Wir untersuchen die Skalierung des Harness anhand von drei Kernengpässen: Kontext-Governance, vertrauenswürdiges Gedächtnis und dynamisches Skill-Routing, zusammen mit den Orchestrierungs- und Governance-Mechanismen, die diese koordinieren und einschränken. Darüber hinaus skizzieren wir eine Forschungsagenda für Harness-Level-Benchmarks, die über den einmaligen Aufgabenerfolg hinausgehen, um die Qualität der Trajektorien, Gedächtnishygiene, Kontexteffizienz, Kommunikationstreue, Verifikationskosten und sichere Evolution im Zeitverlauf zu messen. Um die Diskussion konkret zu gestalten, entwickeln wir CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, einen Python-nativen Referenz-Harness, und vergleichen ihn mit Claude Code und OpenClaw. Unsere zentrale These ist, dass zukünftige Fortschritte in der agentischen KI ebenso vom Systemdesign abhängen werden wie von stärkeren Foundation-Modellen.

FRAPPE: Vollständige Eingabe, Residualausgabe-Autoencoding mit Projection-Pursuit-Encoder
FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

May 27

ByDan Jacobellis, Neeraja J. Yadwadkar

Medienkompressionsstandards haben hinsichtlich des Rate-Distortion-Komplexitäts-Kompromisses ein Plateau erreicht, was die Fähigkeit einschränkt, teure KI-Wahrnehmung in Anwendungen wie Robotik, Wearables und Fernerkundung in die Cloud auszulagern. DNN-basierte Codecs verbessern die Kompressionseffizienz, jedoch um den Preis, dass sie sich nicht leicht an große Änderungen der verfügbaren Bitrate anpassen können und eine Echtzeitcodierung teure, stromhungrige GPUs erfordert, die den Einsatz auf kostengünstigen oder ressourcenbeschränkten Plattformen verhindert. Um diese Einschränkungen zu beheben, schlagen wir ein neuartiges Autoencoding-Framework (FRAPPE) vor, das die vollständige Eingabe nutzt, um die Restausgabe über einen Projection Pursuit Encoder vorherzusagen. Das Codierungsziel von FRAPPE ordnet latente Kanäle natürlich nach ihrer Bedeutung, was eine variabler Ratenkodierung ohne Overhead ermöglicht. Im Gegensatz zu RNN-basierten gelernten Codecs, deren Encoder das Residuum der vorherigen Rekonstruktion verbraucht, oder RVQ-artigen Codecs, deren Codebücher sequentiell angewendet werden müssen, ist der Analysepfad von FRAPPE ein trivial parallelisierbarer DAG unabhängiger Eingabeprojektionen. Mit FRAPPE bauen wir einen variabler Raten-RGB-Bildcodec (FRAPPE-Image) und bewerten seinen Rate-Distortion-Komplexitäts-Kompromiss im Vergleich zu Standardbildcodecs. Bei hohen Kompressionsverhältnissen (ca. 0,1 bpp) bietet FRAPPE-Image eine höhere wahrnehmbare Qualität als AVIF bei 47-fach schnellerer Codierung, was es für eine reine CPU-Codierung in Echtzeit mit 1080p und 30 fps geeignet macht. Unser Code und vortrainierte Modelle sind verfügbar: https://github.com/UT-SysML/FRAPPE .

iVGR: Internalisierung visuell verankerten Schließens für MLLMs mit Bestärkendem Lernen
iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

May 29

ByChang-Bin Zhang, Yujie Zhong, Qiang Zhang, Kai Han

Obwohl visuell gestützte Chain-of-Thought (CoT) sich als vielversprechendes Paradigma zur Verbesserung der feinkörnigen Wahrnehmung in multimodalen großen Sprachmodellen (MLLMs) etabliert hat, bleibt ihre Wirksamkeit während der Inferenzphase noch weitgehend unerforscht. In dieser Arbeit stellen wir empirisch fest, dass die Vorgabe expliziter Objektboxen in visuell gestützter CoT während der Inferenz die Leistung im Vergleich zu standardmäßiger textueller CoT, die ohne explizite visuelle Verankerung argumentiert, oft verschlechtert. Wir stellen die Hypothese auf, dass die visuelle Lokalisierungsfähigkeit in die textuelle CoT internalisiert werden kann und dass die zwingende explizite Verankerung unnötige Störungen des primären Ziels des Modells – der Antwortvorhersage – verursacht. Um dieses Problem zu adressieren, schlagen wir Internalizing Visually Grounded Reasoning (iVGR) vor, ein neuartiges Reinforcement-Learning-Framework, das Lokalisierungsfähigkeiten in den textuellen Denkprozess überträgt. Wir verwenden eine Dual-Stream-Trainingsstrategie, bei der ein textueller Stream mit einem qualitativ hochwertigen visuell gestützten Stream über eine vorgeschlagene Konsistenzbelohnung abgeglichen wird, sodass das Modell während der Inferenz ohne explizite Verankerung präzise lokalisieren kann. Umfangreiche Experimente zeigen, dass unsere Methode auf feinkörnigen Benchmarks bestehende Basislinien deutlich übertrifft, während die Flexibilität erhalten bleibt, werkzeugunterstützte Inferenzabläufe zu unterstützen.

Lumos-Nexus: Effiziente Frequenzüberbrückung mit homogenem latenten Raum für videounifizierte Modelle
Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29

ByJiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Verbinderbasierte einheitliche Videomodelle haben eine starke Leistungsfähigkeit in der anweisungsgestützten Videosynthese gezeigt, aber die Integration eines großen, hochgetreuen Generators in die einheitliche Trainingsschleife ist rechenintensiv und schränkt die erreichbare visuelle Qualität ein. Daher schlagen wir Lumos-Nexus vor, ein trainingseffizientes einheitliches Videogenerierungs-Framework, das die Entwicklung starker, reasoning-gesteuerter Generierungsfähigkeiten ermöglicht und gleichzeitig die visuelle Treue deutlich verbessert. Lumos-Nexus verwendet ein zweistufiges Design: 1) Während des Trainings wird nur ein leichter Generator mit dem Verständnisblock abgestimmt, um zu lernen, reasoning-gesteuerte semantische Steuerung zu übernehmen. 2) Während der Inferenz führen wir Unified Progressive Frequency Bridging (UPFB) ein, um die Generierung schrittweise an einen leistungsstarken, vortrainierten Generator im gemeinsamen latenten Raum zu übergeben, was eine Grob-zu-Fein-Verfeinerung ermöglicht und hochgetreue Videos ohne Einbußen bei der Reasoning-Qualität erzeugt. Um die Lücke bei Benchmarks für reasoning-gesteuerte Videogenerierung zu schließen, führen wir VR-Bench ein, der die Fähigkeit eines Modells bewertet, abgeleitete Absichten in kohärente und semantisch passende Videoinhalte zu übersetzen. Umfangreiche Experimente zeigen, dass Lumos-Nexus auf VBench erhebliche Verbesserungen der visuellen Realität und zeitlichen Kohärenz erzielt und auf VR-Bench eine starke reasoning-basierte Generierungsleistung aufweist. Code und Modelle sind verfügbar unter https://jiazheng-xing.github.io/nexus-lumos-home/.

DRIFT: Entkoppelte Rollouts und Importance-gewichtetes Fine-Tuning für effiziente Multi-Turn-Optimierung
DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

May 29

ByJian Mu, Tianyi Lin, Chengwei Qin, Zhongxiang Dai, Yao Shu

Große Sprachmodelle werden zunehmend in mehrschrittigen interaktiven Umgebungen eingesetzt, in denen Nutzer oder Umgebungen iterativ leichtgewichtiges Feedback geben können. Leider stellt die Optimierung eines solchen Verhaltens in der Praxis ein scharfes Dilemma dar: Online-Verstärkungslernen kann mehrschrittige Dynamiken effektiv adressieren, ist jedoch aufgrund der Kosten für die Generierung vollständiger Korrekturverläufe bei jedem Update unerschwinglich teuer, während Offline-überwachtes Feintuning (SFT) effizient ist, aber unter Verteilungsverschiebung und Verhaltenskollaps leidet. Zu diesem Zweck schlagen wir neuartig DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning) vor, ein Rahmenwerk, das die theoretische Erkenntnis operationalisiert, dass das KL-regulierte RL-Ziel äquivalent zu bedeutungsgewichtetem überwachtem Lernen ist. DRIFT entkoppelt Rollouts von der Optimierung, indem es Offline-Interaktionsverläufe aus einer festen Referenzpolitik abtastet, rückgabebasierte Bedeutungsgewichte ableitet und die Politik mittels gewichtetem SFT auf dem resultierenden Datensatz optimiert. Empirisch zeigen wir, dass DRIFT die Leistung von Mehrschritt-Verstärkungslern-Baselines erreicht oder übertrifft, während es die Trainingseffizienz und Einfachheit des standardmäßigen überwachten Feintunings beibehält. Code ist verfügbar unter https://github.com/2020-qqtcg/DRIFT.

MAAT: Multi-Phasen-Adapter-bewusstes gezieltes Verlernen
MAAT: Multi-phase Adapter-Aware Targeted Unlearning

May 28

BySuryash Yagnik, Shubham Gaur, Saksham Thakur, Vinija Jain, Aman Chadha, Amitava Das

Die Evaluierung von Machine Unlearning ist strukturell verzerrt: Warum-Typ-Fragen, die kausales und relationales Wissen prüfen, machen weniger als 0,06 % von CounterFact, 0,6 % von ZSRE und weniger als 1,3 % von TOFU, MUSE und WMDP-Cyber aus. Diese nahezu Nullrepräsentation führt dazu, dass Methoden, die bei kausalem Wissen versagen, aggregiert hohe Punktzahlen erzielen können, und dieses Versagen bleibt ohne ausgewogene Evaluierung unerkannt. Wir stellen 5WBENCH vor, einen ausgewogenen Benchmark mit 5.000 Stichproben und 1.000 Beispielen pro 5W-Kategorie (Wer, Was, Wann, Wo, Warum), der kausale Unlearning-Fehler erstmals quantifizierbar macht. Mittels 5WBENCH zeigen wir, dass keine bestehende Baseline gleichzeitig hohes Vergessen und hohes Behalten bei Warum-Typ-Fragen erreicht: Aggressives Vergessen verschlechtert das behaltene Wissen, während konservative Methoden kausale Fakten nicht vergessen. Die Schwierigkeit des Warum-Typs rührt von mehrschrittigen Reasoning-Ketten (44 % der Warum-Einträge gegenüber ≤ 2 % bei anderen) und Gradientenverdünnung über Antwortspannen von 40,1 Token her. Wir präsentieren MAAT (Multi-phase Adapter-Aware Targeted Unlearning), ein dreiphasiges Framework, das auf LoRA-Adaptergewichten operiert und gradientenprojizierten Aufstieg, SVD-Rangdimensionsbereinigung, Task-Vektor-Negation sowie hybride KL-Hidden-State-Bewahrungsreparatur kombiniert. MAAT ist die erste Methode, die gleichzeitig hohes Vergessen und hohes Behalten bei kausalem Warum-Typ-Wissen erreicht und einen neuen Betriebspunkt an der Pareto-Frontier von Vergessen und Behalten setzt. Wir stellen unseren Code öffentlich zur Verfügung.

Alles zählen
Count Anything

May 29

ByMengqi Lei, Shuokun Cheng, Wei Bao, Shaoyi Du, Jun-Hai Yong, Siqi Li, Yue Gao

Objektzählung bleibt fragmentiert über domänenspezifische Datensätze und Aufgabenformulierungen, trotz rascher Fortschritte bei generalistischen Sehmodellen. Bestehende Zählmodelle sind oft auf Szenarien wie Menschenmengen, Fahrzeuge, Zellen, Nutzpflanzen oder Fernerkundungsobjekte zugeschnitten und haben daher Schwierigkeiten, über Kategorien, visuelle Domänen, Objektgrößen und Dichteverteilungen zu generalisieren. In dieser Arbeit untersuchen wir textgesteuerte Objektzählung über Domänen hinweg, bei der ein Modell ein Bild und eine natürlichsprachliche Abfrage als Eingabe nimmt und eine instanzbezogene Menge von Zielpunkten zurückgibt, deren Kardinalität die Anzahl ergibt. Diese Formulierung vereinheitlicht kategoriegesteuerte Zählung mit interpretierbarer räumlicher Lokalisierung. Zur Unterstützung dieses Settings konstruieren wir CLOC, einen domänenübergreifenden großskaligen Objektzähldatensatz, der verschiedene öffentliche Datenquellen in eine einheitliche Benchmark reorganisiert. CLOC umfasst sechs visuelle Domänen: Allgemeine Szene, Fernerkundung, Histopathologie, Zellmikroskopie, Landwirtschaft und Mikrobiologie, mit etwa 220.000 Bildern, 619 Kategorien und 15 Millionen Objektinstanzen. Basierend auf CLOC schlagen wir Count Anything vor, ein generalistisches Modell für textgesteuerte Objektzählung. Im Gegensatz zu Dichtekarten-basierten Methoden, die Zählmodelle dominieren, verwendet Count Anything diskrete Instanzpunkte und führt eine dual-granulare Instanzaufzählung durch. Ein Region-level Sparse Counter liefert objektbezogene Anker für große und spärliche Ziele, während ein Pixel-level Dense Counter kleine, dicht gedrängte und schwach begrenzte Ziele mittels dichter Punktvorhersage behandelt. Eine punktzentrierte Überwachungsstrategie ermöglicht Lernen aus heterogenen Annotationen, und Complementary Count Fusion kombiniert beide Zähler parameterfrei. Umfangreiche Experimente zeigen, dass Count Anything eine hohe Genauigkeit und multi-domänen Generalisierung erreicht und bestehende Open-World-Zählmethoden übertrifft. Code ist verfügbar unter: https://github.com/Mengqi-Lei/count-anything.

AlphaTransit: Lernen, stadtweite Transitrouten zu entwerfen
AlphaTransit: Learning to Design City-scale Transit Routes

May 27

ByBibek Poudel, Sai Swaminathan, Weizi Li

Die Planung eines Transitnetzes erfordert viele aufeinanderfolgende Entscheidungen zur Streckenerweiterung, deren Qualität jedoch oft erst nach der vollständigen Netzwerkkonfiguration sichtbar wird. Diese Herausforderung der verzögerten Rückmeldung steht im Mittelpunkt des Transitnetzplanungsproblems (TRNDP), bei dem Wechselwirkungen zwischen Strecken trügerisch sein können: Eine lokal nützlich erscheinende Erweiterung kann Umsteigeengpässe schaffen, redundante Überlappungen erzeugen oder den Gesamtdurchsatz verringern. Um den Streckenaufbau unter verzögerter Simulatorrückmeldung zu leiten, führen wir AlphaTransit ein, ein suchbasiertes Planungsframework für die Busnetzplanung auf Stadtebene. AlphaTransit koppelt Monte-Carlo-Baumsuche (MCTS) mit einem neuronalen Policy-Value-Netzwerk: Die Policy schlägt Streckenerweiterungen vor, der Value bewertet die nachgelagerte Entwurfsqualität, und die Suche verwendet diese Vorhersagen, um jede Entscheidung zu verfeinern. Dies ermöglicht eine Vorausschau zum Entscheidungszeitpunkt während des Streckenaufbaus, ohne dass innerhalb des Suchbaums Simulator-Rollouts durchgeführt werden müssen. Wir evaluieren AlphaTransit anhand eines neuen Bloomington-TRNDP-Benchmarks mit realistischer Straßentopologie und zensusbasierter Nachfrage unter gemischten und vollständigen Nachfragebedingungen für den öffentlichen Nahverkehr. Im Bloomington-Netzwerk erreicht AlphaTransit in beiden Nachfragebedingungen die höchste Bedienungsrate, mit 54,6 % bzw. 82,1 %. Im Vergleich zu Reinforcement Learning ohne Suche entsprechen dies Steigerungen der Bedienungsrate von 9,9 % bzw. 11,4 %; im Vergleich zu MCTS ohne gelernte Führung entsprechen sie Steigerungen von 2,5 % bzw. 11,2 %. Diese Ergebnisse deuten darauf hin, dass die Kopplung von gelernten Führung mit MCTS für die Transitnetzplanung effektiver ist als die alleinige Verwendung eines der beiden Ansätze. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/poudel-bibek/AlphaTransit.

SurGe: Verbesserte Oberflächengeometrie in Punktkarten
SurGe: Improved Surface Geometry in Point Maps

May 29

ByKarim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe

Jüngste Feedforward-3D-Rekonstruktionsmethoden sagen Punktkarten bemerkenswert gut voraus und schätzen globale 3D-Geometrien präzise. Dennoch weisen ihre Vorhersagen weiterhin ungenaue lokale Oberflächengeometrien auf, die qualitativ deutlich sichtbar sind, sich in gängigen Metriken jedoch nur schwach widerspiegeln. Um diese Fehler in der Evaluation expliziter zu machen, führen wir eine Punktkarten-Normalen-Metrik ein, die die durch benachbarte 3D-Vorhersagen induzierte lokale Oberflächenorientierung bewertet. Zur Reduzierung dieser Fehler schlagen wir zwei komplementäre Komponenten vor: einen Punktgradienten-Abgleichsverlust, der tiefennormalisierte 3D-finite-Differenzen überwacht, und einen Neighborhood Attention Decoder (NAD), der Merkmale progressiv hochsampelt und Neighborhood Attention zur lokalen Merkmalsmischung nutzt. Über acht Zero-Shot-monokulare Geometrie-Benchmarks hinweg erzielt unser Modell SurGe den besten durchschnittlichen Rang für die globale Punktkarten-AbsRel und verbessert konsequent die lokale Punktkarten- und Punktkarten-Normalen-Evaluation.

Flat-Pack-Bench: Evaluierung des raumzeitlichen Verständnisses in großen Vision-Language-Modellen durch Möbelmontage
Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

May 20

ByAditya Chetan, Eric Cai, Peeyush Kushwaha, Bharath Raj Nagoor Kani, Utkarsh Mall, Qianqian Wang, Noah Snavely, Bharath Hariharan

Die Entstehung von Großen Vision-Sprachmodellen (GVSM) hat die Fähigkeiten zur Videoverständnis erheblich vorangetrieben. Allerdings konzentrieren sich bestehende Benchmarks überwiegend auf grobkörnige Aufgaben wie Aktionssegmentierung, Klassifikation, Bildunterschriftenerstellung und Abruf. Darüber hinaus basieren diese Benchmarks oft auf Entitäten, die sich leicht verbal identifizieren lassen, wie Haushaltsgegenstände, Tiere, menschliche Subjekte usw., was ihre Anwendbarkeit auf komplexe, unkontrollierte Videoszenarien einschränkt. Viele Anwendungen wie Möbelmontage, Kochen usw. erfordern jedoch ein schrittweises, feinkörniges räumlich-zeitliches Verständnis des Videos, das in aktuellen Benchmarks nicht ausreichend bewertet wird. Um diese Lücke zu schließen, führen wir Flat-Pack Bench ein, einen neuartigen Benchmark, der sich auf Möbelmontageaufgaben konzentriert. Unser Benchmark bewertet GVSM hinsichtlich nuancierter Aufgaben, einschließlich der zeitlichen Reihenfolge von Montageaktionen, zeitlicher Lokalisierung des Montagezustands, Verständnis der Teilezusammenführung und Verfolgung, unter Verwendung von Multiple-Choice-Fragen, die mit visuellen Hinweisen gepaart sind, die relevante Teile als Referenz für feinkörnige Fragen hervorheben. Unsere Experimente zeigen, dass hochmoderne GVSM erheblich mit feinkörnigem räumlich-zeitlichem Denken kämpfen, was ihre Einschränkungen bei der effektiven Nutzung zeitlicher Informationen aus Videos, begrenzten Verfolgungsfähigkeiten und dem Verständnis räumlicher Interaktionen wie physischem Kontakt hervorhebt.

Wenn Konfidenz in die Irre führt: Suffix-Verankerung und konfidenzmodulation durch Ankernähe für Diffusionssprachmodelle
When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

May 27

ByJungwon Park, Jimyeong Kim, Jungmin Ko, Nojun Kwak, Wonjong Rhee

Diffusionssprachmodelle dekodieren Text, indem sie iterativ maskierte Token-Sequenzen entrauschen, wobei die Wahl der zu dekodierenden Positionen eine zentrale Inferenzzeitentscheidung darstellt. Die meisten trainingsfreien Dekodierungsstrategien nutzen Modellkonfidenz zur Positionsauswahl, unter der Annahme, dass Positionen mit hoher Konfidenz bereit zur Dekodierung sind. In dieser Arbeit überprüfen wir diese Annahme, indem wir untersuchen, wann Konfidenz das vollständig nicht-autoregressive (vollständig nicht-AR) Dekodieren in die Irre führt. EOT-Token können hohe Konfidenz erhalten und eine unvollständige Generierung verursachen; das Einfügen eines Suffix-Ankers kann dieses Problem mildern, führt jedoch zu lokaler Überkonfidenz in der Nähe des Ankers, wodurch ankerbenachbarte Token zu früh dekodiert werden. Um diese Probleme zu adressieren, schlagen wir Suffix-Anchored Confidence Modulation vor, eine einfache trainingsfreie Methode, die einen kurzen Suffix-Anker einfügt, um die Antwortvervollständigung zu fördern, und die Konfidenz in der Nähe des Ankers in Abhängigkeit vom Dekodierungsfortschritt moduliert. Dies bewahrt den Vorteil der Antwortvervollständigung durch Suffix-Ankerung, während es die vorzeitige Dekodierung ankerbenachbarter Token reduziert. In Benchmarks für textbasierte Argumentation, visuell-sprachliche Argumentation und Codegenerierung verbessert unsere Methode durchgängig die konfidenzbasierte vollständig nicht-AR-Dekodierung, übertrifft explizite EOT-Unterdrückung und bewahrt den parallelen Dekodierungsvorteil der vollständig nicht-AR-Generierung.

Der Gute, der Böse und der Hässliche der Markov-Boundary für tabellarische Vorhersage
The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

May 28

ByShu Wan, Abhinav Gorantla, Huan Liu, K. Selçuk Candan

Unter standardmäßigen graphentheoretischen Annahmen ist die Markov-Grenze einer Zielvariablen die kleinste Menge von Merkmalen, die jedes andere Merkmal redundant macht. Sobald die Grenze beobachtet wird, ist die Zielvariable bedingt unabhängig vom Rest der Tabelle. Dies ist ein verlockendes Objekt für die tabellarische Vorhersage, da es genau die Spalten benennt, die ein Modell benötigen sollte. Dennoch werden moderne Regressoren weiterhin auf der vollständigen Merkmalsmenge trainiert. Wir untersuchen, ob die Markov-Grenze für die Vorhersage auf SCM3K, einem synthetischen SCM-Benchmark mit 3.450 Aufgaben, Merkmalsanzahlen von 40 bis 1000 und sechs SCM-Familien, die mit sechs Regressoren evaluiert werden, tatsächlich nützlich ist. Die Antwort ist nuancierter, als die Theorie vermuten lässt. Die Beschränkung eines Regressors auf die Orakel-Grenze verbessert die Vorhersage oft erheblich, und die Verbesserung wächst, je größer und spärlicher der Merkmalsraum wird. Die natürliche Vorgehensweise – die Wiederherstellung der Grenze durch Kausalerkennung und das Training auf der wiederhergestellten Maske – liefert jedoch keine Ergebnisse. Vorhandene Schätzer erschöpfen das Rechenbudget, bevor sie den Bereich erreichen, in dem die Grenze am meisten hilft, und selbst dort, wo sie laufen, übertreffen sie selten die vollständige Merkmalsmenge. Wir führen dies auf drei Ursachen zurück: Die Erkennung optimiert die strukturelle Wiederherstellung und nicht die Vorhersage. Falsch Negative und falsch Positive haben stark asymmetrische Vorhersagekosten. Die exakte Grenze ist nur eine von vielen Merkmalsmengen, die alle Merkmale übertreffen. Anschließend entwickeln wir, was diese Fakten für vorhersageorientierte Merkmalsauswahl und für tabellarische Modelle bedeuten, die lernen, kausale Strukturen zu nutzen.

Ein Klick pro Zelltyp genügt: Trainingsfreie Gruppeninteraktion für die Zellinstanzsegmentierung
One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

May 28

BySanghyun Jo, Seo Jin Lee, Seohyung Hong, Yoorim Gang, Hyeongsub Kim, Hyungseok Seo, Kyungsu Kim

Zellinstanzsegmentierungsmodelle, die auf zellspezifischen Datensätzen trainiert wurden, erleiden bei Zelltypen außerhalb der Verteilung einen erheblichen Leistungsabfall, während interaktive Foundation-Modelle dieses Problem durch instanzbezogenes Prompting überwinden – allerdings zu Kosten, die für histopathologische Aufnahmen mit Hunderten bis Tausenden dicht gepackter Instanzen unerschwinglich sind. Wir führen das Gruppen-Prompting ein, ein neues Paradigma, das die interaktive Segmentierung von instanzbezogenem O(N) auf typbezogenes O(T) verschiebt, wobei ein einziger Klick pro Zelltyp ausreicht, um alle Instanzen dieses Typs zu segmentieren. Unsere entscheidende Beobachtung ist, dass der eingefrorene Bildencoder des Segment Anything Model (SAM) bereits vor der Eingabe eines Prompts gleichartige Zellen in seinem Merkmalsraum clustert. Diese Eigenschaft nutzend schlagen wir Chain-of-Prompts (CoP) vor, ein trainingsfreies Framework, das einen einzelnen Benutzerklick rekursiv erweitert, indem es (1) zuverlässige Positionen desselben Typs durch nichtparametrische Filterung mehrskaliger Encoder-Merkmale identifiziert und (2) den räumlich entferntesten zuverlässigen Punkt als nächsten Prompt auswählt, um die Abdeckung zu maximieren. Auf drei mit Zelltypen annotierten Benchmarks behält CoP mit einem Klick pro Typ über 90 % der instanzbezogenen Leistung und übertrifft vollständig überwachte Methoden ohne zusätzliches Training. Auf vier morphologisch homogenen Benchmarks behält ein einziger Klick über 99 %. Projektseite: https://shjo-april.github.io/Chain-of-Prompts/

Leichte Interaktion: Trainingsfreie Inferenzbeschleunigung für interaktive Video-Weltmodelle
Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

May 29

ByJiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

Interaktive Videoweltmodelle generieren Videoabschnitt für Videoabschnitt als Reaktion auf benutzergesteuerte Kamerabewegungen und ermöglichen so Anwendungen wie Echtzeit-Gamesimulationen, virtuelle Szenennavigation und verkörperte KI-Trainings. Allerdings ist die Skalierung auf lange interaktive Trajektorien aufgrund des wachsenden Kontextspeichers, der quadratischen Aufmerksamkeitskomplexität und wiederholter Denoising-Schritte unerschwinglich teuer. Wir stellen Light Interaction vor, ein trainingsfreies Inferenzbeschleunigungs-Framework für interaktive Videoweltmodelle. Unser zentraler Einblick ist, dass Interaktion natürlicherweise eine trajektorienabhängige adaptive Berechnung ermöglicht: Abgerufener räumlicher Speicher kann bei neuer Erkundung verworfen werden, zeitlicher Kontext kann gemäß lokaler latenter Dynamik angepasst werden, und Modellausgaben früherer Schritte können wiederverwendet werden, wenn die Kamera bekannte Regionen erneut besucht. Basierend auf dieser Erkenntnis kombiniert Light Interaction adaptives Kontextmanagement, Denoising-Cache-Beschleunigung und hardware-software-codesignierte 3D-Block-Sparse-Attention mit fusionierten Triton-Kernels. Bewertet auf HY-WorldPlay und Matrix-Game-3.0 erreicht Light Interaction eine bis zu 2,59-fache Beschleunigung ohne Modell-Neutraining bei gleichbleibend wettbewerbsfähiger visueller Qualität.

Benchmarking des Composed Image Retrieval für die angewandte Erdbeobachtung
Benchmarking Composed Image Retrieval for Applied Earth Observation

May 23

ByBill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos

Die zusammengesetzte Bildabfrage in der Fernerkundung (Remote Sensing Composed Image Retrieval, RSCIR) ermöglicht die Suche in großen Satellitenbildarchiven mittels zusammengesetzter Abfragen, die ein Referenzbild mit einer textuellen Modifikation kombinieren. Obwohl RSCIR eine flexible Schnittstelle zur Formulierung gezielter Suchabsichten bietet, sind die Übertragbarkeit moderner Kompositionsmethoden auf Erdbeobachtungsdaten (Earth Observation, EO) und deren Relevanz für operative EO-Workflows bisher unzureichend untersucht. Wir schließen diese Lücke durch eine einheitliche Benchmark und eine anwendungsorientierte Studie. Erstens passen wir repräsentative Methoden zur zusammengesetzten Bildabfrage mit sechs Vision-Language-Backbones auf PatternCom unter einem standardisierten Protokoll systematisch an und evaluieren sie, wobei wir ihr Verhalten hinsichtlich Backbones, Kompositionsstrategien und Abfragetypen analysieren. Zweitens führen wir xView2-CIR ein, einen änderungszentrierten Datensatz für Katastrophen- und Schadensüberwachung, bei dem die Abfrage auf die Szenenidentität und einen angestrebten Zustand nach dem Ereignis konditioniert ist. Unsere Ergebnisse zeigen, dass trainingsfreie Kompositionsmethoden starke und skalierbare Basislinien für die EO-Abfrage liefern, während die änderungszentrierte Abfrage andere Herausforderungen als die attributbasierte Abfrage mit sich bringt, insbesondere aufgrund der Notwendigkeit, die Szenenidentität zu bewahren. Insgesamt etabliert diese Studie eine praktische Benchmark für RSCIR und positioniert die zusammengesetzte Abfrage als komplementäres Werkzeug für die Fernerkundungsbildabfrage, Archivdurchsuchung und Änderungsanalyse. Der Datensatz und der Code sind verfügbar unter https://github.com/billpsomas/rscir.

AnyMo: Skalierung der bedingten Bewegungsgenerierung mit beliebigen Modalitäten durch maskiertes Modellieren
AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

May 28

ByYiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

Die bedingte Generierung menschlicher Bewegungen bleibt eine grundlegende Herausforderung in der Computervision und Robotik. Trotz erheblicher Fortschritte sind aktuelle Methoden oft durch feste Modalitätskonfigurationen und aufgabenspezifische Architekturen eingeschränkt, sodass modalitätsübergreifende Interaktionen und die Skalierungsgesetze der multimodal konditionierten Synthese weitgehend unerforscht bleiben. Ein wesentlicher Engpass ist die Knappheit großer, modalitätsabgestimmter Bewegungsdaten, was die Generalisierung über verschiedene Kontrollsignale hinweg einschränkt. In dieser Arbeit stellen wir OmniHuMo vor, einen groß angelegten, qualitativ hochwertigen Datensatz, der über 5.000 Stunden Bewegung und 3,2 Millionen Sequenzen mit präzise abgestimmten multimodalen Annotationen (z. B. Text, Sprache, Musik und Trajektorie) umfasst. Unter Nutzung von OmniHuMo schlagen wir AnyMo vor, ein einheitliches multimodales Framework, das einen auf Residual-FSQ basierenden Bewegungstokenizer mit einem skalierbaren Maskenmodellierungs-Transformer kombiniert und eine hochwertige Bewegungssynthese unter beliebigen Modalitätskombinationen ermöglicht. Umfangreiche Experimente zeigen, dass AnyMo eine hochgetreue Synthese erreicht und gleichzeitig eine flexible Kontrolle über sowohl räumliche als auch stilistische Attribute bietet.

Ein topologiebewusstes raumzeitliches Handover-Framework für kontinuierliches Multi-UAV-Tracking
A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

May 15

ByJianlin Ye, Christos Kyrkou, Panayiotis Kolios

Die Integration von Unmanned Aerial Vehicles (UAVs) in Intelligente Transportsysteme (ITS) ermöglicht eine synoptische Übersicht für die Verkehrsüberwachung, doch wird die skalierbare Bereitstellung durch Trajektorienfragmentierung behindert, bei der die Persistenz der Fahrzeugidentität über die Sichtfelder mehrerer UAVs (FOV) hinweg verloren geht. Während moderne Frameworks darin exzellieren, die lokale Trajektorienextraktion und -stabilität für Einzel-Drohnen-Bildmaterial zu optimieren, fungieren sie häufig als isolierte Datensilos, die zusammenhangslose Trajektorien erzeugen und damit eine Analyse auf Netzwerkebene wie die Quell-Ziel-Schätzung verhindern. Dieses Paper stellt ein Echtzeit-Multi-Kamera-Multi-Fahrzeug-Tracking-System (MCMT) vor, das auf die globale Identitätspersistenz abzielt. Zur Bewältigung der visuellen Mehrdeutigkeit und des Rechenaufwands erscheinungsbasierter Wiedererkennung (Re-ID) in Nadiransichten führen wir einen leichtgewichtigen topologiebasierten raumzeitlichen Übergabemechanismus (Handover) ein. Wir implementieren eine parallele Pipeline mit hohem Durchsatz unter Verwendung von YOLO11 und ByteTrack, um gleichzeitige 4K-Ströme zu verarbeiten. Unser Kernbeitrag ist ein deterministischer warteschlangenbasierter Abgleichsalgorithmus, der geometrische Überlappungen und virtuelle Fahrspurdiskretisierung nutzt, um die Identitätsübergabe über FIFO-Warteschlangen vorhersagend zu verwalten. Experimentelle Ergebnisse in komplexen städtischen Umgebungen, darunter Kreuzungen und zusammenfließender Verkehr, zeigen eine Übergabeerfolgsrate (HOSR) von 99,8 % in kontinuierlichen Verkehrsströmen, was die Re-ID-Baselines (74,1 %) deutlich übertrifft, während gleichzeitig die Machbarkeit des Edge-Einsatzes validiert wird. Der Quellcode ist unter https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system verfügbar.

Speichergebunden, aber nicht bandbreitenbegrenzt: Die physische KI-Inferenzlücke beim Batch-1-LLM-Decode
Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

May 28

ByJosef Chen

Physikalische KI-Systeme – darunter Roboter, autonome Fahrzeuge, verkörperte Agenten und Edge-Copiloten – führen häufig eine andere Inferenzlast aus als Cloud-LLM-Serving: die Single-Stream-, Batch-1-autoregressive Dekodierung, bei der ein Roboter, ein Kamera-Feed oder eine Benutzersitzung auf das nächste Token wartet. Diese Arbeitslast wird üblicherweise als speicherbandbreitenbegrenzt beschrieben. Jeder Dekodierschritt streamt die Modellgewichte und den aktiven KV-Cache, sodass die Latenz mit der Spitzen-HBM-Bandbreite skalieren sollte. Wir zeigen, dass diese Darstellung zwar zutrifft, aber unvollständig ist. Wir messen die Batch-1-Dekodierung für drei GQA-Transformer der 7- bis 8B-Klasse auf vier NVIDIA-GPUs: H100 SXM5, A100-80GB SXM4, L40S und L4. Wir evaluieren Kontextlängen von 2048 bis 16384 und erzeugen 44 gültige Zellen unter einem kontrollierten bf16-SDPA-Setup. Der erreichte Anteil der Spitzen-HBM-Bandbreite sinkt mit steigender Spitzenbandbreite. In der exemplarischen Zelle Qwen-2.5-7B ctx=2048 erreicht eine L4 etwa 81 % ihres analytischen Speicherminimums, während eine H100 nur 27 % erreicht. Die Physical-AI-Dekodierung ist speicherdominiert, doch schnellere Speicherbandbreite führt nicht zu proportionalen Latenzgewinnen. Wir testen den fehlenden Term mit einem CUDA-Graphs-A/B-Experiment. Auf der H100 bei ctx=2048 verbessern CUDA Graphs die Dekodierlatenz um das 1,259-fache über N=10 frische Sitzungen, mit einem 95-%-Bootstrap-Konfidenzintervall von 1,253 bis 1,267. Auf der L4 ergibt derselbe Eingriff nur das 1,028-fache. Dies isoliert einen Launch-Overhead, der auf schnellen GPUs sichtbar wird, auf langsameren, bandbreitenbegrenzten GPUs jedoch weitgehend verborgen bleibt. Die Implikation für den Einsatz ist, dass Speichereinsparungen nur dann relevant sind, wenn die Laufzeit sie realisiert. Auf der L4 liegt die bf16-Dekodierung nahe am Speicherminimum, doch gängige quantisierte Pfade erzielen nicht die erwartete 4-fache Reduktion des Gewichtsdatenverkehrs: bnb-nf4 erreicht 59,36 ms/Schritt und AutoAWQ+Marlin 45,24 ms/Schritt bei einer bf16-Baseline von 62,32 ms. GPTQ+ExLlamaV2 mit Ada-optimierten int4-Kernels erreicht 17,36 ms/Schritt.

Guidance-kontrastive Token-Kreditzuweisung für die Optimierung diskreter Politiken
Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

May 29

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yuta Kyuragi, Aditya Grover

Gruppenvorteilsbasierte Verstärkungslernmethoden wie GRPO und DAPO haben in verschiedenen Bereichen, darunter mathematisches Denken und Text-zu-Bild-Generierung, eine starke Leistung gezeigt. Ihre Abhängigkeit von Belohnungen auf Stichprobenebene führt jedoch zu einer wesentlichen Einschränkung, da eine einheitliche Kreditzuweisung über alle Token hinweg keine feinkörnigen Beiträge auf Token-Ebene erfasst. Um dieses Problem zu beheben, schlagen wir Guidance Contrastive Policy Optimization (GCPO) vor, einen neuartigen Algorithmus, der eine Kreditzuweisung pro Token ermöglicht, indem er Modellvorhersagen unter positiven und negativen Aufforderungen (Prompts) kontrastiert. Anstatt Vorteile auf Stichprobenebene gleichmäßig zu verteilen, weist GCPO Vorteile auf Token-Ebene proportional zur Differenz zwischen diesen kontrastierenden Vorhersagen zu, was präzisere und informativere Lernsignale ermöglicht. Empirisch stellen wir fest, dass GCPO semantisch relevante Bereiche hervorhebt, wie etwa visuelle Regionen, die mit Textaufforderungen übereinstimmen, bei der Text-zu-Bild-Generierung sowie kritische Schlüsselwörter innerhalb von Gedankengängen bei Aufgaben zur Gedankenkette. Durch umfangreiche Experimente übertrifft GCPO die Basislinien GRPO und DAPO sowohl bei Benchmarks zur Text-zu-Bild-Generierung als auch zum kettenartigen Denken (Chain-of-Thought) durchgängig, was seine Wirksamkeit als allgemeine und skalierbare Optimierungsstrategie für diskretes Richtlinienlernen belegt.

Jenseits des Abrufs: Verhaltensspezifikation als interpretierende Schicht für KI-Personalisierung
Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

May 27

ByAarik Gulaya

Falls ein KI-Agent Entscheidungen im Namen einer Person trifft, müssen diese Entscheidungen mit dem Benutzer übereinstimmen. Wir führen die Repräsentationsgenauigkeit ein, um zu messen, wie getreu ein System die Interpretation einer Person erfasst. Eine Interpretationsebene wird als Verhaltensspezifikation operationalisiert. Unsere Referenzimplementierung komprimiert die Daten einer Person aggressiv zu Interpretationsmustern, die einem Sprachmodell als Kontext dienen. Wir evaluieren die Spezifikation anhand eines Prototyp-Benchmarks von zurückgehaltenen Verhaltensvorhersagen, die von einem kalibrierten 5-Richter-LLM-Gremium bewertet werden. Wir testen sie unabhängig und in Kombination mit einer Reihe von Kontextbedingungen: vollständiger Rohkorpus, vollständig extrahierte Fakten und vier kommerzielle Gedächtnissysteme (Mem0, Letta, Supermemory, Zep). Über 14 gemeinfreie autobiografische Korpora hinweg erhöht die Spezifikation die Repräsentationsgenauigkeit im Aggregat und eliminiert nahezu das Modell-Hedging. Sie gewinnt den Großteil dessen zurück, was der Rohkorpus liefert, bei etwa 25-fach geringeren Kontextkosten. Die Spezifikation hebt die Subjekte auf ein gemeinsames Vorhersageniveau an, unabhängig von der Vortrainingsbasislinie; der Anstieg in absoluten Punkten ist daher dort am größten, wo die Basislinie am niedrigsten ist, was darauf hindeutet, dass die relevante Population alle Personen umfasst, die im Vortraining nicht ausreichend repräsentiert sind. Der Anstieg ist bei Fragen, die Interpretation erfordern, am größten, wo die Bereitstellung einer Interpretationsebene ein Modellverhalten ermöglicht, das extrahierte Fakten oder der Rohkorpus nicht ermöglichen. Umgekehrt kann diese Ebene bei Fragen, die Erinnerung erfordern, eher stören als helfen. Wir schlussfolgern, dass sich Repräsentationsgenauigkeit von Erinnerung unterscheidet und dass die Mensch-KI-Ausrichtung davon abhängt, wie genau der Benutzer repräsentiert wird. Repräsentationsgenauigkeit macht diese Ausrichtung testbar.

Frequenzgeführte Aktionsdiffusion durch Subfrequenz-Mannigfaltigkeitstraversierung
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27

ByJunlin Wang

Erlernen visuomotorischer Politiken durch Verhaltensklonen erfolgt typischerweise durch Nachahmen von Expertendemonstrationen, die von menschlichen Bedienern gesammelt wurden. Allerdings enthalten natürliche menschliche Demonstrationen inhärent hochfrequentes Rauschen, wie etwa intermittierende Ruckler, Pausen und Aktionszittern. Das direkte Trainieren von Politiken zur Nachahmung dieser rohen Trajektorien führt zwangsläufig dazu, dass das Modell diese suboptimalen Verhaltensweisen übernimmt. Diese Pathologie tritt besonders bei diffusionsbasierten Politiken hervor, wo iterative Entrauschungsschritte unbeabsichtigt hochfrequente Artefakte verstärken können, auf Kosten bedeutungsvoller feiner Details. Um diese Einschränkungen zu beheben, präsentieren wir einen neuartigen frequenzbasierten Algorithmus, der implizites spektrales Manövrieren und glatte Aktionserzeugung ermöglicht. Unsere Methode, der Frequency Guidance Operator (FGO), lenkt den Generierungsprozess diffusionsbasierter Politiken, indem sie die verrauschten Proben schrittweise durch Zwischen-Subfrequenz-Mannigfaltigkeiten mit expandierenden Spektralbändern treibt. Validiert an 15 robotischen Manipulationsaufgaben aus 5 Benchmarks, erzielt FGO überlegene Leistungen bei der Verbesserung von Aktionsglätte und zeitlicher Konsistenz, während die für eine erfolgreiche Aufgabenausführung notwendigen Details bewahrt werden. Projektwebsite: https://henrywjl.github.io/frequency-guidance-operator/

Jenseits holistischer Modelle: Systematisches Benchmarking auf Komponentenebene für tiefe multivariate Zeitreihenprognose
Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

May 26

ByShuang Liang, Chaochuan Hou, Xu Yao, Shiping Wang, Hailiang Huang, Songqiao Han, Minqi Jiang

Während frühere Forschung zur multivariaten Zeitreihenprognose sich auf die Entwicklung komplexer holistischer Modelle konzentrierte, plädiert diese Arbeit für eine Hinwendung zu einem granularen, komponentenbasierten Verständnis ihrer Auswirkungen. Wir schlagen TSCOMP vor, die erste groß angelegte Benchmark, die Methoden des maschinellen Lernens für Zeitreihenprognosen systematisch in ihre feingranularen Kernkomponenten zerlegt – einschließlich Reihenvorverarbeitung, Kodierungsstrategien, Netzwerkarchitekturen (sowohl spezifische als auch große Zeitreihenmodelle) und Optimierungsmethoden. Mittels eines restringierten orthogonalen Versuchsplans und umfangreicher Evaluierungen führen wir multi-perspektivische Analysen durch, die die Wirksamkeit von Komponenten in verschiedenen Grundarchitekturen, Datencharakteristiken sowie deren Interaktionen aufzeigen. Über die Bereitstellung von Erkenntnissen hinaus etabliert diese Benchmark ein feingranulares Performanzkorpus mit über 20.000 Modell-Datensatz-Evaluierungen, das das Erlernen einer automatischen Komponentenauswahl unterstützt und eine Null-Schritt-Modellkonstruktion für neue Datensätze ermöglicht. Unsere Experimente zeigen, dass der korpusgesteuerte Ansatz trotz seiner Einfachheit durchgängig bessere Ergebnisse erzielt als moderne Verfahren, was die Solidität unseres Evaluierungsdesigns bestätigt und belegt, dass eine systematische Komponentenauswahl manuell entworfenen komplexen Architekturen überlegen ist. Der gesamte Code und das Performanzkorpus sind öffentlich verfügbar unter https://github.com/SUFE-AILAB/TSCOMP.