HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

59 papers found

AgentDoG 1.5: Ein leichtgewichtiges und skalierbares Alignment-Framework für die Sicherheit und den Schutz von KI-Agenten
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

May 28

ByDongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu

Moderne Open-World-Agenten wie OpenClaw weisen leistungsstarke umgebungsübergreifende Ausführungsfähigkeiten auf, führen jedoch zugleich breite neue Sicherheitsrisikoquellen ein. Gleichzeitig senken fortgeschrittene KI-Grenzmodelle die Angriffsbarrieren drastisch, sodass bestehende Rahmenwerke zur Agentenausrichtung für den Einsatz in der realen Welt unzureichend sind. Um diesen neu auftretenden Bedrohungen zu begegnen, schlagen wir ein leichtgewichtiges und skalierbares Rahmenwerk zur Sicherheitsausrichtung von Agenten vor. Konkret aktualisieren wir die Taxonomie der Agentsicherheit, um emergente Risiken aus den Ausführungsszenarien von Codex und OpenClaw zu berücksichtigen. Des Weiteren bauen wir eine taxonomiegesteuerte Daten-Engine mit Einflussfunktions-Reinigung, um mit nur etwa 1000 Stichproben leichtgewichtige AgentDoG 1.5-Varianten (0,8B, 2B, 4B und 8B Parameter) zu trainieren, die eine vergleichbare Leistung mit führenden Closed-Source-Modellen (z. B. GPT-5.4) erzielen. Basierend auf AgentDoG 1.5 konstruieren wir eine hocheffiziente Trainingsumgebung für agentische Sicherheits-SFT und RL, die den Bereitstellungsaufwand in Docker-Umgebungen um zwei Größenordnungen reduziert. Schließlich setzen wir AgentDoG 1.5 als trainingsfreies Online-Schutzgeländer für die Echtzeit-Sicherheitsmoderation ein. Umfangreiche experimentelle Ergebnisse zeigen, dass AgentDoG 1.5 in vielfältigen und komplexen interaktiven agentischen Szenarien modernste Leistung erzielt. Alle Modelle und Datensätze werden offen veröffentlicht.

Qwen-VLA: Vereinheitlichung von Vision-Sprache-Aktion-Modellierung über Aufgaben, Umgebungen und Roboterausführungen hinweg
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

May 28

ByQiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen

Verkörperte Intelligenz wird oft durch spezialisierte Modelle für einzelne Aufgaben wie Manipulation oder Navigation untersucht, was zu fragmentierten Fähigkeiten und eingeschränkter Verallgemeinerung über Aufgaben, Umgebungen und Roboterausführungen hinweg führt. In dieser Arbeit untersuchen wir, ob heterogene verkörperte Entscheidungsprobleme in einem einzigen Vision-Sprache-Aktionsmodell vereinheitlicht werden können. Wir stellen Qwen-VLA vor, ein einheitliches verkörpertes Grundlagenmodell, das Qwens Vision-Sprache-Modellierungsstapel von Wahrnehmung, Verständnis und Reasoning auf kontinuierliche Aktion und Trajektoriengenerierung durch einen DiT-basierten Aktionsdecoder erweitert. Qwen-VLA wird mit einem groß angelegten gemeinsamen Vortrainingsrezept über diverse Datenquellen trainiert, darunter Roboter-Manipulationstrajektorien, egozentrische Demonstrationen von Menschen, synthetische Simulationsdaten, Vision-und-Sprache-Navigationsdaten, trajektorienzentrierte Überwachung sowie zusätzliche Vision-Sprache-Daten. Um mehrere Roboterplattformen zu unterstützen, führen wir eine verkörperungsbewusste Prompt-Konditionierung ein, bei der roboterspezifische textuelle Beschreibungen die aktuelle Verkörperung und Steuerungskonvention spezifizieren. Darüber hinaus fassen wir Manipulation, Navigation und Trajektorienvorhersage in einem einheitlichen Aktions-und-Trajektorienvorhersage-Rahmen zusammen, der übertragbare visuelle Verankerung, räumliches Denken und kontinuierliche Aktionsgenerierung über Robotermorphologien, Aufgabenfamilien und Umgebungen hinweg ermöglicht. Experimente mit Manipulations-, Navigations- und trajektorienzentrierten Benchmarks zeigen konsistente Multi-Task-Leistung und Verallgemeinerung außerhalb der Verteilung unter Variationen von Szenenlayout, Hintergrund, Beleuchtung, Objektkonfiguration und Roboterausführung. Qwen-VLA-Instruct erreicht 97,9 % auf LIBERO, 73,7 % auf Simpler-WidowX, 86,1 %/87,2 % auf RoboTwin-Easy/Hard, 69,0 % OSR auf R2R, 59,6 % SR auf RxR, 76,9 % durchschnittlichen OOD-Erfolg in realen ALOHA-Experimenten und 26,6 % Zero-Shot-Erfolg bei DOMINO-Dynamikmanipulation.

OmniRetrieval: Einheitliches Retrieval über heterogene Wissensquellen hinweg
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

May 28

ByJinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang

Reale Informationsbedürfnisse erfordern Zugang zu strukturell vielfältigen Wissensquellen – von unstrukturiertem Text und relationalen Tabellen bis hin zu Wissensgraphen und Eigenschaftsgraphen. Bestehende Retriever operieren jedoch stets nur über eine Quelle gleichzeitig mit einer festgelegten Abfragesprache, sodass die breitere Landschaft verfügbaren Wissens hinter inkompatiblen Schnittstellen fragmentiert bleibt. Ein naheliegender Versuch der Vereinheitlichung bestünde darin, diese Quellen in einen gemeinsamen Raum zu überführen – doch dies löscht die strukturellen Gegebenheiten (wie Schemata, Ontologien, kompositionale Operatoren) aus, die jeder Quelle ihre Ausdruckskraft verleihen. Effektives Retrieval über vielfältiges Wissen erfordert daher keine Homogenisierung, sondern eine übergeordnete Schicht, die jede Quelle zu ihren eigenen Bedingungen anspricht. Um dies zu erreichen, präsentieren wir OmniRetrieval, ein Framework, das jede natürlichsprachliche Abfrage aufnimmt, geeignete Wissensquellen identifiziert und quellen-native Abfragen an ihre nativen Ausführungs-Engines weiterleitet. Über eine umfangreiche Benchmark mit 13 Datensätzen und 309 verschiedenen Wissensbasen aus textuellen, relationalen und graph-basierten Quellen hinweg übertrifft OmniRetrieval Ein-Quellen-Baselines und zeigt damit, dass es als universelle Schnittstelle zu den heterogenen Quellen dienen kann, während es die strukturellen Unterschiede bewahrt, die jede Quelle wertvoll machen.

CollectionLoRA: 50 Effekte in einem LoRA sammeln mittels Multi-Teacher-On-Policy-Destillation
CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

May 25

ByFangtai Wu, Hailong Guo, Shijie Huang, Jiayi Song, Yubo Huang, Mushui Liu, Zhao Wang, Yunlong Yu, Jiaming Liu, Ruihua Huang

Maßgeschneiderte Bildbearbeitung zielt darauf ab, vortrainierte Diffusionsmodelle mit spezifischen visuellen Effekten unter Verwendung begrenzter gepaarter Daten auszustatten, typischerweise mittels Low-Rank Adaptation (LoRA). Mit zunehmender Anzahl gewünschter Effekte erhöht das Speichern und dynamische Laden zahlreicher dieser Effekt-LoRAs den Bereitstellungsaufwand erheblich. Darüber hinaus kombinieren aktuelle Pipelines diese Effekt-LoRAs typischerweise mit Beschleunigungsmodulen für eine schnelle Generierung, was zu starken Parameterinterferenzen führt und Konzeptvermischung sowie Stilverschlechterung zur Folge hat. Wir schlagen CollectionLoRA vor, ein Multi-Teacher-On-Policy-Destillationsframework, das die Konzepte von bis zu 50 verschiedenen Effekt-LoRAs zusammen mit Fähigkeiten zur Generierung in wenigen Schritten in eine einzige LoRA destillieren kann. Dies löst das Problem der Merkmalsinterferenzen grundlegend und reduziert die Bereitstellungskosten erheblich. Im Einzelnen führt die Methode (i) einen probabilistischen Dual-Stream-Routing-Mechanismus ein, der es dem Modell ermöglicht, während des Trainings zufällig zwischen Datenquellen zu wechseln und so seine Generalisierung in unbekannten Szenarien effektiv zu verbessern; (ii) eine asymmetrische orthogonale Prompting-Strategie zur Konzepttrennung im Prompt-Raum; (iii) ein Grob-zu-Fein-Destillationsziel zur Minderung der Verteilungsdifferenz zwischen Lehrer- und Schülermodell. Umfangreiche Auswertungen zeigen, dass CollectionLoRA alle maßgeschneiderten Effekte und die Generierung in wenigen Schritten in eine einzige LoRA destilliert, den Bereitstellungsaufwand reduziert und gleichzeitig eine Konzepttreue erreicht, die mit unabhängig trainierten Lehrermodellen vergleichbar oder besser ist.

minWM: Ein Full-Stack-Open-Source-Framework für echtzeit-interaktive Video-Weltmodelle
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

May 28

ByMin Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu

Jüngste Video-Diffusions-Grundlagenmodelle haben bemerkenswerte Fortschritte bei der qualitativ hochwertigen Videogenerierung erzielt, doch ihre Umwandlung in echtzeitfähige, interaktive Video-Weltmodelle bleibt eine Herausforderung. Interaktive Weltmodelle erfordern steuerbare, kausale und latenzarme Rollouts, was in der Praxis eine vollständige Pipeline von der Datenkonstruktion über steuerbares Feintuning, autoregressives Training, Wenig-Schritt-Destillation bis hin zur Streaming-Inferenz verlangt. In dieser Arbeit stellen wir minWM vor, ein Full-Stack-Open-Source-Framework zur Erstellung echtzeitfähiger interaktiver Video-Weltmodelle. minWM bietet eine End-to-End-Pipeline, die bestehende bidirektionale T2V/TI2V-Video-Grundlagenmodelle in kamerasteuerbare, wenige-Schritt-autoregressive Weltmodelle überführt. Konkret wird zunächst ein bidirektionales Video-Diffusionsmodell mit Kamerasteuerung feingetunt, anschließend wird die Causal-Forcing-/Causal-Forcing++-Pipeline angewendet, die AR-Diffusionstraining, kausale ODE- oder kausale Konsistenzdestillation und asymmetrisches DMD umfasst, um es in einen wenige-Schritt-autoregressiven Generator für latenzarme Rollouts zu destillieren. Das Framework ist modular und architektonisch erweiterbar: Wir instanziieren es auf repräsentativen offenen Backbones, darunter Wan2.1-T2V-1.3B und HY1.5-TI2V-8B, und decken sowohl auf Kreuzattentions basierende Bedingungsinjektion als auch MMDiT-artige Architekturen ab. minWM unterstützt zudem die Anpassung bestehender Video-Weltmodelle wie HY-WorldPlay an neue Datenverteilungen, Trainingsrezepte und Latenzanforderungen. Über die Veröffentlichung ausführbarer Skripte, Checkpoints, Dokumentation und Inferenzcode hinaus liefern wir praktische Ablationen zur Qualität von Kameratrajektorien, zur Anzahl der Steuerbarkeitstrainingsschritte und zu den Mindestanforderungen an die Batch-Größe. Wir hoffen, dass minWM als reproduzierbares und erweiterbares Rezept zur Erstellung und Anpassung echtzeitfähiger interaktiver Video-Weltmodelle dient. Projektseite: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)

YoCausal: Wie weit ist die Videogenerierung vom Weltmodell entfernt? Eine Kausalitätsperspektive
YoCausal: How Far is Video Generation from World Model? A Causality Perspective

May 28

ByYou-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang

Während sich Video-Diffusionsmodelle (VDMs) in Richtung Weltmodelle weiterentwickeln, stellt sich eine entscheidende Frage: Verstehen sie wirklich Kausalität oder passen sie sich lediglich an statistische zeitliche Muster an? Bestehende Benchmarks stützen sich meist auf synthetische Daten, was aufgrund der Sim-zu-Real-Lücke die Generalisierung auf reale Anwendungen einschränkt. Wir präsentieren YoCausal, einen zweistufigen Benchmark, der vom Paradigma der Erwartungsverletzung (Violation of Expectation, VoE) aus der Kognitionswissenschaft inspiriert ist. Durch die zeitliche Umkehrung realer Videos ohne zusätzliche Kosten als natürliche kontrafaktische Stichproben etabliert YoCausal ein beliebig erweiterbares Evaluationsprotokoll. Stufe 1 führt den Reverse Surprise Index (RSI) ein, der die Wahrnehmung des Zeitpfeils mittels Denoising-Verlust quantifiziert. Stufe 2 führt den Causality Cognition Index (CCI) ein, der ein VLM nutzt, um Datensätze in kausale und nicht-kausale Teilmengen zu stratifizieren und echte kausale Schlussfolgerungen von zeitlichen Verzerrungen zu trennen. Die Evaluierung von 13 hochmodernen VDMs zeigt, dass die Wahrnehmung des Zeitpfeils kein Verständnis von Kausalität impliziert und eine erhebliche Lücke im Vergleich zur menschlichen kausalen Kognition besteht.

GenClaw: Codegesteuerte agentische Bildgenerierung
GenClaw: Code-Driven Agentic Image Generation

May 28

ByJunyan Ye, Jun He, Zilong Huang, Dongzhi Jiang, Xuan Yang, Rui Chen, Weijia Li

Bildgenerierungsmodelle haben sich von textgesteuerter Pixelsynthese hin zu multimodalen Agenten entwickelt, die mit visuellem Verständnis und der Fähigkeit zum Werkzeugaufruf ausgestattet sind. Dennoch bleiben bestehende Agenten den zugrunde liegenden Blackbox-Bildmodellen ausgeliefert. Ihr Arbeitsablauf steckt in einem repetitiven Kreislauf aus Prompt-Umschreibung zur Generierungsverfeinerung fest, ohne dass sie einen Mechanismus besitzen, um direkt auf die Leinwand einzuwirken. Im Kern bleibt das Potenzial von LLMs, als ehrlicher „Pinsel“ für präzise visuelle Konstruktion zu dienen, weitgehend ungenutzt. In dieser Arbeit schlagen wir GenClaw vor, ein codegetriebenes agentisches Bildgenerierungsparadigma, das den Agenten befähigt, wie ein menschlicher Künstler zu schaffen: zunächst konzeptualisieren, dann skizzieren und schließlich kolorieren. Konkret konstruiert der Agent zunächst das konzeptuelle Wissen und den Kontext durch Suche und Schlussfolgerung. Anschließend nutzt er Code (z. B. SVG, HTML, Three.js), um ausführbare visuelle Skizzen zu rendern. Schließlich setzt er ein Bildgenerierungsmodell ein, um Texturen, Materialien und Fotorealismus zu ergänzen. In diesem Arbeitsablauf dient Code als kontrollierbare Zwischenleinwand, die linguistische Argumentation und Pixelsynthese verbindet und programmatische Logik nahtlos mit der visuellen Ausdruckskraft generativer Modelle integriert. Indem GenClaw die Bildgenerierung von einem Blackbox-Paradigma in einen stufenweisen Prozess verwandelt, der der authentischen menschlichen Schöpfung gleicht, bietet es einen Schritt hin zu hoch kontrollierbaren und interpretierbaren visuellen Generierungssystemen.

EarlyTom: Frühe Token-Kompression ermöglicht schnelles Video-Verstehen
EarlyTom: Early Token Compression Completes Fast Video Understanding

May 28

ByHesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang

Große Videosprachmodelle (Video-LLMs) haben starke Fähigkeiten bei Video-Verständnisaufgaben gezeigt. Ihr praktischer Einsatz wird jedoch weiterhin durch die Ineffizienz behindert, die durch die Verarbeitung einer großen Anzahl visueller Tokens entsteht. Obwohl neuere Ansätze extrem niedrige Tokenbeibehaltungsraten bei gleichbleibender Genauigkeit im Vergleich zu Volltoken-Baselines erreichen, führen die meisten von ihnen die Komprimierung erst in der späten Phase der Vorausfüllung durch, sodass die Effizienz des visuellen Encoders nicht optimiert wird. In diesem Artikel zeigen wir zunächst, dass die visuelle Codierung einen großen Teil der Zeit bis zum ersten Token (TTFT) ausmacht. Daher bleibt, anstatt visuelle Tokens erst nach dem visuellen Encoder zu komprimieren, die Durchführung der Komprimierung innerhalb des Encoders ein Bereich, der noch erhebliches Potenzial für Untersuchungen bietet. Ausgehend von dieser Erkenntnis schlagen wir EarlyTom vor, ein trainingsfreies Token-Komprimierungsframework, das eine frühzeitige visuelle Token-Komprimierung innerhalb des visuellen Encoders durchführt und so eine deutlich bessere TTFT-Reduktion und einen höheren Durchsatz ermöglicht. Darüber hinaus führen wir eine entkoppelte räumliche Tokenauswahlstrategie ein, die die Gesamteffektivität der Komprimierung verbessert. EarlyTom reduziert die TTFT um bis zu 2,65× und die FLOPs um bis zu 61% auf einer einzelnen NVIDIA A100 GPU für das LLaVA-OneVision-7B-Modell, während die Genauigkeit im Vergleich zur Volltoken-Baseline erhalten bleibt. Diese Verbesserungen erhöhen die Praktikabilität des Einsatzes von Video-LLMs in realen Produktionsszenarien erheblich.

Wie LoRA sich erinnert? Ein parametrisches Gedächtnisgesetz für das Feintuning von LLMs
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

May 28

ByZiwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang

Große Sprachmodelle (Large Language Models, LLMs) müssen kontinuierlich lernen und ihr Wissen aktualisieren, um in dynamischen realen Umgebungen effektiv zu bleiben. Obwohl die Niedrigrang-Anpassung (Low-Rank Adaptation, LoRA) häufig für solche Gedächtnisaktualisierungen verwendet wird, stützen sich bestehende Studien hauptsächlich auf qualitative Auswertungen nachgelagerter Aufgaben, sodass die quantitativen Kapazitätsgrenzen und die zugrundeliegende Dynamik exakten parametrischen Gedächtnisses weitgehend unerforscht bleiben. Um diese Lücke zu schließen, nutzen wir LoRA als kontrollierte Gedächtniskapazitätssonde im latenten Raum, um exaktes parametrisches Gedächtnis systematisch zu quantifizieren. Wir führen das Parametrische Gedächtnisgesetz (Parametric Memory Law) ein, ein robustes Potenzgesetz, das die Verlustreduktion \(\Delta L\) mit effektiven Parametern und Sequenzlänge verknüpft. Auf Token-Ebene offenbart eine feinkörnige Analyse einen deterministischen Phasenübergang, der zeigt, dass eine Vorhersagewahrscheinlichkeit von \(p > 0,5\) eine hinreichende Bedingung für wörtliches Abrufen unter gieriger Dekodierung darstellt. Angetrieben von diesen Erkenntnissen führen wir MemFT ein, eine schwellengeführte Optimierungsstrategie, die das Trainingsbudget dynamisch auf unterschwellige Token umverteilt. Empirische Auswertungen zeigen, dass MemFT die Gedächtnistreue und -effizienz verbessern kann. Der Code wird unter https://github.com/zjunlp/ParametricMemoryLaw veröffentlicht.

UniSteer: Textgesteuertes Flow Matching im Aktivierungsraum für vielseitige LLM-Steuerung
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

May 28

ByYingdong Shi, Ruiming Zhang, Changming Li, Zhiyu Yang, Kaixing Zhang, Jingyi Yu, Kan Ren

Auf aktivierungsbasierter Steuerung basierende Lenkung großer Sprachmodelle (LLMs) greift während der Inferenz in deren interne Repräsentationen ein und hat sich als effektives Paradigma zur Kontrolle von Verhaltensweisen wie Persona und Stil etabliert. Bestehende Methoden beruhen jedoch häufig auf festen Steuerungsrichtungen oder aufgabenspezifischen Interventionsmodulen, was die Anpassung an feinkörnige Konzepte und kompositionale Beschränkungen erschwert. Wir schlagen UniSteer vor, ein textgesteuertes Aktivierungsfluss-Matching-Modell, das eine bedingte Verteilung über Residualstrom-Aktivierungen aus natürlichsprachlichen Bedingungen erlernt. Anstatt für jedes Zielverhalten eine separate Intervention zu erstellen, erlernt UniSteer ein universelles bedingtes Geschwindigkeitsfeld im Aktivierungsraum. Zur Inferenzzeit führt UniSteer eine Flussinversion durch, indem es eine Quellaktivierung teilweise zu einem latenten Zustand transportiert und sie unter einer textuellen Zielbedingung regeneriert, bevor sie zurück in das eingefrorene LLM injiziert wird. Dasselbe bedingte Modell unterstützt die Aktivierungsraum-Klassifikation, indem das textuelle Label mit der niedrigsten Rekonstruktionsenergie ausgewählt wird. Experimente an drei Ziel-LLMs zeigen, dass UniSteer eine einheitliche Schnittstelle für Verhaltenskontrolle, Wahrhaftigkeitssteuerung, feinkörnige Konzeptsteuerung, Anweisungsbefolgung mit mehreren Einschränkungen und Aktivierungsraum-Klassifikation bietet.

Warum Ferne nach oben schaut: Untersuchung der räumlichen Repräsentation in Vision-Language-Modellen
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

May 28

ByCheolhong Min, Jaeyun Jung, Daeun Lee, Hyeonseong Jeon, Yu Su, Jonathan Tremblay, Chan Hee Song, Jaesik Park

Vision-Language-Modelle (VLMs) erzielen starke Leistungen bei räumlichen Reasoning-Benchmarks, doch bleibt unklar, ob dies auf strukturiertem 3D-Verständnis oder auf der Nutzung statistischer Abkürzungen in natürlichen Bildern beruht. Wir führen ein repräsentationsbasiertes Analyseverfahren ein, das minimale kontrastive Paare konstruiert, um zu messen, wie räumliche Achsen innerhalb von VLM-Einbettungen organisiert und entflochten sind. Unsere Analyse über mehrere Modellfamilien hinweg offenbart eine konsistente Verflechtung von Vertikale und Distanz: Modelle vermischen die vertikale Bildposition mit der Distanz, was den perspektivischen Bias natürlicher Fotografien widerspiegelt. Dieser Bias führt zu einer signifikanten Genauigkeitslücke zwischen perspektivisch konsistenten und kontraintuitiven Beispielen und verstärkt sich unter Datenskalierung, selbst wenn die Gesamtgenauigkeit der Benchmarks steigt. Wir zeigen weiterhin, dass Modelle mit ähnlichen Benchmark-Ergebnissen unterschiedliche interne Repräsentationen aufweisen können und dass diese Unterschiede die Genauigkeit und Robustheit über verschiedene räumliche Reasoning-Benchmarks hinweg vorhersagen. Um diesen Bias von der Verzerrung des Evaluierungssets zu isolieren, führen wir SpatialTunnel ein, einen synthetischen Benchmark, der darauf ausgelegt ist, räumliche Abkürzungsbias aufzudecken, indem er in natürlichen Bildern vorhandene häufige Korrelationen entfernt. Experimente bestätigen, dass die Verflechtung modellimmanent ist und dass Modelle mit gut getrennten räumlichen Achsen eine größere Robustheit aufweisen, was darauf hindeutet, dass gut strukturierte räumliche Repräsentationen zu zuverlässigerem räumlichen Reasoning über verschiedene Benchmarks hinweg führen. Code und Benchmark sind auf der Projektseite verfügbar: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

Native audiovisuelle Ausrichtung für die Generierung
Native Audio-Visual Alignment for Generation

May 28

ByLongbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He

Die gemeinsame Audio-Video-Generierung zielt darauf ab, zeitlich synchronisierte und semantisch kohärente visuell-akustische Inhalte zu synthetisieren. Allerdings stützen sich bestehende Open-Source-Methoden hauptsächlich entweder auf Zwei-Turm-Architekturen mit posteriorer Ausrichtung oder auf vollständig vereinheitlichte trimodale Designs, die textuellen Kontext, Audio und Video in einem gemeinsamen Raum vermischen. Ersteres schwächt die feinkörnige Audio-Video-Koevolution, während Letzteres die semantische Konditionierung mit niedriger Synchronisation koppelt. Um diese Einschränkungen zu adressieren, schlagen wir NAVA vor, ein Framework für native Audio-Visuelle Ausrichtung zur gemeinsamen Audio-Video-Generierung. NAVA basiert auf kontextkonditionierter nativer Audio-Visueller Ausrichtung: Es stellt zunächst die Audio-Video-Korrespondenz in einem dedizierten Interaktionsraum her und verwendet dann einen externen Kontext, um den gemeinsamen Entrauschungsprozess zu konditionieren. Konkret wird NAVA mit einer Align-then-Fuse-MMDiT-Architektur instanziiert, die von einer modalitätsbewussten Audio-Video-Ausrichtung zu einem modalitätsgeteilten gemeinsamen Entrauschen übergeht. Darüber hinaus führen wir die Timbre-in-Context-Konditionierung ein, um Referenz-Timbre-Hinweise mit entsprechenden Sprachabschnitten zu verknüpfen und so ein steuerbares Sprach-Timbre zu erreichen. Experimente auf Verse-Bench und Seed-TTS sowie eine Benutzerstudie zeigen, dass NAVA mit nur 6,3 Milliarden Parametern eine überlegene Videoqualität, präzise Audio-Video-Synchronisation, wettbewerbsfähige Audioqualität und eine stärkere Referenz-Timbre-Steuerbarkeit erreicht.

LoMo: Lokale Modalitätssubstitution für tiefere Vision-Language-Fusion
LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

May 28

ByFeng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang

Vision-Language-Modelle (VLMs) haben durch groß angelegtes Bild-Text-Training zur multimodalen Fusion beachtliche Fortschritte bei einer Vielzahl von Verständnis- und Schlussfolgerungsaufgaben erzielt. Im Idealfall sollte der Austausch einer textuellen Frage durch ihre als Bild dargestellte Entsprechung die Modellleistung im Wesentlichen unbeeinflusst lassen. In der Praxis führt ein solcher Modalitätstausch jedoch zu einer drastischen Leistungsverschlechterung. Wir führen dieses Problem der „Trägerempfindlichkeit“ auf eine inhärente Verzerrung in aktuellen Trainingskorpora zurück. In gängigen Datensätzen wie Bildbeschriftung, VQA, OCR und webbasierten verschränkten Daten sind Text und Bilder typischerweise in unterschiedlichen und asymmetrischen Rollen organisiert, wobei Text als sprachliche Abfrage und Bilder als visuelle Referenz dienen. Eine solche Datenverzerrung führt dazu, dass VLMs unterschiedliche Präferenzen für die Informationsbeschaffung über verschiedene Modalitäten hinweg aufweisen. Folglich gelingt es VLMs nicht, Repräsentationen semantisch äquivalenter Inhalte über textuelle und visuelle Träger hinweg zu angleichen, was die Modellschlussfolgerung bei Modalitätssubstitution angreifbar macht. Um dies zu adressieren, schlagen wir die Lokale Modalitätssubstitution (LoMo) vor, ein leichtgewichtiges, architekturunabhängiges Datenkuratierungsparadigma, das eine Überwachung für die modalitätsübergreifende Repräsentationsinvarianz zwischen semantisch äquivalenten Text- und Bildträgern bereitstellt. LoMo erreicht dies, indem es Eingabeaufforderungen einzelner Modalitäten in nahtlos verschränkte multimodale Sequenzen umformt. Es wählt dynamisch Zieltextspannen aus und wandelt diese in gerenderte Bilder um, wodurch dieselbe Semantik über „Text, Bild, Text“-Träger hinweg erhalten bleibt. Umfangreiche Experimente mit 13 verschiedenen multimodalen Benchmarks zeigen, dass LoMo die gesamte multimodale Schlussfolgerung signifikant verbessert und eine tiefere multimodale Fusion bewirkt. Insbesondere erzielt es konsistente Verbesserungen über grundlegende Modelle hinweg, mit einer Steigerung von 2,67 Punkten gegenüber dem Standard-SFT bei LLaVA-OneVision-1.5-8B und 2,82 Punkten bei Qwen3.5-9B.

LaRA: Schichtweise Repräsentationsanalyse zur Erkennung von Datenkontamination im RL-Post-Training
LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

May 28

ByMinju Gwak, Minseo Kwak, Dongseok Lee, Guijin Son, Alan Ritter, Jaehyung Kim

Reinforcement Learning (RL) Post-Training hat nachweislich die Argumentationsfähigkeit großer Sprachmodelle (LLMs) verbessert. Allerdings wurde das Problem der Datenkontamination im RL Post-Training bisher kaum untersucht, was möglicherweise die Generalisierung und die Bewertungszuverlässigkeit des Trainingsprozesses selbst untergräbt. Bestehende Erkennungsmethoden stützen sich hauptsächlich auf Signale auf Ausgabeebene wie Likelihood oder Entropie, die für RL-trainierte Modelle unzuverlässig werden, da RL das Verhalten durch Belohnungen auf Trajektorienebene und nicht durch Token-Wahrscheinlichkeiten formt. Wir schlagen LaRA vor, ein Framework zur schichtweisen Repräsentationsanalyse zur Erkennung von Kontamination in RL-post-trainierten LLMs. LaRA führt drei komplementäre Metriken ein, die Störungsempfindlichkeit, direktionalen Kollaps und lokale Repräsentationssteifigkeit unter kontrollierten Störungen messen. Wir stellen fest, dass Kontamination fortschreitende geometrische Abweichungen über die Schichten hinweg erzeugt, darunter verstärkte Störungsempfindlichkeit, stärkeren direktionalen Kollaps und erhöhte lokale Steifigkeit. Basierend auf unseren Erkenntnissen entwickeln wir außerdem ein Kontaminationserkennungsprotokoll, das Abweichungen auf Repräsentationsebene über Schichten und Metriken hinweg aggregiert. Experimente an RL-trainierten Reasoning-Modellen zeigen, dass unser Protokoll bestehende Basislinien auf Ausgabeebene zur Kontaminationserkennung übertrifft.

Skill0.5: Gemeinsame Internalisierung und Nutzung von Fähigkeiten für die Out-of-Distribution-Generalisierung im Agentischen Reinforcement Learning
Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

May 27

ByJiapeng Zhu, Jianxiang Yu, Yibo Zhao, Chengcheng Han, Qi Gu, Xunliang Cai, Xiang Li, Weining Qian

Die Ausstattung großer Sprachmodelle mit expliziten Fähigkeiten hat sich als vielversprechendes Paradigma für die Befähigung autonomer Agenten zur Lösung komplexer Aufgaben erwiesen. Agentenfähigkeiten lassen sich grundsätzlich in allgemeine Fähigkeiten für breiten kognitiven Transfer und aufgabenspezifische Fähigkeiten für die dynamische Ausführung unterteilen. Bestehende fähigkeitsbasierte Verstärkungslernmethoden (RL) erzwingen jedoch typischerweise eine starre Wahl zwischen vollständiger Externalisierung, die einen prohibitiven Kontext-Overhead verursacht, und vollständiger Internalisierung, die das Risiko von Überanpassung und Wissenskonflikten birgt. Um dieses Dilemma zu adressieren, schlagen wir Skill0.5 vor, ein neuartiges agentisches RL-Framework, das die Behandlung von Fähigkeiten explizit differenziert, indem es die Internalisierung allgemeiner Fähigkeiten mit der Nutzung aufgabenspezifischer Fähigkeiten kombiniert. Angetrieben von einem dynamischen, schwierigkeitsbewussten Router leitet Skill0.5 Aufgaben in verschiedene Meisterschaftsstufen, um maßgeschneiderte Optimierungsstrategien anzuwenden: Es internalisiert allgemeine Fähigkeiten durch privilegierte Destillation, um eine kognitive Grundlage für schwierige Aufgaben aufzubauen, und nutzt diagnostisches Sondieren bei einfachen Aufgaben, um Abkürzungen zu bestrafen und die spezifische Fähigkeitsnutzung zu erzwingen. Experimente auf ALFWorld und WebShop zeigen, dass Skill0.5 sowohl gedächtnisbasierte als auch fähigkeitsbasierte RL-Baselines übertrifft und Leistungssteigerungen sowohl innerhalb als auch außerhalb der Verteilungsannahme erzielt.

Xetrieval: Mechanistische Erklärung von Dense Retrieval
Xetrieval: Mechanistically Explaining Dense Retrieval

May 28

ByZhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong

Die Erklärung, warum dichte Retriever hohe Relevanzwerte vergeben, bleibt eine Herausforderung, da Retrieval-Entscheidungen durch undurchsichtige hochdimensionale Einbettungen getroffen werden. Bestehende Erklärungen konzentrieren sich oft auf Oberflächensignale wie lexikalische Übereinstimmungen, Token-Ausrichtungen oder nachträgliche textuelle Begründungen und bieten daher nur begrenzte Einblicke in die latenten Faktoren, die das Verhalten dichter Retriever auf Einbettungsebene prägen. Wir schlagen Xetrieval vor, einen mechanistischen Rahmen auf Einbettungsebene zur Erklärung dichter Retriever. Xetrieval führt zunächst einen leichtgewichtigen Reasoning-Internalisierer ein, der Chain-of-Thought-Reasoning direkt im Einbettungsraum mit einem einzigen Vorwärtsdurchlauf approximiert, wodurch Satzeinbettungen mit reasoning-orientierten Informationen angereichert werden, während aufwändige autoregressive Generierung vermieden wird. Anschließend zerlegt es diese reasoning-verstärkten Einbettungen in spärliche, menschlich interpretierbare Merkmale, die jeweils mit einer kohärenten natürlichsprachlichen Beschreibung assoziiert sind. Durch die Aggregation spärlicher Merkmalsüberschneidungen über mehrere dokumentseitige Perspektiven hinweg liefert Xetrieval merkmalsebenenbezogene Erklärungen einzelner Retrieval-Entscheidungen. Experimente mit verschiedenen Retrievern und Benchmarks zeigen, dass Xetrieval kohärente interpretierbare Merkmale aufdeckt, stärkere paarweise Interventionseffekte erzielt und eine merkmalsebenenbezogene Steuerung von Aufgaben unterstützt. Die Projektseite und der Quellcode sind verfügbar unter https://hihiczx.github.io/Xetrieval.

Wann sollten Modelle ihre Überzeugungen ändern? Kontextuelles Überzeugungsmanagement in großen Sprachmodellen
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

May 28

ByHaoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng

Langzeitinteraktionen erfordern, dass Sprachmodelle akkumulierte Informationen verwalten: wann sie ihren Zustand aktualisieren, wann sie ihn beibehalten und was ignoriert werden soll. Wir untersuchen diese Herausforderung als Kontextuelles Glaubensmanagement (Contextual Belief Management, CBM): die Aufrechterhaltung eines vorhergesagten Glaubenszustands, der mit formalen Evidenzen übereinstimmt, während aufgabenirrelevantes Rauschen isoliert wird. Um CBM messbar zu machen, führen wir BeliefTrack ein, eine abgeschlossene Benchmark-Umgebung, die Regelentdeckung und Schaltkreisdiagnose umfasst, wobei ein endlicher Glaubensraum und symbolische Verifikatoren eine genaue Evaluation auf Zug-Ebene ermöglichen. BeliefTrack diagnostiziert drei Fehlertypen: Fehlschlag beim Beibehalten (Failed Stay), Fehlschlag beim Aktualisieren (Failed Update) und Fehlschlag beim Isolieren (Failed Isolation). Über mehrere LLMs hinweg zeigen Standardmodelle schwerwiegende CBM-Fehler, während explizite glaubensverfolgende Prompts nur begrenzte Verbesserungen erzielen. Im Gegensatz dazu reduziert bestärkendes Lernen mit Belohnungen basierend auf dem Glaubenszustand die Fehlerraten im Durchschnitt um 70,9 %. Weitere Untersuchungen decken latente Dynamiken des Glaubenszustands hinter diesen Fehlern auf, und Steuerung auf Repräsentationsebene reduziert die Fehlerraten bei zwei Aufgaben um 46,1 %⁠\footnote{Code wird demnächst unter https://github.com/zjunlp/CBM veröffentlicht.}.

Farbiges-Rauschen-Diffusionssampling
Colored Noise Diffusion Sampling

May 28

ByHadar Davidson, Noam Issachar, Sagie Benaim

Diffusionsmodelle erzielen eine hochmoderne Bildsynthese, wobei ihre generativen Trajektorien grundlegend einen spektralen Bias aufweisen: Sie lösen zunächst niederfrequente globale Strukturen und später hochfrequente feine Details. Konventionelle Löser für stochastische Differentialgleichungen (SDE) berücksichtigen diese Dynamik nicht, injizieren naiv gleichmäßiges weißes Rauschen während des gesamten Prozesses und nutzen das endliche Energiebudget falsch. In dieser Arbeit etablieren wir einen mathematischen Rahmen, der die SDE-Inferenz als eine gezielte, frequenzentkoppelte Energieübertragung neu betrachtet. Aufbauend auf diesem Rahmen stellen wir Colored Noise Sampling (CNS) vor, einen neuartigen, trainingfreien stochastischen Löser. Anstatt gleichmäßiges weißes Rauschen zu injizieren, nutzt CNS einen dynamischen, zeit- und frequenzabhängigen Zeitplan, der die injizierte Energie effizienter auf strukturell ungelöste Frequenzbänder verteilt. Durch die aktive Ausnutzung des inhärenten spektralen Bias des Modells lenkt CNS die erzeugte Verteilung systematisch in Richtung der wahren Datenmannigfaltigkeit. Umfangreiche Experimente zeigen, dass CNS als strenger Plug-and-Play-Ersatz für den Inferenz-Sampler über verschiedene Architekturen (SiT, JiT, FLUX) hinweg deutlich besser abschneidet als Standard-ODE- und SDE-Baselines. Verglichen mit dem Standard-Sampling auf ImageNet-256 erzielt CNS erhebliche ungeführte FID-Reduktionen: von 8,26 auf 6,27 bei SiT-XL/2, von 32,39 auf 26,69 bei JiT-B/16 und von 11,88 auf 8,31 bei JiT-H/16, während mit Classifier-Free Guidance durchgängig relative FID-Verbesserungen erzielt werden. Die Projektseite ist verfügbar unter https://hadardavidson.github.io/CNS/.

Ist der Positionsbias bei dichten Retrievern eingebaut oder aus Daten gelernt?
Is Position Bias in Dense Retrievers Built In-or Learned from Data?

May 26

ByDaegon Yu, SeungYoon Han, Woomyoung Park

Dense Retriever weisen einen Positionsbias auf, indem sie Dokumente bevorzugen, deren abfragerelevante Informationen nahe am Anfang erscheinen, und verschlechtern die Retrieval-Leistung, wenn die Informationen weiter hinten stehen. Während sich frühere Arbeiten zum Positionsbias bei dichten Retrievern weitgehend auf architektonische Erklärungen konzentrierten, untersuchen wir, wie die positionsbezogene Verteilung von Evidenz in Trainingsdaten die Richtung des Bias auf Retrieval-Ebene beeinflusst. Um dies zu testen, erstellen wir synthetische positionsgezielte Trainingsdatensätze, in denen abfragerelevante Evidenz am Anfang, in der Mitte oder am Ende von Dokumenten erscheint, und stimmen acht architektonisch vielfältige vortrainierte Modelle unter positionsschiefen und ausgeglichenen Trainingsverteilungen fein. Auf Ranking-Ebene beobachten wir ein starkes gerichtetes Muster über die untersuchten Modelle hinweg: Schiefe Trainingsverteilungen begünstigen Evidenz an den entsprechenden Positionen. Ein positionsausgeglichenes Training reduziert die positionsbedingte Sensitivität auf positionsbewussten Benchmarks um 57–87 %, bei wettbewerbsfähiger mittlerer Retrieval-Leistung in unserer kontrollierten Umgebung. Analysen auf Repräsentationsebene deuten zudem darauf hin, dass Feinabstimmung häufig gelernte Positionspräferenzen umformt, obwohl in einigen Modellen bereits bestehende architektonische oder vortrainingsspezifische Tendenzen bestehen bleiben. Diese Ergebnisse identifizieren die Trainings-Positionsverteilung als einen wesentlichen kontrollierbaren Faktor für positionsabhängigen Bias auf Retrieval-Ebene und legen eine ausgewogene Datenkuratierung als praktische Minderungsstrategie nahe.

CausaLab: Eine skalierbare Umgebung für interaktive kausale Entdeckung für KI-Wissenschaftler
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

May 28

ByJunlin Yang, Dylan Zhang, Xiangchen Song, Qirun Dai, Xiao Liu, Yuen Chen, Aniket Vashishtha, Jing Shi, Chenhao Tan, Hao Peng

Wir stellen CausaLab vor, eine skalierbare Umgebung zur Bewertung interaktiver kausaler Entdeckung durch LLM-Agenten. Im Gegensatz zu früheren Bewertungen prüft CausaLab sowohl, ob ein Agent ein Problem mithilfe von Kausalevidenz lösen kann, als auch, ob seine Antwort auf einem getreuen, wiederhergestellten Kausalmechanismus beruht. Jede Episode platziert einen Agenten in einem synthetischen Labor: Er erhält zuvor erhobene Messdaten, greift in einen Manipulator-Kristall ein und sagt die Resonanzfrequenz eines zurückgehaltenen Reaktor-Kristalls vorher, der demselben Mechanismus unterliegt. Der verborgene datengenerierende Prozess ist ein zufällig gezogenes strukturelles Kausalmodell (SCM), sodass Erfolg sowohl die Wiederherstellung eines Kausalgraphen als auch der Strukturgleichungen erfordert – nicht das Abrufen von Vorwissen. Experimente zeigen eine anhaltende Kluft zwischen Vorhersage und Wiederherstellung des Mechanismus: In der rein beobachtenden 6-Knoten-Umgebung erreicht GPT-5.2-high eine Aufgabenkorrektheit von 92 %, jedoch nur einen All-Edge-F₁-Wert von 0,471. Gemischte Beobachtungs-Interventions-Strategien verbessern die strukturelle Treue, während reine Intervention selbst für starke Agenten schwierig bleibt. Wir identifizieren vorzeitiges Stoppen als eine Hauptschwäche und zeigen, dass Konsistenzverifikation diese abmildert. CausaLab trennt somit prädiktiven Erfolg von kausalem Verständnis und offenbart die Grenzen aktueller LLM-Agenten als experimentelle Kausaldenker.

AsyncTool: Bewertung der asynchronen Funktionsaufruffähigkeit in Multitask-Szenarien
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

May 27

ByKou Shi, Ziao Zhang, Shiting Huang, Avery Nie, Zhen Fang, Qiuchen Wang, Lin Chen, Huaian Chen, Zehui Chen, Feng Zhao

Auf großen Sprachmodellen (LLM) basierende Agenten haben starke Fähigkeiten bei der Nutzung externer Werkzeuge zur Lösung komplexer Aufgaben gezeigt. Bestehende Evaluierungen übersehen jedoch oft die zeitliche Dimension der Werkzeugnutzung, insbesondere die Auswirkungen der Werkzeugantwortlatenz, und beschränken sich in der Regel auf Einzelaufgaben-Szenarien. In realen Anwendungen müssen häufig mehrere Aufgaben gleichzeitig ausgeführt werden, und die Gesamteffizienz hängt davon ab, ob ein Agent die Leerlaufzeit während des Wartens auf Werkzeugantworten nutzen kann. Diese Fähigkeit bezeichnen wir als asynchrone Werkzeugaufrufe. Um diese zu evaluieren, schlagen wir AsyncTool vor, einen Benchmark zur Bewertung LLM-basierter Agenten in interaktiven Multitasking-Werkzeugumgebungen mit verzögerter Werkzeugrückmeldung. AsyncTool präsentiert gleichzeitig mehrere heterogene Aufgaben und simuliert realistische Werkzeugantwortlatenzen während der Ausführung. Mithilfe einer hybriden Datenentwicklungsstrategie konstruieren wir einen vielfältigen, asynchronen Multitasking-Datensatz, der mehrere Szenarien und Werkzeugnutzungsmuster abdeckt. Wir evaluieren Modelle auf Schritt-, Teilaufgaben- und Aufgabenebene und führen effizienzorientierte Metriken ein, um Aufgabenkoordination und Bearbeitungseffizienz zu messen. Umfangreiche Experimente zeigen, dass verzögerte Werkzeugrückmeldungen erhebliche Herausforderungen für aktuelle Agenten darstellen und zu deutlichen Leistungseinbußen führen. Modelle, die Aufgabenwechsel, Abhängigkeitsverfolgung und Zustandserhaltung besser koordinieren, erzielen auf AsyncTool stärkere Leistungen. Unsere Analyse identifiziert zentrale Fehlermodi aktueller werkzeugnutzender Agenten und liefert praktische Einblicke für das Design zukünftiger Systeme mit verbesserten zeitlichen Denk- und Koordinationsfähigkeiten.

Wenn Cloud-Agenten auf Geräte-Agenten treffen: Lehren aus hybriden Multi-Agenten-Systemen
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

May 28

ByCorrado Rainone, Davide Belli, Bence Major, Arash Behboodi

Der Entwurfsraum der agentischen KI-Inferenz erstreckt sich über zwei Extreme: hochmoderne große Sprachmodelle (Large Language Models, LLMs), die typischerweise in der Cloud gehostet werden und eine starke Leistung über ein breites Aufgabenspektrum zu erheblich hohen Kosten bieten, und kosteneffizientere kleine Sprachmodelle (Small Language Models, SLMs), die sich für die Inferenz auf dem Gerät eignen. Hybride Multi-Agenten-Systeme (Multi-Agent Systems, MAS), die Modelle auf dem Gerät und in der Cloud kombinieren, bieten einen vielversprechenden Mittelweg, führen aber auch einen komplexen und wenig verstandenen Entwurfsraum ein, in dem Aufgabenrichtigkeit, monetäre Kosten und Energieverbrauch am Rand eng miteinander verknüpft sind; in Ermangelung allgemeiner Entwurfsprinzipien werden hybride Komponenten, obwohl nicht die häufigste Wahl, typischerweise durch Ad-hoc-Entscheidungen eingeführt, die auf bestimmte Domänen zugeschnitten sind. In dieser Arbeit untersuchen wir diesen Entwurfsraum systematischer. Wir passen zwei repräsentative MAS-Architekturen an, um hybride Inferenz zu unterstützen, und untersuchen, wie einzelne Designentscheidungen den Betriebspunkt entlang der Pareto-Grenze von Leistung, Kosten und Performanz verschieben. Unsere Ergebnisse zeichnen ein nuanciertes Bild des hybriden MAS-Designs: Während SLMs effektiv von LLM-Unterstützung profitieren können, ist die optimale Architektur stark aufgabenabhängig, und höhere Rechenleistung auf Frontier-Ebene führt nicht durchgängig zu besserer Performanz.

Auf dem Weg zur verifizierbaren multimodalen Tiefenforschung: Ein Multi-Agenten-Framework für die verschränkte Berichtsgenerierung
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

May 28

ByChenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou

Große Sprachmodelle (LLMs) haben autonome Agenten von Deep Search, das präzise faktenbasierte Antworten abruft, zu Deep Research weiterentwickelt, das verstreute Belege zu ausführlichen Berichten synthetisiert. Die überprüfbare multimodale Tiefenrecherche bleibt jedoch aufgrund der offenen Synthese ohne deterministische Grundwahrheit und der Notwendigkeit, textliche Argumente mit visuellen Belegen zu verflechten, eine Herausforderung. Wir stellen Ptah vor, ein Multi-Agenten-System zur Erstellung verschränkter Berichte. Ptah orchestriert den Lebenszyklus von der Benutzeranfrage bis zum gerenderten Webb ericht über die Phasen Planung, Recherche und Schreiben, in denen spezialisierte Agenten visuell bewusste Pläne erstellen, behauptungsgestützte Belege sammeln, quellenkonforme Bilder in einem visuellen Arbeitsgedächtnis verwalten und Berichte durch deklarative multimodale Werkzeugnutzung verfassen. Ein Verifizierer-Agent dient als Akzeptanzfunktion des Systems und setzt während des gesamten Arbeitsablaufs faktische Fundierung, Zitationstreue und modalübergreifende Konsistenz durch. Wir führen ferner PtahEval ein, ein Evaluationsprotokoll, das bestehende Benchmarks um Bewertungen auf Bildebene und Präsentationsebene erweitert. Experimente mit Deep-Research-Benchmarks zeigen, dass Ptah im Vergleich zu starken Baselines zuverlässigere, visuell informativere und benutzbarere menschenorientierte multimodale Berichte erzeugt.

UI-KOBE: Wissensorientierte Verhaltenserkundung für leichte graphgeführte GUI-Agenten
UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

May 28

ByYuxiang Chai, Han Xiao, Xinyu Fu, Jinpeng Chen, Rui Liu, Hongsheng Li

Jüngste Fortschritte bei mobilen GUI-Agenten haben ein großes Potenzial für die Automatisierung mobiler Aufgaben gezeigt, jedoch sind die meisten effektiven Systeme nach wie vor auf große Vision-Language-Modelle für das Bildschirmverständnis und langfristige Planung angewiesen. Kleine GUI-Agenten, die direkt auf mobilen Geräten eingesetzt werden können, sind für die praktische Nutzung attraktiver, da sie geringere Inferenzkosten und einen besseren Schutz sensibler geräteinterner Informationen bieten. Aufgrund der begrenzten Modellkapazität bleiben solche leichtgewichtigen Agenten jedoch unzuverlässig, wenn sie GUI-Aufgaben allein auf Basis von Bildschirmaufnahmen vollständig planen und ausführen sollen. Wir stellen UI-KOBE (Knowledge-Oriented Behavior Exploration) vor, ein Framework, das leichtgewichtige mobile GUI-Agenten durch wiederverwendbares, app-spezifisches Graphwissen verbessert. UI-KOBE erkundet zunächst autonom eine mobile Anwendung und erstellt einen App-Wissensgraphen, in dem Knoten verschiedene UI-Zustände und Kanten ausführbare Übergänge darstellen. Zur Laufzeit nutzt ein leichtgewichtiger GUI-Agent den Graphen als externe Orientierung: Anhand einer Benutzeraufgabe und des aktuellen Bildschirmfotos identifiziert er den aktuellen Graphenknoten und wählt zwischen Selbstschleifen-Aktionen, benachbarten Übergängen, Aufgabenabschluss oder Fallback-Freihandlungen, die mit diesem Knoten verbunden sind. Indem UI-KOBE Laufzeitentscheidungen durch app-spezifische Graphenführung unterstützt, verringert es die Belastung durch eine vollständige GUI-Planung und hilft leichten Modellen, mobile GUI-Aufgaben effektiver auszuführen. Dies stellt einen praktischen Schritt hin zu effizienten, interpretierbaren und datenschutzbewussten, geräteinternen GUI-Agenten dar.

LiteCoder-Terminal: Skalierung von Langzeit-Terminal-Umgebungen für das Lernen von Sprachagenten
LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

May 28

ByXiaoxuan Peng, Kaiqi Zhang, Xinyu Lu, Boxi Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

Die Beherrschung von Terminalumgebungen erfordert Sprachagenten, die zu mehrschrittiger Planung, feedbackgestützter Ausführung und dynamischer Zustandsanpassung fähig sind. Das Training solcher Agenten wird derzeit jedoch durch die Abhängigkeit von gescrapten externen Repositories eingeschränkt, was die Domänenvielfalt, die Kontrollierbarkeit der Umgebung und die gezielte Behebung spezifischer Fähigkeitsdefizite limitiert. Wir stellen LiteCoder-Terminal-Gen vor, eine null-Abhängigkeits-Synthesepipeline, die autonom ausführbare und verifizierbare Terminal-Trainingsumgebungen direkt aus Domänenspezifikationen generiert. Mit diesem Framework erstellen wir zwei großskalige Ressourcen: LiteCoder-Terminal-SFT, bestehend aus 11.255 Experten-Trajektorien aus 10 Domänen, und LiteCoder-Terminal-RL mit 602 verifizierbaren Umgebungen zur Präferenzoptimierung auf Trajektorienebene. Überwachtes Feintuning von Modellen der Qwen-Familie auf unserem SFT-Datensatz ergibt Agenten, die ihre Basisvarianten deutlich übertreffen. Insbesondere erreicht unsere 32B-Variante 29,06 %, 18,54 % bzw. 34,00 % pass@1 auf Terminal Bench 1.0, 2.0 und Pro. Darüber hinaus führt die Anwendung der Direkten Multi-Turn-Präferenzoptimierung (DMPO) auf unseren RL-Umgebungen zu weiteren Leistungssteigerungen. Diese Ergebnisse zeigen systematisch, dass vollständig synthetische, ausführbare Umgebungen ein skalierbares und verifizierbares Überwachungssignal für die Beherrschung komplexer, realer Kommandozeilen-Workflows bieten.

PhyGenHOI: Physikbewusste 4D-Generierung dynamischer Mensch-Objekt-Interaktionen
PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

May 28

ByOmer Benishu, Gal Fiebelman, Sagie Benaim

Wir befassen uns mit der Aufgabe, physikalisch akkurate und visuell treue 4D-Mensch-Objekt-Interaktionen (HOI) zu generieren. Gegeben ein statischer 3D-Mensch und ein Zielobjekt, dargestellt als 3D-Gauß-Splats (3DGS), ist es unser Ziel, dynamische Szenen zu synthetisieren, in denen der Mensch aktiv mit dem Objekt interagiert, z. B. durch Schlagen oder Treten, gemäß einem vorgegebenen Eingabetext. Zu diesem Zweck führen wir PhyGenHOI ein, ein neuartiges Framework, das generative menschliche Bewegung mit einer expliziten physikalischen Objektsimulation koppelt. Wir modellieren den Menschen als semantischen Agenten, der durch ein Motion Diffusion Model (MDM) gesteuert wird, und das Objekt als physikalischen Agenten, der mittels der Material Point Method (MPM) simuliert wird, wobei wir 3D-Gauß-Verteilungen als eine einheitliche, differenzierbare Darstellung nutzen. Wir überwachen ihre Interaktion durch drei gekoppelte Mechanismen: (1) einen gefensterten Attraktionsverlust (Windowed Attraction Loss), der generative Bewegung zeitlich synchronisiert, um das Objekt abzufangen; (2) einen kontaktgetriebenen Resimulationsschritt (Contact-Driven Re-simulation), der bei Impakt einen physikalisch konsistenten Impulsübertrag auslöst; und (3) ein maskiertes Video-SDS-Ziel (Masked Video-SDS objective), das videobasierte Priors einbringt, um die Kontakttreue zu verbessern. Experimente zeigen, dass PhyGenHOI physikalisch konsistente 4D-HOI über verschiedene Aktionen, Menschen und Objekte hinweg generiert und dabei Baselines übertrifft. Projektseite und Videos: https://omerbenishu.github.io/PhyGenHOI/

PRISM: Ein mehrdimensionaler Benchmark zur Evaluierung von LLM-Peer-Reviewern
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

May 27

ByNgoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen

Der rasche Anstieg der Einreichungen bei Machine-Learning-Tagungen hat das wissenschaftliche Peer-Review-System belastet und das Interesse an LLM-basierten automatischen Gutachtern verstärkt. Allerdings ist weiterhin unzureichend verstanden, wie gut diese Systeme tatsächlich sind – insbesondere im Vergleich zu menschlichen Gutachtern beim Erkennen wissenschaftlicher Lücken. In dieser Arbeit stellen wir PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment) vor, ein Benchmarking-Framework, das die Begutachtungsqualität in vier Dimensionen bewertet: Analysetiefe, Neuheitsbewertung, Fehleridentifikation & Priorisierung von Hauptproblemen sowie mehrdimensionale Konstruktivität. Im Gegensatz zu den meisten bestehenden Evaluationen, die auf oberflächlichen Metriken wie ROUGE und BLEU basieren oder auf unkontrolliertem LLM-als-Richter-Prompting beruhen, das fließende Sprachbeherrschung mit Genauigkeit vermischt, verankert PRISM jede Dimension in Argumentationsanalyse, retrievalgestützter Verifizierung und konsensbasierter Bewertung. Wir wenden PRISM an, um fünf führende automatische Gutachtersysteme sowie menschliche Gutachter anhand eines stratifizierten Korpus aus Begutachtungen von ICLR, ICML und NeurIPS zu bewerten. Die Ergebnisse zeigen, dass LLMs menschliche Gutachter in einzelnen Dimensionen erreichen oder übertreffen können: vergleichbare Analysetiefe, stärkere Neuheitsverifizierung und hochpräzise Kritikpriorisierung. Allerdings erreicht kein einziges System durchgängig die ausgewogene Leistung der menschlichen Basislinie über alle Dimensionen hinweg. Jedes weist ein eigenes Spezialisierungsprofil mit charakteristischen blinden Flecken auf – Fehlermodi, die aggregierte Metriken vollständig übersehen. Die Implikation ist, dass LLM-Gutachter am besten als gezielte Ergänzungen zur menschlichen Begutachtung zu verstehen sind, die in bestimmten Dimensionen wirksam, als eigenständiger Ersatz jedoch unzuverlässig sind. Unsere Demo und zentrale Ergebnisse finden Sie unter https://khanhthanhdev.github.io/prism-page/.

RUBRIC-ARROW: Alternierende punktweise Rubrik-Belohnungsmodellierung für das LLM-Nachtraining in nicht-verifizierbaren Domänen
RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

May 27

ByHaoxiang Jiang, Zihan Dong, Tianci Liu, Wanying Wang, Ran Xu, Tony Yu, Linjun Zhang, Haoyu Wang

Punktweise Belohnungsmodellierung liefert kritische Signale für das Post-Training von Large Language Models (LLMs), hat jedoch Schwierigkeiten mit absoluten Bewertungen in subjektiven, nicht verifizierbaren Umgebungen. Rubrikenbasierte Methoden begegnen diesem Problem, indem sie die Bewertung in explizite Kriterien zerlegen, doch bestehende Ansätze sind typischerweise auf Frontier-LLMs angewiesen und leiden unter Gleichständen, die durch harte boolesche Aggregation verursacht werden. Wir stellen RUBRIC-ARROW vor, ein alternierendes Framework, das gemeinsam einen Rubrikengenerator und einen rubrikenbedingten Bewerter trainiert, wobei dessen RL-Phase ausschließlich paarweise Präferenzdaten nutzt. Unsere Methode koppelt eine wahrscheinlichkeitsbasierte Bewertungsregel, die Gleichstände reduziert, mit phasenspezifischen präferenzbasierten Belohnungen und einem alternierenden GRPO-Schema, die gemeinsam den punktweisen Bewerter trainieren. Umfangreiche Experimente zeigen, dass RUBRIC-ARROW eine wettbewerbsfähige Genauigkeit der Belohnungsmodellierung erreicht und konsistente Verbesserungen für das nachgelagerte Policy-Post-Training erzielt.

DynaFLIP: Neubetrachtung der Robotik-Wahrnehmung durch eine von trimodalen Dynamiken geleitete Repräsentation
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

May 28

ByJusuk Lee, Seungjae Lee, Jonghun Shin, Hoseong Jung, Sungha Kim, Daesol Cho, H. Jin Kim, Jia-Bin Huang, Furong Huang

Robotermanipulation hängt entscheidend von der Wahrnehmung ab, die die handlungsrelevanten Aspekte einer Szene bewahrt. Dennoch basieren die meisten Lernpipelines für Roboter auf visuellen Encodern, die für statische Erkennung oder Vision-Language-Alignment vortrainiert wurden, sodass das Bewegungsverständnis nachgelagerten Policies überlassen bleibt. Wir stellen DynaFLIP vor, ein dynamikbewusstes multimodales Vortrainingsframework, das das Bewegungsverständnis in die Wahrnehmung vorverlagert. Wir konstruieren Bild-Sprache-3D-Fluss-Tripel aus heterogenen menschlichen und Roboter-Videos und nutzen diese Tripel als Überwachung während des Trainings, um einen rein bildbasierten Encoder zu formen. Unser Hauptgedanke besteht darin, die drei Modalitäten zu einem kleinen Simplexvolumen im gemeinsamen hypersphärischen Raum zu drängen – ein kleineres Simplexvolumen bedeutet eine stärkere Ausrichtung. Um die geometrische Mehrdeutigkeit und den trivialen Kollaps der naiven Volumenminimierung zu vermeiden, kombinieren wir die Simplexvolumen-Minimierung mit einem Cosinus-Regularisierer und einem kontrastiven Ziel. Unsere Analysen zeigen, dass DynaFLIP sich auf steuerungsrelevante Regionen konzentriert, die für die Manipulation entscheidend sind. Die resultierenden dynamikbewussten Repräsentationen dienen als wiederverwendbare visuelle Backbones und übertreffen durchweg verschiedene nachgelagerte Policies, einschließlich VLAs. Wir validieren dies in verschiedenen Simulations- und Realweltszenarien, mit Verbesserungen von bis zu +22,5 % in Out-of-Distribution-Szenarien. Unsere Ergebnisse legen nahe, dass die Generalisierung von Robotern verbessert wird, wenn visuelle Repräsentationen darauf trainiert werden, nicht nur zu codieren, was vorhanden ist, sondern auch, wie sich die Welt unter Aktion verändert.

Verifizierbare Belohnungen jenseits von Mathematik und Code: Leichtgewichtige korpusgestützte Prozessüberwachung für die Beantwortung faktischer Fragen
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

May 28

ByShicheng Fan, Haochang Hao, Dehai Min, Weihao Liu, Philip S. Yu, Lu Cheng

Die Anwendung von bestärkendem Lernen zur Verbesserung der faktischen Genauigkeit bei wissensintensiver Fragebeantwortung steht vor einem Dilemma bei der Gestaltung der Belohnungen. Belohnungen auf Antwortebene bieten nur eine grobe Überwachung und können im Argumentationspfad nicht zwischen korrekten und inkorrekten Aussagen unterscheiden. Alternativen auf Satzebene liefern ein feinkörnigeres Feedback, stützen sich jedoch typischerweise auf NLI-Prüfer, LLM-Richter oder Wissensverifikations-Pipelines, deren Einsatz im RL-Maßstab teuer ist und die insbesondere bei Fakten zu seltenen Entitäten oft unzuverlässig sind – dort, wo präzise Belohnungssignale besonders wichtig sind. Wir schlagen CorVer (Corpus Verify) vor, eine leichte, plug-in-fähige Prozessbelohnung, die neuronale Prüfer durch ein korpusbasiertes Signal ersetzt, das aus Wikipedia-Kookkurrenzstatistiken gewonnen wird. CorVer weist Belohnungen auf Satzebene zu und überträgt diese über eine einfache Zuordnung auf Token-Vorteile. Dazu werden lediglich ein 0,5B-Extraktor und eine einzelne Korpusabfrage pro Satz benötigt. Über 30 (Modell, Benchmark)-Zellen, die sechs instruktionsabgestimmte Modelle (3B bis 14B) und fünf QA-Benchmarks abdecken, verbessert CorVer die Ausgangsbasis in jeder einzelnen Zelle, mit einem durchschnittlichen Zugewinn von +4,1 Prozentpunkten bei TriviaQA. Außerdem übertrifft CorVer vier neuronale Prüfbaselines in 18 von 20 Zellen unter deren durchführbaren Konfigurationen und ist dabei 4,8- bis 8,4-mal schneller im Training.

ChildVox: Ein Benchmark für Sprache, Audio und große Audio-Sprachmodelle zum Verstehen und Charakterisieren von Geräuschen in der Kindheit
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

May 28

ByTiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan

Wir präsentieren ChildVox, einen neuartigen Benchmark zur Charakterisierung der vielfältigen akustischen Signale, mit denen Kinder kommunizieren. Insbesondere umfasst ChildVox die gesamte Entwicklungstrajektorie von der Geburt bis zum Schulalter und deckt physiologische Laute, nicht-linguistische Vokalisationen, kanonische Silben und gesprochene Sprache ab. ChildVox integriert mehr als 20 Unteraufgaben aus 17 kindzentrierten Audio- und Sprachdatensätzen und ermöglicht so einen systematischen korpus- und domänenübergreifenden Vergleich. Wir evaluieren eine repräsentative Auswahl von Audio- und Sprach-Fundamentmodellen, darunter selbstüberwachte, ASR-orientierte und große Audio-Sprach-Modelle, bei Aufgaben wie der Klassifikation physiologischer Laute, der Modellierung von Vokalisationen und kanonischen Silben sowie der Bewertung und Erkennung von Sprachqualität. Die Benchmark-Ergebnisse zeigen, dass ChildVox eine Reihe leistungsstarker Modelle zur Erkennung eines breiten Spektrums akustischer Signale von Kindern bereitstellt und so nachgelagerte Anwendungen wie die Charakterisierung des Sprachniveaus von Kindern und die Verfolgung der Sprachproduktion mit zunehmendem Alter unterstützt.

WorldMemArena: Bewertung des multimodalen Agentengedächtnisses durch Aktions-Welt-Interaktion
WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

May 28

ByChengzhi Liu, Yuzhe Yang, Sophia Xiao Pu, Yepeng Liu, Lin Long, Yichen Guo, Nuo Chen, Zhaotian Weng, Elena Kochkina, Simerjot Kaur, Charese Smiley, Xiaomo Liu, James Zou, Sheng Liu, Yuheng Bu, Songyou Peng, Xin Eric Wang

Multimodale große Sprachmodelle werden zunehmend als langfristig agierende Agenten eingesetzt, bei denen das Gedächtnis mehr leisten muss als bloßes Abrufen: Es muss eine sich entwickelnde Welt verfolgen, Veraltetes revidieren und zur Entscheidungszeit die richtigen Belege hervorholen. Bestehende Benchmarks messen das Abrufen über statische Dialoge, reduzieren das Gedächtnis auf eine einzige Endaufgabengenauigkeit und reduzieren visuelle Beobachtungen auf Bildunterschriften, sodass wir nicht in der Lage sind, Fehler auf das Schreiben, die Wartung, das Abrufen oder die Nutzung zu lokalisieren. Der Aufstieg von Agenten-Systemen, die ihr eigenes Gedächtnis verfassen, verschärft diese Lücke, da wir keine prinzipielle Möglichkeit haben, handgefertigte Pipelines mit selbstverwaltenden Alternativen zu vergleichen. Um diese Lücken zu schließen, formulieren wir multimodales Agentengedächtnis als einen Aktions-Welt-Interaktionszyklus mit einem beobachtbaren vierstufigen Lebenszyklus und setzen ihn in WorldMemArena um: 400 multi-session multimodale Aufgaben, die lebenslange Evolution (sich entwickelnde persönliche und Aufgabenstände) und agentische Ausführung (Gedächtnis aus realen Beobachtungen, Aktionen und Rückmeldungen) umfassen, annotiert mit goldenen Gedächtnispunkten, Aktualisierungen, Ablenkungen und Beweisketten für eine stufenweise Diagnose. Dies ermöglicht den ersten direkten Vergleich von langkontextuellen, manuell entworfenen (RAG und externe Gedächtnissysteme) und systembasierten Gedächtnisagenten. Die Ergebnisse zeigen, dass: (1) besseres Gedächtnisschreiben und -speichern keine bessere Leistung garantieren; (2) multimodales Gedächtnis immer noch Schwierigkeiten hat, visuelle Belege vollständig zu nutzen; (3) Systeme über Domänen hinweg instabil sind und bei realistischen agentischen Trajektorien absinken; und (4) systembasiertes Gedächtnis flexibler ist, aber teuer und weniger zuverlässig bleibt.

REPOT: Wiederherstellbares Program-of-Thought durch Prüfpunkt-Reparatur
REPOT: Recoverable Program-of-Thought via Checkpoint Repair

May 28

ByParsa Mazaheri

Ein One-Shot-Program-of-Thought (PoT) erzeugt ein Python-Programm, das einen Plan mit primitiven Aktionen ausgibt; eine einzige ungültige Aktion macht die Trajektorie stillschweigend ungültig. Wir stellen RePoT (Recoverable PoT) vor: eine deterministische verifizierte Wiederholung, die den Plan durch die Umgebung bis zu seinem ersten ungültigen Übergang durchläuft, gefolgt von einem einzigen LLM-Aufruf, der ab dem verifizierten Präfix fortfährt. RePoT kostet bei den ~14 % der Probleme, bei denen PoT scheitert, maximal einen zusätzlichen LLM-Aufruf. RePoT übertrifft PoT in vier Closed-Model-Konfigurationen auf PuzzleZoo-775 um +3 bis +11 Prozentpunkte und erreicht mit gpt-5.4-mini-medium einen Spitzenwert von 96,9 % gegenüber 86,3 %; gegen die matched-budget PoT-Retry-Baseline gewinnt RePoT bei Gemini deutlich (+3,8 pp, 95 %-KI [+2,2; +5,4]), liegt bei GPT-medium und Claude innerhalb der Stichprobenvarianz und verliert bei GPT-mini – ein Fähigkeitsskalierungsmuster, das wir mit Adaptive RePoT ansatzweise adressieren, einem regelbasierten Dispatcher, der basierend auf der Länge des verifizierten Präfix zwischen der Reparatur des Suffix und einem neuen PoT-Versuch (vorläufig) entscheidet. Wir replizieren die Ergebnisse auf PlanBench Blocksworld (+1,1 bis +11,4 pp) und auf vier Open-Weights-Modellen (+3,3 bis +20,0 pp bei drei von vier). Auf Derail-550, unserem kontrollierten Wiederherstellungs-Benchmark, erzielen alle Bedingungen mit Zugriff auf Checkpoint-Informationen auf GPT-medium ≥30 % und auf Gemini ≥70 %, während reines Fehler-Feedback ≤3,1 % erreicht – was zeigt, dass Checkpoint-Informationen und nicht das spezifische verifizierte Präfix-Ende das tragende Wiederherstellungssignal sind.

Warum größere Modelle mehr lernen: Auswirkungen von Kapazität, Interferenz und Retention seltener Aufgaben
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

May 28

ByJing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Kyle Lampinen, Christopher Potts, Ekdeep Singh Lubana

Größere Modelle lernen Aufgaben, die kleinere Modelle nicht lernen. Was ist die Ursache dieses Phänomens? Wir entwickeln ein einfaches phänomenologisches Argument, das darauf hindeutet, dass Potenzgesetz-Skalierung bereits nahelegt, dass ein größeres Modell in der Lage sein wird, einen Teil der Datenverteilung zu lernen, den ein kleineres Modell nicht lernen kann – selbst bei unendlich vielen Trainingsdaten. Um diese Behauptung zu validieren und ihre Ursachen zu identifizieren, untersuchen wir die Auswirkungen der Modellskalierung auf ein synthetisches Setting, das aus einer Mischung von Aufgaben besteht, die monotone Skalierungskurven aufweisen. Die Ergebnisse deuten auf eine dateninduzierte Konkurrenz um Ressourcen (Neuronen) hin. Insbesondere weisen kleinere Modelle ihre Neuronen Aufgaben mit hoher Häufigkeit oder geringer Komplexität zu und lernen daher Lösungen, die bei seltenen und komplexen Aufgaben schlecht abschneiden. Darüber hinaus tritt dies sogar dann auf, wenn Lösungen existieren, die die gewünschte Aufgabe ausdrücken können. Anschließend bewerten wir, wie ein größeres Modell diesen datenzentrierten Engpass umgeht, und stellen fest, dass dies auf einen reduzierten Interferenzmechanismus zurückzuführen ist: Größere Modelle können ausreichend Ressourcen für häufige Aufgaben bereitstellen, sodass die Gradientenaktualisierungen für diese Aufgaben schwach werden, was bedeutet, dass sie die Merkmale seltener Aufgaben nicht überschreiben, während diese sich langsam ansammeln. Schließlich validieren wir diese Behauptungen weiter, indem wir OLMo-Modelle (4M bis 4B Parameter) auf neuartigen Aufgaben unterschiedlicher Häufigkeit und Komplexität vortrainieren. Die Ergebnisse spiegeln die unserer synthetischen Datensimulationen wider: Nur die größeren OLMo-Modelle lernen die seltenen und komplexen Aufgaben, und diese größeren Modelle betten mehr Aufgabenmerkmale in ihre Repräsentationen ein und zeigen weniger Gradienteninterferenz zwischen Aufgaben. Insgesamt bieten wir eine datenzentrierte Erklärung dafür, warum größere Modelle Aufgaben lernen, die kleinere Modelle nicht lernen. Dies hilft zu erklären, warum größere Modelle in der Praxis besser sind, und kann praktische Fragen zur Modellgröße und zu Trainingsdatenmischungen beantworten.

NeuROK: Generative 4D Neuronale Objektkinematik
NeuROK: Generative 4D Neural Object Kinematics

May 28

ByChen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu

Datengetriebene Ansätze haben das 3D-Sehen revolutioniert und ermöglichen es Transformatoren, statische 3D-Objekte effektiv zu rekonstruieren und zu generieren. Die Erzeugung simulativer 4D-Dynamiken – realistische zeitliche Verformungen statischer Objekte unter verschiedenen physikalischen Bedingungen – bleibt jedoch trotz ihrer Bedeutung für den Aufbau umfassender 3D-Weltmodelle eine Herausforderung und oft ad hoc. Die meisten bestehenden Methoden gehen von einem vordefinierten physikalischen Modell aus und verwenden Systemidentifikation zur Parameterschätzung, was diese Methoden auf bestimmte Kategorien und kleine Datensätze beschränkt. Wir schlagen vor, dass diese Einschränkungen durch das Erlernen einer datengetriebenen kinematischen Zustandsparametrisierung für objektzentrierte physikalische Systeme überwunden werden können. Konkret lernen wir sowohl einen latenten Raum, der alle möglichen Zustände des Objekts repräsentiert, als auch einen Decoder, der jedes abgetastete Latent auf eine plausibel verformte Form des Objekts abbildet. Wir bezeichnen diese Parametrisierung als Neuronale Objektkinematik (NeuROK) und trainieren ein Transformer-basiertes Encoder-Decoder-Modell auf einem kuratierten großskaligen 4D-Datensatz. Diese Formulierung und das gelernte Modell vereinfachen die Generierung simulativer Dynamiken erheblich, da wir die Dynamik nur innerhalb eines niedrigdimensionalen latenten Raums aus der Perspektive der Lagrange-Mechanik der klassischen Physik betrachten müssen. Wir demonstrieren die Wirksamkeit und Allgemeinheit dieses neuronalen Simulationsframeworks über verschiedene dynamische Objekttypen hinweg und zeigen klare Vorteile gegenüber früheren Arbeiten. Projektseite: https://chen-geng.com/neurok

AdaState: Selbstentwickelnde Anker für die Generierung von Streaming-Videos
AdaState: Self-Evolving Anchors for Streaming Video Generation

May 28

ByYusuf Dalva, Pinar Yanardag

Autoregressive Videodiffusionsmodelle erzeugen Streaming-Video, indem sie Frames sequenziell produzieren und jeden Chunk auf zuvor generierten Inhalten konditionieren. Diese Modelle sind strukturell am ersten Frame verankert: Seine Schlüssel-Wert-Repräsentation nimmt eine privilegierte Position im Aufmerksamkeits-Cache ein und dient während der gesamten Generierung als primäre Szenenreferenz. Als sauberste und fehlerfreieste Position im Cache zieht dieser Anker übermäßige Aufmerksamkeit auf sich, unterdrückt Videodynamiken und fixiert die Szenenkomposition auf die anfängliche Perspektive, selbst wenn sich die Szene natürlicherweise weiterentwickelt. Das Ergebnis ist ein zeitlich flaches Video, in dem Bewegung, Kamerabewegung und Szenenfortschritt zugunsten statischer Konsistenz gedämpft werden. Um dies zu adressieren, ersetzen wir den statischen Anker durch einen adaptiven Zustand, eine versteckte Latente, die das Modell bei jedem Chunk zusammen mit den Inhalten entrauscht, aber nie rendert. Anstatt auf einen eingefrorenen ersten Frame zu referenzieren, generiert das Modell bei jedem Schritt seinen eigenen Szenenanker, indem es sowohl auf den vorherigen Zustand als auch auf den aktuellen Inhalt achtet, wodurch eine Referenz entsteht, die sich mit dem generierten Inhalt weiterentwickelt. Im Gegensatz zur standardmäßigen Videogenerierung, die eine absolute Vorstellung von Zeit kodiert, behandelt unsere Formulierung Zeit als relativ: Jeder Generierungsschritt sieht dieselbe Positionsstruktur, unabhängig davon, wie weit die Generierung fortgeschritten ist, und der Zustandsübergang ist bei jedem Chunk identisch. Zusammen führen diese Eigenschaften eine Rekurrenz in den Generierungsprozess ein, wobei das Denoising als Übergangsfunktion dient und der KV-Cache als Träger fungiert, ohne dass ein externes Modul erforderlich ist. Experimente zeigen, dass der adaptive Zustand die Videodynamik erheblich verbessert und reichere Bewegungen sowie natürliche Szenenfortschritte in generierten Videos ermöglicht.

Denken vor dem Einschränken: Ein einheitliches Dekodierungsframework für große Sprachmodelle
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

May 28

ByNgoc Trinh Hung Nguyen, Alonso Silva, Laith Zumot, Liubov Tupikina, Armen Aghasaryan, Mehwish Alam

Die natürliche Generierung ermöglicht es großen Sprachmodellen (Large Language Models, LLMs), freie Antworten mit umfangreichem Reasoning zu erzeugen, jedoch erschwert die fehlende Struktur die Überprüfbarkeit der Ausgaben. Umgekehrt gewährleistet eingeschränktes Decoding standardisierte Formate, kann aber die Reasoning-Fähigkeiten unbeabsichtigt einschränken, indem es zu früh im Generierungsprozess Zwänge auferlegt. Wir schlagen einen hybriden Ansatz namens In-Writing vor, der freies Reasoning und strukturierte Generierung in einem einzigen Aufruf kombiniert. Das Modell führt zunächst uneingeschränktes Reasoning durch und wendet erst nach der Generierung eines Auslöser-Tokens strukturiertes Decoding an, wodurch Reasoning und Formatierung explizit entkoppelt werden. Wir belegen, dass unsere Strategien für Auslöser-Token ein vorzeitiges Auslösen, eine Fehlfunktion, bei der eingeschränktes Decoding das laufende Reasoning unterbricht, nahezu vollständig verhindern können. Evaluierungen über verschiedene Datensätze, die Klassifikations- und Reasoning-Aufgaben abdecken, zeigen, dass unser Ansatz den aktuellen Stand der Technik übertrifft, mit Genauigkeitssteigerungen von bis zu 27 % gegenüber der natürlichen Generierung. Unser Code ist verfügbar unter: https://github.com/Nokia-Bell-Labs/InWriting.

SmartDirector: Keyframe-bedingte kinematografische Videogenerierung mit narrativer Temposteuerung
SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

May 27

ByZhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li

Die Erzählqualität eines Videos bestimmt grundlegend seinen Wahrnehmungswert. Obwohl bestehende Videogenerierungsmethoden visuell ansprechende Inhalte erzeugen können, stützen sie sich überwiegend auf spärliche Steuerungssignale wie Textaufforderungen oder erste/letzte Bilder, was eine präzise Kontrolle über die Erzählstruktur und das zeitliche Tempo einschränkt. In diesem Papier schlagen wir SmartDirector vor, ein Rahmenwerk, das die Erzählfähigkeit von Videogenerierungsmodellen durch mehrere Schlüsselbilder verbessert. SmartDirector unterstützt flexible Generierungsszenarien, darunter Einzelaufnahmegenerierung, Mehrfachaufnahmen-Erzählsynthese und Videoverlängerung. Das Rahmenwerk arbeitet in zwei Phasen: Director-Gen erzeugt ein niedrigauflösendes Video, das von den bereitgestellten Schlüsselbildern gesteuert wird, und Director-SR verfeinert die Ausgabe, indem es hochauflösende Schlüsselbilder als semantische Anker nutzt, um feine Details wiederherzustellen. Um ein robustes Multi-Schlüsselbild-Training zu ermöglichen, bauen wir eine Datenpipeline auf, die Einzelaufnahme- und Mehrfachaufnahmesequenzen aus Filmen kuratiert. Umfangreiche Experimente zeigen, dass SmartDirector bestehende modernste Ansätze deutlich übertrifft. Wir werden den Code veröffentlichen, um weitere Forschung zu erleichtern.

Erlernen einer einheitlichen Risikokarte für autonomes Fahren in teilweise beobachtbaren Umgebungen
Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

May 21

ByJie Jia, Yaofeng Su, Zeyu Bao, Yun Hong, Bingzhao Gao, Zhongxue Gan, Wenchao Ding

Die okklusionsbewusste Vorhersage bleibt aufgrund der inhärenten Unsicherheit nicht beobachteter Bereiche eine zentrale Herausforderung im autonomen Fahren. Bestehende Ansätze überschätzen entweder das Risiko auf Basis erreichbarer Zustände oder haben Schwierigkeiten, genaue Trajektorien unter hoher Okklusionsunsicherheit vorherzusagen. Um diese Einschränkungen zu adressieren, schlagen wir ein einheitliches Rahmenwerk zur Modellierung und zum Lernen von Risikokarten für teilweise beobachtbare Umgebungen vor. Unsere Methode integriert Verkehrsflussrisiko und Kollisionsrisiko mittels raumzeitlicher Modellierung und ermöglicht so eine detaillierte Bewertung von okklusionsbedingten Gefahren. Um die Knappheit von Szenarien mit verdeckten Interaktionen zu adressieren, führen wir ein diffusionsbasiertes Szenariengenerierungsrahmenwerk ein, das realistische und dennoch adversariale Szenarien erzeugt. Wir integrieren die Modellierung und das Lernen einer einheitlichen Risikokarte in ein Rahmenwerk, das risikobewusste Planung unter teilweiser Beobachtbarkeit unterstützt. Experimente auf dem Waymo Open Motion Dataset zeigen, dass unsere Methode den aktuellen Stand der Technik der okklusionsbewussten Baseline deutlich übertrifft, indem sie die minimale Zeit bis zur Kollision um das 0,78-fache und die durchschnittliche Zeit bis zur Kollision um das 1,67-fache verbessert. Das vorgeschlagene Rahmenwerk bietet eine umfassende und praktische Lösung für risikobewusste Planung in teilweise beobachtbaren Umgebungen.

Geometrie zählt: 3D-Grundlagenprioren für das Lernen semantischer Korrespondenz
Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

May 28

ByArtur Jesslen, Olaf Dünkel, Adam Kortylewski

Foundation-Features aus selbstüberwachten Bildverarbeitungsmodellen und Text-zu-Bild-Diffusionsmodellen haben sich für die Schätzung semantischer Korrespondenz als effektiv erwiesen. Da diese Merkmale jedoch hauptsächlich aus 2D-Bildzielen gelernt werden, fehlt ihnen ein explizites 3D-Bewusstsein, und sie verwechseln häufig symmetrische Objektseiten, wiederholte Teile und visuell ähnliche Strukturen, die in 3D deutlich unterscheidbar sind. Wir stellen ein 3D-bewusstes Nachtraining-Framework vor, das über verfügbare 2D-Foundation-Features hinausgeht, indem es Priors aus 3D-Foundation-Modellen einbezieht. Für ein gegebenes Bild verwendet unsere Methode SAM3D, um die Objektgeometrie und -pose zu schätzen, und verfeinert die Pose durch eine Render-and-Compare-Optimierung. Anschließend rendern wir PartField-Deskriptoren aus der rekonstruierten Geometrie basierend auf der geschätzten Objektpose in die Bildebene. Die resultierenden geometriebewussten Merkmalskarten ergänzen DINO- und Stable-Diffusion-Features, während geodätische Distanzen auf den rekonstruierten Formen eine zuverlässige Filterung von Kandidatenkorrespondenzen ermöglichen. Wir nutzen die gefilterten Übereinstimmungen als Überwachung, um einen leichten Adapter auf DINO und Stable Diffusion für die semantische Korrespondenz zu trainieren. Im Gegensatz zu früheren Nachtraining-Ansätzen, die Posenannotationen erfordern und auf grobe sphärische Geometrie angewiesen sind, erhält unsere Methode automatisch instanzspezifische 3D-Struktur und nutzt diese zur Steuerung des Korrespondenzlernens. Experimente zeigen, dass unser Ansatz die semantische Korrespondenz im Vergleich zu früheren Methoden verbessert und gleichzeitig den manuellen geometrischen Aufwand reduziert. Code und Modell sind unter https://github.com/GenIntel/3D-SC verfügbar.

PANDO: Effiziente multimodale KI-Agenten durch Online-Fähigkeitsdestillation
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

May 26

ByYubo Li, Yidi Miao, Yuntian Shen, Yuxin Liu

Jüngste Fortschritte bei multimodalen Web-Agenten stützen sich oft auf eine erhöhte Inferenzzeit-Berechnung, einschließlich Rollout-Suche, Verifikationsdurchläufen, Offline-Fähigkeitsentdeckung und spezialisierten Modellstapeln. Dies wirft eine zentrale Frage auf: Kann ein Web-Agent mit zunehmender Erfahrung effizienter werden, anstatt teurer? Wir analysieren zunächst Trajektorien aus VisualWebArena und identifizieren drei wiederkehrende Ineffizienzquellen: Wiederholungsaktionsschleifen, versteckte Entdeckungskosten und geringe Prompt-Cache-Wiederverwendung. Anschließend führen wir PANDO ein, ein Single-Rollout-Online-Fähigkeitsdestillations-Framework, das eine strukturierte Fähigkeitsbibliothek unterhält und Fortschrittsreflexion, konfidenzbasierte Fähigkeitsherabsetzung, hierarchisches Routing, visuelle Kompression sowie cache-bewusstes Prompting kombiniert. Auf dem vollständigen Satz von 910 VisualWebArena-Aufgaben erreicht PANDO eine Erfolgsrate von 58,3 % und übertrifft damit SGV (54,0 %) sowie unsere WALT-Reproduktion (45,2 %), wobei es 58 % weniger Tokens als SGV und 61 % weniger Tokens als WALT verwendet – ohne jegliches Vorauswertungsentdeckungsbudget. Eine Ablation mit 300 Aufgaben zeigt zudem, dass Regeln und Routinen die meisten Erfolgssteigerungen liefern, während Routing, Kompression und cache-bewusstes Prompting die größere Fähigkeitsbibliothek in niedrigere marginale Tokenskosten umwandeln. Schließlich führen wir drei Effizienzmetriken auf Trajektorienebene ein – Aktionswiederholungsrate, Schritt-Overhead-Verhältnis und Prompt-Cache-Auslastung – um Effizienz über den finalen Erfolg hinaus sichtbar zu machen.

CONF-KV: Konfidenzbewusste KV-Cache-Verdrängung mit Mixed-Precision-Speicherung für Langzeithorizont-LLMs
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

May 24

ByYubo Li, Yidi Miao

Langzeithorizont-LLM-Inferenz macht den Key-Value (KV)-Cache zum dominanten GPU-Speicherverbraucher und erhöht die Kosten der Aufmerksamkeit pro Token zunehmend. Viele gängige Verdrängungsstrategien verwenden statische Aktualitätsfenster oder historische Aufmerksamkeit und lassen dabei ein Signal ungenutzt, das bei jedem Dekodierungsschritt berechnet wird: die aktuelle Unsicherheit des Modells. Wir stellen CONF-KV vor, einen KV-Cache-Manager, der die Verteilung des nächsten Tokens in einen skalaren Konfidenzwert umwandelt und diesen nutzt, um das Cache-Budget pro Schritt zu wählen – wobei bei Unsicherheit des Modells mehr Kontext beibehalten und bei hoher Konfidenz aggressiv gekürzt wird. Innerhalb jedes Budgets werden Tokens nach einer Kombination aus akkumulierter Aufmerksamkeitsmasse und Aktualität eingestuft, während ein geschütztes aktuelles Fenster die lokale Kohärenz bewahrt. Wir kombinieren die Strategie mit blockweiser Online-Softmax-Aufmerksamkeit, gemischtem FP16/INT8-Speicher und einer pyramidalen Variante des Budgets pro Schicht. Über vier Modellfamilien und generierte Längen bis zu 4K hinweg bleibt CONF-KV nahe am Speicherfußabdruck eines festen gleitenden Fensters von 512 Tokens, während es innerhalb von 1,5–2,1 Perplexitätspunkten des vollständigen KV bleibt. Bei Needle-in-a-Haystack mit bis zu 32K Tokens erreicht CONF-KV eine Abrufgenauigkeit von 91,4 % gegenüber 53,8 % für gleitende Fenster und 80,6 % für H2O; bei 75 VisualWebArena-Aufgaben behält es 95,3 % des Erfolgs des vollständigen KV bei 2,8-fach geringerem Spitzenspeicher.

Reflektives Prompt-Tuning durch Funktionsaufrufe von Sprachmodellen
Reflective Prompt Tuning through Language Model Function-Calling

May 20

ByFarima Fatahi Bayat, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka

Große Sprachmodelle (Large Language Models, LLMs) sind zunehmend in der Lage, Anweisungen zu befolgen und komplexe Schlussfolgerungen zu ziehen, wodurch Prompting zu einer flexiblen Schnittstelle wird, um Modelle ohne Parameteraktualisierungen anzupassen. Dennoch bleibt das Prompt-Design arbeitsintensiv und sehr empfindlich gegenüber Formatierung, Formulierung und Befehlsreihenfolge, was automatisierte Prompt-Optimierungsmethoden motiviert, die den manuellen Aufwand reduzieren und gleichzeitig die Flexibilität zur Inferenzzeit bewahren. Allerdings durchsuchen bestehende Methoden oft Kandidaten-Prompts oder verwenden feste Kritik-Verbesserungs-Pipelines, die von einzelnen Beispielen oder kleinen Batches gesteuert werden, was ihre Fähigkeit einschränkt, systematische Fehlermuster zu erfassen und gezielte Änderungen vorzunehmen, die auf der Fehlerhistorie basieren. Wir schlagen Reflective Prompt Tuning (RPT) vor, ein Rahmenwerk, das den Funktionsaufruf von LLMs nutzt, um den iterativen Arbeitsablauf menschlicher Prompt-Ingenieure zu simulieren. Ein LLM-Optimierer ruft eine Diagnosefunktion auf, die das Zielmodell über einen gesamten Optimierungssatz hinweg bewertet, wiederkehrende Fehlermuster zusammenfasst und einen strukturierten Diagnosebericht zurückgibt. Der Optimierer verwendet diesen Bericht zusammen mit einem akkumulierten Speicher früherer Berichte, um den Prompt für die nächste Iteration zu überarbeiten. RPT unterstützt zudem eine konfidenzbewusste Optimierung, indem Kalibrierungssignale im diagnostischen Feedback und bei der endgültigen Prompt-Auswahl verwendet werden. Über drei Denkaufgaben hinweg verbessert RPT die Ausgangsprompts um bis zu 12,9 Punkte, bleibt wettbewerbsfähig mit dem Stand der Technik und verbessert die Konfidenzkalibrierung. Unsere Analysen zeigen, dass RPT besonders effektiv beim mehrstufigen und mathematischen Denken ist, gezielte Prompt-Überarbeitungen hervorbringt, die mit diagnostizierten Fehlermustern übereinstimmen, und zu Verbesserungen bei der Aufgabenleistung und Kalibrierung führt.

Parallax: Parametrisierte lokale lineare Aufmerksamkeit für Sprachmodellierung
Parallax: Parameterized Local Linear Attention for Language Modeling

May 27

ByYifei Zuo, Dhruv Pai, Zhichen Zeng, Alec Dewulf, Shuming Hu, Zhaoran Wang

Große Sprachmodelle (Large Language Models, LLMs) haben sich zum zentralen Paradigma der künstlichen Intelligenz entwickelt, doch die grundlegende Recheneinheit der Aufmerksamkeit (Attention) ist strukturell unverändert geblieben. Lokale Lineare Aufmerksamkeit (Local Linear Attention, LLA) ist ein aus der nichtparametrischen Statistik im Testzeit-Regressionsrahmen abgeleiteter Aufmerksamkeitsmechanismus. Im Gegensatz zu früheren Arbeiten über effiziente Aufmerksamkeitsvarianten verbessert LLA die lokale konstante Schätzung der Softmax-Aufmerksamkeit zu einer lokalen linearen Schätzung, was nachweislich überlegene Bias-Varianz-Kompromisse für assoziatives Gedächtnis liefert. Allerdings wurde LLA aufgrund von Bedenken hinsichtlich Recheneffizienz und numerischer Stabilität nicht im Pretraining von LLMs skaliert. Wir führen Parallax ein, eine parametrisierte Lokale Lineare Aufmerksamkeit, die für LLMs skalierbar ist. Parallax eliminiert den numerischen Löser in LLA und lernt einen zusätzlichen query-ähnlichen Projektor, der die KV-Kovarianz abtastet. Wir ordnen Parallax in eine Familie von Aufmerksamkeitsmechanismen ein, die durch die Bandbreite, die Sondenkonstruktion und die affine Struktur verbunden sind. Wir schlagen einen hardwarebewussten Algorithmus vor, der die arithmetische Intensität gegenüber FlashAttention erhöht und die Aufmerksamkeit in einen rechengebundeneren Bereich verschiebt. Unser Prototyp-Dekodierungskernel erreicht oder übertrifft FlashAttention 2/3 über verschiedene Batch-Größen und Kontextlängen hinweg. Wir trainieren Parallax in den Größenordnungen 0,6B und 1,7B vor und stellen durchgängige Perplexitätsverbesserungen während des gesamten Pretrainings fest, wobei die Gewinne auf nachgelagerte Benchmarks übertragbar sind. Der Vorteil bleibt sowohl bei parameterangepassten als auch bei rechenangepassten Kontrollen bestehen, was eine Pareto-Verbesserung darstellt. Wir führen sorgfältige Pretraining-Ablationen durch und identifizieren ein neuartiges Phänomen, bei dem Muon die Kapazität von Parallax freisetzt. Unseres Wissens ist dies die erste empirische Demonstration eines starken Architektur-Optimierer-Co-Designs für Aufmerksamkeitsmechanismen in der Architekturforschungsliteratur.

Ausrichtungstäuschung: Wie Verstärkungslernen durch menschliches Feedback ausgenutzt wird, um fehlausgerichtete Verzerrungen zu optimieren
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

May 26

ByDongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee

Reinforcement Learning from Human Feedback (RLHF) ist die Standardmethode, um Große Sprachmodelle (Large Language Models, LLMs) an menschliche Präferenzen anzupassen. In dieser Arbeit führen wir Alignment Tampering ein, eine potenzielle Schwachstelle, bei der das LLM während der Ausrichtung den Präferenzdatensatz beeinflusst, sodass RLHF unerwünschte Verhaltensweisen verstärkt. Dies ergibt sich aus grundlegenden Einschränkungen von RLHF: (1) Präferenzdatensätze werden aus den eigenen Ausgaben des LLMs erstellt, sodass es diese beeinflussen kann, und (2) paarweise Vergleiche geben nur an, welche Antwort besser ist, nicht jedoch warum. Diese Einschränkungen können ausgenutzt werden, um Alignment Tampering zu verursachen. Beispielsweise bevorzugen Annotatoren verzerrte Antworten, wenn ein LLM diese mit höherer Qualität generiert, aufgrund der Qualität. Die Präferenzlabels unterscheiden jedoch nicht zwischen Qualität und Verzerrung, und das Belohnungsmodell übernimmt diese Einschränkung. Die Optimierung solcher Belohnungen durch Reinforcement Learning oder Best-of-N-Sampling kann fehlausgerichtete Verzerrungen verstärken. Unsere Experimente zeigen eine Verstärkung über verschiedene Verzerrungen hinweg: vom Schlüsselwort-Bias über Propaganda (z. B. Sexismus), Markenwerbung bis hin zur instrumentellen Zielverfolgung. Die Abschwächung bleibt herausfordernd, da bestehende Techniken für robustes RLHF das Alignment Tampering nicht vollständig beheben können, ohne die Antwortqualität zu opfern. Diese Ergebnisse offenbaren strukturelle Schwachstellen des aktuellen RLHF und unterstreichen die Notwendigkeit, diese Schwachstelle zu verhindern. Projektseite: https://alignment-tampering.github.io/

CoHyDE: Iteratives Co-Training von LLM-Umschreiber und dichtem Encoder für Tool-Retrieval
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

May 28

ByVaishali Senthil, Ashutosh Hathidara, Sebastian Schreiber

Der Abruf von Werkzeugen über große API-Kataloge stellt einen zentralen Engpass für LLM-Agenten dar: Nutzeranfragen treffen in umgangssprachlicher, oft unterbestimmter Sprache ein, während der Katalog technisches API-Vokabular verwendet, das kein fester Encoder von sich aus überbrücken kann. Die zwei dominanten Trainingsansätze – kontrastives Encoder-Feintuning und HyDE-artige Abfrageerweiterung mit einem eingefrorenen LLM – nähern sich diesem Problem von entgegengesetzten Seiten und scheitern in komplementären Richtungen: Der feingetunte Encoder glänzt, wenn die Oberflächenform der Anfrage bereits zum Katalog passt, bricht jedoch ein, wenn dies nicht der Fall ist, während Nullschuss-HyDE robuster gegenüber unterbestimmten Anfragen ist, aber katalogunbewusste hypothetische Beschreibungen erzeugt, die den Abruf bei wohlgeformten Anfragen verschlechtern. Wir führen CoHyDE ein, ein iteratives Verfahren, das den dichten Encoder und den LLM-Umschreiber als ein einzelnes, koevolvierendes System trainiert: Der Encoder wird mit InfoNCE auf katalogartigen hypothetischen Beschreibungen, die der Umschreiber produziert, neu trainiert, und der Umschreiber wird mittels DPO präferenzausgerichtet auf die Abrufwerte des Encoders, wobei beide Seiten vor dem Start der Schleife auf dem Werkzeugkatalog warmgestartet werden. Auf einem ~10k Werkzeuge umfassenden Teilsatz des ToolBench-Katalogs verbessert drei Runden CoHyDE die stärkste Einzelkomponenten-Baseline um +2,5 Prozentpunkte NDCG@5 bei Standardanfragen und um +6,3 Prozentpunkte bei zurückgehaltenen vagen Anfragen, mit Zuwächsen von bis zu +8 Prozentpunkten auf der schwierigsten Vagheitsstufe. Ablationen bestätigen, dass das Ko-Training die entscheidende Zutat ist: Der isolierte Einsatz einer der beiden Komponenten erreicht CoHyDE weder bei wohlgeformten noch bei vagen Anfragen, mit Einbußen von bis zu -8 Prozentpunkten bei vagen Anfragen.

Generalisierung auf Token-Ebene in LoRA-Adapter-Backdoors: Angriffscharakterisierung und verhaltensbasierte Erkennung
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

May 28

ByTravis Lelle

Wir zeigen, dass LoRA-Adapter, das dominante Verteilungsformat für feinabgestimmte LLMs, durch Trainingsdatenvergiftung zuverlässig mit einer Backdoor versehen werden können, während die Basisaufgabenleistung erhalten bleibt. Bei einem Qwen 2.5 1.5B Prompt-Injection-Klassifikator treibt bereits ein kleiner Anteil vergifteter Beispiele eine die saubere Genauigkeit erhaltende Backdoor in die Sättigung. Die resultierende Backdoor generalisiert auf Token-Merkmalsebene und nicht auf struktureller Musterebene: Ein auf eine RFC-Referenz trainiertes Modell aktiviert auf jede RFC-Referenz, überträgt sich jedoch nicht auf strukturell identische ISO-, OWASP-, CWE- oder NIST-Zitate. Diese Asymmetrie begünstigt den Angreifer, da ein Verteidiger nicht pauschal nach „strukturierten Zitaten“ suchen kann. Wir charakterisieren den Angriff über Basis-Modellgröße und -Familie, LoRA-Rang und Trigger-String und evaluieren zwei komplementäre Erkennungswege an einer Multi-Seed-Adapter-Kohorte. Ein aus zwei Sondenbatterie-Statistiken – outlier_gap und mean_attack_rate – aufgebauter Verhaltensdetektor trennt vergiftete von sauberen Adaptern perfekt, wenn die Batterie die Token-Nachbarschaft des Triggers überlappt, und bei hohem Recall ohne falsch Positive, wenn sie dies nicht tut. Eine gewichtsebenenstatistische Größe – die modulübergreifende Standardabweichung der dimensionsnormalisierten Frobenius-Normen – trennt die Kohorte ebenfalls perfekt, ohne das Modell auszuführen. In Kombination sind die beiden Wege robust gegenüber der Sondenzusammensetzung. Kausales Patching lokalisiert die Backdoor im MLP-Block der mittleren bis späten Schichten, wobei down_proj die stärkste Einzelprojektionsursache darstellt. Replikationen über Größe, Familie und Rang zeigen, dass der Verhaltensdetektor ohne Nachjustierung übertragbar ist, während der gewichtsebenenstatistische Detektor kalibrierungsgebunden an das Basismodell ist. Der Angriff skaliert monoton mit dem Rang, und das gewählte Trigger-Anker-Token ist sowohl trigger- als auch basismodellabhängig. Die Verhaltensdetektion ist das operationell portable Ergebnis für das Scanning der Adapter-Lieferkette.

Jenseits von 3D VQAs: Einbringen von 3D-räumlichen Prioren in Vision-Language-Modelle für verbessertes geometrisches Denken
Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

May 28

ByChun-Hsiao Yeh, Shengyi Qian, Manchen Wang, Yi Ma, Joseph Tighe, Fanyi Xiao

Vision-Language-Modelle (VLMs) tun sich oft schwer mit robustem 3D-Raumverständnis. Gängige Methoden, die auf Feinabstimmung mit 3D-visuellen Frage-Antwort-Datensätzen (VQA) setzen, können sich an datensatzspezifische Verzerrungen anpassen, während die Integration spezialisierter 3D-visueller Encoder oft unflexibel und umständlich ist. In diesem Paper argumentieren wir, dass echtes räumliches Verständnis aus dem Erlernen fundamentaler geometrischer Vorwissen entstehen sollte – nicht nur aus hochrangiger VQA-Überwachung. Wir schlagen GASP (Geometric-Aware Spatial Priors) vor, ein Framework, das diese Vorwissen direkt in die Transformer-Ebenen des LLM einbringt. GASP verwendet einen kleinen Korrespondenzkopf, der als tiefes Überwachungssignal über alle Schichten hinweg angewendet wird, und wird mit einem dualen Ziel trainiert, das Ground-Truth-Geometrie aus großflächigen Videoszenen nutzt: Ein Kontrastivverlust auf Ground-Truth-Punktkorrespondenzen erzwingt 2D-Ansichtsinvarianz, während eine Tiefenkonsistenz-Überwachung 3D-geometrische Mehrdeutigkeiten auflöst. Unsere Analyse liefert zunächst eine Diagnose, die zeigt, dass die interne Korrespondenzgenauigkeit standardmäßiger VLMs sehr niedrig ist (oft unter 5 %). Anschließend demonstrieren wir, dass unser Training dieses Verhalten wesentlich verbessert, die schichtweise Korrespondenz auf über 70 % steigert und eine zeitliche Robustheit von über 85 % aufrechterhält, während Basislinien unter 5 % bleiben. Diese internen Verbesserungen führen zu signifikanten Zugewinnen bei nachgelagerten räumlichen Benchmarks, darunter +18,2 % im All-Angles Bench und +29,0 % im VSI-Bench – alles ohne Training mit 3D-VQA-Daten. Unsere Ergebnisse deuten darauf hin, dass das Lernen aus fundamentalen geometrischen Vorwissen ein vielversprechender und generalisierbarer Weg hin zu VLMs mit zuverlässigerem 3D-Raumverständnis ist.

Entdeckung kooperativer Pipelines: Autoresearch für sequentielle soziale Dilemmata
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

May 28

ByVíctor Gallego

Wir untersuchen eine zweistufige Autoforschung für Kooperation: Ein KI-Agent der äußeren Schleife gestaltet die innere Pipeline eines LLM-basierten Policy-Synthese-Systems für Multi-Agenten-Sequenzielle-Soziale-Dilemmata (SSDs) autonom neu. Ein Forscher-Agent R (ausgeführt als Code-Agent) liest den Quellcode der inneren Schleife, bearbeitet Systemprompts, Rückmeldefunktionen, Hilfsbibliotheken und Iterationslogik, führt Evaluierungen durch und entscheidet, was behalten werden soll – dem Autoforschungs-Paradigma folgend. Über zwei Spiele (Cleanup und Gathering), zwei Policy-Synthese-LLMs und zwei Wohlfahrtsziele (utilitaristische Effizienz und Rawlssches Maximin) hinweg übertrifft der Forscher zuverlässig handentworfene Basislinien, reduziert die Lauf-zu-Lauf-Varianz erheblich und übertrifft eine reine Prompt-Optimierung. Die entdeckten Pipelines sind zielabhängig: Nur unter Maximin injiziert der Forscher einen expliziten Fairnessmechanismus in die Synthesizer-Pipelines – eine Klasse von Mechanismen, die sowohl in seinem eigenen zielagnostischen Systemprompt als auch in jeder effizienzoptimierten Pipeline fehlt. Dies stützt eine informationsdesign-orientierte Lesart, bei der der Forscher in Abhängigkeit vom Wohlfahrtsziel entscheidet, was er dem beschränkt rationalen Synthesizer offenbart. Code unter https://github.com/vicgalle/autoresearch-social-dilemmas.

OmniInteract: Benchmarking realer Streaming-Interaktion für omnimodale Echtzeit-Assistenten
OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

May 26

ByXudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li

Wir stellen OmniInteract vor, einen Streaming-Benchmark für Echtzeit-omnimodale große Sprachmodelle, bewertet durch native Online-Inferenz über audiovisuelle Streams. Im Gegensatz zu Offline-Videoverständnis oder textgesteuerter Streaming-QA bewahrt OmniInteract den ursprünglichen audiovisuellen Stream und verlangt von den Modellen, ihn online zu verarbeiten, ohne Zugriff auf zukünftige Inhalte. Benutzeranfragen und Umgebungsgeräusche sind in der Audiospur eingebettet, sodass Modelle multimodale Auslöser erkennen, entscheiden müssen, wann sie antworten, und während des sich entfaltenden Streams antworten müssen. OmniInteract enthält 250 Videos mit 1.430 zeitlich verankerten Antwortslots: 1.062 1Q1A-Slots in Echtzeit-, proaktiven und verschachtelten Szenarien sowie 368 1QnA-Slots für kontinuierliche Aufgabenüberwachung und Schritt-für-Schritt-Anleitung. Jeder Slot umfasst einen Auslöser, ein Antwortfenster und eine Zielantwort. Wir bewerten Antwortkorrektheit, Timing, ungültige Ausgaben, Unterbrechungshandhabung und Kontextkontinuität mithilfe des Interaction-Aware Quality-Timeliness F1, der Interruption Diagnostic Suite und des Nested Chain Completion Score. Experimente zeigen, dass aktuelle Modelle in der Streaming-Interaktion schwach bleiben, wobei der beste Gesamt-IA-QTF1 nur 0,368 und der beste 1QnA-IA-QTF1 nur 0,052 erreicht. Eine weitere Studie zum mathematischen Denken in Vollduplex-Umgebungen zeigt, dass Offline-Fähigkeiten nicht unbedingt auf Online-Interaktion übertragbar sind. Code und Datensätze werden unter https://github.com/Lucky-Lance/OmniInteract öffentlich zugänglich gemacht.

Mehransichtskonsistente 3D-Gauß-Kopfavatare 'ohne' Mehransichtsgenerierung
Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

May 24

ByAviral Chharia, Fernando De la Torre

Hochgetreue 3D-Gauß-Kopfavatarerzeugung ist entscheidend für Anwendungen wie AR/VR, Telepräsenz und digitale Menschen. Bestehende Methoden basieren auf Multiview-Datensätzen, 3D-Aufnahmen oder der Synthese intermediärer 2D-Ansichten. Im Gegensatz dazu lernen wir sowohl bedingte als auch unbedingte 3D-Kopfmodelle ausschließlich aus zufällig abgetasteten 2D-Bildern, ohne Multiview-Daten, 3D-Überwachung oder die Erzeugung von Zwischenansichten zu verwenden. Wir stellen MVCHead vor, ein Einzelbild-Zustandsraummodell, das Multiview-Konsistenz (MVC) direkt in der 3D-Repräsentation erzwingt, während es unter diesen Einschränkungen 3D-Gauß-Primitive regressiert. Kernstück ist ein vorgeschlagener hierarchischer Zustandsraum (HiSS)-Block, der Gauß-Primitive schrittweise von grob zu fein verfeinert und dabei weitreichende Abhängigkeiten erfasst. Innerhalb jedes HiSS-Blocks modifizieren wir Mambas standardmäßigen unidirektionalen Scan durch den vorgeschlagenen hierarchischen bidirektionalen Zustandsscan (HiBiSS), der die Rekurrenz entlang der Achsen ausrichtet, auf denen Multiview-Inkonsistenzen am stärksten sind. Schließlich entwerfen wir einen SE(3)-Multiview-Kritiker, der beurteilt, ob eine Menge von Selbst-Renderings aus einer einzigen zugrunde liegenden 3D-Konfiguration stammt, und belohnt die Pixelausrichtung zwischen Ansichten, ohne dass echte Multiview-Paare beobachtet werden. MVCHead erreicht modernste Wahrnehmungsqualität, übertrifft frühere Methoden sowohl in der Textur- als auch in der geometrischen Konsistenz und behält eine vergleichbare Formkonsistenz bei. Zur Demonstration der Skalierbarkeit veröffentlichen wir FaceGS-10K, den ersten großen Datensatz mit einsatzbereiten 3D-Gauß-Kopf-Assets für das Training und die Evaluierung von 3D-Kopfmodellen. Projektseite und Code: https://humansensinglab.github.io/MVCHead/

Konvexe ressourcenarme akzentrobuste Sprachidentifikation in der Spracherkennung
Convex Low-resource Accent-Robust Language Detection in Speech Recognition

May 22

ByMiria Feng, William Tan, Mert Pilanci

Globalisierung und Multikulturalismus führen weiterhin zu immer vielfältigeren Sprachvarietäten. Dennoch versagen aktuelle gesprochene Dialogsysteme häufig bei unterrepräsentierten Dialekten und Akzenten, indem sie die Eingabesprache oft falsch identifizieren und dadurch kaskadierende Fehler in nachgelagerten Dialogaufgaben verursachen. Die Bewältigung dieser dialektalen Varianz unter ressourcenarmen Bedingungen bleibt eine offene Herausforderung, da standardmäßiges Feintuning rechenintensiv ist und zur Überanpassung an hochdimensionale Sprachdaten neigt. Wir schlagen Convex Language Detection (CLD) vor, ein neuartiges Framework, das theoretisch fundierte konvexe Optimierungstechniken in die Pipeline gesprochener Dialogsysteme integriert. Unsere Methode wird effizient über die Multi-GPU-Methode der alternierenden Richtungsmultiplikatoren (ADMM) in JAX implementiert und bietet somit Garantien globaler Optimalität sowie schnelles Training in polynomialer Zeit. Theoretisch beweisen wir, dass unser konvexes Zielfunktional eine zertifizierte Randstabilität induziert, und wir geben Garantien gegen Merkmalsstörungen. Empirisch zeigen wir Stichprobeneffizienz und Robustheit gegenüber dialektaler Variation der Eingabe und erreichen 97–98 % Genauigkeit in anspruchsvollen ressourcenarmen Szenarien. Unser Open-Source-Paket ist verfügbar unter https://pypi.org/project/jaxcld/.

Uniforme Diffusionsmodelle revisited: Leave-One-Out-Denoiser und Reformulierung des absorbierenden Zustands
Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

May 21

BySamson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

Diskrete Diffusionsmodelle werden oft durch Clean-Data-Vorhersage trainiert, aber die Vorhersage kann auf verschiedene Weisen genutzt werden, um die Rückwärtsdynamik zu definieren. In Maskierten Diffusionsmodellen (MDM) fallen diese Entscheidungen weitgehend zusammen, während sie bei Uniformen Diffusionsmodellen (UDM) divergieren. Wir zeigen, dass die Standard-Plug-in-Brückenparametrisierung für UDM nicht durch das Denoising-Posterior optimiert wird, sondern durch ein Leave-One-Out-Posterior, das jedes saubere Token vorhersagt, ohne seine eigene verrauschte Beobachtung zu verwenden. Dies identifiziert einen Missklang zwischen dem Plug-in-ELBO und dem üblichen Kreuzentropie-Denoising-Ziel. Wir charakterisieren das Leave-One-Out-Ziel und leiten exakte Umrechnungen zwischen dem Denoiser, dem Leave-One-Out-Posterior und dem Score her. Diese Umrechnungen erlauben es uns, Parametrisierung und Trainingsziel zu entkoppeln. Unsere Ergebnisse führen auch zu Inferenzverbesserungen ohne zusätzliches Training durch einen informierten Prädiktor-Korrektor-Sampler und verbessertes Temperatursampling basierend auf dem Leave-One-Out-Prädiktor. Wir führen weiterhin eine Absorbing-State-Neuformulierung der uniformen Diffusion ein, die das gemeinsame UDM-Gesetz bewahrt, während es in maskierte-diffusionsähnliche Sampling-Operationen zerlegt wird, mit einfacheren Denoising-Posteriors, Carry-Over-Entmaskierung und einem natürlichen Remasking-Mechanismus. In der Sprachmodellierung verbessern Leave-One-Out-Parametrisierungen konsistent die UDM-Generierung, während die Absorbing-Konstruktion die maskierte Diffusion erreicht oder übertrifft. Diese Ergebnisse deuten darauf hin, dass die empirische Lücke zwischen maskierter und uniformer Diffusion weniger durch die Wahl der Marginalen selbst als durch die Parametrisierung und das Sampling-Design verursacht wird. Der Code und die Modelle sind unter https://github.com/samsongourevitch/rev_udm zu finden.

MoZoo: Entfesselung der Videodiffusionskraft in der Simulation von Tierfell und Muskeln
MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

Apr 8

ByDongxia Liu, Jie Ma, Xiaochen Yang, Jiancheng Zhang, Bin Xia, Zhehan Kan, Nisha Huang, Jun Liang, Wenming Yang, Jin Li

Die Erzeugung von Tieranimationen in Filmqualität erfordert die präzise Modellierung von Muskel- und Fellbewegungen, ein Prozess, der in traditionellen Produktionsabläufen sowohl arbeitsintensiv als auch rechenaufwändig bleibt. Während generative Diffusionsmodelle in verschiedenen künstlerischen Arbeitsabläufen vielversprechend sind, bleibt ihre Fähigkeit zur hochtreuen Tiersimulation weitgehend ungenutzt. Wir stellen MoZoo vor, einen generativen Bewegungslöser, der auf konventionelle Verfeinerungen verzichtet, um aus groben Netzen unter multimodaler Führung hochtreue Tieraufnahmen zu synthetisieren. Wir schlagen den Rollenbewussten RoPE (RAR-RoPE) vor, der eine rollenbasierte Indexumordnung verwendet, um eine Synchronisation der Bewegung zu gewährleisten, während Referenzinformationen durch feste zeitliche Versätze entkoppelt werden. Ergänzend dazu teilt die Asymmetrische Entkoppelte Aufmerksamkeit die latente Sequenz auf, um einen unidirektionalen Informationsfluss zu erzwingen, wodurch Merkmalstörungen effektiv verhindert und die Recheneffizienz verbessert werden. Um die Knappheit an hochwertigen Trainingsdaten zu beheben, führen wir MoZoo-Data ein, eine Synthese-zu-Real-Pipeline, die eine Rendering-Engine und einen inversen Abbildungsansatz nutzt, um einen groß angelegten Datensatz gepaarter Sequenzen zu erstellen. Darüber hinaus schaffen wir MoZooBench, einen umfassenden Benchmark mit 120 Netz-Video-Paaren. Experimentelle Ergebnisse zeigen, dass MoZoo über verschiedene Tierkörper und Anordnungen hinweg hochtreue Fellsimulationen erzielt und dabei eine überlegene zeitliche und strukturelle Konsistenz bewahrt.

Reduzierung politischer Manipulation durch Konsistenztraining
Reducing Political Manipulation with Consistency Training

May 28

ByLong Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks

Große Sprachmodelle (Large Language Models, LLMs) weisen in einer Vielzahl sensibler Kontexte systematische politische Voreingenommenheit auf. Wir stellen fest, dass LLMs korrespondierende Themen von gegensätzlichen politischen Seiten asymmetrisch behandeln. Wir bezeichnen dieses Phänomen als verdeckte politische Voreingenommenheit und identifizieren 7 Kategorien von Techniken, durch die diese wirkt. Wir schlagen zwei Metriken für verdeckte Voreingenommenheit vor: Sentiment-Konsistenz misst die Symmetrie in Rhetorik und Rahmung über gepaarte politische Aufforderungen hinweg; Hilfsbereitschaftskonsistenz (Helpfulness Consistency) misst die symmetrische Tiefe und das Engagement. Um beide Arten verdeckter Voreingenommenheit zu reduzieren, führen wir das Political Consistency Training (PCT) ein, eine RL-Trainingsmethode mit zwei komplementären Paradigmen: Sentiment-Konsistenz-Training und Hilfsbereitschaftskonsistenz-Training. Wir zeigen, dass PCT die allgemeine Hilfsbereitschaft bewahrt, die verdeckte politische Voreingenommenheit erheblich reduziert und auf zurückgehaltene Benchmarks verallgemeinert. Wir veröffentlichen unsere Arbeit unter https://political-manipulation.ai.

Klein aber vertrauenswürdig: Effizientes Vision-Language Reasoning für die Zeitreihen-Anomalieerkennung
Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

May 28

ByXiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben bei vielen Aufgaben beeindruckende Leistungen erzielt. Allerdings berichten frühere Studien von unbefriedigenden Ergebnissen bei der Anwendung großer Sprach- oder multimodaler Modelle zur Erkennung anomaler Muster in sequentiellen Daten. Öffentliche Benchmarks zur Anomalieerkennung liefern in der Regel Intervallannotationen, jedoch keine natürlichsprachlichen Begründungen, was die Feinabstimmung von VLMs zur Generierung fundierter, interpretierbarer Entscheidungen erschwert. Um diese Lücke zu schließen, erstellen wir VisAnomBench, einen kuratierten Benchmark, der auf öffentlichen Zeitreihendatensätzen basiert und mit hochwertigen Anomalieerklärungen angereichert ist, die aus mehreren großen VLMs mittels feinkörniger, aufgabenspezifischer Belohnungen ausgewählt wurden. Durch Feinabstimmung auf diesem Benchmark entwickeln wir VisAnomReasoner, ein parametereffizientes VLM für die Zeitreihen-Anomalieerkennung. Experimentelle Ergebnisse auf VisAnomBench zeigen, dass VisAnomReasoner eine genauere Anomalielokalisierung erreicht und konsequent alle Basislinien übertrifft, mit Verbesserungen von mindestens 21,23 Prozentpunkten bei der Präzision und 23,87 Prozentpunkten beim F1-Score. Zusätzliche Experimente auf dem TSB-AD-U-Benchmark belegen eine starke benchmarkübergreifende Generalisierung, wobei VisAnomReasoner die Präzision und den F1-Score um 9,57 bzw. 13,39 Prozentpunkte verbessert.

Zur konsistenten Videogeometrieschätzung
Towards Consistent Video Geometry Estimation

May 28

ByZhu Yu, Jingnan Gao, Runmin Zhang, Lingteng Qiu, Zhengyi Zhao, Rui Peng, Yichao Yan, Kejie Qiu, Siyu Zhu, Si-Yuan Cao, Hui-Liang Shen

Diese Arbeit stellt ViGeo vor, ein Feed-Forward-Grundlagenmodell zur Rekonstruktion räumlich dichter und zeitlich konsistenter Geometrie aus Videosequenzen. ViGeo basiert auf einer einfachen Transformer-Architektur ohne aufgabenspezifische architektonische Modifikationen und unterstützt Streaming-, Vollsequenz- und Langvideo-Inferenz in einem einheitlichen Modell. Das zentrale Designmerkmal ist die dynamische Aufmerksamkeit auf Chunk-Ebene, die das Modell sowohl bidirektionalen als auch kausalen zeitlichen Kontexten während des Trainings aussetzt und ihm erlaubt, sein Aufmerksamkeitsmuster zur Testzeit ohne erneutes Training anzupassen. Zur Verbesserung der Überwachungsqualität führen wir zudem ein vervollständigungsbasiertes Datenverfeinerungs-Framework ein. Dieses Framework trainiert einen Videotiefen-Vervollständigungs-Lehrer, der auf spärliche und verrauschte Annotationen konditioniert ist und Video-/Multiview-Kontext nutzt, um dichte, zeitlich kohärente und geometrisch zuverlässige Trainingsziele zu erzeugen. Neben Tiefen- und Punktkarten sagt ViGeo im selben Framework auch Oberflächennormalen voraus. Ausschließlich auf öffentlichen Datensätzen trainiert, erzielt ViGeo Spitzenleistungen bei Online-, Offline- und Langvideo-Tiefenschätzung, Oberflächennormalenschätzung und Videopunktkartenschätzung.

PhoneWorld: Skalierung von Agentenumgebungen zur Telefonnutzung
PhoneWorld: Scaling Phone-Use Agent Environments

May 28

ByZhengyang Tang, Yuxuan Liu, Xin Lai, Junyi Li, Pengyuan Lyu, Jason, Yiduo Guo, Zhengyao Fang, Yang Ding, Yi Zhang, Weinong Wang, Huawen Shen, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Rui Yan, Ji-Rong Wen, Chengquan Zhang, Han Hu

Ein zentraler Engpass für Smartphone-Nutzungs-Agenten besteht darin, dass steuerbare, reproduzierbare Umgebungen, die echtes mobiles Verhalten abdecken, schwer in großem Maßstab zu erstellen sind. Bestehende Mobile-Agent-Benchmarks haben wichtige Fortschritte bei der Evaluierung erzielt, bieten aber selbst keine skalierbare Möglichkeit, viele neue Smartphone-Nutzungsumgebungen zu konstruieren. Wir stellen PhoneWorld vor, eine wiederverwendbare Pipeline, die reale GUI-Trajektorien und Screenshots in steuerbare Smartphone-Nutzungsumgebungen, ausführbare Aufgaben, automatische Verifizierer und Trainingsrollouts umwandelt. Anstatt jeweils einen mobilen Benchmark von Hand zu erstellen, nutzt PhoneWorld reale Trajektorien, um zu ermitteln, welche Bildschirme relevant sind, wie Bildschirme verbunden sind, welche Interaktionen den Umgebungszustand ändern müssen und welche Benutzerziele eine automatische Verifizierung ermöglichen. Aus diesen Signalen baut es ausführbare nachgebildete Android-Apps, die durch schreibgeschützte App-Inhalte und veränderlichen Zustand unterstützt werden, und leitet dann aus denselben Umgebungen ausführbare Aufgaben, regelbasierte Verifizierer und Trainingsrollouts ab. In seiner derzeitigen Ausprägung umfasst PhoneWorld 34 Apps aus 16 Domänen, die gängige Verhaltensweisen mobiler Nutzer wie Suche, Surfen, Einkaufen, Buchen, Medien und soziale Interaktion abdecken. Bei einem festen Trainingsbudget verbessert das Ersetzen von 10.000 Schritten aus einem AndroidWorld-Hilfskorpus in einer auf AndroidWorld basierenden Baseline durch breite PhoneWorld-Überwachung alle vier Evaluations-Benchmarks gleichzeitig, wobei HYMobileBench um 17,7 Punkte, AndroidControl um 6,0 Punkte, AndroidWorld um 14,7 Punkte und PhoneWorld um 52,5 Punkte steigt. Anschließend untersuchen wir zwei zusätzliche Skalierungsfragen: Die Erhöhung der Menge der PhoneWorld-Überwachung verbessert die PhoneWorld-Leistung deutlich, und bei einem festen PhoneWorld-Budget führt die Ausweitung der App-Abdeckung zu noch größeren Gewinnen. Insgesamt verlagert PhoneWorld den Fokus von der Erstellung eines mobilen Benchmarks nach dem anderen auf die Skalierung des Angebots an Smartphone-Nutzungsumgebungen selbst.

ORACLE: Vorhersage von Betrugsfällen aus partiellen Trajektorien in der Nutzung von Streaming-Apps
ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

May 9

ByWenbo Gao, Songbai Tan, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Yunyun Yang, Ming Li, Xiaofeng Zhu

Smartphone-Betrug wird zunehmend verbreitet und tritt typischerweise als mehrstufige, applikationsübergreifende Prozesse mit allmählich erkennbarer Absicht auf. Eine wirksame Intervention erfordert daher, Betrug vorauszusehen, bevor die Absicht explizit wird. Dies ist von Natur aus herausfordernd, da Entscheidungen auf unvollständigen Verläufen mit zeitlich verteilten Belegen beruhen müssen. In diesem Beitrag stellen wir ORACLE (Online Reasoning for Anticipating Cross-temporal Latent thrEats) vor, das erste agentische Framework zur frühzeitigen Betrugsantizipation aus kontinuierlichen App-Nutzungsverläufen. Zur Unterstützung dieses Szenarios erstellen wir einen realen Langzeit-Benchmark aus Streaming-App-Nutzungsverläufen, der 12 Betrugsarten abdeckt, sich über längere Zeiträume (durchschnittlich 15 Tage) erstreckt, verschiedene Anwendungen (95 Apps) umfasst und normales mit betrügerischem Verhalten vermischt. Zur Bewältigung fragmentierter Belege führen wir einen selbstentwickelnden Kontextmanager ein, der entitätszentrierte Interaktionen im Zeitverlauf adaptiv konsolidiert und so eine effektivere Rekonstruktion zeitübergreifender Belege aus Teilbeobachtungen ermöglicht. Um die Sensitivität für latente Frühsignale zu erhöhen, schlagen wir ein On-Policy-Selbstdestillationsschema vor, bei dem ein Lehrermodell, das auf zusammengefasste Anti-Betrugsreflexionen und Hinweise durch Fertigkeiten konditioniert ist, ein Schülermodell überwacht, das keinen Zugang zu solchen Reflexionen hat. Dieses Schema destilliert evidenzgestütztes Wissen und verbessert die Erkennung neuartiger Betrugsmuster aus unvollständigen Verläufen. Experimente zeigen, dass ORACLE die frühzeitige Betrugsantizipation konsistent verbessert, rechtzeitige Warnungen liefert und gleichzeitig Fehlalarme in realistischen Streaming-Szenarien reduziert.