HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

41 papers found

Omni-WorldBench: Auf dem Weg zu einer umfassenden interaktionszentrierten Evaluation für Weltmodelle
Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Mar 23

ByMeiqi Wu, Zhixin Cai, Fufangchen Zhao, Xiaokun Feng, Rujing Dang, Bingze Song, Ruitian Tian, Jiashu Zhu, Jiachen Lei, Hao Dou, Jing Tang, Lei Sun, Jiahong Wu, Xiangxiang Chu, Zeming Liu, Kaiqi Huang

122

Video-basierte Weltmodelle haben sich entlang zweier dominanter Paradigmen entwickelt: Videogenerierung und 3D-Rekonstruktion. Bestehende Evaluierungs-Benchmarks konzentrieren sich jedoch entweder eng auf visuelle Qualität und Text-Video-Übereinstimmung für generative Modelle oder stützen sich auf statische 3D-Rekonstruktionsmetriken, die zeitliche Dynamiken grundlegend vernachlässigen. Wir vertreten die Ansicht, dass die Zukunft der Weltmodellierung in der 4D-Generierung liegt, die räumliche Struktur und zeitliche Entwicklung gemeinsam modelliert. In diesem Paradigma ist die zentrale Fähigkeit die interaktive Response: die Fähigkeit, treu widerzuspiegeln, wie Interaktionsaktionen Zustandsübergänge über Raum und Zeit hinweg antreiben. Dennoch bewertet kein bestehender Benchmark diese kritische Dimension systematisch. Um diese Lücke zu schließen, schlagen wir Omni-WorldBench vor, einen umfassenden Benchmark, der speziell zur Bewertung der interaktiven Response-Fähigkeiten von Weltmodellen in 4D-Szenarien entwickelt wurde. Omni-WorldBench umfasst zwei Schlüsselkomponenten: Omni-WorldSuite, eine systematische Prompt-Suite, die diverse Interaktionslevel und Szenentypen abdeckt; und Omni-Metrics, ein agentenbasiertes Evaluierungsframework, das Weltmodellierungsfähigkeiten quantifiziert, indem es die kausale Wirkung von Interaktionsaktionen auf sowohl Endergebnisse als auch intermediäre Zustandsentwicklungspfade misst. Wir führen umfangreiche Evaluierungen von 18 repräsentativen Weltmodellen über mehrere Paradigmen hinweg durch. Unsere Analyse deckt kritische Limitationen aktueller Weltmodelle in der interaktiven Response auf und liefert handlungsorientierte Erkenntnisse für zukünftige Forschung. Omni-WorldBench wird öffentlich zugänglich gemacht, um Fortschritte in der interaktiven 4D-Weltmodellierung zu fördern.

Geschwindigkeit durch Einfachheit: Eine Single-Stream-Architektur für schnelle Audio-Video-Generative-Foundation-Modelle
Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Mar 23

BySII-GAIR, Sand. ai, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu

117

Wir stellen daVinci-MagiHuman vor, ein quelloffenes audio-visuelles generatives Fundamentmodell für die menschenzentrierte Generierung. daVinci-MagiHuman erzeugt synchronisiertes Video und Audio gemeinsam mittels eines Single-Stream-Transformers, der Text, Video und Audio innerhalb einer vereinheitlichten Token-Sequenz ausschließlich über Self-Attention verarbeitet. Dieses Single-Stream-Design vermeidet die Komplexität von Multi-Stream- oder Cross-Attention-Architekturen und bleibt dabei einfach mit standardmäßiger Trainings- und Inferenz-Infrastruktur optimierbar. Das Modell ist besonders leistungsstark in menschenzentrierten Szenarien und erzeugt ausdrucksstarke Gesichtsanimationen, natürliche Koordination von Sprache und Ausdruck, realistische Körperbewegungen und präzise Audio-Video-Synchronisation. Es unterstützt mehrsprachige Sprachgenerierung in Chinesisch (Mandarin und Kantonesisch), Englisch, Japanisch, Koreanisch, Deutsch und Französisch. Für effiziente Inferenz kombinieren wir das Single-Stream-Backbone mit Modell-Distillation, Latent-Space-Superresolution und einem Turbo-VAE-Decoder, was die Generierung eines 5-Sekunden-256p-Videos in 2 Sekunden auf einer einzelnen H100-GPU ermöglicht. In der automatischen Evaluation erzielt daVinci-MagiHuman die höchste visuelle Qualität und Textübereinstimmung unter führenden Open-Source-Modellen sowie die niedrigste Wortfehlerrate (14,60 %) für Sprachverständlichkeit. In paarweisen humanen Evaluationen erzielt es bei 2000 Vergleichen Gewinnraten von 80,0 % gegen Ovi 1.1 und 60,9 % gegen LTX 2.3. Wir veröffentlichen den vollständigen Modell-Stack quelloffen, inklusive Basismodell, distilliertem Modell, Superresolution-Modell und Inferenz-Codebase.

OpenResearcher: Eine vollständig offene Pipeline zur Synthese langfristiger tiefer Forschungsverläufe
OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Mar 17

ByZhuofeng Li, Dongfu Jiang, Xueguang Ma, Haoxiang Zhang, Ping Nie, Yuyu Zhang, Kai Zou, Jianwen Xie, Yu Zhang, Wenhu Chen

Das Training tiefgehender Forschungsagenten erfordert langfristige Trajektorien, die Suche, Evidenzaggregation und mehrstufiges Reasoning miteinander verflechten. Bisherige Datenerfassungspipelines basieren jedoch typischerweise auf proprietären Web-APIs, was die Synthese von Trajektorien in großem Maßstab kostspielig, instabil und schwer reproduzierbar macht. Wir stellen OpenResearcher vor, eine reproduzierbare Pipeline, die die einmalige Korpus-Initialisierung von der Synthese mehrstufiger Trajektorien entkoppelt und die Such- und Navigationsschleife vollständig offline unter Verwendung drei expliziter Browser-Primitive – Suche, Öffnen und Finden – über einen 15-Millionen-Dokumente umfassenden Korpus ausführt. Unter Verwendung von GPT-OSS-120B als Lehrer-Modell synthetisieren wir über 97.000 Trajektorien, einschließlich eines substantiellen Anteils langfristiger Trajektorien mit über 100 Werkzeugaufrufen. Überwachtes Feinabstimmen eines 30B-A3B-Basismodells auf diesen Trajektorien erreicht eine Genauigkeit von 54,8 % auf BrowseComp-Plus, eine Verbesserung um 34,0 Punkte gegenüber dem Basismodell, bei gleichzeitiger Wettbewerbsfähigkeit auf BrowseComp, GAIA und xbench-DeepSearch. Da die Umgebung offline und vollständig instrumentiert ist, ermöglicht sie auch kontrollierte Analysen. Unsere Studie liefert dabei praktische Einblicke in das Design tiefgehender Forschungspipelines, einschließlich Datenfilterstrategien, Agentenkonfigurationen und dem Zusammenhang zwischen Retrieval-Erfolg und finaler Antwortgenauigkeit. Wir veröffentlichen die Pipeline, die synthetisierten Trajektorien, Modell-Checkpoints und die Offline-Suchumgebung unter https://github.com/TIGER-AI-Lab/OpenResearcher.

Schau hin, wo es wichtig ist: Hochauflösende Bildausschnitte für effiziente visuelle Sprachmodelle
Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Mar 14

ByNimrod Shabtay, Moshe Kimhi, Artem Spector, Sivan Haray, Ehud Rivlin, Chaim Baskin, Raja Giryes, Eli Schwartz

Vision-Language-Modelle (VLMs) verarbeiten Bilder typischerweise in nativer hoher Auflösung, was einen Zielkonflikt zwischen Genauigkeit und Recheneffizienz erzwingt: Hochauflösende Eingaben erfassen feine Details, verursachen aber erhebliche Rechenkosten, während niedrigauflösende Eingaben zwar Effizienz fördern, jedoch potenziell kritische visuelle Informationen, wie kleinen Text, übersehen. Wir stellen AwaRes vor, ein raumbezogenes On-Demand-Framework, das diesen Zielkonflikt auflöst, indem es mit einer niedrigaufgelösten Gesamtansicht arbeitet und mittels Tool-Aufrufen nur die für eine bestimmte Anfrage benötigten hochauflösenden Bildsegmente abruft. Wir erzeugen automatisch überwachte Trainingsdaten: Ein "Judge" vergleicht Antworten auf Basis von niedriger versus hoher Auflösung, um zu kennzeichnen, ob ein Zuschneiden notwendig ist, und ein "Oracle"-Grounding-Modell lokalisiert die Evidenz für die korrekte Antwort, die wir auf einen diskreten Satz von Ausschnitten abbilden, um mehrstufige Tool-Nutzungspfade zu bilden. Wir trainieren unser Framework mit Cold-Start SFT, gefolgt von mehrstufigem GRPO mit einer zusammengesetzten Belohnungsfunktion, die semantische Antwortkorrektheit mit expliziten Straftermen für Zuschnittskosten kombiniert. Projektseite: https://nimrodshabtay.github.io/AwaRes

LongCat-Flash-Prover: Fortschritte im nativen formalen Beweisen durch agentenbasiertes, werkzeugintegriertes bestärkendes Lernen
LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Mar 22

ByJianing Wang, Jianfei Zhang, Qi Guo, Linsen Guo, Rumei Li, Chao Zhang, Chong Peng, Cunguang Wang, Dengchang Zhao, Jiarong Shi, Jingang Wang, Liulin Feng, Mengxia Shen, Qi Li, Shengnan An, Shun Wang, Wei Shi, Xiangyu Xi, Xiaoyu Li, Xuezhi Cao, Yi Lu, Yunke Zhao, Zhengyu Chen, Zhimin Lin, Wei Wang, Peng Pei, Xunliang Cai

Wir stellen LongCat-Flash-Prover vor, ein bahnbrechendes Open-Source-Mixture-of-Experts (MoE)-Modell mit 560 Milliarden Parametern, das das native formale Schließen in Lean4 durch agentenbasiertes, werkzeugintegriertes Reasoning (TIR) voranbringt. Wir zerlegen die Aufgabe des nativen formalen Schließens in drei unabhängige formale Fähigkeiten: Autoformalisierung, Skizzierung und Beweisführung. Um diese Fähigkeiten zu ermöglichen, schlagen wir ein Hybrid-Experts-Iterationsframework vor, um hochwertige Aufgabenverläufe zu erweitern, einschließlich der Generierung einer formalen Aussage basierend auf einem gegebenen informellen Problem, der direkten Erzeugung eines vollständigen Beweises aus der Aussage oder einer lemmenartigen Skizze. Während des agentenbasierten Reinforcement Learnings präsentieren wir einen Hierarchical Importance Sampling Policy Optimization (HisPO)-Algorithmus, der darauf abzielt, das Training des MoE-Modells für solche langfristigen Aufgaben zu stabilisieren. Er verwendet eine Gradient-Masking-Strategie, die die Veralterung der Policy sowie die inhärenten Diskrepanzen zwischen Trainings- und Inferenz-Engine auf Sequenz- und Token-Ebene berücksichtigt. Zusätzlich integrieren wir Mechanismen zur Überprüfung der Theoremkonsistenz und -legalität, um Reward-Hacking-Probleme zu beseitigen. Umfangreiche Evaluationen zeigen, dass unser LongCat-Flash-Prover einen neuen State-of-the-Art für Open-Weights-Modelle sowohl in der Autoformalisierung als auch in der Theorembeweisführung setzt. Es zeigt eine bemerkenswerte Probeneffizienz und erreicht eine Bestehensrate von 97,1 % auf MiniF2F-Test mit nur 72 Inferenzversuchen pro Problem. Auf anspruchsvolleren Benchmarks löst es 70,8 % von ProverBench und 41,5 % von PutnamBench mit nicht mehr als 220 Versuchen pro Problem und übertrifft damit existierende Open-Weights-Baselines deutlich.

VideoDetective: Spurensuche mittels extrinsischer Abfrage und intrinsischer Relevanz für das Verständnis langer Videos
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Mar 23

ByRuoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu

Das Verständnis langer Videos bleibt für multimodale große Sprachmodelle (MLLMs) aufgrund begrenzter Kontextfenster eine Herausforderung, da hierbei spärliche, abfragerelevante Videosegmente identifiziert werden müssen. Bisherige Methoden lokalisieren Hinweise jedoch überwiegend ausschließlich auf Basis der Abfrage und vernachlässigen dabei die intrinsische Struktur des Videos und die unterschiedliche Relevanz der Segmente. Um dieses Problem zu lösen, schlagen wir VideoDetective vor, einen Framework, der Abfrage-Segment-Relevanz und Inter-Segment-Affinität integriert, um effektiv Hinweise bei der Beantwortung von Fragen zu langen Videos zu finden. Konkret unterteilen wir ein Video in verschiedene Segmente und repräsentieren diese als einen visuell-temporalen Affinitätsgraphen, der auf visueller Ähnlichkeit und zeitlicher Nähe basiert. Anschließend führen wir eine Hypothesen-Verifikations-Verbesserungs-Schleife durch, um die Relevanzwerte beobachteter Segmente für die Abfrage zu schätzen und diese auf nicht beobachtete Segmente zu übertragen. Dies ergibt eine globale Relevanzverteilung, die die Lokalisierung der kritischsten Segmente für die finale Beantwortung bei spärlicher Beobachtung leitet. Experimente zeigen, dass unsere Methode durchgängig substantiale Verbesserungen über eine breite Palette von Mainstream-MLLMs auf repräsentativen Benchmarks erzielt, mit Genauigkeitssteigerungen von bis zu 7,5 % auf VideoMME-long. Unser Code ist verfügbar unter https://videodetective.github.io/

SpatialBoost: Verbesserung der visuellen Repräsentation durch sprachgesteuertes Reasoning
SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Mar 23

ByByungwoo Jeon, Dongyoung Kim, Huiwon Jang, Insoo Kim, Jinwoo Shin

Trotz der bemerkenswerten Erfolge groß angelegter, vortrainierter Bildrepräsentationsmodelle (sogenannte Vision-Encoder) bei verschiedenen Bildverarbeitungsaufgaben, werden diese überwiegend auf 2D-Bilddaten trainiert. Infolgedessen erfassen sie oft nicht die räumlichen 3D-Beziehungen zwischen Objekten und Hintergründen in der realen Welt, was ihre Wirksamkeit in vielen nachgelagerten Anwendungen einschränkt. Um dieses Problem zu adressieren, schlagen wir SpatialBoost vor, ein skalierbares Framework, das das räumliche Bewusstsein bestehender vortrainierter Vision-Encoder verbessert, indem es 3D-Raumwissen injiziert, das in linguistischen Beschreibungen ausgedrückt wird. Die Kernidee besteht darin, dichte 3D-Rauminformationen aus 2D-Bildern in linguistische Ausdrücke umzuwandeln, die dann genutzt werden, um solches Raumwissen mithilfe eines Large Language Models (LLM) in die Vision-Encoder zu injizieren. Zu diesem Zweck verwenden wir einen mehrstufigen Chain-of-Thought (CoT)-Reasoning-Prozess, der schrittweise dichtes Raumwissen integriert und ein hierarchisches räumliches Verständnis aufbaut. Um die Wirksamkeit zu validieren, passen wir SpatialBoost an state-of-the-art Vision-Encoder wie DINOv3 an und bewerten die Leistungssteigerungen anhand einer Vielzahl von Benchmarks, die sowohl 3D-Wahrnehmung als auch allgemeine Bildverarbeitungsfähigkeiten erfordern. So verbessert SpatialBoost beispielsweise die Leistung von DINOv3 auf ADE20K von 55,9 auf 59,7 mIoU und erzielt mit einem Gewinn von 3,8 % gegenüber dem vortrainierten DINOv3 state-of-the-art Leistungen.

Wiederverwendung geometrischer Fundamentalmodelle für Multi-View-Diffusion
Repurposing Geometric Foundation Models for Multi-view Diffusion

Mar 23

ByWooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, Sainan Liu

Während jüngste Fortschritte bei generativen latenten Räumen erhebliche Verbesserungen in der Einzelbildgenerierung bewirkt haben, ist der optimale latente Raum für die Synthese neuartiger Ansichten (Novel View Synthesis, NVS) weitgehend unerforscht. Insbesondere erfordert NVS eine geometrisch konsistente Generierung über verschiedene Blickwinkel hinweg, doch bestehende Ansätze operieren typischerweise in einem blickunabhängigen VAE-latenten Raum. In diesem Beitrag schlagen wir Geometric Latent Diffusion (GLD) vor, ein Framework, das den geometrisch konsistenten Merkmalsraum geometrischer Foundation-Modelle als latenten Raum für Multi-View-Diffusion nutzbar macht. Wir zeigen, dass diese Merkmale nicht nur eine hochpräzise RGB-Rekonstruktion unterstützen, sondern auch starke geometrische Korrespondenzen zwischen Ansichten kodieren, was einen gut geeigneten latenten Raum für NVS bereitstellt. Unsere Experimente belegen, dass GLD sowohl VAE als auch RAE in Bezug auf 2D-Bildqualität und 3D-Konsistenzmetriken übertrifft und dabei das Training im Vergleich zum VAE-latenten Raum um mehr als das 4,4-fache beschleunigt. Bemerkenswerterweise bleibt GLD wettbewerbsfähig mit state-of-the-art Methoden, die großskaliges Text-zu-Bild-Pre-Training nutzen, obwohl sein Diffusionsmodell von Grund auf ohne ein solches generatives Pre-Training trainiert wird.

mSFT: Adressierung heterogener Überanpassung an Datensatzgemische im Multi-Task SFT
mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Mar 23

ByWoosung Koh, Jeyoung Jeon, Youngjin Song, Yujin Cheon, Soowon Oh, Jaehyeong Choi, Se-Young Yun

Bei der aktuellen Training von Sprachmodellen wird häufig eine multi-task Supervised Fine-Tuning (SFT) Methode angewendet, die ein homogenes Rechenbudget über alle Teil-Datensätze hinweg verteilt. Dieser Ansatz ist grundsätzlich suboptimal: heterogene Lern-Dynamiken führen dazu, dass sich schnell lernende Aufgaben frühzeitig überanpassen, während langsam lernende unterangepasst bleiben. Um dieses Problem zu adressieren, stellen wir mSFT vor – einen iterativen, überanpassungsbewussten Suchalgorithmus für Multi-Task-Datenmischungen. mSFT trainiert das Modell auf einer aktiven Mischung, identifiziert und entfernt den am frühesten überanpassenden Teil-Datensatz und kehrt zu dem entsprechenden optimalen Checkpoint zurück, bevor es fortfährt. Umfangreiche Auswertungen zeigen, dass mSFT durchgängig 4 Baseline-Methoden auf 10 Benchmarks und 6 Basismodellen übertrifft. Weitere Analysen bestätigen, dass mSFT robuste Verbesserungen über verschiedene Datensatzgrößen und Aufgaben-Granularitäten hinweg beibehält und unempfindlich gegenüber seinem einzigen neuen Hyperparameter (Rechenbudget) ist. Bemerkenswerterweise kann mSFT bei niedrigem Rechenbudget die Leistung verbessern und gleichzeitig die Trainings-FLOPs verringern. Letztendlich etabliert mSFT einen praktischen, überanpassungsbewussten Algorithmus für Multi-Task-SFT, der das Potenzial von Modellen über verschiedene Datenmischungen hinweg maximiert.

Manifold-bewusste Exploration für bestärkendes Lernen in der Videogenerierung
Manifold-Aware Exploration for Reinforcement Learning in Video Generation

Mar 23

ByMingzhe Zheng, Weijie Kong, Yue Wu, Dengyang Jiang, Yue Ma, Xuanhua He, Bin Lin, Kaixiong Gong, Zhao Zhong, Liefeng Bo, Qifeng Chen, Harry Yang

Group Relative Policy Optimization (GRPO)-Methoden für die Videogenerierung, wie etwa FlowGRPO, sind nach wie vor weit weniger zuverlässig als ihre Gegenstücke für Sprachmodelle und Bilder. Diese Lücke entsteht, weil die Videogenerierung einen komplexen Lösungsraum aufweist und die für die Exploration verwendete ODE-zu-SDE-Konvertierung überschüssiges Rauschen einbringen kann, was die Qualität der Rollouts verringert und Belohnungsschätzungen unzuverlässiger macht, was die Nachtraining-Alignment destabilisiert. Um dieses Problem zu adressieren, betrachten wir das vortrainierte Modell als Definition einer gültigen Videodaten-Mannigfaltigkeit und formulieren das Kernproblem als Einschränkung der Exploration auf die Umgebung dieser Mannigfaltigkeit, um sicherzustellen, dass die Rollout-Qualität erhalten bleibt und Belohnungsschätzungen zuverlässig bleiben. Wir schlagen SAGE-GRPO (Stable Alignment via Exploration) vor, das Einschränkungen auf Mikro- und Makroebene anwendet. Auf der Mikroebene leiten wir eine präzise, mannigfaltigkeitsbewusste SDE mit einer logarithmischen Krümmungskorrektur ab und führen einen Gradientennorm-Equalizer ein, um das Sampling und die Updates über Zeitschritte hinweg zu stabilisieren. Auf der Makroebene verwenden wir eine duale Vertrauensregion mit einem periodisch beweglichen Anker und schrittweisen Beschränkungen, sodass die Vertrauensregion Checkpoints verfolgt, die näher an der Mannigfaltigkeit liegen, und eine langfristige Drift begrenzt. Wir evaluieren SAGE-GRPO auf HunyuanVideo1.5 unter Verwendung des ursprünglichen VideoAlign als Belohnungsmodell und beobachten konsistente Verbesserungen gegenüber bisherigen Methoden in VQ, MQ, TA und visuellen Metriken (CLIPScore, PickScore), was eine überlegene Leistung sowohl in der Belohnungsmaximierung als auch in der gesamten Videogüte demonstriert. Der Code und die visuelle Galerie sind verfügbar unter https://dungeonmassster.github.io/SAGE-GRPO-Page/.

F4Splat: Vorwärtsgerichtete prädiktive Verdichtung für vorwärtsgerichtetes 3D-Gaußsplatting
F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Mar 22

ByInjae Kim, Chaehyeon Kim, Minseong Bae, Minseok Joo, Hyunwoo J. Kim

Feed-Forward-3D-Gaussian-Splatting-Methoden ermöglichen eine Einzelpass-Rekonstruktion und Echtzeit-Rendering. Allerdings verwenden sie typischerweise starre Pixel-zu-Gauß- oder Voxel-zu-Gauß-Pipelines, die Gaußsche Verteilungen gleichmäßig zuweisen, was zu redundanten Gaußverteilungen über verschiedene Blickwinkel hinweg führt. Zudem fehlt ihnen ein effektiver Mechanismus, um die Gesamtzahl der Gaußverteilungen bei gleichbleibender Rekonstruktionsqualität zu steuern. Um diese Einschränkungen zu adressieren, stellen wir F4Splat vor, das eine prädiktive Verdichtung für Feed-Forward-3D-Gaussian-Splatting durchführt und eine verdichtungsbewertungsgesteuerte Zuweisungsstrategie einführt, die Gaußverteilungen adaptiv nach räumlicher Komplexität und Multi-View-Überlappung verteilt. Unser Modell sagt regionsspezifische Verdichtungswerte voraus, um die benötigte Gaußdichte abzuschätzen, und ermöglicht eine explizite Kontrolle über das endgültige Gauß-Budget ohne Neutraining. Diese räumlich adaptive Zuweisung reduziert Redundanzen in einfachen Regionen und minimiert doppelte Gaußverteilungen in überlappenden Blickwinkeln, was kompakte und dennoch hochwertige 3D-Repräsentationen erzeugt. Umfassende Experimente zeigen, dass unser Modell eine überlegene Neuansicht-Syntheseleistung im Vergleich zu früheren unkalibrierten Feed-Forward-Methoden erzielt, dabei aber signifikant weniger Gaußverteilungen verwendet.

Group3D: MLLM-gesteuerte semantische Gruppierung für Open-Vocabulary 3D-Objekterkennung
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

Mar 23

ByYoubin Kim, Jinho Park, Hogun Park, Eunbyung Park

Open-vocabulary 3D-Objekterkennung zielt darauf ab, Objekte über eine feste Trainings-Taxonomie hinaus zu lokalisieren und zu erkennen. In Multi-View-RGB-Szenarien entkoppeln aktuelle Ansätze häufig geometriebasierte Instanzkonstruktion von semantischer Beschriftung, indem sie klassenagnostische Fragmente generieren und open-vocabulary-Kategorien nachträglich zuweisen. Obwohl flexibel, bleibt bei einer solchen Entkopplung die Instanzkonstruktion primär von geometrischer Konsistenz gesteuert, ohne semantische Zwänge während des Zusammenfühgens. Wenn geometrische Evidenz ansichtsabhängig und unvollständig ist, kann dieses rein geometrische Zusammenführen zu irreversiblen Assoziationsfehlern führen, einschließlich der Überfusionierung verschiedener Objekte oder der Fragmentierung einer einzelnen Instanz. Wir schlagen Group3D vor, einen Multi-View-open-vocabulary-3D-Erkennungsrahmen, der semantische Zwänge direkt in den Instanzkonstruktionsprozess integriert. Group3D verwaltet ein szenenadaptives Vokabular, das von einem multimodalen Large Language Model (MLLM) abgeleitet ist, und organisiert es in semantische Kompatibilitätsgruppen, die plausible äquivalente Kategorien über Ansichten hinweg kodieren. Diese Gruppen dienen als Zwänge beim Zusammenführen: 3D-Fragmente werden nur dann assoziiert, wenn sie sowohl semantische Kompatibilität als auch geometrische Konsistenz erfüllen. Diese semantisch gesteuerte Fusion mildert geometriebedingte Überfusionierung und integriert gleichzeitig Multi-View-Kategorievarianz. Group3D unterstützt sowohl pose-bekannte als auch pose-freie Settings und stützt sich ausschließlich auf RGB-Beobachtungen. Experimente auf ScanNet und ARKitScenes zeigen, dass Group3D state-of-the-art Leistung in der Multi-View-open-vocabulary-3D-Erkennung erreicht und gleichzeitig starke Generalisierung in Zero-Shot-Szenarien aufweist. Die Projektseite ist verfügbar unter https://ubin108.github.io/Group3D/.

RoboAlign: Erlernen von Test-Zeit-Argumentation für Sprach-Aktions-Abgleich in Vision-Sprache-Aktions-Modellen
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Mar 22

ByDongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

Die Verbesserung des verkörperten Denkens in multimodalen Großsprachmodellen (MLLMs) ist entscheidend, um darauf aufbauend Vision-Sprache-Handlungs-Modelle (VLAs) zu entwickeln, die multimodales Verständnis direkt in niedrigstufige Aktionen übersetzen können. Dementsprechend hat die jüngste Forschung versucht, das verkörperte Denken in MLLMs durch Supervision vom Typ Vision-Frage-Antwort zu verbessern. Diese Ansätze führten jedoch nach Berichten zu instabilen VLA-Leistungen, oft mit nur marginalen oder sogar negativen Verbesserungen. In diesem Artikel schlagen wir mit RoboAlign einen systematischeren Trainingsrahmen für MLLMs vor, der die VLA-Leistung zuverlässig steigert. Unser Kernansatz besteht darin, Aktionstokens durch Zero-Shot-Schlussfolgerungen in natürlicher Sprache zu samplen und diese Schlussfolgerungen mit Reinforcement Learning (RL) zu verfeinern, um die Handlungsgenauigkeit zu erhöhen. Dadurch überbrückt RoboAlign die Modalitätslücke zwischen Sprache und niedrigstufigen Aktionen in MLLMs und erleichtert den Wissenstransfer vom MLLM zum VLA. Um die Wirksamkeit von RoboAlign zu validieren, trainieren wir VLAs, indem wir einen diffusionsbasierten Aktionskopf auf ein MLLM-Backbone aufsetzen, und evaluieren sie auf wichtigen Robotik-Benchmarks. Bemerkenswerterweise erzielt RoboAlign durch RL-basiertes Alignment nach SFT mit weniger als 1 % der Daten Leistungssteigerungen von 17,5 %, 18,9 % bzw. 106,6 % gegenüber SFT-Baselines in LIBERO, CALVIN und realen Umgebungen.

BubbleRAG: Evidenzbasierte Retrieval-Augmented Generation für Black-Box-Wissensgraphen
BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Mar 19

ByDuyi Pan, Tianao Lou, Xin Li, Haoze Song, Yiwen Wu, Mengyi Deng, Mingyu Yang, Wei Wang

Große Sprachmodelle (LLMs) zeigen Halluzinationen bei wissensintensiven Aufgaben. Graphbasierte, retrieval-unterstützte Generierung (RAG) hat sich als vielversprechende Lösung erwiesen, doch bestehende Ansätze leiden unter grundlegenden Einschränkungen bei Recall und Präzision bei der Arbeit mit Black-Box-Wissensgraphen – Graphen, deren Schema und Struktur im Voraus unbekannt sind. Wir identifizieren drei Kernherausforderungen, die zu Recall-Verlust (semantische Instanziierungsunsicherheit und strukturelle Pfadunsicherheit) und Präzisionsverlust (Unsicherheit beim evidenzbasierten Vergleich) führen. Um diese Herausforderungen zu adressieren, formalisieren wir die Retrieval-Aufgabe als Optimal Informative Subgraph Retrieval (OISR) Problem – eine Variante des Group Steiner Tree – und beweisen, dass es NP-schwer und APX-schwer ist. Wir schlagen BubbleRAG vor, eine trainierungsfreie Pipeline, die systematisch sowohl Recall als auch Präzision durch semantische Anker-Gruppierung, heuristische Bubble-Erweiterung zur Entdeckung von Kandidaten-Evidenzgraphen (CEGs), kombiniertes Ranking und reasoning-bewusste Erweiterung optimiert. Experimente auf Multi-Hop-QA-Benchmarks zeigen, dass BubbleRAG state-of-the-art Ergebnisse erzielt, starke Baseline-Methoden sowohl in F1 als auch Genauigkeit übertrifft und dabei plug-and-play-fähig bleibt.

Über die Richtung von RLVR-Updates für das LLM-Reasoning: Identifikation und Nutzung
On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Mar 23

ByKexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat die Reasoning-Fähigkeiten großer Sprachmodelle erheblich verbessert. Während bestehende Analysen feststellen, dass RLVR-induzierte Veränderungen spärlich sind, konzentrieren sie sich primär auf die Größenordnung dieser Updates und übersehen weitgehend deren Richtung. In dieser Arbeit argumentieren wir, dass die Richtung der Updates eine entscheidendere Perspektive zum Verständnis der RLVR-Effekte darstellt, die durch die vorzeichenbehaftete, tokenweise Log-Wahrscheinlichkeitsdifferenz Δlog p zwischen dem Basis- und dem finalen RLVR-Modell erfasst werden kann. Durch statistische Analysen und Token-Ersetzungsinterventionen zeigen wir, dass Δlog p spärliche, aber reasoning-kritische Updates wirksamer identifiziert als auf der Größenordnung basierende Metriken (z.B. Divergenz oder Entropie). Aufbauend auf dieser Erkenntnis schlagen wir zwei praktische Anwendungen vor: (1) eine Methode zur Extrapolation zur Testzeit, die die Policy entlang der gelernten Δlog p-Richtung verstärkt, um die Reasoning-Genauigkeit ohne weiteres Training zu verbessern; (2) eine Neugewichtungsmethode zur Trainingszeit, die das Lernen auf Tokens mit niedriger Wahrscheinlichkeit (entsprechend höherem Δlog p) fokussiert, was die Reasoning-Leistung über Modelle und Benchmarks hinweg verbessert. Unsere Arbeit etabliert die Richtung der Veränderung als ein Schlüsselprinzip zur Analyse und Verbesserung von RLVR.

PivotRL: Hochpräzises agentenbasiertes Nachträining bei geringen Rechenkosten
PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Mar 22

ByJunkeun Yi, Damon Mosk-Aoyama, Baihe Huang, Ritu Gala, Charles Wang, Sugam Dipak Devare, Khushi Bhardwaj, Abhibha Gupta, Oleksii Kuchaiev, Jiantao Jiao, Jian Zhang, Venkat Srinivasan

Das Post-Training für langfristige agentenbasierte Aufgaben steht in einem Spannungsfeld zwischen Recheneffizienz und Generalisierung. Während überwachtes Feintuning (SFT) recheneffizient ist, leidet es oft unter Out-of-Domain (OOD)-Leistungseinbußen. Im Gegensatz dazu erhält end-to-end bestärkendes Lernen (E2E RL) die OOD-Fähigkeiten, verursacht jedoch aufgrund vieler Runden on-policy Rollouts hohe Rechenkosten. Wir stellen PivotRL vor, einen neuartigen Rahmen, der auf vorhandenen SFT-Trajektorien operiert, um die Recheneffizienz von SFT mit der OOD-Genauigkeit von E2E RL zu kombinieren. PivotRL basiert auf zwei Schlüsselmechanismen: Erstens führt es lokale on-policy Rollouts durch und filtert nach Pivotpunkten – informativen Zwischenschritten, bei denen die gesampelten Aktionen eine hohe Varianz in den Ergebnissen aufweisen. Zweitens nutzt es Belohnungen für funktional äquivalente Aktionen anstatt strikte Zeichenkettenübereinstimmung mit den SFT-Demonstrationsdaten zu verlangen. Wir zeigen theoretisch, dass diese Mechanismen starke Lernsignale mit hoher natürlicher Gradientennorm incentivieren, während sie gleichzeitig die Reihenfolge der Aktionswahrscheinlichkeiten der Politik bei aufgabenunabhängigen Aktionen maximal erhalten. Im Vergleich zu standardmäßigem SFT auf identischen Daten demonstrieren wir, dass PivotRL durchschnittlich eine um +4,17 % höhere In-Domain-Genauigkeit über vier agentenbasierte Domänen und eine um +10,04 % höhere OOD-Genauigkeit in nicht-agentenbasierten Aufgaben erreicht. Bemerkenswerterweise erzielt PivotRL bei agentenbasierten Programmieraufgaben eine vergleichbare Genauigkeit wie E2E RL, jedoch mit 4-mal weniger Rollout-Runden. PivotRL wird von NVIDIA's Nemotron-3-Super-120B-A12B übernommen und dient als zentrale Methode im produktionsskaligen agentenbasierten Post-Training.

REVERE: Reflektiver, sich entwickelnder Forschungsingenieur für wissenschaftliche Workflows
REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Mar 21

ByBalaji Dinesh Gangireddi, Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Bestehende Prompt-Optimierungstechniken verlassen sich auf lokale Signale zur Verhaltensaktualisierung und vernachlässigen häufig breitere, wiederkehrende Muster über Aufgaben hinweg, was zu schlechter Generalisierung führt. Zudem basieren sie auf Komplettüberarbeitungen des Prompts oder unstrukturierten Zusammenführungen, was Wissensverluste verursacht. Diese Einschränkungen verstärken sich in Forschungs-Coding-Workflows, die heterogene Repositories, underspezifizierte Umgebungen und schwache Rückmeldungen umfassen – Bereiche, in denen die Reproduktion von Ergebnissen aus öffentlichen Codebasen ein etabliertes Evaluierungsregime darstellt. Wir stellen Reflective Evolving Research Engineer (REVERE) vor, ein Framework, das kontinuierlich aus einem globalen Trainingskontext lernt, wiederkehrende Fehlermuster in repositoryübergreifenden Ausführungspfaden erkennt, diese in wiederverwendbare Heuristiken destilliert und gezielte Bearbeitungen in drei konfigurierbaren Bereichen vornimmt: dem System-Prompt, einer Aufgaben-Prompt-Vorlage und einem kumulativen Cheatsheet. REVERE verbessert durch diesen reflektiven Optimierungsansatz die Leistung gegenüber vorherigen state-of-the-art, von Experten erstellten Anweisungen bei Forschungs-Coding-Aufgaben um 4,50 % auf SUPER, 3,51 % auf ResearchCodeBench und 4,89 % auf ScienceAgentBench gemessen an deren jeweiligen Metriken. Diese Ergebnisse demonstrieren, dass Agenten mit Mechanismen für kontinuierliches Lernen und globale Gedächtniskonsolidierung ihre Fähigkeiten im Laufe der Zeit bedeutend weiterentwickeln können.

SEM: Sparse Embedding Modulation zur nachträglichen Entfernung von Verzerrungen in Bild-Sprache-Modellen
SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Mar 19

ByQuentin Guimard, Federico Bartsch, Simone Caldarella, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini

Modelle, die Vision und Sprache verbinden, wie CLIP, sind Schlüsselkomponenten multimodaler KI, doch ihre groß angelegten, unkuratierten Trainingsdaten führen zu erheblichen sozialen und scheinkausalen Verzerrungen (Bias). Bestehende nachträgliche (Post-hoc-)Debiasing-Methoden operieren oft direkt im dichten CLIP-Einbettungsraum, in dem Bias und aufgabenrelevante Informationen stark verwoben sind. Diese Verflechtung schränkt ihre Fähigkeit ein, Bias zu entfernen, ohne die semantische Treue zu beeinträchtigen. In dieser Arbeit schlagen wir Sparse Embedding Modulation (SEM) vor, einen nachträglichen Zero-Shot-Debiasing-Rahmen, der in einem latenten Raum eines Sparse Autoencoders (SAE) arbeitet. Indem CLIP-Text-Einbettungen in entflochtene Merkmale zerlegt werden, identifiziert und moduliert SEM biasrelevante Neuronen, während abfragerelevante erhalten bleiben. Dies ermöglicht präzisere, nichtlineare Eingriffe. In vier Benchmark-Datensätzen und mit zwei CLIP-Backbones erzielt SEM erhebliche Verbesserungen der Fairness bei Retrieval und Zero-Shot-Klassifikation. Unsere Ergebnisse zeigen, dass spärliche latente Repräsentationen eine effektive Grundlage für das nachträgliche Debiasing von Vision-Language-Modellen bieten.

Die universelle normale Einbettung
The Universal Normal Embedding

Mar 23

ByChen Tasker, Roy Betser, Eyal Gofer, Meir Yossef Levi, Guy Gilboa

Generative Modelle und Vision-Encoder haben sich weitgehend auf getrennten Wegen entwickelt, die für unterschiedliche Ziele optimiert und auf verschiedenen mathematischen Prinzipien basieren. Dennoch teilen sie eine grundlegende Eigenschaft: die Gaußförmigkeit des latenten Raums. Generative Modelle bilden Gaußsches Rauschen auf Bilder ab, während Encoder Bilder auf semantische Embeddings abbilden, deren Koordinaten sich empirisch als gaußförmig verhalten. Wir stellen die Hypothese auf, dass beide Sichtweisen auf eine gemeinsame latente Quelle zurückgehen, die Universal Normal Embedding (UNE): einen annähernd gaußförmigen latenten Raum, aus dem Encoder-Embeddings und DDIM-invertiertes Rauschen als verrauschte lineare Projektionen hervorgehen. Um unsere Hypothese zu testen, stellen wir NoiseZoo vor, einen Datensatz von latenten Repräsentationen pro Bild, der DDIM-invertiertes Diffusionsrauschen und entsprechende Encoder-Repräsentationen (CLIP, DINO) umfasst. Auf CelebA erzielen lineare Klassifikatoren in beiden Räumen starke, übereinstimmende Attributvorhersagen, was darauf hindeutet, dass generatives Rauschen bedeutungsvolle Semantik entlang linearer Richtungen kodiert. Diese Richtungen ermöglichen weiterhin zuverlässige, steuerbare Bearbeitungen (z.B. Lächeln, Geschlecht, Alter) ohne Architekturänderungen, wobei einfache Orthogonalisierung unerwünschte Verflechtungen reduziert. Zusammengenommen liefern unsere Ergebnisse empirische Unterstützung für die UNE-Hypothese und offenbaren eine gemeinsame, gaußähnliche latente Geometrie, die Encodierung und Generierung konkret verbindet. Code und Daten sind verfügbar unter https://rbetser.github.io/UNE/.

Skalierung von DoRA: Hochrangige Adaption mittels faktorisierter Normen und fusionierter Kernel
Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

Mar 23

ByAlexandra Zelenin, Alexandra Zhuravlyova

Gewichtsdekomponierte Low-Rank-Adaption (DoRA) erweitert LoRA durch die Entkopplung der Gewichtsgröße von der Richtung. Allerdings erfordert ihr Vorwärtsdurchlauf die zeilenweise Norm von W + sBA, eine Berechnung, die jeder größere Framework, den wir untersucht haben, durch die Materialisierung des dichten [d_out, d_in]-Produkts BA implementiert. Bei d_in = 8192 und Rang r = 384 erfordert die Norm eines einzelnen Moduls etwa 512 MB transienten Arbeitsspeicher in bf16, was DoRA mit hohem Rang kostspielig und auf gängigen Single-GPU-Setups oft undurchführbar macht, sobald hunderte adaptierte Module und Checkpointing involviert sind. Wir präsentieren zwei Systembeiträge. Eine faktorisierte Norm zerlegt die quadrierte Norm in Basis-, Kreuz- und Gram-Terme, die über O(d_out r + r^2)-Zwischenwerte berechenbar sind und das dichte Produkt eliminieren. Fused Triton-Kernel reduzieren die DoRA-Zusammensetzung aus vier Kerneln auf einen einzigen Durchlauf, senken den Speicherdatenverkehr um etwa das 4-fache und verwenden eine numerisch stabile Form, die katastrophale Auslöschung im Praxis-relevanten Bereich nahe der Einheitsskalierung vermeidet, wo sich die Größenordnungen konzentrieren. Über sechs 8-32B Vision-Language-Modelle (VLMs) auf drei NVIDIA-GPUs (RTX 6000 PRO, H200, B200) bei r = 384 in bf16 hinweg ist die gefused Implementierung 1,5-2,0x schneller als Hugging Face PEFTs DoRA-Implementierung für Inference und 1,5-1,9x schneller für die Gradientenberechnung (Optimiererschritt ausgenommen), mit bis zu 7 GB niedrigerem VRAM-Spitzenverbrauch. Microbenchmarks auf sechs GPUs über vier Architekturgenerationen (L40S, A100, RTX 6000 PRO, H200, B200, B300) bestätigen eine 1,5-2,7x Beschleunigung der Compose-Kernel. Die Kosinusähnlichkeit der Final-Logits übersteigt 0,9999 über alle Modell/GPU-Paare hinweg, und Trainingskurven mit mehreren Seeds stimmen innerhalb eines mittleren Verlustdeltas von 7,1 x 10^-4 pro Schritt über 2000 Schritte überein.

Insight-V++: Auf dem Weg zu fortschrittlicher visueller Langketten-Reasoning mit multimodalen Large Language Models
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Mar 18

ByYuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu

Große Sprachmodelle (LLMs) haben durch erweitertes Reasoning während der Testphase bemerkenswerte Zuverlässigkeit und fortgeschrittene Fähigkeiten erreicht. Die Übertragung dieser Fähigkeiten auf multimodale große Sprachmodelle (MLLMs) stellt jedoch eine erhebliche Herausforderung dar, hauptsächlich aufgrund eines kritischen Mangels an hochwertigen Daten für langkettiges Reasoning und optimierten Trainingspipelines. Um diese Lücke zu schließen, präsentieren wir einen vereinheitlichten Multi-Agenten-Ansatz für visuelles Reasoning, der sich systematisch aus unserem bildzentrierten Basismodell Insight-V zu einer generalisierten raumzeitlichen Architektur, Insight-V++, entwickelt. Zunächst schlagen wir eine skalierbare Datengenerierungspipeline mit mehrgranularer Bewertung vor, die strukturierte, komplexe Reasoning-Pfade über Bild- und Videodomänen hinweg ohne menschliches Eingreifen autonom synthetisiert. Da die direkte Supervision von MLLMs mit derart komplexen Daten suboptimale Ergebnisse liefert, entwerfen wir eine Dual-Agenten-Architektur, bestehend aus einem Reasoning-Agenten zur Ausführung umfangreicher analytischer Ketten und einem Summarization-Agenten zur kritischen Bewertung und Destillation finaler Ergebnisse. Während unser initialer Framework Direct Preference Optimization (DPO) nutzte, limitierte dessen Off-Policy-Charakter grundlegend das Potenzial des Reinforcement Learnings. Um diese Limitationen, insbesondere für langfristiges Videoverständnis, zu überwinden, führt Insight-V++ zwei neuartige Algorithmen ein – ST-GRPO und J-GRPO –, die das raumzeitliche Reasoning verbessern und die Bewertungsrobustheit erhöhen. Entscheidend ist, dass wir durch die Nutzung zuverlässiger Rückmeldungen des Summarization-Agenten einen iterativen Reasoning-Pfadgenerierungsprozess steuern und das gesamte Multi-Agenten-System in einem kontinuierlichen, sich selbst verbessernden Loop neu trainieren. Umfangreiche Experimente mit Basismodellen wie LLaVA-NeXT und Qwen2.5-VL demonstrieren signifikante Leistungssteigerungen in anspruchsvollen Bild- und Video-Reasoning-Benchmarks bei gleichzeitiger Bewahrung starker Fähigkeiten in traditionellen, wahrnehmungsfokussierten Aufgaben.

Generalisierte diskrete Diffusion aus Momentaufnahmen
Generalized Discrete Diffusion from Snapshots

Mar 22

ByOussama Zekri, Théo Uscidda, Nicolas Boullé, Anna Korba

Wir stellen Generalized Discrete Diffusion from Snapshots (GDDS) vor, einen einheitlichen Rahmen für diskrete Diffusionsmodelle, der beliebige Rauschprozesse in großen diskreten Zustandsräumen unterstützt. Unsere Formulierung umfasst alle bestehenden diskreten Diffusionsansätze und ermöglicht gleichzeitig eine deutlich größere Flexibilität bei der Wahl der Korruptionsdynamik. Der Vorwärts-Rauschprozess basiert auf Uniformisierung und ermöglicht eine schnelle, beliebige Korruption. Für den Rückwärtsprozess leiten wir eine einfache Evidenzuntergrenze (ELBO) ab, die auf Snapshot-Latents anstelle des gesamten Rauschpfads basiert. Dies ermöglicht eine effiziente Training standardmäßiger generativer Modellarchitekturen mit klarer probabilistischer Interpretation. Unsere Experimente zu Diskretgenerierungsaufgaben mit großem Vokabular legen nahe, dass der vorgeschlagene Rahmen bestehende diskrete Diffusionsmethoden in Bezug auf Trainingseffizienz und Generierungsqualität übertrifft und in diesem Maßstab erstmals autoregressive Modelle schlägt. Wir stellen den Code zusammen mit einem Blogbeitrag auf der Projektseite bereit: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

Agentische KI und die nächste Intelligenzexplosion
Agentic AI and the next intelligence explosion

Mar 21

ByJames Evans, Benjamin Bratton, Blaise Agüera y Arcas

Die "KI-Singularität" wird oft fälschlicherweise als monolithischer, gottgleicher Geist dargestellt. Die Evolution deutet auf einen anderen Weg hin: Intelligenz ist grundsätzlich pluralistisch, sozial und relational. Jüngste Fortschritte in der agentenbasierten KI zeigen, dass Spitzenmodelle des logischen Denkens, wie DeepSeek-R1, sich nicht einfach durch "längeres Nachdenken" verbessern. Stattdessen simulieren sie innere "Denkgemeinschaften" – spontane kognitive Debatten, die argumentieren, verifizieren und abgleichen, um komplexe Aufgaben zu lösen. Darüber hinaus betreten wir eine Ära der Mensch-KI-Zentauren: hybride Akteure, bei denen kollektive Handlungsfähigkeit die individuelle Kontrolle übersteigt. Die Skalierung dieser Intelligenz erfordert einen Wechsel von dyadischer Ausrichtung (RLHF) hin zu institutioneller Ausrichtung. Durch den Entwurf digitaler Protokolle, die an Organisationen und Märkten orientiert sind, können wir eine soziale Infrastruktur der gegenseitigen Kontrolle aufbauen. Die nächste Intelligenzexplosion wird kein einzelnes Siliziumgehirn sein, sondern eine komplexe, kombinatorische Gesellschaft, die sich wie eine Stadt spezialisiert und ausbreitet. Kein Geist ist eine Insel.

Skalierbare Prompt-Routing durch feinkörnige latente Aufgabenentdeckung
Scalable Prompt Routing via Fine-Grained Latent Task Discovery

Mar 19

ByYunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis

Prompt-Routing wählt für jede Anfrage dynamisch das am besten geeignete große Sprachmodell aus einem Pool von Kandidaten aus, um die Leistung zu optimieren und gleichzeitig die Kosten zu steuern. Wenn Modellpools auf Dutzende von Spitzenmodellen mit geringen Leistungsunterschieden anwachsen, stehen bestehende Ansätze vor erheblichen Herausforderungen: manuell definierte Aufgaben-Taxonomien können feinkörnige Fähigkeitsunterschiede nicht erfassen, während monolithische Router mit der Differenzierung subtiler Unterschiede über diverse Aufgaben hinweg kämpfen. Wir schlagen eine zweistufige Routing-Architektur vor, die diese Einschränkungen durch automatisierte, feinkörnige Aufgabenerkennung und aufgabenbewusste Qualitätsschätzung adressiert. Unsere erste Stufe nutzt graphenbasierte Clustering-Verfahren, um latente Aufgabentypen zu entdecken, und trainiert einen Klassifikator, um Prompts den erkannten Aufgaben zuzuordnen. Die zweite Stufe verwendet eine Mixture-of-Experts-Architektur mit aufgabenspezifischen Vorhersage-Köpfen für spezialisierte Qualitätsschätzungen. Zur Inferenzzeit aggregieren wir Vorhersagen aus beiden Stufen, um aufgabenbezogene Stabilität mit promptspezifischer Anpassungsfähigkeit in Einklang zu bringen. Ausgewertet an 10 Benchmarks mit 11 Spitzenmodellen übertrifft unsere Methode konsistent bestehende Baseline-Ansätze und überbietet das leistungsstärkste Einzelmodell, bei weniger als der Hälfte seiner Kosten.

ToolRosetta: Brückenschlag zwischen Open-Source-Repositorien und KI-Agenten durch automatisierte Werkzeugstandardisierung
ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Mar 10

ByShimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui

Die Wiederverwendung und Aufrufung bestehender Codes bleibt kostspielig und unzuverlässig, da die meisten praktischen Werkzeuge in heterogenen Code-Repositories eingebettet sind und standardisierte, ausführbare Schnittstellen fehlen. Obwohl große Sprachmodelle (LLMs) und auf dem Model Context Protocol (MCP) basierende Werkzeugaufrufframeworks die Ausführung von Aufgaben in natürlicher Sprache ermöglichen, sind aktuelle Ansätze stark auf manuelle Werkzeugkuratierung und Standardisierung angewiesen, was die Skalierbarkeit grundlegend einschränkt. In diesem Beitrag stellen wir ToolRosetta vor, ein einheitliches Framework, das Open-Source-Code-Repositories und APIs automatisch in MCP-kompatible Werkzeuge übersetzt, die zuverlässig von LLMs aufgerufen werden können. Für eine gegebene Benutzeraufgabe plant ToolRosetta autonom Toolchains, identifiziert relevante Codebasen und konvertiert sie in ausführbare MCP-Dienste, wodurch End-to-End-Aufgabenabschluss mit minimalem menschlichem Eingriff ermöglicht wird. Zusätzlich integriert ToolRosetta eine Sicherheitsprüfschicht, um die inhärenten Risiken bei der Ausführung beliebigen Codes zu mindern. Umfangreiche Experimente in verschiedenen wissenschaftlichen Domänen zeigen, dass ToolRosetta eine große Anzahl von Open-Source-Werkzeugen automatisch standardisieren und den menschlichen Aufwand für Codereproduktion und Bereitstellung reduzieren kann. Bemerkenswerterweise verbessern ToolRosetta-gesteuerte Agenten durch nahtlose Nutzung spezialisierter Open-Source-Werkzeuge durchgängig die Leistung beim Aufgabenabschluss im Vergleich zu kommerziellen LLMs und bestehenden Agentensystemen.

Nicht alle Schichten sind gleichwertig: Adaptive LoRA-Ränge für personalisierte Bildgenerierung
Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

Mar 23

ByDonald Shenaj, Federico Errica, Antonio Carta

Low Rank Adaptation (LoRA) ist die de-facto Feinabstimmungsstrategie, um personalisierte Bilder aus vortrainierten Diffusionsmodellen zu generieren. Die Wahl eines geeigneten Rangs ist äußerst entscheidend, da sie einen Kompromiss zwischen Leistung und Speicherverbrauch darstellt. Heutzutage wird diese Entscheidung jedoch oft dem Konsens der Community überlassen, ungeachtet der Komplexität des personalisierten Motivs. Der Grund liegt auf der Hand: Die Kosten für die Auswahl eines guten Rangs für jede LoRA-Komponente sind kombinatorisch, weshalb wir auf praktische Abkürzungen zurückgreifen, wie etwa die Festlegung des gleichen Rangs für alle Komponenten. In dieser Arbeit unternehmen wir einen ersten Schritt, um diese Herausforderung zu bewältigen. Inspiriert von variationsbasierten Methoden, die eine adaptive Breite von neuronalen Netzen lernen, lassen wir die Ränge jeder Schicht während der Feinabstimmung an ein Motiv frei adaptieren. Wir erreichen dies, indem wir eine Ordnung der Wichtigkeit auf die Positionen des Rangs aufzwingen und so effektiv die Bildung höherer Ränge fördern, wenn sie strikt erforderlich sind. Qualitativ und quantitativ erreicht unser Ansatz, LoRA^2, einen wettbewerbsfähigen Kompromiss zwischen DINO, CLIP-I und CLIP-T über 29 Motive hinweg, während er deutlich weniger Speicher und einen niedrigeren Rang als Hochrang-LoRA-Versionen benötigt. Code: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

Wirksame Strategien für asynchrone Softwareentwicklungsagenten
Effective Strategies for Asynchronous Software Engineering Agents

Mar 23

ByJiayi Geng, Graham Neubig

KI-Agenten sind zunehmend fähig in isolierten Softwareentwicklungsaufgaben, wie etwa dem Beheben von Issues auf GitHub. Dennoch stellen langfristige Aufgaben, die mehrere voneinander abhängige Teilaufgaben umfassen, nach wie vor Herausforderungen dar – sowohl in Bezug auf die Genauigkeit als auch auf die termingerechte Fertigstellung. Ein natürlicher Ansatz zur zeitnahen Bewältigung dieser langfristigen Aufgaben ist die asynchrone Multi-Agenten-Kollaboration, bei der mehrere Agenten gleichzeitig an verschiedenen Teilen der Aufgabe arbeiten. Die effektive Anwendung von Multi-Agenten-Systemen hat sich jedoch als überraschend schwierig erwiesen: Gleichzeitige Bearbeitungen durch mehrere Agenten interferieren miteinander, Abhängigkeiten sind schwer zu synchronisieren, und die Integration von Teilergebnissen zu einem kohärenten Ganzen ist anspruchsvoll. Menschliche Entwickler hingegen stützen sich seit langem auf eine ausgereifte Kollaborationsinfrastruktur, um diese Herausforderungen in großen Softwareprojekten zu bewältigen. Inspiriert durch diese Kollaborationsprimitiven führen wir Centralized Asynchronous Isolated Delegation (CAID) ein, ein strukturiertes Multi-Agenten-Koordinationsparadigma, das auf drei zentralen SWE-Primitiven basiert: zentralisierte Aufgabendelegation, asynchrone Ausführung und isolierte Arbeitsbereiche. CAID erstellt abhängigkeitsbewusste Aufgabenpläne durch einen zentralen Manager, führt Teilaufgaben parallel in isolierten Arbeitsbereichen aus und konsolidiert die Fortschritte durch eine strukturierte Integration mit ausführbarer, testbasierter Verifikation. In empirischen Auswertungen stellen wir fest, dass CAID die Genauigkeit im Vergleich zu Single-Agent-Baselines bei Aufgaben zur Reproduktion von wissenschaftlichen Arbeiten (PaperBench) um 26,7 Prozentpunkte absolut und bei Python-Bibliotheksentwicklungsaufgaben (Commit0) um 14,3 Prozentpunkte absolut verbessert. Durch systematische Analysen zeigen wir, dass Branch-and-Merge ein zentraler Koordinationsmechanismus für die Multi-Agenten-Kollaboration ist und dass SWE-Primitive wie git worktree, git commit und git merge es ermöglichen, diesen auf zuverlässige und ausführbare Weise umzusetzen.

Perceptio: Wahrnehmungsverbesserte Vision-Sprach-Modelle durch räumliche Token-Erzeugung
Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Mar 19

ByYuchen Li, Amanmeet Garg, Shalini Chaudhuri, Rui Zhao, Garin Kessler

Große visuell-sprachliche Modelle (LVLMs) zeichnen sich durch semantisches Verständnis aus, haben jedoch Schwierigkeiten mit feinkörniger räumlicher Verankerung, da das Modell komplexe Geometrie implizit ableiten muss, ohne jemals eine räumliche Interpretation zu erzeugen. Wir stellen Perceptio vor, ein wahrnehmungsverstärktes LVLM mit 2D- und 3D-Raumverstandfähigkeiten, ermöglicht durch explizite semantische Segmentierungstokens und Tiefentokens, die direkt innerhalb der autoregressiven Sequenz erzeugt werden. Konkret (i) destillieren wir ein VQ-VAE-Tiefencodebuch von einem starken monokularen Lehrer, um dichte Tiefeninformationen in kompakte Sequenzen zu tokenisieren, und (ii) integrieren SAM2-basierte semantische Segmentierungstokens und VQ-VAE-Tiefentokens innerhalb des LLM, sodass das Modell zuerst räumliche Tokens ausgibt und dann antwortet. Um die Tiefentoken-Generierung zu stabilisieren, führen wir neuartige kombinierte Tiefentoken-Ziele ein (Marker-, Token- und Zählverluste) und eine Soft-Merging-Technik für differenzierbare Rekonstruktion. Wir verwenden eine Multi-Task-Co-Training-Strategie über diverse Datensätze hinweg, die es dem Modell ermöglicht, Wahrnehmungstokens zu erlernen, um mehrere nachgelagerte Aufgaben zu bewältigen. Aufbauend auf InternVL erzielt Perceptio state-of-the-art Leistung in Benchmarks: Steigerung der Referring Expression Segmentation um +0,8/+1,4/+1,1 cIoU auf RefCOCO/+/g, Steigerung der räumlichen Verständnisgenauigkeit von HardBLINK um 10,3 % und der MMBench-Genauigkeit um 1,0 %. Dies demonstriert, dass explizite räumliche Denkketten die räumliche Verankerung in LVLMs wesentlich stärken.

WorldCache: Inhaltsbasiertes Caching zur Beschleunigung von Video-World-Modellen
WorldCache: Content-Aware Caching for Accelerated Video World Models

Mar 23

ByUmair Nawaz, Ahmed Heakl, Ufaq Khan, Abdelrahman Shaker, Salman Khan, Fahad Shahbaz Khan

Diffusion Transformers (DiTs) ermöglichen hochauflösende Video-Weltmodelle, bleiben jedoch aufgrund sequenzieller Entrauschung und rechenintensiver raumzeitlicher Aufmerksamkeit rechenaufwendig. Trainingsfreie Feature-Zwischenspeicherung beschleunigt die Inferenz durch Wiederverwendung von Zwischenaktivierungen über Entrauschungsschritte hinweg; bestehende Methoden stützen sich jedoch weitgehend auf eine Nullter-Ordnung-Halte-Annahme, d.h. die Wiederverwendung zwischengespeicherter Features als statische Momentaufnahmen bei geringer globaler Drift. Dies führt häufig zu Geisterartefakten, Unschärfe und Bewegungsinkonsistenzen in dynamischen Szenen. Wir schlagen WorldCache vor, ein wahrnehmungsbeschränktes dynamisches Zwischenspeicherungsframework, das sowohl verbessert, wann als auch wie Features wiederverwendet werden. WorldCache führt bewegungsadaptive Schwellenwerte, salienzgewichtete Driftschätzung, optimale Approximation durch Blending und Warping sowie phasenbewusste Schwellenwertplanung über Diffusionsschritte hinweg ein. Unser kohäsiver Ansatz ermöglicht eine adaptive, bewegungskonsistente Wiederverwendung von Features ohne Neu-Training. Auf Cosmos-Predict2.5-2B, evaluiert auf PAI-Bench, erreicht WorldCache eine 2,3-fache Beschleunigung der Inferenz bei gleichzeitiger Beibehaltung von 99,4 % der Baseline-Qualität und übertrifft damit bisherige trainingsfreie Zwischenspeicherungsansätze erheblich. Unser Code ist unter https://umair1221.github.io/World-Cache/ verfügbar.

Safe Flow Q-Learning: Sicheres Reinforcement Learning im Offline-Betrieb mit Erreichbarkeits-basierten Flow-Policies
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Mar 16

ByMumuksh Tayal, Manan Tayal, Ravi Prakash

Offline Safe Reinforcement Learning (RL) zielt darauf ab, belohnungsmaximierende Strategien aus statischen Datensätzen unter strengen Sicherheitsbeschränkungen zu ermitteln. Bestehende Methoden stützen sich oft auf weiche erwartete Kostenziele oder iterativen generativen Inferenz, was für sicherheitskritische Echtzeitsteuerungen unzureichend sein kann. Wir schlagen Safe Flow Q-Learning (SafeFQL) vor, das FQL auf sicheres Offline-RL erweitert, indem es eine sicherheitskritische Wertfunktion, inspiriert von der Hamilton-Jacobi-Erreichbarkeit, mit einer effizienten Ein-Schritt-Flow-Policy kombiniert. SafeFQL lernt den Sicherheitswert über eine Bellman-Selbstkonsistenzrekursion, trainiert eine Flow-Policy durch Behavior Cloning und destilliert diese in einen Ein-Schritt-Aktor zur belohnungsmaximierenden, sicheren Aktionsauswahl ohne Rejection Sampling bei der Bereitstellung. Um Approximationsfehler aufgrund begrenzter Daten in der gelernten Sicherheitsgrenze zu berücksichtigen, fügen wir einen Conformal Prediction-Kalibrierungsschritt hinzu, der den Sicherheitsschwellenwert anpasst und eine probabilistische Sicherheitsabdeckung mit endlicher Stichprobe bietet. Empirisch tauscht SafeFQL moderat höhere Offline-Trainingskosten gegen eine deutlich geringere Inferenzlatenz im Vergleich zu diffusionsbasierten sicheren generativen Baseline-Methoden ein, was für den Einsatz in sicherheitskritischen Echtzeitsystemen vorteilhaft ist. In Bootsnavigations- und Safety Gymnasium MuJoCo-Aufgaben erreicht oder übertrifft SafeFQL die bisherige Leistung von sicherem Offline-RL bei gleichzeitiger erheblicher Reduzierung von Regelverletzungen.

AnimalCLAP: Taxonomie-bewusstes Sprach-Audio-Pre-Training zur Artenerkennung und Merkmalsinferenz
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Mar 23

ByRisa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura

Tierlautäußerungen liefern entscheidende Erkenntnisse für die Bewertung von Wildtieren, insbesondere in komplexen Umgebungen wie Wäldern, und unterstützen die Artenidentifikation sowie die ökologische Überwachung. Jüngste Fortschritte im Deep Learning ermöglichen eine automatische Artklassifizierung anhand ihrer Lautäußerungen. Die Klassifizierung von Arten, die während des Trainings nicht berücksichtigt wurden, bleibt jedoch eine Herausforderung. Um diese Einschränkung zu überwinden, stellen wir AnimalCLAP vor, ein taxonomie-basiertes Sprach-Audio-Framework, das einen neuen Datensatz und ein Modell umfasst, die hierarchische biologische Informationen integrieren. Konkret besteht unser Vogelstimmen-Datensatz aus 4.225 Stunden Aufnahmen von 6.823 Arten, die mit 22 ökologischen Merkmalen annotiert sind. Das AnimalCLAP-Modell wird auf diesem Datensatz trainiert, um Audio- und Textrepräsentationen unter Verwendung taxonomischer Strukturen abzugleichen und so die Erkennung unbekannter Arten zu verbessern. Wir zeigen, dass unser Modell effektiv ökologische und biologische Attribute von Arten direkt aus ihren Lautäußerungen ableitet und dabei eine überlegene Leistung im Vergleich zu CLAP erzielt. Unser Datensatz, Code und Modelle werden unter https://dahlian00.github.io/AnimalCLAP_Page/ öffentlich verfügbar sein.

FluidWorld: Reaktions-Diffusions-Dynamik als prädiktives Substrat für Weltmodelle
FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Mar 22

ByFabien Polly

Weltmodelle lernen, zukünftige Zustände einer Umgebung vorherzusagen, was Planung und mentale Simulation ermöglicht. Aktuelle Ansätze setzen standardmäßig auf Transformer-basierte Prädiktoren, die in gelernten latenten Räumen operieren. Dies hat seinen Preis: O(N²)-Berechnung und keine explizite räumliche Induktionsverzerrung. Diese Arbeit stellt eine grundlegende Frage: Ist Self-Attention für prädiktive Weltmodellierung notwendig, oder können alternative Berechnungsgrundlagen vergleichbare oder überlegene Ergebnisse erzielen? Ich stelle FluidWorld vor, ein Proof-of-Concept-Weltmodell, dessen prädiktive Dynamik durch partielle Differentialgleichungen (PDEs) vom Reaktions-Diffusions-Typ gesteuert wird. Anstatt einen separaten neuronalen Netzwerk-Prädiktor zu verwenden, erzeugt die PDE-Integration selbst die Vorhersage des zukünftigen Zustands. In einer streng parameterangepassten Drei-Wege-Ablation für unkonditionelle UCF-101-Videovorhersage (64x64, ~800K Parameter, identischer Encoder, Decoder, Loss-Funktionen und Daten) wird FluidWorld sowohl mit einer Transformer-Baseline (Self-Attention) als auch mit einer ConvLSTM-Baseline (faltende Rekurrenz) verglichen. Während alle drei Modelle einen vergleichbaren Einzelschritt-Vorhersageverlust erreichen, erzielt FluidWorld einen 2x niedrigeren Rekonstruktionsfehler, produziert Repräsentationen mit 10-15 % höherer Erhaltung der räumlichen Struktur und 18-25 % effektiverer Dimensionalität und erhält entscheidenderweise kohärente Mehrschritt-Rollouts, bei denen beide Baselines rapide abfallen. Alle Experimente wurden auf einem einzigen Consumer-PC (Intel Core i5, NVIDIA RTX 4070 Ti) ohne jeglichen Large-Scale-Compute durchgeführt. Diese Ergebnisse belegen, dass PDE-basierte Dynamiken, die von Haus aus O(N)-räumliche Komplexität, adaptive Berechnung und globale räumliche Kohärenz durch Diffusion bieten, eine praktikable und parameter-effiziente Alternative sowohl zu Attention als auch zu faltender Rekurrenz für die Weltmodellierung darstellen.

MemDLM: Gedächtnisgestütztes DLM-Training
MemDLM: Memory-Enhanced DLM Training

Mar 23

ByZehua Pei, Hui-Ling Zhen, Weizhe Lin, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu

Diffusions-Sprachmodelle (DLMs) bieten gegenüber autoregressiven (AR) Modellen attraktive Vorteile, wie paralleles Decodieren mit Voll-Attention und flexibles Generieren. Allerdings leiden sie unter einer bemerkenswerten Trainings-Inferenz-Diskrepanz: DLMs werden mit einem statischen, einstufigen Masked-Prediction-Ziel trainiert, aber über eine mehrstufige, progressive Denoising-Trajektorie eingesetzt. Wir schlagen MemDLM (Memory-Enhanced DLM) vor, das diese Lücke verringert, indem es einen simulierten Denoising-Prozess via Bi-level-Optimierung in das Training einbettet. Eine innere Schleife aktualisiert einen Satz schneller Gewichte, die einen parametrischen Speicher (Parametric Memory) bilden und die lokale Trajektorie-Erfahrung jeder Stichprobe erfassen, während eine äußere Schleife das Basismodell konditioniert auf diesen Speicher aktualisiert. Indem der Merkdruck von Token-Repräsentationen auf Parameter verlagert wird, erzielt MemDLM schnellere Konvergenz und niedrigere Trainingsverluste. Darüber kann die innere Schleife zur Inferenzzeit als Adaptionsschritt reaktiviert werden, was zusätzliche Gewinne beim Langzeitkontext-Verständnis bringt. Wir stellen fest, dass dieser parametrische Speicher bei Aktivierung zur Inferenzzeit als emergenter Abrufmechanismus innerhalb der Gewichte wirkt und MemDLM dabei hilft, Token-Attention-Engpässe bei anspruchsvollen „Nadel-im-Heuhaufen“-Abfrageaufgaben weiter zu reduzieren. Code: https://github.com/JarvisPei/MemDLM.

SNAP: Sprecherlöschung zur Artefaktprojektion bei der Erkennung von Sprach-Deepfakes
SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Mar 21

ByKyudan Jung, Jihwan Kim, Minwoo Lee, Soyoon Kim, Jeonghoon Kim, Jaegul Choo, Cheonbok Park

Jüngste Fortschritte in der Text-zu-Sprache-Technologie ermöglichen die Erzeugung hochwertiger synthetischer Sprache, die von echten menschlichen Stimmen kaum zu unterscheiden ist. Während aktuelle Studien die Wirksamkeit von Sprachkodierern auf Basis selbstüberwachten Lernens zur Erkennung von Deepfakes zeigen, haben diese Modelle Schwierigkeiten, sich auf unbekannte Sprecher zu verallgemeinern. Unsere quantitative Analyse legt nahe, dass diese Kodierer-Repräsentationen maßgeblich von Sprecherinformationen beeinflusst werden, was dazu führt, dass Detektoren sprecherspezifische Korrelationen anstelle von artefaktbezogenen Merkmalen ausnutzen. Wir bezeichnen dieses Phänomen als Sprecherverschränkung. Um diese Abhängigkeit zu verringern, führen wir SNAP ein, ein Framework zur Sprechereliminierung. Wir schätzen einen Sprecher-Unterraum an und wenden eine orthogonale Projektion an, um sprecherabhängige Komponenten zu unterdrücken und Syntheseartefakte innerhalb der Residualmerkmale zu isolieren. Durch die Reduzierung der Sprecherverschränkung ermöglicht SNAP Detektoren, sich auf artefaktbezogene Muster zu konzentrieren, was zu state-of-the-art Ergebnissen führt.

Tarnungsangriff auf Fahrzeugdetektoren in freier Wildbahn durch kontrollierte Bildbearbeitung
In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing

Mar 19

ByXiao Fang, Yiming Gong, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

Tiefe neuronale Netze (DNNs) haben bemerkenswerte Erfolge in der Computer Vision erzielt, bleiben jedoch äußerst anfällig für adversariale Angriffe. Unter diesen manipulieren Camouflage-Angriffe das sichtbare Erscheinungsbild eines Objekts, um Detektoren zu täuschen, während sie für Menschen unauffällig bleiben. In diesem Artikel schlagen wir ein neues Framework vor, das Fahrzeug-Camouflage-Angriffe als ein bedingtes Bildbearbeitungsproblem formuliert. Konkret untersuchen wir sowohl bild- als auch szenenbasierte Strategien zur Camouflage-Erzeugung und feintunen ein ControlNet, um camouflierte Fahrzeuge direkt auf realen Bildern zu synthetisieren. Wir entwerfen eine einheitliche Zielfunktion, die gleichzeitig strukturelle Treue des Fahrzeugs, Stilkonsistenz und adversariale Wirksamkeit erzwingt. Umfangreiche Experimente mit den COCO- und LINZ-Datensätzen zeigen, dass unsere Methode eine signifikant stärkere Angriffswirksamkeit erreicht – was zu einem AP50-Rückgang von mehr als 38 % führt – und gleichzeitig im Vergleich zu bestehenden Ansätzen die Fahrzeugstruktur besser erhält und die menschlich wahrgenommene Unauffälligkeit verbessert. Darüber hinaus verallgemeinert unser Framework effektiv auf unbekannte Black-Box-Detektoren und weist eine vielversprechende Übertragbarkeit in die physische Welt auf. Die Projektseite ist unter https://humansensinglab.github.io/CtrlCamo verfügbar.

Semantische Audio-Visuell Navigation in kontinuierlichen Umgebungen
Semantic Audio-Visual Navigation in Continuous Environments

Mar 20

ByYichen Zeng, Hebaixu Wang, Meng Liu, Yu Zhou, Chen Gao, Kehan Chen, Gongping Huang

Audiovisuelle Navigation ermöglicht es verkörperten Agenten, unter Nutzung sowohl akustischer als auch visueller Hinweise auf klangerzeugende Ziele zuzusteuern. Die meisten bestehenden Ansätze stützen sich jedoch auf vorberechnete Raumimpulsantworten (RIRs) für die binaurale Audiowiedergabe, was Agenten auf diskrete Gitterpositionen beschränkt und zu räumlich diskontinuierlichen Beobachtungen führt. Um eine realistischere Umgebung zu schaffen, führen wir Semantische Audiovisuelle Navigation in Kontinuierlichen Umgebungen (SAVN-CE) ein, in der sich Agenten frei in 3D-Räumen bewegen und zeitlich sowie räumlich kohärente audiovisuelle Datenströme wahrnehmen können. In diesem Szenario können Ziele zeitweise verstummen oder die Schallabstrahlung vollständig einstellen, was dazu führt, dass Agenten die Zielinformation verlieren. Um diese Herausforderung zu bewältigen, schlagen wir MAGNet vor, ein multimodales transformerbasiertes Modell, das räumliche und semantische Zielrepräsentationen gemeinsam kodiert und historischen Kontext mit Eigenbewegungshinweisen integriert, um eine speichergestützte Zielableitung zu ermöglichen. Umfassende Experimente zeigen, dass MAGNet state-of-the-art-Methoden signifikant übertrifft und eine absolute Steigerung der Erfolgsrate von bis zu 12,1 % erreicht. Diese Ergebnisse unterstreichen auch seine Robustheit gegenüber Kurzzeitsignalen und Langstreckennavigationsszenarien. Der Code ist verfügbar unter https://github.com/yichenzeng24/SAVN-CE.

Entmystifizierung des Reinforcement Learning für Werkzeug nutzende Agenten mit langem Planungshorizont: Ein umfassendes Rezept
Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Mar 23

ByXixi Wu, Qianguo Sun, Ruiyang Zhang, Chao Song, Junlong Wu, Yiyan Qi, Hong Cheng

Reinforcement Learning (RL) ist entscheidend, um große Sprachmodelle (LLMs) zu autonomen Agenten zu entwickeln, die langfristige Planung beherrschen, doch eine praktische Methode zur Skalierung von RL in komplexen, mehrstufigen Umgebungen bleibt schwer fassbar. Diese Arbeit präsentiert eine systematische empirische Studie mit TravelPlanner, einer anspruchsvollen Testplattform, die das Orchestrieren von Werkzeugen erfordert, um vielfältige Randbedingungen zu erfüllen. Wir gliedern den agentenbasierten RL-Designraum entlang fünf Achsen: Reward-Shaping, Modellskalierung, Datenzusammensetzung, Algorithmusauswahl und Umweltstabilität. Unsere kontrollierten Experimente ergeben sieben zentrale Erkenntnisse, z.B.: (1) Die Wahl von Belohnungsfunktion und Algorithmus ist skalenabhängig, da kleinere Modelle von gestaffelten Belohnungen und verstärkter Exploration profitieren, während größere Modelle effizient mit einfacheren, dichten Belohnungen konvergieren; (2) ~1.000 Trainingsbeispiele mit einer ausgewogenen Mischung an Schwierigkeitsgraden markieren einen Sweet Spot für sowohl domäneninterne als auch domänenexterne Leistung; und (3) Umweltstabilität ist kritisch, um eine Verschlechterung der Policy zu verhindern. Basierend auf unserer destillierten Methode erreichen unsere RL-trainierten Modelle state-of-the-art Leistung auf TravelPlanner und übertreffen führende LLMs deutlich.

Verständnis von Behavior Cloning mit Aktionsquantisierung
Understanding Behavior Cloning with Action Quantization

Mar 20

ByHaoqun Cao, Tengyang Xie

Behavior Cloning ist ein grundlegendes Paradigma im maschinellen Lernen, das das Erlernen von Strategien aus Experten-Demonstrationen in Bereichen wie Robotik, autonomes Fahren und generative Modelle ermöglicht. Autoregressive Modelle wie der Transformer haben sich als außerordentlich effektiv erwiesen, von großen Sprachmodellen (LLMs) bis hin zu visuell-sprachlich-aktionalen Systemen (VLAs). Die Anwendung autoregressiver Modelle auf kontinuierliche Steuerungsprobleme erfordert jedoch eine Diskretisierung der Aktionen durch Quantisierung – eine weit verbreitete, aber theoretisch kaum verstandene Praxis. Diese Arbeit legt die theoretischen Grundlagen für diese Praxis dar. Wir analysieren, wie sich der Quantisierungsfehler über den Zeithorizont fortpflanzt und mit der statistischen Stichprobenkomplexität interagiert. Wir zeigen, dass Behavior Cloning mit quantisierten Aktionen und Log-Loss eine optimale Stichprobenkomplexität erreicht, die bestehende untere Schranken erreicht, und nur eine polynomielle Abhängigkeit des Fehlers vom Zeithorizont aufweist, vorausgesetzt, die Dynamik sind stabil und die Strategie erfüllt eine probabilistische Glattheitsbedingung. Weiterhin charakterisieren wir, wann verschiedene Quantisierungsschemata diese Anforderungen erfüllen oder verletzen, und schlagen eine modellbasierte Erweiterung vor, die nachweislich die Fehlerschranke verbessert, ohne Glattheit der Strategie vorauszusetzen. Abschließend ermitteln wir fundamentale Grenzen, die die Effekte von Quantisierungsfehler und statistischer Komplexität gemeinsam erfassen.

Aperiodische Strukturen kollabieren nie: Fibonacci-Hierarchien für verlustfreie Kompression
Aperiodic Structures Never Collapse: Fibonacci Hierarchies for Lossless Compression

Mar 16

ByRoberto Tacconelli

Wir untersuchen, ob eine aperiodische Hierarchie einen strukturellen Vorteil für verlustlose Kompression gegenüber periodischen Alternativen bieten kann. Wir zeigen, dass Fibonacci-Quasikristall-Pflasterungen den Kollaps mit endlicher Tiefe vermeiden, der periodische Hierarchien betrifft: Verwendbare n-Gramm-Lookup-Positionen bleiben auf jeder Ebene ungleich Null, während periodische Pflasterungen nach O(log p) Ebenen für die Periode p kollabieren. Dies ergibt einen Vorteil der aperiodischen Hierarchie: Die Wiederverwendung des Wörterbuchs bleibt über alle Skalen hinweg verfügbar, anstatt über eine endliche Tiefe hinaus zu verschwinden. Unsere Analyse ergibt vier Hauptfolgerungen. Erstens zeigt die Golden-Cut-Kompensationseigenschaft, dass der exponentielle Abfall in der Anzahl der Positionen genau durch das exponentielle Wachstum der Phrasenlänge ausgeglichen wird, sodass die potenzielle Abdeckung skaleninvariant mit dem asymptotischen Wert φ/√5 bleibt. Zweitens zeigen wir unter Verwendung des Sturmischen Komplexitätsgesetzes p(n)=n+1, dass Fibonacci-/Sturmische Hierarchien die Effizienz der Codebuch-Abdeckung unter binären aperiodischen Pflasterungen maximieren. Drittens erreicht die resultierende Hierarchie bei langreichweitiger Abhängigkeit eine geringere Kodierungsentropie als vergleichbare periodische Hierarchien. Viertens fällt die Redundanz super-exponentiell mit der Tiefe ab, während periodische Systeme auf der Tiefe eingefroren bleiben, auf der der Kollaps auftritt. Wir validieren diese Ergebnisse mit Quasicryth, einem verlustlosen Textkompressor, der auf einer zehnstufigen Fibonacci-Hierarchie mit Phrasenlängen {2,3,5,8,13,21,34,55,89,144} basiert. In kontrollierten A/B-Experimenten mit identischen Codebüchern wächst der aperiodische Vorteil gegenüber einer Period-5-Basislinie von 36.243 B bei 3 MB auf 11.089.469 B bei 1 GB an, was durch die Aktivierung tieferer Hierarchieebenen erklärt wird. Auf enwik9 erreicht Quasicryth 225.918.349 B (22,59 %), wobei 20.735.733 B durch die Fibonacci-Pflasterung im Vergleich zu keiner Pflasterung eingespart werden.

Fortschreitendes Training für erklärbare zitiergestützte Dialoge: Reduzierung von Halluzinationen auf Null in englisch-hindi LLMs
Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Mar 19

ByVedant Pandya

Wissensbasierte Dialogsysteme zielen darauf ab, informative, kontextuell relevante Antworten zu generieren, indem sie externe Wissensquellen einbeziehen. Die meisten bestehenden Ansätze konzentrieren sich jedoch ausschließlich auf Englisch, verfügen über keine expliziten Zitationsmechanismen zur Überprüfung faktischer Behauptungen und bieten nur begrenzte Transparenz in die Modellentscheidungsfindung. Wir stellen XKD-Dial vor, eine progressive Vier-Stufen-Trainingspipeline für erklärbare, wissensbasierte Dialoggenerierung in einem zweisprachigen (Englisch-Hindi) Kontext, die umfasst: (1) multilinguale Adaptation, (2) Englisch-Dialog-SFT (Supervised Fine-Tuning) mit Zitationsverankerung, (3) zweisprachige Dialog-SFT und (4) GRPO-Alignment (Group Relative Policy Optimization) mit zitationsbewussten Belohnungen. Wir evaluieren sechs Modelle mit Encoder-Decoder- (250M-3B) und Decoder-only-Architekturen (1B-7B) in jeder Pipeline-Stufe. Unsere Hauptbeiträge sind: (i) drei post-hoc-Erklärbarkeitsanalysen – Cross-Attention-Alignment, Attribuierung mittels Integrated Gradients und okklusionsbasierte kausale Verankerung –, die systematisch über den Trainingsverlauf angewendet werden, um aufzuzeigen, *wie* Zitationsverhalten gelernt wird, nicht nur *ob* es gelernt wird; (ii) zitationsverankerte SFT reduziert Halluzinationen für Encoder-Decoder-Modelle ab Stufe 2 auf 0,0 %; (iii) die progressive Pipeline verhindert katastrophales Vergessen und verbessert gleichzeitig die Hindi-Fähigkeiten; (iv) kleinere Modelle erreichen nach SFT vergleichbare Leistungen wie größere Modelle im Englischen; und (v) GRPO bringt nur marginale Verbesserungen gegenüber gut gestalteter SFT für strukturierte Zitationsaufgaben. Die Evaluation erfolgt anhand sechs automatischer Metriken (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 und Halluzinationsrate).

AdditiveLLM2: Ein multimodales großes Sprachmodell für die additive Fertigung
AdditiveLLM2: A Multi-modal Large Language Model for Additive Manufacturing

Mar 23

ByPeter Pak, Amir Barati Farimani

Diese Arbeit stellt AdditiveLLM2 vor, ein multimodales, domänenangepasstes großes Sprachmodell, das auf der instruktionsfeinabgestimmten Variante des Gemma-3-Modells basiert und mit einem relativ kleinen Datensatz von etwa 50 Millionen Tokens trainiert wurde. Der Datensatz (AdditiveLLM2-OA) besteht aus frei zugänglichen Fachartikeln zur additiven Fertigung, deren Daten für den domänenadaptiven Vorabtrainings- und den visuellen Instruktionsfeinabstimmungsprozess extrahiert wurden. Verschiedene Entwicklungsstadien des Modells werden mit dem Additive-Manufacturing-Benchmark evaluiert, der sich aus domänenspezifischen Aufgaben für die additive Fertigung zusammensetzt, die aus veröffentlichten Ressourcen zusammengestellt wurden. AdditiveLLM2 zeigt Kompetenz sowohl bei sprachbasierten als auch bei bildbasierten Aufgaben und erzielt Genauigkeiten von über 90 % im Bereich des allgemeinen Wissens zur additiven Fertigung. Diese Strategie der domänenadaptiven Vorabtrainings- und Instruktionsfeinabstimmung skizziert eine zugängliche Methode zur Spezialisierung großer Sprachmodelle auf eine Domäne wie die additive Fertigung.