HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

34 papers found

Moebius: Leichtgewichtiges Bildinpainting-Framework mit 0,2 Milliarden Parametern und 10-Milliarden-Niveau-Leistung
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

Jun 17

ByKangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

117

Während 10B-große industrielle Foundation-Modelle die Grenzen der Bildinpaintierung verschoben haben, behindern ihre prohibitiv hohen Rechenkosten den praktischen Einsatz erheblich. Die Konstruktion eines hochoptimierten, aufgabenspezifischen Spezialisten bietet eine vielversprechende Lösung; allerdings löst eine extreme strukturelle Kompression unweigerlich einen schwerwiegenden Repräsentationsengpass aus. Um dies zu überwinden, schlagen wir Moebius vor, ein hochgradig effizientes, leichtgewichtiges Inpaintierungs-Framework. Wir rekonstruieren systematisch das Diffusions-Backbone durch die Einführung des Local-λ Mix Interaction (LλMI)-Blocks. Dieser besteht aus Local-λ- und Interactive-λ-Modulen, die räumliche Kontexte und globale semantische Prioritäten elegant in lineare Matrizen fester Größe zusammenfassen, komplexe latente Interaktionen bewahren und gleichzeitig die Parameter drastisch reduzieren. Um das volle Repräsentationsvermögen dieser hochkompakten Architektur auszuschöpfen, kombinieren wir sie synergetisch mit einer adaptiven Multi-Granularitäts-Destillationsstrategie. Diese Strategie arbeitet streng innerhalb des latenten Raums, um teure Pixelraum-Dekodierungen zu vermeiden, und balanciert dynamisch mehrere gradientenbasierte Verlustfunktionen, um eine hochgenaue Angleichung zu erreichen. Umfangreiche Experimente mit natürlichen und Porträt-Benchmarks zeigen, dass diese optimale Synergie es Moebius ermöglicht, die Generierungsqualität des 10B-großen industriellen Generalisten FLUX.1-Fill-Dev zu erreichen oder sogar zu übertreffen. Bemerkenswerterweise erreicht Moebius dies mit weniger als 2 % der Parameter (0,22B vs. 11,9B) bei einer mehr als 15-fachen Beschleunigung der gesamten Inferenzzeit und setzt damit einen neuen Effizienzstandard für hochgetreue Inpaintierung. Projektseite unter https://hustvl.github.io/Moebius.

DragMesh-2: Physikalisch plausible geschickte Hand-Objekt-Interaktion mit artikulierten Objekten
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

Jun 13

ByTianshan Zhang, Yijia Duan, Yanjun Li, Zeyu Zhang, Hao Tang

Die geschickte Interaktion mit artikulierten Objekten ist wichtig für die Haushalts-, Assistenz- und Humanoide-Manipulation, wobei Mehrfingerhände konforme Kontaktmuster über das Parallelbackengreifen hinaus ermöglichen können. Die Manipulation artikulierter Objekte unterscheidet sich jedoch von der Manipulation statischer Objekte: Das Zielteil kann nicht direkt betätigt werden, und seine Bewegung muss durch anhaltenden physischen Hand-Griff-Kontakt entstehen. Dies macht den Übergang von der objektzentrierten artikulierten Generierung zur handgesteuerten geschickten Hand-Objekt-Interaktion nicht trivial, da die geometrische Trajektorienwiedergabe oder die offene Ausführung nicht die Kontaktdynamik modelliert, die zur Bewegung des artikulierten Teils erforderlich ist. Darüber hinaus können Policies, die nur für die Aufgabenabschluss unter festen Dynamiken trainiert wurden, zu einer Überanpassung an nominelle Kontaktbelastungen führen, insbesondere ohne taktile oder Kraftrückmeldung, und sich verschlechtern, wenn sich die Kontaktbelastung ändert. Um diese Herausforderungen zu bewältigen, präsentieren wir DragMesh-2, ein kontaktgesteuertes Framework für die geschickte Interaktion mit artikulierten Objekten, das die artikulierte Interaktion von der objektzentrierten Generierung auf die handgesteuerte geschickte Hand-Objekt-Interaktion erweitert, wobei die artikulierte Bewegung durch physischen Kontakt entstehen muss. Wir schlagen weiterhin PICA vor, einen physikalisch informierten kontaktbewussten Trainingsmechanismus, der physikalische Signale in das Policy-Lernen einbringt, ohne auf taktile oder Kraftrückmeldung angewiesen zu sein, und die Robustheit und den Aufgabenerfolg unter sich ändernden Kontaktbelastungen verbessert. Schließlich führen wir eine systematische Evaluierung über mehrere Dämpfungsbedingungen und Kategorien artikulierter Objekte hinweg durch, um die Robustheit unter Kontaktlastvariation zu untersuchen, und stellen eine rein geometrische Ressource für die geschickte Interaktion bereit, die zukünftige Forschung zur Lokomotions-Manipulation und humanoide Hand-Objekt-Interaktion unterstützt. Über sieben GAPartNet-Objekte hinweg erreicht DragMesh-2 eine stärkere Robustheit unter Kontaktlastvariation als die verglichenen Methoden, während eine hohe Aufgabenabschlussrate über die Dämpfungsbedingungen hinweg beibehalten wird.

Multi-LCB: Erweiterung von LiveCodeBench auf mehrere Programmiersprachen
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Jun 18

ByMaria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) hat sich in jüngster Zeit zu einem weit verbreiteten Benchmark zur Bewertung großer Sprachmodelle (LLMs) bei Code-Generierungsaufgaben entwickelt. Durch die Zusammenstellung von Wettbewerbsprogrammieraufgaben, die kontinuierliche Ergänzung neuer Aufgaben in den Datensatz und deren Filterung nach Veröffentlichungsdaten bietet LCB eine kontaminationsbewusste Bewertung und einen ganzheitlichen Überblick über die Programmierfähigkeiten. LCB bleibt jedoch auf Python beschränkt, sodass die Frage offen bleibt, ob LLMs in der Lage sind, sich über die vielfältigen Programmiersprachen zu verallgemeinern, die in der realen Softwareentwicklung erforderlich sind. Wir führen Multi-LCB ein, einen Benchmark zur Bewertung von LLMs über zwölf Programmiersprachen hinweg, einschließlich Python. Multi-LCB überführt Python-Aufgaben aus dem LCB-Datensatz in äquivalente Aufgaben in anderen Sprachen, während die Kontaminationskontrollen und das Bewertungsprotokoll von LCB erhalten bleiben. Da Multi-LCB vollständig mit dem ursprünglichen LCB-Format kompatibel ist, wird es automatisch zukünftige LCB-Updates verfolgen, was eine systematische Bewertung der sprachübergreifenden Code-Generierungskompetenz ermöglicht und von den Modellen verlangt, die Leistung weit über Python hinaus aufrechtzuerhalten. Wir haben 24 LLMs auf Anweisungs- und Reasoning-Fähigkeiten mit Multi-LCB evaluiert und dabei Hinweise auf Python-Overfitting, sprachspezifische Kontamination sowie erhebliche Unterschiede in der mehrsprachigen Leistung aufgedeckt. Unsere Ergebnisse etablieren Multi-LCB als strengen neuen Benchmark für die Code-Bewertung über mehrere Programmiersprachen hinweg, der direkt die primäre Einschränkung von LCB adressiert und kritische Lücken in den aktuellen LLM-Fähigkeiten offenlegt.

Spielerisches agentisches Roboterlernen
Playful Agentic Robot Learning

Jun 17

ByJunyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

Gegenwärtige agentische Robotersysteme können ausführbare Code-as-Policy-Programme schreiben, Rückmeldungen beobachten und ihr Verhalten über mehrere Versuche hinweg anpassen, bleiben jedoch weitgehend aufgabengetrieben: wiederverwendbare Fähigkeiten werden erst nach expliziten Anweisungen erworben. Wir untersuchen spielerisches agentisches Roboterlernen, bei dem ein verkörperter Codierungsagent selbstgesteuertes Spiel als kontinuierliche Lernphase für Fähigkeiten nutzt, bevor nachgelagerte Aufgaben eintreffen. Wir stellen RATs vor, Robotik-Agententeams, die für den spielerischen Fähigkeitserwerb konzipiert sind. Während des Spiels schlagen RATs neuartige, aber erlernbare Explorationsaufgaben vor, planen und führen Roboter-Code-Strategien aus, überprüfen den Zwischenfortschritt, diagnostizieren Fehler, wiederholen Versuche mit dichtem schrittweisem Feedback und destillieren erfolgreiche Ausführungen in eine persistente Code-Fähigkeitsbibliothek. Zur Testzeit nutzt der Agent relevante Fähigkeiten aus dieser eingefrorenen Bibliothek, um bei der Lösung neuer Aufgaben zu helfen. Experimente in LIBERO-PRO und MolmoSpaces zeigen, dass im Spiel erlernte Fähigkeiten zurückgehaltene nachgelagerte Aufgaben im Vergleich zu Baseline-Ansätzen ohne Spiel und mit Zufallsspiel verbessern, mit Zuwächsen von 20,6 bzw. 17,0 Prozentpunkten gegenüber CaP-Agent0 auf LIBERO-PRO bzw. MolmoSpaces. Darüber hinaus können die erlernten Fähigkeiten in andere Code-as-Policy-Agenten zur Inferenzzeit eingebunden werden, indem sie einfach in deren Kontext abgerufen werden, was RoboSuite und Echtwelt-Transfer um 8,9 bzw. 8,8 Punkte verbessert, ohne das zugrundeliegende Modell feinabzustimmen.

S-Agent: Räumliche Werkzeugnutzung ruft Reasoning für räumliche Intelligenz hervor
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Jun 18

ByYalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

Räumliche Intelligenz in der realen Welt erfordert das Denken über eine kontinuierliche und sich entwickelnde 3D-Welt, doch bestehende VLMs und werkzeugverstärkte Agenten bleiben weitgehend an statische, zustandslose Inferenz aus isolierten visuellen Beobachtungen gebunden. Wir führen S-Agent ein, ein räumliches werkzeugnutzendes Agentenparadigma zum Verständnis und zur Schlussfolgerung über kontinuierliche Multi-View-Bilder und Videos. Indem es räumliches Denken als raum-zeitliche Evidenzakkumulation statt als isolierte Einzelbildvorhersage formuliert, formt S-Agent die räumliche Wahrnehmung in ein szenenzentriertes Verständnis um, das über die einzelbildzentrierte Erkennung hinausgeht. Insbesondere betrachtet S-Agent das VLM als semantischen Planer, der entscheidet, welche Evidenz benötigt wird, während eine Hierarchie räumlicher Werkzeuge und Experten Objekte in 2D verankert, sie in 3D-geometrische Evidenz überführt und diese Evidenz zu hochrangigem räumlichem Wissen (z. B. Zählen, Messung, Orientierung und relative Position) aggregiert. Darüber hinaus ermöglicht ein zeitlicher Gedächtnismechanismus, der Szenengedächtnis zur Beibehaltung des sich entwickelnden Szenenzustands und Agentengedächtnis zur Ansammlung von Reasoning-Kontext umfasst, die Evidenzintegration über Einzelbilder und Reasoning-Schritte hinweg. Umfassende Experimente auf Multi-View- und Video-Räumliches-Denken-Benchmarks zeigen, dass S-Agent sowohl Open-Source- als auch Closed-Source-VLMs auf trainingsfreie Weise konsistent verbessert. Über die Inferenzzeit-Augmentierung hinaus ergibt überwachtes Feintuning (SFT) auf von S-Agent generierten räumlichen Trajektorien S-300K den S-Agent-8B, einen kompakten räumlichen Agenten, der ähnlich skalierte Basislinien (z. B. Qwen3-VL-8B) deutlich übertrifft und vergleichbar mit fortgeschrittenen Closed-Source-Modellen (z. B. GPT-5.4 und Gemini 3) abschneidet.

Jenseits statischer Ranglisten: Prädiktive Validität für die Evaluation von LLM-Agenten
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

Jun 18

ByDhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

Agenten-Benchmarks entwickeln sich rasant, doch kein einzelner Benchmark deckt mehr als vier oder fünf der Dimensionen ab, die der praktische Einsatz offenbart. Diese Arbeit fasst die bisher größte koordinierte Tiefenanalyse eines MCP-basierten Industrie-Agenten-Benchmarks zusammen: vierzehn parallele Implementierungsstudien, die neue Anlageklassen (einschließlich einer multimodalen visuellen Erweiterung), alternative Orchestrierungen, Abrufstrategien, Denkmodi, Infrastrukturoptimierungen und methodische Evaluationsexperimente umfassen. Durch die Zusammenführung dieser Studien mit sieben früheren Agenten-Benchmarks argumentieren wir, dass Ranglisten auf Basis aggregierter Punktzahlen die Bewertung von eingesetzten Agenten systematisch unzureichend spezifizieren. Aus aggregierten Punktzahlen abgeleitete Rangfolgen lassen sich nicht auf außerhalb der Verteilung liegende Umgebungen übertragen; aktuelle Retrospektiven zu öffentlich-verdeckten Wettbewerben liefern direkte empirische Belege für diese Ranginstabilität. Wir schlagen vor, Konfigurationen nach ihrer prädiktiven Validität zu ordnen, also der Korrelation zwischen In-Sample- und Out-of-Sample-Rang, anstatt nach dem In-Sample-Mittelwert. Dazu entwickeln wir ein Messinstrument mit zwölf Stufen, das die einsatzrelevanten Dimensionen offenlegt, die HELM und seine Nachfolger im Agentenzeitalter zusammenfassen. Diese Position wird durch drei falsifizierbare Out-of-Distribution-Kriterien mit expliziten Schwellenwerten operationalisiert; vorhandene Belege stützen sie teilweise, sind jedoch zu dünn, um sie zu bestätigen. Wir schließen mit einem vorregistrierten Pilotdesign und einer visionären Perspektive für die nächste Generation agentischer Benchmarks.

DF3DV-1K: Ein groß angelegter Datensatz und Benchmark für die störungsfreie Synthese neuer Ansichten
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Jun 18

ByCheng-You Lu, Yi-Shan Hung, Wei-Ling Chi, Hao-Ping Wang, Charlie Li-Ting Tsai, Yu-Cheng Chang, Yu-Lun Liu, Thomas Do, Chin-Teng Lin

Fortschritte bei Radiance Fields haben fotorealistische Neuansichten-Synthese ermöglicht. In mehreren Bereichen wurden groß angelegte reale Datensätze entwickelt, um umfassendes Benchmarking zu unterstützen und Fortschritte über szenenspezifische Rekonstruktion hinaus zu ermöglichen. Für störungsfreie Radiance Fields fehlt jedoch ein groß angelegter Datensatz mit sauberen und überladenen Bildern pro Szene, was die Entwicklung einschränkt. Um diese Lücke zu schließen, stellen wir DF3DV-1K vor, einen groß angelegten realen Datensatz mit 1.048 Szenen, die jeweils saubere und überladene Bildsätze für das Benchmarking bereitstellen. Insgesamt enthält der Datensatz 89.924 Bilder, die mit Verbraucherkameras aufgenommen wurden, um beiläufige Aufnahmen zu simulieren, und umfasst 128 Störertypen und 161 Szenenthemen in Innen- und Außenbereichen. Ein kuratierter Unterdatensatz von 41 Szenen, DF3DV-41, wurde systematisch entwickelt, um die Robustheit von störungsfreien Radiance-Field-Methoden unter herausfordernden Szenarien zu bewerten. Mit DF3DV-1K bewerten wir neun aktuelle störungsfreie Radiance-Field-Methoden und 3D Gaussian Splatting und identifizieren die robustesten Methoden und die herausforderndsten Szenarien. Über das Benchmarking hinaus demonstrieren wir eine Anwendung von DF3DV-1K durch Feinabstimmung eines diffusionsbasierten 2D-Verbesserers zur Verbesserung von Radiance-Field-Methoden, wobei wir durchschnittliche Verbesserungen von 0,96 dB PSNR und 0,057 LPIPS auf dem zurückgehaltenen Satz (z. B. DF3DV-41) und dem On-the-go-Datensatz erzielen. Wir hoffen, dass DF3DV-1K die Entwicklung störungsfreier Sicht fördert und Fortschritte über szenenspezifische Ansätze hinaus vorantreibt. Der Datensatz und die Rangliste sind verfügbar unter https://johnnylu305.github.io/df3dv1k_web/.

FreeStyle: Freie Steuerung der Stil-Inhalt-Dual-Referenz-Generierung durch Community-LoRA-Mining
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

Jun 18

ByJinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

Die Erzeugung mit dualer Referenz von Stil und Inhalt zielt darauf ab, ein Bild zu synthetisieren, das die Struktur und Semantik einer Inhaltsreferenz bewahrt, während es den Stil einer separaten Stilreferenz übernimmt. Trotz jüngster Fortschritte bleibt dieses Setting anspruchsvoll, da Modelle die Treue zum Inhalt, die Stilübereinstimmung und die Befolgung von Anweisungen in Einklang bringen müssen, dabei aber semantische Leckagen aus der Stilreferenz vermeiden sollen. Ein wesentlicher Engpass ist das Fehlen großer Trippeldatensätze mit sauberer Trennung von Inhalt und Stil sowie breiter Abdeckung von Langzeit-Stilvarianten. In dieser Arbeit schlagen wir FreeStyle vor, ein skalierbares Framework zur dualen Referenzerzeugung auf Basis von Community-LoRA-Mining. Wir behandeln Community-LoRAs als kompositionelle Anker für Stil und Inhalt und entwerfen eine strenge Erzeugungs- und Filterpipeline, um groß angelegte Tripletts aus Stilreferenz und Inhaltsreferenz über mehrere Basismodelle hinweg zu konstruieren. Um Inhaltsleckagen zu adressieren, verfolgen wir ein zweistufiges Curriculum mit stufenspezifischen Entflechtungsmechanismen: eine Anreicherungsbeschränkung auf Aufmerksamkeitsebene, die Stilreferenz-Leckagen in der Stiltransferstufe unterdrückt, und eine frequenzbewusste RoPE-Modulationsstrategie, die auf positionskorrespondenzbasierte Leckagen in der schwierigeren Dual-Referenz-Stufe abzielt. Wir führen außerdem einen Benchmark ein, der sowohl die Stilreferenz- als auch die Dual-Referenz-Erzeugung abdeckt, mit Bewertungen von Stilähnlichkeit, Inhaltserhaltung, Ästhetik, Instruktionsbefolgung und Leckageabweisung. Der Benchmark enthält einen stilinvarianten Content Alignment Score (CAS) und führt einen kalibrierten VLM-basierten Rejection Score zur Bewertung der Erzeugungszuverlässigkeit und Leckageunterdrückung ein. Umfangreiche Experimente zeigen, dass unser Modell eine starke Balance zwischen Stilübereinstimmung, Inhaltserhaltung und Leckageunterdrückung erreicht.

FlowBender: Feedback-bewusstes Training für selbstkorrigierende bedingte Flüsse
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

Jun 18

ByDaniel Gilo, Sven Elflein, Ido Sobol, Or Litany

Bedingte Diffusions- und Flussmodelle erfüllen oft nicht die genau jenen Einschränkungen, die ihre Aufgabe definieren. Beispielsweise erzeugt ein tiefenbedingtes Modell häufig Bilder, deren erneut extrahierte Tiefe nicht mit der Eingabe übereinstimmt, obwohl der Vorwärtsoperator – der die Einschränkung definierende Tiefenschätzer – sowohl während des Trainings als auch der Inferenz verfügbar ist. Bisherige Ansätze fallen im Allgemeinen in zwei Kategorien: überwachte Modelle, die das Bedingungssignal als statischen Hinweis behandeln und Ausrichtungsinformationen während der Inferenz ignorieren, sowie leitungsbasierte Methoden, die es durch manuell abgestimmte lineare Aktualisierungen einbeziehen, üblicherweise um den Preis der Treue zur Bedingung gegen die Plausibilität der erzeugten Stichprobe. Wir argumentieren, dass die grundlegende Lücke in beiden Paradigmen darin besteht, dass das Modell niemals dafür trainiert wird, seinen eigenen Ausrichtungsfehler zu nutzen. Wir stellen FlowBender vor, ein geschlossenes Regelungssystem, das diesen Fehler als erstklassigen Input behandelt, das Netzwerk darauf trainiert, eine Korrekturrichtlinie zu lernen, die von Rückkopplungen zur Inferenzzeit abhängt. In jedem Schritt schätzt ein ungeführter Vorausschau-Durchlauf das saubere Signal, eine aufgabenspezifische Abweichung wird über den Vorwärtsoperator berechnet, und ein Verfeinerungsdurchlauf verarbeitet dieses Signal, um eine korrigierte Geschwindigkeit zu erzeugen. Wir schlagen mehrere Varianten von FlowBender vor, darunter eine gradientenbasierte Formulierung für differenzierbare Operatoren und eine Null-Ordnung-Variante für nicht differenzierbare Umgebungen wie JPEG-Kompression. Für effizientes Sampling führen wir eine Abkürzung über vorherige Schritte ein, die eine Korrektur im geschlossenen Regelkreis zu minimalen zusätzlichen Rechenkosten ermöglicht. In der Bild-zu-Bild-Übersetzung, Bildwiederherstellung und 3D-Mesh-Texturierung übertrifft FlowBender durchweg standardmäßige überwachte Baselines, trainingsunterstützte Ausrichtungsverlustverfahren und modernste leitungsbasierte Methoden zur Inferenzzeit, indem es gleichzeitig die Treue und Plausibilität verbessert, anstatt sie gegeneinander abzuwägen. Projektseite: https://flow-bender.github.io/

JanusMesh: Schnelle und Zero-Shot-Erzeugung 3D-visueller Illusionen mittels Cross-Space-Denoising
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Jun 18

BySiang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu

Die Erzeugung von 3D-Visualisierungsillusionen – ein einzelnes 3D-Modell, das aus verschiedenen Blickwinkeln völlig unterschiedliche Semantiken offenbart – ist eine faszinierende, aber anspruchsvolle Herausforderung. Bestehende optimierungsbasierte Methoden sind langsam und können übersättigte Farben erzeugen. Im Gegensatz dazu führen naive Zusammenfügungsansätze zu geometrisch inkohärenten Objekten, was sichtbare unnatürliche Nähte und semantische Lecks zur Folge hat. In dieser Arbeit stellen wir ein schnelles, trainingsfreies Framework zur textgesteuerten Erzeugung von 3D-Visualisierungsillusionen vor. Unser Ansatz entkoppelt die Generierung in zwei Phasen. Zunächst schlagen wir einen Cross-Space-Dual-Branch-Denoising-Prozess vor. Dieser Prozess dekodiert dynamisch 3D-Latents in den Voxelraum für eine CLIP-gesteuerte Orientierungsausrichtung und eine SDF-Blending-Integration (Signed Distance Field), die eine nahtlose geometrische Fusion gewährleistet. Zweitens führen wir ein sichtbedingtes Textursynthese-Modul ein, das blickwinkelspezifische 2D-Diffusions-Priors auf die fusionierte Geometrie projiziert und aggregiert. Umfangreiche Experimente zeigen, dass unsere Methode hochrealistische, dual-semantische 3D-Illusionen in nur 3–5 Minuten erzeugt. Sie übertrifft bestehende Methoden in geometrischer Integrität, semantischer Erkennbarkeit und Effizienz deutlich. Projektseite: https://siang1105.github.io/JanusMesh.github.io/

ImageWAM: Brauchen Weltaktionsmodelle wirklich Videogenerierung oder nur Bildbearbeitung?
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Jun 17

ByYuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin

Weltaktionsmodelle (WAMs) stützen sich üblicherweise auf Videogenerierung, um visuelle Weltmodellierung und Robotersteuerung zu verbinden. Allerdings unterliegen videobasierte WAMs drei miteinander verknüpften Einschränkungen: dichte zukünftige Token über mehrere Frames erhöhen die Inferenzkosten, die vollständige Videovorhersage wendet Kapazität für aktionsirrelevante zeitliche und Erscheinungsdetails auf, und die langfristige Zukunfts imagination kann Fehler einführen, die die Aktionsvorhersage in die Irre führen. Diese Probleme werfen eine einfache Frage auf: Benötigt ein Weltaktionsmodell wirklich Videogenerierung? Wir schlagen ImageWAM vor, ein einfaches WAM-Framework, das vortrainierte Bildbearbeitungsmodelle für die Vorhersage von Roboteraktionen umfunktioniert. Im Gegensatz zur Videogenerierung bietet die Bildbearbeitung einen besser geeigneten Prior: Sie muss nur eine Zielframe-Transformation modellieren, konzentriert sich auf aktionsrelevante visuelle Unterschiede zwischen aktuellem und Zielbild und verankert Aufgabenanweisungen durch Bearbeitungs-Vortraining in lokalisierten visuellen Veränderungen. In der Praxis dekodiert ImageWAM den Zielframe zur Inferenzzeit nicht; stattdessen konditioniert es einen flussangepassten Aktions-Experten auf die KV-Caches, die durch die Bildbearbeitungs-Entrauschung erzeugt werden, und nutzt diese als kompakten Weltaktionskontext. ImageWAM übertrifft Standard-VLA-Baselines und vergleichbare hochmoderne WAMs ohne zusätzliches Politik-Vortraining in verschiedenen Simulator- und Realweltexperimenten. Es reduziert zudem die FLOPs auf 1/6 und die Latenz auf 1/4 der videobasierten WAMs. Eine Aufmerksamkeitsanalyse zeigt weiterhin, dass Bearbeitungs-Caches sich auf aufgabenrelevante Änderungsregionen konzentrieren, was die Bildbearbeitung als wirksame Alternative zur videobasierten Weltaktionsmodellierung unterstützt.

Aktuellen Weltmodellen fehlt ein persistenter Zustandskern.
Current World Models Lack a Persistent State Core

Jun 18

ByJinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

Weltmodelle werden zunehmend als entscheidender Schritt hin zur allgemeinen künstlichen Intelligenz angesehen. Doch die Modellierung der physikalischen Welt erfordert mehr als nur das Erzeugen überzeugender Einzelbilder auf Abruf: Sie benötigt einen internen Weltzustand, der sich – unabhängig von der Beobachtung – kontinuierlich weiterentwickelt. Objekte müssen bestehen bleiben, Ereignisse müssen zu ihrem Abschluss kommen – unabhängig davon, ob eine Kamera zusieht, so wie der Mond seine Bahn auch dann beibehält, wenn niemand hinschaut. Diese Anforderung ist ein blinder Fleck bestehender Benchmarks, die Oberflächeneigenschaften wie Bildtreue, Bewegung und Kamerasteuerbarkeit belohnen, aber niemals hinterfragen, ob eine generierte Welt sich unabhängig weiterentwickelt, sobald sie nicht mehr beobachtet wird. Wir führen WRBench ein, den ersten systematischen diagnostischen Benchmark, der Kamerabewegung als Intervention auf die Beobachtbarkeit betrachtet und die Auswertung in eine human-kalibrierte Kette überführt, die prüft, ob die Kamera die angeforderte Interaktion ausführt, ob die Szene während der Sichtbarkeit kontinuierlich und identifizierbar bleibt und ob ein zurückkehrendes Ziel konsistent mit dem in Gang gesetzten Ereignis ist. Über 9.600 Videos von 23 Modellen aus vier Steuerungsparadigmen hinweg zeigt sich ein hartnäckiger Befund: Die derzeitigen Systeme unterhalten die beobachtete Welt wie eine Kamerafahrt – sie setzen ein zurückkehrendes Objekt in dem Zustand fort, in dem es verlassen wurde, anstatt das Ereignis während der Abwesenheit voranzutreiben. Da dieser Fehler über Steuerungsparadigmen, Modellfamilien und Skalierungsstufen hinweg immer wieder auftritt, folgt eine robuste Weiterentwicklung des Weltzustands weder aus saubereren Bildern, engerer Kontrolle, reichhaltigeren geometrischen Vorgaben noch schlicht aus einer höheren Parameterzahl. Wir argumentieren daher, dass die Stabilität des physikalischen Zustandskerns und die Konsistenz von Weltlinien unter Sichtpunkt-Intervention zu erstklassigen Zielen des Weltmodell-Designs werden sollten – damit ein Weltmodell erfasst, wie die Welt sich entfalten wird, und nicht nur, wie das nächste Bild aussieht.

Kontextbewusstes RL für agentische und multimodale LLMs
Context-Aware RL for Agentic and Multimodal LLMs

Jun 15

ByPeiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan, Pramod Viswanath, Prateek Mittal, Xingyu Fu

Große Sprachmodelle (LLMs) scheitern häufig, wenn eine Antwort die Identifizierung eines kleinen, aber entscheidenden Beweisstücks innerhalb eines langen oder komplexen Kontexts erfordert, etwa einer einzelnen Zeile in einer Werkzeugspur oder eines subtilen Details in einem Bild. Wir schlagen ContextRL vor, eine kontextbewusste Methode des bestärkenden Lernens (RL), die durch ein indirektes Hilfsziel die Leistung bei langfristigem Denken und multimodalen Aufgaben verbessert. Anstatt nur die endgültige Antwort zu überwachen, präsentiert ContextRL dem Modell eine Abfrage, eine Antwort und zwei sehr ähnliche Kontexte und belohnt es für die Auswahl des Kontexts, der das Abfrage-Antwort-Paar stützt, wodurch eine feinkörnige Verankerung gefördert wird. Wir konstruieren kontrastive Kontextdaten in zwei Bereichen: Bei Code-Agenten dienen Trajektorien als Kontexte, was durch Bedingungsfilterung 1.000 Paare ergibt; bei multimodaler Argumentation dienen Bilder als Kontexte, was durch generative Bearbeitung und Ähnlichkeitssuche 7.000 Paare ergibt. ContextRL erzielt durchschnittliche Verbesserungen von +2,2% gegenüber standardmäßigem GRPO bei 5 Benchmarks für langfristiges Denken und +1,8% bei 12 verschiedenen Benchmarks für visuelles Fragenbeantworten. Um den Effekt der vorgeschlagenen Zielsetzung von dem der zusätzlichen Daten zu trennen, vergleichen wir mit Datenanreicherungs-Baselines, die dieselben kontrastiven Kontexte als standardmäßige Abfrage-Kontext-Antwort-Beispiele umnutzen. Diese Baselines erzielen kaum oder gar keine Verbesserungen, was zeigt, dass die Zuwächse auf die vorgeschlagene Kontextauswahl-Zielsetzung zurückzuführen sind und nicht allein auf die kontrastiven Daten.

ENPIRE: Agentische Selbstverbesserung der Roboter-Policy in der realen Welt
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

Jun 18

ByWenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

Die Realisierung geschickter Roboter-Manipulation in der realen Welt ist stark auf menschliche Aufsicht und algorithmisches Engineering angewiesen, was zu einem zentralen Engpass auf dem Weg zu allgemeiner physischer Intelligenz wird. Obwohl aufkommende Codierungsagenten Code generieren können, um die Algorithmussuche zu automatisieren, bleiben ihre Erfolge weitgehend auf digitale Umgebungen beschränkt. Wir vermuten, dass die fehlende Abstraktion zur Automatisierung der Robotikforschung eine wiederholbare Rückkopplungsschleife zur Verbesserung realweltlicher Politiken ist: Szenen zurücksetzen, eine Politik ausführen, das Ergebnis verifizieren und die nächste Iteration verfeinern. Um diese Lücke zu schließen, führen wir ENPIRE ein, ein Rahmenwerk für Codierungsagenten, das diese physische Rückkopplungsroutine mit vier Kernmodulen instanziiert: einem Umgebungsmodul (Environment, EN) für automatisches Zurücksetzen und Verifizieren, einem Politikverbesserungsmodul (Policy Improvement, PI) zur Initiierung von Politikverfeinerungen, einem Rollout-Modul (R) zur Bewertung von Politiken mit einem oder mehreren parallel arbeitenden physischen Robotern und einem Evolutionsmodul (E), in dem Codierungsagenten Protokolle analysieren, Literatur konsultieren und sowohl Trainingsinfrastruktur als auch Algorithmuscode verbessern, um Fehlermodi zu beheben. Dieses geschlossene System verwandelt realweltliches Manipulationslernen in einen kontrollierbaren Optimierungsprozess, der den menschlichen Aufwand minimiert und gleichzeitig faire Ablationen über Trainingsrezepte und Agentenvarianten hinweg ermöglicht. Angetrieben von ENPIRE können führende Codierungsagenten eigenständig eine Politik trainieren, die bei anspruchsvollen, geschickten Manipulationsaufgaben – wie dem Organisieren einer Stiftebox, dem Festziehen eines Kabelbinders und der Werkzeugnutzung – eine Erfolgsrate von 99 % erreicht; ein Prozess, der sich weiter beschleunigt, wenn wir ein Agententeam auf eine Roboterflotte entsenden. Unsere Ergebnisse deuten auf einen praktischen und skalierbaren Weg hin, Codierungsagenten zur autonomen Weiterentwicklung der Robotik in der physischen Welt einzusetzen.

Denken mit visueller Verankerung
Thinking with Visual Grounding

Jun 15

ByJunkai Zhang, Yihe Deng, Kai-Wei Chang, Wei Wang

Visuelles Denken sollte nicht nur richtig klingen, sondern auch seine Beweise zeigen. Während aktuelle Vision-Language-Modelle (VLMs) natürlichsprachliche Argumentationsspuren erzeugen können, bleiben die zugrundeliegenden Bildregionen in diesen Spuren oft implizit, was ihre Überprüfung und Überwachung erschwert. Wir führen visuell verankertes Denken ein – einen Argumentationsprozess, bei dem Modelle natürlichsprachliche Gedanken mit expliziten Punkt- oder Box-Verankerungen der visuellen Evidenz verschränken, die in jedem Schritt verwendet wird. Dies ermöglicht es dem Modell, Zwischenschlüsse in Sprache auszudrücken und gleichzeitig Schlüsselobjekte in den Bildregionen zu verankern, auf die sie sich beziehen. Um dieses Verhalten zu trainieren, konstruieren wir eine skalierbare Synthese-Pipeline, die korrekte visuelle Argumentationsspuren destilliert, die von den Spuren benötigten visuellen Objekte extrahiert, diese mit einem SAM3-basierten Agenten verankert und aus den resultierenden Masken abgestimmte Punkt- und Box-Überwachung ableitet. Wir schlagen weiterhin verankerungsbewusstes Reinforcement Learning vor, das Belohnungen für Antwortkorrektheit mit dichten Verankerungsbelohnungen kombiniert, die bewerten, ob generierte Objektreferenzen mit der korrekten Bildevidenz übereinstimmen. Über zwei Zähl-Benchmarks und vier räumliche Reasoning-Benchmarks hinweg verbessert das Hinzufügen von visuell verankertem Denken zu Gemma3-4B-IT durchgängig die Leistung im Vergleich zum ursprünglichen Modell und der Baseline ohne verankertes Denken. Bei räumlichem Reasoning erreichen die 4B-Modelle mit visuell verankertem Denken die Leistung von Gemma3-27B-IT aus derselben Modellfamilie und übertreffen sie in einigen Fällen. Unsere Analyse zeigt, dass Punktverankerung gut für Zählaufgaben geeignet ist, während Boxverankerung am meisten von expliziten Verankerungsbelohnungen bei räumlichen Aufgaben profitiert. Insgesamt zeigen unsere Ergebnisse, dass VLMs besser denken, wenn ihre Zwischengedanken an die Bildregionen gebunden sind, die sie wahr machen.

FAPO: Vollautonome Prompt-Optimierung von mehrstufigen LLM-Pipelines
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

Jun 17

ByPaul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

Mehrstufige LLM-Pipelines scheitern an Wechselwirkungen zwischen Abruf-, Denk- und Formatierungsschritten, sodass eine reine Prompt-Optimierung Engpässe in der Kette übersehen kann. Wir stellen FAPO (Fully Autonomous Prompt Optimization) vor, ein Framework, das Claude Code in die Lage versetzt, eine LLM-Pipeline innerhalb einer standardisierten Codebasis zu optimieren. FAPO bewertet eine Pipeline, prüft Zwischenschritte, diagnostiziert Fehler, schlägt gezielte Änderungen vor und validiert wiederholt Varianten, um sie gegen eine Bewertungsfunktion zu optimieren. Zunächst wird versucht, Prompts zu bearbeiten; erst wenn eine Prompt-Optimierung unzureichend erscheint, wird die Kettenstruktur innerhalb des zulässigen Rahmens geändert, sofern die Attribution einen strukturellen Engpass identifiziert. In sechs Benchmarks und mit drei Aufgabenmodellen übertrifft FAPO die Baseline GEPA in 15 von 18 Modell-Benchmark-Vergleichen. In 11 Modell-Benchmark-Vergleichen gewinnt FAPO mit nicht überlappenden Bereichen von Mittelwert ± Versuchs-Standardabweichung, und der mittlere FAPO-GEPA-Gewinn beträgt +14,1 Prozentpunkte. In den sechs HoVer- und IFBench-Vergleichen, bei denen die prompt-zentrierte Suche zu Strukturänderungen eskalierte, gewinnt FAPO alle sechs mit einem mittleren Gewinn von +33,8 Prozentpunkten. FAPO verbessert auch die Leistung bei Sicherheitsaufgaben: Bei CTIBench-RCM, einer Sicherheitsaufgabe zur Zuordnung von CVE zu CWE, erhöht die reine Prompt-Optimierung von FAPO die Testgenauigkeit um +4,0 Prozentpunkte auf GPT-5, um +7,1 Prozentpunkte auf Foundation-Sec-8B-Instruct und um +2,0 Prozentpunkte auf Foundation-Sec-8B-Reasoning. Diese Ergebnisse positionieren FAPO als eine hochmoderne Pipeline-Optimierungstechnik sowohl für allgemeine als auch für sicherheitsorientierte Aufgaben.

HumanScale: Egozentrische menschliche Videos können reale Roboterdaten für das Embodied Pretraining übertreffen
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Jun 18

ByJuncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou

Verkörperte Grundlagenmodelle sollen wie große Sprachmodelle von Datenskalierung profitieren, stehen aber vor einem deutlich engeren Datenengpass. Teleoperierte reale Robotertrajektorien bleiben aufgrund ihrer präzisen Aktionsüberwachung und Ausrichtung auf die Verkörperung die vorherrschende Vortrainingsquelle, doch ihre Skalierbarkeit wird durch hohe Erfassungskosten, schwierige Beschaffung sowie geringe Verhaltens- und Umweltvielfalt eingeschränkt. Diese Einschränkungen haben das Interesse an egozentrischen menschlichen Videos als skalierbare, wesentlich kostengünstigere und vielfältigere Alternative für das Vortraining verkörperter Modelle geweckt. Deren Wirksamkeit im Vergleich zu teleoperierten realen Roboterdaten bleibt jedoch wenig erforscht. Um dieser Frage nachzugehen, führen wir eine systematische Studie durch, die egozentrische menschliche Videos und teleoperierte reale Robotertrajektorien als Vortrainingsdatenquellen für verkörperte Grundlagenmodelle unter festgelegten Post-Training- und Validierungsprotokollen vergleicht. Überraschenderweise stellen wir fest, dass egozentrische Daten, wenn sie durch eine sorgfältig konzipierte Filter- und Labeling-Pipeline verarbeitet werden, nicht nur ein praktikabler Ersatz für das Vortraining sind, sondern zu überlegener Leistung führen können. Bei gleicher Menge an Vortrainingsdaten erzielen Modelle, die auf egozentrischen Daten vortrainiert wurden, einen um 24% niedrigeren Validierungsverlust bei der Vorhersage realer Roboteraktionen sowie um 52,5% bzw. 90% höhere Erfolgsraten bei der Ausführung realer Roboteraufgaben innerhalb bzw. außerhalb der Verteilung. Dieses Ergebnis bestätigt ein skalierbares Paradigma für verkörperte Grundlagenmodelle: Vortraining auf egozentrischen menschlichen Videos, um vielfältige Weltrepräsentationen zu lernen, gefolgt von einer Anpassung mit einer kleinen Menge gekennzeichneter realer Roboterdaten für die Ausrichtung des Aktionsraums. Wir hoffen, dass diese Studie zu einer breiteren Erforschung egozentrischer Daten anregt und eine Orientierungshilfe für die Datenqualitätsbewertung vor der kostspieligen Roboterdatenerfassung bietet.

Holo-World: Einheitliche Kamera-, Objekt- und Wettersteuerung für Videoweltmodelle
Holo-World: Unified Camera, Object and Weather Control for Video World Model

Jun 18

ByXiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

Videoweltmodelle bewegen sich zunehmend in Richtung der Bewahrung einer beobachteten Welt unter steuerbarer Kamera- und Objektbewegung, während Änderungen ihres Umweltzustands ermöglicht werden. Dennoch bleiben diese Steuerungen isoliert, und die Wettergenerierung stützt sich typischerweise auf ein Quellvideo oder eine rekonstruierte Szene, die bereits die zukünftige Struktur vorgibt. Wir untersuchen ein erst-frame-verankertes Quelle-zu-Zustand-Setting, bei dem das Modell von einem einzelnen Bild ausgeht, explizite Kamera- und Objektsteuerungen sowie eine optionale Wetteranweisung erhält und dann ein Video generiert, das entweder die Quellwelt bewahrt oder in einen Zielwetterzustand überführt. Um diese Herausforderungen zu bewältigen, erstellen wir zunächst HoloStateData, einen Zustands-Videodatensatz, der verschiedene Videos in einheitliche Steuerungsproben für Kamera-, Objekt- und Wetterüberwachung umwandelt. Zweitens führen wir Holo-World ein, ein einheitliches steuerbares Videoweltmodell, das die Szene ausgehend von einem einzelnen Bild gemeinsam steuert. Sein Unified Scene Adapter faktorisiert Welterhaltung und Wettertransfer in separate Parameterunterräume und nutzt gerenderten Hintergrund, Geometriepuffer und Objektsteuerungen, um die kontrollierte Szenenstruktur beizubehalten, während gleichzeitig wetterabhängige Erscheinung und Partikeleffekte modelliert werden. Darüber hinaus leitet die Scene-Weather Decomposed CFG die Szenen- und Wetterresiduen getrennt, verstärkt die Zielwettereffekte, ohne die vollständige Bedingung übermäßig zu amplifizieren. Quantitative und qualitative Experimente zeigen, dass Holo-World präzise Kamera- und Objektsteuerung mit konsistenter Szenenstruktur beibehält, während Szenen in verschiedene Zielwetterzustände überführt werden, und dabei Video-zu-Video-Wetterbearbeitungsbaselines bei der Wetterzustandserzeugung übertrifft. Unsere Projektseite ist verfügbar unter https://xiangchenyin.github.io/Holo-World/.

Neubetrachtung des Schrumpfungsbias im LLM FP4-Pretraining: Geometrischer Ursprung, systemische Auswirkung und UFP4-Rezept
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Jun 18

ByQian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou

FP4-Training verspricht erhebliche Reduzierungen des Speicher- und Rechenaufwands beim Pretraining großer Sprachmodelle, doch aktuelle FP4-Hardwarepfade und -Rezepte, einschließlich NVIDIA Blackwell/Rubin-Klassensystemen und AMD MI350-Serie GPUs, konzentrieren sich weiterhin auf E2M1-Datenelemente. In dieser Studie identifizieren wir eine grundlegende Einschränkung dieser Wahl: Nicht-uniforme Formate wie E2M1 leiden inhärent unter Shrinkage Bias, einem systematischen negativen Rundungsfehler, der durch die geometrische Asymmetrie ihrer darstellbaren Bins verursacht wird. Wir zeigen, dass dieser Bias sich multiplikativ über Schichten akkumuliert und durch die Random Hadamard Transform (RHT) verstärkt wird, was eine einheitliche Erklärung für die in bestehenden E2M1-basierten FP4-Rezepten beobachtete Trainingsinstabilität liefert. Im Gegensatz dazu umgehen uniforme Gitter (E1M2/INT4) diesen Gittergeometriefehler und wandeln die verbesserte Bucket-Auslastung durch RHT besser in eine höhere Quantisierungsqualität um. Basierend auf dieser Erkenntnis schlagen wir UFP4 vor, ein uniformes 4-Bit-Trainingsrezept, das RHT auf alle drei Trainings-GEMMs anwendet, während stochastisches Runden auf dY allein beschränkt wird. Bei langfristigem Pretraining von Dense 1.5B, MoE 7.9B und MoE 124B erreicht UFP4 konsistent eine geringere BF16-relative Verlustverschlechterung als starke E2M1-basierte Baseline-Methoden, gestützt durch Scaling-Law-Analyse und Ablationsstudien. Unsere Ergebnisse legen nahe, dass zukünftige Beschleuniger E1M2/INT4-artige uniforme 4-Bit-Gitter als erstklassige Trainingsprimitive neben E2M1 unterstützen sollten.

Befreiung des Rechts mit LOCUS: Ein Korpus lokaler Verordnungen für die Vereinigten Staaten
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

Jun 17

ByDenis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

Fortschritte in der Rechts-KI sind zunehmend auf den Zugang zu maßgeblichen Rechtstexten in großem Umfang angewiesen. Dennoch fehlt eine der folgenreichsten Ebenen des amerikanischen Rechts in bestehenden maschinenlesbaren Korpora weitgehend: kommunale Verordnungen. Lokale Satzungen regeln Bereiche wie Bebauungsplanung, Wohnungswesen, Gewerbelizenzen, öffentliche Gesundheit, Lärm, Tierkontrolle und viele andere alltägliche Regelungsdomänen, sind jedoch über Anbieterplattformen verstreut, die für die menschliche Durchsicht und nicht für den massenhaften Forschungszugriff konzipiert sind. Wir stellen LOCUS vor – das Korpus lokaler Verordnungen für die Vereinigten Staaten – ein umfassendes Korpus und eine auf County-Ebene harmonisierte Zugriffsschicht für US-amerikanische Gemeinde- und County-Satzungen. Das Rohkorpus, das für Forscher zur Freigabe vorgesehen ist, umfasst nahezu alle öffentlich zugänglichen Gemeinde- und County-Satzungen. Das resultierende Rohkorpus enthält Satzungen von 9.239 Städten und Countys. Eine kleinere, auf County-Ebene harmonisierte LOCUS-Zugriffsschicht deckt die größten 2.309 der 3.144 US-Countys ab, die einen Bevölkerungsmehrheit repräsentieren. Wir verwenden OCR, um die Vielzahl von Dokumentformaten zu bewältigen, die das Recht daran gehindert haben, eine öffentliche Ressource zu sein. Wir veröffentlichen das Korpus mit Abdeckungsmetadaten, um Reproduzierbarkeit, nachgelagerte Rechts-KI-Forschung und die schrittweise Erweiterung des maschinenlesbaren Zugangs zu lokalem Recht zu unterstützen. Wir trainieren eine Sammlung von auf ModernBERT basierenden Klassifikatoren und Scorern, um die Analyse von US-amerikanischem Lokalrecht in mehreren Dimensionen zu ermöglichen, darunter Opazität und Paternalismus, die zuvor in diesem Umfang nicht untersucht wurden. LOCUS-v1 und seine abgeleiteten Modelle sind verfügbar unter: https://huggingface.co/datasets/LocalLaws/LOCUS-v1

Die FID-Lotterie: Quantifizierung versteckter Zufälligkeit bei der Evaluierung generativer Modelle
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Jun 18

ByNicolas Dufour, Alexei A. Efros, Patrick Pérez

Die Fréchet-Inception-Distanz (FID) ist der De-facto-Standard für die Bewertung der Bildgenerierung, doch die meisten Arbeiten berichten nur eine einzelne Zahl von einem einzigen trainierten Modell mit einem einzigen Sampling-Seed. Wie reproduzierbar ist diese Zahl, wenn wir das Modell neu trainieren oder lediglich erneut daraus sampeln? In dieser Arbeit behandeln wir den FID als Zufallsvariable auf einem zweiachsigen Raster aus Trainings- und Generierungs-Seeds und messen seine Varianz direkt an mehreren hundert SiT-Netzwerken, die auf klassenbedingtem ImageNet 256×256 trainiert wurden. Wir berichten über überraschende Ergebnisse: (a) Das Neulernen des Modells mit derselben Rezeptur, aber einem anderen Seed verschiebt den FID um das 3,2-Fache (im Inception-Feature-Raum) als das erneute Ziehen von Samples aus einem festen Netzwerk. (b) Diese Lücke wird durch drei Faktoren verursacht: zufällige Initialisierung, Datenreihenfolge und das Gaußsche Rauschen pro Schritt des Flow-Matching-Verlusts. (c) Eine Erhöhung des Rechenaufwands oder der Modellgröße verringert die Streuung kaum und hält den FID-Variationskoeffizienten (CoV) innerhalb eines Bereichs von 1–2 %. (d) Eine zellenweise Optimierung der Classifier-Free Guidance halbiert die Streuung, mischt jedoch die Seeds neu, die am besten funktionieren, und ein glücklicher Trainings-Seed erreicht denselben FID mit bis zu 2× weniger Rechenaufwand als ein unglücklicher. Auf Grundlage dieser Ergebnisse empfehlen wir ein neues FID-Bewertungsprotokoll: Evaluierung unter zellenweiser optimaler Führung, jeden FID-Unterschied unterhalb des empirisch gemessenen CoV von ~1,3 % als nicht schlüssig betrachten und einen Fehlerbalken über mehrere Trainings-Seeds anstelle einer einzelnen FID-Zahl angeben.

Verständnis der Verhaltensweisen von umgebungsbewusstem Informationsretrieval
Understanding the Behaviors of Environment-aware Information Retrieval

Jun 15

ByRuifeng Yuan, Chaohao Yuan, David Dai, Yu Rong, Hong Cheng, Hou Pong Chan, Chenghao Xiao

Aktuelle Ansätze der retrieval-gestützten Generierung (RAG) haben eine hohe Leistungsfähigkeit bei der Verarbeitung komplexer Anfragen gezeigt, dennoch übersieht die aktuelle Forschung eine entscheidende Herausforderung: Verschiedene Retriever erfordern grundlegend unterschiedliche Strategien der Abfrageformulierung, um eine optimale Leistung zu erzielen. In dieser Arbeit präsentieren wir die erste systematische Analyse, wie große Sprachmodelle (LLMs) lernen können, ihre Abfrageformulierungsstrategien mittels Verstärkungslernen (Reinforcement Learning, RL) an verschiedene Retriever anzupassen. Unsere empirische Studie zeigt, dass RL einem LLM effektiv beibringt, seine Anfragen auf die spezifischen Eigenschaften eines Retrievers zuzuschneiden. Wir entdecken, dass verschiedene Retriever überraschend unterschiedliche optimale Abfragestile aufweisen (z. B. deskriptiv vs. fragenähnlich), was darauf hindeutet, dass für einen Retriever erlernte Strategien für einen anderen ineffektiv sind. Wir zeigen ferner, dass die Leistung durch Einbeziehung retriever-spezifischer menschlicher Anleitung und durch Skalierung der Modellgröße verbessert werden kann. Um das Lernen über Trajektorien mit mehreren Retriever-Schritten zu erleichtern, führen wir eine auf Verzweigung basierende Rollout-Technik ein, die die Trainingsstabilität verbessert. Unsere Arbeit liefert die ersten empirischen Belege und umsetzbaren Erkenntnisse für den Aufbau wirklich retriever-bewusster RAG-Systeme. Code und Ressourcen sind verfügbar unter https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.

LedgerAgent: Strukturierter Zustand für richtlinienkonforme Werkzeug-aufrufende Agenten
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Jun 18

ByMd Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

Richtlinienkonforme Tool-Calling-Agenten in Kundendienstbereichen müssen Aufgabenzustände über mehrere Gesprächsrunden hinweg aufrechterhalten, während sie Werkzeuge aufrufen, und dabei Bereichsrichtlinien befolgen. Aufgabenzustände bestehen aus relevanten Fakten, Identifikatoren, Einschränkungen und Bedingungen, die durch Benutzerinteraktionen und Tool-Aufrufe beobachtet werden. Bei Standard-Agenten werden Aufgabenzustände nicht separat dargestellt. Beobachtungen, Tool-Rückgaben und Richtlinienanweisungen werden in den Prompt eingefügt, sodass die Agenten jedes Mal, wenn sie entscheiden, was als Nächstes zu tun ist, die relevanten Zustände aus dem Prompt rekonstruieren müssen. Dieses Design macht die Zustandsverwaltung implizit und führt zu zwei häufigen Fehlermodi. Ein Agent kann die richtigen Fakten abrufen, seine Entscheidung aber später auf veraltete, fehlende oder falsche Informationen stützen; und ein syntaktisch gültiger Tool-Aufruf kann dennoch eine Bereichsrichtlinie verletzen, die vom aktuellen Aufgabenzustand abhängt. Wir stellen LedgerAgent vor, eine Inferenzzeit-Methode für Tool-Calling-Agenten, die beobachtete Aufgabenzustände in einem separaten Ledger verwaltet und die Zustände in den Prompt einfügt. Das Ledger wird auch verwendet, um zustandsabhängige Richtlinieneinschränkungen zu überprüfen, bevor umgebungsverändernde Tool-Aufrufe ausgeführt werden, wodurch Richtlinienverstöße verhindert werden. In vier Kundendienstbereichen und einem gemischten Panel aus Open- und Closed-Weight-Modellen verbessert LedgerAgent die durchschnittliche Pass@k-Rate gegenüber einem standardmäßigen promptbasierten Tool-Calling-Ansatz, wobei die größten Verbesserungen unter strengeren Metriken zur Konsistenz über mehrere Versuche erzielt werden.

Taylor-Calibrate: Prinzipienbasierte Initialisierung für hybride lineare Aufmerksamkeitsdestillation
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Jun 15

ByZhongzhu Zhou, Qingyang Wu, Junxiong Wang, Mayank Mishra, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu

Hybride lineare Aufmerksamkeitsmodelle bieten einen vielversprechenden Weg zu schnellerer Langkontext-Inferenz: Sie reduzieren die quadratischen Kosten und die KV-Cache-Belastung der vollständigen Softmax-Aufmerksamkeit, während sie einen Großteil der Qualität von Transformer-Modellen bewahren. Ein praktischer Weg, solche Modelle zu erhalten, besteht darin, einen vortrainierten Transformer zu konvertieren, anstatt eine neue Architektur von Grund auf neu zu trainieren. Diese Konvertierung ist jedoch weiterhin fragil. Das bloße Kopieren der Lehrer-Aufmerksamkeitsprojektionen in einen Gated-DeltaNet (GDN)-Schüler spezifiziert nicht die neuen rekurrenten Dynamiken des Vergessens, Schreibens und Ausgangs-Gatings. Infolgedessen beginnt das konvertierte Modell oft in einem schlechten dynamischen Regime und muss viele Destillationstoken aufwenden, um die Initialisierung zu reparieren, anstatt das verbleibende Lehrer-Verhalten zu erlernen. Wir schlagen Taylor-Calibrate vor, eine leichtgewichtige Initialisierungsmethode für hybride GDN-Schüler. Die Methode nutzt Taylor-gesteuerte Lehrer-Aufmerksamkeitsstatistiken, um die Wertprojektion, die Gedächtniszeitskala, die Schreib-Gates und das Ausgangs-Gate zu setzen, und wendet dann einen kurzen, schichtweisen Abgleichsschritt an, um jede konvertierte Schicht an die Lehrerausgabe anzupassen. Über vier Lehrer-Einstellungen und drei Strategien für beibehaltene Schichten hinweg liefert Taylor-Calibrate substanziell stärkere Zero-Shot-Schüler, mit einer Verbesserung von bis zu 88x in einer repräsentativen Ablation, und erreicht angestrebte Wiederherstellungsziele mit 4,9- bis 9,2-mal weniger Trainingstoken als die naive Konvertierung.

Auflösungsinvariante adaptive volumetrische mechanische Eigenschaftsfelder
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

Jun 16

ByRishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

Präzise mechanische Eigenschaften (oder Materialien) wie Elastizitätsmodul (E), Poissonzahl (ν) und Dichte (ρ) sind essenziell für zuverlässige physikalische Simulationen digitaler Welten. Allerdings fehlen diese Informationen bei den meisten 3D-Assets. Wir schlagen AdaVoMP vor, eine Methode zur Vorhersage präziser, dicht variierender (E, ν, ρ) für eingegebene 3D-Objekte über verschiedene Repräsentationen hinweg, wodurch Auflösung, Genauigkeit und Speichereffizienz im Vergleich zum Stand der Technik verbessert werden. Grundlage unserer Technik ist eine spärliche und adaptive Voxelstruktur SAV, die sowohl die eingegebene 3D-Form als auch das resultierende Materialfeld effizient repräsentiert. Wir ersetzen das Modell mit festen Voxeln der genauesten vorherigen Methode VoMP durch ein neuartiges spärliches Transformer-Encoder-Decoder-Modell, das lernt, für jede Eingabeform autoregressiv eine einzigartige SAV zu generieren, um deren Materialien darzustellen. Dadurch wird eine 16^3-mal höhere Auflösung als im Stand der Technik erreicht. Experimente zeigen, dass AdaVoMP präzisere volumetrische Eigenschaften schätzt, selbst mit geringerem Testzeit-Rechnenaufwand als alle bisherigen Verfahren. Dies ermöglicht es uns, hochauflösende komplexe 3D-Objekte in simulationsbereite Assets umzuwandeln, was zu realistischen deformierbaren Simulationen führt.

LegalHalluLens: Typisierte Halluzinationsprüfung und kalibrierte Multi-Agenten-Debatte für vertrauenswürdige KI im Rechtswesen
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

Jun 16

ByLalit Yadav, Akshaj Gurugubelli

In rechtlichen Arbeitsabläufen eingesetzte KI-Systeme halluzinieren mit Raten, die aggregierte Metriken mit etwa 52 % angeben, doch dieser Durchschnittswert verbirgt, wo sich Fehler konzentrieren und in welche Richtung sie verlaufen, sodass Compliance-Beauftragte kein umsetzbares Signal für einen vertrauenswürdigen Einsatz erhalten. Wir stellen LegalHalluLens vor, ein Prüfrahmenwerk mit drei Komponenten: typisierte Halluzinationsprofile über vier rechtlich motivierte Anspruchskategorien (numerisch, zeitlich, Verpflichtung/Anspruch, sachlich) auf Basis von CUAD (Hendrycks et al., 2021); einen Risikorichtungsindex (RDI), der die Auslassungs- gegenüber Erfindungsverzerrung auf einen einzelnen, einsatzvergleichbaren Skalar reduziert; und eine typisierte Debatten-Pipeline, die sowohl auf Größenordnungen als auch auf Richtungen kalibriert ist. Über 510 Verträge und 249.252 Klauselinstanzen messen wir eine modellinterne Diskrepanz von etwa 38–40 Prozentpunkten zwischen Verpflichtungs-/numerischen und zeitlichen Ansprüchen, die die aggregierte Berichterstattung verbirgt, und zeigen, dass zwei Systeme mit übereinstimmenden 52 %-Raten entgegengesetzte RDIs aufweisen können. Die Debatten-Pipeline reduziert erfundene Erkennungen um 45 %, wobei die Gewinne pro Kategorie der Diagnose folgen und kommerzielle APIs mit einem wesentlich kleineren Backbone (4 Milliarden aktive Parameter) erreichen. Typisierte Profile und der RDI decken Fehlermodi auf, die aggregierte Metriken verbergen; wir zeigen ferner, dass diese Diagnosen als Kalibrierungseingaben für Multi-Agenten-Debatten-Pipelines dienen, bei denen skeptische Herausforderungen und asymmetrische Tore, die auf gemessene Fehlermodi abzielen, generisch abgestimmte Debatten übertreffen. Das Rahmenwerk unterstützt richtungsbewusste Beschaffung, Rechenschaftspflicht und Agentengestaltung für rechtliche KI, die in freier Wildbahn eingesetzt wird.

Konfigurierbare klinische Informationsextraktion mit agentischem RAG: Was funktioniert, was scheitert und warum
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

Jun 17

ByOsman Alperen Çinar-Koraş, Marie Bauer, Sameh Khattab, Merlin Engelke, Moon Kim, Stephan Settelmeier, Shigeyasu Sugawara, Fabian Freisleben, Felix Nensa, Jens Kleesiek

Patientenkontexte umfassen hunderte heterogener Dokumente und tausende strukturierter Datenpunkte, doch die für KI-Systeme erforderlichen Metadaten auf Dokumentebene für Abruf und Triage fehlen oder sind unvollständig. Die standardmäßige retrieval-gestützte Generierung versagt bei diesen Daten, da sie zeitliches Schlussfolgern, dokumentenübergreifende Abhängigkeiten und fehlende Metadaten nicht angemessen verarbeitet. Wir setzen ACIE (Agentic Clinical Information Extraction) an der Universitätsmedizin Essen ein: eine lokale agentische RAG-Pipeline, die über vollständige Patientenkontexte schlussfolgert und jede Antwort zur klinischen Überprüfung mit Quellpassagen belegt. Wir quantifizieren die Metadatenlücke, zeichnen die daraus resultierenden architektonischen Entscheidungen nach und evaluieren die Extraktion gemeinsam mit einer unabhängigen retrospektiven Lymphomregister-Studie, in der Nuklearmediziner jeden extrahierten Wert anhand der zitierten Quellen verifizieren. Bei 7.326 Beurteilungen akzeptierten die Kliniker 96,5 % der Extraktionen, wobei die Akzeptanz pro Typ zwischen 80 % und 99 % lag.

LooseControlVideo: Direktoriale Videosteuerung mittels räumlicher Blockierung
LooseControlVideo: Directorial Video Control using Spatial Blocking

Jun 17

ByShariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

Die präzise 3D-räumliche Orchestrierung bei der Text-zu-Video-Generierung bleibt eine erhebliche Herausforderung, insbesondere für Szenen mit mehreren Objekten, in denen semantisches Layout und zeitliche Dynamik oft miteinander verwoben sind. Während bestehende tiefenbasierte Modelle eine gute strukturelle Genauigkeit erzielen, erfordern sie eine dichte, bildgenaue Führung, deren Erstellung für dynamische Ereignisse mit verformbaren Objekten arbeitsintensiv ist. Wir stellen LooseControlVideo vor, ein Framework, das intuitive und ausdrucksstarke Steuerung ermöglicht, indem es spärliche, orientierte 3D-Boxen als „Blocking“-Proxy verwendet. Dies erlaubt es Benutzern, ein High-Level-Layout und Trajektorien zu erstellen, während ein videogeneratives Modell genutzt wird, um realistische Verdeckungen, Dynamiken und Interaktionen zu generieren. Wir erreichen dies durch Feintuning eines Wan-2.2-Backbones auf einem Videodatensatz, der mit DNOCS annotiert ist – einer neuartigen Kodierung für 3D-Größe, Orientierung und tiefengeordnete Verdeckungen. Darüber hinaus ermöglicht unsere Methode lokale Verfeinerungen, wie das Anpassen einer Sprungtrajektorie oder das Hinzufügen einer Interaktion, mit minimaler Störung des globalen Szenenkontexts. Umfangreiche Evaluierungen auf den nuScenes-, HO-3D- und BEHAVE-Benchmarks zeigen, dass LooseControlVideo bestehende auf 2D-Boxen und Fluss basierende Baselines deutlich übertrifft. Unsere Ergebnisse weisen eine 1,2- bis 3-fache Verbesserung des Trajektorienfehlers, eine 2-fache Verbesserung der Konsistenz starrer Bewegungen und eine 1,5- bis 2-fache Steigerung der Verdeckungsgenauigkeit im Vergleich zu aktuellen hochmodernen layoutbasierten Modellen auf, was belegt, dass orientierte 3D-Primitive eine gute geometrische Priorität für die komplexe Videoerstellung mit mehreren Akteuren bieten.

JAMER: Code-Framework-Datensatz auf Projektebene und Benchmark für professionelle Game-Engines
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

Jun 18

ByJianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

Derzeitige KI-gesteuerte Spieleentwicklung hat erhebliche Fortschritte in den Bereichen Asset-Generierung, Gameplay-Design und webbasierter Spielprogrammierung erzielt, doch die projektbezogene Code-Entwicklung in professionellen Spiele-Engines bleibt aufgrund des Fehlens großer Datensätze und deterministischer Bewertungsmethoden weitgehend unerforscht. Wir stellen JamSet und JamBench vor, das erste projektbezogene Framework-Datenset und Benchmark für Spielcode, das auf einer professionellen Spiele-Engine basiert. Unser zentraler Ansatzpunkt ist, dass Game-Jam-Wettbewerbe – Community-Veranstaltungen, bei denen Entwickler unter strengen Zeitvorgaben vollständige Spiele erstellen – Tausende von Open-Source-Projekten hervorbringen, die für diesen Zweck geeignet sind. Aufbauend auf dem textbasierten Format und dem Headless-Ausführungsmodus der Godot-Engine entwerfen wir eine deterministische Verifikationspipeline, die von Dateiintegrität bis hin zur Erfassung des Laufzeitverhaltens reicht und aus über 240.000 Repositories 8.133 verifizierte Projekte destilliert. Davon bilden 300 manuell verifizierte Projekte JamBench; der Rest bildet JamSet. JamBench definiert themengesteuerte Generierungs- und Codevervollständigungsaufgaben, die durch eine Pipeline bewertet werden, die Kompilierungserfolgsraten, den Structural Completeness Score (SCS) und den Behavioral Alignment Score (BAS) kombiniert. Die Bewertung von 9 Grenzmodellen zeigt eine Fähigkeitskluft mit zunehmendem Projektumfang, wobei die Laufzeitbestehensraten von 80,4 % bei kleinen Projekten auf 5,7 % bei großen Projekten fallen (Aufgabe 2a). Code-Agents verbessern die Kompilierungsraten, erzielen jedoch keine Steigerung der Verhaltensqualität zur Laufzeit, was darauf hindeutet, dass der Engpass eher im architektonischen Design als in der syntaktischen Korrektheit liegt. Experimente bestätigen JamSet als effektive Trainingsdaten. Alle Daten und Codes sind öffentlich verfügbar.

Selektives synergistisches Lernen für videobasiertes objektzentriertes Lernen
Selective Synergistic Learning for Video Object-Centric Learning

Jun 14

ByWonJun Moon, Jae-Pil Heo

Typische Ansätze des videobasierten objekttentrierten Lernens (VOCL) verwenden Slot-basierte Frameworks, die auf reconstructiongetriebenen Encoder-Decoder-Architekturen beruhen, wobei das Lernen durch zwei räumliche Karten vermittelt wird: Aufmerksamkeitskarten vom Encoder und Objektkarten vom Decoder. Da diese beiden unterschiedlichen Karten verschiedene Eigenschaften aufweisen, versuchte eine neuere Strategie der dichten Ausrichtung, diese Diskrepanz zu beheben, indem sie eine Übereinstimmung über alle räumlich-zeitlichen Patches hinweg durch kontrastives Lernen erzwingt. Diese unterschiedslose Ausrichtung propagiert jedoch unbeabsichtigt die inhärenten Schwächen jedes Moduls, wie verrauschte Encoder-Vorhersagen und unscharfe Decoder-Grenzen. Darüber hinaus verursacht die Berechnung dichter Ähnlichkeiten über alle Paare hinweg einen quadratischen Rechenaufwand in Bezug auf die Gesamtzahl der räumlich-zeitlichen Patches, was die Skalierbarkeit stark einschränkt. Motiviert durch diese Probleme schlagen wir Selective Synergistic Learning (SSync) vor. Anstatt einer erschöpfenden Patch-zu-Patch-Ausrichtung verhindert SSync die Fehlerfortpflanzung, indem es nur die zuverlässigsten Hinweise selektiv destilliert: Der Encoder wird strikt zur Kantenverfeinerung und der Decoder zur internen Entrauschung genutzt. Dies wird durch eine Pseudo-Markierung mit linearer Komplexität realisiert, wodurch quadratische räumliche Vergleiche überflüssig werden. Um zudem die Verstärkung architekturbedingter Verzerrungen wie Slot-Redundanz zu vermeiden, führen wir eine transitive Pseudo-Markierungszusammenführung ein, die überlappende Slots auf Basis der räumlich-zeitlichen Aktivierungskonsistenz konsolidiert. Umfangreiche Studien zeigen, dass SSync die Dekompositionsqualität verbessert und als vielseitiges, modulares Plug-and-Play-Modul dient, während es zudem eine außergewöhnliche Robustheit gegenüber Slot-Konfigurationen aufweist. Der Code ist verfügbar unter github.com/wjun0830/SSync.

Die Datenmannigfaltigkeit unter dem Mikroskop
The Data Manifold under the Microscope

Jun 14

ByMarios Koulakis, Constantin Seibold

Es besteht eine erhebliche Lücke zwischen Theorie und Praxis des Deep Learning. Generalisierungs- und Approximationsfehlerschranken werden oft für vereinfachte Modelle hergeleitet oder sind zu lose, um informativ zu sein. Viele stützen sich auf die Mannigfaltigkeitshypothese und auf geometrische Regularitäten wie intrinsische Dimension, Krümmung und Reichweite. Fortschritte erfordern Einblicke in die Geometrie von Datenmannigfaltigkeiten sowie geeignete Benchmarks, doch bestehende Optionen sind polarisiert: analytische Mannigfaltigkeiten mit bekannter Geometrie, aber begrenzter Anwendbarkeit, oder reale Datensätze, bei denen die Geometrie nur grob schätzbar ist. Wir stellen ein Benchmarking-Rahmenwerk zur Untersuchung der Daten-Geometrie vor. Wir nutzen dSprites und COIL-20 wieder und erweitern sie um zusätzliche Transformationsdimensionen und dichte, achsenausgerichtete Abtastung, und kombinieren sie mit Finite-Differenzen-Schätzern, die Krümmung, Reichweite und Volumen mit nahezu Grundwahrheitsgenauigkeit in einem Bereich wiederherstellen, in dem allgemeine Schätzer unzuverlässig oder schwer einsetzbar sind. Das Rahmenwerk ist als kontrollierte Testumgebung konzipiert, die als Kalibrierungsumgebung für geometrische Schätzer und als Sandkasten zur Prüfung theoretischer Annahmen nützlich ist. Zur Veranschaulichung seiner Verwendung präsentieren wir zwei Anwendungsstudien, nämlich die Bewertung des Skalierungsverhaltens der Schranken von Genovese et al. und Fefferman et al. sowie die Verfolgung der schichtweisen Geometrie eines β-VAE, wobei wir das Verhalten aktueller Schranken und den Wert kontrollierter Benchmarks für die Anleitung und Validierung künftiger Theorie hervorheben. Eine Referenzimplementierung ist verfügbar unter https://github.com/koulakis/manifold-microscope.

Keine Ressourcen, keine Benchmarks, kein Problem? Bewertung und Verbesserung von LLMs für die Codegenerierung in ressourcenlosen Sprachen
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

Jun 15

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

Große Sprachmodelle (Large Language Models, LLMs) haben die Automatisierung von Softwareentwicklungsaufgaben erheblich vorangetrieben. Ein prominentes Beispiel ist die Codegenerierung, bei der ein LLM basierend auf einer Beschreibung in natürlicher Sprache Code in einer bestimmten Programmiersprache erzeugt. Die meiste Forschung in diesem Bereich konzentrierte sich auf ressourcenreiche Sprachen wie Python oder Java, die von reichhaltigen Trainingsdaten profitieren. Eine kleinere Anzahl von Arbeiten hat sich mit ressourcenarmen Sprachen befasst, die in Trainingskorpora unterrepräsentiert sind. Im Gegensatz dazu sind ressourcenlose Sprachen, für die LLMs praktisch keine Trainingsdaten gesehen haben, weitgehend unerforscht. Diese Sprachen entstehen häufig in der Industrie, wo Organisationen proprietäre oder domänenspezifische Sprachen entwickeln, die von kommerziellen Werkzeugen wie GitHub Copilot nicht unterstützt werden. Dies führt dazu, dass Unternehmen ihre eigenen internen Code-Empfehlungssysteme einsetzen müssen. Um mögliche Lösungen in diesem Kontext zu untersuchen, erstellen und veröffentlichen wir drei Codegenerierungs-Benchmarks für ressourcenlose Sprachen, basierend auf zwei kürzlich vorgeschlagenen Programmiersprachen, für die nur sehr wenige Trainingsdaten verfügbar sind. Mit diesen Benchmarks experimentieren wir mit mehreren Lösungen, um LLMs ressourcenlose Sprachen beizubringen, darunter promptbasierte Techniken sowie Vortraining und Feinabstimmung unter Nutzung der wenigen verfügbaren Daten. Während weiteres Vortraining die größten Leistungssteigerungen für ressourcenlose Sprachen bringt, beeinträchtigt seine direkte Anwendung auf instruktionsabgestimmte Modelle deren Fähigkeit, Anweisungen zu befolgen. Um dies zu adressieren, starten wir mit einem Basismodell, trainieren es weiter auf der Zielsprache vor und injizieren dann Instruktionsbefolgungsfähigkeiten durch Weight-Diff-Transfer von einem Instruktionsmodell. Ein solcher Ansatz verbessert die Codegenerierungsfähigkeiten in ressourcenlosen Umgebungen erheblich und ermöglicht es Unternehmen, kostengünstig ein spezialisiertes Instruktionsmodell bereitzustellen, ohne sich mit den Rechenkosten der Instruktionsfeinabstimmung befassen zu müssen.

Dauerbewusstes Scheduling für die ASR-Bereitstellung unter Arbeitslastdrift
Duration Aware Scheduling for ASR Serving Under Workload Drift

Mar 11

ByDarshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba

Scheduling-Strategien in großen Serving-Pipelines für die Automatische Spracherkennung (ASR) spielen eine Schlüsselrolle bei der Bestimmung der Ende-zu-Ende-Latenz (E2E). Dennoch verlassen sich weit verbreitete Serving-Engines auf das First-Come-First-Served (FCFS)-Scheduling, das die Variabilität der Anfragedauer ignoriert und bei Arbeitslastverschiebungen zu Head-of-Line-Blocking führt. Wir zeigen, dass die Audiodauer ein genauer Proxy für die Job-Verarbeitungszeit in ASR-Modellen wie Whisper ist, und nutzen diese Erkenntnis, um dauerbewusstes Scheduling zu ermöglichen. Wir integrieren zwei klassische Algorithmen, Shortest Job First (SJF) und Highest Response Ratio Next (HRRN), in vLLM und evaluieren sie unter realistischen und driftenden Arbeitslasten. Auf LibriSpeech test-clean reduziert SJF im Vergleich zur Basislinie die mediane E2E-Latenz bei hoher Last um bis zu 73%, erhöht jedoch die Tail-Latenz des 90. Perzentils aufgrund des Verhungerns langer Anfragen um bis zu 97%. HRRN adressiert diesen Trade-off: Es reduziert die mediane E2E-Latenz um bis zu 28%, während es die Verschlechterung der Tail-Latenz auf höchstens 24% begrenzt. Diese Gewinne bleiben unter Arbeitslastverschiebung bestehen, ohne Durchsatzeinbußen und mit einem Scheduling-Overhead von <0,1 ms pro Anfrage.

ReSyn: Ein verallgemeinertes rekursives Framework zur Synthese regulärer Ausdrücke
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

Jun 13

BySeongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko

Bestehende PBE-Systeme (Programming-by-Example) basieren oft auf vereinfachten Benchmarks, die die hohe strukturelle Komplexität realer regulärer Ausdrücke – wie tiefere Verschachtelung und häufige Verwendung von Vereinigungsoperationen – nicht erfassen. Um den daraus resultierenden Leistungsabfall zu überwinden, schlagen wir ReSyn vor, ein synthesizer-unabhängiges Divide-and-Conquer-Rahmenwerk, das komplexe Syntheseprobleme in handhabbare Teilprobleme zerlegt. Wir führen außerdem Set2Regex ein, einen parametereffizienten Synthesizer, der die Permutationsinvarianz von Beispielen nutzt. Die experimentellen Ergebnisse zeigen, dass ReSyn die Genauigkeit verschiedener Synthesizer erheblich steigert und seine Kombination mit Set2Regex einen neuen State-of-the-Art auf anspruchsvollen realen Benchmarks etabliert. Der vollständige Quellcode, die Datensätze und die vortrainierten Modell-Checkpoints sind öffentlich unter https://github.com/mrseongminkim/ReSyn verfügbar.