HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

37 papers found

OCC-RAG: Optimaler kognitiver Kern für treue Fragenbeantwortung
OCC-RAG: Optimal Cognitive Core for Faithful Question Answering

May 30

ByMaksim Savkin, Mikhail Goncharov, Alexander Gambashidze, Alla Chepurova, Dmitrii Tarasov, Nikita Andriianov, Daria Pugacheva, Vasily Konovalov, Andrey Galichin, Ivan Oseledets

Die jüngsten Fortschritte bei der Entwicklung von Sprachmodellen wurden durch die Größe bestimmt, wobei jede Generation mehr Weltwissen in ihre Gewichte aufnimmt. Viele praktische Anwendungen profitieren jedoch mehr von robustem logischem Denken als von umfangreichem parametrischem Wissen. In diesem Zusammenhang stellen aufgabenspezialisierte kleine Sprachmodelle (SLMs) eine prinzipientreue Designentscheidung dar. Wir stellen das Optimal Cognitive Core (OCC) vor, eine Familie von SLMs, die auf dieser Prämisse aufbaut. Als Variante von OCC präsentieren wir OCC-RAG, optimiert für treues Fragenbeantworten (QA), das auf dem bereitgestellten Kontext basiert. Diese Aufgabe steht in direktem Einklang mit dem OCC-Designansatz, da sie mehrschrittiges Schlussfolgern über vorgegebene Textpassagen erfordert, während memoriertes Wissen ignoriert wird. Um OCC-RAG zu trainieren, implementieren wir eine neuartige Pipeline zur Synthese von Multi-Kontext- und Multi-Hop-QA-Daten in großem Maßstab, die einen Korpus von über drei Millionen Beispielen produziert, die auf mehrschrittiges Schlussfolgern, strenge Kontexttreue und kalibrierte Enthaltung abzielen. Wir veröffentlichen OCC-RAG-0.6B und OCC-RAG-1.7B, beide auf diesem Korpus weiter trainiert. Die Modelle erzeugen strukturierte Denkspuren mit Quellenangaben, die auf wörtlichen Zitaten aus dem Kontext basieren. Durch OCC-RAG demonstrieren wir, dass kompakte, aufgabenspezialisierte SLMs mit allgemeinen Modellen, die 2- bis 6-mal so groß sind, bei Benchmarks für mehrschrittiges Schlussfolgern (HotpotQA, MuSiQue, TAT-QA), Treue (ConFiQA) und Antwortverweigerung (MuSiQue-Un) mithalten oder diese übertreffen können.

Von der Aktivierung zur Kausalität: Entdeckung kausaler visueller Repräsentationen im menschlichen Gehirn
From Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

May 22

ByYuval Golbari, Navve Wasserman, Matias Cosarinsky, Roman Beliy, Aude Oliva, Antonio Torralba, Michal Irani, Tamar Rott Shaham

Die Identifizierung der Hirnregionen, die ein visuelles Konzept im menschlichen Gehirn repräsentieren, stellt eine zentrale Herausforderung in den Neurowissenschaften dar. Bisherige Ansätze haben durch Aktivierungsmaximierung grobe funktionelle Regionen (z. B. für Gesichter, Orte) lokalisiert, indem sie Regionen ermittelten, die für ein Zielkonzept im Vergleich zu anderen Konzepten stark aktivieren. Eine starke Aktivierung allein belegt jedoch nicht, dass die Region das Konzept selbst repräsentiert, da die Reaktionen stattdessen durch korrelierte visuelle oder semantische Hinweise verursacht sein könnten. Wir stellen BrainCause vor, ein automatisiertes Framework, das generative Modelle und Hirnmodelle kombiniert, um kontrollierte Stimuli zu synthetisieren und neuronale Repräsentationen durch gezielte kausale Tests zu validieren. Ausgehend von einer Abfrage, die ein interessierendes Konzept spezifiziert, konstruiert unser Framework gezielte Stimulussets, die Konzeptbilder, kontrafaktische Bearbeitungen, die das Zielkonzept entfernen, während andere Bildinhalte erhalten bleiben, sowie Bilder mit potenziellen korrelierten Distraktoren umfassen. Anschließend nutzt es ein Bild-zu-fMRT-Kodierungsmodell, um Hirnreaktionen vorherzusagen, und sucht nach Repräsentationen, die spezifisch auf das Zielkonzept im Vergleich zu korrelierten Alternativen reagieren. BrainCause gibt validierte Kandidatenrepräsentationen zurück und schlägt weiterführende fMRT-Experimente vor, um seine Entdeckungen weiter zu testen oder zu erweitern. Unser Ansatz kann bekannte funktionelle Lokalisationen wiederherstellen und identifiziert neue Kandidatenrepräsentationen über Dutzende von Konzepten hinweg, validiert an vorhergesagten und gemessenen fMRT-Daten. Entscheidend ist, dass wir zeigen, dass ohne kausale Validierung ein großer Teil der Lokalisationen falsch-positive Ergebnisse wären, was bestätigt, dass Aktivierung allein kein ausreichender Beleg für Repräsentation ist.

Trust Region On-Policy Distillation
Trust Region On-Policy Distillation

May 31

ByXingrun Xing, Haoqing Wang, Boyan Gao, Ziheng Li, Yehui Tang

On-Policy Distillation (OPD) ist eine grundlegende Technik für effizientes Post-Training großer Sprachmodelle (Large Language Models, LLMs) mit breiten Anwendungen im Agentenlernen, in der Mehrfachaufgabenverbesserung und in der Modellkompression. Allerdings wird das OPD-Training instabil, wenn die Verteilungen von Lehrer und Schüler erheblich voneinander abweichen, da die Lehreraufsicht über von Schülern generierte Token zu unzuverlässigen Policy-Gradienten und sogar zu Fehlern bei der Optimierung führen kann. Diese Arbeit befasst sich mit zuverlässiger On-Policy-Token-Überwachung durch Kreditzuweisungsstrategien und schlägt Trust Region On-Policy Distillation (TrOPD) vor. Es zeichnet sich durch folgende Merkmale aus: 1) Trust-Region-On-Policy-Lernen: TrOPD führt OPD nur in Bereichen durch, in denen der Lehrer zuverlässige Aufsicht bietet, und mildert so die Optimierungsschwierigkeiten des K1-Reverse-KL-Schätzers bei Verteilungsdiskrepanz. 2) Ausreißerschätzung: Für Ausreißerbereiche untersuchen wir Gradienten-Clipping, Maskierung und Forward-KL-Schätzung, um die negativen Auswirkungen unzuverlässiger Aufsicht zu verringern. 3) Off-Policy-Anleitung: Der Schüler setzt die Generierung ab Lehrer-Präfixen fort und verwendet die Forward-KL, um die Off-Policy-Anleitung zu imitieren, was die On-Policy-Exploration in Richtung zuverlässiger Regionen fördert. Experimente zeigen, dass TrOPD durchgängig bessere Ergebnisse erzielt als die aktuellen State-of-the-Art-OPD-Baselines, darunter OPD, EOPD und REOPOLD, bei Benchmarks zum mathematischen Denken, zur Codegenerierung und in allgemeinen Domänen.

Humanoid-GPT: Skalierung von Daten und Struktur für Zero-Shot Motion Tracking
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

Jun 2

ByZekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi

Wir stellen Humanoid-GPT vor, einen GPT-artigen Transformer mit kausaler Aufmerksamkeit, der auf einem Bewegungskorpus im Milliarden-Maßstab für die Ganzkörpersteuerung trainiert wurde. Im Gegensatz zu früheren flachen MLP-Trackern, die durch knappe Daten und einen Agilitäts-Generalisierungs-Kompromiss eingeschränkt sind, wird Humanoid-GPT auf einem 2B-Frame-retargetierten Korpus vortrainiert, das alle wichtigen Motion-Capture-Datensätze mit großangelegten hausinternen Aufnahmen vereint. Die Skalierung sowohl von Daten als auch von Modellkapazität ergibt einen einzigen generativen Transformer, der hochdynamische Verhaltensweisen verfolgt und gleichzeitig eine beispiellose Zero-Shot-Generalisierung auf unbekannte Bewegungen und Steuerungsaufgaben erreicht. Umfangreiche Experimente und Skalierungsanalysen zeigen, dass unser Modell eine neue Leistungsgrenze setzt, indem es eine robuste Zero-Shot-Generalisierung auf unbekannte Aufgaben demonstriert und gleichzeitig hochdynamische und komplexe Bewegungen verfolgt.

KVarN: Varianznormalisierte KV-Cache-Quantisierung reduziert Fehlerakkumulation in Schlussfolgerungsaufgaben
KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

Jun 2

ByLorenz K. Muller, Philippe Bich, Chiara Boretti, Hyun-Min Chang, Jiawei Zhuang, Lukas Cavigelli

Testzeitskalierung ist ein leistungsstarker Ansatz zur Verbesserung des logischen Denkens in großen Sprachmodellen, wird jedoch bei der Dekodierung über lange Horizonte zu einem Speicherengpass, da der KV-Cache wächst. Eine KV-Cache-Quantisierung kann hier Abhilfe schaffen, doch aktuelle Methoden werden unter vorabfüllähnlichen Bedingungen evaluiert, und die Fehler verhalten sich unter autoregressiver Dekodierung anders. Wir zeigen, dass im letzteren Regime Quantisierungsfehler über die Zeitschritte hinweg akkumulieren, hauptsächlich verursacht durch falsche Tokenskalierungen. Wir stellen KVarN vor, einen kalibrierungsfreien KV-Cache-Quantisierer, der eine Hadamard-Rotation gefolgt von einer dualen Skalierungs-Varianznormalisierung über beide Achsen der K- und V-Matrizen anwendet. Wir stellen fest, dass diese Kombination Ausreißer-Tokenskalierungsfehler behebt und die Fehlerakkumulation im Vergleich zu bestehenden Basislinien erheblich reduziert. KVarN etabliert einen neuen Spitzenwert für die KV-Cache-Quantisierung bei generativen Benchmarks, einschließlich MATH500, AIME24 und HumanEval, mit 2-Bit-Präzision. Eine vLLM-Implementierung der KVarN-Methode ist unter https://github.com/huawei-csl/KVarN verfügbar.

Eine lokale Störungstheorie für domänenübergreifende Interferenz und Wiederherstellung im Multi-Domain Reinforcement Learning
A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

Jun 1

ByLei Yang, Siyu Ding, Deyi Xiong

Das Post-Training durch Verstärkungslernen (Reinforcement Learning, RL) verbessert große Sprachmodelle (Large Language Models, LLMs) in einzelnen Domänen wie mathematischem Denken, Codegenerierung, Fragenbeantwortung und kreativem Schreiben (Creative Writing, CW), jedoch verschlechtert das Training in einer Domäne häufig die Leistung in anderen. Bestehende Erklärungen auf Basis von katastrophalem Vergessen oder globalem Gradientenkonflikt sind unvollständig: Erhebliche Interferenzen können selbst dann auftreten, wenn die Gradienten des gesamten Modells nahezu orthogonal sind. Wir zeigen, dass Einzeldomänen-RL spärliche Parametereingriffe mit geringer Größenordnung erzeugt, die eine schwache Überlappung zwischen den am stärksten veränderten Neuronen aufweisen, während verschiedene Domänen dennoch erhebliche aktive Berechnungspfade gemeinsam nutzen, bei denen die Aktualisierungsrichtungen bestimmen, ob sie synergistisch wirken oder in Konflikt geraten. Unter der Leitung dieser Beobachtung beweisen wir in einem lokalen Störungsmodell des Multi-Domänen-RL, dass das Training in späteren Domänen eine frühere Domäne hauptsächlich durch einen Schadensterm zweiter Ordnung schädigt, der sich unter der beobachteten spärlichen Pfadstruktur in einem niedrigdimensionalen gemeinsamen Konflikt-Unterraum konzentriert. Darüber hinaus zieht eine kurze Domänenauffrischung die schädliche Komponente in diesem Unterraum zusammen, was eine selektive Wiederherstellung mit begrenzten Kollateralschäden ermöglicht. In Übereinstimmung mit der Theorie erholt eine kurze Re-Math-Auffrischung nach Code → Math → QA → CW die Mathematik von 57,66 auf 66,04, während die Leistung in den anderen Domänen weitgehend erhalten bleibt, was die beste Durchschnittspunktzahl von 66,39 ergibt. Über die Auffrischung hinaus stellt ein trainingsfreies Zurücksetzen auf einen spärlichen Proxy-Konfliktkoordinatensatz für das Math-QA-Paar die Mathematik teilweise wieder her, was direkte Nachweise auf Proxy-Ebene für lokalisierte Schäden liefert. Diese Ergebnisse liefern eine lokalisierte mechanistische Erklärung für Interferenz und Wiederherstellung im Multi-Domänen-RL.

Weltmodelle treffen auf Sprachmodelle: Über die Komplementarität von konkretem und abstraktem Denken
World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

Jun 2

ByYucheng Zhou, Wei Tao, Yiwen Guo, Jianbing Shen

Weltmodelle und multimodale große Sprachmodelle (MLLMs) bieten komplementäre Fähigkeiten zur Vorhersage zukünftiger Ergebnisse aus statischen visuellen Beobachtungen. Weltmodelle können konkrete visuelle Rollouts möglicher Zukünfte erzeugen, während MLLMs abstrakt über Fragen, Ziele und Regeln nachdenken können. Allerdings sind die erzeugten Rollouts stochastisch und können visuell plausibel, aber aufgabeninkorrekt sein, was es notwendig macht zu bestimmen, wann eine visuelle Simulation nützlich ist, ob ein Rollout glaubwürdig ist und wie er die endgültige Antwort beeinflussen sollte. Wir formulieren dieses Problem als kontrolliertes konkretes Denken, bei dem ein Modell lernt, visuelle Zukunftssimulationen aufzurufen, zu verifizieren und zusammen mit abstraktem Denken zu integrieren. Um dieses Szenario zu untersuchen, erstellen wir zwei von Menschen verifizierte Benchmarks, VRQABench für kontrollierbaren räumlichen Vorausblick und OpenWorldQA für offene physische Vorhersage, und schlagen die Privilegierte-Zukunfts-On-Policy-Selbst-Destillation (PF-OPSD) vor. Während des Trainings verwendet PF-OPSD Ground-Truth-Zukunftsvideos und -antworten ausschließlich als lehrerseitigen privilegierten Kontext, um On-Policy-Trajektorien des konkreten Denkens zu bewerten, während der einsetzbare Schüler zur Testzeit nie wahre Zukünfte beobachtet. Experimentelle Ergebnisse zeigen, dass PF-OPSD die Baseline auf VRQABench und OpenWorldQA um 10,6 % bzw. 10,9 % übertrifft und gleichzeitig die Robustheit gegenüber verrauschten oder widersprüchlichen Rollouts erhöht. Unser Code und Datensatz sind verfügbar unter https://github.com/yczhou001/PF-OPSD.

AutoMedBench: Auf dem Weg zur medizinischen Autoforschung mit agentischen KI-Modellen
AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

Jun 1

ByJunqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou

Autonome Agenten werden zunehmend dafür ausgelegt, end-to-end-Forschungsworkflows in der medizinischen KI zu unterstützen, über isolierte Vorhersageaufgaben oder kurze klinische Frage-Antwort-Szenarien hinaus. Bestehende Benchmarks für medizinische Agenten bewerten jedoch hauptsächlich die endgültigen Ergebnisse und bieten nur begrenzte Einblicke in das Verhalten der Agenten innerhalb des Forschungsprozesses. Um diese Lücke zu schließen, präsentieren wir AutoMedBench, einen workflow-bewussten Benchmark für autonome medizinische KI-Forschung über verschiedene medizinische Bildgebungs- und multimodale Inferenzaufgaben hinweg, der die Ausführung der Agenten in einen einheitlichen fünfstufigen Arbeitsablauf (S1–S5) gliedert: Planen, Einrichten, Validieren, Inferieren und Einreichen. Er umfasst langfristige Aufgaben, wobei jeder Durchlauf durchschnittlich 33 Agentenschritte umfasst und fünf Forschungsspuren abdeckt: Segmentierung, Bildverbesserung, visuelle Beantwortung von Fragen (VQA), Berichtserstellung und Läsionserkennung. Jede Aufgabe wird in zwei Schwierigkeitsstufen bewertet – Lite und Standard –, die dieselben Daten und Metriken verwenden, sich jedoch im Umfang der Aufgabenbeschreibungs-Gerüste unterscheiden. Jeder Durchlauf wird sowohl anhand der endgültigen Aufgabenerfüllung als auch der Stufenbewertungen S1–S5 benotet, was eine stufenbezogene Analyse von der anfänglichen Aufgabenbeschreibung bis zum endgültig eingereichten Artefakt ermöglicht. Über Tausende von aufgezeichneten Durchläufen hinweg zeigt die stufenbezogene Bewertung, dass Validieren im Durchschnitt die schwächste Workflow-Stufe ist, während Einrichten die stärkste ist, was darauf hindeutet, dass aktuelle Agenten besser darin sind, Pipelines ausführbar zu machen, als deren Zuverlässigkeit zu überprüfen. Die Fehleranalyse nach dem Durchlauf zeigt zudem, dass Verifikations- und Einreichungsfehler die gekennzeichneten Fehler dominieren und 37,7 % bzw. 38,1 % der ausgelösten Codes ausmachen, während Aufgabenverständnisfehler mit 0,9 % selten sind. Durchläufe mit einem ausgelösten Fehlercode weisen im Durchschnitt eine um 48 % niedrigere Gesamtpunktzahl auf als Durchläufe ohne Fehlercode.

MIRA: Mid-Training-Rubrikverankerung für quellenbewusste Datenauswahl
MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

May 29

ByHaowen Wang, Yaxin Du, Jian Yang, Jiajun Wu, Shukai Liu, Yuxuan Zhang, Pingjie Wang, Siheng Chen, Tuney Zheng, Ming Zhou, Xianglong Liu, Bryan Dai

Mid-Training ist zu einer wichtigen Phase in der modernen LLM-Entwicklung geworden, bei der groß angelegte kuratierte Mischungen verwendet werden, um Fähigkeiten vor dem abschließenden Post-Training zu stärken. Das Problem der Datenauswahl ist dabei eigenständig: Die Daten werden unter einem vortrainingsähnlichen Ziel in nahezu vortrainingsgroßem Maßstab optimiert, sind jedoch auf nachgelagerte Fähigkeiten ausgerichtet und stammen aus heterogenen Quellen mit unterschiedlichen Formaten und Trainingsrollen. Daher erfordert eine effektive Auswahl sowohl Skalierbarkeit als auch quellenadaptive semantische Kriterien. Bestehende modellbasierte Methoden skalieren gut, liefern jedoch nur implizite Qualitätssignale. Semantische Auswahlmethoden bieten stärkere Bewertungen, gehen jedoch in der Regel von festen Bewertungskriterien oder standardisierten Datenformaten aus. Um diese Diskrepanz zu beheben, schlagen wir MIRA vor, ein quellenbewusstes Filter-Framework, das auf selbstverankerte Rubrik-Entdeckung basiert. Die Kernidee besteht darin, die Rubrik-Konstruktion zu einem Teil der Datenauswahl zu machen: MIRA ermittelt zunächst, was für jede Quellgruppe bewertet werden sollte, und destilliert diese Bewertungen dann in skalierbare studentische Bewerter für die korpusweite Filterung. Beim codeorientierten Mid-Training mit 21 Quellen und 5 Quellgruppen übertrifft MIRA die Auswahl-Baselines in neun Code-Benchmarks und entspricht dem vollständigen Korpus-Durchlauf, während nur die Hälfte der Token verwendet wird.

TRON: Gezielte regelverifizierbare Online-Umgebungen für visuelles Reasoning RL
TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

Jun 1

ByTianze Yang, Yucheng Shi, Ruitong Sun, Jingyuan Huang, Ninghao Liu, Jin Sun

Reinforcement Learning (RL) für visuelles Denken benötigt skalierbare, überprüfbare und kontrollierbare Trainingssignale. Bestehendes visuelles RL-Post-Training trainiert auf statischen kuratierten Datensätzen mit festen Bild-Frage-Antwort-Stichproben, deren Umfang durch das Sammlungsbudget begrenzt ist. In dieser Arbeit führen wir TRON (Targeted, Rule-verifiable Online eNvironments) ein, ein Online-Umgebungssubstrat: Ein Trainings-Rollout wird bei Bedarf durch ein steuerbares Generator-Verifizierer-Programm erzeugt, das einen frischen latenten visuellen Zustand abtastet, ein Bild rendert, eine Frage stellt und die Antwort exakt überprüft. Ein einzelner Durchlauf kann daher einen unbegrenzten Strom neuer Instanzen auf dem vom aktuellen Curriculum geforderten Schwierigkeitsgrad liefern. Die aktuelle TRON-Suite umfasst 520 Umgebungen, die in fünf Fähigkeitsbereiche (räumlich, mathematisch, Diagramm, Muster/Logik und Zählen) unterteilt sind; dasselbe Substrat unterstützt sowohl ein einzelnes Vollmodell, das auf allen Bereichen trainiert wird, als auch pro-Bereich fähigkeitsspezialisierte Modelle, ohne dass zusätzliche Datenerhebungen erforderlich sind. Wir führen zudem eine Substratanalyse ein, die Generierungszuverlässigkeit, Instanz- und Levelvielfalt, umgebungsübergreifende Beinahe-Duplikate und die Bestehensrate des Basismodells nach Schwierigkeitsgrad abdeckt. RL-Post-Training mit METHOD verbessert durchgängig die Leistung auf zehn externen multimodalen Denk-Benchmarks mit Qwen3-VL-4B, Qwen2.5-VL-7B und MiMo-VL-7B-SFT.

Benchmarking des visuellen Zustandstrackings im multimodalen Video-Verständnis
Benchmarking Visual State Tracking in Multimodal Video Understanding

Jun 2

BySihyun Yu, Nanye Ma, Pinzhi Huang, Hyunseok Lee, Shusheng Yang, June Suk Choi, Ellis Brown, Oscar Michel, Boyang Zheng, Jinwoo Shin, Saining Xie

Das Verständnis eines Videos erfordert mehr als das Erkennen isolierter Momente, da Menschen kontinuierlich Entitäten, Zustände und Ereignisse im Zeitverlauf verfolgen. Diese Fähigkeit zur visuellen Zustandsverfolgung ist grundlegend für das Videoverständnis, bleibt jedoch in aktuellen Evaluierungen Multimodaler Großer Sprachmodelle (MLLMs) noch unzureichend erforscht. Wir führen den Visual State Tracking Benchmark (VSTAT) ein, einen videobasierten Benchmark, der darauf ausgelegt ist, die visuelle Zustandsverfolgung in MLLMs zu diagnostizieren. VSTAT besteht aus 834 Clips aus synthetischen und realweltlichen Videos, die mit 1.500 Fragen gepaart sind, die weder aus einem einzelnen Bild noch aus einem kurzen Segment beantwortet werden können, sondern eine kontinuierliche Wahrnehmung und Integration von Ereignissen über den gesamten Videostrom hinweg erfordern. Trotz ihrer starken Leistung in bestehenden Video-Benchmarks zeigen aktuelle Spitzen-MLLMs eine weitaus geringere Leistung als Menschen und liegen nur knapp über Antwort-Prior-Baselines. Um diese Lücke zu analysieren, vergleichen wir die Denkspuren der MLLMs mit dem zugrunde liegenden Videostrom, um zu verstehen, warum und wann MLLMs bei VSTAT versagen. Wir stellen fest, dass MLLMs in Textform korrekt schlussfolgern und verfolgen, aber bei der visuellen Wahrnehmung der zu verfolgenden Ereignisse versagen. Schließlich deuten unsere vorläufigen Evaluierungen darauf hin, dass aktuelle agentische Ansätze, einschließlich MLLM-basierter Video-Agenten und Codierungsagenten, diese Fehler nicht ohne weiteres beheben und bei VSTAT weiterhin hinter den Erwartungen zurückbleiben.

Sprachmodelle brauchen Schlaf: Lernen, sich selbst zu modifizieren und Gedächtnis zu konsolidieren
Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

Jun 2

ByAli Behrouz, Farnoosh Hashemi, Vahab Mirrokni

Die letzten Jahrzehnte haben bedeutende Fortschritte im Entwurf maschineller Lernalgorithmen erlebt – von frühen Studien zu aufgabenspezifischen flachen Modellen bis hin zu allgemeineren tiefen Großen Sprachmodellen (LLMs). Obwohl diese Modelle vielversprechende Ergebnisse bei Aufgaben liefern, die sofortige Vorhersagen oder In-Context-Lernen erfordern, fehlt ihnen die Fähigkeit, kontinuierlich zu lernen und ihr zeitliches In-Context-Wissen effektiv in ihre langfristigen Parameter zu übertragen. Inspiriert vom menschlichen Lernprozess führen wir ein „Schlaf“-Paradigma ein, das es den Modellen ermöglicht, kontinuierlich zu lernen, ihr kurzfristiges, fragiles Gedächtnis durch Wiederholung in stabiles Langzeitwissen zu destillieren und sich durch einen „Träumen“-Prozess rekursiv zu verbessern. Im Detail besteht der Schlaf aus zwei Phasen: (1) Gedächtniskonsolidierung: ein aufwärtsgerichteter Destillationsprozess, genannt „Knowledge Seeding“, bei dem die Erinnerungen eines kleineren Selbst in ein größeres Netzwerk destilliert werden, um mehr Kapazität zu schaffen und gleichzeitig das Wissen zu bewahren. Als Proof of Concept präsentieren wir einen neuen generalisierten Destillationsprozess für Knowledge Seeding (d. h. die Kombination von On-Policy-Destillation mit Imitationslernen auf Basis von Reinforcement Learning (RL)); (2) Träumen: eine Selbstverbesserungsphase, in der das Modell RL nutzt, um ein Curriculum synthetischer Daten zu generieren, um neues Wissen zu üben und bestehende Fähigkeiten ohne menschliche Aufsicht zu verfeinern. Unsere Experimente zu langfristigen, kontinuierlichen Lern-, Wissensintegrations- und Few-Shot-Generalisierungsaufgaben untermauern die Bedeutung der Schlafphase.

NVIDIA OmniDreams: Echtzeit-generatives Weltmodell für die Closed-Loop-Simulation autonomer Fahrzeuge
NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation

Jun 2

ByNVIDIA, Aarti Basant, Amlan Kar, Despoina Paschalidou, Fangyin Wei, Francesco Ferroni, Guillermo Garcia Cobo, Haithem Turki, Huan Ling, Jaewoo Seo, James Lucas, Jay Zhangjie Wu, Jialiang Wang, Jonathan Lorraine, Jun Gao, Kai He, Katarina Tothova, Kevin Xie, Michał Tyszkiewicz, Qi Wu, Riccardo de Lutio, Ruilong Li, Sanja Fidler, Seung Wook Kim, Tianchang Shen, Tianshi Cao, Tobias Pfaff, William Lew, Xindi Wu, Xuanchi Ren, Yifan Lu, Yuxuan Zhang, Zan Gojcic, Zian Wang

Mit dem Fortschritt der Fähigkeiten autonomer Fahrzeuge bleibt die sichere Bewertung von Fahrstrategien in Long-Tail-Szenarien ein kritischer Engpass. In der Closed-Loop-Simulation interagiert das Fahrstrategiemodell aktiv mit der Umgebung, wobei seine Aktionen den Simulatorzustand dynamisch aktualisieren und die nächste Menge generierter Sensorbeobachtungen direkt beeinflussen. Während neuere auf Rekonstruktion basierende neuronale Simulatoren Fotorealismus bieten, sind sie grundlegend durch ihre anfänglich erfassten Daten eingeschränkt und haben Schwierigkeiten, auf stark dynamische oder neuartige Szenen zu generalisieren. Um diese Einschränkungen zu überwinden, stellen wir OmniDreams vor, ein fundamentales generatives Weltmodell, das aus dem Cosmos-Diffusionsmodell mittel- und nachtrainiert wurde, um autoregressiv aktionskonditionierte Videos in Echtzeit zu generieren. Durch die Nutzung der reichhaltigen visuellen Priors von Cosmos und des Mittel- und Nachtrainings auf 21.000 Stunden Fahrszenarien synthetisiert OmniDreams komplexe, unbeobachtete Phänomene, die für traditionelle Simulatoren schwer zu erfassen sind, wie extremes Wetter und unvorhersehbare dynamische Agentenverhalten. Entscheidend ist, dass es seine fotorealistische Sensorgenerierung autoregressiv auf vergangene Frames, den aktuellen Simulatorzustand und unmittelbare Fahraktionsbedingungen konditioniert. Eingesetzt in einem Closed-Loop-System mit dem Alpamayo 1 Policy-Modell und dem AlpaSim-Orchestrator fungiert OmniDreams als hochgradig reaktionsfähige, reaktive Umgebung und bietet eine skalierbare und umfassende Lösung zum Trainieren und Evaluieren von Fahrstrategien der nächsten Generation für autonome Fahrzeuge. Wir zeigen zudem vorläufige Ergebnisse, die darauf hindeuten, dass ein aus OmniDreams nachtrainiertes Welt-Aktions-Modell (WAM) auf dem Physical AI Autonomous Vehicles NuRec-Datensatz eine starke Leistung erzielt und das VLA-basierte Forschungs-Policy-Modell Alpamayo 1.5 übertrifft, während es nur 1/5 der Gesamtparameter verwendet. Diese Ergebnisse unterstreichen das Potenzial eines Echtzeit-Weltmodells wie OmniDreams, auch als Rückgrat für Policy-Architekturen zu dienen.

Bootstrapping Ihres Generators: Ungepaarte visuelle Bearbeitung mittels Flow Matching
Bootstrap Your Generator: Unpaired Visual Editing with Flow Matching

Jun 2

ByYoad Tewel, Yuval Atzmon, Gal Chechik, Lior Wolf

Moderne generative Modelle besitzen ein tiefes Verständnis visueller Inhalte, doch ihr Training für die Bildbearbeitung erfordert typischerweise massive Datensätze mit paarweisen Beispielen. Dies schränkt die Skalierbarkeit ein, insbesondere bei der Videobearbeitung, bei der die Erhebung paarweiser Daten unverhältnismäßig teuer ist. Wir schlagen Bootstrap Your Generator (ByG) vor, ein allgemeines Framework für ungepaartes Training von Flow-Matching-Bearbeitungsmodellen. Es nutzt das Wissen des Basismodells ohne externes Signal. Unser Ansatz kombiniert aus dem eingefrorenen Modell extrahierte, anweisungsbefolgende Hinweise mit Zykluskonsistenz zur Strukturerhaltung. Um dies handhabbar zu machen, schlagen wir vor, Gradienten aus nachgelagerten Verlusten über saubere Vorhersagen auf verrauschte Trainingszustände zu leiten. Wir demonstrieren hochmoderne Ergebnisse in anspruchsvollen Szenarien der Bild- und Videobearbeitung mit geringer Datenverfügbarkeit. Umfangreiche Evaluierungen und Nutzerstudien zeigen, dass unsere Methode effektiv auf unbekannte Bereiche generalisiert und überwachte Basislinien übertrifft, die mit Millionen von Stichproben trainiert wurden. Die Analyse zeigt, dass unsere Gradientenweiterleitung die Trainings-Inferenz-Lücke überbrückt und die Extraktion semantischer Hinweise aus einem Basismodell ein robustes Trainingssignal liefert, das die Notwendigkeit externer Belohnungsmodelle überflüssig macht.

Entkoppelte Residual-Entrauschungs-Diffusionsmodelle für einheitliche und dateneffiziente Bild-zu-Bild-Übersetzung
Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

May 31

ByZiyue Lin, Jiahe Hou, Hongyu Xia, Xinrui Xie, Feifei Wang, Yuyin Zhou, Wei Wang, Jiawei Liu, Liangqiong Qu

Wir stellen Decoupled Residual Denoising Diffusion Models (DRDD) für eine vereinheitlichte und dateneffiziente Bild-zu-Bild (I2I) Übersetzung vor. Obwohl Diffusionsmodelle die I2I-Übersetzung hinsichtlich Qualität und Diversität vorangebracht haben, decken wir eine bisher wenig untersuchte Eigenschaft von Diffusionsmodellen auf. Entscheidend ist, dass die Injektion von Gaußschem Rauschen über ihre konventionelle Rolle der Mannigfaltigkeitsanhebung (d.h. das Verschieben von Daten aus niedrigdimensionalen Mannigfaltigkeiten) hinaus die Domänenharmonisierung durch implizite Angleichung von Merkmalsverteilungen über Domänen hinweg ermöglicht – eine Eigenschaft, die besonders vorteilhaft für die vereinheitlichte I2I-Übersetzung ist. Allerdings schwächen bestehende Diffusionsmodelle diese Harmonisierungswirkung vorzeitig ab, da Rauschen und Residuen in einem einzigen gekoppelten Diffusionsprozess gleichzeitig entfernt werden. Um dies zu adressieren, entkoppelt DRDD den Diffusionsprozess in zwei aufeinanderfolgende und unabhängige Diffusionsstufen: (1) eine stochastische Rauschdiffusion zur Domänenharmonisierung und Mannigfaltigkeitsanhebung und (2) eine deterministische Residuumsdiffusion, die die semantische Kernabbildung vollständig innerhalb der rauschfixierten Domäne erlernt. Diese Entkopplung bewahrt die Harmonisierung und Mannigfaltigkeitsanhebung während der gesamten Transformation und vereinfacht erheblich das Erlernen vereinheitlichter Abbildungen über verschiedene Aufgaben und Domänen hinweg. Bemerkenswerterweise wird die Rauschdiffusionsstufe ausschließlich auf reichlich vorhandenen, ungepaarten Bildern der Zieldomäne trainiert, was die Dateneffizienz deutlich verbessert. Umfassende theoretische und empirische Analysen zeigen, dass DRDD weitgehend mit gängigen Diffusionsmodellen kompatibel ist und auch bei begrenzt gepaarten Daten konsistent robuste, vereinheitlichte I2I-Übersetzungen liefert. Unser Code ist verfügbar unter https://github.com/HKU-HealthAI/DRDD.

Ψ-Bench: Evaluierung personasensitiver Beeinflussung in persuasiven Dialogen
Ψ-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

Jun 1

ByPeixuan Han, Hongyi Du, Jiayu Liu, Yihang Sun, Yutong Liu, Jiaxuan You

Personalisierung ist eine entscheidende Fähigkeit moderner Sprachagenten. Die aktuelle Forschung stellt personalisierte Agenten jedoch in erster Linie als passive Reagierer auf Nutzerpräferenzen dar, was ihre Fähigkeit einschränkt, mit Nutzern zu interagieren und proaktiv Vorschläge oder Anleitungen zu geben. Um eine solche proaktive Personalisierung in realistischen Interaktionen systematisch zu bewerten, schlagen wir Ψ-Bench vor, einen Benchmark zur Bewertung der Fähigkeit von LLMs, realistische Nutzer durch Konversation zu beeinflussen. Wir entwerfen drei realistische Interaktionsszenarien, die Überzeugung in Ψ-Bench beinhalten, und statten simulierte Klienten mit persönlichen Eigenschaften aus, die aus expliziten, aus Gesprächsverläufen abgeleiteten Nutzerprofilen stammen. Wir bewerten zehn führende LLMs auf Ψ-Bench und stellen fest, dass die meisten Modelle zwar kohärente und vernünftige Argumente hervorbringen können, selbst modernste Modelle jedoch noch erheblichen Raum für Verbesserungen in der Überzeugungskraft lassen. Wir stellen außerdem fest, dass der Zugang zu Klientenprofilen eine durchschnittliche Leistungssteigerung von 18,24 % bringt, was die Bedeutung nutzerspezifischer Informationen für eine effektive Überzeugung unterstreicht. Insgesamt hebt unsere Arbeit persona-sensitives Beeinflussen als eine herausfordernde, aber praktische Richtung für die Bewertung und Entwicklung proaktiverer personalisierter LLM-Agenten hervor. Der Code ist verfügbar unter: https://github.com/Hanpx20/Psi-Bench.

Kleiner RL-Controller, großes Sprachmodell: RL-gesteuertes adaptives Sampling für die Testzeit-Skalierung
Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Jun 2

ByRunpeng Dai, Tong Zheng, Rui Liu, Chengsong Huang, Hongtu Zhu

Die Skalierung zur Testzeit verbessert die Denkleistung großer Sprachmodelle, verursacht jedoch erhebliche Kosten sowohl in Bezug auf die Gesamtberechnung als auch auf die Latenz. Bestehende adaptive Sampling-Methoden mildern dieses Problem teilweise, indem sie dynamisch entscheiden, wann das Sampling beendet werden soll, doch stützen sie sich typischerweise auf heuristische Regeln oder auf Verteilungsannahmen. In dieser Arbeit formulieren wir adaptives Sampling als einen Markov-Entscheidungsprozess (MDP). Wir trainieren einen leichten Sampling-Controller mit bestärkendem Lernen (RL), um gleichzeitig Antwortkorrektheit, Latenz und Rechenaufwand auszubalancieren. In jeder Runde entscheidet der Controller, ob das Sampling beendet oder ob zusätzliche Stichproben eingeholt werden sollen. Unsere Methode ist leichtgewichtig, da sie nur auf Statistiken der endgültigen Antworten beruht, und kann auf CPU trainiert und eingesetzt werden. Wir zeigen weiterhin, dass das resultierende Framework als Lagrange-Relaxation eines Optimierungsproblems unter Nebenbedingungen mit expliziten Budgetbeschränkungen interpretiert werden kann. Experimente gegen starke Basislinien wie ASC und ESC zeigen, dass unsere Methode verbesserte Abwägungen zwischen Antwortkorrektheit, Sampling-Runden und der benötigten Gesamtstichprobenzahl erzielt.

Adaptives Auto-Harness: Kontinuierliche Selbstverbesserung für den Einsatz agentischer Systeme auf offenen Aufgabenströmen
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams

Jun 1

ByZewen Liu, Zhan Shi, Yisi Sang, Bing He, Minhua Lin, Tianxin Wei, Dakuo Wang, Benoit Dumoulin, Wei Jin, Hanqing Lu

Auto-Harness-Systeme wie A-Evolve, GEPA und Meta-Harness verbessern LLM-Agenten, indem sie Prompts, Fähigkeiten, Werkzeuge, Erinnerungen und die unterstützende Infrastruktur basierend auf Ausführungsfeedback optimieren, werden jedoch typischerweise an festgelegten Offline-Benchmarks evaluiert. Reale Einsätze hingegen stellen offene Aufgabenströme dar: Historien wachsen ohne festen Endpunkt, heterogene Aufgaben erfordern unterschiedliche Harnesses, und Problemverteilungen verschieben sich im Laufe der Zeit. Diese Herausforderungen machen eine einzelne, wiederholt und dicht aktualisierte Harness anfällig, was zu Leistungsverschlechterungen führt, da die Genauigkeit früh einen Höhepunkt erreicht und dann abfällt. Dies motiviert eine kontinuierliche Harness-Konstruktion mit aufgabenweiser Anpassung. Wir stellen Adaptive Auto-Harness vor, ein Framework und System für solche Ströme. Das Framework zerlegt die Lücke zu einem Oracle-Harness in Evolutionsverlust und Anpassungsverlust. Das System adressiert diese Verluste mit einem zustandsbehafteten Multi-Agent-Evolver, einem Harness-Baum mit Laufzeit-Routing und Schnittstellen für menschliche Steuerung für Fälle, in denen der Historie das nötige Signal fehlt. In Strömen von Prognosemärkten, Sicherheitswettbewerben und Ereignisvorhersagen übertrifft Adaptive Auto-Harness fünf bestehende Auto-Harness-Baselines, und Ablationsstudien führen Verbesserungen auf bessere Konstruktion, Routing oder gezielte menschliche Steuerung zurück. Code ist verfügbar unter https://github.com/A-EVO-Lab/AdaptiveHarness .

PaddleOCR-VL-1.6: Erweiterung der Grenzen des Dokumentenparsings durch unteroptimierte Regionenverfeinerung und progressives Post-Training
PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

Jun 2

ByZelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma

Wir stellen PaddleOCR-VL-1.6 vor, ein weiterentwickeltes kompaktes Dokumentenparsermodell, das auf PaddleOCR-VL-1.5 aufbaut. Obwohl PaddleOCR-VL-1.5 mit 0,9B-Parametern eine starke Baseline etabliert, konzentrieren sich die verbleibenden Fehler auf unteroptimierte Bereiche, in denen das Modellverhalten instabil, die Datenabdeckung spärlich oder die Überwachung unzuverlässig ist. Anstatt den Trainingskorpus wahllos zu erweitern, führt PaddleOCR-VL-1.6 einen bereichsbewussten Datenoptimierungsrahmen ein, der schwache Bereiche aus dem vorherigen Modell identifiziert, gezielte Verbesserungen in diesen Bereichen anwendet und die Zuverlässigkeit von Überwachungssignalen erhöht. Darüber hinaus übernimmt es ein schrittweises Nachschulungsrezept, das auf kuratierter Datenauswahl und bestärkendem Lernen basiert, und treibt die Modellleistung durch gestaffelte Optimierung auf ein höheres Niveau. PaddleOCR-VL-1.6 erreicht einen neuen Spitzenwert von 96,33 % auf OmniDocBench v1.6, zeigt starke Wettbewerbsfähigkeit gegenüber erstklassigen VLMs und bietet ein praktisches Nachschulungsrezept für die PaddleOCR-VL-Reihe.

Dezentrales Instruction Tuning: Konfliktbewusstes Splitting und Gewichts-Merging
Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

Jun 1

ByMinsik Choi, Geewook Kim

Die Instruktionstuning-Ausrichtung großer Sprachmodelle, einschließlich multimodaler, an verschiedenen Benutzerabsichten wird durch Gradienteninterferenz und bandbreitenintensive Synchronisation behindert, wenn die Skalierung auf heterogene Mischungen erfolgt. Wir untersuchen, ob diese beiden Engpässe gemeinsam adressiert werden können, indem Teile der Mischung unabhängig trainiert und einmal im Parameterraum wieder vereint werden. Wir entwickeln eine lokale quadratische Theorie innerhalb eines gemeinsamen flachen Beckens, die drei Ergebnisse liefert: Gewichtsvereinigung erzeugt eine krümmungsgewichtete Varianzreduktion; PCA-ausgerichtete Konfliktsplitting maximiert diesen Gewinn entlang hochkrümmungsbehafteter Richtungen; und die Vereinigung wirkt zusätzlich als spektrale Filterung mit impliziter Normregularisierung. Diese Ergebnisse motivieren direkt MERIT, eine dezentrale, vereinigungsbereite Instruktionstuning-Pipeline, die Gradientenkonflikte auf Datensatzebene schätzt, die Mischung entlang der oberen PCA-Konfliktachsen aufteilt, jede Partition unabhängig ohne Kommunikation zwischen den Partitionen feinabstimmt und einmal mittels token-gewichteter Mittelung vereinigt. Mit Qwen2.5-VL-3B und 136 Vision-FLAN-Aufgaben verbessert MERIT den 8-Benchmark-Durchschnitt von 54,3 (gemeinsames Training) auf 57,0. Dasselbe Rezept skaliert auf ein 7B-Modell mit einer Mischung aus 1,6 Millionen Beispielen und 176 Quellen – es erreicht oder übertrifft zentralisiertes gemeinsames Training mit minimalem Kostenaufwand – und überträgt sich auf textbasiertes FLAN. Unser Code ist verfügbar unter https://github.com/naver-ai/merit.

PlatonicNav: Aufdeckung semantischer Korrespondenz in der Navigation mit platonischen topologischen Karten
PlatonicNav: Unveiling Semantic Correspondence in Navigation with Platonic Topological Maps

Jun 1

ByJunlin Long, Zeyu Zhang, Xu Deng, Yiran Wang, Yue Yang, Luke Borgnolo, Maxwell Twelftree, Yang Zhao

Verkörperte visuelle Navigation, bei der ein Agent eine komplexe Umgebung wahrnimmt und aus rohen sensorischen Eingaben handelt, um ein Ziel zu erreichen, liegt einer Vielzahl von Anwendungen zugrunde, wie z. B. Haushaltsdienstrobotik, assistive Robotik und groß angelegte autonome Erkundung. Jüngste Versuche, die visuell-sprachliche Navigation (VLN) und die Objektzielnavigation (ObjNav) zu vereinheitlichen, verbleiben jedoch auf der Ebene der architektonischen Fusion, des gemischten Aufgaben-Trainings und des großen visuell-sprachlichen Vortrainings, ohne zu untersuchen, ob unabhängig voneinander trainierte visuelle und sprachliche Encoder bereits eine gemeinsame semantische Struktur aufweisen. Darüber hinaus verankern selbst objektzentrische topologische Karten Sprachziele durch explizite cross-modale Überwachung wie CLIP oder große visuell-sprachliche Modelle, wobei offen bleibt, ob eine solche Verankerung von einer rein visuell erstellten Karte aus möglich ist. Um diese Herausforderungen zu bewältigen, erweitern wir die Platonische Repräsentationshypothese auf die verkörperte Navigation und betrachten die rein visuelle ObjNav, die cross-modale ObjNav und die VLN als drei verschiedene Schnittstellen zu derselben objektzentrischen semantischen Mannigfaltigkeit. Wir stellen weiterhin PlatonicNav vor, ein trainierfreies Framework, dessen Platonische Topologische Karte geometrische und semantische Knotenabstände aus einem selbstüberwachten visuellen Encoder fusioniert und Sprachziele durch blindes Matching ohne gepaarte visuell-sprachliche Daten verankert. Umfangreiche Experimente auf Simulations-Benchmarks, darunter HM3D-IIN, OVON und R2R-CE auf MP3D, zusammen mit dem Einsatz auf Unitree Go2, zeigen, dass PlatonicNav ohne explizites cross-modales Training über Aufgaben, Modalitäten und Embodiments hinweg generalisiert. Code: https://github.com/AIGeeksGroup/PlatonicNav. Webseite: https://aigeeksgroup.github.io/PlatonicNav.

Diagnose schädlicher Fortsetzungen in antwortkorrekten Lang-CoT-Trainingsspuren
Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

May 28

ByChen He, Yuhao Wu, Lei Wang, Wenxuan Zhang, Fumin Shen

Lange Chain-of-Thought (CoT)-Spuren werden weithin als Aufsicht für reasoning-orientiertes LLM-SFT verwendet, doch antwortkorrekte Spuren können dennoch zu deutlich unterschiedlichen Feintuning-Ergebnissen führen. Wir untersuchen die Fortsetzung nach der Schlussfolgerung in antwortkorrekten Lang-CoT-Daten: eine Fortsetzung, bei der die Antwort ausreichend gestützt erscheint, die Spur jedoch mit zusätzlichem Reasoning fortfährt, das im überwachten Ziel verbleibt. Um dessen Trainingseffekt zu testen, verwenden wir einen Nur-Löschen-Editor, um eine antwortbewahrende Suffixentfernung zu konstruieren, und vergleichen CoT-basiertes SFT auf den ursprünglichen und den bearbeiteten Spuren. Wir beobachten verbesserte SFT-Ergebnisse nach der Entfernung der durch den Editor identifizierten Fortsetzung nach der Schlussfolgerung, was darauf hindeutet, dass diese Fortsetzung in unserer Umgebung schädlich für das Training ist. Daher bezeichnen wir dieses empirisch gestützte Phänomen als schädliche Fortsetzung. Über diesen Eingriff hinaus charakterisieren wir die entfernte Fortsetzung nach der Schlussfolgerung weiter durch Unsicherheit und Fortschritt des verborgenen Zustands. Wir beobachten eine anhaltende lokale Unsicherheit zusammen mit einem abgeschwächten terminal-direktionalen Fortschritt, was eine Unsicherheits-Geometrie-Diskrepanz bildet. Schließlich instanziieren wir Harmful Continuation Cut (HCC), einen leichtgewichtigen Grenzproxy, der die vom Editor identifizierte Grenze der Fortsetzung nach der Schlussfolgerung approximiert.

OmniOPD: Logitfreie On-Policy-Destillation durch spekulative Verifikation
OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

May 31

ByYuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Peng Bo, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao

On-Policy-Destillation (OPD) trainiert ein Schülermodell auf seinen eigenen generativen Trajektorien unter dichtem Token-Level-Feedback eines stärkeren Lehrers und mildert sowohl den Off-Policy-Verteilungsversatz des überwachten Feintunings (SFT) als auch die dünne Kreditzuweisung des Verstärkungslernens (RL). Allerdings hat die standardmäßige OPD zwei miteinander verbundene Einschränkungen. Erstens erfordert sie direkten Zugriff auf die Token-Level-Logits des Lehrers, wodurch eine breite Klasse leistungsfähiger proprietärer Modelle als Lehrer ausgeschlossen wird. Zweitens ist das Token-Level-Logit-Signal selbst brüchig, da es auf einer schmalen Überschneidung plausibler nächster Token zwischen Lehrer und Schüler beruht und dazu neigt, degenerierte Muster wie Wiederholungsschleifen zu verstärken. In diesem Artikel stellen wir OmniOPD vor, ein neuartiges Rahmenwerk, das beide Einschränkungen durch ein logitfreies Chunk-Level-Supervisionssignal adressiert. OmniOPD ersetzt deterministisches Logit-Matching durch Monte-Carlo-Rollouts, die die lokalen Präferenzen des Lehrers über eine kontinuierliche semantische Ähnlichkeitsmetrik für Multi-Token-Blöcke approximieren, und konzentriert diese Supervision durch einen Peak-Entropie-Scheduler, der den Schüler nur an seinen hochunsicheren Entscheidungsgabelungen prüft. Ein Dirichlet-Multinomial-Bayes-Prior und ein KL-Anker des Basismodells begrenzen zusätzlich die Varianz des diskreten Samplings und verhindern einen Politikkollaps über nicht geprüfte Token hinweg. In wettbewerbsorientierten Benchmarks übertrifft OmniOPD den Standard-OPD-Ansatz bei Mathematik um bis zu +28,64 %, was bestätigt, dass Chunk-Level-semantische Verifikation ein zuverlässigeres Lernsignal extrahiert als Token-Level-Logit-Matching, dessen hohe Informationsdichte durch erhebliches Rauschen und Brüchigkeit aufgewogen wird. Darüber hinaus erzielt OmniOPD in Kombination mit stärkeren Black-Box-Lehrern wie Claude-4.5-Haiku und Gemini-2.5-Flash bei Mathematik einen relativen Zugewinn von +9,54 % gegenüber seinem Pendant mit offenen Gewichten und bringt den Schüler über die Leistung des selbstexplorierenden RL hinaus.

MERIT: Lernen entkoppelter Musikrepräsentationen für Audio-Ähnlichkeit
MERIT: Learning Disentangled Music Representations for Audio Similarity

May 26

ByAbhinaba Roy, Junyi Liang, Dorien Herremans

Aktuelle Musikähnlichkeitsmodelle berechnen in der Regel einen einzigen, monolithischen Score, der verschiedene musikalische Dimensionen wie Melodie, Rhythmus und Klangfarbe vermischt. Dies schränkt die Benutzerkontrolle und Interpretierbarkeit ein und macht es unmöglich, differenzierte Abfragen durchzuführen. Wir stellen MERIT vor, ein Framework zur Erlernung entkoppelter, faktor-spezifischer Musikrepräsentationen, die auf diese drei Kerndimensionen zugeschnitten sind. Um das Fehlen isolierter musikalischer Variationen in realen Audiodaten zu überwinden, verwenden wir eine neuartige Trainingsstrategie, die bedingte Audioerzeugung und quellengetrennte Stems nutzt, um eine Variation einzelner Faktoren in den Trainingsdaten stark zu fördern. Unsere Evaluierungen zeigen eine starke faktorweise Entkopplung. Jeder Kopf reagiert stark auf seine beabsichtigte perzeptive Dimension, während er bei den anderen nahe am Zufallsniveau bleibt – eine Repräsentationseigenschaft, die sowohl in der synthetischen Trainingsdomäne als auch in unabhängigen realen Audiodaten konsistent ist.

Wertbewusste stochastische KV-Cache-Verdrängung für Reasoning-Modelle
Value-Aware Stochastic KV Cache Eviction for Reasoning Models

Jun 2

ByTing-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia

Reasoning-Modelle verbessern die Genauigkeit durch erweiterte Gedankenketten, aber ihre langen Ausgaben verursachen einen Speicher- und Rechenengpass. KV-Cache-Verdrängungsmethoden reduzieren diese Kosten, indem sie unwichtige Schlüssel-Wert-Paare aus dem Cache verdrängen, doch liefern sie oft eine geringere Genauigkeit als auswahlbasierte sparse-Attention-Alternativen, die den vollständigen KV-Cache behalten. Wir identifizieren Schlüsselfaktoren, die für die Genauigkeit der KV-Cache-Verdrängung entscheidend sind. Erstens weist ein kleiner Teil der Wert-Zustände abnormal große Beträge auf, und deren Verdrängung führt zu katastrophalen Fehlern, bei denen Modelle in repetitive Gedankenschleifen geraten. Zweitens verbessert die Einführung von Stochastizität während der Verdrängung die Genauigkeit, indem sie die Cache-Diversität erhöht. Basierend auf diesen Erkenntnissen schlagen wir Value-aware Stochastic KV Cache Eviction (VaSE) vor, ein trainingsfreies Verfahren, das Wert-Zustände mit großer Magnitude schützt und vielfältige Verdrängungsentscheidungen fördert. Über sechs Reasoning-Aufgaben hinweg erzielen Qwen3-Modelle mit VaSE bei 4-facher KV-Cache-Kompression höhere durchschnittliche Genauigkeiten als die SOTA-Auswahlmethode bei gleicher Sparsity, während sie die stärkste Verdrängungsmethode um mehr als 4% übertreffen. Insgesamt überbrückt VaSE die Lücke zwischen Effizienz und Genauigkeit, unterstützt FlashAttention2 und ermöglicht einen statischen Speicher-Footprint für Reasoning-Modelle.

Ein Multi-KI-Agenten-Framework zur durchgängigen Finite-Elemente-Analyse für Probleme der Festkörpermechanik
A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

May 28

ByTitu Ranjan Sarker, Muhammed Jawaad Zulqernine, Ling Yue, Shaowu Pan, Chenxi Wang, Shiyao Lin

Die Finite-Elemente-Analyse (FEA) ist der wichtigste numerische Ansatz in der Festkörpermechanik. Zu den Herausforderungen der FEA gehören eine steile Lernkurve für Einsteiger und potenziell fehlerhafte Simulationen aufgrund falscher Definitionen zentraler Simulationskomponenten wie Randbedingungen, Lastfälle und Lösungsvariablen. Für die Lösung realer Probleme sind in der Regel langjährige ingenieurtechnische Erfahrungen erforderlich. Um diese Probleme zu adressieren, stellen wir AbaqusAgent vor, ein Multi-Agenten-Framework, das auf Large Language Models (LLMs) basiert und für Festkörpermechanikanalysen entwickelt wurde. AbaqusAgent wurde entwickelt, um die Generierung und Ausführung von Analysefällen mit Abaqus, einem der am weitesten verbreiteten FEA-Pakete, zu erleichtern, indem natürliche Sprachbefehle der Nutzer in ausgeführte FEA-Analysen und Ergebnisvisualisierungen umgewandelt werden. AbaqusAgent besteht aus sechs Agenten – einem Interpreter, Architekten, Input Writer, Runner, Reviewer und Visualizer – die alle wesentlichen Vor- und Nachbearbeitungsschritte einer standardmäßigen FEA-Analyse umfassen. Eine Vielzahl von 50 Festkörpermechanikproblemen wurde erfolgreich validiert, mit einer Gesamterfolgsrate von 86%. AbaqusAgent verbessert nicht nur die Effizienz der FEA für Festkörpermechanikprobleme und senkt die Hürde für die Ausbildung in der computergestützten Mechanik, sondern erweitert auch das Paradigma der Mensch-Simulations-Interaktion und ermöglicht die Integration mit KI-gestützten Optimierungs- und Materialcharakterisierungs-Workflows. Der Code ist verfügbar unter https://github.com/LIRAM-LIN/AbaqusAgent.

Domänenspezifische Datensynthese für LLMs mittels Lernen minimal suffizienter Repräsentationen
Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning

May 29

ByTong Ye, Hang Yu, Tengfei Ma, Xuhong Zhang, Jianguo Li, Peng Di, Peiyu Liu, Jianwei Yin, Wenhai Wang

Große Sprachmodelle haben bemerkenswerte Fortschritte bei allgemeinen Fähigkeiten gezeigt und können durch Feinabstimmung auf domänenspezifischen Daten auch in spezifischen Bereichen eine hohe Leistung erzielen. Allerdings bleibt die Beschaffung hochwertiger Daten für Zieldomänen eine erhebliche Herausforderung. Bisherige Methoden zur Datensynthese folgen einem deduktiven Paradigma und sind stark auf explizite Domänenbeschreibungen in natürlicher Sprache sowie sorgfältiges Prompt-Engineering angewiesen, was ihre Anwendbarkeit in realen Szenarien einschränkt, in denen Domänen schwer zu beschreiben oder formal zu artikulieren sind. In dieser Arbeit befassen wir uns mit dem bislang wenig erforschten Problem der domänenspezifischen Datensynthese mittels eines induktiven Paradigmas, bei dem die Zieldomäne nur durch eine Reihe von Referenzbeispielen definiert wird – insbesondere dann, wenn sich Domänenmerkmale nur schwer in natürlicher Sprache ausdrücken lassen. Wir schlagen ein neuartiges Framework namens DOMINO vor, das aus Referenzbeispielen eine minimal hinreichende Domänenrepräsentation lernt und diese nutzt, um die Erzeugung domänenkonformer synthetischer Daten zu steuern. DOMINO integriert Prompt-Tuning mit einem kontrastiven Disentanglement-Ziel, um domänenbezogene Muster von probenspezifischem Rauschen zu trennen, wodurch Overfitting abgeschwächt und gleichzeitig die Kernmerkmale der Domäne bewahrt werden. Theoretisch beweisen wir, dass DOMINO den Träger der synthetischen Datenverteilung erweitert und so eine größere Diversität sicherstellt. Empirisch verbessert die Feinabstimmung auf von DOMINO synthetisierten Daten bei anspruchsvollen Code-Benchmarks, in denen Domänendefinitionen implizit sind, die Pass@1-Genauigkeit um bis zu 4,63 % gegenüber starken, instruktionsabgestimmten Backbones, was die Effektivität und Robustheit des Ansatzes belegt. Diese Arbeit etabliert ein neues Paradigma für domänenspezifische Datensynthese, das eine praktische und skalierbare Domänenanpassung ohne manuelles Prompt-Design oder natürliche Sprachspezifikationen der Domäne ermöglicht.

Bedingte Hypothesengenerierung für LLM-basierte Textanalyse mit forscherdefinierten Kovariaten
Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates

Jun 2

ByPaiheng Xu, Jing Liu, Wei Ai

Ein zentrales Ziel der Computational Social Science ist es, interpretierbare Unterschiede darin zu entdecken, wie Sprache über interessierende Ergebnisvariablen wie politische Zugehörigkeit oder Unterrichtsqualität variiert. Aktuelle auf großen Sprachmodellen basierende Hypothesengenerierungsmethoden beschreiben solche Unterschiede in natürlicher Sprache, wählen jedoch global diskriminative Muster aus, ohne Kovariate zu berücksichtigen, die die Daten basierend auf dem Domänenwissen der Forscher formen. Wenn Kovariate ignoriert werden, können ausgewählte Muster eher Störfaktoren widerspiegeln als substanziell interessante Unterschiede. Wir führen die konditionale Hypothesengenerierung ein, ein Rahmenwerk, das forscherspezifizierte Kovariate einbezieht, um die Hypothesenentdeckung auf Unterschiede zu lenken, die innerhalb relevanter Untergruppen bestehen. Dabei treten zwei Herausforderungen auf: Die Zieluntergruppe kann unterrepräsentiert sein (Schichtungsumgleichgewicht), und die Richtung eines Unterschieds kann sich über Untergruppen hinweg umkehren (Vorzeichenumkehr). Wir schlagen zwei von der Ökonometrie inspirierte Methoden vor: Eine führt Merkmal-Kovariat-Interaktionen ein, um Vorzeichenumkehrungen zu erkennen, und die andere wendet innerhalb der Schichten Mittelwertzentrierung und inverse Häufigkeitsgewichtung an, um unterrepräsentierte Schichten auszugleichen. Synthetische Experimente zeigen, dass jede Methode in ihrem Zielsetting globale Basislinien übertrifft, und eine Expertenbewertung an zwei realen Datensätzen bestätigt, dass kovariatbewusste Generierung nützlichere Hypothesen innerhalb relevanter Untergruppen hervorbringt.

αDepth: Lernen einer Ein-Pass-Weichgrenzenzerlegung für die Stereokonvertierung
αDepth: Learning Single-Pass Soft Boundary Decomposition for Stereo Conversion

May 29

ByXiang Zhang, Yang Zhang, Lukas Mehl, Karlis Martins Briedis, Markus Gross, Christopher Schroers

Die präzise Modellierung weicher Grenzen, z. B. von Haaren und Unschärfe durch Defokussierung, stellt aufgrund der mehrdeutigen Vermischung von Vorder- und Hintergrund eine grundlegende Herausforderung bei der Stereokonvertierung dar. Existierende Tiefenmodelle sagen hauptsächlich die Tiefe einzelner Schichten voraus, was zu Mehrdeutigkeiten in der Tiefenkorrespondenz an weichen Grenzen führt. Während Mattierungstechniken die Opazität für eine geschichtete Modellierung erfassen können, stoßen sie in komplexen Szenen mit mehreren Objekten oft an ihre Grenzen und erfordern in der Regel Benutzereingriffe. Diese Arbeit stellt αDepth vor, eine geschichtete Darstellung, die weiche Grenzen für eine hochwertige Stereokonvertierung zerlegt. Konkret lösen wir zunächst die Mehrdeutigkeit von gemischten Farben und Tiefen, indem wir geschichtete Farb- und Tiefenwerte an weichen Grenzen schätzen. Für komplexe Szenen mit mehreren Objekten entwerfen wir eine Kreisförmige Alpha-Darstellung (CAR), die das Paradigma von der globalen Objektextraktion hin zur lokalen Grenzzersetzung verschiebt. Im Gegensatz zu früheren Mattierungsmethoden, die auf einen einzelnen Vorder-/Hintergrund beschränkt sind, ermöglicht CAR eine effiziente szenenweite Inferenz ohne manuelle Anleitung. Umfangreiche Auswertungen belegen, dass αDepth mit der Stereokonvertierung den aktuellen Stand der Technik erreicht und Hintergrundblutungen sowie strukturelle Verzerrungen an weichen Grenzen beseitigt.

Ultralytics YOLO26: Einheitliche Echtzeit-End-to-End-Visionsmodelle
Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

Jun 2

ByGlenn Jocher, Jing Qiu, Mengyu Liu, Shuai Lyu, Fatih Cagatay Akyon, Muhammet Esat Kalfaoglu

Echtzeit-Vision erfordert Modelle, die präzise, effizient und einfach auf verschiedener Hardware bereitzustellen sind. Aus diesem Grund wurde die YOLO-Familie weit verbreitet eingesetzt, doch die meisten YOLO-Detektoren sind nach wie vor auf nicht-maximale Unterdrückung (Non-Maximum Suppression) während der Inferenz angewiesen, verfügen aufgrund des Distribution Focal Loss über schwere Detektionsköpfe, erfordern lange Trainingszeitpläne und können die kleinsten Objekte ohne positive Label-Zuweisung belassen. Wir präsentieren Ultralytics YOLO26, eine einheitliche Familie von Echtzeit-Visionsmodellen, die diese Einschränkungen durch koordinierte Architektur- und Trainingsfortschritte adressiert. YOLO26 verwendet ein Dual-Head-Design für native NMS-freie End-to-End-Inferenz und entfernt DFL vollständig, was einen leichteren Kopf mit uneingeschränktem Regressionsbereich ergibt. Seine Trainingspipeline kombiniert MuSGD, einen aus dem Training großer Sprachmodelle abgeleiteten hybriden Muon-SGD-Optimierer; Progressive Loss, der die Aufsicht in Richtung des Inferenzkopfes verschiebt; und STAL, eine Label-Zuweisungsstrategie, die positive Abdeckung für kleine Objekte garantiert. Über die Detektion hinaus führt YOLO26 aufgabenspezifische Kopf- und Verlustdesigns für Instanzsegmentierung, Posenschätzung und orientierte Detektion ein, was konsistente Verbesserungen über Aufgaben und Skalen hinweg erzielt. Die Familie umfasst fünf Skalen (n/s/m/l/x) und unterstützt Detektion, Instanzsegmentierung, Posenschätzung, Klassifikation und orientierte Detektion in einer einzigen Pipeline, mit einer Open-Vocabulary-Erweiterung, YOLOE-26, für text-, visuelle und promptfreie Inferenz. Über alle Skalen hinweg erreicht YOLO26 40,9–57,5 mAP auf COCO bei 1,7–11,8 ms T4-TensorRT-Latenz, was die Genauigkeits-Latenz-Pareto-Grenze im Vergleich zu früheren Echtzeitdetektoren voranbringt, während YOLOE-26x 40,6 AP auf LVIS minival bei Text-Prompting erreicht. Code und Modelle sind verfügbar unter https://github.com/ultralytics/ultralytics.

ClawHub-Sicherheitssignale: Wenn VirusTotal, statische Analyse und SkillSpector nicht übereinstimmen
ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree

May 31

ByVincent Koc, Patrick Erichsen, Jacob Tomlinson, Agustin Rivera, Michael Appel, Nir Paz

Agent-Fähigkeiten erweitern KI-Agenten um wiederverwendbare Anweisungen, Werkzeuge, Skripte, Referenzen und Arbeitsabläufe und schaffen eine Sicherheitsgrenze, die sich sowohl von der Modellsicherheit als auch von der traditionellen Paket-Malware-Erkennung unterscheidet. ClawHub Security Signals ist ein bereinigter Datensatz von 67.453 aktuellsten öffentlichen OpenClaw-Fähigkeitsversionen. Jede Zeile kombiniert redigierte SKILL.md-Inhalte und bereinigte gebündelte Dateien, sofern vorhanden, mit einem endgültigen ClawScan-Registry-Befund und Beweisen von drei Scanner-Familien: VirusTotal, statische heuristische Analyse und NVIDIA SkillSpector. Anstatt die Prävalenz bösartiger Fähigkeiten zu schätzen, untersuchen wir die Uneinigkeit der Scanner. Die drei Scanner kennzeichnen selten dieselben Fähigkeiten: Jedes Paar überschneidet sich bei höchstens 10,4 % seiner kombinierten positiven Ergebnisse, nur 0,69 % der Fähigkeiten werden von allen drei erkannt, und 81,9 % der gekennzeichneten Fähigkeiten werden von einem einzigen Scanner identifiziert. Die Uneinigkeit ist durch die Angriffsfläche strukturiert. SkillSpector, das semantische agentische Risikohinweise statt Malware-Reputationssignalen ausgibt, ist bei 19.209 von 25.504 verdächtigen Zeilen (75,3 %) positiv, aber nur bei 14 von 206 bösartigen Zeilen (6,8 %). Der Bereich der bösartigen Urteile zeigt das umgekehrte Profil: 150 von 206 bösartigen Zeilen (72,8 %) sind VirusTotal-positiv, konsistent mit Beweisen für gebündelte Code-Malware. Diese Ergebnisse zeigen, dass die Sicherheit von Agent-Fähigkeiten eine mehrschichtige Governance erfordert, nicht Entscheidungen einzelner Scanner über Zulassen/Blockieren. Das Korpus wird als bereinigter Silberstandard-Datensatz veröffentlicht: Die Labels sind die automatisierten Urteile der Registry, nicht die manuell annotierte Grundwahrheit, und die Veröffentlichung stellt eine frühe, versionierte Momentaufnahme dar, die die Gemeinschaft unterstützen soll, während eine manuell annotierte Teilmenge entwickelt wird. Weitere Forschung wird empfohlen, einschließlich Modelle, die für das Triage der Fähigkeitssicherheit maßgeschneidert sind.

AURA: Aktionsgesteuerter Speicher für Roboter-Policies bei konstantem VRAM
AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Jun 1

ByJosef Chen

Der KV-Cache ist der richtige Speicher für Rechenzentren, aber der falsche für Roboter. Die Inferenz in Rechenzentren bündelt viele kurze Anfragen und setzt diese zurück, wodurch ein Aufmerksamkeits-Cache über eine Vielzahl von Nutzern amortisiert wird. Verkörperte Agenten hingegen führen eine einzige lange, nicht zurücksetzende Episode auf bandbreitenbegrenzter Edge-Hardware aus, wo Hochbandbreitenspeicher und Flash knapp sind, Flash eine begrenzte Schreibendurance aufweist und Speicherschreibvorgänge statt Rechenleistung zum limitierenden Engpass werden können. AURA-Mem (Action-Utility Recurrent Adaptive Memory) zielt auf dieses Regime ab. Es umhüllt ein eingefrorenes Vision-Language-Action-Rückgrat mit einem rekurrenten Speicher konstanter Größe und einem gelernten Gatter, das nur dann schreibt, wenn die aktuelle Beobachtung die nächste Aktion ändern würde: ein Speicher, der weiß, wann er schweigen muss. Im Gegensatz zu rekonstruktionsbasiertem Speicher wird das Gatter direkt gegen ein geschlossenes Aktionsfehlersignal trainiert. Sein Inferenzzustand ist unabhängig vom Horizont auf 4.224 Byte festgelegt, während ein KV-Cache bei 100.000 Schritten auf das 6.061-Fache anwächst. In einem kontrollierten synthetischen Benchmark erreicht AURA-Mem die Genauigkeit der besten O(1)-Basislinie, benötigt jedoch 5,19- bis 6,13-mal weniger Schreibvorgänge und bei einfacheren Konfigurationen bis zu 9,19-mal weniger Schreibvorgänge. Budgetangepasste zufällige oder periodische Zeitpläne erzielen diesen Gewinn nicht, was den Nutzen auf das Aktions-Überraschungssignal eingrenzt. In einer trainierten geschlossenen OpenVLA-OFT-7B-Platte auf LIBERO-Long (n=60 Episoden pro Arm) beeinträchtigt das Gatter den Erfolg nicht: AURA-Mem erreicht die ungesteuerte Basisstrategie (0,233) und übertrifft leicht einen KV-Arm mit ständigem Schreiben (0,217), während es 7,0-mal weniger Schreibvorgänge und konstanten Speicher benötigt. Wir instanziieren zudem eine Näherungsgrenze des Informationszustands-Wertverlusts als methodische Demonstration; in diesem Maßstab ist die Grenze nichtssagend und keine Garantie.

Verfügbarkeit von Vorkenntnissen im industriellen visuellen Sim-to-Real: Ein Überblick über CAD-gestützte und CAD-unverfügbare Regime
Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes

May 28

ByChenxi Tao, Seung-Kyum Choi

Industrielles visuelles Sim-to-Real wird oft als Übertragung von synthetischen Bildern auf reale Bilder beschrieben, jedoch umfasst der industrielle Einsatz meist eine umfassendere Diskrepanz zwischen verfügbaren Evidenzen und erforderlichen Entscheidungen. Ein System kann aus CAD-Renderings, simulierten RGB-D-Beobachtungen, Normalreferenzbildern, synthetischen Defekten, vortrainierten Merkmalsräumen oder Sprachprompts aufgebaut sein, wird jedoch unter anderen Sensoren, Beleuchtung, Materialien, Vorrichtungen, Kalibrierung, Produktionsvariation und seltenen Defektmodi eingesetzt. Diese Übersichtsarbeit fasst industrielles visuelles Sim-to-Real als ein Domänenlückenproblem neu, das nach der Verfügbarkeit von Vorwissen geordnet ist. Wir unterscheiden CAD-verfügbare Umgebungen, in denen explizite Objektgeometrie Rendering, Kalibrierung, Posenschätzung, Segmentierung und geometrische Verifikation zur Testzeit unterstützen kann; CAD-nicht-verfügbare Umgebungen, in denen die Geometrie durch Normalreferenz-Erscheinungsbild, Merkmalsverteilungen, Lehrer-Schüler-Residuen, synthetische Anomalieannahmen, Foundation-Features oder Vision-Language-Priors ersetzt wird; und Boundary-Prior-Umgebungen, in denen approximative Modelle, Vorlagen, Referenzansichten oder semantische Korrespondenzen nur einen Teil der CAD-Rolle bewahren. Diese Einordnung verbindet die Literatur zur CAD-basierten Detektion und 6D-Posenschätzung mit der industriellen Anomalie- und Oberflächeninspektionsliteratur, die üblicherweise getrennt betrachtet wird. Um die Taxonomie konkret zu machen, verwenden wir empirische Ankerpunkte auf T-LESS/BOP, MVTec AD und VisA. Die Ankerpunkte zeigen, dass die Anzahl der CAD-Renderings allein den Transfer nicht schließt; das Design der Quellverteilung, die Detektorkapazität und eine kleine reale Kalibrierung können wichtiger sein. Sie zeigen auch, dass CAD zur Testzeit einen eigenen Verifikationskanal durch Masken-, Posen- und Tiefenkonsistenz schafft, während die CAD-nicht-verfügbare Inspektion auf kalibrierter Normalität und Merkmalsabweichung beruht. Die Übersichtsarbeit argumentiert daher gegen eine einzige, aufgabenübergreifende Bestenliste und fragt stattdessen, welches Vorwissen der Einsatzentscheidung zugrunde liegt.

BA-T: Ein iterativer Transformer für das Zwei-Ansichten-Bundle-Adjustment
BA-T: An Iterative Transformer for Two-View Bundle Adjustment

Jun 2

ByGanlin Zhang, Weirong Chen, Daniel Cremers, Xi Wang

Feed-forward-Modelle für die 3D-Rekonstruktion haben durch den Einsatz tiefer Cross-View-Aufmerksamkeit zum Informationsaustausch zwischen Bildern starke Leistungen erzielt. Allerdings sind diese Ansätze oft auf schwere Decoder-Stapel angewiesen und entbehren eines strukturierten Mechanismus zur Geometrieverfeinerung, was zu einer schlechten Multi-View-Konsistenz führt. Wir begegnen diesem Problem, indem wir uns vom klassischen Bundle-Adjustment (BA) inspirieren lassen, das als iterativer Informationsweitergabeprozess zwischen Posen und lokaler Geometrie betrachtet werden kann. Inspiriert von BA schlagen wir BA-T vor, einen iterativen Transformer, der BA-artige strukturierte Aktualisierungen als wiederholbare Schicht im impliziten Token-Raum implementiert. Anstatt auf tiefe Aufmerksamkeitsstapel zu setzen, verfeinert BA-T Vorhersagen auf der Grundlage latenter Residuen mittels einer einzigen leichtgewichtigen Schicht. Experimente zeigen, dass BA-T über Iterationen hinweg schrittweise die Pose- und Rekonstruktionsgenauigkeit verbessert, eine stärkere Cross-View-Konsistenz als herkömmliche Decoder erreicht und deutlich größere Modelle erreicht oder übertrifft, während nur 16 % von deren Decoder-Parametern verwendet werden. BA-T bietet eine kompakte, effiziente und strukturelle Alternative zu tiefen Aufmerksamkeitsmechanismen und ermöglicht eine genaue 3D-Rekonstruktion innerhalb einer leichtgewichtigen Architektur. Der Code wird unter https://github.com/zhangganlin/BA-T öffentlich zugänglich gemacht.

Drucktest von Täuschungssonden in LLMs: Skalierung, Robustheit und die Geometrie täuschender Repräsentationen
Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations

May 27

BySachin Kumar

Lineare Sonden, die auf LLM-Aktivierungen trainiert werden, werden zunehmend als Metriken zur Täuschungserkennung vorgeschlagen, doch berichten sie von AUROC-Werten über 0,96 auf sauberen Benchmarks, während sie unter Verteilungsverschiebung zusammenbrechen. Diese Arbeit führt systematische Belastungstests sondenbasierter Metriken über die Gemma-3-Modellfamilie (1B-27B Parameter) durch, wobei sie diagnostiziert, warum sie versagen, anstatt lediglich ihr Versagen zu dokumentieren. Wir testen vier Hypothesen zur Täuschungskodierung: (1) einzelne lineare Richtung, (2) mehrdimensionaler Unterraum, (3) konvexer Kegelmantel, (4) Entropie-Proxi. Unser Versuchsdesign umfasst bereichsübergreifende Transfermatrizen, mehrdimensionale Sondenanalysen mit Permutations-Nullbasen, Entropie-Residualisierungstests und Distraktor-Evaluierungen über 8 Stilwechsel hinweg. Wir stellen fest: (a) Sonden erzielen nahezu perfekte AUROC-Werte (>=0,998) auf sauberen Daten, brechen jedoch unter Stilwechseln ein; stil-augmentierte Sonden stellen eine nahezu perfekte Erkennung auf unbekannten Stilen wieder her (mittlerer AUROC 0,979-0,983); (b) die Einzelrichtungshypothese wird verworfen (k=1 erfasst nur 0,61-0,80 AUROC), wobei das bereichsübergreifende Transferversagen als geometrisch und nicht durch Schichtfehlanpassung verursacht bestätigt wird; (c) die Entropie-Proxi-Hypothese wird verworfen (max |rho|=0,454, max Delta-AUROC nach Residualisierung=0,004); und (d) Täuschung bildet keinen signifikanten linearen Unterraum (k*=0 pro Bereich), dennoch gewinnen mehrdimensionale Sonden (k>=5) das Signal durch verteilte subschwellige Merkmale zurück. Die Fragilität der Sonden spiegelt eine Verteilungsenge wider, keine architektonische Einschränkung: stil-augmentierte Sonden stellen eine nahezu perfekte Erkennung sowohl bei 4B als auch bei 27B wieder her, was belegt, dass das inverse Skalierungsmuster ein Trainingsverteilungsartefakt und kein echtes skalenabhängiges Phänomen ist.

Minderung der Wahrnehmungsurteilsverzerrung bei multimodalen LLM-als-Richtern durch Wahrnehmungsperturbation und Belohnungsmodellierung
Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

Jun 1

BySeojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

Aktuelle multimodale große Sprachmodelle (MLLMs) haben eine starke Argumentationsfähigkeit gezeigt, doch ihre Zuverlässigkeit als automatische Bewerter bleibt durch eine entscheidende Schwäche eingeschränkt: Wenn visuelle Evidenz mit textuellen Hinweisen kollidiert, neigen MLLM-Richter dazu, plausible Erzählungen gegenüber wahrnehmungsgetreuen Antworten zu belohnen. Wir identifizieren und analysieren dieses Phänomen systematisch und bezeichnen es als Wahrnehmungsurteilsverzerrung (Perceptual Judgment Bias). Durch kontrollierte visuelle Störungen zeigen wir, dass bestehende multimodale Bewerter sich häufig auf den Antworttext verankern, anstatt auf ihre eigene visuelle Wahrnehmung, was zu inkonsistenten und nicht verifizierbaren Bewertungen führt. Um dieses Problem zu adressieren, führen wir den Perceptually Perturbed Judgment Dataset ein, der minimal editierte kontrafaktische Antworten konstruiert, die Wahrnehmungsfehler isolieren und verifizierbare Überwachung ermöglichen. Aufbauend auf diesem Datensatz entwickeln wir ein einheitliches Trainingsframework, das eine strukturierte GRPO-basierte Belohnungsfunktion mit einem Batch-Ranking-Ziel kombiniert und so eine kohärente globale Ordnung ohne explizite Paarannotationen erreicht. Experimente über verschiedene MLLM-als-Richter-Benchmarks hinweg zeigen, dass unser Ansatz die Wahrnehmungstreue, die Ranking-Kohärenz und die Übereinstimmung mit menschlichen Bewertungen erheblich verbessert. Unsere Ergebnisse etablieren einen skalierbaren und verallgemeinerbaren Weg für das Training multimodaler Richter, die wahrnehmungsbasiert, interpretierbar und robust gegenüber visuell-logischen Konflikten sind.

WALL-WM: Weltaktionsmodellierung an den Ereignisverbindungen
WALL-WM: Carving World Action Modeling at the Event Joints

Jun 1

ByShalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang

WALL-WM ist ein Weltaktionsmodell (World Action Model), das das Video-Aktions-Lernen von einer Chunk-zentrierten Optimierung hin zu einem ereignisbasierten Vision-Language-Action-Pretraining verlagert, wobei semantisch kohärente Aktionsereignisse als atomare Lerneinheit dienen. Bestehende WAMs werden üblicherweise von multimodalen oder Video-Basismodellen initialisiert und optimieren anschließend Aktions-Chunks fester Länge, die direkt von der aktuellen Beobachtung und Instruktion abhängen. Obwohl bequem, erzeugt diese Chunk-zentrierte Formulierung einen grundlegenden Granularitätskonflikt. Sprache beschreibt semantische Ziele und Ereignisse, Vision entwickelt sich durch kontinuierliche Szenendynamiken, und Aktionen operieren auf Zeitskalen der Steuerungsebene; alle drei in dasselbe Vorhersagefenster fester Länge zu zwingen, macht VLA-Training zu einer kurzfristigen Korrelationsanpassung. WALL-WM adressiert diesen Konflikt, indem es sowohl die Überwachung als auch die Daten um semantische Ereignisse herum organisiert. Konkret kombiniert es ereignisbasiertes VLA-Pretraining mit einem Datenökosystem aus Ereignislevel-Beschriftungen und clusterbalanciertem Sampling, was skalierbares Lernen über verschiedene Verhaltensweisen, Szenen und Aufgabenstrukturen hinweg ermöglicht. Ausgehend von derselben ereignisvortrainierten Basis unterstützt WALL-WM zwei komplementäre Inferenzmodi. Der Ereignismodus verarbeitet nächste-Ereignis-Beschreibungen und ermöglicht Aktionsausführungen mit variabler Länge, während der Unified-Modus ein VLM mit Staircase Decoding nutzt, um die konventionelle Chunk-Inferenz fester Länge zu konditionieren und gleichzeitig einen gradientenstetigen VLA-Pfad zu erhalten. Zusammen mit einer auf dem Muon-Optimierer basierenden Großskalen-Pretraining-Infrastruktur bietet WALL-WM ein praktisches Skalierungsrezept für Allzweck-WAMs. Experimente zeigen, dass WALL-WM breit über Sprache, Szenen und Aufgaben generalisiert und in groß angelegten Realwelt-Generalization-Evaluierungen den State-of-the-Art erreicht.