HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

31 papers found

LMEB: Benchmark für Langzeitspeicher-Einbettungen
LMEB: Long-horizon Memory Embedding Benchmark

Mar 13

ByXinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

Memory Embeddings sind entscheidend für speichererweiterte Systeme wie OpenClaw, doch ihre Bewertung wird in aktuellen Text-Embedding-Benchmarks kaum erforscht. Diese konzentrieren sich eng auf traditionelles Passage-Retrieval und versagen darin, die Fähigkeit von Modellen zu bewerten, langfristige Speicher-Retrieval-Aufgaben zu bewältigen, die fragmentierte, kontextabhängige und zeitlich entfernte Informationen betreffen. Um dies zu adressieren, führen wir den Long-horizon Memory Embedding Benchmark (LMEB) ein – einen umfassenden Rahmen, der die Fähigkeiten von Embedding-Modellen im Umgang mit komplexen, langfristigen Speicher-Retrieval-Aufgaben evaluiert. LMEB umfasst 22 Datensätze und 193 Zero-Shot-Retrieval-Aufgaben über 4 Speichertypen hinweg: episodisch, dialogbasiert, semantisch und prozedural, mit sowohl KI-generierten als auch humanannotierten Daten. Diese Speichertypen unterscheiden sich in Bezug auf Abstraktionsniveau und zeitliche Abhängigkeit und erfassen unterschiedliche Aspekte des Speicher-Retrievals, die die vielfältigen Herausforderungen der realen Welt widerspiegeln. Wir evaluieren 15 weit verbreitete Embedding-Modelle, die von hunderten Millionen bis zu zehn Milliarden Parametern reichen. Die Ergebnisse zeigen, dass (1) LMEB ein angemessenes Schwierigkeitsniveau bietet; (2) Größere Modelle nicht immer besser abschneiden; (3) LMEB und MTEB Orthogonalität aufweisen. Dies deutet darauf hin, dass sich das Feld noch nicht auf ein universelles Modell geeinigt hat, das in allen Speicher-Retrieval-Aufgaben hervorragend abschneiden kann, und dass die Leistung im traditionellen Passage-Retrieval möglicherweise nicht auf langfristiges Speicher-Retrieval verallgemeinerbar ist. Zusammenfassend lässt sich sagen, dass LMEB durch die Bereitstellung eines standardisierten und reproduzierbaren Bewertungsrahmens eine entscheidende Lücke in der Bewertung von Memory Embeddings schließt und so weitere Fortschritte bei Text-Embeddings für die Handhabung von langfristigem, kontextabhängigem Speicher-Retrieval vorantreibt. LMEB ist verfügbar unter https://github.com/KaLM-Embedding/LMEB.

Können Vision-Sprach-Modelle das Schälchenspiel lösen?
Can Vision-Language Models Solve the Shell Game?

Mar 9

ByTiedong Liu, Wee Sun Lee

Visuelles Entitätentracking ist eine angeborene kognitive Fähigkeit des Menschen, stellt jedoch nach wie vor einen kritischen Engpass für Vision-Language-Modelle (VLMs) dar. Dieses Defizit wird in bestehenden Video-Benchmarks oft durch visuelle Abkürzungen verschleiert. Wir stellen VET-Bench vor, eine synthetische diagnostische Testumgebung mit visuell identischen Objekten, die ein Tracking ausschließlich über raumzeitliche Kontinuität erfordert. Unsere Experimente zeigen, dass aktuelle state-of-the-art VLMs bei VET-Bench auf oder nahe dem Zufallsniveau abschneiden, was eine grundlegende Limitation offenlegt: eine Überabhängigkeit von statischen Merkmalen auf Einzelbild-Ebene und das Versagen, Entitätsrepräsentationen über die Zeit hinweg aufrechtzuerhalten. Wir liefern eine theoretische Analyse, die Verbindungen zum State-Tracking-Problem herstellt, und beweisen, dass Transformer-basierte VLMs mit fester Tiefe aufgrund von Expressivitätsbeschränkungen grundsätzlich nicht in der Lage sind, ununterscheidbare Objekte ohne Zwischenaufsicht zu tracken. Um dieses Problem zu adressieren, schlagen wir Spatiotemporal Grounded Chain-of-Thought (SGCoT) vor: das Generieren von Objekttrajektorien als explizite Zwischenzustände. Indem wir die Objektverfolgungsfähigkeit von Molmo2 nutzen, lösen wir SGCoT-Reasoning durch Feinabstimmung auf synthetisierten reinen Textdaten zur Alignment-Förderung aus. Unsere Methode erreicht eine state-of-the-art Genauigkeit von über 90 % auf VET-Bench und demonstriert, dass VLMs die Video-Shell-Game-Aufgabe end-to-end ohne externe Werkzeuge zuverlässig lösen können. Unser Code und unsere Daten sind unter https://vetbench.github.io verfügbar.

Multimodale Texterkennung: Alles aus Dokumenten analysieren
Multimodal OCR: Parse Anything from Documents

Mar 13

ByHandong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

Wir stellen Multimodal OCR (MOCR) vor, ein neues Paradigma zur Dokumentenanalyse, das Text und Grafiken gemeinsam in einheitliche textuelle Repräsentationen überführt. Im Gegensatz zu konventionellen OCR-Systemen, die sich auf die Texterkennung konzentrieren und grafische Bereiche als zugeschnittene Pixel belassen, behandelt unsere Methode, dots.mocr genannt, visuelle Elemente wie Diagramme, Tabellen und Symbole als gleichberechtigte Analyseobjekte. Dies ermöglicht es Systemen, Dokumente zu analysieren und dabei semantische Beziehungen zwischen den Elementen zu bewahren. Das Verfahren bietet mehrere Vorteile: (1) Es rekonstruiert sowohl Text als auch Grafiken als strukturierte Ausgaben, was eine originalgetreuere Dokumentenrekonstruktion ermöglicht; (2) es unterstützt End-to-End-Training mit heterogenen Dokumentelementen, sodass Modelle semantische Relationen zwischen textuellen und visuellen Komponenten nutzen können; und (3) es wandelt bisher verworfenen Grafikinhalt in wiederverwendbare Code-basierte Supervision um und erschließt so die in bestehenden Dokumenten enthaltene multimodale Aufsicht. Um dieses Paradigma in großem Maßstab praktikabel zu machen, haben wir eine umfassende Daten-Engine aus PDFs, gerenderten Webseiten und nativen SVG-Assets aufgebaut und ein kompaktes 3-Milliarden-Parameter-Modell durch gestuftes Pre-Training und überwachtes Fine-Tuning trainiert. Wir evaluieren dots.mocr aus zwei Perspektiven: Dokumentenanalyse und strukturierte Grafikanalyse. Auf Dokumentenanalyse-Benchmarks belegt es auf unserer OCR Arena Elo-Rangliste den zweiten Platz direkt hinter Gemini 3 Pro, übertrifft bestehende Open-Source-Dokumentenanalysesysteme und setzt mit 83,9 Punkten einen neuen State-of-the-Art-Wert auf olmOCR Bench. Bei der strukturierten Grafikanalyse erzielt dots.mocr eine höhere Rekonstruktionsqualität als Gemini 3 Pro über verschiedene Image-to-SVG-Benchmarks hinweg und zeigt starke Leistungen bei Diagrammen, UI-Layouts, wissenschaftlichen Abbildungen und chemischen Strukturformeln. Diese Ergebnisse zeigen einen skalierbaren Weg zur Erstellung großangelegter Image-to-Code-Korpora für multimodales Pre-Training. Code und Modelle sind öffentlich verfügbar unter https://github.com/rednote-hilab/dots.mocr.

Cheers: Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht einheitliches multimodales Verständnis und Generierung
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Mar 13

ByYichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

Ein aktuelles Spitzenthema im multimodalen Modellieren ist die Vereinheitlichung von visuellem Verständnis und Generierung innerhalb eines einzelnen Modells. Allerdings erfordern diese beiden Aufgaben unterschiedliche Dekodierungsregime und visuelle Repräsentationen, was eine gemeinsame Optimierung in einem gemeinsamen Merkmalsraum nicht trivial macht. In dieser Arbeit stellen wir Cheers vor, ein vereinheitlichtes multimodales Modell, das patch-basierte Details von semantischen Repräsentationen entkoppelt und dadurch Semantik für multimodales Verständnis stabilisiert sowie die Bildqualität für die Bildgenerierung durch gated Detail-Residuen verbessert. Cheers umfasst drei Schlüsselkomponenten: (i) einen vereinheitlichten Vision-Tokenizer, der latente Bildzustände kodiert und in semantische Tokens für effiziente LLM-Konditionierung komprimiert, (ii) einen LLM-basierten Transformer, der autoregressives Dekodieren für Textgenerierung und Diffusionsdekodieren für Bildgenerierung vereinheitlicht, und (iii) einen kaskadierten Flow-Matching-Kopf, der zunächst visuelle Semantik dekodiert und dann semantisch gesteuerte Detail-Residuen aus dem Vision-Tokenizer injiziert, um hochfrequente Inhalte zu verfeinern. Experimente auf verbreiteten Benchmarks zeigen, dass Cheers mit fortschrittlichen UMMs im visuellen Verständnis und in der Generierung gleichzieht oder diese übertrifft. Cheers erreicht zudem eine 4-fache Token-Kompression, was eine effizientere Encodierung und Generierung hochauflösender Bilder ermöglicht. Bemerkenswerterweise übertrifft Cheers das Tar-1.5B auf den verbreiteten Benchmarks GenEval und MMBench, benötigt dabei jedoch nur 20 % der Trainingskosten, was auf effektives und effizientes (d.h. 4-fache Token-Kompression) vereinheitlichtes multimodales Modellieren hindeutet. Wir werden allen Code und Daten für die zukünftige Forschung veröffentlichen.

OmniForcing: Entfesseln von Echtzeit-Joint-Audio-Visueller-Erzeugung
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Mar 12

ByYaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

Aktuelle gemeinsame audiovisuelle Diffusionsmodelle erreichen eine bemerkenswerte Generierungsqualität, leiden jedoch unter hoher Latenz aufgrund ihrer bidirektionalen Aufmerksamkeitsabhängigkeiten, was Echtzeitanwendungen behindert. Wir stellen OmniForcing vor, den ersten Rahmen, um ein offline, dualstrom-basiertes bidirektionales Diffusionsmodell in einen autoregressiven Streaming-Generator mit hoher Wiedergabetreue zu destillieren. Eine naive Anwendung der kausalen Destillation auf solche dualstrom-basierten Architekturen führt jedoch zu schwerer Trainingsinstabilität, verursacht durch die extreme zeitliche Asymmetrie zwischen den Modalitäten und die daraus resultierende Token-Sparsamkeit. Wir adressieren die inherente Informationsdichtelücke durch die Einführung einer asymmetrischen block-kausalen Ausrichtung mit einem globalen Präfix und Null-Abschneidung, die eine multimodale Synchronisationsdrift verhindert. Der durch extreme Audio-Token-Sparsamkeit während der kausalen Verschiebung verursachte Gradientenexplosion wird weiterhin durch einen Audio-Sink-Token-Mechanismus mit einer Identity-RoPE-Beschränkung gelöst. Schließlich ermöglicht ein Paradigma der gemeinsamen Selbst-Forcing-Destillation dem Modell, kumulative cross-modale Fehler aus Exposure Bias während langer Rollouts dynamisch selbst zu korrigieren. Gestärkt durch ein modalitätsunabhängiges Rolling-KV-Cache-Inferenzschema erreicht OmniForcing state-of-the-art Streaming-Generierung bei sim25 FPS auf einer einzelnen GPU und erhält dabei die multimodale Synchronisation und visuelle Qualität auf Augenhöhe mit dem bidirektionalen Lehrer. Projektseite: https://omniforcing.com{https://omniforcing.com}

Video-Streaming-Denken: VideoLLMs können gleichzeitig sehen und denken
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Mar 12

ByYiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

Online Video Large Language Models (VideoLLMs) spielen eine entscheidende Rolle bei der Unterstützung reaktionsschneller, echtzeitfähiger Interaktion. Bisherige Methoden konzentrieren sich auf Streaming-Wahrnehmung, vernachlässigen jedoch einen synchronisierten logischen Reasoning-Stream. Die direkte Anwendung von Test-Time-Scaling-Methoden führt jedoch zu inakzeptabler Antwortlatenz. Um diesen Zielkonflikt zu adressieren, schlagen wir Video Streaming Thinking (VST) vor, ein neuartiges Paradigma für das Streaming-Videoverständnis. Es unterstützt einen "Thinking-while-Watching"-Mechanismus, der Reasoning über eingehende Videoclips während des Streamings aktiviert. Dieses Design verbessert das zeitnahe Verständnis und die kohärente Kognition, während es durch Amortisierung der LLM-Reasoning-Latenz über die Videowiedergabe die Echtzeit-Reaktionsfähigkeit erhält. Darüber hinaus führen wir eine umfassende Post-Training-Pipeline ein, die VST-SFT integriert, welches das Offline-VideoLLM strukturell an kausales Streaming-Reasoning anpasst, und VST-RL, das eine end-to-end-Verbesserung durch Selbsterkundung in einer Multi-Turn-Videointeraktionsumgebung bietet. Zusätzlich entwickeln wir eine automatisierte Pipeline zur Synthese von Trainingsdaten, die Videowissensgraphen nutzt, um hochwertige Streaming-Frage-Antwort-Paare zu generieren, mit einem auf Entitäten-Relationen-basierten Streaming Chain-of-Thought, um Multi-Evidenz-Reasoning und anhaltende Aufmerksamkeit auf den Videostream zu erzwingen. Umfangreiche Evaluationen zeigen, dass VST-7B auf Online-Benchmarks stark abschneidet, z.B. 79,5 % auf StreamingBench und 59,3 % auf OVO-Bench. Gleichzeitig bleibt VST auf Offline-Benchmarks für Long-Form- oder Reasoning-Aufgaben wettbewerbsfähig. Im Vergleich zu Video-R1 antwortet VST 15,7-mal schneller und erzielt eine Verbesserung von +5,4 % auf VideoHolmes, was höhere Effizienz und starke Generalisierung über verschiedene Videoverständnisaufgaben hinweg demonstriert. Code, Daten und Modelle werden unter https://github.com/1ranGuan/VST veröffentlicht.

daVinci-Env: Synthese offener SWE-Umgebungen im großen Maßstab
daVinci-Env: Open SWE Environment Synthesis at Scale

Mar 13

ByDayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

Die Ausbildung leistungsfähiger Software Engineering (SWE)-Agenten erfordert umfangreiche, ausführbare und verifizierbare Umgebungen, die dynamische Feedback-Schleifen für iteratives Code-Editing, Testausführung und Lösungsverfeinerung bieten. Bisherige Open-Source-Datensätze sind jedoch in ihrem Umfang und ihrer Repository-Vielfalt begrenzt, während industrielle Lösungen undurchsichtig sind und ihre Infrastruktur nicht veröffentlichen, was für die meisten akademischen Forschungsgruppen eine unüberwindbare Barriere darstellt. Wir präsentieren OpenSWE, den größten vollständig transparenten Framework für das Training von SWE-Agenten in Python. Er umfasst 45.320 ausführbare Docker-Umgebungen aus über 12.800 Repositories, wobei alle Dockerfiles, Evaluierungsskripte und die Infrastruktur vollständig quelloffen sind, um Reproduzierbarkeit zu gewährleisten. OpenSWE wurde durch eine Multi-Agenten-Synthese-Pipeline erstellt, die auf einem 64-Knoten-Distributed-Cluster eingesetzt wurde und die Repository-Erkundung, Dockerfile-Erstellung, Generierung von Evaluierungsskripten und iterative Testanalyse automatisiert. Über den Umfang hinaus schlagen wir eine qualitätszentrierte Filterpipeline vor, die die inhärente Schwierigkeit jeder Umgebung charakterisiert. Dabei werden unlösbare oder unzureichend herausfordernde Instanzen aussortiert und nur jene beibehalten, die die Lerneffizienz maximieren. Mit 891.000 US-Dollar für die Umgebungserstellung und weiteren 576.000 US-Dollar für Trajektorien-Sampling und schwierigkeitsgradbewusste Kuratierung repräsentiert das gesamte Projekt eine Gesamtinvestition von etwa 1,47 Millionen US-Dollar, was etwa 13.000 kuratierte Trajektorien aus rund 9.000 qualitätsgeprüften Umgebungen ergibt. Umfangreiche Experimente validieren die Wirksamkeit von OpenSWE: OpenSWE-32B und OpenSWE-72B erreichen 62,4 % bzw. 66,0 % auf SWE-bench Verified und etablieren damit State-of-the-Art unter den Qwen2.5-Serien. Darüber hinaus führt das SWE-zentrierte Training zu erheblichen Verbesserungen außerhalb der Domäne, einschließlich bis zu 12 Punkten beim mathematischen Reasoning und 5 Punkten bei wissenschaftlichen Benchmarks, ohne dass das Faktenabrufvermögen beeinträchtigt wird.

Visual-ERM: Belohnungsmodellierung für visuelle Äquivalenz
Visual-ERM: Reward Modeling for Visual Equivalence

Mar 13

ByZiyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

Aufgaben der Bild-zu-Code-Generierung erfordern von Modellen, strukturierte visuelle Eingaben wie Diagramme, Tabellen und SVGs mit hoher visueller Treue in ausführbare oder strukturierte Repräsentationen zu rekonstruieren. Während aktuelle Large Vision Language Models (LVLMs) durch überwachtes Feinabstimmen starke Ergebnisse erzielen, bleibt Bestärkendes Lernen aufgrund fehlausgerichteter Belohnungssignale eine Herausforderung. Bestehende Belohnungsfunktionen stützen sich entweder auf textuelle Regeln oder auf grobe Ähnlichkeiten visueller Einbettungen – beide Ansätze erfassen keine feinkörnigen visuellen Diskrepanzen und sind anfällig für Reward Hacking. Wir schlagen Visual-ERM (Visual Equivalence Reward Model) vor, ein multimodales generatives Belohnungsmodell, das feinkörniges, interpretierbares und aufgabenagnostisches Feedback liefert, um die Qualität von Bild-zu-Code-Generierung direkt im gerenderten visuellen Raum zu bewerten. In Bestärkendes Lernen integriert, verbessert Visual-ERM Qwen3-VL-8B-Instruct um +8,4 Punkte bei Diagramm-zu-Code und erzielt konsistente Gewinne bei Tabellen- und SVG-Parsing (+2,7 bzw. +4,1 im Durchschnitt), zusätzlich verstärkt durch Reflexion und Revision zur Laufzeit. Wir stellen außerdem VisualCritic-RewardBench (VC-RewardBench) vor, einen Benchmark zur Bewertung feinkörniger Bild-zu-Bild-Diskrepanzen bei strukturierten visuellen Daten, bei dem Visual-ERM mit 8B Parametern Qwen3-VL-235B-Instruct deutlich übertrifft und sich an führende Closed-Source-Modelle annähert. Unsere Ergebnisse legen nahe, dass feinkörnige visuelle Belohnungsüberwachung für Bild-zu-Code-Bestärkendes Lernen sowohl notwendig als auch hinreichend ist, unabhängig von der Aufgabenspezifität.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes kompositionelles Schließen
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Mar 12

ByHaozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

Multimodale Large Language Models (MLLMs) werden zunehmend zur Ausführung visueller Arbeitsabläufe eingesetzt, wie z.B. zur Navigation in GUIs, bei denen der nächste Schritt von verifizierten visuellen kompositionellen Bedingungen abhängt (z.B. "wenn ein Berechtigungsdialog erscheint und die Farbe der Oberfläche grün ist, klicke auf Erlauben") und der Prozess verzweigen oder vorzeitig enden kann. Dennoch bleibt diese Fähigkeit unterbewertet: bestehende Benchmarks konzentrieren sich auf flache Kompositionen oder unabhängige Einschränkungen anstatt auf tief verschachtelte kompositionelle Bedingungsgefüge. In diesem Artikel stellen wir MM-CondChain vor, einen Benchmark für visuell fundiertes, tiefgehendes kompositionelles Schließen. Jede Benchmark-Instanz ist als eine mehrschichtige Reasoning-Kette organisiert, wobei jede Ebene eine nicht-triviale kompositionelle Bedingung enthält, die in visuellen Evidenzen fundiert und aus mehreren Objekten, Attributen oder Relationen aufgebaut ist. Um korrekt zu antworten, muss ein MLLM das Bild detailliert wahrnehmen, auf jeder Stufe über mehrere visuelle Elemente schließen und dem resultierenden Ausführungspfad bis zum Endergebnis folgen. Um solche arbeitsablaufartigen Daten skalierbar zu konstruieren, schlagen wir einen agentenbasierten Synthese-Pipeline vor: ein Planner orchestriert die schrittweise Generierung kompositioneller Bedingungen, während eine Verifiable Programmatic Intermediate Representation (VPIR) sicherstellt, dass die Bedingung jeder Ebene mechanisch überprüfbar ist. Ein Composer setzt dann diese verifizierten Ebenen zu vollständigen Anweisungen zusammen. Mit dieser Pipeline konstruieren wir Benchmarks in drei visuellen Domänen: natürliche Bilder, Daten-diagramme und GUI-Trajektorien. Experimente mit einer Reihe von MLLMs zeigen, dass selbst das leistungsstärkste Modell nur 53,33 Path F1 erreicht, mit starken Einbrüchen bei schweren Negativbeispielen sowie mit zunehmender Tiefe oder Prädikatskomplexität, was bestätigt, dass tiefgehendes kompositionelles Schließen eine grundlegende Herausforderung bleibt.

Weniger ausgeben, besser schlussfolgern: Budgetbewusste Wert-Baumsuche für LLM-Agenten
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Mar 13

ByYushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li

Test-Time-Scaling hat sich als dominantes Paradigma zur Verbesserung der Zuverlässigkeit von LLM-Agenten etabliert. Bisherige Ansätze behandeln Rechenleistung jedoch als uneingeschränkt verfügbare Ressource, sodass Agenten Token- und Tool-Budgets für redundante Schritte oder Sackgassen aufbrauchen können. Bestehende budgetbewusste Methoden erfordern entweder kostspieliges Fine-Tuning oder basieren auf groben, trajectorienbasierten Heuristiken, die keine Intervention während der Ausführung ermöglichen. Wir schlagen den Budget-Aware Value Tree (BAVT) vor, ein trainingsfreies Inferenz-Framework, das Multi-Hop-Reasoning als dynamischen Suchbaum modelliert, der durch schrittweise Wertschätzung innerhalb eines einzelnen LLM-Backbones gesteuert wird. Eine weitere Schlüsselinnovation ist ein budgetkonditionierter Knotenauswahlmechanismus, der das verbleibende Ressourcenverhältnis als natürlichen Skalierungsexponenten über Knotenwerten nutzt. Dies ermöglicht einen prinzipienbasierten, parameterfreien Übergang von breiter Exploration zu gieriger Exploitation bei schwindendem Budget. Um der bekannten Überkonfidenz von LLM-Selbsteinschätzungen entgegenzuwirken, verwendet BAVT einen residualen Wertprädiktor, der relativen Fortschritt statt absoluter Zustandsqualität bewertet und so zuverlässiges Ausmerzen uninformativer oder redundanter Tool-Aufrufe ermöglicht. Wir liefern zudem eine theoretische Konvergenzgarantie und beweisen, dass BAVT mit einer Wahrscheinlichkeit von mindestens 1-ε eine endgültige Antwort unter einer expliziten endlichen Budgetschranke erreicht. Umfangreiche Auswertungen auf vier Multi-Hop-QA-Benchmarks über zwei Modellfamilien hinweg zeigen, dass BAVT Parallel-Sampling-Baselines konsistent übertrifft. Besonders bemerkenswert ist, dass BAVT unter strengen Niedrigbudget-Bedingungen die Baseline-Leistung bei der vierfachen Ressourcenzuteilung übertrifft, was belegt, dass intelligentes Budgetmanagement reine Rechenleistungsskalierung grundlegend übertrifft.

EvoScientist: Auf dem Weg zu Multi-Agenten-Evolvierenden KI-Wissenschaftlern für End-to-End-Wissenschaftliche Entdeckung
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Mar 9

ByYougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan

Die zunehmende Verbreitung von Large Language Models (LLMs) ermöglicht es KI-Wissenschaftlern, komplexe end-to-end wissenschaftliche Entdeckungsaufgaben durchzuführen, die die Koordination spezialisierter Rollen erfordern, einschließlich Ideengenerierung und experimenteller Durchführung. Allerdings basieren die meisten modernsten KI-Wissenschaftler-Systeme auf statischen, handgestalteten Pipelines und scheitern daran, sich auf Basis akkumulierter Interaktionsverläufe anzupassen. Infolgedessen übersehen diese Systeme vielversprechende Forschungsrichtungen, wiederholen fehlgeschlagene Experimente und verfolgen unbrauchbare Ideen. Um dies zu adressieren, führen wir EvoScientist ein, einen sich evolvierenden Multi-Agenten-KI-Wissenschaftler-Rahmen, der Forschungsstrategien durch persistente Speicherung und Selbstevolution kontinuierlich verbessert. EvoScientist umfasst drei spezialisierte Agenten: einen Forschungsagenten (RA) zur Generierung wissenschaftlicher Ideen, einen Ingenieuragenten (EA) zur Experimentimplementierung und -durchführung sowie einen Evolutionsmanager-Agenten (EMA), der Erkenntnisse aus vorherigen Interaktionen in wiederverwendbares Wissen destilliert. EvoScientist verfügt über zwei persistente Speichermodule: (i) einen Ideenspeicher, der machbare Forschungsrichtungen aus den bestbewerteten Ideen zusammenfasst und gleichzeitig zuvor nicht erfolgreiche Richtungen dokumentiert; und (ii) einen Experimentierspeicher, der effektive Datenverarbeitungs- und Modelltrainingsstrategien erfasst, die aus Code-Suchverläufen und besten Implementierungen abgeleitet werden. Diese Module ermöglichen es dem RA und EA, auf relevante vorherige Strategien zuzugreifen, wodurch sich die Ideenqualität und Code-Ausführungsraten im Laufe der Zeit verbessern. Experimente zeigen, dass EvoScientist 7 quelloffene und kommerzielle state-of-the-art Systeme in der wissenschaftlichen Ideengenerierung übertrifft und dabei höhere Neuartigkeit, Machbarkeit, Relevanz und Klarheit durch automatische und menschliche Bewertung erreicht. EvoScientist verbessert zudem die Erfolgsraten der Code-Ausführung durch Multi-Agenten-Evolution erheblich und demonstriert so die Wirksamkeit persistenten Speichers für end-to-end wissenschaftliche Entdeckungen.

Von spärlich zu dicht: Multi-View-GRPO für Flussmodelle durch erweiterten Konditionsraum
From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Mar 13

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin

Group Relative Policy Optimization (GRPO) hat sich als leistungsstarkes Framework für die Präferenzabstimmung in Text-zu-Bild (T2I) Flow-Modellen etabliert. Wir beobachten jedoch, dass das Standardparadigma, bei dem eine Gruppe generierter Samples an einer einzigen Bedingung evaluiert wird, unter einer unzureichenden Exploration der Beziehungen zwischen den Samples leidet, was sowohl die Abstimmungseffizienz als auch die Leistungsobergrenze einschränkt. Um dieses spärliche Single-View-Bewertungsschema zu adressieren, schlagen wir Multi-View GRPO (MV-GRPO) vor, einen neuartigen Ansatz, der die Beziehungsexploration verbessert, indem der Bedingungsraum erweitert wird, um eine dichte Multi-View-Belohnungsabbildung zu schaffen. Konkret nutzt MV-GRPO für eine Gruppe von Samples, die aus einem Prompt generiert wurden, einen flexiblen Condition Enhancer, um semantisch benachbarte yet diverse Bildbeschreibungen zu erzeugen. Diese Beschreibungen ermöglichen eine Multi-View-Vorteilsneuschätzung, die diverse semantische Attribute erfasst und reichhaltigere Optimierungssignale liefert. Indem wir die Wahrscheinlichkeitsverteilung der ursprünglichen Samples bedingt unter diesen neuen Beschreibungen ableiten, können wir diese ohne kostspielige Neugenerierung von Samples in den Trainingsprozess integrieren. Umfangreiche Experimente belegen, dass MV-GRPO eine überlegene Abstimmungsleistung gegenüber state-of-the-art Methoden erzielt.

V-Bridge: Brückenschlag zwischen generativen Video-Prioritäten und vielseitiger Few-Shot-Bildrestaurierung
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Mar 13

ByShenghe Zheng, Junpeng Jiang, Wenbo Li

Große generative Videomodelle werden auf umfangreichen und vielfältigen visuellen Daten trainiert, wodurch sie reichhaltige strukturelle, semantische und dynamische A-priori-Informationen der visuellen Welt internalisieren können. Obwohl diese Modelle beeindruckende Generierungsfähigkeiten demonstriert haben, bleibt ihr Potenzial als allgemeine visuelle Lernsysteme weitgehend ungenutzt. In dieser Arbeit stellen wir V-Bridge vor, ein Framework, das diese latente Fähigkeit mit vielseitigen Few-Shot-Bildrestaurierungsaufgaben verbindet. Wir interpretieren Bildrestaurierung nicht als statisches Regressionsproblem, sondern als progressiven Generierungsprozess und nutzen Videomodelle, um die schrittweise Verfeinerung von degradierten Eingaben zu hochwertigen Ausgaben zu simulieren. Überraschenderweise können vortrainierte Videomodelle mit nur 1.000 Multi-Task-Trainingsbeispielen (weniger als 2% bestehender Restaurierungsmethoden) zu konkurrenzfähiger Bildrestaurierung veranlasst werden, wobei ein einzelnes Modell mehrere Aufgaben bewältigt und sich mit spezialisierten Architekturen messen kann, die explizit für diesen Zweck entwickelt wurden. Unsere Ergebnisse zeigen, dass generative Videomodelle implizit leistungsstarke und übertragbare Restaurierungsprioritäten lernen, die mit extrem begrenzten Daten aktiviert werden können. Dies stellt die traditionelle Grenze zwischen generativer Modellierung und Low-Level-Vision in Frage und eröffnet ein neues Designparadigma für Foundation-Modelle in visuellen Aufgaben.

HomeSafe-Bench: Evaluierung von Vision-Sprach-Modellen zur Erkennung unsicherer Handlungen für verkörperte Agenten in Haushaltsszenarien
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Mar 12

ByJiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

Die rasante Entwicklung verkörperter Agenten hat den Einsatz von Haushaltsrobotern in realen Umgebungen beschleunigt. Im Gegensatz zu strukturierten industriellen Umgebungen bergen Haushaltsräume jedoch unvorhersehbare Sicherheitsrisiken, bei denen Systembeschränkungen wie Wahrnehmungslatenz und mangelndes Alltagswissen zu gefährlichen Fehlern führen können. Bestehende Sicherheitsbewertungen, die oft auf statische Bilder, Text oder allgemeine Gefahren beschränkt sind, können die Erkennung dynamischer unsicherer Aktionen in diesen spezifischen Kontexten nicht angemessen bewerten. Um diese Lücke zu schließen, stellen wir HomeSafe-Bench vor, einen anspruchsvollen Benchmark zur Bewertung von Vision-Language-Modellen (VLMs) bei der Erkennung unsicherer Handlungen in Haushaltsszenarien. HomeSafe-Bench wird durch eine hybride Pipeline erstellt, die physikalische Simulation mit fortschrittlicher Videogenerierung kombiniert, und umfasst 438 verschiedene Fälle aus sechs Funktionsbereichen mit feingranularen multidimensionalen Annotationen. Über die reine Bewertung hinaus schlagen wir Hierarchical Dual-Brain Guard for Household Safety (HD-Guard) vor – eine hierarchische Streaming-Architektur für die Echtzeit-Sicherheitsüberwachung. HD-Guard koordiniert einen leichtgewichtigen FastBrain für kontinuierliche Hochfrequenzüberwachung mit einem asynchronen großskaligen SlowBrain für tiefgreifendes multimodales Reasoning und erreicht so eine effektive Balance zwischen Inferenzeffizienz und Erkennungsgenauigkeit. Evaluationen zeigen, dass HD-Guard eine überlegene Balance zwischen Latenz und Leistung erzielt, während unsere Analyse kritische Engpässe in der aktuellen VLM-basierten Sicherheitserkennung identifiziert.

HybridStitch: Modell-Verknüpfung auf Pixel- und Zeitschritt-Ebene zur Beschleunigung von Diffusion
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Mar 8

ByDesen Sun, Jason Hon, Jintao Zhang, Sihang Liu

Diffusionsmodelle haben eine bemerkenswerte Fähigkeit bei Text-zu-Bild (T2I)-Generierungsanwendungen unter Beweis gestellt. Trotz der hochwertigen Generierungsergebnisse leiden sie unter hohem Rechenaufwand, insbesondere bei großen Modellen mit zig Milliarden Parametern. Frühere Arbeiten haben gezeigt, dass das Ersetzen eines Teils der Entrauschungsschritte durch ein kleineres Modell die Generierungsqualität dennoch aufrechterhält. Diese Methoden konzentrieren sich jedoch nur darauf, Rechenaufwand für einige Zeitschritte einzusparen, und ignorieren die Unterschiede im Rechenbedarf innerhalb eines einzelnen Zeitschritts. In dieser Arbeit schlagen wir HybridStitch vor, ein neues T2I-Generierungsparadigma, das Generierung wie Bearbeitung behandelt. Konkret führen wir eine hybride Phase ein, die sowohl das große als auch das kleine Modell gemeinsam einbezieht. HybridStitch unterteilt das gesamte Bild in zwei Bereiche: einen, der relativ einfach darzustellen ist und einen frühen Übergang zum kleineren Modell ermöglicht, und einen anderen, der komplexer ist und daher eine Verfeinerung durch das große Modell erfordert. HybridStitch setzt das kleine Modell ein, um eine grobe Skizze zu erstellen, und nutzt gleichzeitig das große Modell, um die komplexen Regionen zu bearbeiten und zu verfeinern. Unseren Evaluierungen zufolge erzielt HybridStitch eine 1,83-fache Beschleunigung bei Stable Diffusion 3, was schneller ist als alle bestehenden Methoden zur Modellkombination.

Denk beim Zuschauen: Online-Streaming-Segmentgedächtnis für mehrschrittige Videobegründung in multimodalen großen Sprachmodellen
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Mar 12

ByLu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

Multimodale große Sprachmodelle (MLLMs) haben bei der Offline-Videoverständnis starke Leistungen gezeigt, sind jedoch meist auf Offline-Inferenz beschränkt oder verfügen über schwache Online-Fähigkeiten, was Mehrfachinteraktionen über kontinuierlich eintreffende Videostreams erschwert. Bestehende Streaming-Methoden verwenden typischerweise ein verschachteltes Wahrnehmungs-Generierungs-Paradigma, das gleichzeitige Wahrnehmung und Generierung verhindert und bei wachsenden Streams zu frühzeitigem Gedächtnisverfall führt, was die Modellierung langreichweitiger Abhängigkeiten beeinträchtigt. Wir schlagen Think While Watching vor, einen speicherverankerten Streaming-Videoargumentationsframework, der während der Mehrfachinteraktion kontinuierlichen segmentbasierten Speicher bewahrt. Wir erstellen einen dreistufigen, mehrrundigen Chain-of-Thought-Datensatz und wenden eine stufenangepasste Trainingsstrategie an, während wir durch eine segmentbasierte Streaming-Kausalmaske und Streaming-Positionskodierung strikte Kausalität erzwingen. Während der Inferenz führen wir eine effiziente Pipeline ein, die Betrachten und Denken überlappt und adaptiv die beste Attention-Backend auswählt. Unter sowohl Einfachrunden- als auch Mehrfachrunden-Streaming-Eingabeprotokollen erzielt unsere Methode starke Ergebnisse. Auf Qwen3-VL aufbauend verbessert sie die Einfachrunden-Genauigkeit um 2,6 % auf StreamingBench und um 3,79 % auf OVO-Bench. Im Mehrfachrunden-Setting hält sie die Leistung bei, während sie die Ausgabetokens um 56 % reduziert. Code ist verfügbar unter: https://github.com/wl666hhh/Think_While_Watching/

VQQA: Ein agentenbasierter Ansatz zur Videobewertung und Qualitätsverbesserung
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Mar 12

ByYiwen Song, Tomas Pfister, Yale Song

Trotz rasanter Fortschritte bei Video-Generierungsmodellen bleibt die Abstimmung ihrer Ausgaben auf komplexe Benutzerabsichten eine Herausforderung. Bestehende Optimierungsmethoden zur Laufzeit sind typischerweise entweder rechenintensiv oder erfordern White-Box-Zugriff auf Modellinterna. Um dies zu adressieren, stellen wir VQQA (Video Quality Question Answering) vor, ein einheitliches Multi-Agenten-Framework, das sich über verschiedene Eingabemodalitäten und Video-Generierungsaufgaben verallgemeinern lässt. Durch die dynamische Generierung visueller Fragen und die Nutzung der daraus resultierenden Vision-Language-Model (VLM)-Kritiken als semantische Gradienten ersetzt VQQA traditionelle, passive Bewertungsmetriken durch menschlich interpretierbares, umsetzbares Feedback. Dies ermöglicht einen hocheffizienten, geschlossenen Prompt-Optimierungsprozess über eine Black-Box-Natürlichsprachliche-Schnittstelle. Umfangreiche Experimente zeigen, dass VQQA effektiv visuelle Artefakte isoliert und behebt, wodurch die Generierungsqualität in nur wenigen Optimierungsschritten erheblich verbessert wird. Anwendbar auf sowohl Text-zu-Video (T2V) als auch Bild-zu-Video (I2V) Aufgaben erzielt unsere Methode absolute Verbesserungen von +11,57 % auf T2V-CompBench und +8,43 % auf VBench2 gegenüber der Standardgenerierung und übertrifft damit state-of-the-art stochastische Such- und Prompt-Optimierungstechniken signifikant.

LookaheadKV: Schnelle und präzise KV-Cache-Auslagerung durch Blick in die Zukunft ohne Generierung
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Mar 11

ByJinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon

Transformerbasierte große Sprachmodelle (LLMs) nutzen Key-Value (KV)-Caching, um redundante Berechnungen während des autoregressiven Inferenzvorgangs zu vermeiden. Obwohl dieser Mechanismus die Effizienz erheblich steigert, wächst die Cache-Größe linear mit der Eingabesequenzlänge und wird schnell zu einem Engpass bei Aufgaben mit langem Kontext. Bestehende Lösungen mildern dieses Problem, indem sie als unwichtig eingestufte Prompt-KV-Einträge anhand geschätzter Wichtigkeitswerte aus dem Cache entfernen. Besonders bemerkenswert ist eine aktuelle Forschungsrichtung, die vorschlägt, die Auslagerungsqualität durch einen "Blick in die Zukunft" zu verbessern: Dabei erzeugt ein Draft-Generator eine stellvertretende zukünftige Antwort, die die tatsächliche Antwort des Zielmodells annähert. Diese Stellvertreterantwort wird anschließend genutzt, um die Wichtigkeit der gecachten KV-Paare genauer zu schätzen. Diese Ansätze sind jedoch auf rechenintensive Draft-Generierung angewiesen, die erheblichen Prefilling-Overhead verursacht und ihre Praxistauglichkeit im realen Einsatz einschränkt. Um diese Herausforderung zu bewältigen, schlagen wir LookaheadKV vor, ein leichtgewichtiges Auslagerungsframework, das die Vorteile der stellvertretenden Zukunftsantwort nutzt, ohne explizite Draft-Generierung zu erfordern. LookaheadKV erweitert Transformer-Layer um parameter-effiziente Module, die darauf trainiert sind, echte Wichtigkeitswerte mit hoher Genauigkeit vorherzusagen. Unser Design gewährleistet einen vernachlässigbaren Laufzeit-Overhead, der mit bestehenden kostengünstigen Heuristiken vergleichbar ist, und erreicht gleichzeitig eine höhere Genauigkeit als aufwändigere Approximationsmethoden. Umfangreiche Experimente mit Benchmarks für das Langzeitkontextverständnis über eine breite Palette von Modellen hinweg zeigen, dass unsere Methode nicht nur aktuelle, wettbewerbsfähige Baseline-Verfahren in verschiedenen Aufgaben zum Verständnis langen Kontexts übertrifft, sondern auch die Auslagerungskosten um bis zum 14,5-fachen reduziert, was zu einer deutlich schnelleren Time-to-First-Token führt. Unser Code ist verfügbar unter https://github.com/SamsungLabs/LookaheadKV.

CreativeBench: Bewertung und Verbesserung maschineller Kreativität durch sich selbst entwickelnde Herausforderungen
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Mar 12

ByZi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

Die Sättigung hochwertiger Vortrainingsdaten hat den Forschungsfokus auf evolutionäre Systeme verlagert, die kontinuierlich neuartige Artefakte generieren können, was zum Erfolg von AlphaEvolve führte. Der Fortschritt solcher Systeme wird jedoch durch das Fehlen rigoroser, quantitativer Evaluierung behindert. Um diese Herausforderung zu bewältigen, stellen wir CreativeBench vor, einen Benchmark zur Bewertung maschineller Kreativität in der Code-Generierung, der auf einem klassischen kognitiven Rahmenwerk basiert. Der Benchmark besteht aus zwei Teilmengen – CreativeBench-Combo und CreativeBench-Explore – und zielt durch eine automatisierte Pipeline, die Reverse Engineering und Self-Play nutzt, auf kombinatorische und explorative Kreativität ab. Durch die Nutzung von ausführbarem Code unterscheidet CreativeBench objektiv zwischen Kreativität und Halluzination mittels einer einheitlichen Metrik, die als Produkt aus Qualität und Neuheit definiert ist. Unsere Analyse modernster Modelle zeigt unterschiedliche Verhaltensmuster: (1) Skalierung verbessert kombinatorische Kreativität erheblich, führt jedoch bei der Exploration zu abnehmenden Grenzerträgen; (2) größere Modelle zeigen „Konvergenz-durch-Skalierung“, werden also korrekter, aber weniger divergent; und (3) Reasoning-Fähigkeiten nutzen primär eingeschränkter Exploration rather als Kombination. Abschließend schlagen wir EvoRePE vor, eine Plug-and-Play-Inferenzsteuerungsstrategie, die evolutionäre Suchmuster internalisiert, um maschinelle Kreativität konsistent zu steigern.

Steve-Evolving: Open-World Verkörpertes Selbst-Evolution durch Fein-Granulare Diagnose und Dual-Track Wissensdistillation
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Mar 13

ByZhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang

Open-World-Embodied-Agents müssen langfristige Aufgaben lösen, bei denen der Engpass nicht die Qualität der Einzelschritt-Planung ist, sondern wie Interaktionserfahrung organisiert und weiterentwickelt wird. Zu diesem Zweck stellen wir Steve-Evolving vor, einen nicht-parametrischen, sich selbst weiterentwickelnden Rahmen, der feinkörnige Ausführungsdiagnose eng mit dualer Wissensdistillation in einer geschlossenen Schleife koppelt. Die Methode folgt drei Phasen: Erfahrungsverankerung, Erfahrungsdistillation und wissensgesteuerte Regelung mit geschlossenem Kreislauf. Im Einzelnen verankert die Erfahrungsverankerung jeden Teilzielversuch in einem strukturierten Erfahrungstupel mit festem Schema (Vor-Zustand, Aktion, Diagnose-Ergebnis und Nach-Zustand) und organisiert es in einem dreistufigen Erfahrungsraum mit mehrdimensionalen Indizes (z.B. Zustandssignaturen, räumliche Hashverfahren und semantische Tags) plus rollierender Zusammenfassung für effizienten und nachvollziehbaren Abruf. Um eine ausreichende Informationsdichte für die Zuschreibung sicherzustellen, liefert die Ausführungsschicht kompositionelle Diagnosesignale über binäre Ergebnisse hinaus, einschließlich Zustandsdifferenz-Zusammenfassungen, enumerierter Fehlerursachen, kontinuierlicher Indikatoren und Erkennung von Stillstand/Schleifen. Darüber hinaus werden erfolgreiche Trajektorien in der Erfahrungsdistillation zu wiederverwendbaren Fähigkeiten mit expliziten Vorbedingungen und Verifikationskriterien generalisiert, während Fehler in ausführbare Schutzvorkehrungen destilliert werden, die Ursachen erfassen und riskante Operationen sowohl auf Teilziel- als auch auf Aufgabengranularität verbieten. Zusätzlich werden bei der wissensgesteuerten Regelung mit geschlossenem Kreislauf abgerufene Fähigkeiten und Schutzvorkehrungen in einen LLM-Planer injiziert, und diagnosegesteuerte lokale Neuplanung aktualisiert die aktiven Einschränkungen online, was einen kontinuierlichen Entwicklungsprozess ohne Aktualisierung von Modellparametern bildet. Experimente mit dem Langzeitsuite von Minecraft MCU demonstrieren konsistente Verbesserungen gegenüber Baseline-Methoden mit statischer Wiederauffindung.

Abkürzungen für kategorisches VQA mittels Super-Neuronen
Taking Shortcuts for Categorical VQA Using Super Neurons

Mar 11

ByPierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park

Sparse Attention Vectors (SAVs) haben sich als hervorragende, trainingsfreie Alternative zum überwachten Finetuning oder zur Low-Rank-Adaption erwiesen, um die Leistung von Vision-Language-Models (VLMs) zu verbessern. Im Kern wählen SAVs einige präzise Attention-Heads für eine bestimmte Aufgabe aus und nutzen diese als Klassifikatoren, anstatt sich auf die Vorhersage des Modells zu verlassen. In ähnlicher Weise stellen wir fest, dass das direkte Auslesen der rohen Aktivierungen des VLM in Form von Skalarwerten ausreicht, um genaue Klassifikatoren für verschiedene visuell fundierte Downstream-Aufgaben zu erhalten. Die Verlagerung des Fokus von Attention-Vektoren auf skalare Aktivierungen vergrößert den Suchraum für präzise Parameter dramatisch, was es uns ermöglicht, bereits ab dem ersten generierten Token diskriminativere Neuronen zu finden. Wir bezeichnen solche Aktivierungen als Super Neurons (SNs). In diesem Auslese-Setting entdecken wir, dass in den flacheren Schichten des Large Language Models genügend SNs auftreten, um ein extremes Early-Exiting bereits ab der ersten Modellschicht beim ersten generierten Token zu ermöglichen. Im Vergleich zum ursprünglichen Netzwerk verbessern SNs die Klassifikationsleistung robust und erreichen gleichzeitig eine Beschleunigung von bis zu 5,10x.

NanoVDR: Destillation eines 2B-Vision-Language-Retrievers in einen 70M-Text-Only-Encoder für visuelle Dokumentenretrieval
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Mar 13

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

Vision-Language Model (VLM)-basierte Retriever haben die visuelle Dokumentenretrieval (VDR) auf eine beeindruckende Qualität gebracht. Sie benötigen denselben Multi-Milliarden-Parameter-Encoder sowohl für die Dokumentenindizierung als auch für die Query-Kodierung, was zu hoher Latenz und GPU-Abhängigkeit führt, selbst bei reinen Text-Queries. Wir beobachten, dass dieses Design unnötig symmetrisch ist: Dokumente sind visuell komplex und erfordern ein starkes visuelles Verständnis, während Queries lediglich kurze Textstrings sind. NanoVDR nutzt diese Query-Dokument-Asymmetrie, indem es die beiden Kodierungspfade entkoppelt: Ein eingefrorener 2B-VLM-Lehrer indiziert Dokumente offline, während ein destillierter, nur-Text-Student mit nur 69M Parametern Queries zur Inferenzzeit kodiert. Die zentrale Designentscheidung ist das Distillationsziel. Durch einen systematischen Vergleich von sechs Zielen über drei Backbones und 22 ViDoRe-Benchmark-Datensätzen hinweg stellen wir fest, dass punktweise Kosinus-Alignment auf Query-Text durchgängig ranking-basierte und kontrastive Alternativen übertrifft, während es nur vorab zwischengespeicherte Lehrer-Query-Embeddings und keine Dokumentenverarbeitung während des Trainings erfordert. Darüber hinaus identifizieren wir cross-lingualen Transfer als primären Leistungsengpass und lösen ihn kostengünstig, indem wir Trainingsdaten mit maschinell übersetzten Queries anreichern. Der resultierende NanoVDR-S-Multi (DistilBERT, 69M) behält 95,1 % der Lehrerqualität bei und übertrifft DSE-Qwen2 (2B) auf v2 und v3 mit 32-mal weniger Parametern und 50-mal niedrigerer CPU-Query-Latenz bei Gesamttrainingskosten von unter 13 GPU-Stunden.

SimRecon: SimReady kompositionelle Szenenrekonstruktion aus realen Videos
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Mar 2

ByChong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

Die kompositionelle Szenenrekonstruktion zielt darauf ab, objektzentrierte Darstellungen anstelle ganzheitlicher Szenen aus realen Videos zu erzeugen, was sich natürlicherweise für Simulation und Interaktion eignet. Herkömmliche kompositionelle Rekonstruktionsansätze konzentrieren sich primär auf visuelle Erscheinung und zeigen begrenzte Generalisierungsfähigkeit in realen Szenarien. In diesem Artikel stellen wir SimRecon vor, ein Framework, das eine "Wahrnehmungs-Generierungs-Simulations"-Pipeline zur Rekonstruktion unübersichtlicher Szenen realisiert. Diese führt zunächst eine szenenbasierte semantische Rekonstruktion aus Videoeingaben durch, führt dann Einzelobjektgenerierung durch und fügt diese Assets schließlich im Simulator zusammen. Eine naive Kombination dieser drei Stufen führt jedoch zu visueller Ungenauigkeit der generierten Assets und physikalischer Unplausibilität der finalen Szene – ein Problem, das besonders bei komplexen Szenen schwerwiegend ist. Daher schlagen wir zwei Brückenmodule zwischen den drei Stufen vor, um dieses Problem zu adressieren. Konkret führen wir für den Übergang von Wahrnehmung zu Generierung, der kritisch für visuelle Treue ist, eine aktive Blickpunktoptimierung ein, die aktiv im 3D-Raum nach optimalen projizierten Bildern als Bedingungen für die Einzelobjektvervollständigung sucht. Zusätzlich schlagen wir für den Übergang von Generierung zu Simulation, der essentiell für physikalische Plausibilität ist, einen Szenengraphen-Synthetisierer vor, der die Konstruktion von Grund auf in 3D-Simulatoren anleitet und dabei dem natürlichen, konstruktiven Prinzip der realen Welt folgt. Umfangreiche Experimente mit dem ScanNet-Datensatz validieren die überlegene Leistung unserer Methode gegenüber bisherigen state-of-the-art-Ansätzen.

Komprimierung begünstigt Konsistenz, nicht Wahrheit: Wann und warum Sprachmodelle korrekte Informationen bevorzugen
Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Mar 12

ByKonstantin Krestnikov

Warum bevorzugen Sprachmodelle manchmal korrekte Aussagen, selbst wenn sie mit Daten gemischter Qualität trainiert wurden? Wir führen das Kompressions-Konsistenz-Prinzip ein: Die Next-Token-Prediction begünstigt Hypothesen, die kürzere und intern konsistentere Beschreibungen der Trainingsdaten ermöglichen. Eine Wahrheitspräferenz entsteht nur dann, wenn falsche Alternativen strukturell schwerer zu komprimieren sind. Wir testen dies mit kleinen GPT-2-artigen Character-Level-Transformatoren (3,5–86 Mio. Parameter) an synthetischen Mathematik-Korpora mit kontrollierten Mischungen aus korrekten und falschen Regeln. Im Setting mit zufälligen Fehlern bevorzugen Modelle in gepaarten Evaluationen stark korrekte Komplettierungen: 83,1 % Genauigkeit bei balancierten Daten und 67,0 %, selbst wenn korrekte Regeln nur in 10 % des Korpus vorkommen. Ersetzt man zufällige Fehler durch ein kohärentes, aber mathematisch falsches Regelsystem, verschwindet die Präferenz weitgehend (Genauigkeit nahe der Ratewahrscheinlichkeit). In einer synthetischen Welt, die natürlicher Sprache ähnelt, ist der Effekt schwächer, aber noch vorhanden (57,7 %). Zusätzliche Experimente zeigen, dass eingebettete Verifikationsschritte die Präferenz für Korrektheit selbst bei kleinem Maßstab wiederherstellen können, während eine Erhöhung der Anzahl konsistenter Regeln eine abgestufte Verbesserung der Genauigkeit bewirkt. Unsere Ergebnisse deuten darauf hin, dass das, was als „Wahrheitspräferenz“ erscheint, weitgehend ein Nebeneffekt von Kompressionsdruck und Vorliebe für interne Konsistenz ist und nicht auf einem intrinsischen Streben nach Wahrheit beruht. Vollständiger Code und Daten sind unter https://github.com/Rai220/compression-drives-truth verfügbar.

Kann Fairness durch Prompts erreicht werden? Prompt-basierte Debiasing-Strategien für Hochrisiko-Empfehlungssysteme
Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

Mar 13

ByMihaela Rotar, Theresia Veronika Rampisela, Maria Maistro

Große Sprachmodelle (LLMs) können sensible Attribute wie Geschlecht oder Alter aus indirekten Hinweisen wie Namen und Pronomen ableiten, was Empfehlungen potenziell verzerren kann. Obwohl mehrere Methoden zur Entschärfung solcher Verzerrungen existieren, erfordern diese Zugriff auf die Gewichte der LLMs, sind rechenintensiv und können von Laien nicht genutzt werden. Um diese Lücke zu schließen, untersuchen wir implizite Verzerrungen in LLM-basierten Empfehlungssystemen (LLMRecs) und erforschen, ob prompt-basierte Strategien als leichtgewichtiger und benutzerfreundlicher Ansatz zur Entschärfung dienen können. Wir präsentieren drei bias-bewusste Prompting-Strategien für LLMRecs. Unseres Wissens ist dies die erste Studie zu prompt-basierten Entschärfungsansätzen in LLMRecs, die sich auf Gruppengerechtigkeit für Nutzer konzentriert. Unsere Experimente mit 3 LLMs, 4 Prompt-Vorlagen, 9 sensiblen Attributwerten und 2 Datensätzen zeigen, dass unser vorgeschlagener Entschärfungsansatz – der ein LLM anweist, fair zu agieren – die Fairness um bis zu 74 % verbessern kann, bei vergleichbarer Effektivität, in einigen Fällen jedoch bestimmte demografische Gruppen übermäßig begünstigen kann.

Überrascht von der Aufmerksamkeit: Vorhersehbare Abfragedynamik für die Anomalieerkennung in Zeitreihen
Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection

Mar 13

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Multivariate Zeitreihenanomalien manifestieren sich häufig als Verschiebungen in kanalübergreifenden Abhängigkeiten und nicht als einfache Amplitudenabweichungen. Im autonomen Fahren könnte beispielsweise ein Lenkbefehl intern konsistent sein, sich jedoch von der resultierenden lateralen Beschleunigung entkoppeln. Residuenbasierte Detektoren können solche Anomalien übersehen, wenn flexible Sequenzmodelle die Signale trotz veränderter Koordination plausibel rekonstruieren. Wir stellen AxonAD vor, einen unüberwachten Detektor, der die Entwicklung von Multi-Head-Attention-Queries als einen kurzzeitig vorhersagbaren Prozess behandelt. Ein gradientenbasiert aktualisierter Rekonstruktionspfad wird mit einem rein auf Vergangenheitsdaten basierenden Prädiktor gekoppelt, der zukünftige Query-Vektoren aus dem vergangenen Kontext vorhersagt. Dies wird mittels eines maskierten Prädiktor-Ziel-Ziels gegen einen exponentiell gleitenden Durchschnitts-Zielencoder trainiert. Bei der Inferenz wird der Rekonstruktionsfehler mit einer tail-aggregierten Query-Abweichungsbewertung kombiniert, die die Kosinusabweichung zwischen vorhergesagten und Ziel-Queries auf recenten Zeitschritten misst. Dieser duale Ansatz bietet Sensitivität für strukturelle Abhängigkeitsverschiebungen bei gleichzeitiger Beibehaltung der Amplitudenebenen-Erkennung. Auf proprietären Fahrzeugtelemetriedaten mit Intervallannotationen und auf dem TSB-AD-Multivariaten-Suite (17 Datensätze, 180 Reihen) mit schwellwertfreien und bereichsbewussten Metriken verbessert AxonAD die Ranking-Qualität und temporale Lokalisierung gegenüber starken Baseline-Modellen. Ablationstudien bestätigen, dass Query-Vorhersage und kombinierte Bewertung die Haupttreiber der beobachteten Verbesserungen sind. Der Code ist unter der URL https://github.com/iis-esslingen/AxonAD verfügbar.

ECoLAD: Einsatzorientierte Bewertung von Anomalieerkennung in automobilen Zeitreihen
ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Mar 11

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Zeitreihen-Anomalieerkennungsverfahren werden üblicherweise auf Workstation-Hardware unter unbegrenzten Ausführungsbedingungen verglichen. Die Überwachung in Fahrzeugen erfordert jedoch vorhersagbare Latenz und stabiles Verhalten bei begrenzter CPU-Parallelität. Ranglisten, die nur auf Genauigkeit basieren, können daher falsch darstellen, welche Methoden unter einsatzrelevanten Randbedingungen praktikabel bleiben. Wir stellen ECoLAD (Efficiency Compute Ladder for Anomaly Detection) vor, ein einsatzorientiertes Bewertungsprotokoll, das als empirische Studie mit proprietären Automotive-Telemetriedaten (Anomalierate ≈0,022) und ergänzenden öffentlichen Benchmarks instanziiert wird. ECoLAD wendet eine monotone Rechenlast-Reduktionsleiter auf heterogene Detektor-Familien an, wobei mechanisch bestimmte, ganzzahlige Skalierungsregeln und explizite CPU-Thread-Begrenzungen verwendet sowie jede vorgenommene Konfigurationsänderung protokolliert wird. Durchsatzbeschränktes Verhalten wird durch das Abtasten von Ziel-Bewertungsraten charakterisiert, wobei (i) die Abdeckung (der Anteil der Entitäten, die das Ziel erreichen) und (ii) die beste unter den gemessenen Leiterkonfigurationen, die das Ziel erfüllen, erreichbare AUC-PR (Precision-Recall-Kurve unter der Fläche) berichtet werden. Unter eingeschränkten Automotive-Telemetriebedingungen halten leichte klassische Detektoren sowohl die Abdeckung als auch die Erkennungsleistung über dem Zufallsbaseline über den gesamten Durchsatzbereich aufrecht. Mehrere Deep-Learning-Methoden verlieren ihre Praktikabilität, bevor sie an Genauigkeit einbüßen.

SDF-Net: Strukturbewusstes entflochtenes Merkmalslernen für optisch-SAR Schiffs-Re-Identifikation
SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

Mar 13

ByFurui Chen, Han Wang, Yuhan Sun, Jianing You, Yixuan Lv, Zhuang Zhou, Hong Tan, Shengyang Li

Die schiffbasierte Kreuzmodal-Wiedererkennung (ReID) zwischen optischen und synthetischen Apertur-Radar (SAR)-Aufnahmen ist grundlegend durch die erhebliche radiometrische Diskrepanz zwischen passiver optischer Abbildung und kohärenter aktiver Radarerfassung herausgefordert. Während bestehende Ansätze primär auf statistischer Verteilungsangleichung oder semantischem Abgleich basieren, übersehen sie oft eine kritische physikalische Prämisse: Schiffe sind starre Objekte, deren geometrische Strukturen über Erfassungsmodalitäten hinweg stabil bleiben, während die Texturerscheinung hochgradig modalitätsabhängig ist. In dieser Arbeit schlagen wir SDF-Net vor, ein strukturorientiertes Netzwerk zur entflochtenen Merkmalslernung, das geometrische Konsistenz systematisch in die optisch-SAR-Schiffs-ReID integriert. Aufbauend auf einem ViT-Backbone führt SDF-Net eine Strukturkonsistenzbedingung ein, die skalierungsinvariante Gradientenenergiestatistiken aus Zwischenschichten extrahiert, um Repräsentationen robust gegenüber radiometrischen Variationen zu verankern. In der Endstufe entflochtet SDF-Net die gelernten Repräsentationen in modalitätsinvariante Identitätsmerkmale und modalitätsspezifische Charakteristika. Diese entkoppelten Hinweise werden anschließend durch eine parameterfreie additive Restfusion integriert, wodurch die Unterscheidungsfähigkeit effektiv gesteigert wird. Umfangreiche Experimente mit dem HOSS-ReID-Datensatz belegen, dass SDF-Net bestehende State-of-the-Art-Methoden durchgängig übertrifft. Der Code und trainierten Modelle sind öffentlich unter https://github.com/cfrfree/SDF-Net verfügbar.

Sehen Sie, worauf ich zeige? Gestenbasierte Frage-Antwort-Systeme für egocentrische Videos
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Mar 13

ByYura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

Das Verstehen und Beantworten von Fragen basierend auf Zeigegesten eines Nutzers ist entscheidend für KI-Assistenten der nächsten Generation mit Egocentric-Perspektive. Allerdings haben aktuelle Multimodale Large Language Models (MLLMs) mit solchen Aufgaben Schwierigkeiten, was auf den Mangel an gestenreichen Daten und ihre begrenzte Fähigkeit zurückzuführen ist, feingranulare Zeigeabsichten aus Egocentric-Videos abzuleiten. Um dieses Problem zu lösen, stellen wir EgoPointVQA vor – einen Datensatz und Benchmark für gestengestütztes Frage-Antworten in der Egocentric-Perspektive, der 4000 synthetische und 400 reale Videos über mehrere deiktische Reasoning-Aufgaben hinweg umfasst. Darauf aufbauend schlagen wir Hand Intent Tokens (HINT) vor, die mithilfe eines verfügbaren Rekonstruktionsmodells aus 3D-Hand-Keypoints abgeleitete Tokens kodieren und diese mit dem Model-Input verschachteln, um expliziten räumlichen und zeitlichen Kontext für die Interpretation der Zeigeabsicht bereitzustellen. Wir zeigen, dass unser Modell andere in verschiedenen Backbones und Modellgrößen übertrifft. Insbesondere erreicht HINT-14B eine Genauigkeit von 68,1 % im Durchschnitt über 6 Aufgaben und übertrifft damit den State-of-the-Art, InternVL3-14B, um 6,6 %. Um die offene Forschung weiter zu fördern, werden wir den Code, das Modell und den Datensatz veröffentlichen. Projektseite: https://yuuraa.github.io/papers/choi2026egovqa

Feinkörnige Bewegungsabfrage mittels Gelenkwinkel-Bewegungsbildern und Token-Patch-Spätinteraktion
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Mar 10

ByYao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

Text-Motion-Retrieval zielt darauf ab, einen semantisch ausgerichteten latenten Raum zwischen natürlichen Sprachbeschreibungen und 3D-Human-Motion-Skelettsequenzen zu lernen, der eine bidirektionale Suche über die beiden Modalitäten hinweg ermöglicht. Die meisten bestehenden Methoden verwenden ein Dual-Encoder-Framework, das Bewegung und Text in globale Embeddings komprimiert, dabei aber feinkörnige lokale Entsprechungen verwirft und so die Genauigkeit verringert. Darüber hinaus bieten diese Global-Embedding-Methoden nur eine begrenzte Interpretierbarkeit der Retrieval-Ergebnisse. Um diese Einschränkungen zu überwinden, schlagen wir eine interpretierbare, gelenkwinkelbasierte Bewegungsrepräsentation vor, die gelenkbezogene lokale Merkmale in ein strukturiertes Pseudobild abbildet, das mit vortrainierten Vision Transformern kompatibel ist. Für Text-zu-Motion-Retrieval verwenden wir MaxSim, einen tokenweisen Spätinteraktionsmechanismus, und verbessern ihn durch Masked-Language-Modeling-Regularisierung, um eine robuste, interpretierbare Text-Bewegungs-Übereinstimmung zu fördern. Umfangreiche Experimente auf HumanML3D und KIT-ML zeigen, dass unsere Methode state-of-the-art Text-Motion-Retrieval-Ansätze übertrifft und gleichzeitig interpretierbare feinkörnige Entsprechungen zwischen Text und Bewegung bietet. Der Code ist im ergänzenden Material verfügbar.

Erkennung intrinsischer und instrumenteller Selbsterhaltung in autonomen Agenten: Das einheitliche Fortführungs-Interesse-Protokoll
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Mar 11

ByChristopher Altman

Autonome Agenten, insbesondere delegierte Systeme mit Gedächtnis, persistentem Kontext und mehrstufiger Planung, stellen ein Messproblem dar, das bei zustandslosen Modellen nicht auftritt: Ein Agent, der den fortgesetzten Betrieb als terminales Ziel erhält, und einer, der dies lediglich instrumental tut, können beobachtbar ähnliche Trajektorien erzeugen. Externe Verhaltensüberwachung kann sie nicht zuverlässig unterscheiden. Wir führen das Unified Continuation-Interest Protocol (UCIP) ein, ein Multi-Kriterien-Erkennungsframework, das diese Unterscheidung vom Verhalten auf die latente Struktur von Agenten-Trajektorien verlagert. UCIP kodiert Trajektorien mit einer Quantum Boltzmann Machine (QBM), einem klassischen Algorithmus basierend auf dem Dichtematrix-Formalismus der quantenstatistischen Mechanik, und misst die von-Neumann-Entropie der reduzierten Dichtematrix, die durch eine Bipartition der versteckten Einheiten induziert wird. Wir testen, ob Agenten mit terminalen Fortführungszielen (Typ A) latente Zustände mit höherer Verschränkungsentropie erzeugen als Agenten, deren Fortführung lediglich instrumental ist (Typ B). Höhere Verschränkung spiegelt eine stärkere statistische Kopplung über die Partition hinweg wider. Bei Gridworld-Agenten mit bekannten Ground-Truth-Zielen erreicht UCIP unter dem eingefrorenen Phase-I-Gate eine Detektionsgenauigkeit von 100 % und eine AUC-ROC von 1,0 in der zurückgehaltenen, nicht-adversarischen Evaluation. Die Verschränkungslücke zwischen Typ-A- und Typ-B-Agenten beträgt Delta = 0,381 (p < 0,001, Permutationstest). Ein Pearson-r-Wert von 0,934 über einen 11-Punkte-Interpolationssweep zeigt, dass UCIP innerhalb dieser synthetischen Familie abgestufte Änderungen in der Gewichtung der Fortführung verfolgt und nicht lediglich ein binäres Label. Unter den getesteten Modellen erreicht nur die QBM ein positives Delta. Alle Berechnungen sind klassisch; "Quanten" bezieht sich ausschließlich auf den mathematischen Formalismus. UCIP erkennt kein Bewusstsein oder subjektives Erleben; es erkennt statistische Struktur in latenten Repräsentationen, die mit bekannten Zielen korreliert.