HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

27 papers found

Wan-Move: Bewegungssteuerbare Videogenerierung durch latente Trajektorienführung
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Dec 9

ByRuihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang

132

Wir stellen Wan-Move vor, ein einfaches und skalierbares Framework, das Bewegungskontrolle in videogenerative Modelle bringt. Bestehende bewegungssteuerbare Methoden leiden typischerweise unter grober Kontrollgranularität und begrenzter Skalierbarkeit, was ihre Ergebnisse für die praktische Anwendung unzureichend macht. Wir schließen diese Lücke, indem wir präzise und hochwertige Bewegungskontrolle erreichen. Unsere Kernidee ist es, die ursprünglichen Konditionsmerkmale direkt bewegungssensibel zu machen, um die Videosynthese zu steuern. Dazu repräsentieren wir zunächst Objektbewegungen mit dichten Punkt-Trajektorien, was eine feinkörnige Kontrolle über die Szene ermöglicht. Anschließend projizieren wir diese Trajektorien in den latenten Raum und propagieren die Merkmale des ersten Frames entlang jeder Trajektorie, wodurch eine ausgerichtete raumzeitliche Merkmalskarte erzeugt wird, die angibt, wie sich jedes Szenenelement bewegen soll. Diese Merkmalskarte dient als aktualisierte latente Bedingung, die nahtlos in Standard-Bild-zu-Video-Modelle, z.B. Wan-I2V-14B, als Bewegungsführung integriert wird, ohne Architekturänderungen. Dadurch entfällt die Notwendigkeit zusätzlicher Bewegungs-Encoder und die Feinabstimmung von Basismodellen wird leicht skalierbar. Durch skaliertes Training erzeugt Wan-Move 5-Sekunden-480p-Videos, deren Bewegungskontrollfähigkeit laut Nutzerstudien der kommerziellen Motion Brush von Kling 1.5 Pro ebenbürtig ist. Zur Unterstützung einer umfassenden Evaluation entwickelten wir MoveBench, einen rigoros kuratierten Benchmark mit diversen Inhaltskategorien und hybrid-verifizierten Annotationen. Er zeichnet sich durch größeres Datenvolumen, längere Videodauern und hochwertige Bewegungsannotationen aus. Umfangreiche Experimente auf MoveBench und öffentlichen Datensätzen zeigen durchgängig die überlegene Bewegungsqualität von Wan-Move. Code, Modelle und Benchmark-Daten sind öffentlich verfügbar.

Visionary: Der Weltmodellträger auf einer WebGPU-basierten Gauß'schen Splatting-Plattform
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Dec 9

ByYuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong

Neuronales Rendering, insbesondere 3D Gaussian Splatting (3DGS), hat sich rasant entwickelt und ist zu einer Schlüsselkomponente für den Aufbau von Weltmodellen geworden. Allerdings bleiben bestehende Viewer-Lösungen fragmentiert, aufwendig oder durch veraltete Pipelines eingeschränkt, was zu hohen Implementierungshürden und begrenzter Unterstützung für dynamische Inhalte und generative Modelle führt. In dieser Arbeit präsentieren wir Visionary, eine offene, web-native Plattform für Echtzeit-Rendering verschiedener Gaussian Splatting-Daten und Meshes. Basierend auf einem effizienten WebGPU-Renderer mit ONNX-Inferenz pro Frame ermöglicht Visionary dynamische neuronale Verarbeitung bei gleichzeitig leichtgewichtiger "Klick-und-Los"-Browser-Nutzung. Es führt einen standardisierten Gaussian-Generator-Vertrag ein, der nicht nur standardmäßiges 3DGS-Rendering unterstützt, sondern auch Plug-and-Play-Algorithmen ermöglicht, um Gaussians pro Frame zu generieren oder zu aktualisieren. Diese Inferenz ermöglicht es uns zudem, generative Vorwärtsverarbeitung zur Nachbearbeitung anzuwenden. Die Plattform bietet weiterhin ein Plugin für die three.js-Bibliothek mit einer prägnanten TypeScript-API für nahtlose Integration in bestehende Webanwendungen. Experimente zeigen, dass Visionary bei identischen 3DGS-Assets aufgrund GPU-basierter Primitive-Sortierung eine überlegene Rendering-Effizienz gegenüber aktuellen Web-Viewern erreicht. Es unterstützt bereits mehrere Varianten, darunter MLP-basiertes 3DGS, 4DGS, neuronale Avatare sowie Stiltransformations- oder Verbesserungsnetzwerke. Durch die Vereinheitlichung von Inferenz und Rendering direkt im Browser senkt Visionary die Hürden für Reproduktion, Vergleich und Einsatz von 3DGS-Methoden erheblich und dient als einheitlicher Weltmodell-Träger für rekonstruktive und generative Paradigmen.

Bewahrung der Realitätstreue des Quellvideos: Hochfideler Gesichtstausch für cineastische Qualität
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Dec 8

ByZekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen

Video-Gesichtstausch ist entscheidend in der Film- und Unterhaltungsproduktion, wobei die Erzielung hoher Wiedergabetreue und zeitlicher Konsistenz über lange und komplexe Videosequenzen hinweg eine große Herausforderung bleibt. Inspiriert von jüngsten Fortschritten im referenzgestützten Bildbearbeitung, untersuchen wir, ob reiche visuelle Attribute aus Quellvideos ähnlich genutzt werden können, um sowohl die Wiedergabetreue als auch die zeitliche Kohärenz beim Video-Gesichtstausch zu verbessern. Aufbauend auf dieser Erkenntnis stellt diese Arbeit LivingSwap vor, das erste videoreferenzgesteuerte Gesichtstausch-Modell. Unser Ansatz nutzt Keyframes als Konditionierungssignale, um die Zielidentität einzubringen, und ermöglicht so flexible und steuerbare Bearbeitung. Durch die Kombination von Keyframe-Konditionierung mit Video-Referenzführung führt das Modell eine temporale Verknüpfung durch, um eine stabile Identitätsbewahrung und hochwertige Rekonstruktion über lange Videosequenzen hinweg zu gewährleisten. Um den Mangel an Daten für das referenzgestützte Training zu beheben, erstellen wir einen gepaarten Gesichtstausch-Datensatz, Face2Face, und kehren die Datenpaare weiter um, um eine zuverlässige Grundwahrheitsüberwachung sicherzustellen. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Ergebnisse erzielt, die Zielidentität nahtlos mit den Ausdrücken, der Beleuchtung und der Bewegung des Quellvideos integriert und gleichzeitig den manuellen Aufwand in Produktionsworkflows erheblich reduziert. Projektwebseite: https://aim-uofa.github.io/LivingSwap

OneStory: Kohärente Mehrbild-Generierung mit adaptivem Gedächtnis
OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Dec 8

ByZhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie

Storytelling in real-world videos often unfolds through multiple shots – discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.

DeepCode: Offener agentenbasierter Code
DeepCode: Open Agentic Coding

Dec 8

ByZongwei Li, Zhonghang Li, Zirui Guo, Xubin Ren, Chao Huang

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben leistungsstarke Code-Agenten hervorgebracht, die es ermöglichen, dass Code-Assistenten zu Code-Ingenieuren evolvieren. Allerdings stehen bestehende Methoden nach wie vor vor erheblichen Herausforderungen bei der Synthese von Codebasen mit hoher Wiedergabetreue aus Dokumenten – wie beispielsweise wissenschaftlichen Artikeln –, was hauptsächlich auf einen grundlegenden Konflikt zwischen Informationsüberflutung und den Kontextengpässen von LLMs zurückzuführen ist. In dieser Arbeit stellen wir DeepCode vor, ein vollständig autonomes Framework, das diese Herausforderung durch prinzipiengeleitetes Informationsflussmanagement grundlegend adressiert. Indem Repository-Synthese als ein Kanaloptimierungsproblem behandelt wird, orchestriert DeepCode nahtlos vier Informationsoperationen, um taskspezifische Signale unter begrenzten Kontextbudgets zu maximieren: Quellenkompression durch Blueprint-Destillation, strukturierte Indizierung mittels stateful Code Memory, bedingte Wissensinjektion via Retrieval-Augmented Generation und Closed-Loop-Fehlerkorrektur. Umfangreiche Auswertungen auf dem PaperBench-Benchmark zeigen, dass DeepCode state-of-the-art Leistung erzielt und dabei führende kommerzielle Agenten wie Cursor und Claude Code entscheidend übertrifft; entscheidend ist, dass es sogar PhD-level menschliche Experten von Top-Instituten in wichtigen Reproduktionsmetriken übertrifft. Durch die systematische Transformation von Papierspezifikationen in produktionsreife Implementierungen, die mit der Qualität menschlicher Experten vergleichbar sind, legt diese Arbeit neue Grundlagen für autonome wissenschaftliche Reproduktion, die Forschungsevaluierung und -entdeckung beschleunigen kann.

Von Next-Token zu Next-Block: Ein prinzipieller Anpassungspfad für Diffusions-LLMs
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

Dec 7

ByYuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Generierungsfähigkeiten aus, doch das dominante autoregressive (AR) Decoding ist inhärent sequenziell, was einen Durchsatzengpass verursacht. Diffusions-Sprachmodelle (DLMs) – insbesondere blockweise Varianten – ermöglichen parallele Generierung und bidirektionale Reasoning innerhalb eines Blocks. Allerdings ist das Training großer DLMs von Grund auf kostspielig und verschwendet das Wissen in ausgereiften AR-Checkpoints. Bisherige "Adaptions"-Versuche modifizieren entweder Logits oder erweitern Attention-Masken zufällig auf Full-Sequence-Diffusion, oder sie verpflanzen AR-Gewichte einfach in ein Block-Diffusion-Rezept, ohne den fundamentalen Konflikt zwischen AR-Kausalität und blockweiser Bidirektionalität zu lösen. Wir formulieren Adaption neu als einen intra-paradigmatischen Pfad von AR zu Block-Diffusion, indem wir AR als Block-Diffusion mit Blockgröße=1 betrachten. Konkret gestalten wir den Adaptionspfad wie folgt: Wir verwenden eine kontext-kausale Attention-Maske (kausal im Kontext, nur innerhalb des aktiven Blocks bidirektional), ein effizientes paralleles Adaptionsverfahren, einen auxiliary AR-Loss zur Maximierung der Datennutzung und Bewahrung vortrainierten Wissens sowie eine schrittweise Erhöhung der Generierungsblockgröße. Das Rezept integriert sich nahtlos in maskierte Block-Diffusion und wahrt Trainings-Inferenz-Konsistenz. Auf diesen Komponenten aufbauend konnte NBDiff-7B (Base und Instruct) die Fähigkeiten zur Modellierung langer Kontexte und zum Reasoning erben und erreicht state-of-the-art Leistung unter den 7B-DLMs, mit deutlichen Verbesserungen bei General-Knowledge-, Mathematik- und Code-Benchmarks gegenüber starken Baselines. Diese Ergebnisse zeigen, dass prinzipiengeleitete AR-zu-Block-Diffusion-Adaption eine effektive und recheneffiziente Alternative zum Training von DLMs von Grund auf darstellt. Codes: https://github.com/YuchuanTian/NBDiff.

Langsam am Boden, schnell in Bewegung: Ein Dual-System-Grundmodell für generalisierbare visuelle und sprachliche Navigation
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

Dec 9

ByMeng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu

Während neuere große visuell-sprachliche Modelle (VLMs) die Generalisierung in der visuell-sprachlichen Navigation (VLN) verbessert haben, stützen sich bestehende Methoden typischerweise auf End-to-End-Pipelines, die visuell-sprachliche Eingaben direkt auf kurzfristige diskrete Aktionen abbilden. Solche Ansätze erzeugen oft fragmentierte Bewegungen, verursachen hohe Latenzzeiten und haben Schwierigkeiten mit realen Herausforderungen wie der dynamischen Hindernisvermeidung. Wir stellen DualVLN vor, das erste Dual-System-VLN-Basismodell, das hochrangiges Reasoning mit niederrangiger Aktionsausführung synergetisch integriert. System 2, ein auf einem VLM basierender globaler Planer, „denkt langsam“, indem es mittelfristige Wegpunkt-Ziele durch bildgestütztes Reasoning vorhersagt. System 1, eine leichte, multimodal konditionierte Diffusion-Transformer-Policy, „handelt schnell“, indem es sowohl explizite Pixel-Ziele als auch latente Merkmale von System 2 nutzt, um glatte und präzise Trajektorien zu erzeugen. Das Dual-System-Design ermöglicht eine robuste Echtzeitsteuerung und adaptive lokale Entscheidungsfindung in komplexen, dynamischen Umgebungen. Durch die Entkopplung des Trainings behält das VLM seine Generalisierungsfähigkeit, während System 1 eine interpretierbare und effektive lokale Navigation erreicht. DualVLN übertrifft bisherige Methoden in allen VLN-Benchmarks, und Realexperimente demonstrieren robuste Langzeitplanung und Echtzeit-Anpassungsfähigkeit in dynamischen Umgebungen.

ThreadWeaver: Adaptives Threading für effizientes paralleles Reasoning in Sprachmodellen
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Nov 24

ByLong Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin

Die Skalierung von Inferenzrechenleistung hat großen Sprachmodellen (LLMs) starke Reasoning-Fähigkeiten ermöglicht, doch inhärent sequenzielles Decoding führt zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Jüngste Arbeiten zum adaptiven parallelen Reasoning zielen darauf ab, die Inferenzeffizienz zu verbessern, indem der Problemlösungsprozess bei Bedarf in parallele Reasoning-Threads zerlegt wird. Bestehende Methoden für realistische Aufgaben sind jedoch entweder auf überwachtes Behavior Cloning beschränkt oder weisen im Vergleich zu weit verbreiteten sequenziellen Chain-of-Thought (CoT)-Baselines signifikante Genauigkeitseinbußen auf. Zudem erfordern viele angepasste Inferenz-Engines, was die Bereitstellung erschwert. Wir stellen ThreadWeaver vor, ein Framework für adaptives paralleles Reasoning, das eine mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe gleichwertige Genauigkeit erreicht und gleichzeitig die Inferenzlatenz deutlich reduziert. Die Leistung von ThreadWeaver basiert auf drei Schlüsselinnovationen: 1) einem zweistufigen parallelen Trajektoriengenerator, der großvolumige, hochwertige CoT-Daten mit Parallel-Annotationen für supervised Fine-Tuning erzeugt; 2) einem trie-basierten Trainings-Inferenz-Co-Design, das paralleles Reasoning auf jeder Standard-Autoregressions-Inferenzengine ohne Modifikation von Positional Embeddings oder KV-Caches ermöglicht; und 3) einem parallelisierungsbewussten Reinforcement-Learning-Framework, das dem Modell beibringt, Genauigkeit mit effektiver Parallelisierung abzuwägen. In sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver auf Basis von Qwen3-8B eine mit state-of-the-art sequenziellen Reasoning-Modellen vergleichbare Genauigkeit (71,9 % im Durchschnitt und 79,9 % auf AIME24) bei gleichzeitig bis zu 1,53-facher durchschnittlicher Beschleunigung der Token-Latenz und etabliert damit eine neue Pareto-Grenze zwischen Genauigkeit und Effizienz.

Arbitrage: Effizientes Schließen durch vorteilsbewusste Spekulation
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Dec 4

ByMonishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

Moderne Large Language Models erreichen beeindruckende Fähigkeiten im logischen Schlussfolgern mit langen Chain-of-Thoughts, verursachen jedoch erhebliche Rechenkosten während der Inferenz, was Techniken zur Verbesserung der Leistungs-Kosten-Relation motiviert. Unter diesen Techniken beschleunigt Speculative Decoding die Inferenz, indem ein schnelles, aber ungenaues Draft-Modell eingesetzt wird, um Token autoregressiv vorzuschlagen, die dann parallel von einem leistungsfähigeren Target-Modell verifiziert werden. Aufgrund unnötiger Zurückweisungen, die durch Token-Fehlanpassungen in semantisch äquivalenten Schritten verursacht werden, ist das traditionelle token-basierte Speculative Decoding bei Reasoning-Aufgaben jedoch problematisch. Obwohl neuere Arbeiten zu einer schrittbasierten semantischen Verifikation übergegangen sind, die die Effizienz durch Akzeptieren oder Zurückweisen ganzer Denkschritte verbessert, generieren bestehende schrittbasierte Methoden viele abgelehnte Schritte mit geringer Verbesserung neu und verschwenden wertvolle Target-Modell-Rechenleistung. Um diese Herausforderung zu bewältigen, schlagen wir Arbitrage vor, ein neuartiges, schrittbasiertes spekulatives Generierungsframework, das die Generierung dynamisch auf Basis des relativen Vorteils zwischen Draft- und Target-Modell steuert. Anstatt einen festen Akzeptanzschwellenwert anzuwenden, verwendet Arbitrage einen leichtgewichtigen Router, der darauf trainiert ist, vorherzusagen, wann das Target-Modell voraussichtlich einen bedeutend besseren Schritt erzeugen wird. Dieses Routing approximiert ein ideales Arbitrage-Orakel, das stets den Schritt mit der höheren Qualität wählt und nahezu optimale Effizienz-Genauigkeits-Kompromisse erreicht. Über mehrere mathematische Reasoning-Benchmarks hinweg übertrifft Arbitrage konsequent frühere schrittbasierte Speculative-Decoding-Baselines und reduziert die Inferenzlatenz bei gleicher Genauigkeit um bis zu sim2fach.

Effiziente Rekonstruktion dynamischer Szenen – ein D4RT nach dem anderen
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

Dec 9

ByChuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi

Das Verständnis und die Rekonstruktion der komplexen Geometrie und Bewegung dynamischer Szenen aus Videos bleibt eine große Herausforderung in der Computer Vision. Dieses Paper stellt D4RT vor, ein einfaches, aber leistungsstarkes Vorwärtsmodell, das entwickelt wurde, um diese Aufgabe effizient zu lösen. D4RT nutzt eine einheitliche Transformer-Architektur, um gemeinsam Tiefe, raum-zeitliche Korrespondenz und vollständige Kameraparameter aus einem einzelnen Video abzuleiten. Sein Kerninnovation ist ein neuartiger Abfragemechanismus, der den hohen Rechenaufwand einer dichten, pro-Bild-Decodierung und die Komplexität der Verwaltung mehrerer, aufgabenspezifischer Decoder umgeht. Unsere Decodier-Schnittstelle ermöglicht es dem Modell, unabhängig und flexibel die 3D-Position jedes beliebigen Punktes in Raum und Zeit zu untersuchen. Das Ergebnis ist eine leichtgewichtige und hochskalierbare Methode, die eine bemerkenswert effiziente Trainierung und Inferenz ermöglicht. Wir zeigen, dass unser Ansatz einen neuen State-of-the-Art etabliert und bisherige Methoden bei einer breiten Palette von 4D-Rekonstruktionsaufgaben übertrifft. Wir verweisen auf die Projektwebseite für animierte Ergebnisse: https://d4rt-paper.github.io/.

MIND-V: Hierarchische Videogenerierung für langfristige Roboter-Manipulation mit RL-basierter physikalischer Ausrichtung
MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

Dec 7

ByRuicheng Zhang, Mingyang Zhang, Jun Zhou, Zhangrui Guo, Xiaofan Liu, Zunnan Xu, Zhizhou Zhong, Puxin Yan, Haocheng Luo, Xiu Li

Embodied Imitation Learning wird durch die Knappheit an vielfältigen, langfristigen Robotermanipulationsdaten eingeschränkt. Bestehende Videogenerierungsmodelle für diesen Bereich sind auf die Synthese kurzer Clips mit einfachen Aktionen beschränkt und stützen sich oft auf manuell definierte Trajektorien. Zu diesem Zweck stellen wir MIND-V vor, ein hierarchisches Framework, das entwickelt wurde, um physikalisch plausible und logisch kohärente Videos von langfristiger Robotermanipulation zu synthetisieren. Inspiriert von der Kognitionswissenschaft überbrückt MIND-V High-Level-Reasoning mit Pixel-Level-Synthese durch drei Kernkomponenten: eine Semantic Reasoning Hub (SRH), die ein vortrainiertes Vision-Language-Modell für die Aufgabenplanung nutzt; eine Behavioral Semantic Bridge (BSB), die abstrakte Anweisungen in domäneninvariante Repräsentationen übersetzt; und einen Motor Video Generator (MVG) für die konditionale Videorenderung. MIND-V verwendet Staged Visual Future Rollouts, eine Optimierungsstrategie zur Testzeit, um die Langzeitrobustheit zu verbessern. Um die generierten Videos mit physikalischen Gesetzen in Einklang zu bringen, führen wir eine GRPO-Reinforcement-Learning-Nachtrainierungsphase ein, die durch eine neuartige Physical Foresight Coherence (PFC)-Belohnung gesteuert wird. PFC nutzt das V-JEPA-Weltmodell, um physikalische Plausibilität durch Abgleich der vorhergesagten und tatsächlichen dynamischen Entwicklung im Merkmalraum durchzusetzen. MIND-V demonstriert state-of-the-art Leistung in der Generierung von Robotermanipulationsvideos mit langem Zeithorizont und etabliert ein skalierbares und steuerbares Paradigma für die Synthese embodieder Daten.

Verbesserung der unüberwachten Videoinstanzsegmentierung durch automatisches qualitätsgesteuertes Selbsttraining
Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

Dec 7

ByKaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos

Video Instance Segmentation (VIS) steht aufgrund der doppelten Anforderungen an Pixelmasken und zeitlich konsistente Labels vor erheblichen Annotationsherausforderungen. Während neuere unüberwachte Methoden wie VideoCutLER durch synthetische Daten die Abhängigkeit von optischem Fluss beseitigen, bleiben sie durch die Domänenlücke zwischen synthetischen und realen Daten eingeschränkt. Wir stellen AutoQ-VIS vor, ein neuartiges unüberwachtes Framework, das diese Lücke durch qualitätsgesteuertes Selbsttraining überbrückt. Unser Ansatz etabliert ein geschlossenes System zwischen der Generierung von Pseudo-Labels und der automatischen Qualitätsbewertung, das eine progressive Anpassung von synthetischen zu realen Videos ermöglicht. Experimente zeigen state-of-the-art Leistung mit 52,6 AP₅₀ auf dem YouTubeVIS-2019 Val-Set, was den bisherigen State-of-the-Art VideoCutLER um 4,4 % übertrifft, ohne menschliche Annotationen zu benötigen. Dies demonstriert die Tragfähigkeit qualitätsbewussten Selbsttrainings für unüberwachtes VIS. Den Code werden wir unter https://github.com/wcbup/AutoQ-VIS veröffentlichen.

Sehen, Hören und Verstehen: Benchmarking audiovisuellen Sprachverständnisses in multimodalen Large Language Models
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

Dec 1

ByLe Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee

Multimodale große Sprachmodelle (MLLMs) sollen in der Lage sein, visuelle, auditive und sprachliche Informationen gemeinsam zu interpretieren, doch bestehende Video-Benchmarks bewerten selten feinkörnige Schlussfolgerungen über menschliche Sprache. Viele Aufgaben bleiben visuell lösbar oder bewerten Sprache nur grob, was nur begrenzte Einblicke bietet, ob Modelle in der Lage sind, Sprecheridentität, Sprachinhalt und Zeitpunkt des Gesprochenen in Einklang zu bringen. Wir stellen AV-SpeakerBench vor, einen kuratierten Benchmark mit 3.212 Multiple-Choice-Fragen, der sich auf sprecherzentriertes audiovisuelles Reasoning in realen Videos konzentriert. Er zeichnet sich durch folgende Merkmale aus: (1) eine sprecherzentrierte Formulierung, die Sprecher – nicht Szenen – als zentrale Reasoning-Einheit behandelt; (2) einen fusionsbasierten Fragenentwurf, der audiovisuelle Abhängigkeiten in die Fragesemantik einbettet; und (3) expertenkuratierte Annotationen, die zeitliche Präzision und crossmodale Validität sicherstellen. Umfassende Evaluierungen zeigen, dass die Gemini-Familie durchgängig besser abschneidet als Open-Source-Systeme, wobei Gemini 2.5 Pro die besten Ergebnisse erzielt. Unter den Open-Modellen nähert sich Qwen3-Omni-30B den Ergebnissen von Gemini 2.0 Flash an, bleibt jedoch weit hinter Gemini 2.5 Pro zurück, was hauptsächlich auf eine schwächere audiovisuelle Fusion und nicht auf eingeschränkte visuelle Wahrnehmung zurückzuführen ist. Wir sind der Überzeugung, dass AV-SpeakerBench eine rigorose Grundlage für die Weiterentwicklung feinkörnigen audiovisuellen Reasonings in zukünftigen multimodalen Systemen schafft.

COREA: Coarse-to-Fine 3D Representation Alignment Between Relightable 3D Gaussians and SDF via Bidirectional 3D-to-3D Supervision

Dec 8

ByJaeyoon Lee, Hojoon Jung, Sungtae Hwang, Jihyong Oh, Jongwon Choi

We present COREA, the first unified framework that jointly learns relightable 3D Gaussians and a Signed Distance Field (SDF) for accurate geometry reconstruction and faithful relighting. While recent 3D Gaussian Splatting (3DGS) methods have extended toward mesh reconstruction and physically-based rendering (PBR), their geometry is still learned from 2D renderings, leading to coarse surfaces and unreliable BRDF-lighting decomposition. To address these limitations, COREA introduces a coarse-to-fine bidirectional 3D-to-3D alignment strategy that allows geometric signals to be learned directly in 3D space. Within this strategy, depth provides coarse alignment between the two representations, while depth gradients and normals refine fine-scale structure, and the resulting geometry supports stable BRDF-lighting decomposition. A density-control mechanism further stabilizes Gaussian growth, balancing geometric fidelity with memory efficiency. Experiments on standard benchmarks demonstrate that COREA achieves superior performance in novel-view synthesis, mesh reconstruction, and PBR within a unified framework.

TreeGRPO: Tree-Advantage GRPO für das Online-Reinforcement-Learning-Post-Training von Diffusionsmodellen
TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

Dec 9

ByZheng Ding, Weirui Ye

Reinforcement Learning (RL) Nachtraining ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die prohibitiv hohen Rechenkosten bleiben eine Hauptbarriere für die breite Anwendung. Wir stellen TreeGRPO vor, ein neuartiges RL-Framework, das die Trainingseffizienz dramatisch verbessert, indem es den Denoising-Prozess als Suchbaum umformuliert. Aus gemeinsamen initialen Rauschstichproben verzweigt TreeGRPO strategisch, um mehrere Kandidatentrajektorien zu generieren und dabei deren gemeinsame Präfixe effizient wiederzuverwenden. Dieser baumstrukturierte Ansatz bietet drei Schlüsselvorteile: (1) Hohe Probeneffizienz, die bei gleichen Trainingsstichproben eine bessere Leistung erzielt, (2) Feingranulare Kreditzuweisung durch Reward-Backpropagation, die schrittspezifische Advantages berechnet und so die Beschränkung gleichmäßiger Kreditzuweisung trajektorienbasierter Methoden überwindet, und (3) Amortisierte Berechnung, bei der Verzweigungen mit mehreren Kindern mehrere Policy-Updates pro Vorwärtsdurchlauf ermöglichen. Umfangreiche Experimente mit Diffusions- und Flow-basierten Modellen zeigen, dass TreeGRPO eine 2,4-fach schnellere Trainingszeit erreicht und dabei eine überlegene Pareto-Grenze im Effizienz-Reward-Abwägungsraum etabliert. Unsere Methode übertrifft durchgängig GRPO-Baselines über mehrere Benchmarks und Reward-Modelle hinweg und bietet einen skalierbaren und effektiven Weg für RL-basierte Ausrichtung visueller generativer Modelle. Die Projektwebsite ist unter treegrpo.github.io verfügbar.

Modulare neuronale Bildsignalverarbeitung
Modular Neural Image Signal Processing

Dec 9

ByMahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown

Dieses Papier stellt ein modulares neuronales Framework zur Bildsignalverarbeitung (ISP) vor, das Rohdaten verarbeitet und hochwertige, darstellungsbezogene Bilder erzeugt. Im Gegensatz zu früheren neuronalen ISP-Ansätzen zeichnet sich unsere Methode durch einen hohen Modularitätsgrad aus, der eine vollständige Kontrolle über mehrere Zwischenstufen des Renderprozesses ermöglicht.~Dieses modulare Design erreicht nicht nur eine hohe Rendergenauigkeit, sondern verbessert auch die Skalierbarkeit, Debugging-Fähigkeit, Generalisierung auf nicht trainierte Kameras sowie die Flexibilität, um verschiedene benutzerpräferierte Stile abzubilden. Um die Vorteile dieses Designs zu demonstrieren, haben wir ein benutzerinteraktives Foto-Bearbeitungstool entwickelt, das unseren neuronalen ISP nutzt, um diverse Bearbeitungsoperationen und Bildstile zu unterstützen. Das Tool ist so konzipiert, dass es die hochwertige Darstellung unseres neuronalen ISPs optimal nutzt und eine unbegrenzt nachträglich editierbare Neubearbeitung ermöglicht. Unsere Methode ist ein vollständig lernbasiertes Framework mit Varianten unterschiedlicher Kapazitäten, alle in moderater Größe (die gesamte Pipeline umfasst ~0,5 M bis ~3,9 M Parameter), und liefert durchweg wettbewerbsfähige qualitative und quantitative Ergebnisse über mehrere Testdatensätze hinweg. Siehe das ergänzende Video unter: https://youtu.be/ByhQjQSjxVM

SUCCESS-GS: Untersuchung der Kompaktheit und Komprimierung für effizientes statisches und dynamisches Gaussian Splatting
SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting

Dec 8

BySeokhyun Youn, Soohyun Lee, Geonho Kim, Weeyoung Kwon, Sung-Ho Bae, Jihyong Oh

3D Gaussian Splatting (3DGS) hat sich als leistungsstarke explizite Repräsentation etabliert, die Echtzeit-3D-Rekonstruktion und die Synthese neuartiger Ansichten mit hoher Wiedergabetreue ermöglicht. Seine praktische Anwendung wird jedoch durch den enormen Speicher- und Rechenbedarf behindert, der zur Speicherung und Darstellung von Millionen von Gaußfunktionen erforderlich ist. Diese Herausforderungen verschärfen sich in 4D-dynamischen Szenen noch weiter. Um diese Probleme zu adressieren, hat sich das Feld des Efficient Gaussian Splatting rasch weiterentwickelt und Methoden vorgeschlagen, die Redundanzen reduzieren und gleichzeitig die Rekonstruktionsqualität bewahren. Dieser Übersichtsartikel bietet erstmals einen vereinheitlichten Überblick über effiziente 3D- und 4D-Gaussian-Splatting-Techniken. Für sowohl 3D- als auch 4D-Szenarien kategorisieren wir bestehende Methoden systematisch in zwei Hauptrichtungen – Parameterkompression und Restrukturierungskompression – und fassen die Kernideen und methodischen Trends innerhalb jeder Kategorie umfassend zusammen. Des Weiteren behandeln wir weit verbreitete Datensätze, Evaluierungsmetriken und repräsentative Benchmark-Vergleiche. Abschließend diskutieren wir aktuelle Limitationen und skizzieren vielversprechende Forschungsrichtungen für skalierbares, kompaktes und echzeitfähiges Gaussian Splatting zur Repräsentation statischer und dynamischer 3D-Szenen.

TrackingWorld: Weltzentrische monokulare 3D-Verfolgung nahezu aller Pixel
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

Dec 9

ByJiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu

Monokulares 3D-Tracking zielt darauf ab, die langfristige Bewegung von Pixeln im 3D-Raum aus einem einzelnen monokularen Video zu erfassen und hat in den letzten Jahren rasante Fortschritte erlebt. Wir vertreten jedoch die Auffassung, dass die bestehenden Methoden des monokularen 3D-Trackings nach wie vor nicht in der Lage sind, die Kamerabewegung von der dynamischen Vordergrundbewegung zu trennen, und neu auftretende dynamische Objekte in den Videos nicht dicht verfolgen können. Um diese beiden Einschränkungen zu adressieren, schlagen wir TrackingWorld vor, eine neuartige Pipeline für das dichte 3D-Tracking nahezu aller Pixel innerhalb eines weltzentrierten 3D-Koordinatensystems. Zunächst führen wir einen Tracking-Upsampler ein, der beliebige spärliche 2D-Tracks effizient in dichte 2D-Tracks überführt. Um die aktuellen Tracking-Methoden auf neu auftauchende Objekte zu verallgemeinern, wenden wir den Upsampler auf alle Frames an und reduzieren die Redundanz der 2D-Tracks, indem wir Tracks in überlappten Bereichen eliminieren. Schließlich präsentieren wir ein effizientes, optimierungsbasiertes Framework, um dichte 2D-Tracks durch Schätzung der Kameraposen und der 3D-Koordinaten dieser 2D-Tracks in weltzentrierte 3D-Trajektorien zurückzuprojizieren. Umfangreiche Auswertungen sowohl auf synthetischen als auch realen Datensätzen belegen, dass unser System präzises und dichtes 3D-Tracking in einem weltzentrierten Koordinatenrahmen erreicht.

Terrain Diffusion: Ein diffusionsbasierter Nachfolger für Perlin Noise in der Echtzeit-Generierung unendlicher Landschaften
Terrain Diffusion: A Diffusion-Based Successor to Perlin Noise in Infinite, Real-Time Terrain Generation

Dec 9

ByAlexander Goslin

Seit Jahrzehnten werden prozedurale Welten auf Grundlage von prozeduralen Rauschfunktionen wie Perlin-Rauschen erstellt, die zwar schnell und unendlich sind, jedoch grundlegend in ihrer Realitätsnähe und großräumigen Kohärenz begrenzt. Wir stellen Terrain Diffusion vor, einen Nachfolger des Perlin-Rauschens für das KI-Zeitalter, der die Detailtreue von Diffusionsmodellen mit den Eigenschaften vereint, die prozedurales Rauschen unverzichtbar machten: nahtlose unendliche Ausdehnung, Seed-Konsistenz und konstantzeittigen Direktzugriff. Kernstück ist InfiniteDiffusion, ein neuartiger Algorithmus für unendliche Generierung, der die nahtlose Echtzeitsynthese grenzenloser Landschaften ermöglicht. Ein hierarchischer Stack von Diffusionsmodellen verknüpft planetaren Kontext mit lokalen Details, während eine kompakte Laplace-Kodierung die Ausgaben über erdskalige Dynamikbereiche stabilisiert. Ein quelloffenes Infinite-Tensor-Framework unterstützt die bearbeitung unbegrenzter Tensoren mit konstantem Speicherbedarf, und Few-Step-Consistency-Distillation ermöglicht eine effiziente Generierung. Gemeinsam etablieren diese Komponenten Diffusionsmodelle als praktische Grundlage für die prozedurale Weltengenerierung, die in der Lage ist, ganze Planeten kohärent, steuerbar und ohne Grenzen zu synthetisieren.

MemLoRA: Destillieren von Experten-Adaptern für On-Device-Speichersysteme
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

Dec 4

ByMassimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli

Speichererweiterte Large Language Models (LLMs) haben eine bemerkenswerte Konsistenz in längeren Dialogen bewiesen, indem sie relevante Erinnerungen speichern und als Kontext einbeziehen. Eine solche speicherbasierte Personalisierung ist auch in On-Device-Umgebungen entscheidend, die es Nutzern ermöglichen, ihre Gespräche und Daten privat zu halten. Allerdings basieren speichererweiterte Systeme typischerweise auf LLMs, die für den lokalen On-Device-Einsatz zu rechenintensiv sind. Obwohl Small Language Models (SLMs) für On-Device-Inferenz besser geeignet sind als LLMs, können sie keine ausreichende Leistung erbringen. Zudem fehlt diesen LLM-basierten Systemen native visuelle Fähigkeiten, was ihre Anwendbarkeit in multimodalen Kontexten einschränkt. In diesem Artikel stellen wir vor: (i) MemLoRA, ein neuartiges Speichersystem, das die lokale Bereitstellung ermöglicht, indem es SLMs mit spezialisierten Speicher-Adaptern ausstattet, und (ii) seine Vision-Erweiterung MemLoRA-V, die kleine Vision-Language Models (SVLMs) in Speichersysteme integriert und damit natives visuelles Verständnis ermöglicht. Nach den Prinzipien der Wissensdistillation wird jeder Adapter separat für spezifische Speicheroperationen trainiert – Wissensextraktion, Speicheraktualisierung und speichererweiterte Generierung. Mit Speicher-Adaptern ausgestattet, ermöglichen kleine Modelle präzise On-Device-Speicheroperationen ohne Cloud-Abhängigkeit. Bei reinen Textoperationen übertrifft MemLoRA 10-mal größere Basismodelle (z.B. Gemma2-27B) und erreicht eine Leistung, die mit 60-mal größeren Modellen (z.B. GPT-OSS-120B) auf dem LoCoMo-Benchmark vergleichbar ist. Um visuelle Verständnisoperationen zu bewerten, erweitern wir LoCoMo um anspruchsvolle Visual Question Answering-Aufgaben, die direktes visuelles Schlussfolgern erfordern. Hierbei zeigt unsere VLM-integrierte MemLoRA-V massive Verbesserungen gegenüber caption-basierten Ansätzen (81,3 vs. 23,3 Genauigkeit), bei gleichzeitig starker Leistung in textbasierten Aufgaben, was die Wirksamkeit unserer Methode in multimodalen Kontexten demonstriert.

Neuartige Deep-Learning-Architekturen zur Klassifikation und Segmentierung von Hirntumoren in MRT-Bildern
Novel Deep Learning Architectures for Classification and Segmentation of Brain Tumors from MRI Images

Dec 6

BySayan Das, Arghadip Biswas

Hirntumore stellen eine erhebliche Bedrohung für das menschliche Leben dar, weshalb es äußerst notwendig ist, sie in den frühen Stadien genau zu erkennen, um eine bessere Diagnose und Behandlung zu ermöglichen. Radiologen können Hirntumore manuell anhand der MRT-Scan-Bilder der Patienten identifizieren. Allerdings ist die Häufigkeit von Hirntumoren bei Kindern und Jugendlichen in den letzten Jahren angestiegen, was zu einem erheblichen Datenaufkommen führt. Infolgedessen ist die manuelle Erkennung zeitaufwändig und schwierig. Mit dem Aufkommen der Künstlichen Intelligenz in der modernen Welt und ihrer breiten Anwendung im medizinischen Bereich können wir einen Ansatz für ein CAD-System (computerunterstütztes Diagnosesystem) zur automatischen Früherkennung von Hirntumoren verfolgen. Alle bestehenden Modelle für diese Aufgabe sind nicht vollständig generalisiert und schneiden auf Validierungsdaten schlecht ab. Daher haben wir zwei neuartige Deep-Learning-Architekturen vorgeschlagen: (a) SAETCN (Self-Attention Enhancement Tumor Classification Network) zur Klassifizierung verschiedener Arten von Hirntumoren. Wir haben eine Genauigkeit von 99,38 % auf dem Validierungsdatensatz erreicht, was es zu einer der wenigen neuartigen, auf Deep Learning basierenden Architekturen macht, die in der Lage sind, Hirntumore genau zu erkennen. Wir haben das Modell auf einem Datensatz trainiert, der Bilder von drei Tumorarten (Gliome, Meningeome und Hypophysentumore) sowie von Nicht-Tumor-Fällen enthält. Und (b) SAS-Net (Self-Attentive Segmentation Network) für die präzise Segmentierung von Hirntumoren. Hierbei haben wir eine gesamte Pixelgenauigkeit von 99,23 % erzielt.

SAM-Body4D: Trainingsfreie 4D-Körpernetz-Rekonstruktion aus Videos
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

Dec 9

ByMingqi Gao, Yunqi Miao, Jungong Han

Human Mesh Recovery (HMR) zielt darauf ab, 3D-Posen und -Körperformen aus 2D-Beobachtungen zu rekonstruieren und ist grundlegend für das menschenzentrierte Verständnis in realen Szenarien. Während aktuelle bildbasierte HMR-Methoden wie SAM 3D Body eine hohe Robustheit bei Aufnahmen aus unkontrollierten Umgebungen erreichen, basieren sie auf Einzelbild-Inferenz bei der Anwendung auf Videos, was zu zeitlicher Inkonsistenz und Leistungseinbußen bei Verdeckungen führt. Wir adressieren diese Probleme ohne zusätzliches Training durch Nutzung der inherenten menschlichen Kontinuität in Videos. Wir präsentieren SAM-Body4D, ein trainingsfreies Framework für zeitlich konsistente und verdeckungsrobuste HMR aus Videos. Wir generieren zunächst identitätskonsistente Masklets mit einem promptfähigen Video-Segmentierungsmodell und verfeinern diese mit einem Okklusionsbewussten Modul, um fehlende Regionen wiederherzustellen. Die verfeinerten Masklets steuern SAM 3D Body an, um konsistente Ganzkörper-Mesh-Trajektorien zu erzeugen, während eine padding-basierte Parallelisierungsstrategie eine effiziente Multi-Personen-Inferenz ermöglicht. Experimentelle Ergebnisse demonstrieren, dass SAM-Body4D verbesserte zeitliche Stabilität und Robustheit in anspruchsvollen In-the-Wild-Videos erreicht, ohne jegliches Neutraining. Unser Code und Demo sind verfügbar unter: https://github.com/gaomingqi/sam-body4d.

LYNX: Dynamische Exits für konfidenzgesteuertes Reasoning erlernen
LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

Dec 5

ByÖmer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna

Große Reasoning-Modelle erzielen bei komplexen Aufgaben eine hohe Leistung, indem sie lange Gedankenketten generieren, doch sie „überdenken“ oft: Sie setzen das Reasoning fort, lange nachdem sie genug Informationen für eine korrekte Antwort haben. Dies verschwendet Rechenressourcen während der Inferenz und kann die Genauigkeit beeinträchtigen. Bisherige Ansätze für einen vorzeitigen Stopp manipulieren entweder die Decodierung durch zusätzliches Sampling und Heuristiken, verlassen sich auf zusätzliche Verifikationsmodelle oder arbeiten nur als nachgelagerte Analyse-Pipelines ohne formale Garantien. Wir stellen LYNX vor, einen Online-Early-Exit-Mechanismus, der das eigene Bewusstsein des Modells über seinen versteckten Zustand in konfidenzgesteuerte Stopp-Entscheidungen umwandelt. LYNX verknüpft Exit-Entscheidungen mit natürlich auftretenden Reasoning-Signalen (z.B. „hmm“, „warte“) während der Generierung, trainiert eine leichte Sonde (Probe) auf den Hidden States an diesen Signal-Tokens unter Verwendung von Supervision durch erzwungene Exits und umhüllt die resultierenden Scores mit Split Conformal Prediction, um eine verteilungsfreie Kontrolle über vorzeitige Exits zu erhalten. Entscheidend ist, dass wir diese Sonde einmalig auf einem generischen mathematischen Korpus trainieren und kalibrieren und sie unverändert über Benchmarks, Decodierungstemperaturen und sogar nicht-mathematische Aufgaben hinweg wiederverwenden. Über drei Modellfamilien mit 1,5B bis 32B Parametern hinweg erzielt eine einzige, mathematisch trainierte Sonde pro Basismodell starke Kompromisse zwischen Genauigkeit und Effizienz. Auf GSM8K erreicht LYNX die Baseline-Genauigkeit oder übertrifft sie, bei einer Reduktion der Tokens um 40–65 %; auf MATH-500 verbessert es die Genauigkeit um bis zu 12 Prozentpunkte bei etwa 35–60 % weniger Tokens; auf AIME 2024 erreicht es die Baseline-Genauigkeit mit mehr als 50 % Token-Einsparung; und auf CommonsenseQA, einem nicht-mathematischen Benchmark, überträgt es Zero-Shot mit moderaten Genauigkeitssteigerungen und bis zu 70 % weniger Tokens. Im Vergleich zu state-of-the-art Early-Exit-Methoden bietet LYNX konkurrenzfähige oder überlegene Pareto-Fronten, bleibt dabei vollständig online, benötigt keine Proxy-Modelle während der Inferenz und bietet explizite, benutzeranpassbare Konfidenzgarantien.

EcomBench: Auf dem Weg zu einer ganzheitlichen Bewertung von Foundation Agents im E-Commerce
EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

Dec 9

ByRui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie

Foundation Agents haben rasante Fortschritte in ihrer Fähigkeit zur logischen Schlussfolgerung und Interaktion mit realen Umgebungen gemacht, was die Bewertung ihrer Kernkompetenzen zunehmend wichtiger macht. Zwar wurden zahlreiche Benchmarks zur Bewertung der Agentenleistung entwickelt, doch konzentrieren sich die meisten auf akademische Settings oder künstlich gestaltete Szenarien und vernachlässigen die Herausforderungen realer Anwendungen. Um dieses Problem zu adressieren, konzentrieren wir uns auf einen hochpraktischen, realen Anwendungskontext: die E-Commerce-Domäne. Diese umfasst eine große Menge diverser Nutzerinteraktionen, dynamische Marktbedingungen und Aufgaben, die direkt mit echten Entscheidungsprozessen verbunden sind. Zu diesem Zweck stellen wir EcomBench vor, einen ganzheitlichen E-Commerce-Benchmark, der zur Bewertung der Agentenleistung in realistischen E-Commerce-Umgebungen entwickelt wurde. EcomBench basiert auf echten Nutzeranforderungen, die in führenden globalen E-Commerce-Ökosystemen eingebettet sind, und wird von menschlichen Experten sorgfältig kuratiert und annotiert, um Klarheit, Genauigkeit und Domänenrelevanz zu gewährleisten. Er deckt mehrere Aufgabenkategorien innerhalb von E-Commerce-Szenarien ab und definiert drei Schwierigkeitsgrade, die Agenten anhand zentraler Fähigkeiten wie tiefgehende Informationsbeschaffung, mehrstufiges Schlussfolgern und übergreifende Wissensintegration bewerten. Durch die Verankerung der Evaluation in realen E-Commerce-Kontexten bietet EcomBench eine rigorose und dynamische Testumgebung zur Messung der praktischen Fähigkeiten von Agenten im modernen E-Commerce.

SegEarth-OV3: Untersuchung von SAM 3 für offene Vokabularsemantiksegmentierung in Fernerkundungsbildern
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images

Dec 9

ByKaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao

Die meisten bestehenden Methoden für trainingsfreie Open-Vocabulary Semantic Segmentation (OVSS) basieren auf CLIP. Obwohl diese Ansätze Fortschritte erzielt haben, stehen sie oft vor Herausforderungen bei der präzisen Lokalisierung oder erfordern komplexe Pipelines zur Kombination separater Module, insbesondere in Fernerkundungsszenarien mit zahlreichen dichten und kleinen Objekten. Kürzlich wurde Segment Anything Model 3 (SAM 3) vorgeschlagen, das Segmentierung und Erkennung in einem promptbaren Framework vereint. In diesem Beitrag präsentieren wir eine vorläufige Untersuchung zur Anwendung von SAM 3 auf die Fernerkundungs-OVSS-Aufgabe ohne jegliches Training. Zunächst implementieren wir eine Maskenfusionsstrategie, die die Ausgaben des semantischen Segmentierungskopfs von SAM 3 und des Transformer-Decoders (Instanzen-Kopf) kombiniert. Dies ermöglicht es uns, die Stärken beider Köpfe für eine bessere Landbedeckung zu nutzen. Zweitens verwenden wir den Presence-Score des Presence-Kopfs, um Kategorien herauszufiltern, die in der Szene nicht vorhanden sind, und so falsch-positive Ergebnisse zu reduzieren, die durch die großen Vokabulargrößen und patch-basierte Verarbeitung in georäumlichen Szenen verursacht werden. Wir evaluieren unsere Methode auf umfangreichen Fernerkundungsdatensätzen. Experimente zeigen, dass diese einfache Anpassung vielversprechende Leistung erzielt und das Potenzial von SAM 3 für die Fernerkundungs-OVSS demonstriert. Unser Code ist unter https://github.com/earth-insights/SegEarth-OV-3 verfügbar.

Vorhersage zeitabhängiger Strömungen über komplexen Geometrien mit Operator-Netzen
Predicting Time-Dependent Flow Over Complex Geometries Using Operator Networks

Dec 4

ByAli Rabeh, Suresh Murugaiyan, Adarsh Krishnamurthy, Baskar Ganapathysubramanian

Schnelle, geometrie-verallgemeinernde Surrogatmodelle für instationäre Strömungen bleiben eine Herausforderung. Wir stellen ein zeitabhängiges, geometrie-sensitives Deep Operator Network vor, das Geschwindigkeitsfelder für Strömungen bei moderaten Reynolds-Zahlen um parametrische und nicht-parametrische Formen vorhersagt. Das Modell kodiert die Geometrie über einen Signed-Distance-Field (SDF)-Trunk und die Strömungshistorie über einen CNN-Zweig, trainiert mit 841 hochgenauen Simulationen. Bei zurückgehaltenen Geometrien erreicht es einen relativen L2-Einzelschrittfehler von ~5 % und bis zu 1000-fache Beschleunigungen gegenüber CFD. Wir stellen physik-zentrierte Rollout-Diagnosewerkzeuge bereit, einschließlich Phasenfehler an Messpunkten und Divergenznormen, um die Langzeit-Treue zu quantifizieren. Diese zeigen akkurate kurzzeitige Transienten, aber Fehlerakkumulation in feinskaligen Nachläufen, besonders ausgeprägt bei Geometrien mit scharfen Kanten. Wir analysieren Fehlermodi und skizzieren praktische Gegenmaßnahmen. Code, Datensplits und Skripte sind offen unter https://github.com/baskargroup/TimeDependent-DeepONet verfügbar, um Reproduzierbarkeit und Benchmarking zu unterstützen.

Gleicher Inhalt, unterschiedliche Antworten: Kreuzmodale Inkonsistenz in MLLMs
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

Dec 9

ByAngela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano

Wir stellen zwei neue Benchmarks, REST und REST+ (Render-Equivalence Stress Tests), vor, um eine systematische Bewertung von kreuzmodaler Inkonsistenz in multimodalen großen Sprachmodellen (MLLMs) zu ermöglichen. MLLMs werden trainiert, um Vision und Sprache in demselben Einbettungsraum abzubilden, doch können sie nicht die gleichen Aufgaben in beiden Modalitäten ausführen. Unsere Benchmarks enthalten Proben mit derselben semantischen Information in drei Modalitäten (Bild, Text, gemischt), und wir zeigen, dass state-of-the-art MLLMs nicht konsistent über diese verschiedenen Modalitäten hinweg schlussfolgern können. Wir evaluieren 15 MLLMs und stellen fest, dass das Ausmaß der Modalitätsinkonsistenz erheblich variiert, selbst wenn Probleme mit Texterkennung (OCR) berücksichtigt werden. Weder das Rendern von Text als Bild noch das Rendern eines Bildes als Text löst die Inkonsistenz. Selbst wenn die OCR korrekt ist, stellen wir fest, dass visuelle Merkmale (Textfarbe und Auflösung, aber nicht Schriftart) und die Anzahl der Vision-Tokens einen Einfluss auf die Modellleistung haben. Schließlich finden wir, dass unser Konsistenz-Score mit der Modalitätslücke zwischen Text und Bildern korreliert, was eine mechanistische Interpretation von kreuzmodal inkonsistenten MLLMs hervorhebt.