papers.description
Wir stellen Wan-Move vor, ein einfaches und skalierbares Framework, das Bewegungskontrolle in videogenerative Modelle bringt. Bestehende bewegungssteuerbare Methoden leiden typischerweise unter grober Kontrollgranularität und begrenzter Skalierbarkeit, was ihre Ergebnisse für die praktische Anwendung unzureichend macht. Wir schließen diese Lücke, indem wir präzise und hochwertige Bewegungskontrolle erreichen. Unsere Kernidee ist es, die ursprünglichen Konditionsmerkmale direkt bewegungssensibel zu machen, um die Videosynthese zu steuern. Dazu repräsentieren wir zunächst Objektbewegungen mit dichten Punkt-Trajektorien, was eine feinkörnige Kontrolle über die Szene ermöglicht. Anschließend projizieren wir diese Trajektorien in den latenten Raum und propagieren die Merkmale des ersten Frames entlang jeder Trajektorie, wodurch eine ausgerichtete raumzeitliche Merkmalskarte erzeugt wird, die angibt, wie sich jedes Szenenelement bewegen soll. Diese Merkmalskarte dient als aktualisierte latente Bedingung, die nahtlos in Standard-Bild-zu-Video-Modelle, z.B. Wan-I2V-14B, als Bewegungsführung integriert wird, ohne Architekturänderungen. Dadurch entfällt die Notwendigkeit zusätzlicher Bewegungs-Encoder und die Feinabstimmung von Basismodellen wird leicht skalierbar. Durch skaliertes Training erzeugt Wan-Move 5-Sekunden-480p-Videos, deren Bewegungskontrollfähigkeit laut Nutzerstudien der kommerziellen Motion Brush von Kling 1.5 Pro ebenbürtig ist. Zur Unterstützung einer umfassenden Evaluation entwickelten wir MoveBench, einen rigoros kuratierten Benchmark mit diversen Inhaltskategorien und hybrid-verifizierten Annotationen. Er zeichnet sich durch größeres Datenvolumen, längere Videodauern und hochwertige Bewegungsannotationen aus. Umfangreiche Experimente auf MoveBench und öffentlichen Datensätzen zeigen durchgängig die überlegene Bewegungsqualität von Wan-Move. Code, Modelle und Benchmark-Daten sind öffentlich verfügbar.
Neuronales Rendering, insbesondere 3D Gaussian Splatting (3DGS), hat sich rasant entwickelt und ist zu einer Schlüsselkomponente für den Aufbau von Weltmodellen geworden. Allerdings bleiben bestehende Viewer-Lösungen fragmentiert, aufwendig oder durch veraltete Pipelines eingeschränkt, was zu hohen Implementierungshürden und begrenzter Unterstützung für dynamische Inhalte und generative Modelle führt. In dieser Arbeit präsentieren wir Visionary, eine offene, web-native Plattform für Echtzeit-Rendering verschiedener Gaussian Splatting-Daten und Meshes. Basierend auf einem effizienten WebGPU-Renderer mit ONNX-Inferenz pro Frame ermöglicht Visionary dynamische neuronale Verarbeitung bei gleichzeitig leichtgewichtiger "Klick-und-Los"-Browser-Nutzung. Es führt einen standardisierten Gaussian-Generator-Vertrag ein, der nicht nur standardmäßiges 3DGS-Rendering unterstützt, sondern auch Plug-and-Play-Algorithmen ermöglicht, um Gaussians pro Frame zu generieren oder zu aktualisieren. Diese Inferenz ermöglicht es uns zudem, generative Vorwärtsverarbeitung zur Nachbearbeitung anzuwenden. Die Plattform bietet weiterhin ein Plugin für die three.js-Bibliothek mit einer prägnanten TypeScript-API für nahtlose Integration in bestehende Webanwendungen. Experimente zeigen, dass Visionary bei identischen 3DGS-Assets aufgrund GPU-basierter Primitive-Sortierung eine überlegene Rendering-Effizienz gegenüber aktuellen Web-Viewern erreicht. Es unterstützt bereits mehrere Varianten, darunter MLP-basiertes 3DGS, 4DGS, neuronale Avatare sowie Stiltransformations- oder Verbesserungsnetzwerke. Durch die Vereinheitlichung von Inferenz und Rendering direkt im Browser senkt Visionary die Hürden für Reproduktion, Vergleich und Einsatz von 3DGS-Methoden erheblich und dient als einheitlicher Weltmodell-Träger für rekonstruktive und generative Paradigmen.
Video-Gesichtstausch ist entscheidend in der Film- und Unterhaltungsproduktion, wobei die Erzielung hoher Wiedergabetreue und zeitlicher Konsistenz über lange und komplexe Videosequenzen hinweg eine große Herausforderung bleibt. Inspiriert von jüngsten Fortschritten im referenzgestützten Bildbearbeitung, untersuchen wir, ob reiche visuelle Attribute aus Quellvideos ähnlich genutzt werden können, um sowohl die Wiedergabetreue als auch die zeitliche Kohärenz beim Video-Gesichtstausch zu verbessern. Aufbauend auf dieser Erkenntnis stellt diese Arbeit LivingSwap vor, das erste videoreferenzgesteuerte Gesichtstausch-Modell. Unser Ansatz nutzt Keyframes als Konditionierungssignale, um die Zielidentität einzubringen, und ermöglicht so flexible und steuerbare Bearbeitung. Durch die Kombination von Keyframe-Konditionierung mit Video-Referenzführung führt das Modell eine temporale Verknüpfung durch, um eine stabile Identitätsbewahrung und hochwertige Rekonstruktion über lange Videosequenzen hinweg zu gewährleisten. Um den Mangel an Daten für das referenzgestützte Training zu beheben, erstellen wir einen gepaarten Gesichtstausch-Datensatz, Face2Face, und kehren die Datenpaare weiter um, um eine zuverlässige Grundwahrheitsüberwachung sicherzustellen. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Ergebnisse erzielt, die Zielidentität nahtlos mit den Ausdrücken, der Beleuchtung und der Bewegung des Quellvideos integriert und gleichzeitig den manuellen Aufwand in Produktionsworkflows erheblich reduziert. Projektwebseite: https://aim-uofa.github.io/LivingSwap
Storytelling in real-world videos often unfolds through multiple shots – discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.
Die Skalierung von Inferenzrechenleistung hat großen Sprachmodellen (LLMs) starke Reasoning-Fähigkeiten ermöglicht, doch inhärent sequenzielles Decoding führt zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Jüngste Arbeiten zum adaptiven parallelen Reasoning zielen darauf ab, die Inferenzeffizienz zu verbessern, indem der Problemlösungsprozess bei Bedarf in parallele Reasoning-Threads zerlegt wird. Bestehende Methoden für realistische Aufgaben sind jedoch entweder auf überwachtes Behavior Cloning beschränkt oder weisen im Vergleich zu weit verbreiteten sequenziellen Chain-of-Thought (CoT)-Baselines signifikante Genauigkeitseinbußen auf. Zudem erfordern viele angepasste Inferenz-Engines, was die Bereitstellung erschwert. Wir stellen ThreadWeaver vor, ein Framework für adaptives paralleles Reasoning, das eine mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe gleichwertige Genauigkeit erreicht und gleichzeitig die Inferenzlatenz deutlich reduziert. Die Leistung von ThreadWeaver basiert auf drei Schlüsselinnovationen: 1) einem zweistufigen parallelen Trajektoriengenerator, der großvolumige, hochwertige CoT-Daten mit Parallel-Annotationen für supervised Fine-Tuning erzeugt; 2) einem trie-basierten Trainings-Inferenz-Co-Design, das paralleles Reasoning auf jeder Standard-Autoregressions-Inferenzengine ohne Modifikation von Positional Embeddings oder KV-Caches ermöglicht; und 3) einem parallelisierungsbewussten Reinforcement-Learning-Framework, das dem Modell beibringt, Genauigkeit mit effektiver Parallelisierung abzuwägen. In sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver auf Basis von Qwen3-8B eine mit state-of-the-art sequenziellen Reasoning-Modellen vergleichbare Genauigkeit (71,9 % im Durchschnitt und 79,9 % auf AIME24) bei gleichzeitig bis zu 1,53-facher durchschnittlicher Beschleunigung der Token-Latenz und etabliert damit eine neue Pareto-Grenze zwischen Genauigkeit und Effizienz.
Video Instance Segmentation (VIS) steht aufgrund der doppelten Anforderungen an Pixelmasken und zeitlich konsistente Labels vor erheblichen Annotationsherausforderungen. Während neuere unüberwachte Methoden wie VideoCutLER durch synthetische Daten die Abhängigkeit von optischem Fluss beseitigen, bleiben sie durch die Domänenlücke zwischen synthetischen und realen Daten eingeschränkt. Wir stellen AutoQ-VIS vor, ein neuartiges unüberwachtes Framework, das diese Lücke durch qualitätsgesteuertes Selbsttraining überbrückt. Unser Ansatz etabliert ein geschlossenes System zwischen der Generierung von Pseudo-Labels und der automatischen Qualitätsbewertung, das eine progressive Anpassung von synthetischen zu realen Videos ermöglicht. Experimente zeigen state-of-the-art Leistung mit 52,6 AP₅₀ auf dem YouTubeVIS-2019 Val-Set, was den bisherigen State-of-the-Art VideoCutLER um 4,4 % übertrifft, ohne menschliche Annotationen zu benötigen. Dies demonstriert die Tragfähigkeit qualitätsbewussten Selbsttrainings für unüberwachtes VIS. Den Code werden wir unter https://github.com/wcbup/AutoQ-VIS veröffentlichen.
Moderne Large Language Models erreichen beeindruckende Fähigkeiten im logischen Schlussfolgern mit langen Chain-of-Thoughts, verursachen jedoch erhebliche Rechenkosten während der Inferenz, was Techniken zur Verbesserung der Leistungs-Kosten-Relation motiviert. Unter diesen Techniken beschleunigt Speculative Decoding die Inferenz, indem ein schnelles, aber ungenaues Draft-Modell eingesetzt wird, um Token autoregressiv vorzuschlagen, die dann parallel von einem leistungsfähigeren Target-Modell verifiziert werden. Aufgrund unnötiger Zurückweisungen, die durch Token-Fehlanpassungen in semantisch äquivalenten Schritten verursacht werden, ist das traditionelle token-basierte Speculative Decoding bei Reasoning-Aufgaben jedoch problematisch. Obwohl neuere Arbeiten zu einer schrittbasierten semantischen Verifikation übergegangen sind, die die Effizienz durch Akzeptieren oder Zurückweisen ganzer Denkschritte verbessert, generieren bestehende schrittbasierte Methoden viele abgelehnte Schritte mit geringer Verbesserung neu und verschwenden wertvolle Target-Modell-Rechenleistung. Um diese Herausforderung zu bewältigen, schlagen wir Arbitrage vor, ein neuartiges, schrittbasiertes spekulatives Generierungsframework, das die Generierung dynamisch auf Basis des relativen Vorteils zwischen Draft- und Target-Modell steuert. Anstatt einen festen Akzeptanzschwellenwert anzuwenden, verwendet Arbitrage einen leichtgewichtigen Router, der darauf trainiert ist, vorherzusagen, wann das Target-Modell voraussichtlich einen bedeutend besseren Schritt erzeugen wird. Dieses Routing approximiert ein ideales Arbitrage-Orakel, das stets den Schritt mit der höheren Qualität wählt und nahezu optimale Effizienz-Genauigkeits-Kompromisse erreicht. Über mehrere mathematische Reasoning-Benchmarks hinweg übertrifft Arbitrage konsequent frühere schrittbasierte Speculative-Decoding-Baselines und reduziert die Inferenzlatenz bei gleicher Genauigkeit um bis zu sim2fach.
Embodied Imitation Learning wird durch die Knappheit an vielfältigen, langfristigen Robotermanipulationsdaten eingeschränkt. Bestehende Videogenerierungsmodelle für diesen Bereich sind auf die Synthese kurzer Clips mit einfachen Aktionen beschränkt und stützen sich oft auf manuell definierte Trajektorien. Zu diesem Zweck stellen wir MIND-V vor, ein hierarchisches Framework, das entwickelt wurde, um physikalisch plausible und logisch kohärente Videos von langfristiger Robotermanipulation zu synthetisieren. Inspiriert von der Kognitionswissenschaft überbrückt MIND-V High-Level-Reasoning mit Pixel-Level-Synthese durch drei Kernkomponenten: eine Semantic Reasoning Hub (SRH), die ein vortrainiertes Vision-Language-Modell für die Aufgabenplanung nutzt; eine Behavioral Semantic Bridge (BSB), die abstrakte Anweisungen in domäneninvariante Repräsentationen übersetzt; und einen Motor Video Generator (MVG) für die konditionale Videorenderung. MIND-V verwendet Staged Visual Future Rollouts, eine Optimierungsstrategie zur Testzeit, um die Langzeitrobustheit zu verbessern. Um die generierten Videos mit physikalischen Gesetzen in Einklang zu bringen, führen wir eine GRPO-Reinforcement-Learning-Nachtrainierungsphase ein, die durch eine neuartige Physical Foresight Coherence (PFC)-Belohnung gesteuert wird. PFC nutzt das V-JEPA-Weltmodell, um physikalische Plausibilität durch Abgleich der vorhergesagten und tatsächlichen dynamischen Entwicklung im Merkmalraum durchzusetzen. MIND-V demonstriert state-of-the-art Leistung in der Generierung von Robotermanipulationsvideos mit langem Zeithorizont und etabliert ein skalierbares und steuerbares Paradigma für die Synthese embodieder Daten.
Multimodale große Sprachmodelle (MLLMs) sollen in der Lage sein, visuelle, auditive und sprachliche Informationen gemeinsam zu interpretieren, doch bestehende Video-Benchmarks bewerten selten feinkörnige Schlussfolgerungen über menschliche Sprache. Viele Aufgaben bleiben visuell lösbar oder bewerten Sprache nur grob, was nur begrenzte Einblicke bietet, ob Modelle in der Lage sind, Sprecheridentität, Sprachinhalt und Zeitpunkt des Gesprochenen in Einklang zu bringen. Wir stellen AV-SpeakerBench vor, einen kuratierten Benchmark mit 3.212 Multiple-Choice-Fragen, der sich auf sprecherzentriertes audiovisuelles Reasoning in realen Videos konzentriert. Er zeichnet sich durch folgende Merkmale aus: (1) eine sprecherzentrierte Formulierung, die Sprecher – nicht Szenen – als zentrale Reasoning-Einheit behandelt; (2) einen fusionsbasierten Fragenentwurf, der audiovisuelle Abhängigkeiten in die Fragesemantik einbettet; und (3) expertenkuratierte Annotationen, die zeitliche Präzision und crossmodale Validität sicherstellen. Umfassende Evaluierungen zeigen, dass die Gemini-Familie durchgängig besser abschneidet als Open-Source-Systeme, wobei Gemini 2.5 Pro die besten Ergebnisse erzielt. Unter den Open-Modellen nähert sich Qwen3-Omni-30B den Ergebnissen von Gemini 2.0 Flash an, bleibt jedoch weit hinter Gemini 2.5 Pro zurück, was hauptsächlich auf eine schwächere audiovisuelle Fusion und nicht auf eingeschränkte visuelle Wahrnehmung zurückzuführen ist. Wir sind der Überzeugung, dass AV-SpeakerBench eine rigorose Grundlage für die Weiterentwicklung feinkörnigen audiovisuellen Reasonings in zukünftigen multimodalen Systemen schafft.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben leistungsstarke Code-Agenten hervorgebracht, die es ermöglichen, dass Code-Assistenten zu Code-Ingenieuren evolvieren. Allerdings stehen bestehende Methoden nach wie vor vor erheblichen Herausforderungen bei der Synthese von Codebasen mit hoher Wiedergabetreue aus Dokumenten – wie beispielsweise wissenschaftlichen Artikeln –, was hauptsächlich auf einen grundlegenden Konflikt zwischen Informationsüberflutung und den Kontextengpässen von LLMs zurückzuführen ist. In dieser Arbeit stellen wir DeepCode vor, ein vollständig autonomes Framework, das diese Herausforderung durch prinzipiengeleitetes Informationsflussmanagement grundlegend adressiert. Indem Repository-Synthese als ein Kanaloptimierungsproblem behandelt wird, orchestriert DeepCode nahtlos vier Informationsoperationen, um taskspezifische Signale unter begrenzten Kontextbudgets zu maximieren: Quellenkompression durch Blueprint-Destillation, strukturierte Indizierung mittels stateful Code Memory, bedingte Wissensinjektion via Retrieval-Augmented Generation und Closed-Loop-Fehlerkorrektur. Umfangreiche Auswertungen auf dem PaperBench-Benchmark zeigen, dass DeepCode state-of-the-art Leistung erzielt und dabei führende kommerzielle Agenten wie Cursor und Claude Code entscheidend übertrifft; entscheidend ist, dass es sogar PhD-level menschliche Experten von Top-Instituten in wichtigen Reproduktionsmetriken übertrifft. Durch die systematische Transformation von Papierspezifikationen in produktionsreife Implementierungen, die mit der Qualität menschlicher Experten vergleichbar sind, legt diese Arbeit neue Grundlagen für autonome wissenschaftliche Reproduktion, die Forschungsevaluierung und -entdeckung beschleunigen kann.
Reinforcement Learning (RL) Nachtraining ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die prohibitiv hohen Rechenkosten bleiben eine Hauptbarriere für die breite Anwendung. Wir stellen TreeGRPO vor, ein neuartiges RL-Framework, das die Trainingseffizienz dramatisch verbessert, indem es den Denoising-Prozess als Suchbaum umformuliert. Aus gemeinsamen initialen Rauschstichproben verzweigt TreeGRPO strategisch, um mehrere Kandidatentrajektorien zu generieren und dabei deren gemeinsame Präfixe effizient wiederzuverwenden. Dieser baumstrukturierte Ansatz bietet drei Schlüsselvorteile: (1) Hohe Probeneffizienz, die bei gleichen Trainingsstichproben eine bessere Leistung erzielt, (2) Feingranulare Kreditzuweisung durch Reward-Backpropagation, die schrittspezifische Advantages berechnet und so die Beschränkung gleichmäßiger Kreditzuweisung trajektorienbasierter Methoden überwindet, und (3) Amortisierte Berechnung, bei der Verzweigungen mit mehreren Kindern mehrere Policy-Updates pro Vorwärtsdurchlauf ermöglichen. Umfangreiche Experimente mit Diffusions- und Flow-basierten Modellen zeigen, dass TreeGRPO eine 2,4-fach schnellere Trainingszeit erreicht und dabei eine überlegene Pareto-Grenze im Effizienz-Reward-Abwägungsraum etabliert. Unsere Methode übertrifft durchgängig GRPO-Baselines über mehrere Benchmarks und Reward-Modelle hinweg und bietet einen skalierbaren und effektiven Weg für RL-basierte Ausrichtung visueller generativer Modelle. Die Projektwebsite ist unter treegrpo.github.io verfügbar.
Dieses Papier stellt ein modulares neuronales Framework zur Bildsignalverarbeitung (ISP) vor, das Rohdaten verarbeitet und hochwertige, darstellungsbezogene Bilder erzeugt. Im Gegensatz zu früheren neuronalen ISP-Ansätzen zeichnet sich unsere Methode durch einen hohen Modularitätsgrad aus, der eine vollständige Kontrolle über mehrere Zwischenstufen des Renderprozesses ermöglicht.~Dieses modulare Design erreicht nicht nur eine hohe Rendergenauigkeit, sondern verbessert auch die Skalierbarkeit, Debugging-Fähigkeit, Generalisierung auf nicht trainierte Kameras sowie die Flexibilität, um verschiedene benutzerpräferierte Stile abzubilden. Um die Vorteile dieses Designs zu demonstrieren, haben wir ein benutzerinteraktives Foto-Bearbeitungstool entwickelt, das unseren neuronalen ISP nutzt, um diverse Bearbeitungsoperationen und Bildstile zu unterstützen. Das Tool ist so konzipiert, dass es die hochwertige Darstellung unseres neuronalen ISPs optimal nutzt und eine unbegrenzt nachträglich editierbare Neubearbeitung ermöglicht. Unsere Methode ist ein vollständig lernbasiertes Framework mit Varianten unterschiedlicher Kapazitäten, alle in moderater Größe (die gesamte Pipeline umfasst ~0,5 M bis ~3,9 M Parameter), und liefert durchweg wettbewerbsfähige qualitative und quantitative Ergebnisse über mehrere Testdatensätze hinweg. Siehe das ergänzende Video unter: https://youtu.be/ByhQjQSjxVM
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Generierungsfähigkeiten aus, doch das dominante autoregressive (AR) Decoding ist inhärent sequenziell, was einen Durchsatzengpass verursacht. Diffusions-Sprachmodelle (DLMs) – insbesondere blockweise Varianten – ermöglichen parallele Generierung und bidirektionale Reasoning innerhalb eines Blocks. Allerdings ist das Training großer DLMs von Grund auf kostspielig und verschwendet das Wissen in ausgereiften AR-Checkpoints. Bisherige "Adaptions"-Versuche modifizieren entweder Logits oder erweitern Attention-Masken zufällig auf Full-Sequence-Diffusion, oder sie verpflanzen AR-Gewichte einfach in ein Block-Diffusion-Rezept, ohne den fundamentalen Konflikt zwischen AR-Kausalität und blockweiser Bidirektionalität zu lösen. Wir formulieren Adaption neu als einen intra-paradigmatischen Pfad von AR zu Block-Diffusion, indem wir AR als Block-Diffusion mit Blockgröße=1 betrachten. Konkret gestalten wir den Adaptionspfad wie folgt: Wir verwenden eine kontext-kausale Attention-Maske (kausal im Kontext, nur innerhalb des aktiven Blocks bidirektional), ein effizientes paralleles Adaptionsverfahren, einen auxiliary AR-Loss zur Maximierung der Datennutzung und Bewahrung vortrainierten Wissens sowie eine schrittweise Erhöhung der Generierungsblockgröße. Das Rezept integriert sich nahtlos in maskierte Block-Diffusion und wahrt Trainings-Inferenz-Konsistenz. Auf diesen Komponenten aufbauend konnte NBDiff-7B (Base und Instruct) die Fähigkeiten zur Modellierung langer Kontexte und zum Reasoning erben und erreicht state-of-the-art Leistung unter den 7B-DLMs, mit deutlichen Verbesserungen bei General-Knowledge-, Mathematik- und Code-Benchmarks gegenüber starken Baselines. Diese Ergebnisse zeigen, dass prinzipiengeleitete AR-zu-Block-Diffusion-Adaption eine effektive und recheneffiziente Alternative zum Training von DLMs von Grund auf darstellt. Codes: https://github.com/YuchuanTian/NBDiff.
Das Verständnis und die Rekonstruktion der komplexen Geometrie und Bewegung dynamischer Szenen aus Videos bleibt eine große Herausforderung in der Computer Vision. Dieses Paper stellt D4RT vor, ein einfaches, aber leistungsstarkes Vorwärtsmodell, das entwickelt wurde, um diese Aufgabe effizient zu lösen. D4RT nutzt eine einheitliche Transformer-Architektur, um gemeinsam Tiefe, raum-zeitliche Korrespondenz und vollständige Kameraparameter aus einem einzelnen Video abzuleiten. Sein Kerninnovation ist ein neuartiger Abfragemechanismus, der den hohen Rechenaufwand einer dichten, pro-Bild-Decodierung und die Komplexität der Verwaltung mehrerer, aufgabenspezifischer Decoder umgeht. Unsere Decodier-Schnittstelle ermöglicht es dem Modell, unabhängig und flexibel die 3D-Position jedes beliebigen Punktes in Raum und Zeit zu untersuchen. Das Ergebnis ist eine leichtgewichtige und hochskalierbare Methode, die eine bemerkenswert effiziente Trainierung und Inferenz ermöglicht. Wir zeigen, dass unser Ansatz einen neuen State-of-the-Art etabliert und bisherige Methoden bei einer breiten Palette von 4D-Rekonstruktionsaufgaben übertrifft. Wir verweisen auf die Projektwebseite für animierte Ergebnisse: https://d4rt-paper.github.io/.
Während neuere große visuell-sprachliche Modelle (VLMs) die Generalisierung in der visuell-sprachlichen Navigation (VLN) verbessert haben, stützen sich bestehende Methoden typischerweise auf End-to-End-Pipelines, die visuell-sprachliche Eingaben direkt auf kurzfristige diskrete Aktionen abbilden. Solche Ansätze erzeugen oft fragmentierte Bewegungen, verursachen hohe Latenzzeiten und haben Schwierigkeiten mit realen Herausforderungen wie der dynamischen Hindernisvermeidung. Wir stellen DualVLN vor, das erste Dual-System-VLN-Basismodell, das hochrangiges Reasoning mit niederrangiger Aktionsausführung synergetisch integriert. System 2, ein auf einem VLM basierender globaler Planer, „denkt langsam“, indem es mittelfristige Wegpunkt-Ziele durch bildgestütztes Reasoning vorhersagt. System 1, eine leichte, multimodal konditionierte Diffusion-Transformer-Policy, „handelt schnell“, indem es sowohl explizite Pixel-Ziele als auch latente Merkmale von System 2 nutzt, um glatte und präzise Trajektorien zu erzeugen. Das Dual-System-Design ermöglicht eine robuste Echtzeitsteuerung und adaptive lokale Entscheidungsfindung in komplexen, dynamischen Umgebungen. Durch die Entkopplung des Trainings behält das VLM seine Generalisierungsfähigkeit, während System 1 eine interpretierbare und effektive lokale Navigation erreicht. DualVLN übertrifft bisherige Methoden in allen VLN-Benchmarks, und Realexperimente demonstrieren robuste Langzeitplanung und Echtzeit-Anpassungsfähigkeit in dynamischen Umgebungen.
Foundation Agents haben rasante Fortschritte in ihrer Fähigkeit zur logischen Schlussfolgerung und Interaktion mit realen Umgebungen gemacht, was die Bewertung ihrer Kernkompetenzen zunehmend wichtiger macht. Zwar wurden zahlreiche Benchmarks zur Bewertung der Agentenleistung entwickelt, doch konzentrieren sich die meisten auf akademische Settings oder künstlich gestaltete Szenarien und vernachlässigen die Herausforderungen realer Anwendungen. Um dieses Problem zu adressieren, konzentrieren wir uns auf einen hochpraktischen, realen Anwendungskontext: die E-Commerce-Domäne. Diese umfasst eine große Menge diverser Nutzerinteraktionen, dynamische Marktbedingungen und Aufgaben, die direkt mit echten Entscheidungsprozessen verbunden sind. Zu diesem Zweck stellen wir EcomBench vor, einen ganzheitlichen E-Commerce-Benchmark, der zur Bewertung der Agentenleistung in realistischen E-Commerce-Umgebungen entwickelt wurde. EcomBench basiert auf echten Nutzeranforderungen, die in führenden globalen E-Commerce-Ökosystemen eingebettet sind, und wird von menschlichen Experten sorgfältig kuratiert und annotiert, um Klarheit, Genauigkeit und Domänenrelevanz zu gewährleisten. Er deckt mehrere Aufgabenkategorien innerhalb von E-Commerce-Szenarien ab und definiert drei Schwierigkeitsgrade, die Agenten anhand zentraler Fähigkeiten wie tiefgehende Informationsbeschaffung, mehrstufiges Schlussfolgern und übergreifende Wissensintegration bewerten. Durch die Verankerung der Evaluation in realen E-Commerce-Kontexten bietet EcomBench eine rigorose und dynamische Testumgebung zur Messung der praktischen Fähigkeiten von Agenten im modernen E-Commerce.
Große Reasoning-Modelle erzielen bei komplexen Aufgaben eine hohe Leistung, indem sie lange Gedankenketten generieren, doch sie „überdenken“ oft: Sie setzen das Reasoning fort, lange nachdem sie genug Informationen für eine korrekte Antwort haben. Dies verschwendet Rechenressourcen während der Inferenz und kann die Genauigkeit beeinträchtigen. Bisherige Ansätze für einen vorzeitigen Stopp manipulieren entweder die Decodierung durch zusätzliches Sampling und Heuristiken, verlassen sich auf zusätzliche Verifikationsmodelle oder arbeiten nur als nachgelagerte Analyse-Pipelines ohne formale Garantien. Wir stellen LYNX vor, einen Online-Early-Exit-Mechanismus, der das eigene Bewusstsein des Modells über seinen versteckten Zustand in konfidenzgesteuerte Stopp-Entscheidungen umwandelt. LYNX verknüpft Exit-Entscheidungen mit natürlich auftretenden Reasoning-Signalen (z.B. „hmm“, „warte“) während der Generierung, trainiert eine leichte Sonde (Probe) auf den Hidden States an diesen Signal-Tokens unter Verwendung von Supervision durch erzwungene Exits und umhüllt die resultierenden Scores mit Split Conformal Prediction, um eine verteilungsfreie Kontrolle über vorzeitige Exits zu erhalten. Entscheidend ist, dass wir diese Sonde einmalig auf einem generischen mathematischen Korpus trainieren und kalibrieren und sie unverändert über Benchmarks, Decodierungstemperaturen und sogar nicht-mathematische Aufgaben hinweg wiederverwenden. Über drei Modellfamilien mit 1,5B bis 32B Parametern hinweg erzielt eine einzige, mathematisch trainierte Sonde pro Basismodell starke Kompromisse zwischen Genauigkeit und Effizienz. Auf GSM8K erreicht LYNX die Baseline-Genauigkeit oder übertrifft sie, bei einer Reduktion der Tokens um 40–65 %; auf MATH-500 verbessert es die Genauigkeit um bis zu 12 Prozentpunkte bei etwa 35–60 % weniger Tokens; auf AIME 2024 erreicht es die Baseline-Genauigkeit mit mehr als 50 % Token-Einsparung; und auf CommonsenseQA, einem nicht-mathematischen Benchmark, überträgt es Zero-Shot mit moderaten Genauigkeitssteigerungen und bis zu 70 % weniger Tokens. Im Vergleich zu state-of-the-art Early-Exit-Methoden bietet LYNX konkurrenzfähige oder überlegene Pareto-Fronten, bleibt dabei vollständig online, benötigt keine Proxy-Modelle während der Inferenz und bietet explizite, benutzeranpassbare Konfidenzgarantien.
Monokulares 3D-Tracking zielt darauf ab, die langfristige Bewegung von Pixeln im 3D-Raum aus einem einzelnen monokularen Video zu erfassen und hat in den letzten Jahren rasante Fortschritte erlebt. Wir vertreten jedoch die Auffassung, dass die bestehenden Methoden des monokularen 3D-Trackings nach wie vor nicht in der Lage sind, die Kamerabewegung von der dynamischen Vordergrundbewegung zu trennen, und neu auftretende dynamische Objekte in den Videos nicht dicht verfolgen können. Um diese beiden Einschränkungen zu adressieren, schlagen wir TrackingWorld vor, eine neuartige Pipeline für das dichte 3D-Tracking nahezu aller Pixel innerhalb eines weltzentrierten 3D-Koordinatensystems. Zunächst führen wir einen Tracking-Upsampler ein, der beliebige spärliche 2D-Tracks effizient in dichte 2D-Tracks überführt. Um die aktuellen Tracking-Methoden auf neu auftauchende Objekte zu verallgemeinern, wenden wir den Upsampler auf alle Frames an und reduzieren die Redundanz der 2D-Tracks, indem wir Tracks in überlappten Bereichen eliminieren. Schließlich präsentieren wir ein effizientes, optimierungsbasiertes Framework, um dichte 2D-Tracks durch Schätzung der Kameraposen und der 3D-Koordinaten dieser 2D-Tracks in weltzentrierte 3D-Trajektorien zurückzuprojizieren. Umfangreiche Auswertungen sowohl auf synthetischen als auch realen Datensätzen belegen, dass unser System präzises und dichtes 3D-Tracking in einem weltzentrierten Koordinatenrahmen erreicht.
Hirntumore stellen eine erhebliche Bedrohung für das menschliche Leben dar, weshalb es äußerst notwendig ist, sie in den frühen Stadien genau zu erkennen, um eine bessere Diagnose und Behandlung zu ermöglichen. Radiologen können Hirntumore manuell anhand der MRT-Scan-Bilder der Patienten identifizieren. Allerdings ist die Häufigkeit von Hirntumoren bei Kindern und Jugendlichen in den letzten Jahren angestiegen, was zu einem erheblichen Datenaufkommen führt. Infolgedessen ist die manuelle Erkennung zeitaufwändig und schwierig. Mit dem Aufkommen der Künstlichen Intelligenz in der modernen Welt und ihrer breiten Anwendung im medizinischen Bereich können wir einen Ansatz für ein CAD-System (computerunterstütztes Diagnosesystem) zur automatischen Früherkennung von Hirntumoren verfolgen. Alle bestehenden Modelle für diese Aufgabe sind nicht vollständig generalisiert und schneiden auf Validierungsdaten schlecht ab. Daher haben wir zwei neuartige Deep-Learning-Architekturen vorgeschlagen: (a) SAETCN (Self-Attention Enhancement Tumor Classification Network) zur Klassifizierung verschiedener Arten von Hirntumoren. Wir haben eine Genauigkeit von 99,38 % auf dem Validierungsdatensatz erreicht, was es zu einer der wenigen neuartigen, auf Deep Learning basierenden Architekturen macht, die in der Lage sind, Hirntumore genau zu erkennen. Wir haben das Modell auf einem Datensatz trainiert, der Bilder von drei Tumorarten (Gliome, Meningeome und Hypophysentumore) sowie von Nicht-Tumor-Fällen enthält. Und (b) SAS-Net (Self-Attentive Segmentation Network) für die präzise Segmentierung von Hirntumoren. Hierbei haben wir eine gesamte Pixelgenauigkeit von 99,23 % erzielt.
Speichererweiterte Large Language Models (LLMs) haben eine bemerkenswerte Konsistenz in längeren Dialogen bewiesen, indem sie relevante Erinnerungen speichern und als Kontext einbeziehen. Eine solche speicherbasierte Personalisierung ist auch in On-Device-Umgebungen entscheidend, die es Nutzern ermöglichen, ihre Gespräche und Daten privat zu halten. Allerdings basieren speichererweiterte Systeme typischerweise auf LLMs, die für den lokalen On-Device-Einsatz zu rechenintensiv sind. Obwohl Small Language Models (SLMs) für On-Device-Inferenz besser geeignet sind als LLMs, können sie keine ausreichende Leistung erbringen. Zudem fehlt diesen LLM-basierten Systemen native visuelle Fähigkeiten, was ihre Anwendbarkeit in multimodalen Kontexten einschränkt. In diesem Artikel stellen wir vor: (i) MemLoRA, ein neuartiges Speichersystem, das die lokale Bereitstellung ermöglicht, indem es SLMs mit spezialisierten Speicher-Adaptern ausstattet, und (ii) seine Vision-Erweiterung MemLoRA-V, die kleine Vision-Language Models (SVLMs) in Speichersysteme integriert und damit natives visuelles Verständnis ermöglicht. Nach den Prinzipien der Wissensdistillation wird jeder Adapter separat für spezifische Speicheroperationen trainiert – Wissensextraktion, Speicheraktualisierung und speichererweiterte Generierung. Mit Speicher-Adaptern ausgestattet, ermöglichen kleine Modelle präzise On-Device-Speicheroperationen ohne Cloud-Abhängigkeit. Bei reinen Textoperationen übertrifft MemLoRA 10-mal größere Basismodelle (z.B. Gemma2-27B) und erreicht eine Leistung, die mit 60-mal größeren Modellen (z.B. GPT-OSS-120B) auf dem LoCoMo-Benchmark vergleichbar ist. Um visuelle Verständnisoperationen zu bewerten, erweitern wir LoCoMo um anspruchsvolle Visual Question Answering-Aufgaben, die direktes visuelles Schlussfolgern erfordern. Hierbei zeigt unsere VLM-integrierte MemLoRA-V massive Verbesserungen gegenüber caption-basierten Ansätzen (81,3 vs. 23,3 Genauigkeit), bei gleichzeitig starker Leistung in textbasierten Aufgaben, was die Wirksamkeit unserer Methode in multimodalen Kontexten demonstriert.
Human Mesh Recovery (HMR) zielt darauf ab, 3D-Posen und -Körperformen aus 2D-Beobachtungen zu rekonstruieren und ist grundlegend für das menschenzentrierte Verständnis in realen Szenarien. Während aktuelle bildbasierte HMR-Methoden wie SAM 3D Body eine hohe Robustheit bei Aufnahmen aus unkontrollierten Umgebungen erreichen, basieren sie auf Einzelbild-Inferenz bei der Anwendung auf Videos, was zu zeitlicher Inkonsistenz und Leistungseinbußen bei Verdeckungen führt. Wir adressieren diese Probleme ohne zusätzliches Training durch Nutzung der inherenten menschlichen Kontinuität in Videos. Wir präsentieren SAM-Body4D, ein trainingsfreies Framework für zeitlich konsistente und verdeckungsrobuste HMR aus Videos. Wir generieren zunächst identitätskonsistente Masklets mit einem promptfähigen Video-Segmentierungsmodell und verfeinern diese mit einem Okklusionsbewussten Modul, um fehlende Regionen wiederherzustellen. Die verfeinerten Masklets steuern SAM 3D Body an, um konsistente Ganzkörper-Mesh-Trajektorien zu erzeugen, während eine padding-basierte Parallelisierungsstrategie eine effiziente Multi-Personen-Inferenz ermöglicht. Experimentelle Ergebnisse demonstrieren, dass SAM-Body4D verbesserte zeitliche Stabilität und Robustheit in anspruchsvollen In-the-Wild-Videos erreicht, ohne jegliches Neutraining. Unser Code und Demo sind verfügbar unter: https://github.com/gaomingqi/sam-body4d.
Schnelle, geometrie-verallgemeinernde Surrogatmodelle für instationäre Strömungen bleiben eine Herausforderung. Wir stellen ein zeitabhängiges, geometrie-sensitives Deep Operator Network vor, das Geschwindigkeitsfelder für Strömungen bei moderaten Reynolds-Zahlen um parametrische und nicht-parametrische Formen vorhersagt. Das Modell kodiert die Geometrie über einen Signed-Distance-Field (SDF)-Trunk und die Strömungshistorie über einen CNN-Zweig, trainiert mit 841 hochgenauen Simulationen. Bei zurückgehaltenen Geometrien erreicht es einen relativen L2-Einzelschrittfehler von ~5 % und bis zu 1000-fache Beschleunigungen gegenüber CFD. Wir stellen physik-zentrierte Rollout-Diagnosewerkzeuge bereit, einschließlich Phasenfehler an Messpunkten und Divergenznormen, um die Langzeit-Treue zu quantifizieren. Diese zeigen akkurate kurzzeitige Transienten, aber Fehlerakkumulation in feinskaligen Nachläufen, besonders ausgeprägt bei Geometrien mit scharfen Kanten. Wir analysieren Fehlermodi und skizzieren praktische Gegenmaßnahmen. Code, Datensplits und Skripte sind offen unter https://github.com/baskargroup/TimeDependent-DeepONet verfügbar, um Reproduzierbarkeit und Benchmarking zu unterstützen.
3D Gaussian Splatting (3DGS) hat sich als leistungsstarke explizite Repräsentation etabliert, die Echtzeit-3D-Rekonstruktion und die Synthese neuartiger Ansichten mit hoher Wiedergabetreue ermöglicht. Seine praktische Anwendung wird jedoch durch den enormen Speicher- und Rechenbedarf behindert, der zur Speicherung und Darstellung von Millionen von Gaußfunktionen erforderlich ist. Diese Herausforderungen verschärfen sich in 4D-dynamischen Szenen noch weiter. Um diese Probleme zu adressieren, hat sich das Feld des Efficient Gaussian Splatting rasch weiterentwickelt und Methoden vorgeschlagen, die Redundanzen reduzieren und gleichzeitig die Rekonstruktionsqualität bewahren. Dieser Übersichtsartikel bietet erstmals einen vereinheitlichten Überblick über effiziente 3D- und 4D-Gaussian-Splatting-Techniken. Für sowohl 3D- als auch 4D-Szenarien kategorisieren wir bestehende Methoden systematisch in zwei Hauptrichtungen – Parameterkompression und Restrukturierungskompression – und fassen die Kernideen und methodischen Trends innerhalb jeder Kategorie umfassend zusammen. Des Weiteren behandeln wir weit verbreitete Datensätze, Evaluierungsmetriken und repräsentative Benchmark-Vergleiche. Abschließend diskutieren wir aktuelle Limitationen und skizzieren vielversprechende Forschungsrichtungen für skalierbares, kompaktes und echzeitfähiges Gaussian Splatting zur Repräsentation statischer und dynamischer 3D-Szenen.
Wir stellen zwei neue Benchmarks, REST und REST+ (Render-Equivalence Stress Tests), vor, um eine systematische Bewertung von kreuzmodaler Inkonsistenz in multimodalen großen Sprachmodellen (MLLMs) zu ermöglichen. MLLMs werden trainiert, um Vision und Sprache in demselben Einbettungsraum abzubilden, doch können sie nicht die gleichen Aufgaben in beiden Modalitäten ausführen. Unsere Benchmarks enthalten Proben mit derselben semantischen Information in drei Modalitäten (Bild, Text, gemischt), und wir zeigen, dass state-of-the-art MLLMs nicht konsistent über diese verschiedenen Modalitäten hinweg schlussfolgern können. Wir evaluieren 15 MLLMs und stellen fest, dass das Ausmaß der Modalitätsinkonsistenz erheblich variiert, selbst wenn Probleme mit Texterkennung (OCR) berücksichtigt werden. Weder das Rendern von Text als Bild noch das Rendern eines Bildes als Text löst die Inkonsistenz. Selbst wenn die OCR korrekt ist, stellen wir fest, dass visuelle Merkmale (Textfarbe und Auflösung, aber nicht Schriftart) und die Anzahl der Vision-Tokens einen Einfluss auf die Modellleistung haben. Schließlich finden wir, dass unser Konsistenz-Score mit der Modalitätslücke zwischen Text und Bildern korreliert, was eine mechanistische Interpretation von kreuzmodal inkonsistenten MLLMs hervorhebt.
Seit Jahrzehnten werden prozedurale Welten auf Grundlage von prozeduralen Rauschfunktionen wie Perlin-Rauschen erstellt, die zwar schnell und unendlich sind, jedoch grundlegend in ihrer Realitätsnähe und großräumigen Kohärenz begrenzt. Wir stellen Terrain Diffusion vor, einen Nachfolger des Perlin-Rauschens für das KI-Zeitalter, der die Detailtreue von Diffusionsmodellen mit den Eigenschaften vereint, die prozedurales Rauschen unverzichtbar machten: nahtlose unendliche Ausdehnung, Seed-Konsistenz und konstantzeittigen Direktzugriff. Kernstück ist InfiniteDiffusion, ein neuartiger Algorithmus für unendliche Generierung, der die nahtlose Echtzeitsynthese grenzenloser Landschaften ermöglicht. Ein hierarchischer Stack von Diffusionsmodellen verknüpft planetaren Kontext mit lokalen Details, während eine kompakte Laplace-Kodierung die Ausgaben über erdskalige Dynamikbereiche stabilisiert. Ein quelloffenes Infinite-Tensor-Framework unterstützt die bearbeitung unbegrenzter Tensoren mit konstantem Speicherbedarf, und Few-Step-Consistency-Distillation ermöglicht eine effiziente Generierung. Gemeinsam etablieren diese Komponenten Diffusionsmodelle als praktische Grundlage für die prozedurale Weltengenerierung, die in der Lage ist, ganze Planeten kohärent, steuerbar und ohne Grenzen zu synthetisieren.