papers.description
Die zunehmende Verbreitung von XR-Geräten hat eine starke Nachfrage nach hochwertigen Stereo-Videos ausgelöst, deren Produktion jedoch nach wie vor kostspielig und anfällig für Artefakte ist. Um diese Herausforderung zu bewältigen, stellen wir StereoWorld vor, ein End-to-End-Framework, das einen vortrainierten Video-Generator für die hochpräzise monokulare-zu-stereo Videogenerierung adaptiert. Unser Framework konditioniert das Modell gemeinsam auf den monokularen Video-Input, während die Generierung explizit durch eine geometrie-bewusste Regularisierung überwacht wird, um die 3D-Strukturtreue zu gewährleisten. Ein räumlich-zeitliches Tiling-Schema ist weiterhin integriert, um eine effiziente Synthese in hoher Auflösung zu ermöglichen. Um Training und Evaluation im großen Maßstab zu ermöglichen, haben wir einen hochauflösenden Stereo-Video-Datensatz mit über 11 Millionen Einzelbildern kuratiert, die an den natürlichen menschlichen Augenabstand (IPD) angepasst sind. Umfangreiche Experimente belegen, dass StereoWorld bisherige Methoden erheblich übertrifft und Stereo-Videos mit überlegener visueller Qualität und geometrischer Konsistenz erzeugt. Die Projektwebseite ist unter https://ke-xing.github.io/StereoWorld/ verfügbar.
Jüngste Fortschritte bei Diffusionsmodellen haben die Bildgenerierung und -bearbeitung erheblich verbessert, doch die Generierung oder Rekonstruktion geschichteter PSD-Dateien mit transparenten Alphakanälen bleibt äußerst anspruchsvoll. Wir stellen OmniPSD vor, ein einheitliches Diffusionsframework, das auf dem Flux-Ökosystem aufbaut und durch In-Context-Learning sowohl Text-zu-PSD-Generierung als auch Bild-zu-PSD-Zerlegung ermöglicht. Für die Text-zu-PSD-Generierung ordnet OmniPSD mehrere Zielebenen räumlich auf einer einzigen Leinwand an und erlernt ihre Kompositionsbeziehungen durch räumliche Aufmerksamkeit, wodurch semantisch kohärente und hierarchisch strukturierte Ebenen entstehen. Für die Bild-zu-PSD-Zerlegung führt es iteratives In-Context-Editing durch, extrahiert und löscht schrittweise textliche und Vordergrundkomponenten, um bearbeitbare PSD-Ebenen aus einem einzigen abgeflachten Bild zu rekonstruieren. Ein RGBA-VAE dient als modulares Repräsentationsmodul, um Transparenz ohne Beeinträchtigung des Strukturlernens zu erhalten. Umfangreiche Experimente mit unserem neuen RGBA-geschichteten Datensatz zeigen, dass OmniPSD hochpräzise Generierung, strukturelle Konsistenz und Transparenzbewusstsein erreicht und ein neues Paradigma für geschichtete Designgenerierung und -zerlegung mit Diffusions-Transformatoren bietet.
Die Frage, wie das menschliche Gehirn visuelle Konzepte repräsentiert und in welchen Gehirnregionen diese Repräsentationen kodiert sind, bleibt eine langjährige Herausforderung. Jahrzehntelange Forschung hat unser Verständnis visueller Repräsentationen erweitert, dennoch sind Hirnsignale weiterhin umfangreich und komplex, und der Raum möglicher visueller Konzepte ist immens. Infolgedessen bleiben die meisten Studien kleinräumig, stützen sich auf manuelle Inspektion, konzentrieren sich auf spezifische Regionen und Eigenschaften und beinhalten selten systematische Validierung. Wir stellen ein großskaliges, automatisiertes Framework zur Entdeckung und Erklärung visueller Repräsentationen across the human cortex vor. Unser Verfahren umfasst zwei Hauptschritte. Zuerst entdecken wir kanditative, interpretierbare Muster in der fMRT-Aktivität durch unüberwachte, datengesteuerte Dekompositionsmethoden. Anschließend erklären wir jedes Muster, indem wir die Menge der natürlichen Bilder identifizieren, die es am stärksten hervorrufen, und eine natürlichsprachliche Beschreibung ihrer gemeinsamen visuellen Bedeutung generieren. Um diesen Prozess zu skalieren, führen wir eine automatisierte Pipeline ein, die mehrere kanditative Erklärungen testet, quantitative Zuverlässigkeitswerte zuweist und die konsistenteste Beschreibung für jedes Voxelmuster auswählt. Unser Framework enthüllt tausende interpretierbarer Muster, die viele verschiedene visuelle Konzepte umfassen, einschließlich fein granulärer Repräsentationen, die bisher nicht berichtet wurden.
Visuelle Konzeptkomposition, die darauf abzielt, verschiedene Elemente aus Bildern und Videos in eine einzige kohärente visuelle Ausgabe zu integrier, scheitert nach wie vor daran, komplexe Konzepte aus visuellen Eingaben präzise zu extrahieren und Konzepte aus Bildern und Videos flexibel zu kombinieren. Wir stellen Bind & Compose vor, eine One-Shot-Methode, die flexible visuelle Konzeptkomposition ermöglicht, indem visuelle Konzepte mit entsprechenden Prompt-Tokens verknüpft und der Ziel-Prompt mit gebundenen Tokens aus verschiedenen Quellen zusammengesetzt wird. Die Methode verwendet eine hierarchische Binder-Struktur für Cross-Attention-Conditioning in Diffusion Transformern, um visuelle Konzepte in entsprechende Prompt-Tokens zu kodieren und so eine präzise Zerlegung komplexer visueller Konzepte zu ermöglichen. Um die Genauigkeit der Konzept-Token-Bindung zu verbessern, entwickeln wir einen Diversify-and-Absorb-Mechanismus, der einen zusätzlichen absorbierenden Token verwendet, um den Einfluss konzeptirrelevanter Details während des Trainings mit diversifizierten Prompts zu eliminieren. Um die Kompatibilität zwischen Bild- und Videokonzepten zu steigern, präsentieren wir eine Strategie zur zeitlichen Entflechtung, die den Trainingsprozess von Videokonzepten in zwei Stufen entkoppelt und eine Zweig-Binder-Struktur für die zeitliche Modellierung verwendet. Evaluationen zeigen, dass unsere Methode im Vergleich zu bestehenden Ansätzen überlegene Konzeptkonsistenz, Prompt-Treue und Bewegungsqualität erreicht und neue Möglichkeiten für visuelle Kreativität eröffnet.
Wir stellen MotionEdit vor, einen neuartigen Datensatz für motionszentrierte Bildbearbeitung – die Aufgabe, Subjektaktionen und Interaktionen zu modifizieren, während Identität, Struktur und physikalische Plausibilität erhalten bleiben. Im Gegensatz zu bestehenden Bildbearbeitungsdatensätzen, die sich auf statische Erscheinungsänderungen konzentrieren oder nur spärliche, qualitativ minderwertige Bewegungsbearbeitungen enthalten, bietet MotionEdit hochwertige Bildpaare, die realistische Bewegungstransformationen darstellen, die aus kontinuierlichen Videos extrahiert und verifiziert wurden. Diese neue Aufgabe ist nicht nur wissenschaftlich anspruchsvoll, sondern auch praktisch bedeutsam, da sie nachgelagerte Anwendungen wie rahmengesteuerte Videosynthese und Animation ermöglicht. Um die Modellleistung bei dieser neuartigen Aufgabe zu bewerten, führen wir MotionEdit-Bench ein, einen Benchmark, der Modelle mit motionszentrierten Bearbeitungen konfrontiert und die Modellleistung mit generativen, diskriminativen und präferenzbasierten Metriken misst. Die Benchmark-Ergebnisse zeigen, dass Bewegungsbearbeitung für bestehende state-of-the-art, diffusionsbasierte Bearbeitungsmodelle nach wie vor eine große Herausforderung darstellt. Um diese Lücke zu schließen, schlagen wir MotionNFT (Motion-guided Negative-aware Fine Tuning) vor, ein Post-Training-Framework, das Bewegungsausrichtungs-Belohnungen basierend darauf berechnet, wie gut der Bewegungsfluss zwischen Eingabe- und modellbearbeiteten Bildern mit der Ground-Truth-Bewegung übereinstimmt, und Modelle so zu präzisen Bewegungstransformationen führt. Umfangreiche Experimente mit FLUX.1 Kontext und Qwen-Image-Edit zeigen, dass MotionNFT die Bearbeitungsqualität und Bewegungstreue beider Basismodelle bei der Bewegungsbearbeitungsaufgabe konsistent verbessert, ohne die allgemeine Bearbeitungsfähigkeit zu beeinträchtigen, was seine Wirksamkeit demonstriert.
Chain-of-Thought (CoT)-Reasoning hat sich bei der Lösung komplexer Aufgaben im Bereich der natürlichen Sprachverarbeitung als äußerst erfolgreich erwiesen, und neuere multimodale Large Language Models (MLLMs) haben dieses Paradigma auf das Video-Reasoning ausgeweitet. Allerdings basieren diese Modelle typischerweise auf langen Reasoning-Ketten und einer großen Anzahl von visuellen Eingabe-Tokens. Motiviert durch empirische Beobachtungen aus unserer Benchmark-Studie stellen wir die Hypothese auf, dass prägnantes Reasoning in Kombination mit einer reduzierten Menge an visuellen Tokens für effektives Video-Reasoning ausreichen könnte. Um diese Hypothese zu evaluieren, entwerfen und validieren wir ein effizientes Post-Training- und Inferenz-Framework, das die Reasoning-Fähigkeit eines Video-MLLMs verbessert. Unser Framework ermöglicht es Modellen, mit komprimierten visuellen Tokens zu operieren und vor der Antwortgebung kurze Reasoning-Spuren zu erzeugen. Die resultierenden Modelle erreichen eine erheblich verbesserte Inferenzeffizienz, liefern wettbewerbsfähige Leistung über diverse Benchmarks hinweg und vermeiden die Abhängigkeit von manuellen CoT-Annotationen oder supervised Fine-Tuning. Zusammengenommen deuten unsere Ergebnisse darauf hin, dass langes, menschenähnliches CoT-Reasoning für allgemeines Video-Reasoning möglicherweise nicht notwendig ist und dass prägnantes Reasoning sowohl effektiv als auch effizient sein kann. Unser Code wird unter https://github.com/LaVi-Lab/Rethink_CoT_Video veröffentlicht.
Fenster-Attention und linearer Attention stellen zwei Hauptstrategien zur Minderung der quadratischen Komplexität und des stetig wachsenden KV-Cache in Vision-Language-Modellen (VLMs) dar. Wir beobachten jedoch, dass fensterbasierte VLMs Leistungseinbußen erleiden, wenn die Sequenzlänge die Fenstergröße überschreitet, während linearer Attention bei informationsintensiven Aufgaben wie OCR und Dokumentenverständnis unterdurchschnittlich abschneidet. Um diese Einschränkungen zu überwinden, schlagen wir InfiniteVL vor – eine VLM-Architektur mit linearer Komplexität, die gleitende Fenster-Attention (SWA) mit Gated DeltaNet kombiniert. Um wettbewerbsfähige multimodale Leistung unter begrenzten Ressourcen zu erreichen, entwerfen wir eine dreistufige Trainingsstrategie bestehend aus Distillation-Pretraining, Instruction-Tuning und Long-Sequence-SFT. Bemerkenswerterweise übertrifft InfiniteVL mit weniger als 2 % der Trainingsdaten führender VLMs nicht nur frühere VLMs mit linearer Komplexität deutlich, sondern erreicht auch die Leistung moderner Transformer-basierter VLMs – bei gleichzeitig effektivem Langzeitgedächtniserhalt. Im Vergleich zu ähnlich großen, durch FlashAttention-2 beschleunigten Transformer-VLMs erzielt InfiniteVL eine mehr als 3,6-fache Inferenzbeschleunigung bei konstanter Latenz und konstantem Speicherbedarf. In Streaming-Video-Verständnisszenarien hält es eine stabile Echtzeit-Prefill-Rate von 24 FPS bei Bewahrung des Langzeitgedächtnis-Caches. Code und Modelle sind verfügbar unter https://github.com/hustvl/InfiniteVL.
Autonome Fahrzeugsysteme (AD) haben in Long-Tail-Szenarien Schwierigkeiten aufgrund begrenzten Weltwissens und schwacher visueller dynamischer Modellierung. Bestehende, auf Vision-Language-Action (VLA) basierende Methoden können unmarkierte Videos nicht für visuelles kausales Lernen nutzen, während Methoden auf Basis von Weltmodellen die Reasoning-Fähigkeiten großer Sprachmodelle vermissen lassen. In diesem Artikel konstruieren wir mehrere spezialisierte Datensätze, die Reasoning- und Planungsannotationen für komplexe Szenarien bereitstellen. Anschließend wird ein einheitliches Understanding-Generation-Planning-Framework namens UniUGP vorgeschlagen, das Szenenreasoning, zukünftige Videogenerierung und Trajektorienplanung durch eine hybride Expertenarchitektur synergistisch verbindet. Durch die Integration vortrainierter VLMs und Videogenerierungsmodelle nutzt UniUGP visuelle Dynamik und semantisches Reasoning, um die Planungsleistung zu verbessern. Es nimmt Multiframe-Beobachtungen und Sprachinstruktionen als Eingabe und erzeugt interpretierbares Chain-of-Thought-Reasoning, physikalisch konsistente Trajektorien und kohärente Zukunfts-Videos. Wir führen eine vierstufige Trainingsstrategie ein, die diese Fähigkeiten schrittweise über mehrere bestehende AD-Datensätze sowie die vorgeschlagenen spezialisierten Datensätze hinweg aufbaut. Experimente demonstrieren state-of-the-art Leistung in Wahrnehmung, Reasoning und Entscheidungsfindung mit überlegener Generalisierung auf anspruchsvolle Long-Tail-Situationen.
Vision-Language-Action (VLA)-Modelle haben kürzlich die robotische Manipulation ermöglicht, indem sie visuelle und linguistische Hinweise in Aktionen verankern. Die meisten VLA-Modelle gehen jedoch von der Markov-Eigenschaft aus, stützen sich also nur auf die aktuelle Beobachtung und leiden folglich unter temporaler Kurzsichtigkeit, was die Kohärenz über lange Zeithorizonte beeinträchtigt. In dieser Arbeit betrachten wir Bewegung als eine kompaktere und informativer Repräsentation des zeitlichen Kontexts und der Weltdynamik, die Zustandsänderungen erfasst und gleichzeitig statisches Rauschen auf Pixelebene filtert. Aufbauend auf dieser Idee schlagen wir HiF-VLA (Hindsight, Insight, and Foresight for VLAs) vor, einen einheitlichen Rahmen, der Bewegung für bidirektionale temporale Reasoning-Prozesse nutzt. HiF-VLA kodiert vergangene Dynamiken durch Hindsight-Priors, antizipiert zukünftige Bewegungen mittels Foresight-Reasoning und integriert beide durch einen hindsight-modulierten Joint Expert, um ein „Denken-während-des-Handelns“-Paradigma für langfristige Manipulationsaufgaben zu ermöglichen. Infolgedessen übertrifft HiF-VLA starke Baseline-Modelle auf den LIBERO-Long- und CALVIN-ABC-D-Benchmarks bei vernachlässigbarer zusätzlicher Inferenzlatenz. Darüber hinaus erzielt HiF-VLA erhebliche Verbesserungen bei realen langfristigen Manipulationsaufgaben, was seine breite Wirksamkeit in praktischen robotischen Anwendungen demonstriert.
Wir stellen WonderZoom vor, einen neuartigen Ansatz zur Erzeugung von 3D-Szenen mit Inhalten über mehrere räumliche Skalen hinweg aus einem einzelnen Bild. Bestehende 3D-Weltgenerierungsmodelle beschränken sich nach wie vor auf die Einzelskalen-Synthese und können keine kohärenten Szeneninhalte mit unterschiedlichen Detaillierungsgraden erzeugen. Die grundlegende Herausforderung ist das Fehlen einer skalensensitiven 3D-Darstellung, die in der Lage ist, Inhalte mit sehr unterschiedlichen räumlichen Größen zu generieren und darzustellen. WonderZoom adressiert dies durch zwei zentrale Innovationen: (1) skalierungsadaptive Gauß'sche Surfel für die Erzeugung und Echtzeitdarstellung von 3D-Szenen mit mehreren Skalen und (2) einen progressiven Detail-Synthesizer, der iterativ feinere 3D-Inhalte erzeugt. Unser Ansatz ermöglicht es Nutzern, in eine 3D-Region "hineinzuzoomen" und autoregressiv zuvor nicht vorhandene feine Details von Landschaften bis hin zu mikroskopischen Merkmalen zu synthetisieren. Experimente zeigen, dass WonderZoom state-of-the-art Video- und 3D-Modelle sowohl in Qualität als auch Übereinstimmung signifikant übertrifft und die Erschaffung von 3D-Welten mit mehreren Skalen aus einem einzelnen Bild ermöglicht. Wir zeigen Videoergebnisse und einen interaktiven Viewer der generierten 3D-Welten mit mehreren Skalen unter https://wonderzoom.github.io/.
Diffusionsbasierte große Sprachmodelle (dLLMs) bieten eine vielversprechende Alternative zu autoregressiven Modellen, doch ihr praktischer Nutzen wird durch langsames, iteratives Sampling erheblich beeinträchtigt. Wir stellen SchED vor, einen trainingsfreien, modellagnostischen Early-Exit-Algorithmus, der Logit-Margins über die gesamte Spanne aggregiert und die Dekodierung anhält, sobald ein glatter, fortschrittsabhängiger Konfidenzschwellenwert erreicht ist. Wir evaluierten SchED an zwei dLLM-Familien (Dream und LLaDA) in Basis- und Instruction-Tuned-Varianten über zehn Benchmarks hinweg, die Downstream-Aufgaben wie Multiple-Choice-Fragebeantwortung (MCQ), Mathematik, Langform-QA/Zusammenfassung und Übersetzung abdecken. SchED erzielt große, stabile Beschleunigungen: Bei instruction-getunten Modellen erreicht es eine 3,8- bis 4,0-fache Beschleunigung bei gleichzeitigem Erhalt von durchschnittlich 99,8–100 % der Baseline-Punktzahl. Bei Basismodellen erbringt SchED konsistenten Beschleunigungsgewinn bei 99,1–100 % Leistungserhalt, mit bis zu 2,34-facher Beschleunigung unter aggressiveren Einstellungen. Unter Verwendung einer konservativen Geschwindigkeitsmetrik, die Qualitätseinbußen stark bestraft (QPS, γ=4), zeigen wir, dass SchED robust ist und frühere konfidenzbasierte Early-Exit-Methoden klar übertrifft, die bei Langform-Generierung versagen. Eine Entropieanalyse der Token-Vorhersagen des Modells zeigt, dass Instruction-Tuning den Abfall der prädiktiven Entropie beschleunigt. Indem SchED echte Konfidenzstabilisierung in Recheneinsparungen umwandelt, macht es die dLLM-Dekodierung wesentlich effizienter.
Wissensbearbeitung zielt darauf ab, spezifische Fakten in großen Sprachmodellen (LLMs) zu aktualisieren, ohne ein vollständiges Neutraining durchzuführen. Bisherige Bestrebungen zielten darauf ab, die Wissensebenen von LLMs anzupassen, was sich als wirksam für selektive Bearbeitungen erwiesen hat. Allerdings besteht eine erhebliche Diskrepanz zwischen ihrer Leistung in kontrollierten Teacher-Forcing-Evaluierungen und ihrer tatsächlichen Wirksamkeit in Szenarien des lebenslangen Lernens, was ihre praktische Anwendbarkeit erheblich einschränkt. Die empirische Analyse dieser Arbeit deckt zwei wiederkehrende Probleme im Zusammenhang mit dieser Lücke auf: (1) Die meisten traditionellen Methoden führen dazu, dass das bearbeitete Modell an der neuen Tatsache überanpasst wird, wodurch vortrainierte Fähigkeiten beeinträchtigt werden; (2) Es fehlt kritischerweise eine Phase der Wissenskonsolidierung, sodass neue Fakten unzureichend in das Inferenzzeitverhalten von LLMs unter autoregressiver Generierung integriert werden, was zu einer Diskrepanz zwischen parametrischem Wissen und tatsächlichem Generierungsverhalten führt. Zu diesem Zweck schlagen wir Edit-then-Consolidate vor, ein neuartiges Paradigma zur Wissensbearbeitung, das die Lücke zwischen theoretischen Methoden zur Wissensbearbeitung und ihrer praktischen Anwendbarkeit überbrücken soll. Konkret (1) mildert unser Framework Überanpassung durch Targeted Proximal Supervised Fine-Tuning (TPSFT), das die Bearbeitung über ein Trust-Region-Ziel lokalisiert, um Policy-Drift zu begrenzen; (2) Anschließend richtet eine Konsolidierungsphase mittels Group Relative Policy Optimization (GRPO) das bearbeitete Wissen an der CoT-basierten Inferenz-Policy aus, indem verhaltensbezogene Trajektorien auf Ebene der Trajektorie unter umfassenden Belohnungssignalen optimiert werden. Umfangreiche Experimente belegen, dass unser Framework die Zuverlässigkeit und Generalisierbarkeit von Bearbeitungen unter realen Evaluierungsbedingungen konsistent verbessert und dabei gleichzeitig die Lokalität und vortrainierten Fähigkeiten besser erhält.
Agenten, auf Sprachmodellen (LM) basierende Systeme, die in der Lage sind zu schlussfolgern, zu planen und zu handeln, werden zum dominanten Paradigma für KI-Anwendungen in der realen Welt. Trotz dieser weiten Verbreitung sind die Prinzipien, die ihre Leistung bestimmen, noch unzureichend erforscht, was Praktiker dazu veranlasst, sich eher auf Heuristiken als auf prinzipiengeleitete Designentscheidungen zu verlassen. Wir schließen diese Lücke, indem wir quantitative Skalierungsprinzipien für Agentensysteme ableiten. Wir evaluieren dies anhand von vier verschiedenen Benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft und Workbench. Unter Verwendung von fünf kanonischen Architekturen (Single, Independent, Centralized, Decentralized, Hybrid), die in drei LLM-Familien instanziiert wurden, führen wir eine kontrollierte Evaluation über 180 Konfigurationen mit standardisierten Tools und Token-Budgets durch. Wir leiten ein prädiktives Modell unter Verwendung empirischer Koordinationsmetriken ab, einschließlich Effizienz, Overhead, Fehlerverstärkung und Redundanz, das ein kreuzvalidiertes R²=0,513 erreicht. Wir identifizieren drei dominante Effekte: (1) einen Tool-Koordinations-Zielkonflikt: Unter festen Rechenbudgets leiden tool-intensive Aufgaben überproportional unter Multi-Agenten-Overhead. (2) eine Fähigkeitssättigung: Koordination bringt abnehmende oder negative Erträge (Beta=-0,408, p<0,001), sobald Einzelagenten-Baselines ~45 % überschreiten. (3) topologieabhängige Fehlerverstärkung: Unabhängige Agenten verstärken Fehler um das 17,2-fache durch ungeprüfte Propagation, während zentralisierte Koordination dies auf das 4,4-fache begrenzt. Zentralisierte Koordination verbessert die Leistung bei parallelisierbaren Aufgaben wie finanzieller Entscheidungsfindung um 80,9 %, während dezentrale Koordination bei dynamischer Webnavigation überzeugt (+9,2 % vs. +0,2 %). Bei sequenziellen Reasoning-Aufgaben jedoch verschlechterten alle Multi-Agenten-Varianten die Leistung um 39–70 %. Das Framework sagt die optimale Koordinationsstrategie für 87 % der zurückgehaltenen Konfigurationen voraus und liefert damit ein prädiktives Prinzip für die agentenbasierte Skalierung basierend auf messbaren Aufgabeneigenschaften.
Aufbauend auf dem Erfolg von 3D Gaussian Splatting (3DGS) bei der Darstellung statischer 3D-Szenen hat seine Erweiterung auf dynamische Szenen, häufig als 4DGS oder dynamisches 3DGS bezeichnet, zunehmend Aufmerksamkeit erregt. Die Entwicklung kompakterer und effizienterer Deformationsverfahren zusammen mit ratenverzerrungsoptimierten Kompressionsstrategien für dynamische 3DGS-Repräsentationen ist jedoch nach wie vor ein wenig erforschtes Gebiet. Bisherige Methoden stützen sich entweder auf raumzeitliche 4DGS-Ansätze mit überbestimmten, kurzlebigen Gauß-Primitiven oder auf kanonische 3DGS-Ansätze mit Deformationen, denen eine explizite zeitliche Steuerung fehlt. Um dieses Problem zu adressieren, stellen wir TED-4DGS vor, ein zeitlich aktiviertes und einbettungsbasiertes Deformationsschema für die ratenverzerrungsoptimierte 4DGS-Kompression, das die Stärken beider Familien vereint. TED-4DGS basiert auf einer sparsamen, ankerbasierten 3DGS-Repräsentation. Jedem kanonischen Anker werden lernbare zeitliche Aktivierungsparameter zugewiesen, um seine Erscheinungs- und Verschwindensübergänge über die Zeit zu spezifizieren, während eine leichtgewichtige, ankerspezifische zeitliche Einbettung eine gemeinsame Deformationsbank abfragt, um ankerspezifische Deformationen zu erzeugen. Für die Ratenverzerrungskompression integrieren wir ein auf impliziter neuronaler Repräsentation (INR) basierendes Hyperprior zur Modellierung der Ankerattributverteilungen, zusammen mit einem kanalweisen autoregressiven Modell zur Erfassung intra-Anker-Korrelationen. Mit diesen neuartigen Elementen erzielt unser Schema state-of-the-art Ratenverzerrungsleistung auf mehreren realen Datensätzen. Nach unserem Wissen stellt diese Arbeit einen der ersten Versuche dar, einen ratenverzerrungsoptimierten Kompressionsrahmen für dynamische 3DGS-Repräsentationen zu verfolgen.
Diffusions-(Groß-)Sprachmodelle (dLLMs) erreichen inzwischen bei vielen Aufgaben die nachgelagerte Leistung ihrer autoregressiven Gegenstücke, wobei sie die Aussicht auf höhere Effizienz während des Inferenzvorgangs bieten. Eine besonders erfolgreiche Variante ist die maskierte diskrete Diffusion, bei der ein mit speziellen Maskentokens gefüllter Puffer schrittweise durch Tokens aus dem Vokabular des Modells ersetzt wird. Effizienzgewinne lassen sich durch das parallele Entmaskieren mehrerer Tokens erzielen, doch birgt ein gleichzeitiges Entmaskern zu vieler Tokens das Risiko, die Generierungsqualität zu beeinträchtigen. Daher ist ein entscheidender Gestaltungsaspekt von dLLMs das Sampling-Verfahren, das in jedem Schritt des Diffusionsprozesses auswählt, welche Tokens ersetzt werden sollen. Tatsächlich hat die jüngste Forschung gezeigt, dass heuristische Strategien wie Confidence-Thresholding im Vergleich zum zufälligen Entmaskieren sowohl zu einer höheren Qualität als auch zu einem höheren Token-Durchsatz führen. Solche Heuristiken haben jedoch Nachteile: Sie erfordern eine manuelle Abstimmung, und wir beobachten, dass ihre Leistung mit zunehmender Puffergröße abnimmt. In dieser Arbeit schlagen wir stattdessen vor, Sampling-Verfahren mit bestärkendem Lernen zu trainieren. Konkret formalisieren wir das Sampling bei maskierter Diffusion als Markov-Entscheidungsprozess, bei dem das dLLM als Umgebung dient, und schlagen eine leichtgewichtige Policy-Architektur auf Basis eines Single-Layer-Transformers vor, die die Token-Konfidenzen des dLLM auf Entmaskierungsentscheidungen abbildet. Unsere Experimente zeigen, dass diese trainierten Policies in Kombination mit semi-autoregressiver Generierung die Leistung modernster Heuristiken erreichen und sie im vollständigen Diffusionssetting übertreffen. Wir untersuchen auch die Übertragbarkeit dieser Policies und stellen fest, dass sie auf neue zugrundeliegende dLLMs und längere Sequenzen verallgemeinern können. Allerdings beobachten wir auch, dass ihre Leistung bei der Anwendung auf datenferne Domänen abnimmt und dass eine feinabgestimmte Optimierung des Trade-offs zwischen Genauigkeit und Effizienz mit unserem Ansatz herausfordernd sein kann.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben zu beeindruckenden Verbesserungen in verschiedenen Benchmarks geführt. Allerdings bleibt ihre Fähigkeit zum Verständnis von Infrarotbildern unerforscht. Um diese Lücke zu schließen, stellen wir IF-Bench vor, den ersten hochwertigen Benchmark zur Bewertung des multimodalen Verständnisses von Infrarotbildern. IF-Bench umfasst 499 Bilder aus 23 Infrarot-Datensätzen sowie 680 sorgfältig zusammengestellte visuelle Frage-Antwort-Paare, die 10 wesentliche Dimensionen des Bildverständnisses abdecken. Auf Basis dieses Benchmarks evaluieren wir systematisch über 40 Open-Source- und Closed-Source-MLLMs und setzen zyklische Evaluation, bilinguale Bewertung und hybride Beurteilungsstrategien ein, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Unsere Analyse zeigt, wie Modellgröße, Architektur und Inferenzparadigmen das Infrarotbildverständnis beeinflussen, und liefert wertvolle Erkenntnisse für dieses Gebiet. Darüber hinaus schlagen wir eine trainierungsfreie Generative Visual Prompting (GenViP)-Methode vor, die fortschrittliche Bildbearbeitungsmodelle nutzt, um Infrarotbilder in semantisch und räumlich ausgerichtete RGB-Pendants zu übersetzen und so Domänenverteilungsverschiebungen zu mildern. Umfangreiche Experimente belegen, dass unsere Methode durchgängig signifikante Leistungsverbesserungen über eine breite Palette von MLLMs hinweg erzielt. Der Benchmark und Code sind unter https://github.com/casiatao/IF-Bench verfügbar.
Autoregressive (AR) Diffusion ermöglicht die Erzeugung von langen Videos in Echtzeit (Streaming) und interaktiv, indem Frames kausal erzeugt werden. Dennoch bleibt die Aufrechterhaltung der Kohärenz über Minuten hinweg eine Herausforderung aufgrund von akkumulierten Fehlern, Bewegungsdrift und Inhaltswiederholungen. Wir nähern uns diesem Problem aus einer Gedächtnisperspektive und betrachten die Videosynthese als einen rekurrenten dynamischen Prozess, der koordinierte Kurz- und Langzeitkontexte erfordert. Wir schlagen VideoSSM vor, ein Langvideo-Modell, das AR-Diffusion mit einem hybriden Zustandsraum-Gedächtnis vereint. Das Zustandsraummodell (SSM) dient als sich entwickelndes globales Gedächtnis für die Szenendynamik über die gesamte Sequenz hinweg, während ein Kontextfenster lokales Gedächtnis für Bewegungsimpulse und feine Details bereitstellt. Dieser hybride Entwurf bewahrt globale Konsistenz ohne eingefrorene, repetitive Muster, unterstützt prompt-adaptive Interaktion und skaliert in linearer Zeit mit der Sequenzlänge. Experimente auf Benchmarks für kurze und lange Reichweiten demonstrieren state-of-the-art zeitliche Konsistenz und Bewegungsstabilität unter autoregressiven Videogeneratoren, insbesondere im Minutenbereich. Dies ermöglicht Inhaltsvielfalt und interaktive, promptbasierte Steuerung und etabliert so einen skalierbaren, gedächtnisbewussten Rahmen für die Erzeugung langer Videos.
Leichte, echtzeitfähige Text-zu-Sprache-Systeme sind entscheidend für Barrierefreiheit. Allerdings basieren die effizientesten TTS-Modelle oft auf einfachen Phonemisierern, die mit kontextabhängigen Herausforderungen kämpfen. Im Gegensatz dazu verursachen fortschrittlichere Phonemisierer mit tieferem linguistischem Verständnis typischerweise hohe Rechenkosten, was Echtzeitfähigkeit verhindert. Diese Arbeit untersucht den Zielkonflikt zwischen Phonemisierungsqualität und Inferenzgeschwindigkeit in G2P-gestützten TTS-Systemen und stellt einen praktischen Rahmen vor, um diese Lücke zu schließen. Wir schlagen leichte Strategien für kontextbewusste Phonemisierung sowie eine dienstorientierte TTS-Architektur vor, die diese Module als unabhängige Dienste ausführt. Dieses Design entkoppelt rechenintensive, kontextbewusste Komponenten von der TTS-Hauptengine, durchbricht die Latenzbarriere effektiv und ermöglicht so den Echtzeiteinsatz hochwertiger Phonemisierungsmodelle. Experimentelle Ergebnisse bestätigen, dass das vorgeschlagene System die Aussprachekorrektheit und linguistische Genauigkeit verbessert und dabei Echtzeitreaktionsfähigkeit beibehält. Dies macht es besonders geeignet für Offline- und Endgeräte-TTS-Anwendungen.
Um den Kompromiss zwischen Robustheit und Leistung bei robusten VLMs zu adressieren, beobachten wir, dass Funktionswörter die Anfälligkeit von VLMs gegenüber cross-modalen Adversarial-Angriffen verursachen können, und schlagen entsprechend Function-word De-Attention (FDA) vor, um den Einfluss von Funktionswörtern zu mildern. Ähnlich wie Differenzverstärker berechnet unsere FDA die ursprüngliche und die Funktionswort-Cross-Attention innerhalb von Attention-Heads und subtrahiert letztere differenziell von ersterer, um besser ausgerichtete und robustere VLMs zu erhalten. Umfassende Experimente umfassen 2 State-of-the-Art-Baselines unter 6 verschiedenen Angriffen auf 2 Downstream-Aufgaben, 3 Datensätzen und 3 Modellen. Insgesamt erzielt unsere FDA durchschnittlich eine Reduktion der ASR um 18/13/53 % bei lediglich Leistungseinbußen von 0,2/0,3/0,6 % auf den 3 getesteten Modellen beim Retrieval, sowie eine ASR-Reduktion von 90 % bei einem Leistungszuwachs von 0,3 % beim Visual Grounding. Wir demonstrieren experimentell die Skalierbarkeit, Generalisierbarkeit und Zero-Shot-Leistung von FDA sowie eingehende Ablationsstudien und Analysen. Der Code wird unter https://github.com/michaeltian108/FDA öffentlich verfügbar sein.
Klinische Dialoge verkörpern eine komplexe Dualität, die sowohl die empathische Flüssigkeit natürlicher Konversation als auch die strenge Präzision evidenzbasierter Medizin erfordert. Während Large Language Models über beispiellose linguistische Fähigkeiten verfügen, begünstigt ihre architektonische Abhängigkeit von reaktiver und zustandsloser Verarbeitung oft probabilistische Plausibilität gegenüber faktischer Korrektheit. Diese strukturelle Limitation hat einen Paradigmenwechsel in der medizinischen KI katalysiert – von generativer Textvorhersage hin zu agentenbasierter Autonomie, bei der das Modell als zentrale Reasoning-Engine fungiert, die zu deliberatem Planen und persistenter Speicherung fähig ist. Über bestehende Übersichtsarbeiten hinausgehend, die primär Downstream-Anwendungen katalogisieren, bietet dieser Survey eine Analyse der kognitiven Architektur dieses Wandels aus ersten Prinzipien. Wir führen eine neuartige Taxonomie ein, die entlang der orthogonalen Achsen Wissensquelle und Agentenziele strukturiert ist, um die Herkunft klinischen Wissens gegen den operationellen Scope des Systems abzugrenzen. Dieser Rahmen ermöglicht eine systematische Analyse der intrinsischen Trade-offs zwischen Kreativität und Verlässlichkeit, indem Methoden in vier Archetypen kategorisiert werden: Latent Space Clinicians, Emergent Planners, Grounded Synthesizers und Verifiable Workflow Automators. Für jedes Paradigma dekonstruieren wir die technische Realisierung entlang der gesamten kognitiven Pipeline – strategische Planung, Speicherverwaltung, Aktionsausführung, Kollaboration und Evolution – um aufzuzeigen, wie unterschiedliche Architekturentscheidungen die Spannung zwischen Autonomie und Sicherheit austarieren.
Jüngste Fortschritte in der Text-zu-Video-Generierung haben eine bemerkenswerte Realitätstreue erreicht, doch die feinkörnige Steuerung von Kamerabewegung und -ausrichtung bleibt eine Herausforderung. Bestehende Ansätze kodieren Kameratrajektorien typischerweise durch relative oder mehrdeutige Repräsentationen, was eine explizite geometrische Kontrolle einschränkt. Wir stellen GimbalDiffusion vor, ein Framework, das Kamerasteuerung in physikalischen Weltkoordinaten ermöglicht und dabei die Schwerkraft als globalen Referenzpunkt nutzt. Anstatt Bewegungen relativ zu vorherigen Bildern zu beschreiben, definiert unsere Methode Kameratrajektorien in einem absoluten Koordinatensystem, was eine präzise und interpretierbare Kontrolle der Kameraparameter ohne benötigten Referenzrahmen ermöglicht. Wir nutzen panoramische 360-Grad-Videos, um eine Vielzahl von Kameratrajektorien zu konstruieren, die weit über die vorwiegend geradlinigen, vorwärtsgerichteten Trajektorien in konventionellen Videodaten hinausgehen. Um die Kameraführung weiter zu verbessern, führen wir Null-Neigungs-Konditionierung (null-pitch conditioning) ein, eine Annotationsstrategie, die die Abhängigkeit des Modells von Textinhalten reduziert, wenn diese mit Kameraspezifikationen im Konflikt stehen (z.B. die Generierung von Gras, während die Kamera zum Himmel zeigt). Schließlich etablieren wir einen Maßstab für kamerabewusste Videogenerierung, indem wir SpatialVID-HQ für eine umfassende Bewertung unter großer Variation der Kameraneigung neu gewichten. Zusammengenommen fördern diese Beiträge die Steuerbarkeit und Robustheit von Text-zu-Video-Modellen und ermöglichen eine präzise, schwerkraftausgerichtete Kameramanipulation innerhalb generativer Frameworks.
Die Beschaffung von Bitcoin-Mining-Hardware erfordert strategisches Timing aufgrund volatiler Märkte, rascher technologischer Obsoleszenz und protokollgesteuerter Ertragszyklen. Obwohl sich das Mining zu einer kapitalintensiven Industrie entwickelt hat, gibt es wenig Orientierungshilfen für den optimalen Zeitpunkt zum Kauf neuer anwendungsspezifischer integrierter Schaltkreise (ASIC) und bisher keine rechnerischen Frameworks für diese Entscheidungsproblematik. Wir schließen diese Lücke, indem wir die Hardwarebeschaffung als Zeitreihenklassifizierungsaufgabe formulieren, die vorhersagt, ob der Kauf von ASIC-Maschinen innerhalb eines Jahres profitable (Return on Investment (ROI) ≥ 1), marginale (0 < ROI < 1) oder unprofitable (ROI ≤ 0) Erträge erzielt. Wir präsentieren MineROI-Net, eine quelloffene Transformer-basierte Architektur, die entwickelt wurde, um mehrskalige temporale Muster in der Mining-Rentabilität zu erfassen. Ausgewertet an Daten von 20 ASIC-Minern, die zwischen 2015 und 2024 in verschiedenen Marktregimen veröffentlicht wurden, übertrifft MineROI-Net LSTM-basierte und TSLANet-Baselines mit einer Genauigkeit von 83,7 % und einem makro F1-Score von 83,1 %. Das Modell zeigt starke ökonomische Relevanz, erreicht eine Präzision von 93,6 % bei der Erkennung unprofitabler Perioden und 98,5 % für profitable Perioden, während es Fehlklassifikationen profitabler Szenarien als unprofitabel und umgekehrt vermeidet. Diese Ergebnisse deuten darauf hin, dass MineROI-Net ein praktisches, datengestütztes Werkzeug für das Timing von Mining-Hardware-Beschaffungen bietet und potenziell das finanzielle Risiko in kapitalintensiven Mining-Operationen reduziert. Das Modell ist verfügbar unter: https://github.com/AMAAI-Lab/MineROI-Net.