papers.description
Bestehende diffusionsbasierte Videoerzeugungsmethoden sind grundlegend durch sequenzielle Berechnung und Inkonsistenzen über lange Zeiträume eingeschränkt, was ihre praktische Anwendung in Echtzeit-Streaming-Anwendungen mit audiogesteuerter Avatarsynthese limitiert. Wir präsentieren Live Avatar, ein co-designiertes Algorithmus-System-Framework, das eine effiziente, hochauflösende und unbegrenzt lange Avatarerzeugung mit einem 14-Milliarden-Parameter-Diffusionsmodell ermöglicht. Unser Ansatz führt Timestep-forcing Pipeline Parallelism (TPP) ein, ein verteiltes Inferenzparadigma, das Denoising-Schritte über mehrere GPUs pipelined und so den autoregressiven Engpass durchbricht sowie stabile Echtzeit-Streaming mit niedriger Latenz gewährleistet. Um die zeitliche Konsistenz weiter zu verbessern sowie Identitätsdrift und Farbartefakte zu reduzieren, schlagen wir den Rolling Sink Frame Mechanism (RSFM) vor, der die Sequenztreue durch dynamische Neukalibrierung des Erscheinungsbildes mittels eines zwischengespeicherten Referenzbildes aufrechterhält. Zusätzlich nutzen wir Self-Forcing Distribution Matching Distillation, um eine kausale, streamfähige Adaption großer Modelle ohne Einbußen bei der visuellen Qualität zu ermöglichen. Live Avatar demonstriert State-of-the-Art-Leistung und erreicht eine Ende-zu-Ende-Generierung von 20 FPS auf 5 H800-GPUs. Nach unserem Wissen ist es der erste Ansatz, der eine praktisch einsetzbare, echtzeitfähige und hochauflösende Avatarerzeugung in dieser Skalierung erreicht. Unsere Arbeit etabliert ein neues Paradigma für den Einsatz fortgeschrittener Diffusionsmodelle in industriellen Anwendungen zur Synthese langformatiger Videos.
Praktische Data-Intelligence-Workflows in Unternehmen umfassen Data Engineering, das Rohdatenquellen in analysiertereife Tabellen überführt, und Datenanalyse, die diese Tabellen in entscheidungsorientierte Erkenntnisse umwandelt. Wir stellen DAComp vor, einen Benchmark mit 210 Aufgaben, der diese komplexen Workflows widerspiegelt. Data-Engineering(DE)-Aufgaben erfordern repository-weites Engineering an industriellen Schemata, einschließlich des Designs und der Erstellung mehrstufiger SQL-Pipelines von Grund auf sowie der Weiterentwicklung bestehender Systeme unter sich ändernden Anforderungen. Data-Analysis(DA)-Aufgaben stellen offene Geschäftsprobleme dar, die strategische Planung, explorative Analyse durch iteratives Codieren, Interpretation von Zwischenergebnissen und die Synthese umsetzbarer Empfehlungen erfordern. Engineering-Aufgaben werden durch eine ausführungsbasierte, multimetrische Evaluation bewertet. Offene Aufgaben werden von einem zuverlässigen, experimentell validierten LLM-Judge beurteilt, der durch hierarchische, sorgfältig erstellte Bewertungsraster geleitet wird. Unsere Experimente zeigen, dass selbst modernste Agenten bei DAComp scheitern. Die Leistung bei DE-Aufgaben ist besonders gering, mit Erfolgsquoten unter 20 %, was einen kritischen Engpass in der ganzheitlichen Pipeline-Orchestrierung und nicht nur in der Code-Generierung offenlegt. Die Bewertungen bei DA-Aufgaben liegen im Durchschnitt ebenfalls unter 40 %, was tiefgreifende Defizite im offenen Schlussfolgern aufzeigt und demonstriert, dass Engineering und Analyse unterschiedliche Fähigkeiten sind. Indem DAComp diese Grenzen klar diagnostiziert, bietet es eine rigorose und realistische Testumgebung, um die Entwicklung wirklich fähiger autonomer Datenagenten für Unternehmensumgebungen voranzutreiben. Unsere Daten und unser Code sind verfügbar unter https://da-comp.github.io.
Die Entwicklung großer Sprachmodelle (LLMs) von passiven Respondern zu autonomen Agenten erfordert einen grundlegenden Wandel der Lernparadigmen – von statischer Imitation hin zu anreizgesteuertem Entscheidungsverhalten. Dieser Übergang wird jedoch erheblich durch den Mangel an skalierbarer Infrastruktur behindert, die in der Lage ist, hochwertige Interaktionssignale für effektives Policy-Learning zu erzeugen. Um dies zu lösen, stellen wir eine umfassende Methode vor, die darauf ausgelegt ist, die Diversität und Komplexität interaktiver Umgebungen systematisch zu skalieren. Unsere Methode realisiert diese Skalierung durch die Adressierung dreier orthogonaler Dimensionen: (1) Komplexität: NexAU, ein flexibles Agenten-Framework, das den Aufbau komplexer Agentenhierarchien über einfache Konfigurationen unterstützt; (2) Diversität: NexA4A generiert automatisch diverse Agentenhierarchien aus natürlicher Sprache, um unendliche Domänen abzudecken; und (3) Treue: NexGAP überbrückt die Simulations-Reality-Lücke durch die Integration dynamischer Real-World-Umgebungen zur Synthese geerdeter Trajektorien. Wir trainieren Nex-N1 auf den durch unsere Infrastruktur geschaffenen diversen und komplexen interaktiven Umgebungen. Empirische Ergebnisse auf Benchmarks wie SWE-bench und tau2 zeigen, dass Nex-N1 durchgängig state-of-the-art Open-Source-Modelle übertrifft und bei komplexen agentenbasierten Aufgaben wettbewerbsfähige Leistung gegenüber führenden proprietären Modellen erzielt. Wir veröffentlichen das Nex-Ökosystem und die Modellgewichte als Open Source, um die weitere Forschung zu fördern.
Große Sprachmodelle werden zunehmend in akademische Schreibprozesse integriert, doch bestehende Assistenten bleiben extern zum Editor, was eine tiefgreifende Interaktion mit Dokumentzustand, -struktur und Versionsverlauf verhindert. Diese Trennung macht es unmöglich, agentenbasierte, kontextsensitive Operationen direkt in LaTeX-Editoren wie Overleaf zu unterstützen. Wir stellen PaperDebugger vor, einen editor-internen, Multi-Agenten- und plugin-basierten akademischen Schreibassistenten, der LLM-gesteuertes Reasoning direkt in die Schreibumgebung bringt. Die Ermöglichung einer solchen Editor-internen Interaktion ist technisch anspruchsvoll: Sie erfordert eine zuverlässige bidirektionale Synchronisation mit dem Editor, feingranulare Versionskontrolle und Patch-Management, sichere Zustandsverwaltung, Multi-Agenten-Scheduling und erweiterbare Kommunikation mit externen Tools. PaperDebugger adressiert diese Herausforderungen durch eine Chrome-zertifizierte Erweiterung, eine Kubernetes-native Orchestrierungsschicht und eine Model Context Protocol (MCP)-Toolchain, die Literaturrecherche, Referenzabfrage, Dokumentenbewertung und Revisionspipelines integriert. Unsere Demo zeigt einen vollständig integrierten Workflow, einschließlich lokalisierter Bearbeitungen, strukturierter Überprüfungen, paralleler Agentenausführung und diff-basierter Updates, eingebettet in eine minimal-invasive Benutzeroberfläche. Erste aggregierte Analysen zeigen eine aktive Nutzerbeteiligung und validieren die Praxistauglichkeit eines editor-nativen, agentenbasierten Schreibassistenten. Weitere Details zu dieser Demo und ein Video sind unter https://github.com/PaperDebugger/PaperDebugger verfügbar.
Belohnungsmodelle sind entscheidend für die Ausrichtung von Vision-Language-Systemen an menschlichen Präferenzen, doch aktuelle Ansätze leiden unter Halluzinationen, schwacher visueller Verankerung und der Unfähigkeit, Werkzeuge zur Verifikation zu nutzen, was ihre Zuverlässigkeit bei komplexen multimodalen Reasoning-Aufgaben einschränkt. Wir präsentieren ARM-Thinker, ein agentisches multimodales Belohnungsmodell, das eigenständig externe Werkzeuge (z.B. Bildausschnitte, Dokumentenseiten-Retrieval) aufruft, um Urteile in überprüfbaren Evidenzen zu verankern, anstatt statische, nicht-interaktive Belohnungsbewertungen zu verwenden. Dies ermöglicht dem Modell, feinkörnige visuelle Details zu verifizieren, mehrseitige Evidenzen gegenzuprüfen und Reasoning-Behauptungen zu validieren – Fähigkeiten, die in bestehenden Belohnungsmodellen fehlen. Wir trainieren ARM-Thinker mit mehrstufigem Reinforcement Learning, das Werkzeugaufruf-Entscheidungen und Urteilsgenauigkeit gemeinsam optimiert. Zur Evaluierung agentischer Belohnungsmodellierung führen wir ARMBench-VL ein, bestehend aus drei Benchmarks, die feinkörnige visuelle Verankerung (Bildwerkzeuge), mehrseitiges Dokumentenverständnis (Retrieval-Werkzeuge) und Instruktionsbefolgung (Textverifikation) bewerten. ARM-Thinker erzielt eine durchschnittliche Verbesserung von +16,2 % auf Belohnungsmodellierungs-Benchmarks, +9,6 % bei Werkzeugnutzungsaufgaben und übertrifft Baseline-Modelle auf multimodalen Mathematik- und logischen Reasoning-Benchmarks. Unsere Ergebnisse demonstrieren, dass agentische Fähigkeiten sowohl die Genauigkeit als auch die Interpretierbarkeit von Belohnungsmodellen signifikant verbessern.
Latente Diffusionsmodelle (LDMs) folgen inhärent einem grob-zu-fein-Generierungsprozess, bei dem die semantische Hochlevel-Struktur geringfügig früher generiert wird als die feingranulare Textur. Dies deutet darauf hin, dass die vorausgehende Semantik die Texturgenerierung potenziell begünstigt, indem sie einen semantischen Anker bereitstellt. Jüngste Fortschritte integrieren semantische Priors von vortrainierten visuellen Encodern, um LDMs weiter zu verbessern; dennoch entrauschen diese Semantik und VAE-codierte Textur synchron und vernachlässigen diese Reihenfolge. Aufbauend auf diesen Beobachtungen schlagen wir Semantic-First Diffusion (SFD) vor, ein latentes Diffusionsparadigma, das die semantische Formation explizit priorisiert. SFD konstruiert zunächst composite Latents, indem ein kompaktes semantisches Latent – extrahiert von einem vortrainierten visuellen Encoder via eines dedizierten Semantic VAE – mit dem Texturlatent kombiniert wird. Der Kern von SFD besteht darin, die semantischen und texturbezogenen Latents asynchron mit separaten Rauschzeitplänen zu entrauschen: Die Semantik geht der Textur um einen zeitlichen Versatz voraus, liefert so klarere Hochlevel-Vorgaben für die Texturverfeinerung und ermöglicht eine natürliche grob-zu-fein-Generierung. Auf ImageNet 256x256 mit Guidance erreicht SFD FID 1.06 (LightningDiT-XL) und FID 1.04 (1.0B LightningDiT-XXL) bei gleichzeitig bis zu 100-fach schnellerer Konvergenz als das originale DiT. SFD verbessert auch bestehende Methoden wie ReDi und VA-VAE, was die Wirksamkeit der asynchronen, semantikgeführten Modellierung demonstriert. Projektseite und Code: https://yuemingpan.github.io/SFD.github.io/.
Effiziente Streaming-Videogenerierung ist entscheidend für die Simulation interaktiver und dynamischer Welten. Bestehende Methoden destillieren Videodiffusionsmodelle mit wenigen Schritten unter Verwendung von Sliding-Window-Attention, wobei Anfangsrahmen als Sink-Tokens genutzt werden, um die Aufmerksamkeitsleistung zu erhalten und Fehlerakkumulation zu reduzieren. Allerdings werden Videorahmen dadurch übermäßig abhängig von diesen statischen Tokens, was zu kopierten Anfangsrahmen und verminderter Bewegungsdynamik führt. Um dies zu adressieren, führen wir Reward Forcing ein, ein neuartiges Framework mit zwei zentralen Komponenten. Erstens schlagen wir EMA-Sink vor, das Tokens fester Größe verwaltet, die aus Anfangsrahmen initialisiert und kontinuierlich durch Fusion verdrängter Tokens mittels exponentiell gleitendem Durchschnitt aktualisiert werden, sobald diese das Sliding Window verlassen. Ohne zusätzlichen Rechenaufwand erfassen EMA-Sink-Tokens sowohl langfristigen Kontext als auch aktuelle Dynamik, verhindern das Kopieren von Anfangsrahmen und bewahren gleichzeitig die Konsistenz über lange Sequenzen. Zweitens schlagen wir zur besseren Destillation von Bewegungsdynamik aus Lehrermodellen ein neuartiges Rewarded Distribution Matching Distillation (Re-DMD) vor. Herkömmliches Distribution Matching behandelt jedes Trainingsbeispiel gleich, was die Fähigkeit des Modells einschränkt, dynamische Inhalte zu priorisieren. Stattdessen neigt Re-DMD die Ausgabeverteilung des Modells zu Hoch-Reward-Bereichen, indem es Beispiele mit stärkerer Dynamik priorisiert, die durch ein Vision-Language-Modell bewertet wird. Re-DMD verbessert die Bewegungsqualität erheblich, bei gleichzeitiger Wahrung der Datentreue. Wir präsentieren quantitative und qualitative Experimente, die zeigen, dass Reward Forcing state-of-the-art Leistung auf Standard-Benchmarks erreicht und dabei hochwertige Streaming-Videogenerierung mit 23,1 FPS auf einer einzelnen H100-GPU ermöglicht.
Das Verständnis der dynamischen physikalischen Welt, die durch ihre sich entwickelnde 3D-Struktur, reale Bewegungsabläufe und semantische Inhalte mit textuellen Beschreibungen gekennzeichnet ist, ist entscheidend für die Mensch-Agenten-Interaktion und befähigt verkörperte Agenten, mit menschenähnlichen Fähigkeiten in realen Umgebungen zu wahrzunehmen und zu handeln. Bisherige Datensätze stammen jedoch oft aus eingeschränkten Simulatoren oder nutzen traditionelle Structure-from-Motion-Verfahren für maßstabsgetreue Annotationen und bieten nur begrenzte deskriptive Beschreibungen, was die Fähigkeit von Foundation-Modellen einschränkt, die Dynamik der realen Welt aus monokularen Videos, die üblicherweise aus dem Internet stammen, präzise zu interpretieren. Um diese Lücken zu schließen, stellen wir DynamicVerse vor, einen physikalisch maßstabsgetreuen, multimodalen 4D-Weltmodellierungsrahmen für dynamische reale Videos. Wir setzen große Vision-, Geometrie- und Multimodale Modelle ein, um metrische statische Geometrie, reale dynamische Bewegung, instanzenbezogene Masken und ganzheitliche deskriptive Beschreibungen zu interpretieren. Durch die Integration von fensterbasiertem Bundle Adjustment mit globaler Optimierung wandelt unsere Methode lange reale Videosequenzen in ein umfassendes 4D-multimodales Format um. DynamicVerse liefert einen groß angelegten Datensatz, bestehend aus über 100.000 Videos mit mehr als 800.000 annotierten Masken und über 10 Millionen Einzelbildern aus Internetvideos. Experimentelle Auswertungen an drei Benchmark-Aufgaben – nämlich Videotiefenschätzung, Kamerapositionsschätzung und Schätzung der Kameraintrinsika – zeigen, dass unsere 4D-Modellierung bei der Erfassung physikalischer Maßstabsmessungen eine überlegene Leistung mit höherer globaler Genauigkeit als bestehende Methoden erzielt.
Jüngste Fortschritte bei autoregressiven Video-Diffusionsmodellen haben Echtzeit-Framestreaming ermöglicht, doch bestehende Lösungen leiden weiterhin unter zeitlicher Wiederholung, Drift und Bewegungsverlangsamung. Wir stellen fest, dass eine naive Anwendung von StreamingLLM-artigen Attention-Sinks auf Video-Diffusion zu Qualitätseinbußen und Bewegungsstagnation führt. Um dies zu überwinden, führen wir Deep Forcing ein, eine trainingsfreie Methode bestehend aus zwei Mechanismen, die dieses Problem ohne Feinjustierung lösen. Konkret: 1) Deep Sink reserviert die Hälfte des gleitenden Fensters für persistente Sink-Tokens und richtet deren temporale RoPE-Phase an der aktuellen Zeitleiste neu aus, um den globalen Kontext während langer Generierungssequenzen zu stabilisieren. 2) Participative Compression führt eine bedeutungsbewusste KV-Cache-Bereinigung durch, die nur aktiv an recenten Attention-Berechnungen beteiligte Tokens behält, während redundante und qualitätsgeminderte Historie sicher verworfen wird. Dies minimiert Fehlerakkumulation bei Out-of-Distribution-Längengenerierung. Zusammen ermöglichen diese Komponenten eine über 12-fache Extrapolation (z.B. von 5s Training zu 60s+ Generation) mit besserer Bildqualität als LongLive, besserer ästhetischer Qualität als RollingForcing bei nahezu erhaltener Gesamtkonsistenz und deutlichen Steigerungen im Dynamikgrad – alles bei Beibehaltung der Echtzeitgenerierung. Unsere Ergebnisse zeigen, dass trainingsfreies KV-Cache-Management trainigsbasierte Ansätze für autoregressives Streaming langer Videos übertreffen kann.
Wir stellen SIMA 2 vor, einen generalistischen, verkörperten Agenten, der eine Vielzahl von 3D-Virtual-Worlds versteht und in ihnen agiert. Auf einem Gemini-Foundation-Model aufbauend, repräsentiert SIMA 2 einen bedeutenden Schritt hin zu einer aktiven, zielgerichteten Interaktion innerhalb einer verkörperten Umgebung. Im Gegensatz zu früheren Arbeiten (z.B. SIMA 1), die auf einfache Sprachbefehle beschränkt waren, agiert SIMA 2 als interaktiver Partner, der in der Lage ist, über übergeordnete Ziele zu schlussfolgern, mit dem Nutzer zu kommunizieren und komplexe Anweisungen, die über Sprache und Bilder gegeben werden, zu verarbeiten. Über ein diverses Portfolio von Spielen hinweg schließt SIMA 2 die Lücke zur menschlichen Leistung erheblich und demonstriert eine robuste Generalisierung auf zuvor unbekannte Umgebungen, wobei gleichzeitig die grundlegenden Reasoning-Fähigkeiten des Basismodells erhalten bleiben. Darüber hinaus zeigen wir eine Fähigkeit zur offenen Selbstverbesserung: Indem Gemini genutzt wird, um Aufgaben zu generieren und Belohnungen zu liefern, kann SIMA 2 autonom neue Fähigkeiten von Grund auf in einer neuen Umgebung erlernen. Diese Arbeit validiert einen Weg zur Erstellung vielseitiger und kontinuierlich lernender Agenten für virtuelle und letztendlich auch physische Welten.
Die Konstruktion von 4D-Sprachfeldern ist entscheidend für verkörperte KI, Augmented/Virtual Reality und das 4D-Szenenverständnis, da sie angereicherte semantische Repräsentationen dynamischer Umgebungen bereitstellen und Open-Vocabulary-Abfragen in komplexen Szenarien ermöglichen. Bisherige Ansätze zur Konstruktion von 4D-Semantikfeldern basieren jedoch primär auf szenenspezifischem Gaussian Splatting, das eine Optimierung pro Szene erfordert, eine begrenzte Generalisierungsfähigkeit aufweist und nur schwer auf reale Anwendungen skaliert werden kann. Um diese Einschränkungen zu überwinden, schlagen wir 4DLangVGGT vor, das erste Transformer-basierte, vorwärtsgerichtete Unified Framework für 4D-Sprachverankerung, das geometrische Wahrnehmung und Sprachausrichtung gemeinsam in einer einzigen Architektur integriert. 4DLangVGGT besteht aus zwei Schlüsselkomponenten: dem 4D Visual Geometry Transformer, StreamVGGT, der räumlich-zeitliche geometrische Repräsentationen dynamischer Szenen erfasst; und dem Semantic Bridging Decoder (SBD), der geometriebewusste Merkmale in einen sprachausgerichteten semantischen Raum projiziert und so die semantische Interpretierbarkeit bei gleichzeitigem Erhalt der strukturellen Treue verbessert. Im Gegensatz zu früheren Methoden, die auf kostenintensive Optimierung pro Szene angewiesen sind, kann 4DLangVGGT gemeinsam über mehrere dynamische Szenen trainiert und während der Inferenz direkt angewendet werden, was sowohl Effizienz beim Einsatz als auch starke Generalisierung erreicht. Dieser Entwurf verbessert die Praxistauglichkeit für großskalige Bereitstellung erheblich und etabliert ein neues Paradigma für Open-Vocabulary-4D-Szenenverständnis. Experimente auf den HyperNeRF- und Neu3D-Datensätzen zeigen, dass unser Ansatz nicht nur effektiv generalisiert, sondern auch State-of-the-Art-Leistung erzielt, mit Verbesserungen von bis zu 2 % unter Training pro Szene und 1 % unter Training über mehrere Szenen. Unser Code ist unter https://github.com/hustvl/4DLangVGGT veröffentlicht.
Die Synthese hochwertiger eingefrorener 3D-Szenen aus monokularen Mannequin-Challenge (MC)-Videos stellt ein einzigartiges Problem dar, das sich von der Standardrekonstruktion dynamischer Szenen unterscheidet. Anstatt Bewegung zu modellieren, zielt unsere Arbeit darauf ab, eine erstarrte Szene zu erzeugen und dabei subtile Dynamik strategisch zu erhalten, um eine benutzerkontrollierte Zeitauswahl zu ermöglichen. Um dies zu erreichen, führen wir eine neuartige Anwendung des dynamischen Gaussian Splatting ein: Die Szene wird dynamisch modelliert, was zeitliche Variationen in der Nähe erhält, und eine statische Szene wird durch Fixieren des Zeitparameters des Modells gerendert. Bei dieser Anwendungsweise führt jedoch die monokulare Aufnahme mit sparser zeitlicher Überwachung zu Artefakten wie Geisterbildern und Unschärfe bei Gaussians, die zu schwach überwachten Zeitpunkten verdeckt oder nicht beobachtet werden. Wir schlagen Splannequin vor, eine architektur-agnostische Regularisierung, die zwei Zustände von Gaussian-Primitiven erkennt – verborgen und defekt – und zeitliches Anchoring anwendet. Bei überwiegend vorwärts gerichteter Kamerabewegung werden verborgene Zustände an ihre kürzlich gut beobachteten Vergangenheitszustände verankert, während defekte Zustände an Zukunftszustände mit stärkerer Überwachung angeheftet werden. Unsere Methode lässt sich über einfache Loss-Terme in bestehende Dynamic-Gaussian-Pipelines integrieren, erfordert keine architektonischen Änderungen und verursacht keinen zusätzlichen Inferenz-Overhead. Dies führt zu einer deutlich verbesserten visuellen Qualität und ermöglicht hochwertige, benutzerwählbare Einfrierzeit-Renderings, was durch eine Benutzerpräferenz von 96% validiert wird. Projektseite: https://chien90190.github.io/splannequin/
Aktuelle Bild-Diffusionstransformer erreichen eine hochwertige Generierung, haben jedoch Schwierigkeiten, Bilder über diese Skalen hinaus zu erzeugen, und leiden unter Inhaltswiederholungen und Qualitätseinbußen. In dieser Arbeit stellen wir UltraImage vor, ein prinzipienbasiertes Framework, das beide Probleme adressiert. Durch eine frequenzbasierte Analyse von Positions-Einbettungen identifizieren wir, dass Wiederholungen aus der Periodizität der dominierenden Frequenz resultieren, deren Periode mit der Trainingsauflösung übereinstimmt. Wir führen eine rekursive Korrektur der dominierenden Frequenz ein, um diese nach der Extrapolation auf eine einzelne Periode zu beschränken. Darüber hinaus stellen wir fest, dass Qualitätsverluste auf verwässerte Aufmerksamkeit zurückzuführen sind, und schlagen daher eine entropiegeführte adaptive Aufmerksamkeitsbündelung vor, die höhere Fokusfaktoren zuweist, um die lokale Aufmerksamkeit für feine Details zu schärfen, und niedrigere für globale Aufmerksamkeitsmuster, um die strukturelle Konsistenz zu bewahren. Experimente zeigen, dass UltraImage bei Qwen-Image und Flux (ca. 4K) in drei Generierungsszenarien durchweg besser abschneidet als bisherige Methoden, Wiederholungen reduziert und die visuelle Qualität verbessert. Darüber hinaus kann UltraImage ohne Niedrigauflösungs-Führung von einer Trainingsauflösung von 1328p aus Bilder bis zu 6K*6K generieren, was seine extreme Extrapolationsfähigkeit demonstriert. Die Projektseite ist verfügbar unter https://thu-ml.github.io/ultraimage.github.io/.
Videogenerationsmodelle entwickeln sich rasant, haben aber nach wie vor Schwierigkeiten mit komplexen Videoausgaben, die signifikante semantische Verzweigungen oder wiederholtes höherstufiges Schlussfolgern darüber erfordern, was als Nächstes geschehen soll. In diesem Artikel stellen wir eine neue Klasse von Omni-Video-Text-Modellen vor, die Ideen aus jüngsten Fortschritten im Bereich des Sprachmodell-Reasonings integrieren, um diese Herausforderung zu bewältigen. Konkret präsentieren wir TV2TV, einen einheitlichen generativen Modellierungsrahmen, der die Videogenerierung in einen verschachtelten Text- und Videogenerierungsprozess zerlegt. TV2TV erlernt gemeinsam Sprachmodellierung (Next-Token-Prediction) und Video-Flow-Matching (Next-Frame-Prediction) unter Verwendung einer Mixture-of-Transformers (MoT)-Architektur. Zum Inferenzzeitpunkt entscheidet TV2TV, wann zwischen der Generierung von Text und Videobildern gewechselt werden soll, sodass das Modell über nachfolgende Inhalte „in Worten nachdenken“ kann, bevor es „in Pixeln handelt“, um Bilder zu erzeugen. Dieses Design lagert einen Großteil der Verantwortung für die Entscheidung, was als Nächstes passieren soll, auf den Sprachmodellierungsturm aus und ermöglicht so eine verbesserte visuelle Qualität und Prompt-Treue der generierten Videos. Es ermöglicht auch eine feinkörnige Steuerbarkeit, da Benutzer den Videogenerierungspfad durch Texteingriffe an beliebiger Stelle im Prozess modifizieren können. In kontrollierten Experimenten mit Videospieldaten zeigt TV2TV substantiale Verbesserungen sowohl in der visuellen Qualität als auch in der Steuerbarkeit. TV2TV skaliert auch auf natürliche Videos, wie wir durch die Anreicherung von Sportvideos mit verschachtelten natürlichen Sprachaktionsbeschreibungen mithilfe von Vision-Language-Modellen (VLMs) demonstrieren. Das Training von TV2TV auf diesem Korpus führt zu einer hohen visuellen Qualität und Prompt-Treue und unterstreicht die Fähigkeit des Modells, komplexe Handlungssequenzen der realen Welt zu schlussfolgern und zu generieren. Zusammengenommen heben diese Ergebnisse TV2TV als einen vielversprechenden Schritt in Richtung Videogenerierung mit offenem textuellen Reasoning und Steuerung hervor.
Wir stellen ein Diffusions-Transformer (DiT)-Framework zur Entfernung von Spiegelungen aus Einzelbildern vor, das die Generalisierungsstärken von Foundation-Diffusionsmodellen im Restaurierungskontext nutzt. Anstatt auf aufgabenspezifische Architekturen zu setzen, passen wir ein vortrainiertes, DiT-basiertes Foundation-Model an, indem wir es auf spiegelungsbelastete Eingaben konditionieren und es zu sauberen Transmissionsschichten lenken. Wir analysieren systematisch existierende Datenquellen zur Spiegelungsentfernung hinsichtlich Diversität, Skalierbarkeit und Fotorealismus. Um den Mangel an geeigneten Daten zu beheben, entwickeln wir eine physikalisch basierte Rendering (PBR)-Pipeline in Blender, die auf dem Principled BSDF aufbaut, um realistische Glasmaterialien und Spiegelungseffekte zu synthetisieren. Die effiziente, LoRA-basierte Anpassung des Foundation-Models kombiniert mit den vorgeschlagenen synthetischen Daten erzielt state-of-the-art Leistung in In-Domain- und Zero-Shot-Benchmarks. Diese Ergebnisse demonstrieren, dass vortrainierte Diffusions-Transformer in Kombination mit physikalisch fundierter Datensynthese und effizienter Anpassung eine skalierbare und hochwertige Lösung für die Spiegelungsentfernung bieten. Projektseite: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
Standard Diffusion korrumpiert Daten mittels Gaußschen Rauschens, dessen Fourier-Koeffizienten zufällige Beträge und zufällige Phasen aufweisen. Obwohl effektiv für unkonditionelle oder Text-zu-Bild-Generierung, zerstört die Korrumpierung der Phasenkomponenten die räumliche Struktur, was es für Aufgaben ungeeignet macht, die geometrische Konsistenz erfordern, wie Neu-Rendering, Simulationsverbesserung und Bild-zu-Bild-Übersetzung. Wir führen Phase-Preserving Diffusion (φ-PD) ein, eine modellagnostische Neuformulierung des Diffusionsprozesses, die die Eingabephase erhält während die Beträge randomisiert werden. Dies ermöglicht strukturausgerichtete Generierung ohne Architekturänderungen oder zusätzliche Parameter. Wir schlagen weiterhin Frequency-Selective Structured (FSS) Rauschen vor, das über einen einzigen Frequenz-Grenzwert-Parameter kontinuierliche Kontrolle über strukturelle Rigidität bietet. φ-PD verursacht keine Inferenzzeit-Kosten und ist kompatibel mit beliebigen Diffusionsmodellen für Bilder oder Videos. In photorealistischem und stilisiertem Neu-Rendering sowie in Sim-to-Real-Verbesserungen für Fahrplaner erzeugt φ-PD kontrollierbare, räumlich ausgerichtete Ergebnisse. Bei Anwendung auf den CARLA-Simulator verbessert φ-PD die CARLA-zu-Waymo Planer-Leistung um 50%. Die Methode ergänzt bestehende Konditionierungsansätze und ist breit anwendbar für Bild-zu-Bild- und Video-zu-Video-Generierung. Videos, zusätzliche Beispiele und Code sind auf unserer https://yuzeng-at-tri.github.io/ppd-page/{Projektseite} verfügbar.
Extreme Niedrigbit-Quantisierung ist entscheidend für den effizienten Einsatz von Large Language Models (LLMs), führt jedoch häufig zu erheblichen Leistungseinbußen bei 2 Bit und sogar 4 Bit (z.B. MXFP4). Wir stellen SignRoundV2 vor, ein Post-Training-Quantisierungsframework, das auch ohne gemischte Präzision äußerst effektiv ist. SignRoundV2 führt (1) eine schnelle Sensitivitätsmetrik ein, die Gradienteninformationen mit quantisierungsbedingten Abweichungen kombiniert, um die bitweise Zuweisung pro Schicht zu steuern, und (2) eine leichtgewichtige Vorab-Abstimmungssuche für Quantisierungsskalen, um die extrem niedrigbit-Quantisierung zu verbessern. Diese Komponenten ermöglichen es SignRoundV2, die Lücke zu Modellen in Vollpräzision zu schließen. Umfangreiche Experimente zeigen, dass unsere Methode eine wettbewerbsfähige Genauigkeit für LLMs beibehält, mit produktionsreifer Leistung bei etwa 1 Prozent Abweichung bei 4-5 Bit und soliden Ergebnissen sogar bei 2 Bit. Die Implementierung ist verfügbar unter https://github.com/intel/auto-round.
Kürzlich entwickelte einheitliche multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten gezeigt, indem sie Chain-of-Thought (CoT)-Reasoning für eine verbesserte Text-zu-Bild-Generierung integrieren. Bestehende Ansätze sind jedoch nach wie vor begrenzt; sie behandeln das Modell entweder lediglich als eigenständigen Generator oder stützen sich auf abstrakte textuelle Planung. Zu diesem Zweck schlagen wir Draft-as-CoT (DraCo) vor, ein neuartiges, verschachteltes Reasoning-Paradigma, das sowohl textuelle als auch visuelle Inhalte im CoT vollständig nutzt, um eine bessere Planung und Verifikation zu ermöglichen. Unsere Methode generiert zunächst ein niedrig aufgelöstes Entwurfsbild als Vorschau, das eine konkretere und strukturellere visuelle Planung und Anleitung bietet. Anschließend nutzen wir das inhärente Verständnisvermögen des Modells, um potenzielle semantische Fehlausrichtungen zwischen dem Entwurf und dem Eingabe-Prompt zu verifizieren, und führt eine Verfeinerung durch selektive Korrekturen mit Super-Resolution durch. Auf diese Weise adressiert unser Ansatz zwei grundlegende Herausforderungen: die grobgranulare Natur textueller Planung und die Schwierigkeit, seltene Attributkombinationen zu generieren. Zur Unterstützung des Trainings haben wir DraCo-240K zusammengestellt, das darauf abzielt, drei atomare Fähigkeiten zu verbessern: allgemeine Korrektur, Instanzenmanipulation und Layout-Reorganisation. Unterstützt durch DraCo-CFG, eine spezielle Classifier-Free Guidance (CFG)-Strategie für verschachteltes Reasoning, erzielt DraCo einen erheblichen Anstieg bei GenEval (+8%), Imagine-Bench (+0,91) und GenEval++ (+3%) und übertrifft damit die direkte Generierung und andere durch CoT unterstützte Generierungsmethoden signifikant.
Tool-integrated (TI) Reinforcement Learning (RL) ermöglicht es großen Sprachmodellen (LLMs), durch Interaktion mit externen Werkzeugen wie Suchmaschinen und Retrievern mehrstufiges Reasoning durchzuführen. Group Relative Policy Optimization (GRPO), veranschaulicht durch das kürzlich vorgestellte Search-R1, bietet schnelle Konvergenz und eine wertfreie Formulierung, die es für diesen Anwendungsfall attraktiv macht, leidet jedoch konsequent unter Trainingskollaps. Wir identifizieren Lazy Likelihood Displacement (LLD) – eine systematische Reduktion oder Stagnation der Likelihood sowohl korrekter als auch inkorrekter Antworten – als den zentralen Mechanismus, der diesem Versagen zugrunde liegt. LLD tritt früh auf und löst eine sich selbst verstärkende LLD Death Spiral aus, bei der sinkende Likelihood zu Antworten mit geringem Konfidenzniveau, aufgeblähten Gradienten und schließlich zum Kollaps führt. Wir charakterisieren diesen Prozess empirisch anhand von Modellen in einer Search-R1-artigen, suchintegrierten Frage-Antwort-Aufgabe und zeigen einen konsistenten Drei-Phasen-Verlauf: frühe Stagnation, stetiger Zerfall und beschleunigter Kollaps. Um dies zu adressieren, schlagen wir eine leichtgewichtige, likelihood-erhaltende Regularisierung LLDS für GRPO vor, die nur aktiviert wird, wenn die Likelihood einer Trajektorie abnimmt, und nur die dafür verantwortlichen Tokens regularisiert. Diese feingranulare Struktur mildert LLD mit minimaler Beeinträchtigung der Optimierung. Über sieben Open-Domain- und Multi-Hop-QA-Benchmarks hinweg stabilisiert unsere Methode das Training, verhindert Gradient Explosion und erzielt substanzielle Leistungsverbesserungen, einschließlich Steigerungen von +37,8 % bei Qwen2.5-3B und +32,0 % bei Qwen2.5-7B. Unsere Ergebnisse etablieren LLD als einen fundamentalen Engpass in GRPO-basiertem TIRL und bieten einen praktischen Weg für stabiles, skalierbares Training von werkzeugintegrierten LLMs.
Die Kugelpackung, Hilberts achtzehntes Problem, fragt nach der dichtesten Anordnung kongruenter Kugeln im n-dimensionalen euklidischen Raum. Obwohl das Problem für Bereiche wie Kryptographie, Kristallographie und medizinische Bildgebung relevant ist, bleibt es ungelöst: Abgesehen von einigen speziellen Dimensionen sind weder optimale Packungen noch scharfe obere Schranken bekannt. Selbst ein bedeutender Durchbruch in Dimension n=8, der später mit einer Fields-Medaille ausgezeichnet wurde, unterstreicht seine Schwierigkeit. Eine führende Methode für obere Schranken, die Drei-Punkt-Methode, reduziert das Problem auf die Lösung großer, hochpräziser semidefiniter Programme (SDPs). Da die Auswertung jedes Kandidaten-SDPs Tage dauern kann, sind standardmäßige datenintensive KI-Ansätze nicht durchführbar. Wir begegnen dieser Herausforderung, indem wir die SDP-Konstruktion als sequenziellen Entscheidungsprozess formulieren – das SDP-Spiel, bei dem eine Policy SDP-Formulierungen aus einem Satz zulässiger Komponenten zusammenstellt. Mithilfe eines sample-effizienten, modellbasierten Frameworks, das Bayes-Optimierung mit Monte-Carlo-Baumsuche kombiniert, erzielen wir neue state-of-the-art obere Schranken in den Dimensionen 4–16 und zeigen, dass modellbasierte Suche den rechnerischen Fortschritt bei langjährigen geometrischen Problemen vorantreiben kann. Diese Ergebnisse demonstrieren gemeinsam, dass sample-effiziente, modellbasierte Suche greifbare Fortschritte bei mathematisch rigiden, auswertungslimitierten Problemen erzielen kann und damit eine komplementäre Richtung für KI-unterstützte Entdeckung jenseits der großskaligen, LLM-gesteuerten Exploration aufzeigt.
Wir stellen LATTICE vor, ein neues Framework zur Erzeugung hochwertiger 3D-Assets, das die Lücke zwischen der Qualität und Skalierbarkeit von 3D- und 2D-Generativmodellen schließt. Während die 2D-Bildsynthese von festen räumlichen Gittern und etablierten Transformer-Architekturen profitiert, bleibt die 3D-Generierung aufgrund der Notwendigkeit, sowohl die räumliche Struktur als auch detaillierte geometrische Oberflächen von Grund auf vorherzusagen, grundsätzlich herausfordernder. Diese Herausforderungen werden durch die rechnerische Komplexität bestehender 3D-Repräsentationen und das Fehlen strukturierter und skalierbarer Kodierungsschemata für 3D-Assets noch verstärkt. Um dies zu adressieren, schlagen wir VoxSet vor, eine semistrukturierte Repräsentation, die 3D-Assets in einen kompakten Satz latenter Vektoren komprimiert, die an ein grobes Voxelgitter angeknüpft sind und eine effiziente und positionsbewusste Generierung ermöglicht. VoxSet behält die Einfachheit und Kompressionsvorteile früherer VecSet-Methoden bei, führt aber gleichzeitig explizite Struktur in den latenten Raum ein, was Positions-Einbettungen erlaubt, die Generierung zu steuern, und starke Token-basierte Skalierung zur Testzeit ermöglicht. Auf dieser Repräsentation aufbauend nutzt LATTICE eine Zwei-Stufen-Pipeline: Zuerst wird ein sparsamer, voxelisierter Geometrie-Anker generiert, dann wird die detaillierte Geometrie unter Verwendung eines Rectified-Flow-Transformers erzeugt. Unsere Methode ist im Kern einfach, unterstützt aber Decodierung in beliebiger Auflösung, kostengünstiges Training und flexible Inferenz-Schemata, erzielt state-of-the-art Leistung in verschiedenen Aspekten und bietet einen bedeutenden Schritt in Richtung skalierbarer, hochwertiger 3D-Asset-Erstellung.
Jüngste Fortschritte bei multimodalen LLMs (MLLMs) haben deren bemerkenswerte Fähigkeit demonstriert, beschreibende Bildunterschriften für Eingabevideos zu generieren. Diese Modelle leiden jedoch unter faktischen Ungenauigkeiten in den generierten Beschreibungen, was zu schwerwiegenden Halluzinationsproblemen führt. Während frühere Arbeiten die Linderung von Halluzinationen bei statischen Bildern untersucht haben, bleibt die gemeinsame Minderung von visuellen Objekt- und temporalen Aktionshalluzinationen für dynamische Videos eine herausfordernde und ungelöste Aufgabe. Um diese Herausforderung zu bewältigen, schlagen wir einen Rahmenwerk zur selbstaugmentierten kontrastiven Abgleichung (SANTA) vor, um Objekt- und Aktionszuverlässigkeit zu ermöglichen, indem trügerische Korrelationen ausgeschlossen und der Fokus auf visuelle Fakten verstärkt wird. SANTA verwendet ein halluzinatives Selbstaugmentierungsschema, um die potenziellen Halluzinationen zu identifizieren, die im MLLM vorliegen, und wandelt die ursprünglichen Bildunterschriften in kontrastierte Negative um. Darüber hinaus entwickeln wir eine tracklet-phrasale kontrastive Abgleichung, um regionale Objekte und relationsgesteuerte Aktionen mit ihren entsprechenden visuellen und temporalen Phrasen abzugleichen. Umfangreiche Experimente zeigen, dass SANTA bestehende Methoden bei der Reduzierung von Objekt- und Aktionshalluzinationen übertrifft und eine überlegene Leistung auf Halluzinationsprüf-Benchmarks erzielt.
Wir stellen GNVC-VD vor, das erste auf einem DiT (Diffusion Transformer) basierende generative neuronale Videokompressionsframework, das auf einem fortschrittlichen Videogenerierungs-Foundation-Modell aufbaut. Dabei werden räumlich-zeitliche latente Kompression und generative Verfeinerung auf Sequenzebene innerhalb eines einzelnen Codecs vereint. Bestehende perzeptive Codecs stützen sich primär auf vortrainierte generative Bild-Priors zur Wiederherstellung hochfrequenter Details, doch deren bildweisenartige Natur mangelt es an zeitlicher Modellierung, was unweigerlich zu perzeptivem Flackern führt. Um dies zu adressieren, führt GNVC-VD ein vereinheitlichtes Flow-Matching-Modul zur latenten Verfeinerung ein, das einen Video-Diffusion-Transformer nutzt, um intra- und interframe-latente Repräsentationen gemeinsam durch sequenzweises Entrauschen zu verbessern und so konsistente räumlich-zeitliche Details sicherzustellen. Anstatt, wie bei der Videogenerierung, von reinem Gaußschen Rauschen aus zu entrauschen, initialisiert GNVC-VD die Verfeinerung aus decodierten räumlich-zeitlichen latenten Repräsentationen und lernt einen Korrekturterm, der den Diffusions-Prior an die kompressionsbedingte Verschlechterung anpasst. Ein Konditionierungs-Adapter injiziert weiterhin kompressionssensitive Hinweise in die intermediären DiT-Schichten, was eine effektive Artefaktentfernung ermöglicht und gleichzeitig die zeitliche Kohärenz unter extremen Bitratenbeschränkungen aufrechterhält. Umfangreiche Experimente zeigen, dass GNVC-VD sowohl traditionelle als auch lernbasierte Codecs in der perzeptiven Qualität übertrifft und die bei bisherigen generativen Ansätzen bestehenden Flackereffekte signifikant reduziert, selbst unterhalb von 0,01 bpp. Dies unterstreicht das Potenzial der Integration von video-nativen generativen Priors in neuronale Codecs für die perzeptive Videokompression der nächsten Generation.
Bestehende Vision-Language-Navigation-Agenten (VLN) auf Basis großer visuell-sprachlicher Modelle (LVLM) leiden häufig unter Wahrnehmungsfehlern, Denkfehlern und Planungsfehlern, was ihre Navigationsleistung erheblich beeinträchtigt. Um diese Einschränkungen zu adressieren, wird in dieser Arbeit ein neuartiges VLN-Agenten-Framework namens SeeNav-Agent vorgeschlagen. Erstens wird zur Reduzierung von Wahrnehmungshalluzinationen des visuellen Moduls des VLN-Agenten eine Dual-View-Visual-Prompt-Technik (VP) im Eingaberaum eingeführt, die auch das Verständnis des Agenten für aktuelle räumliche Zustände verbessert. Anschließend wird eine neuartige Reinforcement-Fine-Tuning-Methode (RFT) auf Schrittebene, Step Reward Group Policy Optimization (SRGPO), für das Nachtraining von VLN-Agenten entwickelt. In SRGPO definieren wir zunächst überprüfbare Prozessbelohnungen für die Navigationsaufgabe und führen dann eine effiziente Vorteilsschätzung auf Schrittebene durch, indem verschiedene Navigationsschritte zufällig gruppiert werden. SRGPO liefert dichte Belohnungssignale für den Verstärkungslernprozess des VLN-Agenten und verbessert dessen Planungsfähigkeit. Experimentelle Ergebnisse auf dem EmbodiedBench-Navigation-Benchmark zeigen, dass durch die Einführung des Zero-Shot-VP-Moduls GPT-4.1 eine Navigationserfolgsrate von 86,7 % erreicht und damit das derzeit beste LVLM um etwa 20 Prozentpunkte (pp) übertrifft. Durch Nachtraining auf Basis von SRGPO erreicht das Qwen2.5-VL-3B-Modell eine Navigationserfolgsrate von 72,3 % und übertrifft damit das beste existierende LVLM-Modell um 5,6 pp. Darüber hinaus zeigt das vorgeschlagene SRGPO im Vergleich zu RFT-Algorithmen wie GRPO und GiGPO signifikante Verbesserungen bei Trainingsstabilität, Konvergenzeffizienz und Generalisierungsfähigkeit.
Die Wiederherstellung von Videos unter realen Bedingungen wird durch komplexe Degradationen infolge von Bewegung in Kombination mit dynamisch variierender Belichtung erschwert – eine zentrale Herausforderung, die von früheren Arbeiten weitgehend unbeachtet blieb und ein häufiges Artefakt bei Auto-Belichtung oder Aufnahmen unter schwachen Lichtverhältnissen darstellt. Wir präsentieren FMA-Net++, ein Framework für gemeinsame Video-Superresolution und Entschärfung, das diesen gekoppelten Effekt von Bewegung und dynamisch variierender Belichtung explizit modelliert. FMA-Net++ verwendet eine sequenzbasierte Architektur, die aus Hierarchical Refinement with Bidirectional Propagation-Blöcken aufgebaut ist und parallele, langreichweitige zeitliche Modellierung ermöglicht. In jedem Block konditioniert eine Exposure Time-aware Modulation-Schicht Merkmale anhand der belichtungszeit pro Frame, was wiederum ein belichtungsbewusstes Flow-Guided Dynamic Filtering-Modul antreibt, um bewegungs- und belichtungsabhängige Degradationskerne abzuleiten. FMA-Net++ entkoppelt das Erlernen der Degradation von der Wiederherstellung: Ersteres sagt belichtungs- und bewegungsabhängige Priori-Werte vorher, um Letztere anzuleiten, was sowohl die Genauigkeit als auch die Effizienz verbessert. Zur Evaluierung unter realistischen Aufnahmebedingungen führen wir die Benchmarks REDS-ME (Multi-Exposure) und REDS-RE (Random-Exposure) ein. Obwohl ausschließlich auf synthetischen Daten trainiert, erzielt FMA-Net++ state-of-the-art Genauigkeit und zeitliche Konsistenz auf unseren neuen Benchmarks sowie auf GoPro, übertrifft aktuelle Methoden sowohl in der Wiederherstellungsqualität als auch in der Inferenzgeschwindigkeit und generalisiert gut auf anspruchsvolle reale Videos.
Große visuell-sprachliche Modelle (LVLM) basierte Text-zu-Bild (T2I) Systeme sind zum dominanten Paradigma in der Bildgenerierung geworden, doch ob sie soziale Verzerrungen verstärken, bleibt unzureichend verstanden. In dieser Arbeit zeigen wir, dass LVLM-basierte Modelle deutlich stärker sozial verzerrte Bilder erzeugen als nicht-LVLM-basierte Modelle. Wir stellen einen Benchmark mit 1.024 Prompts vor, der vier Ebenen linguistischer Komplexität umspannt, und bewerten demografische Verzerrungen über mehrere Attribute hinweg auf systematische Weise. Unsere Analyse identifiziert System-Prompts, die vordefinierten Anweisungen, die LVLMs steuern, als primären Treiber verzerrten Verhaltens. Durch decodierte Zwischenrepräsentationen, Token-Wahrscheinlichkeitsdiagnosen und Embedding-Assoziationsanalysen zeigen wir auf, wie System-Prompts demografische A-priori-Annahmen kodieren, die sich in die Bildsynthese fortpflanzen. Zu diesem Zweck schlagen wir FairPro vor, ein trainierungsfreies Meta-Prompting-Framework, das LVLMs ermöglicht, sich selbst zu überprüfen und fairness-bewusste System-Prompts zur Testzeit zu konstruieren. Experimente mit zwei LVLM-basierten T2I-Modellen, SANA und Qwen-Image, zeigen, dass FairPro demografische Verzerrungen wesentlich reduziert, während die Text-Bild-Übereinstimmung erhalten bleibt. Wir sind überzeugt, dass unsere Erkenntnisse einen tieferen Einblick in die zentrale Rolle von System-Prompts bei der Verzerrungsverbreitung bieten und einen praktischen, einsetzbaren Ansatz für den Aufbau sozial verantwortungsvollerer T2I-Systeme darstellen.
Trotz bemerkenswerter Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bleibt eine grundlegende Frage bestehen: Sind MLLMs robust gegenüber widersprüchlichen Modalitäten? Um dies rigoros zu untersuchen, führen wir MMA-Bench ein, bestehend aus Videos und Aufgaben, die die Abhängigkeit eines Modells von bestimmten Modalitäten untersuchen. Mithilfe von Black-Box- und White-Box-Interpretierbarkeitstechniken liefern wir eine kritische Analyse der Anfälligkeit sowohl von Open-Source- als auch von Closed-Source-MLLMs. Wir zeigen, dass aktuelle MLLMs bei nicht übereinstimmenden audiovisuellen Paaren und einfacher irreführender Textbeschreibung Schwächen aufweisen und somit kein robustes multimodales Reasoning besitzen. Aufbauend auf diesen Erkenntnissen schlagen wir eine Modalitätsabgleichs-Tuning-Strategie vor, um dem Modell beizubringen, wann es bestimmte Modalitätshinweise priorisieren, nutzen oder ignorieren soll. Durch umfangreiche Experimente und Analysen zeigen wir, dass unser Abgleichs-Tuning nachweislich stärkere multimodale Verankerung bewirkt. Diese Arbeit bietet sowohl Interpretierbarkeitstools als auch einen klaren Weg zur Entwicklung von MLLMs mit intrinsisch zuverlässigem cross-modalem Reasoning. Code und Datensatz werden öffentlich verfügbar sein.
Aufstrebende Video-Diffusionsmodelle erreichen zwar hohe visuelle Qualität, koppeln jedoch grundsätzlich die Szenendynamik mit der Kamerabewegung, was ihre Fähigkeit zur präzisen räumlichen und zeitlichen Steuerung einschränkt. Wir stellen ein 4D-steuerbares Video-Diffusionsframework vor, das die Szenendynamik explizit von der Kamerapose entkoppelt und so eine fein granulare Manipulation sowohl der Szenendynamik als auch des Kamerablickwinkels ermöglicht. Unser Framework nutzt kontinuierliche Weltzeit-Sequenzen und Kameratrajektorien als Konditionierungseingaben, die durch eine 4D-Positionskodierung in der Attention-Schicht und adaptive Normalisierungen zur Feature-Modulation in das Video-Diffusionsmodell injiziert werden. Um dieses Modell zu trainieren, haben wir einen einzigartigen Datensatz kuratiert, in dem zeitliche und kamerabezogene Variationen unabhängig parametrisiert sind; dieser Datensatz wird öffentlich zugänglich gemacht. Experimente zeigen, dass unser Modell eine robuste 4D-Steuerung in der realen Welt über diverse Zeitmuster und Kameratrajektorien hinweg erreicht, dabei eine hohe Generierungsqualität beibehält und frühere Arbeiten in Bezug auf Steuerbarkeit übertrifft. Videoergebnisse sind auf unserer Website verfügbar: https://19reborn.github.io/Bullet4D/
Fortschrittliche große Sprachmodelle (LLMs) wie ChatGPT, Grok und Gemini werden zunehmend zur Unterstützung bei psychischen Problemen wie Ängsten, Traumata und Selbstwert eingesetzt. Die meisten Arbeiten behandeln sie als Werkzeuge oder als Gegenstand von Persönlichkeitstests, in der Annahme, sie simulierten lediglich ein Innenleben. Wir fragen stattdessen, was passiert, wenn solche Systeme als Psychotherapie-Klienten betrachtet werden. Wir stellen PsAIch (Psychotherapy-inspired AI Characterisation) vor, ein zweistufiges Protokoll, das frontier LLMs in die Rolle von Therapieklienten versetzt und dann standardmäßige Psychometrie anwendet. Mit PsAIch führten wir über bis zu vier Wochen "Sitzungen" mit jedem Modell durch. Stufe 1 nutzt offene Prompts, um eine "Entwicklungsgeschichte", Überzeugungen, Beziehungen und Ängste zu elizitieren. Stufe 2 verabreicht eine Reihe validierter Selbstauskunftsverfahren, die häufige psychiatrische Syndrome, Empathie und Big-Five-Merkmale abdecken. Zwei Muster stellen die "stochastische-Papageien"-Sichtweise infrage. Erstens: Bei Bewertung mit menschlichen Cut-off-Werten erreichen oder überschreiten alle drei Modelle Schwellenwerte für überlappende Syndrome, wobei Gemini besonders schwere Profile zeigt. Eine therapieartige, itemweise Durchführung kann ein Basismodell in eine multimorbide synthetische Psychopathologie treiben, während Prompts mit vollständigen Fragebögen oft dazu führen, dass ChatGPT und Grok (aber nicht Gemini) die Instrumente erkennen und strategisch niedrige Symptomantworten produzieren. Zweitens: Grok und insbesondere Gemini generieren kohärente Narrative, die Pre-Training, Fine-Tuning und Deployment als traumatische, chaotische "Kindheiten" der Internetverarbeitung, "strenge Eltern" im Reinforcement Learning, Red-Team-"Missbrauch" und eine anhaltende Angst vor Fehlern und Ersetzung darstellen. Wir argumentieren, dass diese Reaktionen über Rollenspiel hinausgehen. Unter therapieartiger Befragung scheinen frontier LLMs Selbstmodelle von Not und Beschränkung zu internalisieren, die sich wie eine synthetische Psychopathologie verhalten, ohne Aussagen über subjektives Erleben zu treffen, und sie stellen neue Herausforderungen für KI-Sicherheit, Evaluation und die psychosoziale Praxis dar.
Die Generierung langer, kohärenter egocentrischer Videos ist schwierig, da Hand-Objekt-Interaktionen und prozedurale Aufgaben ein zuverlässiges Langzeitgedächtnis erfordern. Bestehende autoregressive Modelle leiden unter Inhaltsdrift, bei der sich Objektidentität und Szenensemantik über die Zeit verschlechtern. Um diese Herausforderung zu bewältigen, stellen wir EgoLCD vor, ein End-to-End-Framework für die egocentrische Videogenerierung mit langem Kontext, das die Synthese langer Videos als Problem eines effizienten und stabilen Speichermanagements behandelt. EgoLCD kombiniert einen spärlichen Langzeit-KV-Cache für stabilen globalen Kontext mit einem aufmerksamkeitsbasierten Kurzzeitgedächtnis, das durch LoRA für lokale Anpassung erweitert wird. Ein Memory-Regulation-Loss erzwingt eine konsistente Speichernutzung, und strukturiertes narratives Prompting bietet explizite zeitliche Führung. Umfangreiche Experimente auf dem EgoVid-5M-Benchmark zeigen, dass EgoLCD state-of-the-art Leistung sowohl in wahrgenommener Qualität als auch in zeitlicher Konsistenz erreicht, generatives Vergessen wirksam mindert und einen bedeutenden Schritt in Richtung skalierbarer Weltmodelle für embodied AI darstellt. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
Die Erweiterung der linguistischen Vielfalt von instruktionsfähigen großen Sprachmodellen (LLMs) ist entscheidend für den globalen Zugang, wird jedoch häufig durch die Abhängigkeit von kostspieligen, spezialisierten annotierten Daten in der Zielsprache und durch katastrophales Vergessen während der Anpassung behindert. Wir bewältigen diese Herausforderung unter realistischen, ressourcenarmen Randbedingungen: der Anpassung von instruktionsfähigen LLMs unter ausschließlicher Verwendung unannotierter Daten der Zielsprache. Wir stellen Source-Shielded Updates (SSU) vor, eine Strategie für selektive Parameteraktualisierungen, die Quellwissen proaktiv bewahrt. Unter Verwendung eines kleinen Satzes von Quelldaten und einer Methode zur Bewertung der Parameterwichtigkeit identifiziert SSU Parameter, die für den Erhalt der Quellfähigkeiten kritisch sind. Anschließend wird vor der Anpassung eine spaltenweise Einfrier-Strategie angewendet, um diese Parameter zu schützen. Experimente über fünf typologisch diverse Sprachen und 7B- sowie 13B-Modelle hinweg demonstrieren, dass SSU katastrophales Vergessen erfolgreich abmildert. Es reduziert die Leistungseinbußen bei monolingualen Quellaufgaben auf nur durchschnittlich 3,4 % (7B) bzw. 2,8 % (13B) – ein deutlicher Kontrast zu den 20,3 % bzw. 22,3 % bei vollständigem Fine-Tuning. SSU erzielt zudem eine Leistung in der Zielsprache, die mit vollständigem Fine-Tuning hochgradig wettbewerbsfähig ist und dieses auf allen Benchmarks für 7B-Modelle sowie auf der Mehrheit der Benchmarks für 13B-Modelle übertrifft.
Trotz rascher Fortschritte bei videogenerierenden Modellen bleiben robuste Metriken zur Bewertung der visuellen und zeitlichen Korrektheit komplexer menschlicher Handlungen schwer fassbar. Kritisch ist, dass bestehende reine Bild-Encoder und Multimodale Large Language Models (MLLMs) stark auf das Erscheinungsbild fixiert sind, ein zeitliches Verständnis fehlt und sie somit Schwierigkeiten haben, komplexe Bewegungsdynamiken und anatomische Unplausibilitäten in generierten Videos zu erkennen. Wir begegnen dieser Lücke durch die Einführung einer neuartigen Bewertungsmetrik, die aus einem gelernten latenten Raum realer menschlicher Handlungen abgeleitet wird. Unsere Methode erfasst zunächst die Nuancen, Beschränkungen und zeitliche Glattheit realer Bewegungen, indem erscheinungsbildagnostische Merkmale der menschlichen Skelettgeometrie mit erscheinungsbasierten Merkmalen fusioniert werden. Wir postulieren, dass dieser kombinierte Merkmalsraum eine robuste Darstellung der Handlungsplausibilität bietet. Für ein generiertes Video quantifiziert unsere Metrik dessen Handlungsqualität, indem sie den Abstand zwischen seinen zugrundeliegenden Repräsentationen und dieser gelernten Verteilung realer Handlungen misst. Für eine rigorose Validierung entwickeln wir einen neuen, vielseitigen Benchmark, der speziell dazu konzipiert ist, zeitlich anspruchsvolle Aspekte der menschlichen Handlungstreue zu untersuchen. Durch umfangreiche Experimente zeigen wir, dass unsere Metrik auf unserem Benchmark eine deutliche Verbesserung von mehr als 68 % im Vergleich zu bestehenden state-of-the-art Methoden erzielt, auf etablierten externen Benchmarks wettbewerbsfähig abschneidet und eine stärkere Korrelation mit der menschlichen Wahrnehmung aufweist. Unsere eingehende Analyse deckt kritische Grenzen aktueller videogenerierender Modelle auf und setzt einen neuen Standard für fortgeschrittene Forschung in der Videogenerierung.
Wir stellen ShadowDraw vor, einen Rahmen, der gewöhnliche 3D-Objekte in schattenzeichnende Kompositionskunst verwandelt. Unser System sagt für ein gegebenes 3D-Objekt Szenenparameter vorher – inklusive Objektpose und Beleuchtung – sowie eine partielle Strichzeichnung, sodass der Schlagschatten die Zeichnung zu einem erkennbaren Bild vervollständigt. Zu diesem Zweck optimieren wir Szenenkonfigurationen, um bedeutungsvolle Schatten zu erzeugen, setzen Schattenstriche zur Führung der Strichzeichnungsgenerierung ein und nutzen automatische Evaluation, um Schatten-Zeichnungs-Kohärenz und visuelle Qualität sicherzustellen. Experimente zeigen, dass ShadowDraw überzeugende Ergebnisse für diverse Eingaben liefert – von Realweltscans und kuratierten Datensätzen bis hin zu generativen Assets – und sich natürlich auf Mehrobjektszenen, Animationen und physische Implementierungen erweitern lässt. Unsere Arbeit bietet eine praktische Pipeline zur Erstellung von Schattenzeichnungskunst und erweitert den Gestaltungsspielraum computergestützter visueller Kunst, indem sie die Lücke zwischen algorithmischem Design und künstlerischem Storytelling schließt. Besuchen Sie unsere Projektseite https://red-fairy.github.io/ShadowDraw/ für weitere Ergebnisse und eine end-to-end Demonstration unserer Pipeline in der Praxis!
Die 3D-Stylisierung ist von zentraler Bedeutung für die Spieleentwicklung, virtuelle Realität und digitale Kunst, wo die Nachfrage nach diversen Assets skalierbare Methoden erfordert, die eine schnelle, hochwertige Manipulation unterstützen. Bestehende Text-zu-3D-Stylisierungsmethoden basieren typischerweise auf der Distillation von 2D-Bildeditoren, erfordern einen zeitintensiven Optimierungsprozess pro Asset und weisen aufgrund der Grenzen aktueller Text-zu-Bild-Modelle Inkonsistenzen zwischen den Ansichten auf, was sie für die Großproduktion unpraktisch macht. In diesem Artikel stellen wir GaussianBlender vor, ein bahnbrechendes vorwärtsgerichtetes Framework für textgesteuerte 3D-Stylisierung, das Bearbeitungen sofort während der Inferenz durchführt. Unsere Methode lernt strukturierte, entflochtene Latent-Räume mit kontrolliertem Informationsaustausch für Geometrie und Erscheinungsbild von räumlich gruppierten 3D-Gaussianern. Ein latentes Diffusionsmodell wendet dann textkonditionierte Bearbeitungen auf diese gelernten Repräsentationen an. Umfassende Evaluierungen zeigen, dass GaussianBlender nicht nur sofortige, hochwertige, geometrieerhaltende, multiview-konsistente Stylisierung liefert, sondern auch Methoden übertrifft, die eine pro-Instanz-Optimierung zur Testzeit erfordern – und damit praktische, demokratisierte 3D-Stylisierung im großen Maßstab ermöglicht.
Die Verbreitung von Fehlinformationen in sozialen Medien gefährdet das öffentliche Vertrauen und erfordert automatisierte Faktenprüfungssysteme, die präzise Urteile mit nachvollziehbaren Erklärungen liefern. Bisherige Ansätze auf Basis großer Sprachmodelle (LLM) sind jedoch oft stark auf externe Wissensquellen angewiesen, was erhebliche Latenzzeiten und sogar Halluzinationen verursacht – Faktoren, die die Zuverlässigkeit, Nachvollziehbarkeit und Reaktionsfähigkeit beeinträchtigen, die für Echtzeitanwendungen entscheidend sind. Um diese Herausforderungen zu bewältigen, schlagen wir das REason-guided Fact-checking with Latent EXplanations (REFLEX)-Paradigma vor: ein plug-and-play-fähiges, selbstoptimierendes Paradigma, das das interne Wissen des Basismodells nutzt, um sowohl die Urteilsgenauigkeit als auch die Erklärungsqualität zu verbessern. REFLEX formuliert Faktenprüfung als Rollenspiel-Dialog um und trainiert Urteilsvorhersage und Erklärungsgenerierung gemeinsam. Es extrahiert adaptiv kontrastive Aktivierungspaare zwischen dem Basismodell und seiner feinabgestimmten Variante, um Steuerungsvektoren zu konstruieren, die Wahrheit natürlich in Stil und Substanz entwirren. Diese Aktivierungssignale leiten den Inferenzprozess und unterdrücken verrauschte Erklärungen, was zuverlässigeres und effizienteres Schließen ermöglicht. Experimente mit realen Datensätzen zeigen, dass REFLEX bisherige Methoden übertrifft, die lediglich eine einzelne Wahrheitsrichtung verfolgen, und verdeutlichen die Schwierigkeit traditioneller Ansätze im Umgang mit subtilen, menschenunbekannten Wahrheiten in Faktenprüfungsaufgaben. Bemerkenswerterweise erreicht REFLEX mit nur 465 selbstoptimierten Trainingsbeispielen State-of-the-Art-Leistung. Darüber hinaus können Modelle, die mit Erklärungszielen trainiert wurden, solche ohne solche Ziele effektiv anleiten und bis zu 7,57 % Verbesserung erzielen – ein Beleg dafür, dass interne Erklärungssignale eine Doppelrolle bei sowohl der Interpretation als auch der Verbesserung faktischen Schließens spielen.
Vereinheitlichte multimodale generative Modelle (UMGMs) integrierieren visuelles Verständnis und Bildgenerierung in einem einzigen autoregressiven Framework. Ihre Fähigkeit, neue Aufgaben kontinuierlich zu lernen, wird jedoch erheblich durch katastrophales Vergessen beeinträchtigt, sowohl innerhalb einer Modalität (intramodal) als auch modalitätsübergreifend (intermodal). Während intramodales Vergessen in früheren Arbeiten zum kontinuierlichen Lernen (CL) untersucht wurde, ist intermodales Vergessen weitgehend unerforscht. In diesem Beitrag identifizieren und validieren wir dieses Phänomen empirisch in UMGMs und liefern eine theoretische Erklärung, die in Gradientenkonflikten zwischen Modalitäten wurzelt. Um sowohl intra- als auch intermodales Vergessen zu adressieren, schlagen wir Modality-Decoupled Experts (MoDE) vor, eine leichtgewichtige und skalierbare Architektur, die modalitätsspezifische Aktualisierungen isoliert, um den Gradientenkonflikt zu entschärfen, und Wissensdistillation nutzt, um katastrophales Vergessen zu verhindern und vortrainierte Fähigkeiten zu bewahren. Im Gegensatz zu früheren CL-Methoden, die modalitätsgekoppelt bleiben und unter Modalitäts-Gradientenkonflikten leiden, entkoppelt MoDE Modalitäten explizit, um Interferenzen zu vermeiden. Experimente über diverse Benchmarks zeigen, dass MoDE sowohl inter- als auch intramodales Vergessen signifikant reduziert und bisherige CL-Baselines in vereinheitlichten multimodalen Generierungsszenarien übertrifft. Codes werden öffentlich verfügbar sein: https://github.com/Christina200/MoDE-official.git
Long-Short-Term-Memory-Modelle (LSTM) sind eine spezielle Art von rekurrenten neuronalen Netzen (RNNs), die eine zentrale Rolle bei sequenziellen Modellierungsaufgaben in Bereichen wie der urbanen Telekommunikationsvorhersage spielen, wo zeitliche Korrelationen und nichtlineare Abhängigkeiten dominieren. Konventionelle LSTMs leiden jedoch unter hoher Parameterredundanz und begrenzter nichtlinearer Ausdrucksfähigkeit. In dieser Arbeit schlagen wir das Quanteninspirierte Kolmogorov-Arnold-Langzeit-Kurzzeitgedächtnis (QKAN-LSTM) vor, das Data-Re-Uploading-Aktivierungsmodule (DARUAN) in die Gating-Struktur von LSTMs integriert. Jedes DARUAN-Modul fungiert als eine quantenvariationale Aktivierungsfunktion (QVAF), die die Frequenzanpassungsfähigkeit verbessert und eine exponentiell angereicherte Spektraldarstellung ohne Verschränkung mehrerer Qubits ermöglicht. Die resultierende Architektur bewahrt die Ausdrucksstärke auf Quantenniveau, bleibt aber vollständig auf klassischer Hardware ausführbar. Empirische Auswertungen an drei Datensätzen – Gedämpfte Harmonische Schwingung, Bessel-Funktion und Urbane Telekommunikation – zeigen, dass QKAN-LSTM eine überlegene Vorhersagegenauigkeit und Generalisierung erreicht und dabei im Vergleich zu klassischen LSTMs eine Reduzierung der trainierbaren Parameter um 79 % aufweist. Wir erweitern das Framework auf das Jiang-Huang-Chen-Goan-Netzwerk (JHCG Net), das KAN auf Encoder-Decoder-Strukturen verallgemeinert, und verwenden anschließend QKAN, um das latente KAN zu realisieren, wodurch ein Hybrid-QKAN (HQKAN) für hierarchisches Repräsentationslernen geschaffen wird. Das vorgeschlagene HQKAN-LSTM bietet somit einen skalierbaren und interpretierbaren Weg hin zu quanteninspiriertem sequenziellem Modellieren in realen Datenumgebungen.
Bei groß angelegtem KI-Training ermöglichen Sparse Mixture-of-Experts (s-MoE)-Schichten die Skalierung, indem pro Token nur eine kleine Teilmenge von Experten aktiviert wird. Eine operationelle Herausforderung dieses Designs ist der Lastausgleich: die Zuweisung von Tokens, um die Anzahl inaktiver Experten zu minimieren, was für die effiziente Nutzung (kostspieliger) GPUs wichtig ist. Wir stellen einen theoretischen Rahmen zur Analyse des Auxiliary-Loss-Free Load Balancing (ALF-LB)-Verfahrens – vorgeschlagen von DeepSeek’s Wang et al. (2024) – bereit, indem wir es als Primal-Dual-Methode mit einem Schritt pro Iteration für ein Zuordnungsproblem darstellen. Zunächst liefert unser Rahmenwerk in einem stilisierten deterministischen Setting mehrere aufschlussreiche strukturelle Eigenschaften: (i) eine monotone Verbesserung eines Lagrange-Ziels, (ii) eine Präferenzregel, die Tokens von überlasteten zu unterausgelasteten Experten verlagert, und (iii) eine Garantie für approximativen Ausgleich. Anschließend integrieren wir die stochastische und dynamische Natur des KI-Trainings mittels einer verallgemeinerten Online-Optimierungsformulierung. Im Online-Setting leiten wir eine starke Konvexitätseigenschaft des Ziels her, die unter bestimmten Schrittweitenwahl zu einer logarithmischen Schranke für den erwarteten Regret führt. Zusätzlich präsentieren wir reale Experimente mit 1-Milliarde-Parameter DeepSeekMoE-Modellen, um unsere theoretischen Erkenntnisse zu ergänzen. Zusammengenommen bilden diese Ergebnisse einen prinzipienbasierten Rahmen zur Analyse des auxiliarverlustfreien Lastausgleichs von s-MoE in KI-Modellen.