papers.description
Videofoundation-Modelle erzeugen visuell realistische und zeitlich kohärente Inhalte, doch ihre Zuverlässigkeit als Weltsimulatoren hängt davon ab, ob sie physikalische, logische und räumliche Constraints erfassen. Bestehende Metriken wie die Frechet Video Distance (FVD) betonen die perzeptive Qualität und übersehen Reasoning-Fehler, einschließlich Verstößen gegen Kausalität, Physik und globale Konsistenz. Wir stellen MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) vor, einen principled Evaluierungsrahmen basierend auf fünf Reasoning-Fähigkeiten: Physikalisches, Logisches, 3D-Räumliches, 2D-Räumliches und Temporales Reasoning. MMGR evaluiert generatives Reasoning in drei Domänen: Abstraktes Reasoning (ARC-AGI, Sudoku), Embodied Navigation (Realwelt-3D-Navigation und Lokalisierung) und Physical Commonsense (Sport und kompositionelle Interaktionen). MMGR wendet feinkörnige Metriken an, die holistische Korrektheit über Video- und Bildgenerierung hinweg erfordern. Wir benchmarken führende Videomodelle (Veo-3, Sora-2, Wan-2.2) und Bildmodelle (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image) und zeigen erhebliche Leistungsunterschiede zwischen den Domänen auf. Modelle zeigen mäßigen Erfolg bei Physical Commonsense-Aufgaben, schneiden jedoch schlecht bei Abstraktem Reasoning ab (unter 10 % Genauigkeit bei ARC-AGI) und haben Schwierigkeiten mit langfristiger räumlicher Planung in embodied Settings. Unsere Analyse hebt zentrale Limitationen aktueller Modelle hervor, darunter Überbetonung perzeptiver Daten, schwache globale Zustandskonsistenz und Zielvorgaben, die visuelle Plausibilität über kausale Korrektheit belohnen. MMGR bietet einen einheitlichen Diagnose-Benchmark und einen Weg hin zu reasoning-bewussten generativen Weltmodellen.
Jüngste Fortschritte in der Videogenerierung haben lebendige Inhalte hervorgebracht, die oft nicht von echten Videos zu unterscheiden sind, was die Erkennung von KI-generierten Videos zu einer neuen gesellschaftlichen Herausforderung macht. Bisherige AIGC-Erkennungs-Benchmarks bewerten Videos meist ohne Audio, zielen auf breite narrative Domänen ab und konzentrieren sich hauptsächlich auf Klassifizierung. Dennoch bleibt unklar, ob moderne Videogenerierungsmodelle immersive Videos mit Audio erzeugen können, die Menschen und VLMs (Vision-Language Models) zuverlässig täuschen. Zu diesem Zweck stellen wir den Video Reality Test vor, eine Benchmark-Suite auf Basis von ASMR-Videos, um die perzeptuelle Realitätsnähe unter enger audio-visueller Kopplung zu testen, mit folgenden Merkmalen: (i) Immersive ASMR-Video-Audio-Quellen. Auf Basis sorgfältig kuratierter echter ASMR-Videos zielt die Benchmark auf feinkörnige Aktions-Objekt-Interaktionen mit Vielfalt bei Objekten, Aktionen und Hintergründen ab. (ii) Peer-Review-Bewertung. Ein adversarielles Creator-Reviewer-Protokoll, bei dem Videogenerierungsmodelle als Creator agieren, die Reviewer täuschen wollen, während VLMs als Reviewer fungieren, die Fälschungen identifizieren sollen. Unsere experimentellen Ergebnisse zeigen: Der beste Creator Veo3.1-Fast täuscht sogar die meisten VLMs: der stärkste Reviewer (Gemini 2.5-Pro) erreicht nur 56\% Genauigkeit (Zufall: 50\%), weit unter der von menschlichen Experten (81,25\%). Die Hinzunahme von Audio verbessert die Echtheitserkennung, doch oberflächliche Hinweise wie Wasserzeichen können Modelle immer noch erheblich in die Irre führen. Diese Ergebnisse skizzieren die aktuelle Grenze der Realitätsnähe von Videogenerierung und decken Limitationen von VLMs bei perzeptueller Treue und audio-visueller Konsistenz auf. Unser Code ist verfügbar unter https://github.com/video-reality-test/video-reality-test.
Dieses Paper stellt WorldPlay vor, ein Streaming-Video-Diffusionsmodell, das Echtzeit-Interaktion mit langfristiger geometrischer Konsistenz ermöglicht und damit den Zielkonflikt zwischen Geschwindigkeit und Speicherbedarf löst, der aktuelle Methoden limitiert. Die Leistungsfähigkeit von WorldPlay basiert auf drei zentralen Innovationen. 1) Wir verwenden eine Duale-Aktions-Repräsentation, um eine robuste Aktionssteuerung in Reaktion auf Tastatur- und Mauseingaben des Nutzers zu ermöglichen. 2) Um langfristige Konsistenz zu gewährleisten, baut unser Rekonstituierter-Kontext-Speicher Kontext aus vergangenen Frames dynamisch neu auf und verwendet temporäre Neurahmung, um geometrisch wichtige, aber weit zurückliegende Frames zugänglich zu halten, was Speicherattentuierung effektiv mildert. 3) Wir schlagen zudem Context Forcing vor, eine neuartige Destillationsmethode für speicherbewusste Modelle. Die Ausrichtung des Speicherkontexts zwischen Lehrer- und Schüler-Modell erhält die Fähigkeit des Schüler-Modells, langreichweitige Informationen zu nutzen, ermöglicht Echtzeitgeschwindigkeiten und verhindert gleichzeitig Fehlerdrift. In der Summe erzeugt WorldPlay langfristige 720p-Streaming-Videos mit 24 FPS und überlegener Konsistenz, schneidet im Vergleich zu bestehenden Techniken gut ab und zeigt starke Generalisierungsfähigkeit über diverse Szenen hinweg. Projektseite und Online-Demo sind verfügbar unter: https://3d-models.hunyuan.tencent.com/world/ und https://3d.hunyuan.tencent.com/sceneTo3D.
Subjektgesteuerte Bildgenerierung hat sich von Einzel- zu Mehrfachsubjektkompositionen weiterentwickelt, vernachlässigte dabei jedoch die Unterscheidungsfähigkeit – die Fähigkeit, das korrekte Subjekt zu identifizieren und zu generieren, wenn Eingaben mehrere Kandidaten enthalten. Diese Einschränkung mindert die Wirksamkeit in komplexen, realistischen visuellen Umgebungen. Wir stellen Scone vor, eine vereinheitlichte Verstehens-Generierungs-Methode, die Komposition und Unterscheidung integriert. Scone ermöglicht es dem Verstehensexperten, als semantische Brücke zu fungieren, semantische Informationen zu übermitteln und den Generierungsexperten anzuleiten, die Subjektidentität zu bewahren und Interferenzen zu minimieren. Ein zweistufiges Trainingsschema erlernt zunächst Komposition und verbessert dann die Unterscheidung durch semantische Ausrichtung und aufmerksamkeitsbasierte Maskierung. Wir führen zudem SconeEval ein, einen Benchmark zur Bewertung von Komposition und Unterscheidung in diversen Szenarien. Experimente zeigen, dass Scone bestehende Open-Source-Modelle in Kompositions- und Unterscheidungsaufgaben auf zwei Benchmarks übertrifft. Unser Modell, Benchmark und Trainingsdaten sind verfügbar unter: https://github.com/Ryann-Ran/Scone.
Räumliche Nachverfolgung als grundlegende verkörperte Interaktionsfähigkeit für Roboter ist von Natur aus herausfordernd, da sie mehrstufige metrisch fundierte Reasoning-Prozesse erfordert, die mit komplexen räumlichen Referenzen und realen metrischen Messungen kombiniert sind. Bisherige Methoden haben jedoch Schwierigkeiten mit dieser kombinatorischen Aufgabe. Daher schlagen wir RoboTracer vor, ein 3D-bewusstes VLM, das erstmals sowohl 3D-räumliche Referenzierung als auch Messung durch einen universellen räumlichen Encoder und einen regressionsüberwachten Decoder erreicht, um das Skalenbewusstsein während des supervised Fine-Tunings (SFT) zu verbessern. Darüber hinaus erweitert RoboTracer das mehrstufige metrisch fundierte Reasoning durch Reinforcement Fine-Tuning (RFT) mit metrisch sensitiven Prozessbelohnungen, die wichtige perzeptuelle Zwischenhinweise überwachen, um räumliche Spuren präzise zu generieren. Um SFT- und RFT-Training zu unterstützen, führen wir TraceSpatial ein, einen großen Datensatz mit 30 Millionen Frage-Antwort-Paaren, der Innen-/Außen- und Tischszenen abdeckt und komplexe Reasoning-Prozesse (bis zu 9 Schritte) unterstützt. Wir präsentieren außerdem TraceSpatial-Bench, eine anspruchsvolle Benchmark, die die Lücke zur Evaluierung räumlicher Nachverfolgung schließt. Experimentelle Ergebnisse zeigen, dass RoboTracer Baseline-Methoden im räumlichen Verständnis, bei Messungen und Referenzen mit einer durchschnittlichen Erfolgsrate von 79,1% übertrifft und auf TraceSpatial-Bench mit großem Abstand State-of-the-Art-Leistung erzielt, indem es Gemini-2.5-Pro um 36% Genauigkeit übertrifft. Bemerkenswerterweise kann RoboTracer mit verschiedenen Steuerungsstrategien integriert werden, um langfristige, dynamische Aufgaben über verschiedene Roboter (UR5, G1-Humanoid) hinweg in unübersichtlichen realen Szenarien auszuführen.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hängt maßgeblich von der Qualität und Vielfalt der Post-Training-Datensätze ab. Es besteht jedoch ein grundlegendes Dilemma: Während Modelle rigoros benchmarkgetestet werden, bleiben die Daten, die sie antreiben, eine Blackbox – gekennzeichnet durch undurchsichtige Zusammensetzung, unklare Herkunft und fehlende systematische Evaluation. Diese Intransparenz behindert die Reproduzierbarkeit und verschleiert den kausalen Zusammenhang zwischen Datenmerkmalen und Modellverhalten. Um diese Lücke zu schließen, stellen wir OpenDataArena (ODA) vor, eine holistische und offene Plattform zur Bewertung des intrinsischen Werts von Post-Training-Daten. ODA etabliert ein umfassendes Ökosystem mit vier zentralen Säulen: (i) eine vereinheitlichte Trainings-Evaluations-Pipeline, die faire, offene Vergleiche verschiedener Modelle (z.B. Llama, Qwen) und Domänen gewährleistet; (ii) ein multidimensionales Bewertungsframework, das Datenqualität entlang dutzender spezifischer Achsen profiliert; (iii) ein interaktiver Data-Lineage-Explorer zur Visualisierung von Datensatz-Genealogien und Analyse von Komponentenquellen; und (iv) ein vollständig quelloffenes Toolkit für Training, Evaluation und Bewertung zur Förderung der Datenforschung. Umfangreiche Experimente auf ODA – mit über 120 Trainingsdatensätzen aus mehreren Domänen auf 22 Benchmarks, validiert durch mehr als 600 Trainingsläufe und 40 Millionen verarbeitete Datenpunkte – liefern bedeutende Erkenntnisse. Unsere Analyse deckt inhärente Zielkonflikte zwischen Datenkomplexität und Aufgabenperformance auf, identifiziert Redundanzen in gängigen Benchmarks durch Herkunftsverfolgung und kartiert die genealogischen Beziehungen zwischen Datensätzen. Wir veröffentlichen alle Ergebnisse, Tools und Konfigurationen, um den Zugang zu hochwertiger Datenevaluation zu demokratisieren. Statt lediglich eine Bestenliste zu erweitern, zielt ODA auf einen Wandel ab: von trial-and-error-Datenkuratierung hin zu einer prinzipienbasierten Wissenschaft des Data-Centric AI, um den Weg für rigorose Studien zu Datenmischungsgesetzen und der strategischen Zusammensetzung von Foundation Models zu ebnen.
Die Ähnlichkeitssuche mit Vektoren (Vector Similarity Search, VSS) in hochdimensionalen Räumen etabliert sich zunehmend als Kernfunktionalität in Datenbanksystemen der nächsten Generation für eine Vielzahl datenintensiver Dienste – vom Einbetten von Lookups in großen Sprachmodellen (LLMs) über semantische Informationsbeschaffung bis hin zu Empfehlungssystemen. Aktuelle Benchmarks bewerten VSS jedoch primär anhand des Abwägens zwischen Trefferquote (Recall) und Latenz gegenüber einer allein durch Abstandsmetriken definierten Grundwahrheit (Ground Truth) und vernachlässigen dabei, wie sich die Retrieval-Qualität letztlich auf nachgelagerte Aufgaben auswirkt. Diese Diskrepanz kann sowohl die akademische Forschung als auch die industrielle Praxis in die Irre führen. Wir stellen Iceberg vor, eine ganzheitliche Benchmark-Suite zur End-to-End-Bewertung von VSS-Methoden in realistischen Anwendungskontexten. Aus einer aufgabenorientierten Perspektive deckt Iceberg den „Information Loss Funnel“ (Trichter des Informationsverlusts) auf, der drei Hauptquellen für Leistungsverschlechterung über die gesamte Verarbeitungskette identifiziert: (1) Einbettungsverlust (Embedding Loss) während der Merkmalsextraktion; (2) Fehlanwendung von Metriken (Metric Misuse), bei der Abstände die Aufgaberelevanz nur unzureichend widerspiegeln; (3) Sensitivität gegenüber der Datenverteilung (Data Distribution Sensitivity), welche die Robustheit von Indizes gegenüber Schiefen und verschiedenen Modalitäten hervorhebt. Für eine umfassendere Bewertung umfasst Iceberg acht verschiedene Datensätze aus Schlüsseldomänen wie Bildklassifizierung, Gesichtserkennung, Textretrieval und Empfehlungssystemen. Jeder Datensatz, der zwischen 1 Mio. und 100 Mio. Vektoren umfasst, enthält umfangreiche, aufgabenspezifische Labels und Bewertungsmetriken, die eine Beurteilung von Retrieval-Algorithmen innerhalb der gesamten Anwendungspipeline und nicht isoliert ermöglichen. Iceberg benchmarked 13 state-of-the-art VSS-Methoden und ordnet sie auf der Grundlage von anwendungsbezogenen Metriken neu, was erhebliche Abweichungen von traditionellen, rein auf Recall-Latenz-Bewertungen basierenden Rankings offenbart. Aufbauend auf diesen Erkenntnissen definieren wir einen Satz aufgabenorientierter Meta-Merkmale und leiten einen interpretierbaren Entscheidungsbaum ab, um Praktiker bei der Auswahl und Feinabstimmung von VSS-Methoden für ihre spezifischen Workloads zu unterstützen.
Skalierbare Vektorgrafiken (SVG) sind zentral für modernes Webdesign, und die Nachfrage nach deren Animation wächst stetig, da Webumgebungen zunehmend dynamischer werden. Dennoch stellt die Automatisierung der Animation von Vektorgrafiken eine anhaltende Herausforderung für Vision-Language-Modelle (VLMs) dar, trotz jüngster Fortschritte in der Codegenerierung und Bewegungsplanung. VLMs verarbeiten SVGs häufig fehlerhaft, da visuell kohärente Elemente oft in niedrigere Formen fragmentiert sind, die wenig Anhaltspunkte dafür bieten, welche Elemente sich gemeinsam bewegen sollten. In diesem Artikel stellen wir ein Framework vor, das die für zuverlässige SVG-Animation erforderliche semantische Struktur wiederherstellt und die fehlende Ebene aufdeckt, die aktuelle VLM-Systeme übersehen. Dies wird durch eine statistische Aggregation mehrerer schwacher Teilevorhersagen erreicht, die es dem System ermöglicht, Semantik stabil aus verrauschten Vorhersagen abzuleiten. Durch die Reorganisation von SVGs in semantische Gruppen ermöglicht unser Ansatz VLMs, Animationen mit deutlich größerer Kohärenz zu erzeugen. Unsere Experimente zeigen substantiale Verbesserungen gegenüber bestehenden Ansätzen und legen nahe, dass semantische Wiederherstellung der Schlüsselschritt ist, der robuste SVG-Animation ermöglicht und interpretierbare Interaktionen zwischen VLMs und Vektorgrafiken unterstützt.
Die zentrale Herausforderung bei der Erzeugung von Streaming-Videos besteht darin, die Inhaltskonsistenz über lange Kontexte hinweg aufrechtzuerhalten, was hohe Anforderungen an das Speicherdesign stellt. Die meisten bestehenden Lösungen verwalten den Speicher, indem sie historische Frames mit vordefinierten Strategien komprimieren. Allerdings sollten verschiedene zu generierende Videosegmente auf unterschiedliche historische Hinweise zurückgreifen, was mit festen Strategien nur schwer zu erreichen ist. In dieser Arbeit schlagen wir MemFlow vor, um dieses Problem zu lösen. Konkret aktualisieren wir vor der Generierung des nächsten Segments den Speicherbank dynamisch, indem wir die relevantesten historischen Frames anhand des Textprompts für dieses Segment abrufen. Dieser Ansatz gewährleistet narrative Kohärenz, selbst wenn neue Ereignisse auftreten oder sich Szenarien in zukünftigen Frames ändern. Zusätzlich aktivieren wir während der Generierung für jede Abfrage in den Attention-Layern nur die relevantesten Tokens in der Speicherbank, was die Generierungseffizienz wirksam sicherstellt. Auf diese Weise erreicht MemFlow eine herausragende Langzeitkonsistenz mit vernachlässigbarem Rechenaufwand (nur 7,9% Geschwindigkeitsreduktion im Vergleich zum speicherfreien Baseline-Modell) und bleibt mit jedem Streaming-Videogenerierungsmodell mit KV-Cache kompatibel.
Die Gestaltung effektiver Belohnungsfunktionen stellt eine zentrale und oft mühsame Herausforderung im Reinforcement Learning (RL) dar, insbesondere bei der Entwicklung autonomer Agenten für komplexe Denkaufgaben. Obwohl automatisierte Belohnungsoptimierungsansätze existieren, basieren diese typischerweise auf evolutionären, ableitungsfreien Heuristiken, die die Belohnungsfunktion als Blackbox behandeln und somit die kausale Beziehung zwischen Belohnungsstruktur und Aufgabenleistung nicht erfassen. Um diese Lücke zu schließen, schlagen wir Differentiable Evolutionary Reinforcement Learning (DERL) vor, ein bi-ebenes Framework, das die autonome Entdeckung optimaler Belohnungssignale ermöglicht. In DERL entwickelt ein Meta-Optimierer eine Belohnungsfunktion (d.h. eine Meta-Belohnung) durch die Kombination strukturierter atomarer Primitive, die das Training einer Policy in einer inneren Schleife steuert. Anders als bei früheren evolutionären Ansätzen ist DERL entscheidenderweise in seiner Meta-Optimierung differenzierbar: Es behandelt die Validierungsleistung der inneren Schleife als Signal zur Aktualisierung des Meta-Optimierers mittels Reinforcement Learning. Dies ermöglicht es DERL, den "Meta-Gradienten" des Aufgaben-erfolgs anzunähern und progressiv zu lernen, dichtere und handlungsrelevantere Rückmeldungen zu generieren. Wir validieren DERL in drei verschiedenen Domänen: Roboteragent (ALFWorld), wissenschaftliche Simulation (ScienceWorld) und mathematisches Denken (GSM8k, MATH). Experimentelle Ergebnisse zeigen, dass DERL auf ALFWorld und ScienceWorld state-of-the-art Leistung erzielt und Methoden, die auf heuristischen Belohnungen basieren, insbesondere in Out-of-Distribution-Szenarien, signifikant übertrifft. Die Analyse der evolutionären Trajektorie demonstriert, dass DERL erfolgreich die intrinsische Struktur der Aufgaben erfasst und eine sich selbst verbessernde Agenten-Ausrichtung ohne menschliches Eingreifen ermöglicht.
Wir stellen Olmo 3 vor, eine Familie von hochmodernen, vollständig offenen Sprachmodellen mit 7B und 32B Parametern. Die Modellentwicklung von Olmo 3 zielt auf Langkontext-Verarbeitung, Funktionsaufrufe, Programmierung, Befolgung von Anweisungen, allgemeinen Chat und Wissensabruf ab. Diese Veröffentlichung umfasst den gesamten Modellentwicklungsprozess, d.h. den vollständigen Lebenszyklus der Modellfamilie, einschließlich jeder Phase, jedes Checkpoints, jedes Datenpunkts und jeder Abhängigkeit, die zu seiner Erstellung verwendet wurde. Unser Flaggschiff-Modell, Olmo 3 Think 32B, ist das bislang leistungsstärkste vollständig offene "Thinking"-Modell.
Die Entwicklung allgemeiner Reasoning-Modelle mit Reinforcement Learning (RL) ist mit erheblicher domänenübergreifender Heterogenität verbunden, einschließlich großer Schwankungen bei den Antwortlängen zur Inferenzzeit und der Verifikationslatenz. Diese Variabilität erschwert die RL-Infrastruktur, verlangsamt das Training und macht die Gestaltung des Trainingscurriculums (z. B. die Erweiterung der Antwortlänge) sowie die Hyperparameterauswahl anspruchsvoll. In dieser Arbeit schlagen wir kaskadiertes Reinforcement Learning nach Domänen (Cascade RL) vor, um allgemeine Reasoning-Modelle namens Nemotron-Cascade zu entwickeln, die sowohl im Instruktions- als auch im Deep-Thinking-Modus operieren können. Im Gegensatz zu konventionellen Ansätzen, die heterogene Prompts aus verschiedenen Domänen vermischen, orchestriert Cascade RL sequenzielles, domänenweises RL, reduziert die technische Komplexität und erzielt state-of-the-art Leistung über eine breite Palette von Benchmarks hinweg. Bemerkenswerterweise steigert RLHF für Alignment, wenn es als Vorstufe eingesetzt wird, die Reasoning-Fähigkeit des Modells weit über eine bloße Präferenzoptimierung hinaus, und nachfolgende domänenweise RLVR-Stufen verschlechtern die in früheren Domänen erreichte Benchmark-Leistung selten und können sie sogar verbessern (siehe eine Veranschaulichung in Abbildung 1). Unser 14B-Modell übertrifft nach dem RL-Training seinen SFT-Lehrer, DeepSeek-R1-0528, auf LiveCodeBench v5/v6/Pro und erreicht eine Silbermedaillen-Leistung bei der Internationalen Informatik-Olympiade (IOI) 2025. Wir teilen unsere Trainings- und Datenrezepte transparent.
Große Sprachmodelle (LLMs) haben bemerkenswertes Potenzial gezeigt, um Recommender-Systeme von impliziter Verhaltensmustererkennung zu expliziter Absichtsableitung zu transformieren. Während RecGPT-V1 diesen Paradigmenwechsel erfolgreich einleitete, indem es LLM-basierte Reasoning-Verfahren in die Nutzerinteressen-Ermittlung und Item-Tag-Vorhersage integrierte, leidet es unter vier grundlegenden Einschränkungen: (1) Rechenineffizienz und kognitive Redundanz über mehrere Reasoning-Pfade hinweg; (2) unzureichende Erklärungsvielfalt bei der Generierung mittels fester Vorlagen; (3) begrenzte Generalisierungsfähigkeit unter überwachten Lernparadigmen; und (4) eine vereinfachte, ergebnisorientierte Evaluation, die menschlichen Maßstäben nicht gerecht wird. Um diese Herausforderungen zu bewältigen, präsentieren wir RecGPT-V2 mit vier zentralen Innovationen. Erstens strukturiert ein hierarchisches Multi-Agenten-System die Absichtsableitung durch koordinierte Zusammenarbeit neu, beseitigt kognitive Doppelarbeit und ermöglicht gleichzeitig eine vielfältige Abdeckung von Absichten. In Kombination mit hybrider Repräsentationsinferenz, die Nutzerverhaltenskontexte komprimiert, reduziert unser Framework den GPU-Verbrauch um 60 % und verbessert den exklusiven Recall von 9,39 % auf 10,99 %. Zweitens generiert ein Meta-Prompting-Framework kontextuell adaptive Prompts dynamisch und steigert die Erklärungsvielfalt um +7,3 %. Drittens mildert bestärkendes Lernen unter Nebenbedingungen Konflikte zwischen multiplen Belohnungssignalen und erzielt eine Verbesserung von +24,1 % bei der Tag-Vorhersage und +13,0 % bei der Erklärungsakzeptanz. Viertens zerlegt ein Agent-as-a-Judge-Framework die Bewertung in mehrstufiges Reasoning und verbessert die Übereinstimmung mit menschlichen Präferenzen. Online-A/B-Tests auf Taobao zeigen signifikante Verbesserungen: +2,98 % CTR, +3,71 % IPV, +2,19 % TV und +11,46 % NER. RecGPT-V2 etabliert sowohl die technische Machbarkeit als auch die kommerzielle Tragfähigkeit des Einsatzes von LLM-gestützter Absichtsableitung im großen Maßstab und überbrückt die Lücke zwischen kognitiver Exploration und industriellem Nutzen.
Während bestehende Generierungs- und Unified-Modelle bei der allgemeinen Bildgenerierung hervorragende Leistungen erbringen, haben sie Schwierigkeiten mit Aufgaben, die tiefgehendes logisches Denken, Planung und präzise Daten-zu-Bild-Abbildungsfähigkeiten über allgemeine Szenarien hinaus erfordern. Um über die bestehenden Grenzen hinauszugehen, führen wir eine neue und anspruchsvolle Aufgabe ein: kreative Tabellenvisualisierung. Diese erfordert, dass das Modell ein Infografik erzeugt, das die Daten einer gegebenen Tabelle sowohl präzise als auch ästhetisch ansprechend visualisiert. Um diese Herausforderung zu bewältigen, schlagen wir ShowTable vor, eine Pipeline, die MLLMs über einen progressiven, selbstkorrigierenden Prozess mit Diffusionsmodellen kombiniert. Das MLLM fungiert als zentrale Steuerinstanz, um den visuellen Plan zu entwickeln und visuelle Fehler zu beurteilen, um so verfeinerte Anweisungen zu geben, während das Diffusionsmodell die Befehle des MLLMs ausführt und dabei hochwertige Ergebnisse erzielt. Um diese Aufgabe und unsere Pipeline zu unterstützen, führen wir drei automatisierte Datenkonstruktions-Pipelines für das Training verschiedener Module ein. Darüber hinaus stellen wir TableVisBench vor, einen neuen Benchmark mit 800 anspruchsvollen Instanzen über 5 Bewertungsdimensionen, um die Leistung bei dieser Aufgabe zu bewerten. Experimente zeigen, dass unsere Pipeline, instanziiert mit verschiedenen Modellen, Baseline-Methoden signifikant übertrifft und ihre effektiven multimodalen Denk-, Generierungs- und Fehlerkorrekturfähigkeiten unter Beweis stellt.
Jüngste Fortschritte im Bereich Image-to-3D haben immense Möglichkeiten für Design, AR/VR und Robotik eröffnet. Um KI-generierte 3D-Assets jedoch in realen Anwendungen nutzen zu können, ist eine entscheidende Voraussetzung die Möglichkeit, sie einfach zu bearbeiten. Wir stellen eine Vorwärtsmethode namens Steer3D vor, um Bild-zu-3D-Modellen Textsteuerbarkeit hinzuzufügen, was die Bearbeitung generierter 3D-Assets mit Sprache ermöglicht. Unser Ansatz ist von ControlNet inspiriert, das wir für die Bild-zu-3D-Generierung anpassen, um Textsteuerung direkt in einem Vorwärtsdurchlauf zu ermöglichen. Wir entwickeln eine skalierbare Datenengine für die automatische Datengenerierung und ein zweistufiges Trainingsverfahren basierend auf Flow-Matching-Training und Direct Preference Optimization (DPO). Im Vergleich zu konkurrierenden Methoden folgt Steer3D Sprachbefehlen treuer und bewahrt eine bessere Konsistenz mit dem ursprünglichen 3D-Asset, ist dabei aber 2,4- bis 28,5-mal schneller. Steer3D zeigt, dass es möglich ist, vortrainierten Bild-zu-3D-Generativmodellen mit 100.000 Daten eine neue Modalität (Text) hinzuzufügen, um deren Generierung zu steuern. Projektwebsite: https://glab-caltech.github.io/steer3d/
Das schnelle Skalieren großer Sprachmodelle (LLMs) hat bemerkenswerte Leistungen erzielt, führt aber auch zu prohibitiv hohen Speicherkosten. Bestehende parameter-effiziente Ansätze wie Pruning und Quantisierung komprimieren hauptsächlich vortrainierte Modelle, ohne deren architektonische Kapazität zu erweitern, und stoßen so an die Repräsentationsgrenze des Basismodells. In dieser Arbeit stellen wir VersatileFFN vor, ein neuartiges Feed-Forward-Netzwerk (FFN), das eine flexible Wiederverwendung von Parametern in sowohl Breiten- als auch Tiefendimensionen innerhalb eines festen Parameterbudgets ermöglicht. Inspiriert von der Dual-Process-Theorie der Kognition besteht VersatileFFN aus zwei adaptiven Pfaden: Ein breitenvarianter Pfad erzeugt eine Mischung von Sub-Experten aus einem einzigen gemeinsamen FFN, was ein sparsames Expert-Routing nachahmt, ohne Parameter zu erhöhen, und ein tiefenvarianter Pfad, der dasselbe FFN rekursiv anwendet, um eine tiefere Verarbeitung für komplexe Tokens zu emulieren. Eine schwierigkeitsbewusste Gating-Funktion balanciert die beiden Pfade dynamisch aus, leitet "einfache" Tokens über den effizienten Breiten-Pfad und weist "schwierigen" Tokens eine tiefere iterative Verfeinerung zu. Entscheidend ist, dass beide Pfade dieselben Parameter wiederverwenden, sodass die gesamte zusätzliche Kapazität durch Berechnung und nicht durch Speicher entsteht. Experimente über verschiedene Benchmarks und Modellgrößen hinweg demonstrieren die Wirksamkeit der Methode. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN verfügbar sein.
Affordance-Vorhersage, bei der Interaktionsregionen auf Objekten anhand von Sprachinstruktionen identifiziert werden, ist entscheidend für verkörpertes KI. Vorherrschende End-to-End-Modelle koppeln hochrangiges Schließen und niederrangige Verankerung in einer einzigen monolithischen Pipeline und stützen sich auf das Training mit annotierten Datensätzen, was zu schlechter Generalisierung bei neuen Objekten und ungesehenen Umgebungen führt. In diesem Beitrag gehen wir über dieses Paradigma hinaus, indem wir A4-Agent vorschlagen, ein trainingsfreies agentenbasiertes Framework, das die Affordance-Vorhersage in eine dreistufige Pipeline entkoppelt. Unser Framework koordiniert spezialisierte Foundation-Modelle zur Testzeit: (1) einen „Dreamer“, der generative Modelle einsetzt, um zu visualisieren, wie eine Interaktion aussehen würde; (2) einen „Thinker“, der große Vision-Language-Modelle nutzt, um zu entscheiden, mit welchem Objektteil interagiert werden soll; und (3) einen „Spotter“, der Vision-Foundation-Modelle orchestriert, um präzise zu lokalisieren, wo der Interaktionsbereich liegt. Durch die Nutzung der komplementären Stärken vortrainierter Modelle ohne taskspezifisches Feintuning übertrifft unser Zero-Shot-Framework state-of-the-art überwachte Methoden in mehreren Benchmarks deutlich und zeigt robuste Generalisierung in realen Umgebungen.
Wir stellen SS4D vor, ein natives 4D-Generativmodell, das dynamische 3D-Objekte direkt aus monokularen Videos synthetisiert. Im Gegensatz zu früheren Ansätzen, die 4D-Repräsentationen durch Optimierung auf Basis von 3D- oder Video-Generativmodellen konstruieren, trainieren wir einen Generator direkt auf 4D-Daten und erreichen dabei hohe Detailtreue, zeitliche Kohärenz und strukturelle Konsistenz. Den Kern unserer Methode bildet ein komprimierter Satz strukturierter Raumzeit-Latenzen. Konkret: (1) Um der Knappheit an 4D-Trainingsdaten zu begegnen, bauen wir auf einem vortrainierten Einzelbild-zu-3D-Modell auf und bewahren so eine hohe räumliche Konsistenz. (2) Zeitliche Konsistenz wird durch dedizierte temporale Schichten erzwungen, die Informationen über Bildsequenzen hinweg verarbeiten. (3) Um effizientes Training und Inferenz über lange Videosequenzen zu ermöglichen, komprimieren wir die latente Sequenz entlang der Zeitachse mittels faktorisierter 4D-Faltungen und temporalen Downsampling-Blöcken. Zusätzlich setzen wir eine sorgfältig gestaltete Trainingsstrategie ein, um die Robustheit gegenüber Verdeckungen zu erhöhen.
Masked Discrete Diffusion Models (MDMs) haben in einer Vielzahl multimodaler Aufgaben hervorragende Leistungen erzielt, einschließlich Bildverständnis, -generierung und -bearbeitung. Ihre Inferenzgeschwindigkeit bleibt jedoch aufgrund der Notwendigkeit, bei jedem Abtastschritt redundante maskierte Token wiederholt zu verarbeiten, suboptimal. In dieser Arbeit schlagen wir Sparse-LaViDa vor, ein neuartiges Modellierungsframework, das bei jedem Inferenzschritt unnötige maskierte Token dynamisch abschneidet, um die MDM-Abtastung zu beschleunigen. Um die Generierungsqualität zu erhalten, führen wir spezielle Register-Token ein, die als kompakte Repräsentationen für die abgeschnittenen Token dienen. Darüber hinaus entwerfen wir eine spezielle Attention-Maske, die den abgeschnittenen Abtastprozess während des Trainings exakt abbildet, um die Konsistenz zwischen Training und Inferenz zu gewährleisten. Aufbauend auf dem state-of-the-art einheitlichen MDM LaViDa-O erzielt Sparse-LaViDa bei verschiedenen Aufgaben, einschließlich Text-zu-Bild-Generierung, Bildbearbeitung und mathematischem Reasoning, eine bis zu 2-fache Beschleunigung, bei gleichbleibender Generierungsqualität.
Non-parametrische Quantisierung hat aufgrund ihrer Effizienz in Bezug auf Parameter und ihrer Skalierbarkeit auf große Codebücher viel Aufmerksamkeit erhalten. In diesem Artikel stellen wir eine einheitliche Formulierung verschiedener nicht-parametrischer Quantisierungsmethoden durch die Linse der Gittercodierung vor. Die Geometrie von Gittercodes erklärt die Notwendigkeit von Hilfsverlusttermen beim Training von Autoencodern mit bestimmten vorhandenen lookup-freien Quantisierungsvarianten wie BSQ. Als Weiterentwicklung untersuchen wir einige mögliche Kandidaten, darunter Zufallsgitter, verallgemeinerte Fibonacci-Gitter und Gitter mit der dichtesten Kugelpackung. Dabei stellen wir fest, dass die auf dem Leech-Gitter basierende Quantisierungsmethode, die als Spherical Leech Quantization (Λ_{24}-SQ) bezeichnet wird, dank ihrer hohen Symmetrie und gleichmäßigen Verteilung auf der Hyperkugel sowohl zu einem vereinfachten Trainingsverfahren als auch zu einem verbesserten Kompromiss zwischen Rekonstruktion und Kompression führt. Bei Aufgaben zur Bildtokenisierung und -kompression erreicht dieser Quantisierungsansatz in allen Metriken eine bessere Rekonstruktionsqualität als BSQ, dem bisher besten Stand der Technik, bei gleichzeitig geringfügig geringerem Bitverbrauch. Die Verbesserung erstreckt sich auch auf modernste autoregressive Bildgenerierungsframeworks.
Diffusions-Sprachmodelle (dLMs) haben sich als vielversprechendes Paradigma etabliert, das parallele, nicht-autoregressive Generierung ermöglicht, doch ihre Lerneffizienz bleibt hinter der von autoregressiven (AR) Sprachmodellen zurück, wenn sie von Grund auf trainiert werden. Zu diesem Zweck untersuchen wir die AR-zu-dLM-Konvertierung, um vortrainierte AR-Modelle in effiziente dLMs umzuwandeln, die in puncto Geschwindigkeit glänzen und gleichzeitig die Aufgabengenauigkeit der AR-Modelle bewahren. Dies erreichen wir, indem wir Limitierungen in den Aufmerksamkeitsmustern und Zielsetzungen bestehender AR-zu-dLM-Methoden identifizieren und daraufhin Prinzipien und Methoden für eine effektivere AR-zu-dLM-Konvertierung vorschlagen. Konkret vergleichen wir zunächst systematisch verschiedene Aufmerksamkeitsmuster und stellen fest, dass die Beibehaltung der vortrainierten AR-Gewichtsverteilungen entscheidend für eine effektive Konvertierung ist. Daher führen wir ein kontinuierliches Vortrainingsschema mit einem blockweisen Aufmerksamkeitsmuster ein, das über Blöcke hinweg kausal bleibt, während es innerhalb jedes Blocks bidirektionale Modellierung ermöglicht. Wir stellen fest, dass dieser Ansatz die Gewichtsverteilungen vortrainierter AR-Modelle besser bewahren kann als vollständig bidirektionale Modellierung – zusätzlich zu seinem bekannten Vorteil der Ermöglichung von KV-Caching – und zu einer Win-Win-Situation in Genauigkeit und Effizienz führt. Zweitens schlagen wir, um die Trainings-Test-Lücke in den Maskierungstoken-Verteilungen (gleichmäßig vs. stark links-nach-rechts) zu verringern, eine positionsabhängige Token-Maskierungsstrategie vor, die späteren Token während des Trainings höhere Maskierungswahrscheinlichkeiten zuweist, um das Verhalten zur Testzeit besser nachzubilden. Gestützt auf diesen Rahmen führen wir umfangreiche Studien zu Aufmerksamkeitsmustern, Trainingsdynamiken und anderen Designentscheidungen von dLMs durch, die umsetzbare Einblicke in skalierbare AR-zu-dLM-Konvertierung bieten. Diese Studien führen zur Efficient-DLM-Familie, die state-of-the-art AR-Modelle und dLMs übertrifft; z.B. erzielt unser Efficient-DLM 8B eine um +5,4 %/+2,7 % höhere Genauigkeit bei einem 4,5x/2,7x höheren Durchsatz im Vergleich zu Dream 7B bzw. Qwen3 4B.
Dieses Paper stellt keine neuartige Methode vor, sondern etabliert einen einfachen, inkrementellen, aber wesentlichen Baseline-Ansatz für Video Temporal Grounding (VTG), eine Kernfähigkeit im Videoverständnis. Während multimodale große Sprachmodelle (MLLMs) bei verschiedenen Videoverständnisaufgaben hervorragende Leistungen erbringen, sind die Methoden zu deren Optimierung für VTG noch unzureichend erforscht. In diesem Paper präsentieren wir TimeLens, eine systematische Untersuchung zur Entwicklung von MLLMs mit starker VTG-Fähigkeit entlang zwei Hauptdimensionen: Datenqualität und algorithmisches Design. Wir decken zunächst kritische Qualitätsprobleme in bestehenden VTG-Benchmarks auf und führen TimeLens-Bench ein, das sorgfältig neu annotierte Versionen drei populärer Benchmarks mit strengen Qualitätskriterien umfasst. Unsere Analyse zeigt dramatische Neubewertungen der Modelle im Vergleich zu herkömmlichen Benchmarks und bestätigt die Unzuverlässigkeit früherer Evaluierungsstandards. Wir adressieren zudem verrauschte Trainingsdaten durch eine automatisierte Re-Annotations-Pipeline, die TimeLens-100K ergibt – einen großen, hochwertigen Trainingsdatensatz. Aufbauend auf unserer Datenbasis führen wir vertiefende Untersuchungen zu algorithmischen Designprinzipien durch, die eine Reihe bedeutungsvoller Erkenntnisse und effektiver wie effizienter Praktiken hervorbringen. Dazu gehören eine verschachtelte textuelle Encodierung für Zeitrepräsentation, ein "denkfreier" Reinforcement-Learning-Ansatz mit verifizierbaren Belohnungen (RLVR) als Trainingsparadigma sowie sorgfältig gestaltete Methoden für das RLVR-Training. Diese Bemühungen gipfeln in den TimeLens-Modellen, einer Familie von MLLMs, die unter Open-Source-Modellen state-of-the-art VTG-Leistungen erzielen und sogar proprietäre Modelle wie GPT-5 und Gemini-2.5-Flash übertreffen. Alle Codes, Daten und Modelle werden veröffentlicht, um zukünftige Forschung zu unterstützen.
Die Verwirklichung wahrhaft adaptiver verkörperter Intelligenz erfordert Agenten, die nicht nur durch das Nachahmen statischer Demonstrationen lernen, sondern sich durch kontinuierliche Verbesserung mittels Interaktion mit der Umwelt weiterentwickeln – ähnlich wie Menschen Fähigkeiten durch Übung meistern. Vision-Language-Action (VLA)-Modelle haben die robotische Manipulation durch die Nutzung großer Sprachmodelle vorangetrieben, sind jedoch grundsätzlich durch Supervised Finetuning (SFT) limitiert: Sie benötigen Hunderte von Demonstrationen pro Aufgabe, speichern Trajektorien starr ab und versagen bei der Anpassung, wenn die Einsatzbedingungen vom Training abweichen. Wir stellen EVOLVE-VLA vor, ein Test-Time-Training-Framework, das VLAs ermöglicht, sich kontinuierlich durch Umgebungsinteraktion mit minimalen oder null aufgabenspezifischen Demonstrationen anzupassen. Die zentrale technische Herausforderung besteht darin, Oracle-Belohnungssignale (die zur Testzeit nicht verfügbar sind) durch autonomes Feedback zu ersetzen. Wir lösen dies durch einen gelernten Fortschritts-Schätzer, der dichtes Feedback liefert, und entscheidend ist, dass wir unser Framework so gestalten, dass es dieses inhärent verrauschte Signal durch zwei Mechanismen „bändigt“: (1) einen akkumulativen Fortschrittsschätzmechanismus, der verrauschte punktuelle Schätzungen glättet, und (2) eine progressive Horizont-Erweiterungsstrategie, die eine schrittweise Politikentwicklung ermöglicht. EVOLVE-VLA erzielt substantielle Gewinne: +8,6 % bei langfristigen Aufgaben, +22,0 % im 1-Shot-Lernen und ermöglicht aufgabenübergreifende Generalisierung – es erreicht 20,8 % Erfolg bei ungesehenen Aufgaben ohne aufgabenspezifisches Demonstrationstraining (gegenüber 0 % für reines SFT). Qualitative Analysen zeigen neu entstehende Fähigkeiten, die in Demonstrationen nicht vorhanden sind, einschließlich Fehlerbehebung und neuartiger Strategien. Diese Arbeit stellt einen kritischen Schritt hin zu VLAs dar, die wahrhaft lernen und sich anpassen, und bewegt sich damit über statische Nachahmung hinaus hin zu kontinuierlicher Selbstverbesserung.
Wir stellen CRISP vor, eine Methode zur Wiederherstellung simulierbarer menschlicher Bewegungen und Szenengeometrie aus monokularen Videos. Bisherige Arbeiten zur gemeinsamen Mensch-Szene-Rekonstruktion stützen sich auf datengetriebene A-priori-Informationen und gemeinsame Optimierung ohne physikalische Randbedingungen oder liefern verrauschte Geometrie mit Artefakten, die Bewegungsverfolgungsverfahren mit Szeneninteraktionen scheitern lassen. Im Gegensatz dazu besteht unser zentraler Ansatz darin, konvexe, saubere und simulationsfähige Geometrie durch Anpassung planarer Primitiven an eine Punktwolkenrekonstruktion der Szene mittels einer einfachen Clustering-Pipeline über Tiefe, Normalen und Fluss zu gewinnen. Um Szenengeometrie zu rekonstruieren, die während Interaktionen verdeckt sein könnte, nutzen wir die Modellierung von Mensch-Szene-Kontakten (z.B. verwenden wir die menschliche Haltung, um die verdeckte Sitzfläche eines Stuhls zu rekonstruieren). Schließlich stellen wir die physikalische Plausibilität der Mensch- und Szenenrekonstruktionen sicher, indem wir sie zur Steuerung eines Humanoid-Controllers mittels Reinforcement Learning verwenden. Unser Ansatz reduziert die Bewegungsverfolgungsfehlerraten von 55,2 % auf 6,9 % auf menschenzentrierten Video-Benchmarks (EMDB, PROX) bei gleichzeitig 43 % schnellerem RL-Simulationsdurchsatz. Wir validieren ihn weiterhin anhand von In-the-Wild-Videos, einschließlich locker aufgenommener Videos, Internetvideos und sogar Sora-generierter Videos. Dies demonstriert die Fähigkeit von CRISP, physikalisch valide menschliche Bewegungen und Interaktionsumgebungen in großem Maßstab zu generieren, was Real-to-Sim-Anwendungen für Robotik und AR/VR erheblich voranbringt.
Medizinische Bildrestauration (MedIR) zielt darauf ab, hochwertige medizinische Bilder aus ihren qualitativ minderwertigen Gegenstücken wiederherzustellen. Jüngste Fortschritte in der MedIR konzentrierten sich auf All-in-One-Modelle, die in der Lage sind, mehrere verschiedene MedIR-Aufgaben gleichzeitig zu bewältigen. Aufgrund erheblicher Unterschiede sowohl in der Modalität als auch in den Degradationsarten erfordert die Verwendung eines gemeinsamen Modells für diese unterschiedlichen Aufgaben jedoch eine sorgfältige Berücksichtigung zweier kritischer intertask-Beziehungen: Task-Interferenz, die auftritt, wenn konfligierende Gradientenaktualisierungsrichtungen für verschiedene Aufgaben auf demselben Parameter entstehen, und Task-Ungleichgewicht, das sich auf eine ungleichmäßige Optimierung bezieht, die durch unterschiedliche, jeder Aufgabe inhärente Lernschwierigkeiten verursacht wird. Um diese Herausforderungen zu bewältigen, schlagen wir einen task-adaptiven Transformer (TAT) vor, ein neuartiges Framework, das sich durch zwei Schlüsselinnovationen dynamisch an verschiedene Aufgaben anpasst. Erstens wird eine task-adaptive Gewichtungsgenerierungsstrategie eingeführt, um Task-Interferenz zu mildern, indem taskspezifische Gewichtungsparameter für jede Aufgabe generiert werden, wodurch potenzielle Gradientenkonflikte auf gemeinsamen Gewichtungsparametern eliminiert werden. Zweitens wird eine task-adaptive Verlustausgleichsstrategie eingeführt, um die Verlustgewichte dynamisch auf der Grundlage taskspezifischer Lernschwierigkeiten anzupassen und so zu verhindern, dass Aufgaben dominieren oder unzureichend trainiert werden. Umfangreiche Experimente belegen, dass unser vorgeschlagener TAT in drei MedIR-Aufgaben – PET-Synthese, CT-Rauschunterdrückung und MRI-Super-Resolution – sowohl in aufgabenspezifischen als auch in All-in-One-Szenarien state-of-the-art Leistung erzielt. Der Code ist verfügbar unter https://github.com/Yaziwel/TAT.
Die Inferenz großer Mixture-of-Experts (MoE)-Modelle stellt aufgrund hoher Ressourcenanforderungen und dynamischer Workloads eine Herausforderung dar. Bestehende Lösungen stellen das gesamte Modell oft als einzelne monolithische Einheit bereit, die eine einheitliche Ressourcenkonfiguration für sowohl Attention- als auch Expert-Module anwendet – trotz deren unterschiedlicher Anforderungen – was zu begrenzter Skalierbarkeit und Ressourcenineffizienz führt. In diesem Artikel stellen wir Janus vor, ein skalierbares MoE-Inferenzsystem, das Attention und Experts auf separaten GPU-Sub-Clustern entkoppelt, wodurch jedes Modul unabhängig verwaltet und skaliert werden kann. Janus integriert drei Schlüsseldesigns für eine effiziente, entkoppelte MoE-Inferenz. Erstens schlägt es ein adaptives Zwei-Phasen-Kommunikationsschema vor, das Intra- und Inter-Node-Bandbreitenhierarchien für latenzarme Datenaustausche nutzt. Zweitens führt Janus, motiviert durch den speichergebundenen Charakter von MoE-Modulen, einen leichtgewichtigen Scheduler ein und implementiert ihn als GPU-Kernel, um die Anzahl aktivierter Experts über GPUs hinweg bei minimalem Overhead auszugleichen und so die Inferenzlatenz zu verringern. Drittens führt Janus eine feingranulare Ressourcenverwaltung durch, um die Platzierung von Experts dynamisch anzupassen und Attention- sowie MoE-Ressourcen unabhängig zu skalieren, um die Gesamteffizienz zu verbessern. Die Evaluation zeigt, dass Janus bis zu 3,9-mal höheren Durchsatz pro GPU als state-of-the-art-Systeme erreicht, während gleichzeitig die Latenzanforderungen pro Token erfüllt werden.
Grounded Video Question Answering (GVQA) zielt darauf ab, relevante temporale Segmente in Videos zu lokalisieren und genaue Antworten auf eine gegebene Frage zu generieren; große Video-Sprach-Modelle (LVLMs) zeigen jedoch ein begrenztes temporales Bewusstsein. Obwohl bestehende Ansätze auf Basis von Group Relative Policy Optimization (GRPO) versuchen, die temporale Verankerung zu verbessern, haben sie immer noch Schwierigkeiten, ihre Antworten treu auf die relevanten Videobelege zu stützen, was zu temporaler Fehllokalisierung und Halluzinationen führt. In dieser Arbeit stellen wir Zoom-Zero vor, ein Coarse-to-Fine-Framework, das zunächst abfragerelevante Segmente lokalisiert und dann temporal in die salientesten Frames hineinzoomt, um eine feinkörnigere visuelle Verifikation durchzuführen. Unsere Methode adressiert die Grenzen von GRPO für die GVQA-Aufgabe mit zwei Schlüsselinnovationen: (i) einem Zoom-in-Genauigkeits-Reward, der die Treue der temporalen Verankerungsvorhersage validiert und eine feinkörnige visuelle Verifikation auf den verankerten Frames ermöglicht; (ii) einer token-selektiven Credit-Zuweisung, die Rewards den Token zuschreibt, die für die temporale Lokalisierung oder Antwortgenerierung verantwortlich sind, und so das Problem von GRPO im Umgang mit mehrdimensionalen Reward-Signalen mildert. Unsere vorgeschlagene Methode verbessert Grounded Video Question Answering, steigert die temporale Verankerung um 5,2 % auf NExT-GQA und 4,6 % auf ReXTime und erhöht gleichzeitig die durchschnittliche Antwortgenauigkeit um 2,4 %. Zusätzlich profitiert das Coarse-to-Fine-Zoom-in während des Inferenzvorgangs weiterhin vom Langzeit-Videoverständnis, indem kritische visuelle Details bewahrt werden, ohne den globalen Kontext zu beeinträchtigen, was zu einer durchschnittlichen Verbesserung von 6,4 % auf Langvideo-Benchmarks führt.
Kontextlernen ist grundlegend für moderne Large Language Models (LLMs); jedoch verleihen vorherrschende Architekturen dem Kontext eine starre und feste Struktur, indem sie lineare oder konstante Positionsindizes vergeben. Gestützt auf die Cognitive Load Theory (CLT) argumentieren wir, dass diese nicht-informative Struktur die extrinsische kognitive Belastung erhöht und damit begrenzte Arbeitsgedächtniskapazität beansprucht, die tiefgreifenden Schlussfolgerungen und der Aufmerksamkeitssteuerung vorbehalten sein sollte. Um dies zu adressieren, schlagen wir RePo vor, einen neuartigen Mechanismus, der die extrinsische Belastung durch Kontext-Neupositionierung reduziert. Im Gegensatz zu Standardansätzen nutzt RePo ein differenzierbares Modul, f_φ, um Token-Positionen zu vergeben, die kontextuelle Abhängigkeiten erfassen, anstatt sich auf einen vordefinierten Integer-Bereich zu stützen. Durch kontinuierliches Weiter-Pretraining auf der OLMo-2 1B-Basis zeigen wir, dass RePo die Leistung bei Aufgaben mit verrauschten Kontexten, strukturierten Daten und längeren Kontextlängen signifikant verbessert, während es eine wettbewerbsfähige Performance bei allgemeinen Kurzkontext-Aufgaben beibehält. Detaillierte Analysen zeigen, dass RePo erfolgreich entfernten, aber relevanten Informationen höhere Aufmerksamkeit zuweist, Positionen in einem dichten und nicht-linearen Raum vergibt und die intrinsische Struktur des Eingabekontexts erfasst. Unser Code ist verfügbar unter https://github.com/SakanaAI/repo.
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als effektiv erwiesen, um große Reasoning-Modelle (LRMs) zu trainieren, indem es antwortverifizierbare Signale zur Steuerung der Policy-Optimierung nutzt. Dieser Ansatz leidet jedoch unter hohen Annotationskosten. Um dieses Problem zu mildern, haben neuere Arbeiten unüberwachte RLVR-Methoden untersucht, die Belohnungen ausschließlich aus der internen Konsistenz des Modells ableiten, beispielsweise durch Entropie und Mehrheitsentscheid. Obwohl vielversprechend, neigen diese Methoden oft in späteren Trainingsphasen zu einem Model Collapse, was auf die Verstärkung falscher Reasoning-Muster ohne externe Überwachung zurückzuführen sein könnte. In dieser Arbeit untersuchen wir ein neuartiges semi-überwachtes RLVR-Paradigma, das eine kleine Menge gelabelter Daten nutzt, um das RLVR-Training auf ungelabelten Stichproben zu steuern. Unsere zentrale Erkenntnis ist, dass überwachte Belohnungen entscheidend sind, um konsistenzbasiertes Training auf ungelabelten Daten zu stabilisieren und sicherzustellen, dass nur Reasoning-Muster, die auf gelabelten Instanzen verifiziert wurden, in das RL-Training einfließen. Technisch schlagen wir einen effektiven Policy-Optimierungsalgorithmus namens TraPO vor, der zuverlässige ungelabelte Stichproben identifiziert, indem er die Ähnlichkeit ihrer Lernverläufe zu denen gelabelter Stichproben abgleicht. Aufbauend darauf erreicht TraPO eine bemerkenswerte Dateneffizienz und starke Generalisierungsfähigkeit auf sechs weit verbreiteten mathematischen Reasoning-Benchmarks (AIME24/25, AMC, MATH-500, Minerva und Olympiad) sowie drei Out-of-Distribution-Aufgaben (ARC-c, GPQA-diamond und MMLU-pro). Mit nur 1K gelabelten und 3K ungelabelten Stichproben erreicht TraPO eine durchschnittliche Genauigkeit von 42,6 % und übertrifft damit die beste unüberwachte Methode, die mit 45K ungelabelten Stichproben trainiert wurde (38,3 %). Bemerkenswerterweise übertrifft TraPO bei Verwendung von 4K gelabelten und 12K ungelabelten Stichproben auf allen Benchmarks sogar das vollständig überwachte Modell, das mit den vollen 45K gelabelten Stichproben trainiert wurde, und verwendet dabei nur 10 % der gelabelten Daten. Der Code ist unter https://github.com/ShenzhiYang2000/TRAPO verfügbar.
Sicherheitsausrichtungsmechanismen in großen Sprachmodellen verhindern durch erlerntes Ablehnungsverhalten Antworten auf schädliche Anfragen, doch dieselben Mechanismen behindern legitime Forschungsanwendungen, einschließlich kognitiver Modellierung, adversarieller Tests und Sicherheitsanalysen. Während Ablitionierungstechniken die chirurgische Entfernung von Ablehnungsrepräsentationen durch direktionale Orthogonalisierung ermöglichen, bleibt die relative Effektivität verfügbarer Implementierungen uncharakterisiert. Diese Studie evaluiert vier Ablitionierungswerkzeuge (Heretic, DECCP, ErisForge, FailSpy) an sechzehn instruktionsfeinabgestimmten Modellen (7B-14B Parameter) und berichtet Werkzeugkompatibilität für alle 16 Modelle sowie quantitative Metriken für Teilmengen, die durch die Werkzeugunterstützung bestimmt werden. Einzel-Durchlauf-Methoden zeigten überlegene Fähigkeitserhaltung in der benchmarkten Teilmenge (durchschnittliche GSM8K-Veränderung über drei Modelle: ErisForge -0,28 PP; DECCP -0,13 PP), während bayessch optimierte Ablitionierung variablen Verteilungsversatz (KL-Divergenz: 0,043-1,646) mit modellabhängigen Fähigkeitsauswirkungen erzeugte. Diese Ergebnisse bieten Forschern evidenzbasierte Auswahlkriterien für den Einsatz von Ablitionierungswerkzeugen über verschiedene Modellarchitekturen hinweg. Der Hauptbefund zeigt, dass mathematische Reasoning-Fähigkeiten die höchste Sensitivität gegenüber Ablitionierungseingriffen aufweisen, mit GSM8K-Veränderungen von +1,51 PP bis -18,81 PP (-26,5 % relativ) in Abhängigkeit von Werkzeugauswahl und Modellarchitektur.
Weltmodelle haben sich als äußerst nützlich erwiesen, um die Aufgabenleistung verkörperter Agenten zu verbessern. Während sich frühere Arbeiten weitgehend auf Pixel-basierte Weltmodelle konzentrierten, stoßen diese Ansätze in GUI-Umgebungen auf praktische Grenzen, da die Vorhersage komplexer visueller Elemente in zukünftigen Zuständen oft schwierig ist. In dieser Arbeit untersuchen wir eine alternative Formulierung der Weltmodellierung für GUI-Agenten, bei der Zustandsübergänge durch natürliche Sprache beschrieben werden, anstatt Rohpixel vorherzusagen. Erstens führen wir MobileWorldBench ein, einen Benchmark, der die Fähigkeit von Vision-Sprache-Modellen (VLMs) bewertet, als Weltmodelle für mobile GUI-Agenten zu fungieren. Zweitens veröffentlichen wir MobileWorld, einen umfangreichen Datensatz mit 1,4 Millionen Beispielen, der die Weltmodellierungsfähigkeiten von VLMs erheblich verbessert. Schließlich schlagen wir ein neuartiges Framework vor, das VLM-Weltmodelle in das Planungsframework mobiler Agenten integriert und demonstriert, dass semantische Weltmodelle mobile Agenten direkt durch eine Steigerung der Aufgaben-Erfolgsquote unterstützen können. Der Code und der Datensatz sind unter https://github.com/jacklishufan/MobileWorld verfügbar.
Die Gebäudeextraktion aus Fernerkundungsbildern ist aufgrund der komplexen Strukturvariationen von Gebäuden eine anspruchsvolle Aufgabe. Bestehende Methoden verwenden Faltungs- oder Self-Attention-Blöcke, um mehrskalige Merkmale in Segmentierungsmodellen zu erfassen, während die inhärente Lücke in den Merkmalspyramiden und eine unzureichende Integration globaler und lokaler Merkmale zu ungenauen, unscharfen Extraktionsergebnissen führen. Um dieses Problem zu lösen, stellen wir in diesem Artikel ein Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet) vor, das in der Lage ist, hochwertige global-lokale visuelle Semantik unter Anleitung der Unsicherheitsmodellierung zu nutzen. Konkret schlagen wir einen neuartigen kooperativen Encoder vor, der hybride CNN- und Transformer-Ebenen in verschiedenen Stufen verwendet, um jeweils lokale und globale visuelle Semantik zu erfassen. Ein intermediärer kooperativer Interaktionsblock (CIB) wurde entwickelt, um die Lücke zwischen lokalen und globalen Merkmalen zu verringern, wenn das Netzwerk tiefer wird. Anschließend schlagen wir ein Global-Local Fusion (GLF)-Modul vor, um die globalen und lokalen Repräsentationen komplementär zu fusionieren. Darüber hinaus schlagen wir zur Reduzierung der Segmentierungsunschärfe in unsicheren Regionen einen Uncertainty-Aggregated Decoder (UAD) vor, der pixelweise Unsicherheit explizit schätzt, um die Segmentierungsgenauigkeit zu verbessern. Umfangreiche Experimente zeigen, dass unsere Methode eine überlegene Leistung gegenüber anderen state-of-the-art Methoden erzielt. Unser Code ist verfügbar unter https://github.com/Dstate/UAGLNet.
Dieses Papier stellt JMMMU-Pro vor, einen bildbasierten Benchmark für japanisches multidisziplinäres multimodales Verständnis, sowie Vibe Benchmark Construction, eine skalierbare Konstruktionsmethode. In Anlehnung an die Entwicklung von MMMU zu MMMU-Pro erweitert JMMMU-Pro JMMMU, indem die Fragenabbildung und der Fragentext zu einem einzigen Bild zusammengesetzt werden. Dadurch entsteht ein Benchmark, der ein integriertes visuell-textuelles Verständnis durch visuelle Wahrnehmung erfordert. Um JMMMU-Pro aufzubauen, schlagen wir Vibe Benchmark Construction vor, eine Methodik, bei der ein bildgenerierendes Modell (z.B. Nano Banana Pro) Kandidaten für visuelle Fragen erzeugt und Menschen die Ausgaben verifizieren sowie bei Bedarf mit angepassten Prompts neu generieren, um die Qualität zu sichern. Durch die Nutzung der hochrealistischen Bildgenerierungsfähigkeiten von Nano Banana Pro und seiner Fähigkeit, sauberen japanischen Text einzubetten, konstruieren wir einen hochwertigen Benchmark mit geringen Kosten, der eine breite Palette von Hintergrund- und Layout-Designs abdeckt. Experimentelle Ergebnisse zeigen, dass alle Open-Source-LMMs erheblich mit JMMMU-Pro zu kämpfen haben, was JMMMU-Pro als wichtigen Benchmark zur Orientierung zukünftiger Bemühungen in der Open-Source-Community unterstreicht. Wir sind überzeugt, dass JMMMU-Pro ein rigoroseres Bewertungswerkzeug zur Beurteilung der Japanisch-Fähigkeiten von LMMs bietet und dass unsere Vibe Benchmark Construction ebenfalls eine effiziente Richtlinie für die zukünftige Entwicklung bildbasierter VQA-Benchmarks darstellt.
Die rasche Integration generativer künstlicher Intelligenz in den Bildungssektor hat die digitale Transformation des E-Teaching vorangetrieben, doch die Nutzerwahrnehmung von KI-Bildungsanwendungen bleibt unzureichend erforscht. Diese Studie führt eine sentimentsgestützte Auswertung von Nutzerbewertungen der führenden KI-Bildungs-Apps im Google Play Store durch, um Wirksamkeit, Herausforderungen und pädagogische Implikationen zu bewerten. Unser Vorgehen umfasste das Abrufen von App-Daten und Bewertungen, RoBERTa für die binäre Sentimentklassifikation, GPT-4o zur Extraktion zentraler Punkte und GPT-5 zur Synthese der wichtigsten positiven/negativen Themen. Die Apps wurden in sieben Kategorien eingeteilt (z.B. Hausaufgabenhelfer, Mathe-Löser, Sprach-Tools), wobei Überschneidungen die multifunktionalen Designs widerspiegeln. Die Ergebnisse deuten auf überwiegend positive Stimmungen hin, wobei Hausaufgaben-Apps wie Edu AI (95,9 % positiv) und Answer.AI (92,7 %) in Bezug auf Genauigkeit, Geschwindigkeit und Personalisierung führen, während Sprach-/LMS-Apps (z.B. Teacher AI mit 21,8 % positiv) aufgrund von Instabilität und begrenzten Funktionen zurückfallen. Positive Aspekte betonen die Effizienz beim Brainstorming, Problemlösen und der Engagement-Förderung; negative konzentrieren sich auf Paywalls, Ungenauigkeiten, Werbung und Störungen. Trends zeigen, dass Hausaufgabenhelfer spezialisierte Tools übertreffen, was das demokratisierende Potenzial der KI trotz der Risiken von Abhängigkeit und Ungleichheit unterstreicht. Die Diskussion skizziert zukünftige Ökosysteme mit hybriden KI-Mensch-Modellen, VR/AR für immersives Lernen sowie einen Fahrplan für Entwickler (adaptive Personalisierung) und politische Entscheidungsträger (Regulierung der Monetarisierung für Inklusivität). Dies unterstreicht die Rolle generativer KI für den Fortschritt des E-Teaching durch ethische Verbesserungen, die gerechte, innovative Lernumgebungen fördern. Der vollständige Datensatz ist hier verfügbar (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
In den letzten Jahren stützte sich der Stand der Technik bei der unüberwachten Video-Instanzsegmentierung stark auf synthetische Videodaten, die aus objektzentrierten Bilddatensätzen wie ImageNet generiert wurden. Die Videosynthese durch künstliches Verschieben und Skalieren von Bildinstanzmasken bildet jedoch realistische Bewegungen in Videos, wie Perspektivenwechsel, Bewegung von Teilen einer oder mehrerer Instanzen oder Kamerabewegung, nicht genau ab. Um dieses Problem zu lösen, schlagen wir ein unüberwachtes Video-Instanzsegmentierungsmodell vor, das ausschließlich auf echten Videodaten trainiert wird. Wir beginnen mit unüberwachten Instanzsegmentierungsmasken in einzelnen Videobildern. Diese Einzelbildsegmentierungen weisen jedoch zeitliches Rauschen auf und ihre Qualität variiert throughout des Videos. Daher stellen wir zeitliche Kohärenz her, indem wir hochwertige Schlüsselmasken im Video identifizieren, indem wir tiefe Bewegungsprioritäten nutzen. Die spärlichen Schlüsselmasken-Pseudoannotationen werden dann verwendet, um ein Segmentierungsmodell für implizite Maskenpropagierung zu trainieren, für das wir einen Sparse-To-Dense-Distillationsansatz vorschlagen, unterstützt durch einen Temporal DropLoss. Nach dem Training des endgültigen Modells auf dem resultierenden dichten Labeldatensatz übertrifft unser Ansatz den aktuellen Stand der Technik in verschiedenen Benchmarks.
Der Erfolg modernen maschinellen Lernens hängt vom Zugang zu hochwertigen Trainingsdaten ab. In vielen realen Szenarien – wie der Beschaffung von Daten aus öffentlichen Repositorien oder der datenübergreifenden Zusammenarbeit zwischen Institutionen – sind Daten natürlicherweise in diskrete Datensätze unterteilt, die sich in Relevanz, Qualität und Nutzen unterscheiden. Die Auswahl, welche Repositorien oder Institutionen nach nützlichen Datensätzen durchsucht werden sollen und welche Datensätze in das Modelltraining integriert werden sollen, sind daher entscheidende Entscheidungen. Dennoch wählen die meisten bestehenden Methoden einzelne Stichproben aus und behandeln alle Daten als gleich relevant, wobei sie Unterschiede zwischen Datensätzen und ihren Quellen ignorieren. In dieser Arbeit formalisieren wir die Aufgabe der Datensatzauswahl: die Selektion vollständiger Datensätze aus einem großen, heterogenen Pool, um die nachgelagerte Leistung unter Ressourcenbeschränkungen zu verbessern. Wir schlagen Dataset Selection via Hierarchies (DaSH) vor, eine Datensatzauswahlmethode, die den Nutzen sowohl auf Datensatz- als auch auf Gruppenebene (z.B. Sammlungen, Institutionen) modelliert und eine effiziente Generalisierung aus begrenzten Beobachtungen ermöglicht. In zwei öffentlichen Benchmarks (Digit-Five und DomainNet) übertrifft DaSH state-of-the-art Datenauswahl-Baselines um bis zu 26,2 % in der Genauigkeit, benötigt dabei aber deutlich weniger Erkundungsschritte. Ablationstudien zeigen, dass DaSH robust gegenüber ressourcenarmen Umgebungen und dem Fehlen relevanter Datensätze ist, was es für skalierbare und adaptive Datensatzauswahl in praktischen Multi-Source-Lernworkflows geeignet macht.
Dieses Paper stellt einen groß angelegten multimodalen Datensatz für die Video-Segmentierung mittels referenzieller Bewegungsausdrücke vor, der sich auf die Segmentierung und Verfolgung von Zielobjekten in Videos basierend auf sprachlichen Beschreibungen von Objektbewegungen konzentriert. Bestehende Datensätze für referenzielle Video-Segmentierung konzentrieren sich oft auf salienten Objekte und verwenden sprachliche Ausdrücke, die reich an statischen Attributen sind, was potenziell die Identifizierung des Zielobjekts in einem Einzelbild ermöglicht. Solche Datensätze betonen die Rolle von Bewegung in Videos und Sprache unzureichend. Um die Machbarkeit der Nutzung von Bewegungsausdrücken und Bewegungserkennungs-Hinweisen für das pixelgenaue Video-Verständnis zu erforschen, führen wir MeViS ein – einen Datensatz, der 33.072 menschlich annotierte Bewegungsausdrücke in Text und Audio umfasst und 8.171 Objekte in 2.006 Videos komplexer Szenarien abdeckt. Wir evaluieren 15 bestehende Methoden über 4 von MeViS unterstützte Aufgaben, darunter 6 Methoden zur referenziellen Video-Objektssegmentierung (RVOS), 3 audio-geführte Video-Objektssegmentierungsmethoden (AVOS), 2 Methoden zur referenziellen Multi-Objekt-Verfolgung (RMOT) und 4 Video-Beschreibungsmethoden für die neu eingeführte Aufgabe der Generierung von referenziellen Bewegungsausdrücken (RMEG). Die Ergebnisse zeigen Schwächen und Grenzen bestehender Methoden bei der Bewältigung von bewegungsausdruck-gesteuertem Video-Verständnis auf. Wir analysieren weiterhin die Herausforderungen und schlagen einen Ansatz LMPM++ für RVOS/AVOS/RMOT vor, der neue state-of-the-art Ergebnisse erzielt. Unser Datensatz bietet eine Plattform, die die Entwicklung von bewegungsausdruck-gesteuerten Video-Verständnisalgorithmen in komplexen Videoszenen erleichtert. Der vorgeschlagene MeViS-Datensatz und der Quellcode der Methode sind öffentlich unter https://henghuiding.com/MeViS/ verfügbar.
Großskalige visuell-sprachliche Modelle (VLMs) zeigen beeindruckende Fähigkeiten im komplexen Schlussfolgern, sind jedoch im Bereich der visuellen sequenziellen Planung – der Ausführung mehrstufiger Aktionen zur Zielerreichung – weitgehend unerforscht. Zudem beinhaltet praktische sequenzielle Planung häufig nicht-optimale (fehlerhafte) Schritte, was VLMs vor die Herausforderung stellt, solche Schritte zu erkennen und zu korrigieren. Wir schlagen den Corrective Sequential Planning Benchmark (CoSPlan) vor, um VLMs in fehleranfälligen, visuell basierten sequenziellen Planungsaufgaben über vier Domänen hinweg zu evaluieren: Labyrinthnavigation, Blockneuanordnung, Bildrekonstruktion und Objektneuorganisation. CoSPlan bewertet zwei Schlüsselfertigkeiten: Fehlererkennung (Identifizieren nicht-optimaler Aktionen) und Schrittvollendung (Korrigieren und Vervollständigen von Aktionssequenzen zur Zielerreichung). Trotz des Einsatzes modernster Reasoning-Techniken wie Chain-of-Thought und Szenengraphen schneiden VLMs (z.B. Intern-VLM und Qwen2) bei CoSPlan schlecht ab, da sie nicht in der Lage sind, kontextuelle Hinweise zur Zielerreichung zu nutzen. Um dieses Problem zu adressieren, schlagen wir eine neuartige trainierungsfreie Methode vor, Scene Graph Incremental Updates (SGI), die Zwischenschritte der Schlussfolgerung zwischen Ausgangs- und Zielzustand einführt. SGI hilft VLMs, Sequenzen zu erschließen, und führt zu einer durchschnittlichen Leistungssteigerung von 5,2%. Neben der Verbesserung der Zuverlässigkeit in der korrektiven sequenziellen Planung verallgemeinert SGI auch auf traditionelle Planungsaufgaben wie Plan-Bench und VQA.
Die Text-zu-Video (T2V)-Generierung hat rasante Fortschritte gemacht, doch die Beibehaltung einer konsistenten Charakteridentität über verschiedene Szenen hinweg bleibt eine große Herausforderung. Bestehende Personalisierungsmethoden konzentrieren sich oft auf die Gesichtsidentität, scheitern aber daran, weiterreichende kontextuelle Hinweise wie Frisur, Outfit und Körperform zu bewahren, die für visuelle Kohärenz entscheidend sind. Wir stellen ContextAnyone vor, ein kontextbewusstes Diffusionsframework, das eine charakterkonsistente Videogenerierung aus Text und einem einzelnen Referenzbild ermöglicht. Unsere Methode rekonstruiert gemeinsam das Referenzbild und generiert neue Videobilder, wodurch das Modell in die Lage versetzt wird, Referenzinformationen vollständig wahrzunehmen und zu nutzen. Referenzinformationen werden durch ein neuartiges Emphasize-Attention-Modul effektiv in ein DiT-basiertes Diffusions-Backbone integriert, das referenzsensitive Merkmale selektiv verstärkt und Identitätsdrift über Bilder hinweg verhindert. Ein Dual-Guidance-Loss kombiniert Diffusions- und Referenzrekonstruktionsziele, um die Erscheinungstreue zu verbessern, während die vorgeschlagene Gap-RoPE-Positionscodierung Referenz- und Videotokens trennt, um die zeitliche Modellierung zu stabilisieren. Experimente zeigen, dass ContextAnyone bestehende Referenz-zu-Video-Methoden in Bezug auf Identitätskonsistenz und visuelle Qualität übertrifft und kohärente, kontextbewahrende Charaktervideos über verschiedene Bewegungen und Szenen hinweg generiert. Projektseite: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.