papers.description
Wir stellen Native Parallel Reasoner (NPR) vor, ein lehrerfreies Framework, das Large Language Models (LLMs) befähigt, echte parallele Reasoning-Fähigkeiten selbstständig zu entwickeln. NPR transformiert das Modell von sequenzieller Emulation zu nativer paralleler Kognition durch drei zentrale Innovationen: 1) ein selbst-distilliertes, progressives Trainingsparadigma, das ohne externe Aufsicht von der „Kaltstart“-Formatentdeckung zu strengen topologischen Constraints übergeht; 2) einen neuartigen Parallel-Aware Policy Optimization (PAPO)-Algorithmus, der Verzweigungsstrategien direkt innerhalb des Ausführungsgraphen optimiert und es dem Modell ermöglicht, adaptive Zerlegung durch Versuch und Irrtum zu erlernen; und 3) eine robuste NPR-Engine, die die Speicherverwaltung und Ablaufsteuerung von SGLang refaktorisiert, um stabiles, großskaliges paralleles RL-Training zu ermöglichen. Über acht Reasoning-Benchmarks hinweg erzielt NPR, trainiert auf Qwen3-4B, Leistungssteigerungen von bis zu 24,5 % und Beschleunigungen beim Inferenzvorgang von bis zum 4,6-Fachen. Im Gegensatz zu früheren Baseline-Modellen, die häufig auf autoregressive Decodierung zurückfallen, demonstriert NPR zu 100 % echte parallele Ausführung und setzt damit einen neuen Standard für sich selbst entwickelndes, effizientes und skalierbares agentenbasiertes Reasoning.
Rotary Position Embeddings (RoPE) haben sich als Standard zur Kodierung der Reihenfolge in Large Language Models (LLMs) etabliert, indem sie Rotationen auf Query- und Key-Vektoren in der komplexen Ebene anwenden. Standardimplementierungen nutzen jedoch nur die Real-Komponente des komplexwertigen Skalarprodukts zur Berechnung der Attention-Scores. Diese Vereinfachung verwirft die Imaginär-Komponente, welche wertvolle Phaseninformationen enthält, und führt zu einem potenziellen Verlust an relationalen Details, die für die Modellierung langreichweitiger Kontextabhängigkeiten entscheidend sind. In diesem Artikel schlagen wir eine Erweiterung vor, die diese verworfenen Imaginär-Komponenten wieder einbezieht. Unser Verfahren nutzt die vollständige komplexwertige Darstellung, um einen zweikomponentigen Attention-Score zu erzeugen. Wir zeigen theoretisch und empirisch, dass dieser Ansatz die Modellierung langreichweitiger Abhängigkeiten verbessert, indem er mehr Positionsinformationen erhält. Darüber hinaus belegen Evaluationen auf einer Reihe von Benchmarks zur Sprachmodellierung mit langem Kontext, dass unsere Methode die Leistung im Vergleich zur Standard-RoPE konsistent steigert, wobei die Vorteile mit zunehmender Kontextlänge signifikanter werden. Der Code ist verfügbar unter https://github.com/OpenMOSS/rope_pp.
Bestehende Videobearbeitungsmethoden stehen vor einem grundlegenden Zielkonflikt: Expertmodelle bieten zwar Präzision, sind jedoch auf aufgabenspezifische Priorinformationen wie Masken angewiesen, was eine Vereinheitlichung behindert; im Gegensatz dazu sind vereinheitlichte Modelle mit temporalem In-Context-Learning zwar maskenfrei, mangelt es ihnen jedoch an expliziten räumlichen Hinweisen, was zu einer schwachen Abbildung von Anweisungen auf Regionen und unpräziser Lokalisierung führt. Um diesen Konflikt zu lösen, schlagen wir VideoCoF vor, einen neuartigen Chain-of-Frames-Ansatz, der von Chain-of-Thought-Reasoning inspiriert ist. VideoCoF erzwingt einen „sehen, schlussfolgern, dann bearbeiten“-Prozess, indem es das Video-Diffusionsmodell dazu zwingt, zunächst Reasoning-Tokens (Edit-Region-Latents) vorherzusagen, bevor es die Zielvideo-Tokens generiert. Dieser explizite Reasoning-Schritt macht benutzerbereitgestellte Masken überflüssig und erreicht gleichzeitig eine präzise Anweisung-zu-Region-Abgleichung und eine fein granulare Videobearbeitung. Darüber hinaus führen wir eine RoPE-Alignment-Strategie ein, die diese Reasoning-Tokens nutzt, um Bewegungssynchronisation sicherzustellen und eine Längenextrapolation über die Trainingsdauer hinaus zu ermöglichen. Wir zeigen, dass VideoCoF mit minimalen Datenkosten von nur 50k Videopaaren state-of-the-art Leistung auf VideoCoF-Bench erreicht, was die Effizienz und Wirksamkeit unseres Ansatzes bestätigt. Unser Code, unsere Gewichte und Daten sind unter https://github.com/knightyxp/VideoCoF verfügbar.
Voxel-Kunst ist eine charakteristische Stilisierung, die häufig in Spielen und digitalen Medien verwendet wird. Dennoch stellt die automatisierte Generierung aus 3D-Meshes eine Herausforderung dar, da die Anforderungen an geometrische Abstraktion, semantische Erhaltung und diskrete Farbkohärenz miteinander in Konflikt stehen. Bestehende Methoden vereinfachen die Geometrie entweder übermäßig oder erreichen nicht die pixelgenaue, palettenbeschränkte Ästhetik der Voxel-Kunst. Wir stellen Voxify3D vor, ein differenzierbares Zwei-Stufen-Framework, das 3D-Mesh-Optimierung mit 2D-Pixel-Art-Aufsicht verbindet. Unsere zentrale Innovation liegt in der synergetischen Integration von drei Komponenten: (1) orthografische Pixel-Art-Aufsicht, die perspektivische Verzerrung für präzise Voxel-Pixel-Ausrichtung eliminiert; (2) patch-basierte CLIP-Abgleichung, die die Semantik über Diskretsierungsstufen hinweg bewahrt; (3) palettenbeschränkte Gumbel-Softmax-Quantisierung, die differenzierbare Optimierung über diskrete Farbräume mit steuerbaren Palettenstrategien ermöglicht. Diese Integration adressiert grundlegende Herausforderungen: semantische Erhaltung unter extremer Diskretsierung, Pixel-Art-Ästhetik durch volumetrisches Rendering und end-to-end diskrete Optimierung. Experimente zeigen überlegene Leistung (37,12 CLIP-IQA, 77,90\% Nutzerpräferenz) über diverse Charaktere und steuerbare Abstraktion hinweg (2-8 Farben, 20x-50x Auflösungen). Projektseite: https://yichuanh.github.io/Voxify-3D/
Referenz-zu-Video (R2V)-Generierung zielt darauf ab, Videos zu synthetisieren, die zu einem Textprompt passen und gleichzeitig die Subjektidentität aus Referenzbildern bewahren. Allerdings werden aktuelle R2V-Methoden durch die Abhängigkeit von expliziten Referenzbild-Video-Text-Tripeln behindert, deren Erstellung sehr kostspielig und schwer zu skalieren ist. Wir umgehen diesen Engpass durch die Einführung von Saber, einem skalierbaren Zero-Shot-Framework, das keine expliziten R2V-Daten benötigt. Ausschließlich auf Video-Text-Paaren trainiert, nutzt Saber eine Masked-Training-Strategie und ein maßgeschneidertes, auf Aufmerksamkeit basierendes Modelldesign, um identitätskonsistente und referenzbewusste Repräsentationen zu erlernen. Mask-Augmentierungstechniken werden weiter integriert, um Copy-Paste-Artefakte, die in der Referenz-zu-Video-Generierung häufig auftreten, zu mildern. Darüber hinaus zeigt Saber bemerkenswerte Generalisierungsfähigkeiten über eine variable Anzahl von Referenzen hinweg und erreicht dem OpenS2V-Eval-Benchmark zufolge eine überlegene Leistung im Vergleich zu Methoden, die mit R2V-Daten trainiert wurden.
Multi-Agenten-Systeme auf Basis großer Sprachmodelle (LLMs) sind schwierig zu debuggen, da Fehler häufig aus langen, verzweigten Interaktionsabläufen entstehen. Die gängige Praxis besteht darin, LLMs zur protokollbasierten Fehlerlokalisierung einzusetzen, um Fehler einem bestimmten Agenten und Schritt zuzuschreiben. Dieses Paradigma weist jedoch zwei wesentliche Einschränkungen auf: (i) Das reine Protokoll-Debugging erfolgt ohne Validierung und erzeugt ungeprüfte Hypothesen, und (ii) die Zuschreibung auf einen einzelnen Schritt oder einen einzelnen Agenten ist oft schlecht gestellt, da wir feststellen, dass mehrere unterschiedliche Interventionen den fehlgeschlagenen Task unabhängig voneinander beheben können. Um die erste Einschränkung zu adressieren, führen wir DoVer ein, ein interventionsgestütztes Debugging-Framework, das die Hypothesengenerierung durch aktive Verifikation mittels gezielter Interventionen (z.B. Bearbeiten von Nachrichten, Ändern von Plänen) erweitert. Für die zweite Einschränkung konzentrieren wir uns, anstatt die Attributionsgenauigkeit zu bewerten, darauf, zu messen, ob das System den Fehler behebt oder quantifizierbare Fortschritte in Richtung Task-Erfolg erzielt. Dies spiegelt eine ergebnisorientiertere Sicht auf das Debugging wider. Innerhalb des Magnetic-One-Agenten-Frameworks kehrt DoVer auf den von GAIA und AssistantBench abgeleiteten Datensätzen 18–28 % der fehlgeschlagenen Versuche in Erfolge um, erzielt bis zu 16 % Meilenstein-Fortschritt und validiert oder widerlegt 30–60 % der Fehlerhypothesen. DoVer funktioniert auch effektiv auf einem anderen Datensatz (GSMPlus) und Agenten-Framework (AG2), wo es 49 % der fehlgeschlagenen Versuche wiederherstellt. Diese Ergebnisse unterstreichen, dass Intervention ein praktischer Mechanismus zur Verbesserung der Zuverlässigkeit von agentenbasierten Systemen ist, und eröffnen Möglichkeiten für robustere, skalierbarere Debugging-Methoden für LLM-basierte Multi-Agenten-Systeme. Projekt-Website und Code werden unter https://aka.ms/DoVer verfügbar sein.
Wir untersuchen die befehlsgesteuerte Bearbeitung von egozentrischen Videos für interaktive AR-Anwendungen. Während aktuelle KI-Videoeditoren bei Aufnahmen aus der dritten Person gute Ergebnisse liefern, stellen egozentrische Perspektiven einzigartige Herausforderungen dar – darunter schnelle Eigenbewegung und häufige Hand-Objekt-Interaktionen –, die eine erhebliche Domänenlücke verursachen. Darüber hinaus leiden bestehende Offline-Bearbeitungspipelines unter hoher Latenz, was Echtzeitinteraktionen einschränkt. Um diese Probleme zu lösen, präsentieren wir ein komplettes Ökosystem für die egozentrische Videobearbeitung. Erstens erstellen wir EgoEditData, einen sorgfältig konzipierten und manuell kuratierten Datensatz, der speziell für egozentrische Bearbeitungsszenarien mit umfangreichen Hand-Objekt-Interaktionen entwickelt wurde und dabei Hände explizit erhält. Zweitens entwickeln wir EgoEdit, einen befehlsfolgenden egozentrischen Videoeditor, der Echtzeit-Streaming-Inferenz auf einer einzelnen GPU unterstützt. Drittens führen wir EgoEditBench ein, eine Evaluierungssuite, die Befehls-Treue, Hand- und Interaktionserhaltung sowie zeitliche Stabilität unter Eigenbewegung bewertet. Sowohl bei egozentrischen als auch allgemeinen Bearbeitungsaufgaben erzielt EgoEdit zeitlich stabile, befehlstreue Ergebnisse mit interaktiver Latenz. Es erzielt deutliche Verbesserungen bei egozentrischen Bearbeitungs-Benchmarks – bei denen bestehende Methoden Schwierigkeiten haben – und behält dabei eine mit den stärksten Baseline-Methoden vergleichbare Leistung bei allgemeinen Bearbeitungsaufgaben bei. EgoEditData und EgoEditBench werden der Forschungsgemeinschaft öffentlich zugänglich gemacht. Weitere Informationen finden Sie auf unserer Website unter https://snap-research.github.io/EgoEdit.
Aktuelle Reinforcement-Learning (RL)-Methoden haben beeindruckende Verbesserungen der Reasoning-Fähigkeiten von Sprachmodellen erzielt, doch es bleibt unklar, ob Nachtraining die Reasoning-Fähigkeit eines Modells tatsächlich über das während des Vorrainings erworbene Maß hinaus erweitert. Eine zentrale Herausforderung ist die mangelnde Kontrolle in modernen Trainingspipelines: Vorrainingskorpora sind in großem Maßstab undurchsichtig, Mid-Training wird oft unzureichend untersucht, und RL-Ziele interagieren auf komplexe Weise mit unbekanntem Vorwissen. Um diese Unklarheit aufzulösen, entwickeln wir einen vollständig kontrollierten experimentellen Rahmen, der die kausalen Beiträge von Vorraining, Mid-Training und RL-basiertem Nachtraining isoliert. Unser Ansatz nutzt synthetische Reasoning-Aufgaben mit expliziten atomaren Operationen, parsbaren schrittweisen Reasoning-Traces und systematischer Manipulation der Trainingsverteilungen. Wir bewerten Modelle entlang zweier Achsen: extrapolative Generalisierung auf komplexere Kompositionen und kontextuelle Generalisierung über verschiedene Oberflächenkontexte hinweg. Mithithilfe dieses Rahmens klären wir widersprüchliche Ansichten zur Wirksamkeit von RL auf. Wir zeigen, dass: 1) RL nur dann echte Fähigkeitsgewinne (pass@128) erzeugt, wenn das Vorraining ausreichend Spielraum lässt und wenn die RL-Daten die Kompetenzgrenze des Modells anvisieren – also Aufgaben an der Schwelle, die schwierig, aber noch nicht unerreichbar sind. 2) Kontextuelle Generalisierung eine minimale, aber ausreichende Vorrainings-Exposition erfordert, wonach RL zuverlässig transferieren kann. 3) Mid-Training die Leistung bei festem Rechenaufwand signifikant stärker steigert als rein RL-basiertes Training, was seine zentrale, aber unterschätzte Rolle in Trainingspipelines belegt. 4) Prozessbezogene Belohnungen Reward Hacking reduzieren und die Reasoning-Treue verbessern. Zusammengenommen klären diese Ergebnisse das Zusammenspiel von Vorraining, Mid-Training und RL und bieten eine Grundlage zum Verständnis und zur Verbesserung von Reasoning-Trainingsstrategien für Sprachmodelle.
Die meisten visuellen generativen Modelle komprimieren Bilder zunächst in einen latenten Raum, bevor sie Diffusion oder autoregressive Modellierung anwenden. Bisherige Ansätze wie VAEs und an Foundation-Models angepasste Encoder beschränken den latenten Raum jedoch implizit, ohne seine Verteilung explizit zu gestalten, sodass unklar bleibt, welche Verteilungstypen für die Modellierung optimal sind. Wir führen Distribution-Matching VAE (DMVAE) ein, das die latente Verteilung des Encoders explizit über eine Verteilungs-Matching-Bedingung mit einer beliebigen Referenzverteilung in Einklang bringt. Dies verallgemeinert den Gaußschen Prior konventioneller VAEs und ermöglicht die Ausrichtung an Verteilungen, die aus selbstüberwachten Merkmalen, Diffusionsrauschen oder anderen Prior-Verteilungen abgeleitet sind. Mit DMVAE können wir systematisch untersuchen, welche latenten Verteilungen förderlicher für die Modellierung sind. Wir stellen fest, dass SSL-abgeleitete Verteilungen eine hervorragende Balance zwischen Rekonstruktionstreue und Modellierungseffizienz bieten und auf ImageNet einen gFID-Wert von 3,2 nach nur 64 Trainingsepochen erreichen. Unsere Ergebnisse legen nahe, dass die Wahl einer geeigneten latenten Verteilungsstruktur (erreicht durch Verteilungs-Level-Alignment) – anstatt sich auf feste Priors zu verlassen – der Schlüssel ist, um die Lücke zwischen einfach modellierbaren latenten Variablen und hochwertiger Bildsynthese zu schließen. Der Code ist verfügbar unter https://github.com/sen-ye/dmvae.
Menschen erkennen nicht nur Ähnlichkeiten von Attributen – wir sehen auch relationale Ähnlichkeiten. Ein Apfel ist wie ein Pfirsich, weil beide rötliche Früchte sind, aber die Erde ist auch wie ein Pfirsich: Ihre Kruste, ihr Mantel und ihr Kern entsprechen der Haut, dem Fruchtfleisch und dem Stein des Pfirsichs. Kognitionswissenschaftler argumentieren, dass genau diese Fähigkeit, relationale Ähnlichkeit wahrzunehmen und zu erkennen, den Menschen von anderen Arten unterscheidet. Dennoch konzentrieren sich alle heute weit verbreiteten visuellen Ähnlichkeitsmetriken (z.B. LPIPS, CLIP, DINO) ausschließlich auf perzeptuelle Attributähnlichkeit und erfassen nicht die reichen, oft überraschenden relationalen Ähnlichkeiten, die Menschen wahrnehmen. Wie können wir über den sichtbaren Inhalt eines Bildes hinausgehen, um seine relationalen Eigenschaften zu erfassen? Wie können wir Bilder mit derselben relationalen Logik im Repräsentationsraum näher zusammenbringen? Um diese Fragen zu beantworten, formulieren wir zunächst relationale Bildähnlichkeit als ein messbares Problem: Zwei Bilder sind relational ähnlich, wenn ihre internen Relationen oder Funktionen zwischen visuellen Elementen übereinstimmen, selbst wenn sich ihre visuellen Attribute unterscheiden. Anschließend erstellen wir einen kuratierten Datensatz mit 114.000 Bild-Beschreibung-Paaren, in dem die Beschreibungen anonymisiert sind – sie beschreiben die zugrundeliegende relationale Logik der Szene und nicht ihren oberflächlichen Inhalt. Mithilfe dieses Datensatzes feintunen wir ein Vision-Language-Modell, um die relationale Ähnlichkeit zwischen Bildern zu messen. Dieses Modell stellt einen ersten Schritt dar, um Bilder über ihre zugrundeliegende relationale Struktur und nicht über ihr sichtbares Erscheinungsbild zu verbinden. Unsere Studie zeigt, dass relationale Ähnlichkeit zwar viele praktische Anwendungen hat, bestehende Bildähnlichkeitsmodelle sie jedoch nicht erfassen – was eine kritische Lücke in der visuellen Datenverarbeitung aufdeckt.
Wir schlagen den Multi-view Pyramid Transformer (MVP) vor, eine skalierbare Multi-View-Transformer-Architektur, die große 3D-Szenen direkt aus Dutzenden bis Hunderten von Bildern in einem einzigen Vorwärtsdurchlauf rekonstruiert. Inspiriert von der Idee „weiter blicken, um das Ganze zu sehen, genauer blicken, um die Details zu sehen“, basiert MVP auf zwei zentralen Designprinzipien: 1) einer lokalen-zu-globalen Inter-View-Hierarchie, die die Perspektive des Modells schrittweise von lokalen Ansichten über Gruppen bis hin zur gesamten Szene erweitert, und 2) einer fein-zu-grob Intra-View-Hierarchie, die von detaillierten räumlichen Repräsentationen ausgeht und diese schrittweise zu kompakten, informationsdichten Tokens aggregiert. Diese duale Hierarchie erreicht sowohl Recheneffizienz als auch Repräsentationsreichhaltigkeit und ermöglicht so die schnelle Rekonstruktion großer und komplexer Szenen. Wir validieren MVP auf verschiedenen Datensätzen und zeigen, dass es in Kombination mit 3D Gaussian Splatting als zugrundeliegender 3D-Repräsentation state-of-the-art generalisierbare Rekonstruktionsqualität erreicht, während es gleichzeitig hohe Effizienz und Skalierbarkeit über ein breites Spektrum von Blickkonfigurationen hinweg beibehält.
Wir stellen LongCat-Image vor, ein bahnbrechendes Open-Source- und zweisprachiges (Chinesisch-Englisch) Foundation-Modell zur Bilderzeugung, das entwickelt wurde, um zentrale Herausforderungen in den Bereichen mehrsprachige Textdarstellung, Fotorealismus, Bereitstellungseffizienz und Entwicklerzugänglichkeit anzugehen, die in aktuellen führenden Modellen vorherrschen. 1) Dies erreichen wir durch rigorose Datenkuratierungsstrategien in den Vor-, Mittel- und SFT-Trainingsphasen, ergänzt durch den koordinierten Einsatz kuratierter Belohnungsmodelle während der RL-Phase. Diese Strategie etabliert das Modell als einen neuen State-of-the-Art (SOTA), das überlegene Textdarstellungsfähigkeiten und bemerkenswerten Fotorealismus liefert und die ästhetische Qualität erheblich steigert. 2) Bemerkenswerterweise setzt es einen neuen Industriestandard für die Darstellung chinesischer Schriftzeichen. Durch die Unterstützung selbst komplexer und seltener Zeichen übertrifft es sowohl große Open-Source- als auch kommerzielle Lösungen in Bezug auf Abdeckung und erreicht zugleich überlegene Genauigkeit. 3) Das Modell erreicht eine bemerkenswerte Effizienz durch sein kompaktes Design. Mit einem Kerndiffusionsmodell von nur 6B Parametern ist es deutlich kleiner als die in diesem Bereich üblichen Mixture-of-Experts (MoE)-Architekturen mit fast 20B oder mehr Parametern. Dies gewährleistet einen minimalen VRAM-Verbrauch und schnelle Inferenz, was die Bereitstellungskosten erheblich senkt. Über die Erzeugung hinaus zeichnet sich LongCat-Image auch in der Bildbearbeitung aus und erzielt SOTA-Ergebnisse in Standard-Benchmarks mit überlegener Bearbeitungskonsistenz im Vergleich zu anderen Open-Source-Arbeiten. 4) Um die Community umfassend zu befähigen, haben wir das bislang umfassendste Open-Source-Ökosystem geschaffen. Wir veröffentlichen nicht nur mehrere Modellversionen für Text-zu-Bild und Bildbearbeitung, einschließlich Checkpoints nach Mittel- und Nach-Trainingsphasen, sondern auch die gesamte Toolchain des Trainingsverfahrens. Wir sind überzeugt, dass die Offenheit von LongCat-Image Entwicklern und Forschern eine robuste Unterstützung bieten und die Grenzen der visuellen Inhaltserstellung erweitern wird.
Aktuelle Videogenerierungsmodelle zeigen beeindruckende Synthesefähigkeiten, sind jedoch durch Einzelmodalitäts-Konditionierung eingeschränkt, was ihr ganzheitliches Weltverständnis begrenzt. Dies resultiert aus unzureichender cross-modaler Interaktion und begrenzter Modalitätsvielfalt für eine umfassende Repräsentation von Weltwissen. Um diese Einschränkungen zu adressieren, führen wir UnityVideo ein, einen einheitlichen Rahmen für weltbewusste Videogenerierung, der gemeinsam über mehrere Modalitäten (Segmentierungsmasken, menschliche Skelette, DensePose, optischer Fluss und Tiefenkarten) und Trainingsparadigmen lernt. Unser Ansatz umfasst zwei Kernkomponenten: (1) dynamisches Rauschen zur Vereinheitlichung heterogener Trainingsparadigmen und (2) einen Modalitäts-Switcher mit einem In-Context-Lerner, der eine vereinheitlichte Verarbeitung durch modulare Parameter und kontextuelles Lernen ermöglicht. Wir stellen einen großen, vereinheitlichten Datensatz mit 1,3 Mio. Samples bereit. Durch gemeinsame Optimierung beschleunigt UnityVideo die Konvergenz und verbessert signifikant die Zero-Shot-Generalisierung auf ungesehene Daten. Wir zeigen, dass UnityVideo überlegene Videoqualität, Konsistenz und verbesserte Übereinstimmung mit physikalischen Weltbeschränkungen erreicht. Code und Daten sind verfügbar unter: https://github.com/dvlab-research/UnityVideo
Große visuelle Sprachmodelle (VLMs) überbrücken die Modaltitätslücke effektiv durch umfangreiches Vortraining und erwerben dabei anspruchsvolle visuelle Repräsentationen, die mit Sprache abgeglichen sind. Es ist jedoch noch unzureichend erforscht, ob diese für multimodale Verständnisaufgaben optimierten Repräsentationen ein inhärentes Potenzial für visuelle Generierung bergen. In diesem Artikel schlagen wir VGT (Visual Generation Tuning) vor, ein neuartiges Paradigma, das darauf ausgelegt ist, die zugrundeliegenden Fähigkeiten zur visuellen Generierung in beliebigen visuellen Sprachmodellen zu aktivieren. Durch effizientes Visual Generation Tuning an gut vortrainierten VLMs mildern wir die Abgleichkosten erheblich ab und beschleunigen die Konvergenz der autoregressiven Modellierung im kontinuierlichen Raum (20-fache Beschleunigung). Konkret verwerfen wir die für Diffusions-Transformer entworfenen, verschachtelten pixelbasierten VAEs und formulieren VGT-AE durch Abgleich der semantischen Encoder aus vortrainierten VLMs mit den latenten Repräsentationen von Pixel-Decodern. Bei Bildrekonstruktionsaufgaben erreichen wir 26,67 PSNR und 0,50 rFID bei einem 28-fachen Kompressionsverhältnis, was spezialisierte VAEs übertrifft; bei visuellen Generierungsaufgaben erzielen wir state-of-the-art Ergebnisse unter autoregressiven Modellen: 0,77 auf GenEval und 78,73 auf DPG-Bench. Darüber hinaus zeigt unser vorgeschlagenes VGT erhebliches Skalierungspotenzial und ist vielseitig einsetzbar, um beliebige für multimodales Verständnis trainierte VLMs mit visuellen Generierungsfähigkeiten auszustatten, was neue Wege zur Erforschung next-generation einheitlicher multimodaler Foundation Models ebnet. Modelle und Codes sind verfügbar unter https://github.com/hustvl/VGT.
Prozessbelohnungsmodelle (PRMs), die dichte, schrittweise Rückmeldungen liefern, haben vielversprechende Ergebnisse für bestärkendes Lernen gezeigt, doch ihre Verbreitung wird nach wie vor durch den Bedarf an teuren schrittweisen Annotationen oder Ground-Truth-Referenzen eingeschränkt. Wir schlagen SPARK vor: ein dreistufiges Framework, in dem in der ersten Stufe ein Generator-Modell diverse Lösungen erzeugt und ein Verifikator-Modell diese mittels parallelem Skalieren (Selbstkonsistenz) und sequenziellem Skalieren (Meta-Kritik) bewertet. In der zweiten Stufe nutzen wir diese Verifikationsausgaben als synthetische Trainingsdaten, um generative Prozessbelohnungsmodelle zu feinabzustimmen, die anschließend als Belohnungssignale während des Trainings dienen. Wir zeigen, dass die Aggregation mehrerer unabhängiger Verifikationen auf Schrittebene Trainingsdaten für Prozessbelohnungsmodelle erzeugt, die eine Ground-Truth-Ergebnisüberwachung übertreffen, und erreichen 67,5 F1 auf ProcessBench (ein Benchmark zur Identifizierung fehlerhafter Schritte im mathematischen Denken) im Vergleich zu 66,4 für referenzgestütztes Training und 61,9 für GPT-4o. In der letzten Stufe wenden wir unser generatives PRM mit Chain-of-Thought-Verifikation (PRM-CoT) als Belohnungsmodell in RL-Experimenten zum mathematischen Denken an und führen Formatbeschränkungen ein, um Reward Hacking zu verhindern. Mit Qwen2.5-Math-7B erreichen wir eine durchschnittliche Genauigkeit von 47,4 % über sechs mathematische Reasoning-Benchmarks hinweg und übertreffen damit RLVR auf Ground-Truth-Basis (43,9 %). Unsere Arbeit ermöglicht referenzfreies RL-Training, das Ground-Truth-Methoden übertrifft, und eröffnet neue Möglichkeiten für Domänen, in denen verifizierbare Antworten oder zugängliche Ground-Truth-Daten fehlen.
Tool-integrated visual reasoning (TiVR) hat großes Potenzial zur Verbesserung multimodaler Problemlösungsfähigkeiten gezeigt. Bisherige TiVR-Ansätze konzentrieren sich jedoch hauptsächlich auf die Integration verschiedener visueller Werkzeuge durch Reinforcement Learning, ohne effektive Mechanismen zur Behandlung unzuverlässiger oder fehlerhafter Werkzeugausgaben zu entwickeln. Diese Einschränkung zeigt sich besonders bei Referenzierungs- und Grounding-Aufgaben, bei denen ungenaue Vorhersagen von Detektionswerkzeugen TiVR-Modelle oft zu halluzinierten Schlussfolgerungen verleiten. Um dieses Problem zu lösen, schlagen wir den VG-Refiner vor, den ersten Rahmenansatz für tool-gestütztes, verfeinertes referenzierendes Grounding. Technisch führen wir einen Zwei-Stufen-Denk- und Überdenk-Mechanismus ein, der es dem Modell ermöglicht, Werkzeugrückmeldungen explizit zu analysieren und darauf zu reagieren, ergänzt durch einen Verfeinerungsbonus, der effektive Korrekturen bei schlechten Werkzeugeergebnissen fördert. Zusätzlich schlagen wir zwei neue Metriken vor und etablieren faire Bewertungsprotokolle, um die Verfeinerungsfähigkeit aktueller Modelle systematisch zu messen. Wir nutzen eine kleine Menge aufgabenspezifischer Daten, um die Verfeinerungsfähigkeit des VG-Refiner zu steigern, und erzielen dabei eine signifikante Verbesserung der Genauigkeit und Korrekturfähigkeit in Referenzierungs- und Reasoning-Grounding-Benchmarks, während die allgemeinen Fähigkeiten des vortrainierten Modells erhalten bleiben.
Wir stellen ReCamDriving vor, ein rein auf Bildverarbeitung basierendes, kameragesteuertes Framework zur Erzeugung von Videos mit neuen Trajektorien. Während reparierbasierten Methoden die Wiederherstellung komplexer Artefakte misslingt und LiDAR-basierte Ansätze auf spärliche und unvollständige Hinweise angewiesen sind, nutzt ReCamDriving dichte und szenenkomplette 3DGS-Renderings für explizite geometrische Führung und erreicht so eine präzise kamerasteuerbare Generierung. Um einer Überanpassung an Restaurierungsverhalten bei Konditionierung auf 3DGS-Renderings entgegenzuwirken, verwendet ReCamDriving ein zweistufiges Trainingsparadigma: Die erste Stufe nutzt Kameraposen zur groben Steuerung, während die zweite Stufe 3DGS-Renderings für eine fein granulierte Blickwinkel- und geometrische Führung einbezieht. Darüber hinaus präsentieren wir eine 3DGS-basierte Datenkuratierungsstrategie für Trajektorienübergänge, um die Trainings-Test-Lücke in Kameratransformationsmustern zu beseitigen und skalierbare Multi-Trajektorie-Aufsicht aus monokularen Videos zu ermöglichen. Auf Basis dieser Strategie erstellen wir den ParaDrive-Datensatz, der über 110.000 parallele Trajektorien-Videopaare enthält. Umfangreiche Experimente belegen, dass ReCamDriving state-of-the-art Kamerasteuerbarkeit und strukturelle Konsistenz erreicht.
Jüngste Fortschritte bei multimodalen Large Language Models (MLLMs) haben vereinheitlichte Wahrnehmungs- und Reasoning-Fähigkeiten ermöglicht, doch diese Systeme bleiben äußerst anfällig für Jailbreak-Angriffe, die die Sicherheitsausrichtung umgehen und schädliches Verhalten hervorrufen. Bestehende Benchmarks wie JailBreakV-28K, MM-SafetyBench und HADES liefern wertvolle Einblicke in multimodale Schwachstellen, konzentrieren sich jedoch typischerweise auf begrenzte Angriffsszenarien, weisen eine fehlende standardisierte Verteidigungsevaluierung auf und bieten kein vereinheitlichtes, reproduzierbares Toolbox. Um diese Lücken zu schließen, stellen wir OmniSafeBench-MM vor, eine umfassende Toolbox zur Evaluierung multimodaler Jailbreak-Angriffe und -Abwehrmaßnahmen. OmniSafeBench-MM integriert 13 repräsentative Angriffsmethoden, 15 Verteidigungsstrategien und einen diversen Datensatz, der 9 Hauptrisikobereiche und 50 feingranulare Kategorien umfasst, strukturiert nach konsultativen, imperativen und deklarativen Abfragetypen, um realistische Nutzerabsichten widerzuspiegeln. Über die Datenabdeckung hinaus etabliert es ein dreidimensionales Evaluierungsprotokoll, das (1) die Schädlichkeit anhand einer granularen, mehrstufigen Skala von geringfügigen individuellen Schäden bis hin zu katastrophalen gesellschaftlichen Bedrohungen misst, (2) die Absichtsübereinstimmung zwischen Antworten und Anfragen bewertet und (3) das Detaillierungsniveau der Antworten analysiert, um eine nuancierte Sicherheits-Nutzwert-Analyse zu ermöglichen. Wir führen umfangreiche Experimente mit 10 Open-Source- und 8 Closed-Source-MLLMs durch, um deren Anfälligkeit für multimodale Jailbreaks aufzuzeigen. Indem OmniSafeBench-MM Daten, Methodik und Evaluierung in einer Open-Source- und reproduzierbaren Plattform vereinheitlicht, schafft es eine standardisierte Grundlage für die zukünftige Forschung. Der Code ist unter https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM verfügbar.
Trotz der vielversprechenden Fortschritte bei der subjektgesteuerten Bildgenerierung weichen aktuelle Modelle häufig von den Referenzidentitäten ab und haben Schwierigkeiten mit komplexen Szenen mit mehreren Subjekten. Um diese Herausforderung zu bewältigen, stellen wir OpenSubject vor, einen videobasierten großen Datensatz mit 2,5 Millionen Stichproben und 4,35 Millionen Bildern für die subjektgesteuerte Generierung und Manipulation. Der Datensatz wird mit einer vierstufigen Pipeline erstellt, die identitätsbezogene Querinformationen zwischen Bildern nutzt. (i) Videoauswahl. Wir wenden Filter für Auflösung und ästhetische Qualität an, um hochwertige Videoclips zu erhalten. (ii) Subjektextraktion und -paarung über Bilder hinweg. Wir nutzen kategorienbasierte Konsensfindung, lokale Verankerung und diversitätsbewusste Paarung auf Basis von Vision-Language-Modellen (VLM), um Bildpaare auszuwählen. (iii) Identitätserhaltende Synthese von Referenzbildern. Wir führen segmentierungsgestütztes Outpainting zur Synthese der Eingabebilder für die subjektgesteuerte Generierung sowie boxgestütztes Inpainting zur Erzeugung von Eingabebildern für die subjektgesteuerte Manipulation ein, ergänzt durch geometrieaware Augmentierungen und Erosion unregelmäßiger Ränder. (iv) Verifizierung und Beschriftung. Wir nutzen ein VLM zur Validierung synthetisierter Stichproben, synthetisieren fehlgeschlagene Stichproben basierend auf Stufe (iii) erneut und erstellen dann kurze und lange Bildbeschreibungen. Zusätzlich führen wir einen Benchmark ein, der subjektgesteuerte Generierung und Manipulation abdeckt, und bewerten damit Identitätstreue, Prompt-Befolgung, Manipulationskonsistenz und Hintergrundkonsistenz mittels eines VLM-basierten Bewerters. Umfangreiche Experimente zeigen, dass das Training mit OpenSubject die Generierungs- und Manipulationsleistung verbessert, insbesondere in komplexen Szenen.
Decodierungsbasierte Regression, die Regression als Sequenzgenerierungsaufgabe neu formuliert, hat sich als vielversprechendes Paradigma für den Einsatz großer Sprachmodelle zur numerischen Vorhersage etabliert. Ihr Fortschritt wird jedoch durch die mangelnde Übereinstimmung zwischen diskreten Token-level-Zielen (z.B. Kreuzentropie) und kontinuierlichen numerischen Werten behindert. Bestehende Ansätze, die auf Token-level-Einschränkungen basieren, erfassen oft die globale Größenordnung des Zielwerts nicht, was ihre Präzision und Generalisierungsfähigkeit einschränkt. In diesem Artikel schlagen wir vor, das Potenzial der decodierungsbasierten Regression durch Reinforcement Learning (RL) zu erschließen. Wir formulieren den Generierungsprozess als Markov-Entscheidungsprozess und nutzen Sequenz-level-Belohnungen, um globale numerische Kohärenz zu erzwingen. Umfangreiche Experimente zur tabellarischen Regression und Code-Metriken-Regression zeigen, dass unsere Methode (insbesondere mit ReMax und GRPO) konsistent sowohl state-of-the-art Token-level-Baselines als auch traditionelle Regressionsköpfe übertrifft, was die Überlegenheit der Einführung von Sequenz-level-Signalen demonstriert. Unsere Analyse zeigt weiterhin, dass RL die Stichprobeneffizienz und Vorhersagegenauigkeit signifikant verbessert und damit decodierungsbasierte Regression als ein robustes und präzises Paradigma für allgemeine numerische Vorhersagen etabliert.
Visuelle generative Modelle (z.B. Diffusionsmodelle) arbeiten typischerweise in komprimierten latenten Räumen, um Trainings-Effizienz und Probenqualität in Einklang zu bringen. Parallel dazu wächst das Interesse an der Nutzung hochwertiger, vortrainierter visueller Repräsentationen, entweder durch deren Ausrichtung innerhalb von VAEs oder direkt im generativen Modell. Die Anpassung solcher Repräsentationen bleibt jedoch aufgrund grundlegender Diskrepanzen zwischen verständnisorientierten Merkmalen und generierungsfreundlichen latenten Räumen eine Herausforderung. Repräsentations-Encoder profitieren von hochdimensionalen latenten Variablen, die diverse Hypothesen für maskierte Regionen erfassen, während generative Modelle niedrigdimensionale latente Variablen bevorzugen, die injiziertes Rauschen zuverlässig bewahren müssen. Diese Diskrepanz hat frühere Arbeiten dazu veranlasst, auf komplexe Zielfunktionen und Architekturen zurückzugreifen. In dieser Arbeit schlagen wir FAE (Feature Auto-Encoder) vor, ein einfaches, aber effektives Framework, das vortrainierte visuelle Repräsentationen unter Verwendung von nur einer einzigen Attention-Schicht in für die Generierung geeignete niedrigdimensionale latente Räume adaptiert und dabei ausreichend Information sowohl für Rekonstruktion als auch Verständnis bewahrt. Der Schlüssel liegt in der Kopplung zweier separater Deep Decoder: einer wird trainiert, um den ursprünglichen Merkmalsraum zu rekonstruieren, und ein zweiter nutzt die rekonstruierten Merkmale als Eingabe für die Bildgenerierung. FAE ist generisch; es kann mit verschiedenen selbstüberwachten Encodern (z.B. DINO, SigLIP) instanziiert und in zwei distincte generative Familien integriert werden: Diffusionsmodelle und Normalizing Flows. In Klassen-konditionalen und Text-zu-Bild Benchmarks erzielt FAE eine starke Performance. Auf ImageNet 256x256 erreicht unser Diffusionsmodell mit CFG einen nahezu state-of-the-art FID von 1.29 (800 Epochen) und 1.70 (80 Epochen). Ohne CFG erreicht FAE den state-of-the-art FID von 1.48 (800 Epochen) und 2.08 (80 Epochen), was sowohl hohe Qualität als auch schnelles Lernen demonstriert.
Wir stellen GRAPE (Group RepresentAtional Position Encoding) vor, einen einheitlichen Rahmen für Positionskodierung basierend auf Gruppenwirkungen. GRAPE vereint zwei Familien von Mechanismen: (i) multiplikative Rotationen (Multiplikatives GRAPE) in SO(d) und (ii) additive Logit-Verzerrungen (Additives GRAPE), die aus unipotenten Wirkungen in der allgemeinen linearen Gruppe GL entstehen. Beim Multiplikativen GRAPE wirkt eine Position n in Z (oder t in R) als G(n)=exp(n,ω,L) mit einem schiefsymmetrischen Rang-2-Generator L in R^{d×d}, was eine relative, kompositionelle, normerhaltende Abbildung mit einer geschlossenen Matrixexponentialform ergibt. RoPE wird exakt reproduziert, wenn die d/2 Ebenen die kanonischen Koordinatenpaare mit log-uniformem Spektrum sind. Gelernte kommutierende Unterräume und kompakte nicht-kommutierende Mischungen erweitern diese Geometrie strikt, um Feature-Kopplung zwischen Unterräumen zu erfassen, mit Kosten von O(d) bzw. O(r d) pro Kopf. Beim Additiven GRAPE entstehen additive Logits als Rang-1 (oder niedrigrangige) unipotente Wirkungen, wobei ALiBi und der Forgetting Transformer (FoX) als exakte Spezialfälle reproduziert werden, während ein exaktes relatives Gesetz und Stream-Caching-Fähigkeit erhalten bleiben. Insgesamt bietet GRAPE einen prinzipiellen Gestaltungsraum für Positionsgeometrie in Langkontext-Modellen und subsumiert RoPE und ALiBi als Spezialfälle. Projektseite: https://github.com/model-architectures/GRAPE.
Jüngste Fortschritte bei autoregressiven (AR) Generativmodellen haben zunehmend leistungsfähige Systeme für die Mediensynthese hervorgebracht. Dabei hat sich die Next-Scale-Prädiktion als populäres Paradigma etabliert, bei dem Modelle Bilder in einer grob-zu-fein Art und Weise generieren. Allerdings leiden skalierungsweise AR-Modelle unter Exposure Bias, was die Generierungsqualität beeinträchtigt. Wir identifizieren zwei Hauptursachen für dieses Problem: (1) Train-Test-Mismatch, bei dem das Modell während der Inferenz auf seine eigenen unvollkommenen Vorhersagen angewiesen ist, und (2) ein Ungleichgewicht im skalierungsweisen Lernschwierigkeitsgrad, bei dem bestimmte Skalen unverhältnismäßig höhere Optimierungskomplexität aufweisen. Durch eine umfassende Analyse der Trainingsdynamik schlagen wir Self-Autoregressive Refinement (SAR) vor, um diese Einschränkungen zu adressieren. SAR führt einen Stagger-Scale Rollout (SSR)-Mechanismus ein, der leichte autoregressive Rollouts durchführt, um das Modell seinen eigenen Zwischenvorhersagen auszusetzen und so Train-Test-Muster in Einklang zu bringen, sowie einen komplementären Contrastive Student-Forcing Loss (CSFL), der eine angemessene Überwachung für selbstgenerierte Kontexte bereitstellt, um stabiles Training zu gewährleisten. Experimentelle Ergebnisse zeigen, dass die Anwendung von SAR auf vortrainierte AR-Modelle die Generierungsqualität konsistent bei minimalem Rechenaufwand verbessert. So erzielt SAR beispielsweise eine Reduktion des FID um 5,2 % bei FlexVAR-d16, trainiert auf ImageNet 256, innerhalb von 10 Epochen (5 Stunden auf 32xA100 GPUs). Aufgrund seiner Effizienz, Skalierbarkeit und Wirksamkeit erwarten wir, dass SAR als zuverlässige Nachtrainingsmethode für die visuelle autoregressive Generierung dienen wird.
Aktuelle visuell-sprachliche Modelle (VLMs) erzielen bemerkenswerte Reasoning-Fähigkeiten durch Reinforcement Learning (RL), was eine praktikable Lösung zur Realisierung kontinuierlich selbst-evolvierender großer visuell-sprachlicher Modelle (LVLMs) im Zeitalter der Erfahrung darstellt. Die Anwendung von RL auf VLMs erfordert jedoch umfangreiche hochwertige multimodale Daten, was besonders in spezialisierten Domänen wie Chemie, Geowissenschaften und multimodaler Mathematik eine Herausforderung darstellt. Bestehende Strategien wie synthetische Daten und Self-Rewarding-Mechanismen leiden unter eingeschränkten Verteilungen und Alignment-Schwierigkeiten, was letztlich zu Reward Hacking führt: Modelle nutzen hochbelohnte Muster aus, was die Policy-Entropie kollabieren und das Training destabilisieren lässt. Wir schlagen DoGe (Decouple to Generalize) vor, ein Dual-Decoupling-Framework, das Modelle anleitet, zunächst aus dem Kontext zu lernen statt durch Problemlösung, indem der Fokus auf die von synthetischen Datenmethoden vernachlässigten Problemszenarien im Kontext neu ausgerichtet wird. Durch Entkopplung des Lernprozesses in zwei Komponenten (Denker und Löser) quantifizieren wir die Reward-Signale dieses Prozesses sinnvoll und schlagen einen zweistufigen RL-Nachtraining-Ansatz vor – vom freien Erkunden des Kontexts bis zur praktischen Aufgabelösung. Zweitens konstruiert DoGe zur Erhöhung der Trainingsdatendiversität eine Pipeline für evolvierendes Curriculum Learning: ein erweitertes natives Domänenwissenskorpus und einen iterativ evolvierenden Pool von Ausgangsproblemen. Experimente zeigen, dass unsere Methode durchgängig die Baseline auf verschiedenen Benchmarks übertrifft und einen skalierbaren Weg zur Realisierung selbst-evolvierender LVLMs bietet.
Generalisierung in der Robotermanipulation ist entscheidend für den Einsatz von Robotern in offenen Umgebungen und für den Fortschritt hin zu einer allgemeinen künstlichen Intelligenz. Obwohl aktuelle Vision-Language-Action (VLA)-Modelle große vortrainierte Verständnismodelle für die Wahrnehmung und Befolgung von Anweisungen nutzen, bleibt ihre Fähigkeit, sich auf neue Aufgaben, Objekte und Situationen zu verallgemeinern, begrenzt. In dieser Arbeit stellen wir VideoVLA vor, einen einfachen Ansatz, der das Potenzial untersucht, große Videogenerierungsmodelle in robotische VLA-Manipulatoren umzuwandeln. Basierend auf einer Sprachaufforderung und einem Bild sagt VideoVLA eine Aktionssequenz sowie die zukünftigen visuellen Ergebnisse voraus. Auf einem multimodalen Diffusion Transformer aufbauend, modelliert VideoVLA gemeinsam Video-, Sprach- und Aktionsmodalitäten und nutzt vortrainierte Videogenerierungsmodelle für die gemeinsame visuelle und aktionelle Vorhersage. Unsere Experimente zeigen, dass hochwertig imaginierte Zukunftsszenarien mit zuverlässigen Aktionsvorhersagen und Aufgaben-erfolg korrelieren, was die Bedeutung der visuellen Imagination für die Manipulation unterstreicht. VideoVLA demonstriert eine starke Generalisierungsfähigkeit, einschließlich der Imitation von Fähigkeiten anderer Embodiments und dem Umgang mit neuen Objekten. Diese Dual-Prädiktions-Strategie – die Vorhersage sowohl von Aktionen als auch ihrer visuellen Konsequenzen – erforscht einen Paradigmenwechsel im Robotik-Lernen und erschließt Generalisierungsfähigkeiten in Manipulationssystemen.
Langzeit-Dialogsysteme leiden unter Zustandsträgheit, bei der statische Beschränkungen verhindern, dass Modelle Konflikte zwischen sich entwickelnden Benutzerabsichten und etabliertem historischem Kontext auflösen. Um dies zu beheben, schlagen wir DZ-TDPO vor, ein zerstörungsfreies Alignment-Framework, das konfliktbewusste dynamische KL-Constraints mit einer kalibrierten temporalen Aufmerksamkeitsverzerrung synergistisch kombiniert. Experimente auf dem Multi-Session Chat (MSC)-Datensatz zeigen, dass DZ-TDPO state-of-the-art Win Rates erreicht (55,4 % bei Phi-3.5) und dabei eine robuste Zero-Shot-Generalisation beibehält. Unsere Skalierungsanalyse offenbart einen "Kapazitäts-Stabilitäts-Kompromiss": Während kleinere Modelle eine "Alignment-Steuer" (Perplexity-Anstieg) zahlen, um historische Trägheit zu überwinden, erreicht das größere Qwen2.5-7B-Modell eine Win Rate von 50,8 % mit vernachlässigbarem Perplexity-Overhead. Dies bestätigt, dass TAI durch präzise Aufmerksamkeitsregulierung anstelle destruktiver Gewichtsaktualisierungen gemildert werden kann, wobei allgemeine Fähigkeiten (MMLU) über Modellgrößen hinweg erhalten bleiben. Code und Daten sind verfügbar: https://github.com/lyj20071013/DZ-TDPO
Da Roboter zunehmend in menschliche Arbeitsumgebungen vordringen, ist es entscheidend, dass sie verkörperte menschliche Anweisungen verstehen, um eine intuitive und flüssige Mensch-Roboter-Interaktion (HRI) zu ermöglichen. Ein genaues Verständnis ist jedoch aufgrund des Mangels an groß angelegten Datensätzen, die natürliche verkörperte Interaktionen in verschiedenen HRI-Szenarien erfassen, eine Herausforderung. Bestehende Datensätze leiden unter Perspektivenverzerrung, Erfassung aus nur einer Blickrichtung, unzureichender Abdeckung non-verbaler Gesten und einem vorwiegenden Fokus auf Innenraumumgebungen. Um diese Probleme zu adressieren, stellen wir den Refer360-Datensatz vor – einen groß angelegten Datensatz verkörperter verbaler und non-verbaler Interaktionen, die aus verschiedenen Blickwinkeln sowohl in Innen- als auch Außenbereichen erfasst wurden. Zusätzlich führen wir MuRes ein, ein multimodales geführtes Residualmodul, das entwickelt wurde, um das Verständnis verkörperter Referenzausdrücke zu verbessern. MuRes fungiert als Informationsengpass, extrahiert salientige modalspezifische Signale und verstärkt diese in vortrainierten Repräsentationen, um komplementäre Merkmale für nachgelagerte Aufgaben zu bilden. Wir führen umfangreiche Experimente mit vier HRI-Datensätzen, einschließlich des Refer360-Datensatzes, durch und zeigen, dass aktuelle multimodale Modelle verkörperte Interaktionen nicht umfassend erfassen können; durch eine Erweiterung mit MuRes wird ihre Leistung jedoch konsistent verbessert. Diese Ergebnisse etablieren Refer360 als wertvollen Benchmark und demonstrieren das Potenzial von geführtem Residual-Lernen, um das Verständnis verkörperter Referenzausdrücke bei Robotern, die in menschlichen Umgebungen agieren, voranzutreiben.
Klassische Konvergenzgarantien für gradientenbasierte Lernverfahren in Spielen erfordern, dass der Pseudogradient in der euklidischen Geometrie (stark) monoton ist, wie von Rosen (1965) gezeigt wurde – eine Bedingung, die selbst in einfachen Spielen mit starken spielerübergreifenden Kopplungen oft verletzt ist. Wir führen Small-Gain Nash (SGN) ein, eine Block-Kleingain-Bedingung in einer benutzerdefinierten blockgewichteten Geometrie. SGN wandelt lokale Krümmungs- und spielerübergreifende Lipschitz-Kopplungsschranken in ein handhabbares Kontraktionszertifikat um. Es konstruiert eine gewichtete Blockmetrik, in der der Pseudogradient in jeder Region, in der diese Schranken gelten, stark monoton wird, selbst wenn er im euklidischen Sinne nicht-monoton ist. Der kontinuierliche Fluss ist in dieser konstruierten Geometrie exponentiell kontrahierend, und projizierte Euler- und RK4-Diskretisierungen konvergieren unter expliziten Schrittweitenbeschränkungen, die aus der SGN-Marge und einer lokalen Lipschitz-Konstante abgeleitet werden. Unsere Analyse offenbart ein zertifiziertes "Zeitskalenband", ein nicht-asymptotisches, metrikbasiertes Zertifikat, das eine TTUR-ähnliche Rolle spielt: Anstatt eine asymptotische Zeitskalentrennung durch verschwindende, ungleiche Schrittweiten zu erzwingen, identifiziert SGN ein endliches Band relativer Metrikgewichte, für das eine Dynamik mit einheitlicher Schrittweite nachweislich kontraktiv ist. Wir validieren den Rahmen anhand quadratischer Spiele, bei denen die euklidische Monotonieanalyse die Konvergenz nicht vorhersagen kann, SGN sie jedoch erfolgreich zertifiziert, und erweitern die Konstruktion auf Mirror-/Fisher-Geometrien für entropie-regularisierte Policy-Gradienten in Markov-Spielen. Das Ergebnis ist eine Offline-Zertifizierungspipeline, die Krümmungs-, Kopplungs- und Lipschitz-Parameter in kompakten Regionen schätzt, Blockgewichte optimiert, um die SGN-Marge zu vergrößern, und ein strukturelles, berechenbares Konvergenzzertifikat zurückgibt, das aus einer Metrik, einer Kontraktionsrate und sicheren Schrittweiten für nicht-monotone Spiele besteht.
Der vektorquantisierte variationale Autoencoder (VQ-VAE) ist ein diskreter Autoencoder, der Bilder in diskrete Tokens komprimiert. Aufgrund der Diskretisierung ist er schwierig zu trainieren. In diesem Beitrag schlagen wir eine einfache, aber effektive Technik vor, genannt Gaussian Quant (GQ), die einen Gauß-VAE mit einer bestimmten Nebenbedingung ohne Training in einen VQ-VAE umwandelt. GQ erzeugt zufälliges Gaußsches Rauschen als Codebuch und findet das dem posteriori-Mittelwert nächste liegende Rauschen. Theoretisch beweisen wir, dass ein kleiner Quantisierungsfehler garantiert ist, wenn der Logarithmus der Codebuchgröße die Bits-Back-Coderate des Gauß-VAE übersteigt. Praktisch schlagen wir eine Heuristik vor, um den Gauß-VAE für eine effektive GQ zu trainieren, die Target Divergence Constraint (TDC) genannt wird. Empirisch zeigen wir, dass GQ auf sowohl UNet- als auch ViT-Architekturen bisherige VQ-VAEs wie VQGAN, FSQ, LFQ und BSQ übertrifft. Darüber hinaus verbessert TDC auch frühere Diskretisierungsmethoden für Gauß-VAEs, wie z.B. TokenBridge. Der Quellcode ist unter https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE verfügbar.
Aktuelle Arbeiten zur strukturierten Textübersetzung beschränken sich nach wie vor auf die Satzebene, da sie Schwierigkeiten haben, komplexe XML- oder HTML-Strukturen auf Dokumentenebene effektiv zu verarbeiten. Um dieses Problem zu lösen, schlagen wir Format Reinforcement Learning (FormatRL) vor, das Group Relative Policy Optimization auf einem supervidiert feinabgestimmten Modell anwendet, um direkt neuartige struktur-sensitive Belohnungsfunktionen zu optimieren: 1) TreeSim, das die strukturelle Ähnlichkeit zwischen vorhergesagten und referenzierten XML-Bäumen misst, und 2) Node-chrF, das die Übersetzungsqualität auf Ebene der XML-Knoten bewertet. Zusätzlich wenden wir StrucAUC an, eine feingranulare Metrik, die zwischen geringfügigen Fehlern und schwerwiegenden Strukturfehlern unterscheidet. Experimente mit dem SAP-Softwaredokumentations-Benchmark zeigen Verbesserungen bei sechs Metriken, und eine weitere Analyse verdeutlicht, wie verschiedene Belohnungsfunktionen zu Verbesserungen sowohl der strukturellen als auch der übersetzerischen Qualität beitragen.
Wir stellen ein zweistufiges selbstüberwachtes Framework vor, das die Joint-Embedding Predictive Architecture (JEPA) mit einem Density Adaptive Attention Mechanism (DAAM) kombiniert, um robuste Sprachrepräsentationen zu erlernen. Stufe~1 nutzt JEPA mit DAAM, um semantische Audiofeatures durch maskierte Prädiktion im latenten Raum zu erlernen, vollständig entkoppelt von der Wellenformrekonstruktion. Stufe~2 nutzt diese Repräsentationen für eine effiziente Tokenisierung mittels Finite Scalar Quantization (FSQ) und einem Mixed-Radix-Packing-Schema, gefolgt von einer hochpräzisen Wellenformrekonstruktion mit einem HiFi-GAN-Decoder. Durch die Integration einer dichteadaptiven Gating-Funktion auf Basis von Gaußschen Mixturen in den JEPA-Encoder führt das Modell eine adaptive temporale Merkmalsselektion durch und entdeckt hierarchische Sprachstrukturen bei einer niedrigen Framerate von 2,5~Hz. Die resultierenden Tokens (47,5 Tokens/Sek.) bieten eine reversible, hochkomprimierte und für Sprachmodelle geeignete Repräsentation, die mit existierenden neuronalen Audiocodecs konkurrieren kann und oft effizienter ist.
Diese Arbeit untersucht die grundlegende Diskontinuität zwischen den beiden neuesten Segment-Anything-Modellen: SAM2 und SAM3. Wir erläutern, warum sich die Expertise der prompt-basierten Segmentierung von SAM2 nicht auf das multimodale, konzeptgetriebene Paradigma von SAM3 übertragen lässt. SAM2 operiert über räumliche Prompts – Punkte, Boxen und Masken – und erzeugt eine rein geometrische und temporale Segmentierung. Im Gegensatz dazu führt SAM3 eine vereinheitlichte Vision-Sprache-Architektur ein, die open-vocabulary Reasoning, semantische Verankerung, kontrastive Ausrichtung und exemplarbasiertes Konzeptverständnis ermöglicht. Wir strukturieren diese Analyse anhand von fünf Kernkomponenten: (1) ein konzeptioneller Bruch zwischen prompt-basierter und konzeptbasierter Segmentierung, der die räumliche Prompt-Semantik von SAM2 der multimodalen Fusion und textkonditionierten Maskengenerierung von SAM3 gegenüberstellt; (2) Architektonische Divergenz, die das reine Vision-Temporal-Design von SAM2 gegenüber der Integration von Vision-Sprache-Encodern, Geometrie- und Exemplar-Encodern, Fusionsmodulen, DETR-artigen Decodern, Objekt-Queries und Mehrdeutigkeitsbehandlung via Mixture-of-Experts in SAM3 detailliert; (3) Unterschiede bei Datensätzen und Annotationen, die die SA-V-Videomasken von SAM2 den multimodal konzeptannotierten Korpora von SAM3 gegenüberstellt; (4) Unterschiede im Training und bei Hyperparametern, die zeigen, warum das Optimierungswissen von SAM2 nicht auf SAM3 anwendbar ist; und (5) Evaluation, Metriken und Fehlermodi, die den Übergang von geometrischen IoU-Metriken zur semantischen, open-vocabulary Evaluation skizzieren. Gemeinsam etablieren diese Analysen SAM3 als eine neue Klasse von Segmentierungs-Foundation-Models und weisen zukünftige Richtungen für die aufstrebende Ära der konzeptgetriebenen Segmentierung auf.