papers.description
Reward-Feedback-Learning (ReFL) hat sich als wirksam erwiesen, um die Bildgenerierung mit menschlichen Präferenzen in Einklang zu bringen. Seine Erweiterung auf die Videogenerierung steht jedoch vor erheblichen Herausforderungen. Bestehende Video-Belohnungsmodelle stützen sich auf Vision-Language-Modelle, die für Pixelraum-Eingaben konzipiert sind, was die ReFL-Optimierung auf nahezu abgeschlossene Denoising-Schritte nach rechenintensiver VAE-Decodierung beschränkt. Dieser Pixelraum-Ansatz verursacht einen erheblichen Speichermehraufwand und erhöhte Trainingszeiten, und seine späte Optimierung bietet keine Frühphasen-Überwachung, sondern verfeinert lediglich die visuelle Qualität anstatt grundlegender Bewegungsdynamiken und struktureller Kohärenz. In dieser Arbeit zeigen wir, dass vortrainierte Videogenerierungsmodelle von Natur aus für die Belohnungsmodellierung im verrauschten latenten Raum geeignet sind, da sie explizit dafür ausgelegt sind, verrauschte latente Repräsentationen zu beliebigen Zeitpunkten zu verarbeiten und zeitliche Informationen inhärent durch ihre sequentielle Modellierungsfähigkeit bewahren. Dementsprechend schlagen wir Process Reward Feedback Learning (PRFL) vor, ein Framework, das Präferenzoptimierung vollständig im latenten Raum durchführt und eine effiziente Gradienten-Rückpropagation über die gesamte Denoising-Kette ohne VAE-Decodierung ermöglicht. Umfangreiche Experimente belegen, dass PRFL die Übereinstimmung mit menschlichen Präferenzen signifikant verbessert und gleichzeitig eine erhebliche Verringerung des Speicherverbrauchs und der Trainingszeit im Vergleich zu RGB-ReFL erreicht.
Während moderne Diffusionsmodelle bei der Erzeugung hochwertiger und vielfältiger Bilder hervorragende Leistungen erbringen, haben sie nach wie vor Schwierigkeiten mit hochpräziser kompositioneller und multimodaler Steuerung, insbesondere wenn Benutzer gleichzeitig Textprompts, Subjektreferenzen, räumliche Anordnungen, Poseneinschränkungen und Layout-Annotationen vorgeben. Wir stellen Canvas-to-Image vor, ein einheitliches Framework, das diese heterogenen Steuerungsmöglichkeiten in einer einzigen Canvas-Oberfläche zusammenführt und es Benutzern ermöglicht, Bilder zu generieren, die ihre Absicht treu widerspiegeln. Unser zentraler Ansatz ist es, verschiedene Steuersignale in ein einziges zusammengesetztes Canvas-Bild zu kodieren, das das Modell direkt zur integrierten visuell-räumlichen Reasoning interpretieren kann. Wir stellen außerdem einen Satz von Multi-Task-Datensätzen zusammen und schlagen eine Multi-Task-Canvas-Trainingsstrategie vor, die das Diffusionsmodell optimiert, um heterogene Steuerungen innerhalb eines einheitlichen Lernparadigmas gemeinsam zu verstehen und in die Text-zu-Bild-Generierung zu integrieren. Dieses gemeinsame Training ermöglicht es Canvas-to-Image, über mehrere Steuerungsmodalitäten hinweg zu reasoning, anstatt auf aufgabenspezifische Heuristiken angewiesen zu sein, und es verallgemeinert gut auf Multi-Control-Szenarien während der Inferenz. Umfangreiche Experimente zeigen, dass Canvas-to-Image state-of-the-art-Methoden in anspruchsvollen Benchmarks, einschließlich Multi-Person-Composition, posengesteuerter Komposition, layoutbeschränkter Generierung und Multi-Control-Generierung, bei der Identitätserhaltung und Steuerungstreue signifikant übertrifft.
Die verkörperte Kognition (Embodied Cognition) postuliert, dass Intelligenz aus sensomotorischer Interaktion entsteht und nicht aus passiver Beobachtung. Dies wirft eine faszinierende Frage auf: Zeigen moderne Vision-Language-Models (VLMs), die größtenteils auf eine nicht-verkörperte Weise trainiert wurden, dennoch Anzeichen verkörperter Kognition? Wir stellen ENACT vor, einen Benchmark, der die Evaluation verkörperter Kognition als Modellierung der Welt aus egozentrischer Interaktion in einem Visual Question Answering (VQA)-Format formuliert. Gerahmt als partiell beobachtbarer Markov-Entscheidungsprozess (POMDP), dessen Aktionen Szenengraph-Veränderungen sind, umfasst ENACT zwei komplementäre Sequenz-Neuanordnungsaufgaben: Vorwärts-Weltmodellierung (Neuanordnung gemischter Beobachtungen bei gegebenen Aktionen) und inverse Weltmodellierung (Neuanordnung gemischter Aktionen bei gegebenen Beobachtungen). Obwohl konzeptionell einfach, erfordert die Lösung dieser Aufgaben implizit Fähigkeiten, die zentral für verkörperte Kognition sind: Affordanz-Erkennung, Handlungs-Folgen-Abgleich, verkörpertes Situationsbewusstsein und interaktives, langfristiges Gedächtnis aus partiell beobachtbarer egozentrischer Eingabe, während zugleich eine Verfälschung der Evaluation durch Low-Level-Bildsynthese vermieden wird. Wir stellen eine skalierbare Pipeline bereit, die QA-Paare aus Robotersimulation (BEHAVIOR) synthetisiert und Modelle anhand von 8.972 QA-Paaren evaluiert, die langfristige Aktivitäten im häuslichen Maßstab abdecken. Experimente zeigen eine Leistungslücke zwischen modernsten VLMs und Menschen, die mit zunehmendem Interaktionshorizont größer wird. Modelle schneiden durchweg besser bei der inversen Aufgabe ab als bei der Vorwärtsaufgabe und zeigen anthropozentrische Verzerrungen, einschließlich einer Präferenz für rechtshändige Aktionen und Leistungseinbußen, wenn Kameraintrinsika oder Blickwinkel von der menschlichen Sehweise abweichen. Webseite: https://enact-embodied-cognition.github.io/.
Sprachverständnis erfordert nicht nur die Extraktion der oberflächlichen Bedeutung des sprachlichen Inputs, sondern die Konstruktion reicher mentaler Modelle der beschriebenen Situation. Wir stellen hier die These auf, dass ein tiefgehendes Sprachverständnis deshalb notwendigerweise den Export von Informationen aus dem Sprachsystem in andere Hirnregionen erfordert, weil die Verarbeitung innerhalb des Kernsprachsystems des Gehirns fundamental begrenzt ist. Diese anderen Regionen berechnen perzeptive und motorische Repräsentationen, konstruieren mentale Modelle und speichern unser Weltwissen sowie autobiografische Erinnerungen. Wir geben einen Überblick über die bestehenden Belege für diese Hypothese und argumentieren, dass jüngste Fortschritte in der kognitiven Neurowissenschaft sowohl die konzeptionelle Grundlage als auch die Methoden liefern, um sie direkt zu testen. Dies eröffnet eine neue Strategie, um aufzudecken, was es kognitiv und neuronal bedeutet, Sprache zu verstehen.
Instruktionsgesteuerte Bildbearbeitung bietet Nutzern eine intuitive Möglichkeit, Bilder mit natürlicher Sprache zu bearbeiten. Allerdings haben diffusionsbasierte Bearbeitungsmodelle oft Schwierigkeiten, komplexe Benutzeranweisungen – insbesondere solche mit kompositionellen Beziehungen, kontextuellen Hinweisen oder Referenzausdrücken – präzise zu interpretieren, was zu semantisch abweichenden Bearbeitungen führt, die die beabsichtigten Änderungen nicht korrekt widerspiegeln. Wir lösen dieses Problem mit MIRA (Multimodal Iterative Reasoning Agent), einem schlanken, plug-and-play-fähigen multimodalen Reasoning-Agenten, der Bearbeitungen durch eine iterative Wahrnehmungs-Reasoning-Handlungs-Schleife durchführt und so Mehrfachinteraktionen zwischen Mensch und Modell effektiv simuliert. Anstatt einen einzelnen Befehl oder statischen Plan auszugeben, sagt MIRA schrittweise atomare Bearbeitungsanweisungen vorher und nutzt visuelles Feedback für seine Entscheidungen. Unser multimodaler Tool-Use-Datensatz MIRA-Editing mit 150.000 Einträgen, kombiniert mit einer zweistufigen SFT+GRPO-Trainingspipeline, ermöglicht es MIRA, Reasoning und Bearbeitung auch bei komplexen Anweisungen durchzuführen. In Kombination mit quelloffenen Bildbearbeitungsmodellen wie Flux.1-Kontext, Step1X-Edit und Qwen-Image-Edit verbessert MIRA sowohl die semantische Konsistenz als auch die perzeptuelle Qualität signifikant und erreicht eine Leistung, die mit proprietären Systemen wie GPT-Image und Nano-Banana vergleichbar oder diesen überlegen ist.
Große multimodale Modelle (LMMs) werden aufgrund ihrer starken Befolgung von Instruktionen und ihrer Übereinstimmung mit menschlichen Präferenzen zunehmend als Bewerter in multimodalen Evaluierungssystemen eingesetzt. Ihre Fähigkeit, diverse, feinkörnige Bewertungskriterien zu befolgen, bleibt jedoch unzureichend erforscht. Wir entwickeln Multi-Crit, einen Benchmark zur Bewertung multimodaler Bewerter hinsichtlich ihrer Fähigkeit, pluralistische Kriterien zu befolgen und zuverlässige kriterienbezogene Urteile zu produzieren. Multi-Crit, das sowohl offene Generierungs- als auch überprüfbare Reasoning-Aufgaben abdeckt, wird durch eine rigorose Datenkuratierungspipeline erstellt, die anspruchsvolle Antwortpaare mit multikriteriellen menschlichen Annotationen sammelt. Es führt zudem drei neuartige Metriken ein, um systematisch die Einhaltung pluralistischer Kriterien, die Flexibilität beim Kriterienwechsel und die Fähigkeit zur Erkennung von Präferenzkonflikten auf Kriterienebene zu bewerten. Eine umfassende Analyse von 25 LMMs zeigt, dass 1) proprietäre Modelle nach wie vor Schwierigkeiten haben, eine konsistente Einhaltung pluralistischer Kriterien aufrechtzuerhalten – insbesondere bei der offenen Evaluierung; 2) Open-Source-Modelle bei der flexiblen Befolgung diverser Kriterien weiter zurückliegen; und 3) Feintuning von Kritikern mit holistischen Urteilssignalen die visuelle Verankerung verbessert, sich jedoch nicht auf pluralistische, kriterienbezogene Urteile verallgemeinern lässt. Zusätzliche Analysen zu Reasoning-Feintuning, Skalierung zur Testzeit und Grenzkonsistenz zwischen Open-Source- und proprietären Modellen untersuchen weiter die Grenzen aktueller multimodaler Bewerter. Als wegweisende Studie legt Multi-Crit die Grundlage für den Aufbau einer zuverlässigen und steuerbaren KI-Evaluierung für multimodale Systeme.
MLLMs zeigen starke Fähigkeiten beim Lösen isolierter Anfragen, operieren jedoch *de novo* – sie lösen jedes Problem unabhängig und wiederholen oft dieselben Fehler. Bestehende, speichererweiterte Agenten speichern hauptsächlich vergangene Trajektorien zur Wiederverwendung. Trajektorienbasierter Speicher leidet jedoch unter Kurzlebigkeitsverzerrung und verliert allmählich essentielles Domänenwissen. Noch kritischer ist, dass selbst in echt multimodalen Problemszenarien nur eine unimodale Spur vergangenen Verhaltens aufgezeichnet wird, sodass nicht erhalten bleibt, wie visuelle Aufmerksamkeit und logisches Reasoning gemeinsam zur Lösung beigetragen haben. Dies ist grundlegend anders als die menschliche Kognition: Semantisches Gedächtnis ist sowohl multimodal als auch integriert und bewahrt visuelles und abstraktes Wissen durch koordinierte, aber distinkte Repräsentationsströme. Wir führen daher ViLoMem ein, einen Dual-Stream-Gedächtnisrahmen, der kompakten, schema-basierten Speicher aufbaut. Er kodiert visuelle Ablenkungsmuster und logische Denkfehler separat und ermöglicht es MLLMs, aus ihren erfolgreichen und gescheiterten Erfahrungen zu lernen. Nach einem Wachstums-und-Verfeinerungs-Prinzip akkumuliert und aktualisiert das System schrittweise multimodales semantisches Wissen – es bewahrt stabile, verallgemeinerbare Strategien und vermeidet gleichzeitig katastrophales Vergessen. In sechs multimodalen Benchmarks verbessert ViLoMem durchgängig die Pass@1-Genauigkeit und reduziert wiederholte visuelle und logische Fehler erheblich. Ablationstudien bestätigen die Notwendigkeit des Dual-Stream-Speichers mit expliziter Trennung von Ablenkung und Halluzination und demonstrieren den Wert fehlerbewussten multimodalen Gedächtnisses für lebenslanges und domänenübergreifendes agentenbasiertes Lernen. Unsere Projektseite wird unter https://weihao-bo.github.io/ViLoMeo-page verfügbar sein.