papers.description
L'apprentissage par rétroaction de récompense (ReFL) s'est avéré efficace pour aligner la génération d'images sur les préférences humaines. Cependant, son extension à la génération vidéo se heurte à des défis significatifs. Les modèles de récompense vidéo existants s'appuient sur des modèles vision-langage conçus pour des entrées dans l'espace pixel, confinant l'optimisation ReFL aux étapes de dé-bruitage quasi-finales après un décodage VAE computationnellement coûteux. Cette approche dans l'espace pixel entraîne une surcharge mémoire substantielle et un temps d'entraînement accru, et son optimisation tardive manque de supervision aux stades précoces, affinant uniquement la qualité visuelle plutôt que la dynamique motrice fondamentale et la cohérence structurelle. Dans ce travail, nous montrons que les modèles de génération vidéo pré-entraînés sont naturellement adaptés pour la modélisation de récompense dans l'espace latent bruité, car ils sont explicitement conçus pour traiter des représentations latentes bruitées à des instants arbitraires et préservent intrinsèquement l'information temporelle grâce à leurs capacités de modélisation séquentielle. En conséquence, nous proposons l'Apprentissage par Rétroaction de Récompense sur le Processus (PRFL), un cadre qui réalise l'optimisation des préférences entièrement dans l'espace latent, permettant une rétropropagation efficace du gradient tout au long de la chaîne complète de dé-bruitage sans décodage VAE. Des expériences approfondies démontrent que le PRFL améliore significativement l'alignement avec les préférences humaines, tout en permettant des réductions substantielles de la consommation mémoire et du temps d'entraînement par rapport au ReFL RVB.
Bien que les modèles de diffusion modernes excellent dans la génération d'images de haute qualité et diversifiées, ils peinent encore à assurer un contrôle compositionnel et multimodal de haute fidélité, particulièrement lorsque les utilisateurs spécifient simultanément des invites textuelles, des références de sujets, des arrangements spatiaux, des contraintes de pose et des annotations de mise en page. Nous présentons Canvas-to-Image, un framework unifié qui consolide ces contrôles hétérogènes dans une interface canvas unique, permettant aux utilisateurs de générer des images qui reflètent fidèlement leur intention. Notre idée clé est d'encoder des signaux de contrôle divers dans une image canvas composite unique que le modèle peut interpréter directement pour un raisonnement visio-spatial intégré. Nous constituons ensuite un ensemble de données multi-tâches et proposons une stratégie d'Entraînement Canvas Multi-Tâches qui optimise le modèle de diffusion pour comprendre et intégrer conjointement des contrôles hétérogènes dans la génération texte-image au sein d'un paradigme d'apprentissage unifié. Cet entraînement conjoint permet à Canvas-to-Image de raisonner sur plusieurs modalités de contrôle plutôt que de dépendre d'heuristiques spécifiques à une tâche, et il généralise bien aux scénarios multi-contrôles lors de l'inférence. Des expériences approfondies montrent que Canvas-to-Image surpasse significativement les méthodes state-of-the-art en matière de préservation de l'identité et de respect du contrôle sur des benchmarks exigeants, incluant la composition multi-personnes, la composition contrôlée par la pose, la génération contrainte par la mise en page et la génération multi-contrôles.
La cognition incarnée postule que l'intelligence émerge de l'interaction sensori-motrice plutôt que de l'observation passive. Cela soulève une question intrigante : les modèles vision-langage (VLM) modernes, entraînés de manière largement désincarnée, présentent-ils des signes de cognition incarnée ? Nous présentons ENACT, un benchmark qui transforme l'évaluation de la cognition incarnée en une modélisation du monde à partir d'interactions égocentriques sous forme de questions-réponses visuelles (VQA). Cadré comme un processus de décision markovien partiellement observable (POMDP) dont les actions sont des changements de graphes de scène, ENACT comprend deux tâches complémentaires de réordonnancement de séquences : la modélisation directe du monde (réordonner des observations mélangées étant donné des actions) et la modélisation inverse du monde (réordonner des actions mélangées étant donné des observations). Bien que conceptuellement simples, la résolution de ces tâches exige implicitement des capacités centrales à la cognition incarnée : la reconnaissance d'affordances, le raisonnement action-effet, la conscience incarnée et la mémoire interactive à long terme à partir d'entrées égocentriques partiellement observables, tout en évitant la synthèse d'images de bas niveau qui pourrait brouiller l'évaluation. Nous proposons une pipeline évolutive qui synthétise des paires question-réponse à partir de simulation robotique (BEHAVIOR) et évalue les modèles sur 8 972 paires QA couvrant des activités domestiques de long horizon. Les expériences révèlent un écart de performance entre les VLM de pointe et les humains qui s'accroît avec l'horizon d'interaction. Les modèles performent systématiquement mieux sur la tâche inverse que sur la tâche directe et présentent des biais anthropocentriques, incluant une préférence pour les actions de la main droite et une dégradation lorsque les paramètres intrinsèques de la caméra ou les points de vue s'écartent de la vision humaine. Site web : https://enact-embodied-cognition.github.io/.
La compréhension du langage implique non seulement l'extraction du sens superficiel de l'input linguistique, mais aussi la construction de modèles mentaux riches de la situation décrite. Nous proposons ici qu'en raison des limitations fondamentales du traitement au sein du système linguistique central du cerveau, une compréhension profonde du langage nécessite l'exportation d'informations vers d'autres régions cérébrales qui calculent les représentations perceptives et motrices, construisent des modèles mentaux, et stockent nos connaissances du monde et nos souvenirs autobiographiques. Nous examinons les preuves existantes soutenant cette hypothèse, et soutenons que les progrès récents en neurosciences cognitives fournissent à la fois le fondement conceptuel et les méthodes pour la tester directement, ouvrant ainsi une nouvelle stratégie pour révéler ce que signifie comprendre le langage, d'un point de vue cognitif et neuronal.
L'édition d'images guidée par instructions offre une méthode intuitive permettant aux utilisateurs de modifier des images avec le langage naturel. Cependant, les modèles d'édition basés sur la diffusion peinent souvent à interpréter avec précision des instructions utilisateur complexes, en particulier celles impliquant des relations compositionnelles, des indices contextuels ou des expressions référentielles, ce qui conduit à des modifications qui dérivent sémantiquement ou ne reflètent pas les changements souhaités. Nous abordons ce problème en proposant MIRA (Multimodal Iterative Reasoning Agent), un agent de raisonnement multimodal léger et prêt à l'emploi qui effectue l'édition via une boucle itérative perception-raisonnement-action, simulant efficacement les processus d'interaction humain-modèle en plusieurs tours. Au lieu de fournir une seule instruction ou un plan statique, MIRA prédit des instructions d'édition atomiques étape par étape, en utilisant le retour visuel pour prendre ses décisions. Notre jeu de données multimodal de 150 000 échantillons d'utilisation d'outils, MIRA-Editing, combiné à une pipeline d'entraînement en deux étapes SFT + GRPO, permet à MIRA d'effectuer un raisonnement et une édition sur des instructions complexes. Lorsqu'il est couplé à des modèles open-source d'édition d'images tels que Flux.1-Kontext, Step1X-Edit et Qwen-Image-Edit, MIRA améliore significativement à la fois la cohérence sémantique et la qualité perceptuelle, atteignant des performances comparables ou supérieures à des systèmes propriétaires tels que GPT-Image et Nano-Banana.
Les grands modèles multimodaux (LMMs) sont de plus en plus adoptés en tant qu'évaluateurs dans les systèmes d'évaluation multimodale en raison de leur forte capacité à suivre des instructions et de leur cohérence avec les préférences humaines. Cependant, leur aptitude à suivre des critères d'évaluation diversifiés et granulaires reste insuffisamment explorée. Nous développons Multi-Crit, un benchmark pour évaluer les juges multimodaux sur leur capacité à suivre des critères pluralistes et à produire des jugements fiables au niveau de chaque critère. Couvrant à la fois les tâches de génération ouverte et de raisonnement vérifiable, Multi-Crit est construit grâce à un pipeline rigoureux de curation de données qui recueille des paires de réponses complexes avec des annotations humaines multi-critères. Il introduit en outre trois nouvelles métriques pour évaluer systématiquement l'adhésion pluraliste, la flexibilité de changement de critère et la capacité à reconnaître les conflits de préférence au niveau des critères. Une analyse approfondie de 25 LMMs révèle que 1) les modèles propriétaires peinent encore à maintenir une adhésion cohérente aux critères pluralistes – particulièrement dans l'évaluation ouverte ; 2) les modèles open-source accusent un retard supplémentaire dans le suivi flexible de critères diversifiés ; et 3) le fine-tuning avec des signaux de jugement holistiques améliore l'ancrage visuel mais ne parvient pas à généraliser le jugement au niveau des critères pluralistes. Des analyses complémentaires sur le fine-tuning du raisonnement, la mise à l'échelle au moment du test, et la cohérence des limites entre modèles open-source et propriétaires sondent davantage les limites des juges multimodaux actuels. En tant qu'étude pionnière, Multi-Crit jette les bases pour construire une évaluation fiable et pilotable de l'IA multimodale.
Les MLLM démontrent une forte capacité de raisonnement sur des requêtes isolées, mais ils opèrent de novo – résolvant chaque problème indépendamment et répétant souvent les mêmes erreurs. Les agents à mémoire augmentée existants stockent principalement les trajectoires passées pour les réutiliser. Cependant, la mémoire basée sur les trajectoires souffre d'un biais de brièveté, perdant progressivement les connaissances essentielles du domaine. Plus critique encore, même dans des contextes de résolution de problèmes véritablement multimodaux, elle n'enregistre qu'une trace unimodale des comportements passés, échouant à préserver comment l'attention visuelle et le raisonnement logique ont contribué conjointement à la solution. Ceci est fondamentalement inaligné avec la cognition humaine : la mémoire sémantique est à la fois multimodale et intégrée, préservant les connaissances visuelles et abstraites via des flux de représentation coordonnés mais distincts. Nous introduisons donc ViLoMem, un cadre de mémoire à double flux qui construit une mémoire compacte basée sur des schémas. Il encode séparément les patterns de distraction visuelle et les erreurs de raisonnement logique, permettant aux MLLM d'apprendre de leurs expériences réussies et infructueuses. Suivant un principe de croissance et d'affinage, le système accumule et met à jour de manière incrémentale les connaissances sémantiques multimodales – préservant des stratégies stables et généralisables tout en évitant l'oubli catastrophique. Sur six benchmarks multimodaux, ViLoMem améliore constamment la précision pass@1 et réduit substantiellement les erreurs visuelles et logiques répétées. Les études d'ablation confirment la nécessité d'une mémoire à double flux avec une séparation explicite distraction–hallucination, démontrant la valeur d'une mémoire multimodale consciente des erreurs pour l'apprentissage agentique continu et transdomaine. Notre page projet sera disponible à l'adresse https://weihao-bo.github.io/ViLoMeo-page.