Articles de recherche en IA sélectionnés quotidiennement avec traductions
La cohérence spatio-temporelle est un sujet de recherche crucial dans la génération de vidéos. Un segment vidéo généré de qualité doit garantir la plausibilité et la cohérence du scénario tout en maintenant la cohérence visuelle des objets et des scènes à travers différents points de vue. Les recherches antérieures, en particulier dans les projets open source, se concentrent principalement soit sur la cohérence temporelle, soit sur la cohérence spatiale, ou sur une combinaison basique des deux, comme l'ajout d'une description d'un mouvement de caméra après une instruction sans contraindre les résultats de ce mouvement. Cependant, un mouvement de caméra peut introduire de nouveaux objets dans la scène ou en éliminer des existants, superposant et affectant ainsi le récit précédent. En particulier dans les vidéos avec de nombreux mouvements de caméra, l'interaction entre plusieurs scénarios devient de plus en plus complexe. Cet article introduit et examine la cohérence spatio-temporelle intégrale, en considérant la synergie entre la progression du scénario et les techniques de caméra, ainsi que l'impact à long terme du contenu précédent sur la génération ultérieure. Notre recherche englobe la construction de jeux de données jusqu'au développement du modèle. Initialement, nous avons construit un jeu de données DropletVideo-10M, qui comprend 10 millions de vidéos mettant en scène des mouvements dynamiques de caméra et des actions d'objets. Chaque vidéo est annotée avec une description moyenne de 206 mots, détaillant divers mouvements de caméra et développements de scénario. Par la suite, nous avons développé et entraîné le modèle DropletVideo, qui excelle à préserver la cohérence spatio-temporelle lors de la génération de vidéos. Le jeu de données et le modèle DropletVideo sont accessibles à l'adresse https://dropletx.github.io.
La construction d'agents robotiques autonomes capables d'atteindre des performances de niveau humain dans des tâches incarnées du monde réel constitue un objectif ultime dans la recherche sur les robots humanoïdes. Les avancées récentes ont permis des progrès significatifs dans la cognition de haut niveau avec les Modèles Fondamentaux (FMs) et dans le développement de compétences de bas niveau pour les robots humanoïdes. Cependant, la combinaison directe de ces composants entraîne souvent une faible robustesse et efficacité en raison des erreurs cumulatives dans les tâches à long terme et de la latence variable des différents modules. Nous présentons Being-0, un cadre d'agent hiérarchique qui intègre un FM avec une bibliothèque de compétences modulaires. Le FM gère les tâches cognitives de haut niveau telles que la compréhension des instructions, la planification des tâches et le raisonnement, tandis que la bibliothèque de compétences fournit une locomotion stable et une manipulation habile pour le contrôle de bas niveau. Pour combler le fossé entre ces niveaux, nous proposons un nouveau module Connector, alimenté par un modèle vision-langage léger (VLM). Le Connector améliore les capacités incarnées du FM en traduisant les plans basés sur le langage en commandes de compétences actionnables et en coordonnant dynamiquement la locomotion et la manipulation pour améliorer la réussite des tâches. Avec tous les composants, à l'exception du FM, déployables sur des dispositifs de calcul embarqués à faible coût, Being-0 atteint une performance efficace en temps réel sur un robot humanoïde de taille équipé de mains habiles et d'une vision active. Des expériences approfondies dans de grands environnements intérieurs démontrent l'efficacité de Being-0 à résoudre des tâches complexes et à long terme nécessitant des sous-tâches de navigation et de manipulation difficiles. Pour plus de détails et des vidéos, visitez https://beingbeyond.github.io/being-0.
Les méthodes de génération conditionnée par image, telles que les approches basées sur la profondeur et les contours (canny), ont démontré des capacités remarquables pour la synthèse précise d'images. Cependant, les modèles existants peinent encore à contrôler avec précision le contenu de multiples instances (ou régions). Même les modèles de pointe comme FLUX et 3DIS rencontrent des difficultés, telles que la fuite d'attributs entre les instances, ce qui limite le contrôle utilisateur. Pour résoudre ces problèmes, nous présentons DreamRenderer, une approche sans entraînement basée sur le modèle FLUX. DreamRenderer permet aux utilisateurs de contrôler le contenu de chaque instance via des boîtes englobantes ou des masques, tout en assurant une harmonie visuelle globale. Nous proposons deux innovations clés : 1) les **Bridge Image Tokens** pour la liaison rigide des attributs textuels, qui utilisent des tokens d'image répliqués comme tokens de pont pour garantir que les embeddings textuels T5, pré-entraînés uniquement sur des données textuelles, lient les attributs visuels corrects pour chaque instance lors de l'attention conjointe ; 2) la **liaison rigide des attributs d'image** appliquée uniquement aux couches critiques. Grâce à notre analyse de FLUX, nous identifions les couches responsables du rendu des attributs d'instance et appliquons la liaison rigide des attributs d'image uniquement dans ces couches, en utilisant une liaison souple dans les autres. Cette approche assure un contrôle précis tout en préservant la qualité de l'image. Les évaluations sur les benchmarks COCO-POS et COCO-MIG montrent que DreamRenderer améliore le taux de réussite des images de 17,7 % par rapport à FLUX et améliore les performances des modèles de génération d'images à partir de mises en page comme GLIGEN et 3DIS jusqu'à 26,8 %. Page du projet : https://limuloo.github.io/DreamRenderer/.
La génération d'images personnalisées vise à produire des images de concepts spécifiés par l'utilisateur tout en permettant une édition flexible. Les approches récentes sans entraînement, bien qu'elles présentent une efficacité computationnelle supérieure aux méthodes basées sur l'entraînement, peinent à préserver l'identité, à être applicables et compatibles avec les transformateurs de diffusion (DiTs). Dans cet article, nous explorons le potentiel inexploité des DiTs, où le simple remplacement des tokens de débruitage par ceux d'un sujet de référence permet une reconstruction zéro-shot du sujet. Cette technique d'injection de caractéristiques simple mais efficace ouvre la voie à divers scénarios, de la personnalisation à l'édition d'images. Sur la base de cette observation, nous proposons Personalize Anything, un cadre sans entraînement qui réalise la génération d'images personnalisées dans les DiTs grâce à : 1) un remplacement de tokens adaptatif au pas de temps qui renforce la cohérence du sujet via une injection précoce et améliore la flexibilité par une régularisation tardive, et 2) des stratégies de perturbation de patchs pour augmenter la diversité structurelle. Notre méthode prend en charge de manière fluide la génération guidée par la mise en page, la personnalisation multi-sujets et l'édition contrôlée par masque. Les évaluations démontrent des performances de pointe en matière de préservation de l'identité et de polyvalence. Notre travail établit de nouvelles perspectives sur les DiTs tout en offrant un paradigme pratique pour une personnalisation efficace.
Le raisonnement et le comportement stratégique dans les interactions sociales sont une marque distinctive de l'intelligence. Cette forme de raisonnement est nettement plus sophistiquée que les tâches de planification ou de raisonnement isolées dans des contextes statiques (par exemple, la résolution de problèmes mathématiques). Dans cet article, nous présentons Strategic Planning, Interaction, and Negotiation (SPIN-Bench), une nouvelle évaluation multi-domaines conçue pour mesurer l'intelligence de la planification stratégique et du raisonnement social. Alors que de nombreux benchmarks existants se concentrent sur la planification étroite ou le raisonnement mono-agent, SPIN-Bench combine des tâches PDDL classiques, des jeux de société compétitifs, des jeux de cartes coopératifs et des scénarios de négociation multi-agents dans un cadre unifié. Ce cadre inclut à la fois un benchmark et une arène pour simuler et évaluer une variété de contextes sociaux afin de tester le raisonnement et le comportement stratégique des agents d'IA. Nous formulons le benchmark SPIN-Bench en faisant varier systématiquement les espaces d'action, la complexité des états et le nombre d'agents en interaction pour simuler divers contextes sociaux où le succès dépend non seulement d'une prise de décision méthodique et progressive, mais aussi de l'inférence conceptuelle des autres participants (adversaires ou coopératifs). Nos expériences révèlent que si les modèles de langage contemporains (LLM) gèrent raisonnablement bien la récupération de faits de base et la planification à court terme, ils rencontrent des goulots d'étranglement significatifs dans les tâches nécessitant un raisonnement multi-saut profond sur de grands espaces d'états et une coordination socialement habile dans l'incertitude. Nous envisageons SPIN-Bench comme un catalyseur pour les recherches futures sur la planification multi-agent robuste, le raisonnement social et la collaboration humain-IA.
En étendant les avantages du raisonnement en chaîne de pensée (CoT) à des processus étape par étape de type humain dans des contextes multimodaux, le raisonnement multimodal CoT (MCoT) a récemment suscité une attention significative dans la recherche, en particulier dans son intégration avec les grands modèles de langage multimodaux (MLLMs). Les études existantes sur le MCoT conçoivent diverses méthodologies et paradigmes de raisonnement innovants pour relever les défis uniques posés par les images, les vidéos, la parole, l'audio, les données 3D et les données structurées à travers différentes modalités, obtenant des succès notables dans des applications telles que la robotique, la santé, la conduite autonome et la génération multimodale. Cependant, le MCoT présente encore des défis et des opportunités distincts qui nécessitent une attention accrue pour assurer un développement constant dans ce domaine, où, malheureusement, une revue à jour fait défaut. Pour combler cette lacune, nous présentons la première étude systématique sur le raisonnement MCoT, en clarifiant les concepts et définitions fondamentaux pertinents. Nous proposons une taxonomie complète et une analyse approfondie des méthodologies actuelles sous divers angles et dans différents scénarios d'application. De plus, nous offrons des perspectives sur les défis existants et les futures directions de recherche, dans le but de stimuler l'innovation vers une intelligence artificielle générale (AGI) multimodale.
Nous introduisons un nouveau cadre, le Transfert d'Édition, où un modèle apprend une transformation à partir d'un seul exemple source-cible et l'applique à une nouvelle image requête. Alors que les méthodes basées sur le texte excellent dans les manipulations sémantiques via des invites textuelles, elles peinent souvent avec les détails géométriques précis (par exemple, les changements de pose et de point de vue). D'un autre côté, l'édition basée sur des références se concentre généralement sur le style ou l'apparence et échoue dans les transformations non rigides. En apprenant explicitement la transformation d'édition à partir d'une paire source-cible, le Transfert d'Édition atténue les limitations des références uniquement textuelles et centrées sur l'apparence. S'inspirant de l'apprentissage en contexte dans les grands modèles de langage, nous proposons un paradigme d'apprentissage en contexte des relations visuelles, basé sur un modèle de texte-à-image DiT. Nous organisons l'exemple édité et l'image requête en une composition unifiée à quatre panneaux, puis appliquons un ajustement fin léger avec LoRA pour capturer des transformations spatiales complexes à partir d'exemples minimaux. Malgré l'utilisation de seulement 42 échantillons d'entraînement, le Transfert d'Édition surpasse largement les méthodes TIE et RIE de pointe dans divers scénarios non rigides, démontrant l'efficacité de l'apprentissage des relations visuelles en peu d'exemples.
Les études récentes améliorent généralement les capacités de raisonnement des MLLMs (Modèles de Langage Multimodaux) via un ajustement fin supervisé sur des données de raisonnement en chaîne de pensée de haute qualité, ce qui conduit souvent les modèles à simplement imiter les chemins de raisonnement réussis sans comprendre ce que sont les chemins de raisonnement erronés. Dans ce travail, nous visons à renforcer la capacité de raisonnement des MLLMs au-delà de l'imitation passive des chemins de raisonnement positifs. Pour ce faire, nous concevons Step-wise Group Relative Policy Optimization (StepGRPO), un nouveau cadre d'apprentissage par renforcement en ligne qui permet aux MLLMs de s'améliorer eux-mêmes en matière de raisonnement via des récompenses simples, efficaces et denses à chaque étape. Plus précisément, StepGRPO introduit deux nouvelles récompenses basées sur des règles pour le raisonnement : Step-wise Reasoning Accuracy Reward (StepRAR) et Step-wise Reasoning Validity Reward (StepRVR). StepRAR récompense les chemins de raisonnement qui contiennent les étapes intermédiaires nécessaires via une technique de correspondance douce des étapes clés, tandis que StepRVR récompense les chemins de raisonnement qui suivent un processus de raisonnement bien structuré et logiquement cohérent grâce à une stratégie d'évaluation de la complétude et de la logique du raisonnement. Avec le StepGRPO proposé, nous introduisons R1-VL, une série de MLLMs dotés de capacités exceptionnelles en matière de raisonnement étape par étape. Des expériences approfondies sur 8 benchmarks démontrent la supériorité de nos méthodes.
La manipulation visuelle au niveau des éléments est essentielle dans la création de contenu numérique, mais les méthodes actuelles basées sur la diffusion manquent de précision et de flexibilité par rapport aux outils traditionnels. Dans ce travail, nous présentons BlobCtrl, un cadre unifiant la génération et l'édition au niveau des éléments grâce à une représentation probabiliste basée sur des blobs. En utilisant les blobs comme primitives visuelles, notre approche découple et représente efficacement l'emplacement spatial, le contenu sémantique et les informations d'identité, permettant une manipulation précise au niveau des éléments. Nos contributions principales incluent : 1) une architecture de diffusion à double branche avec fusion hiérarchique des caractéristiques pour une intégration fluide entre l'avant-plan et l'arrière-plan ; 2) un paradigme d'apprentissage auto-supervisé avec augmentation de données et fonctions de score adaptées ; et 3) des stratégies de dropout contrôlées pour équilibrer fidélité et diversité. Pour soutenir la recherche future, nous introduisons BlobData pour l'entraînement à grande échelle et BlobBench pour l'évaluation systématique. Les expériences montrent que BlobCtrl excelle dans diverses tâches de manipulation au niveau des éléments tout en maintenant une efficacité computationnelle, offrant une solution pratique pour une création de contenu visuel précise et flexible. Page du projet : https://liyaowei-stu.github.io/project/BlobCtrl/
La recherche scientifique exige un raisonnement sophistiqué sur des données multimodales, un défi particulièrement répandu en biologie. Malgré les récents progrès des modèles de langage multimodaux de grande envergure (MLLMs) pour la recherche assistée par l'IA, les benchmarks existants en raisonnement multimodal ne ciblent que des difficultés allant jusqu'au niveau universitaire, tandis que les benchmarks de niveau recherche mettent l'accent sur la perception de bas niveau, ne répondant pas aux besoins complexes en raisonnement multimodal nécessaires à la découverte scientifique. Pour combler cette lacune, nous introduisons MicroVQA, un benchmark de question-réponse visuelle (VQA) conçu pour évaluer trois capacités de raisonnement essentielles dans les workflows de recherche : la compréhension experte des images, la génération d'hypothèses et la proposition d'expériences. MicroVQA se compose de 1 042 questions à choix multiples (QCM) sélectionnées par des experts en biologie à travers diverses modalités de microscopie, garantissant que les échantillons VQA représentent une pratique scientifique réelle. Dans la construction du benchmark, nous constatons que les méthodes standard de génération de QCM induisent des raccourcis linguistiques, motivant un nouveau pipeline en deux étapes : un prompt optimisé pour les LLM structure les paires question-réponse en QCM ; puis, un agent appelé `RefineBot' les met à jour pour supprimer les raccourcis. Le benchmarking sur les MLLMs de pointe révèle une performance maximale de 53 % ; les modèles avec des LLM plus petits ne sous-performent que légèrement les meilleurs modèles, suggérant que le raisonnement basé sur le langage est moins difficile que le raisonnement multimodal ; et l'ajustement avec des articles scientifiques améliore les performances. L'analyse experte des réponses en chaîne de pensée montre que les erreurs de perception sont les plus fréquentes, suivies des erreurs de connaissance puis des erreurs de généralisation excessive. Ces insights mettent en lumière les défis du raisonnement scientifique multimodal, montrant que MicroVQA est une ressource précieuse pour faire progresser la recherche biomédicale pilotée par l'IA. MicroVQA est disponible à l'adresse https://huggingface.co/datasets/jmhb/microvqa, et la page du projet se trouve à https://jmhb0.github.io/microvqa.
Avec le développement rapide de la technologie de reconstruction 3D, la recherche en reconstruction 4D progresse également. Les méthodes existantes de reconstruction 4D peuvent générer des scènes 4D de haute qualité. Cependant, en raison des difficultés liées à l'acquisition de données vidéo multi-vues, les benchmarks actuels de reconstruction 4D se concentrent principalement sur des actions réalisées sur place, comme la danse, dans des scénarios limités. Dans des scénarios pratiques, de nombreuses scènes impliquent des mouvements spatiaux à grande échelle, mettant en lumière les limites des ensembles de données de reconstruction 4D existants. De plus, les méthodes actuelles de reconstruction 4D s'appuient sur des champs de déformation pour estimer la dynamique des objets 3D, mais ces champs de déformation peinent à gérer les mouvements spatiaux à grande échelle, ce qui limite la capacité à obtenir une reconstruction 4D de haute qualité pour ces mouvements. Dans cet article, nous nous concentrons sur la reconstruction 4D de scènes avec des mouvements spatiaux significatifs des objets et proposons un nouveau benchmark de reconstruction 4D, WideRange4D. Ce benchmark inclut des données de scènes 4D riches en variations spatiales importantes, permettant une évaluation plus complète des capacités de génération des méthodes de génération 4D. Par ailleurs, nous introduisons une nouvelle méthode de reconstruction 4D, Progress4D, qui génère des résultats 4D stables et de haute qualité pour diverses tâches complexes de reconstruction 4D. Nous menons des expériences comparatives quantitatives et qualitatives sur WideRange4D, montrant que notre méthode Progress4D surpasse les méthodes de reconstruction 4D existantes de pointe. Projet : https://github.com/Gen-Verse/WideRange4D
Les vidéos, avec leur dimension temporelle unique, exigent une compréhension précise et ancrée, où les réponses sont directement liées à des preuves visuelles et interprétables. Malgré des avancées significatives dans les capacités de raisonnement des grands modèles de langage, le raisonnement multimodal - en particulier pour les vidéos - reste inexploré. Dans ce travail, nous présentons VideoMind, un nouvel agent vidéo-langage conçu pour la compréhension temporelle ancrée des vidéos. VideoMind intègre deux innovations clés : (i) Nous identifions les capacités essentielles pour le raisonnement temporel vidéo et développons un flux de travail agentique basé sur des rôles, incluant un planificateur pour coordonner les différents rôles, un ancreur pour la localisation temporelle, un vérificateur pour évaluer la précision des intervalles temporels, et un répondeur pour les questions-réponses. (ii) Pour intégrer efficacement ces rôles divers, nous proposons une nouvelle stratégie de Chaîne-de-LoRA, permettant un changement de rôle fluide via des adaptateurs LoRA légers tout en évitant la surcharge de multiples modèles, équilibrant ainsi efficacité et flexibilité. Des expériences approfondies sur 14 benchmarks publics démontrent que notre agent atteint des performances de pointe sur diverses tâches de compréhension vidéo, incluant 3 sur les questions-réponses vidéo ancrées, 6 sur l'ancrage temporel vidéo, et 5 sur les questions-réponses vidéo générales, soulignant son efficacité dans l'avancement des agents vidéo et du raisonnement temporel de longue durée.
Les modèles de récompense sont devenus un pilier dans le domaine moderne du TALN, servant non seulement d'évaluateurs de texte évolutifs, mais aussi de composants indispensables dans de nombreuses recettes d'alignement et algorithmes d'inférence. Cependant, bien que les modèles de récompense récents améliorent les performances sur les benchmarks standards, cela peut en partie être dû à des effets de surajustement, ce qui brouillerait la compréhension de leur véritable capacité. Dans ce travail, nous examinons la robustesse des modèles de récompense et l'étendue de ce surajustement. Nous construisons **reWordBench**, qui transforme systématiquement les entrées des modèles de récompense de manière à préserver le sens ou le classement. Nous montrons que les modèles de récompense de pointe subissent une dégradation substantielle de leurs performances même avec des transformations mineures des entrées, tombant parfois à une précision significativement inférieure au hasard, ce qui suggère une fragilité. Pour améliorer la robustesse des modèles de récompense, nous proposons de les entraîner explicitement à attribuer des scores similaires à des paraphrases, et nous constatons que cette approce améliore également la robustesse à d'autres types distincts de transformations. Par exemple, notre modèle de récompense robuste réduit cette dégradation de près de moitié pour le sous-ensemble Chat Hard dans RewardBench. De plus, lorsqu'ils sont utilisés dans l'alignement, nos modèles de récompense robustes démontrent une meilleure utilité et produisent des sorties de plus haute qualité, gagnant dans jusqu'à 59% des cas contre un modèle de récompense entraîné de manière standard.
Les humains traitent le raisonnement vidéo selon une logique séquentielle spatio-temporelle : nous identifions d'abord les images pertinentes ("quand"), puis analysons les relations spatiales ("où") entre les objets clés, et enfin exploitons ces relations pour tirer des conclusions ("quoi"). Cependant, les modèles de langage vidéo de grande taille (Video-LLMs) peuvent-ils également "raisonner selon une logique spatio-temporelle séquentielle" dans les vidéos ? Les benchmarks existants pour les Video-LLMs se concentrent principalement sur l'évaluation de la présence d'objets, négligeant le raisonnement relationnel. Par conséquent, il est difficile de mesurer si un modèle comprend véritablement les interactions entre objets (actions/événements) dans les vidéos ou s'il s'appuie simplement sur une "mémoire" pré-entraînée de co-occurrences comme biais pour générer des réponses. Dans ce travail, nous introduisons un benchmark de raisonnement spatio-temporel vidéo (V-STaR) pour combler ces lacunes. L'idée clé est de décomposer la compréhension vidéo en une tâche de raisonnement spatio-temporel inverse (RSTR) qui évalue simultanément quels objets sont présents, quand les événements se produisent et où ils se situent, tout en capturant la logique sous-jacente de la chaîne de pensée (CoT). Pour soutenir cette évaluation, nous construisons un ensemble de données visant à susciter le processus de raisonnement spatio-temporel des Video-LLMs. Il contient des questions CoT allant du général au spécifique, générées par un pipeline semi-automatisé alimenté par GPT-4, intégrant des chaînes de raisonnement explicites pour imiter la cognition humaine. Les expériences menées sur 14 Video-LLMs avec notre V-STaR révèlent des écarts significatifs entre les Video-LLMs actuels et les besoins en matière de raisonnement spatio-temporel robuste et cohérente.
La réalisation de la préhension robotique dans un bac encombré à partir d'instructions humaines constitue une tâche complexe, car elle nécessite à la fois la compréhension des nuances du langage libre et des relations spatiales entre les objets. Les modèles vision-langage (VLMs) entraînés sur des données à l'échelle du web, tels que GPT-4o, ont démontré des capacités de raisonnement remarquables à la fois sur le texte et les images. Mais peuvent-ils réellement être utilisés pour cette tâche dans un contexte zero-shot ? Et quelles sont leurs limites ? Dans cet article, nous explorons ces questions de recherche via la tâche de préhension robotique basée sur le langage libre, et proposons une nouvelle méthode, FreeGrasp, qui exploite les connaissances du monde des VLMs pré-entraînés pour raisonner sur les instructions humaines et les arrangements spatiaux des objets. Notre méthode détecte tous les objets sous forme de points clés et utilise ces points pour annoter des marques sur les images, visant à faciliter le raisonnement spatial zero-shot de GPT-4o. Cela permet à notre méthode de déterminer si un objet demandé est directement préhensible ou si d'autres objets doivent d'abord être saisis et retirés. Comme aucun ensemble de données existant n'est spécifiquement conçu pour cette tâche, nous introduisons un ensemble de données synthétique, FreeGraspData, en étendant le jeu de données MetaGraspNetV2 avec des instructions annotées par des humains et des séquences de préhension de référence. Nous menons des analyses approfondies avec FreeGraspData ainsi qu'une validation en conditions réelles avec un bras robotique équipé d'une pince, démontrant des performances de pointe en matière de raisonnement et d'exécution de la préhension. Site du projet : https://tev-fbk.github.io/FreeGrasp/.
L'alignement des images générées avec des prompts textuels complexes et les préférences humaines constitue un défi central dans le domaine du contenu généré par intelligence artificielle (AIGC). Avec l'émergence de la distillation par diffusion améliorée par récompense comme approche prometteuse pour accroître la contrôlabilité et la fidélité des modèles de génération texte-image, nous identifions un changement de paradigme fondamental : à mesure que les conditions deviennent plus spécifiques et les signaux de récompense plus forts, les récompenses elles-mêmes deviennent la force dominante dans la génération. En revanche, les pertes de diffusion servent de forme de régularisation excessivement coûteuse. Pour valider rigoureusement notre hypothèse, nous introduisons R0, une nouvelle approche de génération conditionnelle via la maximisation régularisée des récompenses. Plutôt que de s'appuyer sur des pertes de distillation par diffusion complexes, R0 propose une nouvelle perspective qui traite la génération d'images comme un problème d'optimisation dans l'espace des données, visant à rechercher des images valides ayant des récompenses compositionnelles élevées. Grâce à des conceptions innovantes de la paramétrisation du générateur et à des techniques de régularisation appropriées, nous entraînons des modèles de génération texte-image à quelques étapes de pointe avec R0 à grande échelle. Nos résultats remettent en question la sagesse conventionnelle de la post-formation par diffusion et de la génération conditionnelle en démontrant que les récompenses jouent un rôle dominant dans les scénarios à conditions complexes. Nous espérons que nos découvertes contribueront à des recherches supplémentaires sur les paradigmes de génération centrés sur l'humain et les récompenses dans le domaine plus large de l'AIGC. Le code est disponible à l'adresse https://github.com/Luo-Yihong/R0.
L'inpainting vidéo consiste à modifier des régions locales dans une vidéo tout en garantissant une cohérence spatiale et temporelle. La plupart des méthodes existantes se concentrent principalement sur la complétion de scènes (c'est-à-dire le remplissage de zones manquantes) et manquent de la capacité à insérer de nouveaux objets dans une scène de manière contrôlée. Heureusement, les récents progrès des modèles de diffusion texte-à-vidéo (T2V) ouvrent la voie à l'inpainting vidéo guidé par texte. Cependant, l'adaptation directe des modèles T2V pour l'inpainting reste limitée dans l'unification des tâches de complétion et d'insertion, manque de contrôlabilité des entrées, et peine à gérer les vidéos longues, limitant ainsi leur applicabilité et leur flexibilité. Pour relever ces défis, nous proposons MTV-Inpaint, un cadre unifié d'inpainting vidéo multi-tâches capable de gérer à la fois les tâches traditionnelles de complétion de scènes et les nouvelles tâches d'insertion d'objets. Pour unifier ces tâches distinctes, nous concevons un mécanisme d'attention spatiale à double branche dans l'U-Net de diffusion T2V, permettant une intégration fluide de la complétion de scènes et de l'insertion d'objets dans un cadre unique. En plus du guidage textuel, MTV-Inpaint prend en charge le contrôle multimodal en intégrant divers modèles d'inpainting d'images via notre mode d'inpainting image-à-vidéo (I2V) proposé. De plus, nous proposons un pipeline en deux étapes qui combine l'inpainting d'images clés avec la propagation des images intermédiaires, permettant à MTV-Inpaint de gérer efficacement les vidéos longues comportant des centaines d'images. Des expériences approfondies démontrent que MTV-Inpaint atteint des performances de pointe à la fois dans les tâches de complétion de scènes et d'insertion d'objets. En outre, il démontre une polyvalence dans des applications dérivées telles que l'inpainting multimodal, l'édition d'objets, la suppression, le pinceau d'objets d'image, et la capacité à gérer des vidéos longues. Page du projet : https://mtv-inpaint.github.io/.
La synthèse vidéo-vers-audio, qui génère un audio synchronisé pour du contenu visuel, améliore de manière cruciale l'immersion du spectateur et la cohérence narrative dans les films et les médias interactifs. Cependant, le doublage vidéo-vers-audio pour des contenus de longue durée reste un défi non résolu en raison des changements sémantiques dynamiques, des désalignements temporels et de l'absence de jeux de données dédiés. Bien que les méthodes existantes excellent dans les vidéos courtes, elles échouent dans les scénarios longs (par exemple, les films) en raison d'une synthèse fragmentée et d'une cohérence inter-scènes insuffisante. Nous proposons LVAS-Agent, un nouveau cadre multi-agent qui reproduit les workflows professionnels de doublage grâce à une spécialisation collaborative des rôles. Notre approche décompose la synthèse de vidéos longues en quatre étapes, incluant la segmentation de scènes, la génération de scripts, la conception sonore et la synthèse audio. Les innovations centrales incluent un mécanisme de discussion-correction pour l'affinement des scènes/scripts et une boucle de génération-récupération pour l'alignement temporel-sémantique. Pour permettre une évaluation systématique, nous introduisons LVAS-Bench, le premier benchmark comprenant 207 vidéos longues professionnellement sélectionnées couvrant divers scénarios. Les expériences démontrent un alignement audio-visuel supérieur par rapport aux méthodes de référence. Page du projet : https://lvas-agent.github.io
Souvent, les besoins et les capacités visuelles diffèrent entre le groupe d'annotateurs et le groupe d'utilisateurs finaux. La génération de descriptions détaillées de diagrammes pour les utilisateurs aveugles et malvoyants (BLV) constitue un domaine particulièrement complexe. Les annotateurs voyants peuvent décrire les visuels avec facilité, mais les études existantes montrent que les descriptions qu'ils produisent directement sont coûteuses, sujettes à des biais et quelque peu insuffisantes selon les standards BLV. Dans cette étude, nous demandons à des individus voyants d'évaluer — plutôt que de produire — des descriptions de diagrammes générées par des modèles vision-langage (VLM) guidés par une supervision latente via une inférence multi-passes. Les évaluations des voyants s'avèrent efficaces et utiles pour les éducateurs professionnels eux-mêmes BLV qui enseignent à des apprenants déficients visuels. Nous publions Sightation, une collection de jeux de données de descriptions de diagrammes couvrant 5 000 diagrammes et 137 000 échantillons pour des fins de complétion, de préférence, de recherche, de réponse à des questions et d'entraînement au raisonnement, et nous démontrons leur potentiel de fine-tuning dans diverses tâches en aval.
Les modèles de fondation vidéo (VFMs) ont récemment été utilisés pour simuler le monde réel afin d'entraîner des systèmes d'IA physiques et de développer des expériences visuelles créatives. Cependant, il existe des défis importants dans l'entraînement de VFMs à grande échelle et de haute qualité capables de générer des vidéos de haute qualité. Nous présentons un pipeline d'entraînement de VFM évolutif et open-source avec NVIDIA NeMo, offrant une curation accélérée de jeux de données vidéo, un chargement de données multimodales, ainsi qu'un entraînement et une inférence parallélisés de modèles de diffusion vidéo. Nous fournissons également une analyse de performance complète mettant en lumière les meilleures pratiques pour un entraînement et une inférence efficaces des VFMs.
Une variété de modèles de diffusion vidéo auto-régressifs (ARVDM) a obtenu des succès remarquables dans la génération de vidéos longues réalistes. Cependant, les analyses théoriques de ces modèles restent rares. Dans ce travail, nous développons des fondements théoriques pour ces modèles et utilisons nos insights pour améliorer les performances des modèles existants. Nous commençons par développer Meta-ARVDM, un cadre unifié pour les ARVDM qui englobe la plupart des méthodes existantes. En utilisant Meta-ARVDM, nous analysons la divergence KL entre les vidéos générées par Meta-ARVDM et les vidéos réelles. Notre analyse révèle deux phénomènes importants inhérents aux ARVDM : l'accumulation d'erreurs et le goulot d'étranglement de la mémoire. En dérivant un résultat d'impossibilité information-théorique, nous montrons que le phénomène de goulot d'étranglement de la mémoire ne peut être évité. Pour atténuer ce goulot d'étranglement, nous concevons diverses structures de réseau pour utiliser explicitement plus de trames passées. Nous obtenons également un compromis significativement amélioré entre l'atténuation du goulot d'étranglement de la mémoire et l'efficacité de l'inférence en compressant les trames. Les résultats expérimentaux sur DMLab et Minecraft valident l'efficacité de nos méthodes. Nos expériences démontrent également une frontière de Pareto entre l'accumulation d'erreurs et le goulot d'étranglement de la mémoire à travers différentes méthodes.
Les images stéréo sont fondamentales pour de nombreuses applications, notamment les dispositifs de réalité étendue (XR), la conduite autonome et la robotique. Malheureusement, l'acquisition d'images stéréo de haute qualité reste un défi en raison des exigences de calibration précise des configurations à double caméra et de la complexité d'obtention de cartes de disparité denses et précises. Les méthodes existantes de génération d'images stéréo se concentrent généralement soit sur la qualité visuelle pour la visualisation, soit sur la précision géométrique pour l'appariement, mais pas sur les deux à la fois. Nous présentons GenStereo, une approche basée sur la diffusion, pour combler cette lacune. La méthode comprend deux innovations principales : (1) le conditionnement du processus de diffusion sur un encodage de coordonnées sensible à la disparité et une image d'entrée déformée, permettant un alignement stéréo plus précis que les méthodes précédentes, et (2) un mécanisme de fusion adaptatif qui combine intelligemment l'image générée par diffusion avec une image déformée, améliorant à la fois le réalisme et la cohérence de la disparité. Grâce à un entraînement approfondi sur 11 ensembles de données stéréo diversifiés, GenStereo démontre une forte capacité de généralisation. GenStereo atteint des performances de pointe à la fois dans la génération d'images stéréo et dans les tâches d'appariement stéréo non supervisées. Notre framework élimine le besoin de configurations matérielles complexes tout en permettant la génération d'images stéréo de haute qualité, ce qui le rend précieux pour les applications réelles et les scénarios d'apprentissage non supervisé. La page du projet est disponible à l'adresse https://qjizhi.github.io/genstereo.
Les travaux récents ont cherché à quantifier l'incertitude des grands modèles de langage afin de faciliter le contrôle des modèles et de moduler la confiance des utilisateurs. Les études précédentes se concentrent sur des mesures d'incertitude théoriquement fondées ou reflétant le comportement moyen observable du modèle. Dans ce travail, nous explorons une variété de mesures d'incertitude afin d'identifier celles qui corrèlent avec l'incertitude au niveau des groupes humains. Nous constatons que les mesures bayésiennes et une variante des mesures d'entropie, l'entropie top-k, tendent à s'aligner sur le comportement humain en fonction de la taille du modèle. Nous observons que certaines mesures robustes voient leur similarité avec les humains diminuer avec l'augmentation de la taille du modèle, mais, grâce à une régression linéaire multiple, nous constatons que la combinaison de plusieurs mesures d'incertitude offre un alignement comparable avec les humains tout en réduisant la dépendance à la taille.
Les méthodes traditionnelles de type "boîte blanche" pour créer des perturbations adverses contre les LLM reposent généralement uniquement sur le calcul du gradient du modèle ciblé, ignorant les mécanismes internes responsables du succès ou de l'échec de l'attaque. À l'inverse, les études d'interprétabilité qui analysent ces mécanismes internes manquent d'applications pratiques au-delà des interventions en temps réel. Nous comblons cet écart en introduisant une nouvelle approche de type boîte blanche qui exploite les techniques d'interprétabilité mécaniste pour concevoir des entrées adverses pratiques. Plus précisément, nous identifions d'abord des sous-espaces d'acceptation - des ensembles de vecteurs de caractéristiques qui ne déclenchent pas les mécanismes de refus du modèle - puis utilisons une optimisation basée sur le gradient pour rediriger les embeddings des sous-espaces de refus vers les sous-espaces d'acceptation, réalisant ainsi efficacement des jailbreaks. Cette approche ciblée réduit considérablement les coûts de calcul, atteignant des taux de réussite d'attaque de 80 à 95 % sur des modèles de pointe tels que Gemma2, Llama3.2 et Qwen2.5 en quelques minutes voire secondes, comparé aux techniques existantes qui échouent souvent ou nécessitent des heures de calcul. Nous pensons que cette approche ouvre une nouvelle direction pour la recherche en attaque et le développement de défenses. De plus, elle démontre une application pratique de l'interprétabilité mécaniste là où d'autres méthodes sont moins efficaces, ce qui met en avant son utilité. Le code et les jeux de données générés sont disponibles à l'adresse https://github.com/Sckathach/subspace-rerouting.
Le domaine de la psychologie a longtemps reconnu un niveau de catégorisation de base que les humains utilisent pour étiqueter des stimuli visuels, un terme introduit par Rosch en 1976. Ce niveau de catégorisation s'est avéré être le plus fréquemment utilisé, posséder une densité d'information plus élevée et faciliter les tâches de langage visuel avec amorçage chez les humains. Ici, nous étudions la catégorisation de base dans deux modèles vision-langage (VLMs) récemment publiés et open-source. Cet article démontre que Llama 3.2 Vision Instruct (11B) et Molmo 7B-D privilégient tous deux la catégorisation de base, en accord avec le comportement humain. De plus, les préférences des modèles sont cohérentes avec des comportements humains nuancés, tels que les effets de catégorisation de base biologique versus non biologique et le décalage bien établi vers la catégorisation de base experte, suggérant davantage que les VLMs acquièrent des comportements de catégorisation cognitive à partir des données humaines sur lesquelles ils sont entraînés.
Les avancées récentes et rapides dans la génération de texte-à-vidéo (T2V), telles que SoRA et Kling, ont montré un grand potentiel pour la construction de simulateurs de mondes. Cependant, les modèles T2V actuels peinent à saisir les principes physiques abstraits et à générer des vidéos conformes aux lois physiques. Ce défi découle principalement d'un manque de guidance claire sur les informations physiques, en raison d'un écart significatif entre les principes physiques abstraits et les modèles de génération. Pour remédier à cela, nous introduisons le World Simulator Assistant (WISA), un cadre efficace pour décomposer et intégrer les principes physiques dans les modèles T2V. Concrètement, WISA décompose les principes physiques en descriptions textuelles physiques, catégories physiques qualitatives et propriétés physiques quantitatives. Pour intégrer efficacement ces attributs physiques dans le processus de génération, WISA intègre plusieurs conceptions clés, notamment l'attention Mixture-of-Physical-Experts (MoPA) et un Classificateur Physique, améliorant ainsi la conscience physique du modèle. Par ailleurs, la plupart des jeux de données existants présentent des vidéos où les phénomènes physiques sont soit faiblement représentés, soit entremêlés avec plusieurs processus concomitants, limitant leur adéquation en tant que ressources dédiées à l'apprentissage de principes physiques explicites. Nous proposons un nouveau jeu de données vidéo, WISA-32K, collecté sur la base de catégories physiques qualitatives. Il se compose de 32 000 vidéos, représentant 17 lois physiques à travers trois domaines de la physique : la dynamique, la thermodynamique et l'optique. Les résultats expérimentaux démontrent que WISA peut efficacement améliorer la compatibilité des modèles T2V avec les lois physiques du monde réel, obtenant une amélioration considérable sur le benchmark VideoPhy. Les démonstrations visuelles de WISA et WISA-32K sont disponibles sur https://360cvgroup.github.io/WISA/.