Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les progrès remarquables des modèles de langage multi-modaux de grande envergure (MLLMs) ont suscité une attention sans précédent, en raison de leurs performances supérieures dans des contextes visuels. Cependant, leurs capacités en résolution de problèmes mathématiques visuels restent insuffisamment évaluées et comprises. Nous examinons les benchmarks actuels qui intègrent un contenu visuel excessif dans les questions textuelles, ce qui pourrait potentiellement aider les MLLMs à déduire des réponses sans véritablement interpréter les diagrammes en entrée. À cette fin, nous introduisons MathVerse, un benchmark visuel complet de mathématiques conçu pour une évaluation équitable et approfondie des MLLMs. Nous avons méticuleusement collecté 2 612 problèmes de mathématiques de haute qualité, couvrant plusieurs sujets et accompagnés de diagrammes, provenant de sources publiquement disponibles. Chaque problème est ensuite transformé par des annotateurs humains en six versions distinctes, chacune offrant des degrés variables de contenu informationnel en multi-modalité, contribuant à un total de 15 000 échantillons de test. Cette approche permet à MathVerse d'évaluer de manière exhaustive si et dans quelle mesure les MLLMs peuvent véritablement comprendre les diagrammes visuels pour le raisonnement mathématique. En outre, nous proposons une stratégie d'évaluation en chaîne de pensée (CoT) pour une évaluation fine des réponses produites. Plutôt que de juger simplement Vrai ou Faux, nous utilisons GPT-4(V) pour extraire de manière adaptative les étapes cruciales du raisonnement, puis noter chaque étape avec une analyse détaillée des erreurs, ce qui peut révéler la qualité intermédiaire du raisonnement CoT par les MLLMs. Nous espérons que le benchmark MathVerse pourra fournir des insights uniques pour guider le développement futur des MLLMs. Page du projet : https://mathverse-cuhk.github.io
La création de contenu 3D à partir de prompts textuels a récemment connu un succès remarquable. Cependant, les méthodes actuelles de génération de texte-à-3D produisent souvent des résultats 3D qui ne correspondent pas bien aux préférences humaines. Dans cet article, nous présentons un cadre complet, baptisé DreamReward, pour apprendre et améliorer les modèles texte-à-3D à partir de retours d'expérience humaine. Pour commencer, nous collectons 25 000 comparaisons d'experts basées sur un pipeline d'annotation systématique incluant des évaluations et des classements. Ensuite, nous construisons Reward3D — le premier modèle de récompense généraliste pour le texte-à-3D qui encode efficacement les préférences humaines. En nous appuyant sur ce modèle de récompense 3D, nous effectuons une analyse théorique et présentons le Reward3D Feedback Learning (DreamFL), un algorithme de réglage direct pour optimiser les modèles de diffusion multi-vues avec un système de notation redéfini. Soutenu par des preuves théoriques et des comparaisons expérimentales approfondies, notre DreamReward génère avec succès des résultats haute fidélité et cohérents en 3D, avec une amélioration significative de l'alignement des prompts avec l'intention humaine. Nos résultats démontrent le grand potentiel de l'apprentissage à partir des retours humains pour améliorer les modèles texte-à-3D.
Ces dernières années, l'application des modèles de langage multimodaux de grande taille (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, les MLLM actuels sont composés du célèbre réseau Transformer, qui présente une complexité de calcul quadratique moins efficace. Pour améliorer l'efficacité de ces modèles fondamentaux, nous proposons Cobra, un MLLM à complexité de calcul linéaire. Plus précisément, Cobra intègre le modèle de langage Mamba, réputé pour son efficacité, dans la modalité visuelle. De plus, nous explorons et étudions divers schémas de fusion modale pour créer un Mamba multimodal efficace. Des expériences approfondies démontrent que (1) Cobra atteint des performances extrêmement compétitives par rapport aux méthodes actuelles les plus efficaces en termes de calcul, telles que LLaVA-Phi, TinyLLaVA et MobileVLM v2, tout en étant plus rapide grâce à la modélisation séquentielle linéaire de Cobra. (2) Fait intéressant, les résultats des benchmarks de prédiction difficiles en ensemble fermé montrent que Cobra excelle à surmonter les illusions visuelles et à juger les relations spatiales. (3) Notamment, Cobra atteint même des performances comparables à LLaVA avec environ 43 % du nombre de paramètres. Nous rendrons tous les codes de Cobra open-source et espérons que la méthode proposée pourra faciliter les recherches futures sur les problèmes de complexité dans les MLLM. Notre page de projet est disponible à l'adresse : https://sites.google.com/view/cobravlm.
L'édition vidéo-à-vidéo consiste à modifier une vidéo source en y ajoutant des contrôles supplémentaires (tels que des invites textuelles, des sujets ou des styles) pour générer une nouvelle vidéo qui s'aligne à la fois sur la vidéo source et sur les contrôles fournis. Les méthodes traditionnelles étaient limitées à certains types d'édition, restreignant ainsi leur capacité à répondre à la diversité des demandes des utilisateurs. Dans cet article, nous présentons AnyV2V, un nouveau framework sans apprentissage conçu pour simplifier l'édition vidéo en deux étapes principales : (1) utiliser un modèle d'édition d'images prêt à l'emploi (par exemple, InstructPix2Pix, InstantID, etc.) pour modifier la première image, (2) exploiter un modèle existant de génération d'images-à-vidéo (par exemple, I2VGen-XL) pour l'inversion DDIM et l'injection de caractéristiques. Dans la première étape, AnyV2V peut intégrer n'importe quel outil d'édition d'images existant pour prendre en charge une large gamme de tâches d'édition vidéo. Au-delà des méthodes d'édition traditionnelles basées sur des invites, AnyV2V peut également gérer des tâches d'édition vidéo innovantes, telles que le transfert de style basé sur une référence, l'édition pilotée par un sujet et la manipulation d'identité, qui étaient inaccessibles aux méthodes précédentes. Dans la deuxième étape, AnyV2V peut intégrer n'importe quel modèle d'images-à-vidéo existant pour effectuer l'inversion DDIM et l'injection de caractéristiques intermédiaires afin de préserver la cohérence d'apparence et de mouvement avec la vidéo source. Sur l'édition basée sur des invites, nous montrons qu'AnyV2V surpasse la meilleure approche précédente de 35 % en termes d'alignement sur l'invite et de 25 % en termes de préférence humaine. Sur les trois nouvelles tâches, AnyV2V atteint également un taux de réussite élevé. Nous croyons qu'AnyV2V continuera à prospérer grâce à sa capacité à intégrer de manière transparente les méthodes d'édition d'images en évolution rapide. Une telle compatibilité peut aider AnyV2V à accroître sa polyvalence pour répondre aux diverses demandes des utilisateurs.
Les récentes avancées dans les modèles de diffusion guidés par texte ont débloqué des capacités puissantes de manipulation d'images. Cependant, l'application de ces méthodes à des images réelles nécessite l'inversion des images dans le domaine du modèle de diffusion pré-entraîné. Atteindre une inversion fidèle reste un défi, en particulier pour les modèles plus récents entraînés à générer des images avec un petit nombre d'étapes de débruitage. Dans ce travail, nous introduisons une méthode d'inversion avec un rapport qualité-opération élevé, améliorant la précision de reconstruction sans augmenter le nombre d'opérations. En s'appuyant sur l'inversion du processus d'échantillonnage de diffusion, notre méthode utilise un mécanisme de rebruitage itératif à chaque étape d'échantillonnage d'inversion. Ce mécanisme affine l'approximation d'un point prédit le long de la trajectoire de diffusion directe, en appliquant itérativement le modèle de diffusion pré-entraîné et en moyennant ces prédictions. Nous évaluons la performance de notre technique ReNoise en utilisant divers algorithmes d'échantillonnage et modèles, y compris les récents modèles de diffusion accélérés. À travers des évaluations et comparaisons approfondies, nous montrons son efficacité en termes de précision et de vitesse. De plus, nous confirmons que notre méthode préserve l'éditabilité en démontrant l'édition d'images réelles guidée par texte.
Les modèles de diffusion vidéo ont récemment réalisé des progrès significatifs en termes de qualité de génération, mais restent limités par les exigences élevées en mémoire et en calcul. Cela s'explique par le fait que les modèles de diffusion vidéo actuels tentent souvent de traiter directement des vidéos de haute dimension. Pour résoudre ce problème, nous proposons le modèle de diffusion latente contenu-mouvement (CMD), une extension novatrice et efficace des modèles de diffusion d'images pré-entraînés pour la génération de vidéos. Plus précisément, nous proposons un autoencodeur qui encode succinctement une vidéo comme une combinaison d'une image de contenu (similaire à une image) et d'une représentation latente de mouvement de faible dimension. La première représente le contenu commun, tandis que la seconde représente le mouvement sous-jacent de la vidéo. Nous générons l'image de contenu en affinant un modèle de diffusion d'images pré-entraîné, et nous générons la représentation latente de mouvement en entraînant un nouveau modèle de diffusion léger. Une innovation clé ici est la conception d'un espace latent compact qui peut directement exploiter un modèle de diffusion d'images pré-entraîné, ce qui n'a pas été fait dans les modèles de diffusion vidéo latents précédents. Cela conduit à une génération de bien meilleure qualité et à des coûts de calcul réduits. Par exemple, CMD peut échantillonner une vidéo 7,7 fois plus rapidement que les approches précédentes en générant une vidéo de résolution 512x1024 et de longueur 16 en 3,1 secondes. De plus, CMD atteint un score FVD de 212,7 sur WebVid-10M, soit 27,3 % de mieux que le précédent état de l'art de 292,4.
Les récents modèles de vision et langage à grande échelle (VLMs) ont démontré des capacités remarquables dans la compréhension et la génération de descriptions textuelles pour le contenu visuel. Cependant, ces modèles manquent de compréhension des concepts spécifiques à l'utilisateur. Dans ce travail, nous faisons un premier pas vers la personnalisation des VLMs, en leur permettant d'apprendre et de raisonner sur des concepts fournis par l'utilisateur. Par exemple, nous explorons si ces modèles peuvent apprendre à vous reconnaître dans une image et à communiquer ce que vous êtes en train de faire, adaptant ainsi le modèle pour refléter vos expériences personnelles et vos relations. Pour reconnaître efficacement une variété de concepts spécifiques à l'utilisateur, nous enrichissons le VLM avec des têtes de concept externes qui fonctionnent comme des interrupteurs pour le modèle, permettant au VLM d'identifier la présence de concepts cibles spécifiques dans une image donnée. Une fois le concept reconnu, nous apprenons un nouvel embedding de concept dans l'espace de caractéristiques intermédiaires du VLM. Cet embedding a pour tâche de guider le modèle de langage à intégrer naturellement le concept cible dans sa réponse générée. Nous appliquons notre technique à BLIP-2 et LLaVA pour la génération de légendes d'images personnalisées et montrons en outre son applicabilité pour les réponses personnalisées à des questions visuelles. Nos expériences démontrent notre capacité à généraliser à des images non vues de concepts appris tout en préservant le comportement du modèle sur des entrées non liées.
Nous présentons GRM, un reconstructeur à grande échelle capable de récupérer un actif 3D à partir d'images à vues clairsemées en environ 0,1s. GRM est un modèle basé sur un transformeur en feed-forward qui intègre efficacement les informations multi-vues pour traduire les pixels d'entrée en Gaussiennes alignées sur les pixels, qui sont ensuite projetées pour créer un ensemble de Gaussiennes 3D densément distribuées représentant une scène. Ensemble, notre architecture de transformeur et l'utilisation de Gaussiennes 3D débloquent un cadre de reconstruction scalable et efficace. Les résultats expérimentaux approfondis démontrent la supériorité de notre méthode par rapport aux alternatives en termes de qualité de reconstruction et d'efficacité. Nous montrons également le potentiel de GRM dans des tâches génératives, c'est-à-dire le texte-à-3D et l'image-à-3D, en l'intégrant avec des modèles de diffusion multi-vues existants. Notre site web de projet est accessible à l'adresse : https://justimyhxu.github.io/projects/grm/.
Nous proposons Gaussian Frosting, une nouvelle représentation basée sur des maillages pour le rendu de haute qualité et l'édition en temps réel d'effets 3D complexes. Notre approche s'appuie sur le récent cadre de 3D Gaussian Splatting, qui optimise un ensemble de Gaussiennes 3D pour approximer un champ de radiance à partir d'images. Nous proposons d'abord d'extraire un maillage de base à partir des Gaussiennes pendant l'optimisation, puis de construire et d'affiner une couche adaptative de Gaussiennes d'épaisseur variable autour du maillage pour mieux capturer les détails fins et les effets volumétriques près de la surface, tels que les cheveux ou l'herbe. Nous appelons cette couche Gaussian Frosting, car elle ressemble à un glaçage sur un gâteau. Plus le matériau est flou, plus le glaçage est épais. Nous introduisons également une paramétrisation des Gaussiennes pour les maintenir à l'intérieur de la couche de glaçage et ajuster automatiquement leurs paramètres lors de la déformation, du redimensionnement, de l'édition ou de l'animation du maillage. Notre représentation permet un rendu efficace grâce à la technique de splatting de Gaussiennes, ainsi que l'édition et l'animation en modifiant le maillage de base. Nous démontrons l'efficacité de notre méthode sur diverses scènes synthétiques et réelles, et montrons qu'elle surpasse les approches existantes basées sur les surfaces. Nous publierons notre code et un visualiseur web comme contributions supplémentaires. Notre page de projet est la suivante : https://anttwo.github.io/frosting/
Nous introduisons la génération bornée comme une tâche généralisée pour contrôler la génération vidéo afin de synthétiser des mouvements arbitraires de caméra et de sujet en se basant uniquement sur une image de départ et une image de fin données. Notre objectif est de tirer pleinement parti de la capacité de généralisation inhérente d'un modèle image-à-vidéo sans entraînement supplémentaire ni ajustement fin du modèle original. Cela est réalisé grâce à une nouvelle stratégie d'échantillonnage proposée, que nous appelons Fusion par Inversion Temporelle, qui fusionne les chemins de débruîtage temporellement avant et arrière conditionnés respectivement sur l'image de départ et l'image de fin. Le chemin fusionné produit une vidéo qui relie de manière fluide les deux images, générant un entrelacement fidèle du mouvement du sujet, des vues nouvelles de scènes statiques, et une boucle vidéo sans couture lorsque les deux images bornées sont identiques. Nous constituons un ensemble de données d'évaluation diversifié de paires d'images et comparons avec les méthodes existantes les plus proches. Nous constatons que la Fusion par Inversion Temporelle surpasse les travaux connexes sur toutes les sous-tâches, démontrant la capacité à générer des mouvements complexes et des vues cohérentes en 3D guidées par des images bornées. Consultez la page du projet à l'adresse https://time-reversal.github.io.
Nous proposons une méthode capable de générer automatiquement des cinémagraphs à partir d'une image de paysage statique en utilisant un StyleGAN pré-entraîné. Inspirés par le succès des récentes méthodes de génération vidéo non conditionnée, nous exploitons un générateur d'images puissant et pré-entraîné pour synthétiser des cinémagraphs de haute qualité. Contrairement aux approches précédentes qui utilisent principalement l'espace latent d'un StyleGAN pré-entraîné, notre méthode exploite son espace de caractéristiques profondes à la fois pour l'inversion GAN et la génération de cinémagraphs. Plus précisément, nous proposons une méthode de déformation multi-échelle des caractéristiques profondes (MSDFW), qui déforme les caractéristiques intermédiaires d'un StyleGAN pré-entraîné à différentes résolutions. En utilisant MSDFW, les cinémagraphs générés sont de haute résolution et présentent une animation en boucle plausible. Nous démontrons la supériorité de notre méthode à travers des études utilisateurs et des comparaisons quantitatives avec les méthodes de génération de cinémagraphs de pointe ainsi qu'une méthode de génération vidéo utilisant un StyleGAN pré-entraîné.
Les chercheurs et développeurs s'appuient de plus en plus sur le scoring de toxicité pour modérer les sorties des modèles de langage génératifs, dans des contextes tels que le service client, la recherche d'information et la génération de contenu. Cependant, le scoring de toxicité peut rendre des informations pertinentes inaccessibles, rigidifier ou "verrouiller" les normes culturelles, et entraver les processus de réappropriation linguistique, en particulier pour les personnes marginalisées. Dans ce travail, nous étendons le concept de recours algorithmique aux modèles de langage génératifs : nous proposons aux utilisateurs un mécanisme novateur pour obtenir la prédiction souhaitée en définissant dynamiquement des seuils de filtrage de la toxicité. Les utilisateurs exercent ainsi un plus grand contrôle par rapport aux interactions avec le système de base. Une étude pilote (n = 30) soutient le potentiel de notre mécanisme de recours proposé, indiquant des améliorations en termes de facilité d'utilisation par rapport au filtrage de toxicité à seuil fixe des sorties du modèle. Les travaux futurs devraient explorer l'intersection entre le scoring de toxicité, la contrôlabilité des modèles, le contrôle utilisateur et les processus de réappropriation linguistique — en particulier en ce qui concerne les biais auxquels de nombreuses communautés sont confrontées lors de leurs interactions avec les modèles de langage génératifs.