Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les réseaux de neurones convolutifs (CNN) et les Vision Transformers (ViT) constituent les deux modèles de base les plus populaires pour l'apprentissage de représentations visuelles. Alors que les CNN présentent une scalabilité remarquable avec une complexité linéaire par rapport à la résolution de l'image, les ViT les surpassent en termes de capacité d'ajustement malgré une complexité quadratique. Une analyse plus approfondie révèle que les ViT obtiennent des performances supérieures en modélisation visuelle grâce à l'intégration de champs réceptifs globaux et de poids dynamiques. Cette observation nous motive à proposer une nouvelle architecture qui hérite de ces composants tout en améliorant l'efficacité computationnelle. Pour ce faire, nous nous inspirons du modèle d'état récemment introduit et proposons le Visual State Space Model (VMamba), qui atteint une complexité linéaire sans sacrifier les champs réceptifs globaux. Pour résoudre le problème de sensibilité directionnelle rencontré, nous introduisons le Cross-Scan Module (CSM) pour parcourir le domaine spatial et convertir toute image visuelle non causale en séquences de patches ordonnées. Les résultats expérimentaux approfondis confirment que VMamba démontre non seulement des capacités prometteuses dans diverses tâches de perception visuelle, mais présente également des avantages plus marqués par rapport aux benchmarks établis à mesure que la résolution de l'image augmente. Le code source est disponible à l'adresse suivante : https://github.com/MzeroMiko/VMamba.
Les modèles de diffusion ont ouvert de nouvelles perspectives dans le domaine de la génération d'images, entraînant une prolifération de modèles de haute qualité partagés sur des plateformes open source. Cependant, un défi majeur persiste : les systèmes actuels de génération d'images à partir de texte peinent souvent à gérer des entrées variées ou se limitent aux résultats d'un seul modèle. Les tentatives actuelles d'unification se divisent généralement en deux aspects orthogonaux : i) analyser des **prompts diversifiés** lors de l'étape d'entrée ; ii) activer un modèle expert pour la sortie. Pour combiner le meilleur des deux approches, nous proposons **DiffusionGPT**, qui exploite les **modèles de langage à grande échelle (LLM)** pour offrir un système de génération unifié capable d'intégrer de manière fluide divers types de prompts et de modèles experts par domaine. DiffusionGPT construit des **arbres spécifiques à un domaine** pour différents modèles génératifs en s'appuyant sur des connaissances préalables. Lorsqu'une entrée est fournie, le LLM analyse le prompt et utilise les **arbres de pensée (Trees-of-Thought)** pour guider la sélection d'un modèle approprié, réduisant ainsi les contraintes sur les entrées et garantissant des performances exceptionnelles dans divers domaines. De plus, nous introduisons des **bases de données d'avantages**, où l'arbre de pensée est enrichi par des retours humains, alignant le processus de sélection de modèle sur les préférences humaines. Grâce à des expériences et comparaisons approfondies, nous démontrons l'efficacité de DiffusionGPT, mettant en lumière son potentiel pour repousser les limites de la synthèse d'images dans des domaines variés.
Nous présentons SPARse Fine-grained Contrastive Alignment (SPARC), une méthode simple pour le pré-entraînement de représentations multimodales plus fines à partir de paires image-texte. Étant donné que plusieurs régions d'une image correspondent souvent à des mots individuels, nous proposons d'apprendre un regroupement de régions d'image pour chaque token dans la légende. Pour y parvenir, nous utilisons une métrique de similarité parcimonieuse entre les régions d'image et les tokens linguistiques, et calculons pour chaque token un embedding visuel regroupé par le langage comme la moyenne pondérée des régions. Les embeddings du token et les embeddings visuels regroupés par le langage sont ensuite contrastés via une perte séquentielle fine qui ne dépend que des échantillons individuels et ne nécessite pas d'autres échantillons du lot comme négatifs. Cela permet d'apprendre des informations plus détaillées de manière économiquement efficace en termes de calcul. SPARC combine cette perte fine avec une perte contrastive entre les embeddings globaux de l'image et du texte pour apprendre des représentations qui encodent simultanément des informations globales et locales. Nous évaluons minutieusement notre méthode proposée et montrons une amélioration des performances par rapport aux approches concurrentes, tant sur des tâches au niveau de l'image reposant sur des informations grossières (par exemple, la classification) que sur des tâches au niveau de la région reposant sur des informations fines (par exemple, la recherche, la détection d'objets et la segmentation). De plus, SPARC améliore la fidélité du modèle et la génération de légendes dans les modèles fondamentaux de vision et langage.
Comme pour de nombreux problèmes d'apprentissage automatique, les progrès des méthodes de génération d'images reposent sur de bonnes métriques d'évaluation. L'une des plus populaires est la Distance de Fréchet Inception (FID). La FID estime la distance entre une distribution des caractéristiques Inception-v3 des images réelles et celles des images générées par l'algorithme. Nous mettons en lumière d'importants inconvénients de la FID : la mauvaise représentation par Inception du contenu riche et varié généré par les modèles modernes de texte-à-image, les hypothèses de normalité incorrectes et la faible complexité d'échantillonnage. Nous appelons à une réévaluation de l'utilisation de la FID comme métrique principale de qualité pour les images générées. Nous démontrons empiriquement que la FID contredit les évaluations humaines, qu'elle ne reflète pas l'amélioration progressive des modèles itératifs de texte-à-image, qu'elle ne capture pas les niveaux de distorsion et qu'elle produit des résultats incohérents lorsque la taille de l'échantillon varie. Nous proposons également une nouvelle métrique alternative, CMMD, basée sur des embeddings CLIP plus riches et la distance de divergence maximale des moyennes avec le noyau RBF gaussien. Il s'agit d'un estimateur non biaisé qui ne fait aucune hypothèse sur la distribution de probabilité des embeddings et qui est efficace en termes d'échantillonnage. À travers des expériences et des analyses approfondies, nous démontrons que les évaluations basées sur la FID des modèles de texte-à-image peuvent être peu fiables, et que la CMMD offre une évaluation plus robuste et fiable de la qualité des images.
Nous présentons SHINOBI, un framework de bout en bout pour la reconstruction de la forme, des matériaux et de l'éclairage à partir d'images d'objets capturées avec des variations d'éclairage, de pose et de fond. Le rendu inverse d'un objet basé sur des collections d'images non contraintes constitue un défi de longue date en vision par ordinateur et en infographie, nécessitant une optimisation conjointe de la forme, de la radiance et de la pose. Nous démontrons qu'une représentation implicite de la forme basée sur un encodage de hachage multi-résolution permet une reconstruction de forme plus rapide et robuste avec une optimisation conjointe de l'alignement de la caméra, surpassant les travaux précédents. De plus, pour permettre l'édition de l'éclairage et de la réflectance de l'objet (c'est-à-dire le matériau), nous optimisons conjointement le BRDF et l'éclairage avec la forme de l'objet. Notre méthode est indépendante de la classe et fonctionne sur des collections d'images d'objets en conditions réelles pour produire des actifs 3D relightables pour plusieurs cas d'utilisation tels que la RA/RV, les films, les jeux, etc. Page du projet : https://shinobi.aengelhardt.com Vidéo : https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
L'objectif de cet article est de générer un audio réaliste à l'aide d'un vocodeur léger et rapide basé sur la diffusion, nommé FreGrad. Notre framework se compose des trois éléments clés suivants : (1) Nous utilisons une transformée en ondelettes discrète qui décompose une forme d'onde complexe en sous-bandes d'ondelettes, ce qui permet à FreGrad d'opérer dans un espace de caractéristiques simple et concis, (2) Nous concevons une convolution dilatée sensible aux fréquences qui améliore la perception des fréquences, permettant ainsi de générer une parole avec des informations fréquentielles précises, et (3) Nous introduisons un ensemble d'astuces qui améliorent la qualité de génération du modèle proposé. Dans nos expériences, FreGrad atteint un temps d'entraînement 3,7 fois plus rapide et une vitesse d'inférence 2,2 fois plus rapide par rapport à notre référence, tout en réduisant la taille du modèle de 0,6 fois (seulement 1,78 million de paramètres) sans sacrifier la qualité de sortie. Des échantillons audio sont disponibles à l'adresse suivante : https://mm.kaist.ac.kr/projects/FreGrad.
La génération personnalisée de texte-à-vidéo vise à produire des vidéos de haute qualité guidées par des invites textuelles et des références de sujets. Les approches actuelles conçues pour des sujets uniques peinent à gérer plusieurs sujets, un scénario plus complexe et pratique. Dans ce travail, nous cherchons à promouvoir la personnalisation de texte-à-vidéo guidée par plusieurs sujets. Nous proposons CustomVideo, un nouveau cadre capable de générer des vidéos préservant l'identité avec le guidage de plusieurs sujets. Plus précisément, nous encourageons d'abord la co-occurrence de plusieurs sujets en les composant dans une seule image. Ensuite, sur la base d'un modèle de diffusion texte-à-vidéo, nous concevons une stratégie de contrôle d'attention simple mais efficace pour dissocier les différents sujets dans l'espace latent du modèle de diffusion. De plus, pour aider le modèle à se concentrer sur la zone d'objet spécifique, nous segmentons l'objet à partir des images de référence fournies et fournissons un masque d'objet correspondant pour l'apprentissage de l'attention. Nous collectons également un ensemble de données de génération de texte-à-vidéo multi-sujets comme référence complète, comprenant 69 sujets individuels et 57 paires significatives. Les résultats qualitatifs, quantitatifs et d'études utilisateurs démontrent la supériorité de notre méthode par rapport aux approches précédentes de l'état de l'art.