Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le marquage des sorties des modèles génératifs est une technique cruciale pour tracer les droits d'auteur et prévenir les dommages potentiels liés au contenu généré par l'IA. Dans cet article, nous présentons une nouvelle technique appelée Tree-Ring Watermarking (marquage en anneaux d'arbre) qui identifie de manière robuste les sorties des modèles de diffusion. Contrairement aux méthodes existantes qui effectuent des modifications a posteriori sur les images après l'échantillonnage, Tree-Ring Watermarking influence subtilement l'intégralité du processus d'échantillonnage, produisant une empreinte du modèle invisible à l'œil humain. Le marquage intègre un motif dans le vecteur de bruit initial utilisé pour l'échantillonnage. Ces motifs sont structurés dans l'espace de Fourier afin d'être invariants aux convolutions, rognages, dilatations, retournements et rotations. Après la génération de l'image, le signal de marquage est détecté en inversant le processus de diffusion pour récupérer le vecteur de bruit, qui est ensuite vérifié pour la présence du signal intégré. Nous démontrons que cette technique peut être facilement appliquée à des modèles de diffusion arbitraires, y compris Stable Diffusion conditionné par du texte, en tant que module complémentaire avec une perte négligeable en FID. Notre marquage est sémantiquement caché dans l'espace de l'image et est bien plus robuste que les alternatives de marquage actuellement déployées. Le code est disponible sur github.com/YuxinWenRick/tree-ring-watermark.
Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer suscitent l'admiration pour leurs performances exceptionnelles sur des tâches nécessitant un raisonnement complexe en plusieurs étapes. Pourtant, ces mêmes modèles échouent parfois sur des problèmes étonnamment triviaux. Cela soulève la question : ces erreurs sont-elles fortuites, ou révèlent-elles des limitations plus profondes ? Dans une tentative de démystifier les Transformers, nous explorons les limites de ces modèles à travers trois tâches compositionnelles représentatives : la multiplication de nombres à plusieurs chiffres, les énigmes de grilles logiques et un problème classique de programmation dynamique. Ces tâches nécessitent de décomposer les problèmes en sous-étapes et de synthétiser ces étapes pour obtenir une réponse précise. Nous formulons les tâches compositionnelles sous forme de graphes de calcul afin de quantifier systématiquement le niveau de complexité, et nous décomposons les étapes de raisonnement en sous-procédures intermédiaires. Nos résultats empiriques suggèrent que les Transformers résolvent les tâches compositionnelles en réduisant le raisonnement compositionnel multi-étapes à une correspondance linéarisée de sous-graphes, sans nécessairement développer des compétences systématiques de résolution de problèmes. Pour compléter notre étude empirique, nous proposons des arguments théoriques sur des problèmes de raisonnement multi-étapes abstraits qui mettent en évidence comment les performances des Transformers se dégradent rapidement avec l'augmentation de la complexité des tâches.
La synthèse automatique de texte en 3D a réalisé des avancées remarquables grâce à l'optimisation des modèles 3D. Les méthodes existantes reposent couramment sur des modèles génératifs texte-image pré-entraînés, tels que les modèles de diffusion, qui fournissent des scores pour les rendus 2D des champs de radiance neuronaux (NeRFs) et sont utilisés pour optimiser ces NeRFs. Cependant, ces méthodes rencontrent souvent des artefacts et des incohérences entre plusieurs vues en raison de leur compréhension limitée de la géométrie 3D. Pour pallier ces limitations, nous proposons une reformulation de la fonction de perte d'optimisation en utilisant le prior de diffusion. De plus, nous introduisons une nouvelle approche d'entraînement qui libère le potentiel du prior de diffusion. Pour améliorer la représentation de la géométrie 3D, nous appliquons une supervision auxiliaire de profondeur pour les images rendues par NeRF et régularisons le champ de densité des NeRFs. Des expériences approfondies démontrent la supériorité de notre méthode par rapport aux travaux antérieurs, aboutissant à un photo-réalisme avancé et une meilleure cohérence multi-vue.
Les récents progrès des modèles de diffusion image-texte ont suscité un intérêt croissant pour les modèles génératifs 3D à grande échelle. Cependant, la disponibilité limitée de ressources 3D diversifiées pose des défis majeurs à l'apprentissage. Dans cet article, nous présentons une méthode novatrice pour générer des avatars 3D stylisés de haute qualité, qui exploite des modèles de diffusion image-texte pré-entraînés pour la génération de données et un réseau de génération 3D basé sur un Réseau Génératif Adversarial (GAN) pour l'entraînement. Notre méthode tire parti des connaissances approfondies en matière d'apparence et de géométrie offertes par les modèles de diffusion image-texte pour générer des images multi-vues d'avatars dans divers styles. Lors de la génération des données, nous utilisons des poses extraites de modèles 3D existants pour guider la création d'images multi-vues. Pour résoudre le problème de désalignement entre les poses et les images dans les données, nous explorons des invites spécifiques à la vue et développons un discriminateur allant du grossier au fin pour l'entraînement du GAN. Nous examinons également des invites liées aux attributs pour augmenter la diversité des avatars générés. Par ailleurs, nous développons un modèle de diffusion latente dans l'espace de style de StyleGAN afin de permettre la génération d'avatars à partir d'entrées d'images. Notre approche démontre une performance supérieure aux méthodes actuelles de pointe en termes de qualité visuelle et de diversité des avatars produits.
Cet article présente un nouveau jeu de données vocales appelé ``LibriTTS-R'', conçu pour la synthèse vocale (TTS). Il est dérivé en appliquant une restauration audio au corpus LibriTTS, qui comprend 585 heures de données vocales échantillonnées à 24 kHz provenant de 2 456 locuteurs, ainsi que les textes correspondants. Les échantillons constitutifs de LibriTTS-R sont identiques à ceux de LibriTTS, seule la qualité sonore ayant été améliorée. Les résultats expérimentaux montrent que les échantillons de référence de LibriTTS-R présentent une qualité sonore nettement supérieure à ceux de LibriTTS. De plus, un système de synthèse vocale neuronale de bout en bout entraîné avec LibriTTS-R a atteint un niveau de naturalité vocale comparable à celui des échantillons de référence. Le corpus est librement téléchargeable à l'adresse http://www.openslr.org/141/.
Les récentes avancées des modèles de diffusion ont permis de générer des images haute fidélité à partir de prompts textuels. Cependant, un écart de domaine existe entre les images générées et les images du monde réel, ce qui pose un défi pour générer des variations de haute qualité d'images réelles. Notre étude révèle que cet écart de domaine provient d'une différence de distribution des latents dans les différents processus de diffusion. Pour résoudre ce problème, nous proposons une nouvelle pipeline d'inférence appelée Real-world Image Variation by ALignment (RIVAL) qui utilise des modèles de diffusion pour générer des variations d'images à partir d'un seul exemplaire d'image. Notre pipeline améliore la qualité de génération des variations d'images en alignant le processus de génération d'images sur la chaîne d'inversion de l'image source. Plus précisément, nous démontrons qu'un alignement pas à pas de la distribution des latents est essentiel pour générer des variations de haute qualité. Pour y parvenir, nous concevons une injection d'auto-attention croisée entre images pour l'interaction des caractéristiques et une normalisation pas à pas de la distribution pour aligner les caractéristiques latentes. L'intégration de ces processus d'alignement dans un modèle de diffusion permet à RIVAL de générer des variations d'images de haute qualité sans optimisation supplémentaire des paramètres. Nos résultats expérimentaux montrent que notre approche proposée surpasse les méthodes existantes en termes de similarité de condition sémantique et de qualité perceptuelle. De plus, cette pipeline d'inférence généralisée peut être facilement appliquée à d'autres tâches de génération basées sur la diffusion, telles que la génération texte-à-image conditionnée par l'image et la réparation d'images basée sur des exemples.
Les grands modèles de langage (LLMs) peuvent apprendre à exécuter un large éventail de tâches de traitement du langage naturel à partir de seulement quelques exemples en contexte. Cependant, pour générer des chaînes de caractères à partir de langages hautement structurés (par exemple, l'analyse sémantique vers des langages spécifiques à un domaine complexes), il est difficile pour un LLM de généraliser à partir de seulement quelques exemples. Nous explorons l'incitation grammaticale comme une approche simple permettant aux LLMs d'utiliser des connaissances externes et des contraintes spécifiques à un domaine, exprimées à travers une grammaire en forme de Backus-Naur (BNF), lors de l'apprentissage en contexte. L'incitation grammaticale enrichit chaque exemple de démonstration avec une grammaire spécialisée qui est minimalement suffisante pour générer l'exemple de sortie particulier, où la grammaire spécialisée est un sous-ensemble de la grammaire complète du langage spécifique au domaine (DSL). Pour l'inférence, le LLM prédit d'abord une grammaire BNF étant donné une entrée de test, puis génère la sortie selon les règles de la grammaire. Les expériences montrent que l'incitation grammaticale peut permettre aux LLMs de performer de manière compétitive sur un ensemble diversifié de tâches de génération de DSL, incluant l'analyse sémantique (SMCalFlow, Overnight, GeoQuery), la planification PDDL, et même la génération de molécules (SMILES).
Nous présentons la méthode d'entraînement et les résultats de l'extension de PaLI-X, un modèle multilingue de vision et langage, à la fois en termes de taille des composants et de diversité des tâches d'entraînement. Notre modèle atteint de nouveaux niveaux de performance sur un large éventail de tâches variées et complexes, incluant plusieurs tâches de légendage et de question-réponse basées sur l'image, la compréhension de documents visuels et l'apprentissage en contexte (few-shot), ainsi que la détection d'objets, la réponse à des questions sur des vidéos et le légendage vidéo. PaLI-X repousse l'état de l'art sur la plupart des benchmarks de vision et langage considérés (plus de 25). Enfin, nous observons l'émergence de capacités telles que le comptage complexe et la détection d'objets multilingue, des tâches qui ne font pas explicitement partie du mélange d'entraînement.
Les grands modèles de diffusion ont connu un succès dans les tâches de synthèse texte-audio (T2A), mais ils souffrent souvent de problèmes courants tels que le désalignement sémantique et une faible cohérence temporelle en raison d'une compréhension limitée du langage naturel et d'une pénurie de données. De plus, les structures spatiales 2D largement utilisées dans les travaux T2A conduisent à une qualité audio insatisfaisante lors de la génération d'échantillons audio de longueur variable, car elles ne priorisent pas adéquatement l'information temporelle. Pour relever ces défis, nous proposons Make-an-Audio 2, une méthode T2A basée sur la diffusion latente qui s'appuie sur le succès de Make-an-Audio. Notre approche inclut plusieurs techniques pour améliorer l'alignement sémantique et la cohérence temporelle : Premièrement, nous utilisons des modèles de langage pré-entraînés (LLMs) pour analyser le texte en paires structurées <événement & ordre> afin de mieux capturer l'information temporelle. Nous introduisons également un autre encodeur de texte structuré pour aider à l'apprentissage de l'alignement sémantique pendant le processus de débruitage par diffusion. Pour améliorer les performances de génération de longueur variable et renforcer l'extraction de l'information temporelle, nous concevons un débruiteur de diffusion basé sur un Transformer à propagation avant. Enfin, nous utilisons des LLMs pour augmenter et transformer une grande quantité de données audio-étiquettes en ensembles de données audio-texte afin d'atténuer le problème de pénurie de données temporelles. Des expériences approfondies montrent que notre méthode surpasse les modèles de référence à la fois dans les métriques objectives et subjectives, et obtient des gains significatifs dans la compréhension de l'information temporelle, la cohérence sémantique et la qualité sonore.
Cet article présente une méthode permettant d'adapter rapidement des avatars 3D dynamiques à des descriptions textuelles arbitraires de styles nouveaux. Parmi les approches existantes pour la stylisation d'avatars, les méthodes d'optimisation directe peuvent produire d'excellents résultats pour des styles arbitraires, mais elles sont désagréablement lentes. De plus, elles nécessitent de recommencer le processus d'optimisation à zéro pour chaque nouvelle entrée. Les méthodes d'approximation rapide utilisant des réseaux feed-forward entraînés sur un grand ensemble de données d'images de style peuvent générer des résultats pour de nouvelles entrées rapidement, mais ont tendance à ne pas bien généraliser à des styles nouveaux et à manquer de qualité. Nous explorons donc une nouvelle approche, AlteredAvatar, qui combine ces deux méthodes en utilisant le cadre de méta-apprentissage. Dans la boucle interne, le modèle apprend à optimiser pour correspondre à un style cible unique de manière efficace ; tandis que dans la boucle externe, le modèle apprend à styliser efficacement pour de nombreux styles. Après l'entraînement, AlteredAvatar apprend une initialisation qui peut s'adapter rapidement en un petit nombre d'étapes de mise à jour à un style nouveau, qui peut être donné sous forme de texte, d'une image de référence, ou d'une combinaison des deux. Nous montrons qu'AlteredAvatar peut atteindre un bon équilibre entre vitesse, flexibilité et qualité, tout en maintenant la cohérence sur une large gamme de vues nouvelles et d'expressions faciales.
Nous proposons un algorithme automatisé pour tester la robustesse d'un modèle visuel entraîné en générant des images contrefactuelles guidées par le langage (LANCE). Notre méthode exploite les récents progrès en modélisation du langage à grande échelle et en édition d'images basée sur le texte pour enrichir un ensemble de tests IID avec une série d'images de test diversifiées, réalistes et difficiles, sans modifier les poids du modèle. Nous évaluons les performances d'un ensemble varié de modèles pré-entraînés sur nos données générées et observons des baisses de performances significatives et cohérentes. Nous analysons en outre la sensibilité des modèles à différents types de modifications, et démontrons son applicabilité pour révéler des biais au niveau des classes précédemment inconnus dans ImageNet.
Les problèmes impliquant des données géométriques apparaissent dans divers domaines, notamment la vision par ordinateur, la robotique, la chimie et la physique. Ces données peuvent prendre de nombreuses formes, telles que des points, des vecteurs directionnels, des plans ou des transformations, mais à ce jour, il n'existe pas d'architecture unique pouvant être appliquée à une telle variété de types géométriques tout en respectant leurs symétries. Dans cet article, nous présentons le Geometric Algebra Transformer (GATr), une architecture polyvalente pour les données géométriques. GATr représente les entrées, les sorties et les états cachés dans l'algèbre géométrique projective, qui offre une représentation efficace en espace vectoriel à 16 dimensions des objets géométriques courants ainsi que des opérateurs agissant sur eux. GATr est équivariant par rapport à E(3), le groupe de symétrie de l'espace euclidien en 3D. En tant que transformeur, GATr est évolutif, expressif et polyvalent. Dans des expériences de modélisation de systèmes à N corps et de planification robotique, GATr montre des améliorations significatives par rapport aux modèles de référence non géométriques.
Les modèles de diffusion représentent l'état de l'art actuel en génération d'images, synthétisant des images de haute qualité en décomposant le processus de génération en de nombreuses étapes de débruitage fines. Malgré leurs bonnes performances, les modèles de diffusion sont coûteux en calcul, nécessitant de nombreuses évaluations de fonctions neuronales (NFEs). Dans ce travail, nous proposons une méthode basée sur la diffusion capable de générer des images viables lorsqu'elle est arrêtée à des moments arbitraires avant son achèvement. En utilisant des modèles de diffusion pré-entraînés existants, nous montrons que le schéma de génération peut être recomposé en deux processus de diffusion imbriqués, permettant un raffinement itératif rapide d'une image générée. Nous utilisons cette approche de Diffusion Imbriquée pour observer le processus de génération et permettre une planification flexible basée sur la préférence instantanée de l'utilisateur. Dans des expériences sur ImageNet et la génération d'images à partir de texte avec Stable Diffusion, nous montrons, qualitativement et quantitativement, que la qualité de génération intermédiaire de notre méthode dépasse largement celle du modèle de diffusion original, tout en maintenant des résultats finaux de génération lente comparables.
La compréhension des publicités visuelles est une tâche cruciale avec de nombreuses applications pratiques. Bien que très complexe en raison de la diversité des scènes atypiques, des entités du monde réel et du raisonnement sur les textes intégrés, l'interprétation des publicités visuelles reste relativement peu explorée, en particulier à l'ère des modèles fondateurs vision-langage (VLMs) qui se distinguent par leur impressionnante généralisabilité et adaptabilité. Dans cet article, nous menons la première étude empirique sur la compréhension des publicités visuelles à travers le prisme des VLMs pré-entraînés. Nous établissons un benchmark et révélons les défis pratiques liés à l'adaptation de ces VLMs à la compréhension des publicités visuelles. Nous proposons une stratégie simple d'adaptation des caractéristiques pour fusionner efficacement les informations multimodales des publicités visuelles, en l'enrichissant avec des connaissances sur les entités du monde réel. Nous espérons que notre étude attirera davantage l'attention sur la compréhension des publicités visuelles, un domaine largement pertinent pour l'industrie publicitaire.