Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion texte-image ont réalisé un bond remarquable en capacités au cours des dernières années, permettant une synthèse d'images de haute qualité et diversifiée à partir d'une invite textuelle. Cependant, même les modèles les plus avancés peinent souvent à suivre précisément toutes les instructions de leurs invites. La grande majorité de ces modèles sont entraînés sur des ensembles de données constitués de paires (image, légende) où les images proviennent souvent du web, et les légendes sont leurs textes alternatifs HTML. Un exemple notable est le jeu de données LAION, utilisé par Stable Diffusion et d'autres modèles. Dans ce travail, nous observons que ces légendes sont souvent de faible qualité, et nous soutenons que cela affecte significativement la capacité du modèle à comprendre les nuances sémantiques des invites textuelles. Nous montrons qu'en réétiquetant le corpus avec un modèle de légendage automatique spécialisé et en entraînant un modèle texte-image sur le jeu de données relégendé, le modèle en bénéficie substantiellement à tous les niveaux. Premièrement, en termes de qualité globale de l'image : par exemple, un FID de 14,84 contre une base de référence de 17,87, et une amélioration de 64,3 % dans la génération fidèle d'images selon l'évaluation humaine. Deuxièmement, en termes d'alignement sémantique, par exemple, une précision des objets sémantiques de 84,34 contre 78,90, des erreurs d'alignement de comptage de 1,32 contre 1,44 et un alignement positionnel de 62,42 contre 57,60. Nous analysons diverses méthodes pour réétiqueter le corpus et fournissons des preuves que cette technique, que nous appelons RECAP, réduit à la fois l'écart entre l'entraînement et l'inférence et fournit au modèle plus d'informations par exemple, augmentant l'efficacité de l'échantillon et permettant au modèle de mieux comprendre les relations entre les légendes et les images.
Nous constituons un ensemble de données d'images sous licence Creative Commons (CC), que nous utilisons pour entraîner une série de modèles de diffusion ouverts qui sont qualitativement compétitifs avec Stable Diffusion 2 (SD2). Cette tâche présente deux défis majeurs : (1) les images CC haute résolution ne disposent pas des légendes nécessaires pour entraîner des modèles génératifs texte-à-image ; (2) les images CC sont relativement rares. Pour relever ces défis, nous utilisons une technique intuitive de transfert d'apprentissage pour produire un ensemble de légendes synthétiques de haute qualité associées à des images CC soigneusement sélectionnées. Nous développons ensuite une méthode d'entraînement efficace en termes de données et de calcul, nécessitant seulement 3 % des données LAION-2B utilisées pour entraîner les modèles SD2 existants, tout en obtenant une qualité comparable. Ces résultats indiquent que nous disposons d'un nombre suffisant d'images CC (~70 millions) pour entraîner des modèles de haute qualité. Notre méthode d'entraînement intègre également diverses optimisations permettant d'atteindre une accélération de l'entraînement d'environ 3X, facilitant ainsi une itération rapide des modèles. Nous exploitons cette méthode pour entraîner plusieurs modèles texte-à-image de haute qualité, que nous nommons la famille CommonCanvas. Notre plus grand modèle atteint des performances comparables à SD2 lors d'une évaluation humaine, bien qu'il ait été entraîné sur notre ensemble de données CC, qui est nettement plus petit que LAION, et en utilisant des légendes synthétiques pour l'entraînement. Nous mettons à disposition nos modèles, données et code à l'adresse suivante : https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
Nous présentons DreamCraft3D, une méthode hiérarchique de génération de contenu 3D qui produit des objets 3D de haute fidélité et cohérents. Nous abordons ce problème en exploitant une image de référence 2D pour guider les étapes de sculpture de la géométrie et d'amélioration de la texture. Un point central de ce travail est de résoudre le problème de cohérence rencontré par les méthodes existantes. Pour sculpter des géométries qui se rendent de manière cohérente, nous effectuons un échantillonnage par distillation de score via un modèle de diffusion dépendant de la vue. Ce préalable 3D, accompagné de plusieurs stratégies d'entraînement, priorise la cohérence géométrique mais compromet la fidélité de la texture. Nous proposons en outre une Distillation de Score par Amorçage pour spécifiquement améliorer la texture. Nous entraînons un modèle de diffusion personnalisé, Dreambooth, sur les rendus augmentés de la scène, lui conférant une connaissance 3D de la scène en cours d'optimisation. La distillation de score à partir de ce préalable de diffusion conscient de la 3D fournit un guidage cohérent en vue pour la scène. Notamment, grâce à une optimisation alternée du préalable de diffusion et de la représentation 3D de la scène, nous obtenons des améliorations mutuellement renforcées : la scène 3D optimisée aide à entraîner le modèle de diffusion spécifique à la scène, qui offre un guidage de plus en plus cohérent en vue pour l'optimisation 3D. L'optimisation est ainsi amorcée et conduit à une amélioration substantielle de la texture. Avec des préalables 3D adaptés tout au long de la génération hiérarchique, DreamCraft3D génère des objets 3D cohérents avec des rendus photoréalistes, faisant progresser l'état de l'art dans la génération de contenu 3D. Le code est disponible à l'adresse https://github.com/deepseek-ai/DreamCraft3D.
Les architectures Mixture-of-Experts (MoE) offrent une solution générale aux coûts d'inférence élevés des grands modèles de langage (LLMs) grâce à un routage parcimonieux, permettant d'obtenir des modèles plus rapides et plus précis, au prix d'un nombre massif de paramètres. Par exemple, le modèle SwitchTransformer-c2048 possède 1,6 trillion de paramètres, nécessitant 3,2 To de mémoire d'accélérateur pour fonctionner efficacement, ce qui rend le déploiement pratique difficile et coûteux. Dans cet article, nous présentons une solution à ce problème de mémoire, sous la forme d'un nouveau cadre de compression et d'exécution appelé QMoE. Plus précisément, QMoE comprend un algorithme scalable qui compresse avec précision les MoE à trillion de paramètres à moins de 1 bit par paramètre, dans un format personnalisé co-conçu avec des noyaux de décodage GPU sur mesure pour faciliter une inférence compressée efficace de bout en bout, avec des surcharges d'exécution mineures par rapport à une exécution non compressée. Concrètement, QMoE peut compresser le modèle SwitchTransformer-c2048 à 1,6 trillion de paramètres à moins de 160 Go (compression de 20x, 0,8 bit par paramètre) avec une perte de précision minime, en moins d'une journée sur un seul GPU. Cela permet, pour la première fois, l'exécution d'un modèle à trillion de paramètres sur du matériel abordable, comme un seul serveur équipé de 4x NVIDIA A6000 ou 8x NVIDIA 3090 GPUs, avec une surcharge d'exécution inférieure à 5 % par rapport à une inférence non compressée idéale. Le code source et les modèles compressés sont disponibles sur github.com/IST-DASLab/qmoe.
Dans cet article, nous évaluons différentes capacités de GPT-4V, notamment la compréhension visuelle, la compréhension linguistique, la résolution de puzzles visuels, et la compréhension d'autres modalités telles que la profondeur, l'infrarouge, la vidéo et l'audio. Pour estimer les performances de GPT-4V, nous avons manuellement construit 656 instances de test et soigneusement évalué les résultats de GPT-4V. Les points forts de nos découvertes sont les suivants : (1) GPT-4V montre des performances impressionnantes sur des benchmarks visuels centrés sur l'anglais, mais échoue à reconnaître des textes chinois simples dans les images ; (2) GPT-4V présente un comportement de refus incohérent lorsqu'il répond à des questions liées à des traits sensibles tels que le genre, la race et l'âge ; (3) GPT-4V obtient de moins bons résultats que GPT-4 (API) sur des tâches de compréhension linguistique, y compris des benchmarks généraux de compréhension linguistique et des benchmarks d'évaluation des connaissances de bon sens visuel ; (4) L'incitation en few-shot peut améliorer les performances de GPT-4V à la fois en compréhension visuelle et en compréhension linguistique ; (5) GPT-4V a du mal à trouver les nuances entre deux images similaires et à résoudre des puzzles mathématiques visuels simples ; (6) GPT-4V montre des performances non négligeables sur des tâches de modalités similaires à l'image, comme la vidéo et l'infrarouge. Nos résultats expérimentaux révèlent les capacités et les limites de GPT-4V, et nous espérons que notre article pourra fournir des insights pour l'application et la recherche sur GPT-4V.
Dans ce travail, nous présentons Wonder3D, une méthode novatrice pour générer efficacement des maillages texturés de haute fidélité à partir d'images monoscopiques. Les méthodes récentes basées sur le Score Distillation Sampling (SDS) ont montré leur potentiel pour reconstruire la géométrie 3D à partir de modèles de diffusion 2D, mais elles souffrent généralement d'une optimisation longue par forme et d'une géométrie incohérente. En revanche, certaines approches produisent directement des informations 3D via des inférences réseau rapides, mais leurs résultats sont souvent de faible qualité et manquent de détails géométriques. Pour améliorer de manière holistique la qualité, la cohérence et l'efficacité des tâches de conversion d'image en 3D, nous proposons un modèle de diffusion inter-domaines qui génère des cartes de normales multi-vues et les images couleur correspondantes. Pour garantir la cohérence, nous utilisons un mécanisme d'attention inter-domaines multi-vues qui facilite l'échange d'informations entre les vues et les modalités. Enfin, nous introduisons un algorithme de fusion de normales prenant en compte la géométrie, qui extrait des surfaces de haute qualité à partir des représentations 2D multi-vues. Nos évaluations approfondies démontrent que notre méthode atteint des résultats de reconstruction de haute qualité, une généralisation robuste et une efficacité raisonnablement bonne par rapport aux travaux antérieurs.
De nombreux chercheurs pensent que les réseaux convolutifs (ConvNets) obtiennent de bons résultats sur des ensembles de données de petite ou moyenne taille, mais ne sont pas compétitifs par rapport aux Vision Transformers lorsqu'ils ont accès à des ensembles de données à l'échelle du web. Nous remettons en question cette croyance en évaluant une architecture ConvNet performante pré-entraînée sur JFT-4B, un vaste ensemble de données d'images étiquetées souvent utilisé pour l'entraînement de modèles de base. Nous considérons des budgets de calcul pour le pré-entraînement allant de 0,4k à 110k heures de calcul sur des cœurs TPU-v4, et entraînons une série de réseaux de profondeur et de largeur croissantes issus de la famille de modèles NFNet. Nous observons une loi d'échelle log-log entre la perte sur l'ensemble de validation et le budget de calcul. Après un ajustement fin sur ImageNet, les NFNets égalent les performances rapportées des Vision Transformers avec des budgets de calcul comparables. Notre modèle le plus performant après ajustement fin atteint une précision Top-1 de 90,4 %.
Nous proposons LLM-FP4 pour la quantification des poids et des activations dans les grands modèles de langage (LLM) jusqu'à des valeurs flottantes sur 4 bits, de manière post-entraînement. Les solutions existantes de quantification post-entraînement (PTQ) sont principalement basées sur des entiers et peinent à atteindre des largeurs de bits inférieures à 8 bits. Par rapport à la quantification entière, la quantification en virgule flottante (FP) est plus flexible et peut mieux gérer les distributions à longue traîne ou en forme de cloche, devenant ainsi un choix par défaut sur de nombreuses plateformes matérielles. Une caractéristique de la quantification FP est que ses performances dépendent largement du choix des bits d'exposant et de la plage de découpage. À cet égard, nous construisons une base solide pour FP-PTQ en recherchant les paramètres de quantification optimaux. De plus, nous observons un motif de variance inter-canal élevée et de variance intra-canal faible dans les distributions d'activation, ce qui augmente la difficulté de quantification des activations. Nous constatons que ce motif est cohérent à travers un spectre de modèles de transformateurs conçus pour diverses tâches, tels que les LLM, BERT et les modèles Vision Transformer. Pour résoudre ce problème, nous proposons une quantification des activations par canal et montrons que ces facteurs d'échelle supplémentaires peuvent être reparamétrés comme des biais exponentiels des poids, engendrant un coût négligeable. Notre méthode, pour la première fois, peut quantifier à la fois les poids et les activations du LLaMA-13B à seulement 4 bits et atteint un score moyen de 63,1 sur les tâches de raisonnement zero-shot de bon sens, ce qui est seulement 5,8 points inférieur au modèle en pleine précision, surpassant significativement l'état de l'art précédent de 12,7 points. Le code est disponible à l'adresse : https://github.com/nbasyl/LLM-FP4.
Bien que les grands modèles de langage (LLM) soient largement déployés, les données utilisées pour les entraîner sont rarement divulguées. Étant donné l'échelle incroyable de ces données, pouvant atteindre des milliers de milliards de tokens, il est presque certain qu'elles incluent des textes potentiellement problématiques tels que des matériaux protégés par le droit d'auteur, des informations personnelles identifiables et des données de test pour des benchmarks de référence largement rapportés. Cependant, nous n'avons actuellement aucun moyen de savoir quelles données de ces types sont incluses ou dans quelles proportions. Dans cet article, nous étudions le problème de la détection des données de pré-entraînement : étant donné un texte et un accès en boîte noire à un LLM sans connaître les données de pré-entraînement, pouvons-nous déterminer si le modèle a été entraîné sur le texte fourni ? Pour faciliter cette étude, nous introduisons un benchmark dynamique, WIKIMIA, qui utilise des données créées avant et après l'entraînement du modèle pour soutenir une détection de vérité de référence. Nous introduisons également une nouvelle méthode de détection, Min-K% Prob, basée sur une hypothèse simple : un exemple non vu est susceptible de contenir quelques mots aberrants avec des probabilités faibles sous le LLM, tandis qu'un exemple vu est moins susceptible d'avoir des mots avec de si faibles probabilités. Min-K% Prob peut être appliquée sans aucune connaissance du corpus de pré-entraînement ou d'un entraînement supplémentaire, se démarquant des méthodes de détection précédentes qui nécessitent l'entraînement d'un modèle de référence sur des données similaires aux données de pré-entraînement. De plus, nos expériences démontrent que Min-K% Prob obtient une amélioration de 7,4 % sur WIKIMIA par rapport à ces méthodes précédentes. Nous appliquons Min-K% Prob à deux scénarios réels, la détection de livres protégés par le droit d'auteur et la détection d'exemples contaminés en aval, et constatons qu'il s'agit d'une solution constamment efficace.
Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer représentent des avancées pionnières dans de nombreuses tâches de traitement du langage naturel. Cependant, leurs capacités exceptionnelles sont limitées par la fenêtre de contexte prédéfinie du Transformer. Les méthodes de mise à l'échelle des Position Embeddings (PE), bien qu'efficaces pour étendre la fenêtre de contexte à une longueur spécifique, présentent soit des limitations notables dans leurs capacités d'extrapolation, soit un sacrifice partiel des performances au sein de la fenêtre de contexte. Les méthodes d'extrapolation de longueur, bien que théoriquement capables d'étendre la fenêtre de contexte au-delà de la longueur des séquences d'entraînement, sous-performent souvent dans les applications pratiques à contexte long. Pour relever ces défis, nous proposons l'Extrapolation Continue de Longueur (CLEX) pour les LLMs. Nous généralisons les approches de mise à l'échelle des PE pour modéliser la dynamique continue à l'aide d'équations différentielles ordinaires sur le facteur de mise à l'échelle de longueur, surmontant ainsi les contraintes des méthodes actuelles de mise à l'échelle des PE conçues pour des longueurs spécifiques. De plus, en étendant la dynamique à des longueurs de contexte souhaitées au-delà de la longueur des séquences d'entraînement, CLEX facilite l'extrapolation de longueur avec des performances impressionnantes dans les tâches pratiques. Nous démontrons que CLEX peut être intégré de manière transparente dans les LLMs équipés de Rotary Position Embedding, tels que LLaMA et GPT-NeoX, avec un impact négligeable sur la latence d'entraînement et d'inférence. Les résultats expérimentaux révèlent que CLEX peut étendre efficacement la fenêtre de contexte à plus de 4 fois ou presque 8 fois la longueur d'entraînement, sans détérioration des performances. En outre, lorsqu'il est évalué sur le benchmark pratique LongBench, notre modèle entraîné sur une longueur de 4k présente des performances compétitives par rapport aux modèles open-source de pointe entraînés sur des longueurs de contexte allant jusqu'à 32k.
Maintenir les grands modèles de fond à jour avec les dernières données est intrinsèquement coûteux. Pour éviter les coûts prohibitifs d'un réentraînement constant, il est impératif de former continuellement ces modèles. Ce problème est exacerbé par l'absence de benchmarks ou de références à grande échelle pour l'apprentissage continu. Nous introduisons le premier ensemble de benchmarks web-scale Time-Continual (TiC) pour l'entraînement de modèles vision-langage : TiC-DataCompt, TiC-YFCC et TiC-RedCaps, comprenant plus de 12,7 milliards de paires image-texte datées couvrant 9 ans (2014-2022). Nous utilisons d'abord nos benchmarks pour concevoir diverses évaluations dynamiques afin de mesurer la robustesse temporelle des modèles existants. Nous montrons que CLIP d'OpenAI (entraîné sur des données jusqu'en 2020) perd environ 8 % de précision en zero-shot sur notre tâche de récupération conçue pour 2021-2022 par rapport aux modèles plus récemment entraînés dans le référentiel OpenCLIP. Nous étudions ensuite comment entraîner efficacement les modèles sur des données temporellement continues. Nous démontrons qu'une approche simple basée sur la répétition, qui poursuit l'entraînement à partir du dernier point de contrôle et rejoue les anciennes données, réduit le calcul par un facteur de 2,5 par rapport à la pratique standard de réentraînement à partir de zéro.
TD-MPC est un algorithme d'apprentissage par renforcement (RL) basé sur un modèle qui effectue une optimisation locale de trajectoire dans l'espace latent d'un modèle du monde implicite (sans décodeur) appris. Dans ce travail, nous présentons TD-MPC2 : une série d'améliorations apportées à l'algorithme TD-MPC. Nous démontrons que TD-MPC2 surpasse significativement les méthodes de référence sur 104 tâches de RL en ligne couvrant 4 domaines de tâches variés, obtenant des résultats constamment solides avec un seul ensemble d'hyperparamètres. Nous montrons en outre que les capacités de l'agent augmentent avec la taille du modèle et des données, et parvenons à entraîner un seul agent de 317 millions de paramètres pour exécuter 80 tâches à travers plusieurs domaines, incarnations et espaces d'action. Nous concluons par un compte rendu des leçons, opportunités et risques associés aux agents TD-MPC2 de grande taille. Explorez des vidéos, modèles, données, code et plus sur https://nicklashansen.github.io/td-mpc2.
La synthèse d'images en temps réel à partir de nouvelles vues sur des appareils mobiles est difficile en raison de la puissance de calcul et du stockage limités. L'utilisation de méthodes de rendu volumétrique, telles que NeRF et ses dérivés, sur des appareils mobiles n'est pas adaptée en raison du coût de calcul élevé du rendu volumétrique. D'autre part, les avancées récentes dans les représentations de champs lumineux neuronaux ont montré des résultats prometteurs pour la synthèse de vues en temps réel sur des appareils mobiles. Les méthodes de champs lumineux neuronaux apprennent une correspondance directe entre une représentation de rayon et la couleur du pixel. Le choix actuel de représentation de rayon est soit l'échantillonnage stratifié de rayons, soit les coordonnées de Plücker, négligeant la représentation classique de la dalle lumineuse (deux plans), qui est la représentation préférée pour interpoler entre les vues d'un champ lumineux. Dans ce travail, nous montrons que l'utilisation de la représentation de la dalle lumineuse est une représentation efficace pour l'apprentissage d'un champ lumineux neuronal. Plus important encore, il s'agit d'une représentation de rayon de dimension inférieure, nous permettant d'apprendre l'espace de rayons 4D à l'aide de grilles de caractéristiques qui sont considérablement plus rapides à entraîner et à rendre. Bien que principalement conçue pour des vues frontales, nous montrons que la représentation de la dalle lumineuse peut être étendue à des scènes non frontales en utilisant une stratégie de division pour mieux régner. Notre méthode offre une qualité de rendu supérieure par rapport aux méthodes précédentes de champs lumineux et atteint un compromis significativement amélioré entre la qualité de rendu et la vitesse.