Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous concevons une nouvelle famille de réseaux neuronaux hybrides CNN-ViT, nommée FasterViT, axée sur un débit d'images élevé pour les applications de vision par ordinateur (CV). FasterViT combine les avantages de l'apprentissage rapide de représentations locales des CNN et des propriétés de modélisation globale des ViT. Notre nouvelle approche d'Attention Hiérarchique (HAT) décompose l'auto-attention globale à complexité quadratique en une attention multi-niveaux avec des coûts computationnels réduits. Nous tirons parti d'une auto-attention efficace basée sur des fenêtres. Chaque fenêtre a accès à des tokens porteurs dédiés qui participent à l'apprentissage de représentations locales et globales. À un niveau élevé, les auto-attentions globales permettent une communication inter-fenêtres efficace à moindre coût. FasterViT atteint un front de Pareto de pointe en termes de précision par rapport au débit d'images. Nous avons largement validé son efficacité sur diverses tâches de CV, y compris la classification, la détection d'objets et la segmentation. Nous montrons également que HAT peut être utilisé comme module plug-and-play pour les réseaux existants et les améliorer. Nous démontrons en outre des performances significativement plus rapides et plus précises que celles des concurrents pour les images à haute résolution. Le code est disponible à l'adresse https://github.com/NVlabs/FasterViT.
Les algorithmes d'entraînement, au sens large, constituent un élément essentiel de chaque pipeline d'apprentissage profond. Les améliorations des algorithmes d'entraînement qui accélèrent l'entraînement pour une grande variété de charges de travail (par exemple, des règles de mise à jour plus efficaces, des protocoles de réglage, des calendriers de taux d'apprentissage ou des schémas de sélection de données) pourraient permettre de gagner du temps, d'économiser des ressources de calcul et de conduire à des modèles meilleurs et plus précis. Malheureusement, en tant que communauté, nous sommes actuellement incapables d'identifier de manière fiable les améliorations des algorithmes d'entraînement, ou même de déterminer l'algorithme d'entraînement de pointe. Dans ce travail, en utilisant des expériences concrètes, nous soutenons que les progrès réels dans l'accélération de l'entraînement nécessitent de nouveaux benchmarks qui résolvent trois défis fondamentaux auxquels sont confrontées les comparaisons empiriques des algorithmes d'entraînement : (1) comment décider quand l'entraînement est terminé et mesurer précisément le temps d'entraînement, (2) comment gérer la sensibilité des mesures aux détails exacts de la charge de travail, et (3) comment comparer équitablement les algorithmes qui nécessitent un réglage des hyperparamètres. Pour relever ces défis, nous introduisons un nouveau benchmark compétitif basé sur le temps jusqu'au résultat, utilisant plusieurs charges de travail exécutées sur du matériel fixe, le benchmark AlgoPerf : Algorithmes d'Entraînement. Notre benchmark inclut un ensemble de variantes de charges de travail qui permettent de détecter les soumissions de benchmark plus robustes aux changements de charge de travail que les méthodes largement utilisées actuellement. Enfin, nous évaluons des soumissions de base construites en utilisant divers optimiseurs représentant les pratiques actuelles, ainsi que d'autres optimiseurs qui ont récemment retenu l'attention dans la littérature. Ces résultats de base démontrent collectivement la faisabilité de notre benchmark, montrent que des écarts non négligeables existent entre les méthodes, et établissent un état de l'art provisoire que les futures soumissions de benchmark devront essayer de surpasser.
Les grands modèles de diffusion texte-image possèdent des capacités impressionnantes pour générer des images photoréalistes à partir de descriptions textuelles. La question de savoir comment guider ou contrôler efficacement ces modèles puissants pour accomplir différentes tâches en aval devient un problème ouvert important. Pour relever ce défi, nous introduisons une méthode de réglage fin basée sur des principes -- le Réglage Fin Orthogonal (Orthogonal Finetuning, OFT), pour adapter les modèles de diffusion texte-image à des tâches en aval. Contrairement aux méthodes existantes, OFT peut préserver de manière prouvée l'énergie hypersphérique, qui caractérise la relation par paires des neurones sur l'hypersphère unitaire. Nous constatons que cette propriété est cruciale pour préserver la capacité de génération sémantique des modèles de diffusion texte-image. Pour améliorer la stabilité du réglage fin, nous proposons en outre le Réglage Fin Orthogonal Contraint (Constrained Orthogonal Finetuning, COFT), qui impose une contrainte de rayon supplémentaire à l'hypersphère. Plus précisément, nous considérons deux tâches importantes de réglage fin texte-image : la génération pilotée par un sujet, où l'objectif est de générer des images spécifiques à un sujet à partir de quelques images de ce sujet et d'une description textuelle, et la génération contrôlée, où l'objectif est de permettre au modèle de prendre en compte des signaux de contrôle supplémentaires. Nous démontrons empiriquement que notre cadre OFT surpasse les méthodes existantes en termes de qualité de génération et de vitesse de convergence.
Les grands modèles de langage (LLMs) existants ne peuvent traiter que des entrées de taille fixe en raison de la limite de longueur des entrées, ce qui les empêche d'exploiter des informations contextuelles riches provenant d'entrées passées. Pour remédier à cela, nous proposons un cadre, Language Models Augmented with Long-Term Memory (LongMem), qui permet aux LLMs de mémoriser un historique long. Nous concevons une architecture de réseau découplée innovante, avec le modèle de base original figé en tant qu'encodeur de mémoire et un réseau latéral résiduel adaptatif en tant que récupérateur et lecteur de mémoire. Une telle conception de mémoire découplée permet de mettre en cache et de mettre à jour facilement des contextes passés à long terme pour la récupération de mémoire sans souffrir de l'obsolescence de la mémoire. Renforcé par un entraînement d'adaptation augmenté par la mémoire, LongMem peut ainsi mémoriser un contexte passé long et utiliser une mémoire à long terme pour la modélisation du langage. Le module de récupération de mémoire proposé peut gérer un contexte de longueur illimitée dans sa banque de mémoire pour bénéficier à diverses tâches en aval. Typiquement, LongMem peut étendre la mémoire à long terme à 65 000 tokens et ainsi mettre en cache de nombreux exemples de démonstration supplémentaires en tant que mémoire à long terme pour l'apprentissage en contexte. Les expériences montrent que notre méthode surpasse les modèles à contexte long sur ChapterBreak, un benchmark exigeant de modélisation de contexte long, et réalise des améliorations remarquables sur l'apprentissage en contexte augmenté par la mémoire par rapport aux LLMs. Les résultats démontrent que la méthode proposée est efficace pour aider les modèles de langage à mémoriser et à utiliser des contenus à long terme. Notre code est open-source à l'adresse https://aka.ms/LongMem.
Nous présentons Face0, une nouvelle méthode permettant de conditionner instantanément un modèle de génération d'images à partir de texte sur un visage, en temps réel, sans aucune procédure d'optimisation telle que le fine-tuning ou les inversions. Nous enrichissons un jeu de données d'images annotées avec des embeddings des visages inclus et entraînons un modèle de génération d'images sur ce jeu de données augmenté. Une fois entraîné, notre système est pratiquement identique au modèle de base lors de l'inférence, et est donc capable de générer des images, à partir d'une image de visage fournie par l'utilisateur et d'une invite, en quelques secondes seulement. Notre méthode produit des résultats satisfaisants, est remarquablement simple, extrêmement rapide, et dote le modèle sous-jacent de nouvelles capacités, comme le contrôle des images générées à la fois par le texte ou par la manipulation directe des embeddings de visage en entrée. De plus, lorsqu'on utilise un vecteur aléatoire fixe au lieu d'un embedding de visage provenant d'une image fournie par l'utilisateur, notre méthode résout essentiellement le problème de la génération cohérente de personnages à travers les images. Enfin, bien que nécessitant des recherches supplémentaires, nous espérons que notre méthode, qui découple les biais textuels du modèle de ses biais sur les visages, pourrait constituer un pas vers l'atténuation de certains biais dans les futurs modèles de génération d'images à partir de texte.
Nous présentons Cap3D, une approche automatique pour générer des descriptions textuelles d'objets 3D. Cette méthode exploite des modèles préentraînés issus de la génération de légendes d'images, de l'alignement image-texte et de modèles de langage (LLM) pour consolider les descriptions issues de multiples vues d'un objet 3D, évitant ainsi le processus long et coûteux de l'annotation manuelle. Nous appliquons Cap3D au récent ensemble de données 3D à grande échelle, Objaverse, produisant ainsi 660 000 paires 3D-texte. Notre évaluation, réalisée à l'aide de 41 000 annotations humaines provenant du même ensemble de données, montre que Cap3D surpasse les descriptions rédigées par des humains en termes de qualité, de coût et de rapidité. Grâce à une ingénierie de prompts efficace, Cap3D rivalise avec les performances humaines pour générer des descriptions géométriques sur 17 000 annotations collectées à partir du jeu de données ABO. Enfin, nous affinons des modèles de génération de texte-à-3D sur les descriptions de Cap3D et celles rédigées par des humains, et démontrons que Cap3D surpasse ces dernières ; nous comparons également Cap3D aux modèles de pointe, notamment Point-E, Shape-E et DreamFusion.
Les modèles de langage ont été utilisés avec succès pour modéliser des signaux naturels, tels que les images, la parole et la musique. Un élément clé de ces modèles est un algorithme de compression neuronale de haute qualité capable de compresser des signaux naturels de haute dimension en tokens discrets de dimension inférieure. Dans cette optique, nous introduisons un algorithme universel de compression audio neuronale à haute fidélité qui permet une compression d'environ 90x d'audio à 44,1 KHz en tokens avec une bande passante de seulement 8 kbps. Nous y parvenons en combinant des avancées dans la génération audio haute fidélité avec des techniques de quantification vectorielle améliorées issues du domaine de l'image, ainsi que des fonctions de perte adverses et de reconstruction optimisées. Nous compressons tous les domaines (parole, environnement, musique, etc.) avec un seul modèle universel, le rendant largement applicable à la modélisation générative de tout type d'audio. Nous comparons notre méthode à d'autres algorithmes de compression audio concurrents et constatons qu'elle les surpasse significativement. Nous fournissons des analyses approfondies pour chaque choix de conception, ainsi que le code open-source et les poids des modèles entraînés. Nous espérons que notre travail pourra poser les bases de la prochaine génération de modélisation audio haute fidélité.
Nous identifions des dynamiques d'apprentissage incrémental dans les transformateurs, où la différence entre les poids entraînés et les poids initiaux augmente progressivement en rang. Nous prouvons rigoureusement que cela se produit sous les hypothèses simplificatrices de matrices de poids diagonales et d'une petite initialisation. Nos expériences soutiennent la théorie et montrent également que ce phénomène peut se produire en pratique sans les hypothèses simplificatrices.
Les modèles contrastifs image-texte tels que CLIP constituent les éléments de base de nombreux systèmes à la pointe de la technologie. Bien qu'ils excellent à reconnaître des concepts génériques courants, ils peinent encore sur des entités fines qui sont rares, voire absentes du jeu de données de pré-entraînement. Ainsi, un ingrédient clé de leur succès a été l'utilisation de données de pré-entraînement à grande échelle et soigneusement sélectionnées, visant à élargir l'ensemble des concepts qu'ils peuvent mémoriser lors de cette étape. Dans ce travail, nous explorons une alternative à l'encodage direct des connaissances fines dans les paramètres du modèle : nous entraînons plutôt le modèle à récupérer ces connaissances à partir d'une mémoire externe. Plus précisément, nous proposons d'équiper les modèles vision-texte existants de la capacité à affiner leur plongement avec des informations récupérées de manière croisée à partir d'une mémoire au moment de l'inférence, ce qui améliore considérablement leurs prédictions en zero-shot. De manière remarquable, nous montrons que cela peut être réalisé avec un transformateur de fusion léger et monocouche, superposé à un CLIP figé. Nos expériences valident que notre entraînement contrastif amélioré par la récupération (RECO) améliore substantiellement les performances de CLIP sur plusieurs tâches fines et complexes : par exemple, +10,9 sur Stanford Cars, +10,2 sur CUB-2011 et +7,3 sur le récent benchmark OVEN.
Les méthodes d'extraction d'informations de pointe sont limitées par les erreurs de reconnaissance optique de caractères (OCR). Elles fonctionnent bien pour le texte imprimé dans des documents de type formulaire, mais les documents manuscrits non structurés restent un défi. L'adaptation des modèles existants à des données d'entraînement spécifiques à un domaine est assez coûteuse, en raison de deux facteurs : 1) la disponibilité limitée des documents spécifiques au domaine (tels que les ordonnances manuscrites, les notes de laboratoire, etc.), et 2) les annotations deviennent encore plus difficiles car il faut des connaissances spécifiques au domaine pour décoder les images de documents manuscrits illisibles. Dans ce travail, nous nous concentrons sur le problème complexe de l'extraction des noms de médicaments à partir d'ordonnances manuscrites en utilisant uniquement des données faiblement étiquetées. Les données consistent en des images accompagnées de la liste des noms de médicaments qu'elles contiennent, mais pas de leur localisation dans l'image. Nous résolvons ce problème en identifiant d'abord les régions d'intérêt, c'est-à-dire les lignes de médicaments, à partir de simples étiquettes faibles, puis en injectant un modèle de langage spécifique aux médicaments appris uniquement à partir de données générées de manière synthétique. Par rapport aux méthodes de pointe disponibles sur le marché, notre approche est plus de 2,5 fois plus performante dans l'extraction des noms de médicaments à partir d'ordonnances.