Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article révèle une caractéristique linéaire inédite propre aux décodeurs de type transformer, incluant des modèles tels que GPT, LLaMA, OPT, BLOOM et d'autres. Nous analysons les transformations d'embeddings entre les couches séquentielles, mettant en évidence une relation linéaire quasi parfaite (score de similarité de Procrustes de 0,99). Cependant, la linéarité diminue lorsque la composante résiduelle est supprimée en raison d'une norme de sortie systématiquement faible de la couche transformer. Nos expériences montrent que la suppression ou l'approximation linéaire de certains des blocs les plus linéaires des transformers n'affecte pas significativement la perte ou les performances du modèle. Par ailleurs, dans nos expériences de pré-entraînement sur des modèles plus petits, nous introduisons une régularisation basée sur la similarité cosinus, visant à réduire la linéarité des couches. Cette régularisation améliore les métriques de performance sur des benchmarks comme Tiny Stories et SuperGLUE, tout en réduisant efficacement la linéarité des modèles. Cette étude remet en question la compréhension actuelle des architectures transformer, suggérant que leur fonctionnement pourrait être plus linéaire que ce qui était précédemment supposé.
La mise en cache clé-valeur (KV) joue un rôle essentiel dans l'accélération du décodage pour les grands modèles de langage (LLM) autoregressifs basés sur les transformateurs. Cependant, la quantité de mémoire nécessaire pour stocker le cache KV peut devenir prohibitive pour des longueurs de séquence importantes et des tailles de lot élevées. Depuis l'invention du transformateur, deux des interventions les plus efficaces découvertes pour réduire la taille du cache KV ont été l'attention multi-requête (MQA) et sa généralisation, l'attention par requêtes groupées (GQA). MQA et GQA modifient toutes deux la conception du bloc d'attention afin que plusieurs têtes de requête puissent partager une seule tête clé/valeur, réduisant ainsi le nombre de têtes clé/valeur distinctes d'un facteur important tout en ne dégradant que minimalement la précision. Dans cet article, nous montrons qu'il est possible d'aller encore plus loin avec l'attention multi-requête en partageant également les têtes clé et valeur entre les couches adjacentes, ce qui donne lieu à une nouvelle conception d'attention que nous appelons l'attention inter-couches (CLA). Avec CLA, nous constatons qu'il est possible de réduire la taille du cache KV d'un facteur supplémentaire de 2 tout en maintenant une précision presque identique à celle de MQA non modifiée. Dans des expériences de formation de modèles de 1 milliard et 3 milliards de paramètres à partir de zéro, nous démontrons que CLA offre une amélioration de Pareto par rapport aux compromis mémoire/précision possibles avec la MQA traditionnelle, permettant ainsi une inférence avec des longueurs de séquence plus longues et des tailles de lot plus importantes que ce qui serait autrement possible.
Les modèles du monde constituent une approche prometteuse pour entraîner des agents d'apprentissage par renforcement de manière sûre et efficace en termes d'échantillons. Les modèles du monde récents opèrent principalement sur des séquences de variables latentes discrètes pour modéliser la dynamique de l'environnement. Cependant, cette compression en une représentation discrète compacte peut ignorer des détails visuels importants pour l'apprentissage par renforcement. Parallèlement, les modèles de diffusion sont devenus une approche dominante pour la génération d'images, remettant en question les méthodes bien établies qui modélisent des latents discrets. Motivés par ce changement de paradigme, nous introduisons DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agent d'apprentissage par renforcement entraîné dans un modèle du monde basé sur la diffusion. Nous analysons les choix de conception clés nécessaires pour rendre la diffusion adaptée à la modélisation du monde, et démontrons comment des détails visuels améliorés peuvent conduire à une meilleure performance de l'agent. DIAMOND atteint un score normalisé humain moyen de 1,46 sur le benchmark compétitif Atari 100k ; un nouveau record pour les agents entraînés entièrement dans un modèle du monde. Pour favoriser les recherches futures sur la diffusion pour la modélisation du monde, nous publions notre code, nos agents et nos modèles du monde jouables sur https://github.com/eloialonso/diamond.
Les méthodes actuelles de réincarnation et d'échange de visages reposent principalement sur des architectures GAN, mais l'attention récente s'est portée sur les modèles de diffusion pré-entraînés pour leurs capacités de génération supérieures. Cependant, l'entraînement de ces modèles est gourmand en ressources, et les résultats n'ont pas encore atteint des niveaux de performance satisfaisants. Pour résoudre ce problème, nous présentons Face-Adapter, un adaptateur efficace et performant conçu pour l'édition de visages de haute précision et haute fidélité pour les modèles de diffusion pré-entraînés. Nous observons que les tâches de réincarnation et d'échange de visages impliquent essentiellement des combinaisons de structure cible, d'identité (ID) et d'attributs. Notre objectif est de découpler suffisamment le contrôle de ces facteurs pour réaliser les deux tâches dans un seul modèle. Plus précisément, notre méthode comprend : 1) Un Générateur de Conditions Spatiales qui fournit des points de repère précis et un arrière-plan ; 2) Un Encodeur d'Identité Plug-and-play qui transfère les embeddings de visage vers l'espace textuel via un décodeur transformeur. 3) Un Contrôleur d'Attributs qui intègre les conditions spatiales et les attributs détaillés. Face-Adapter atteint des performances comparables, voire supérieures, en termes de précision du contrôle du mouvement, de capacité de rétention de l'identité et de qualité de génération par rapport aux modèles de réincarnation/échange de visages entièrement affinés. De plus, Face-Adapter s'intègre de manière transparente avec divers modèles StableDiffusion.
Le domaine de la mise en correspondance d'images a été témoin d'une émergence continue de nouvelles techniques apprenables de mise en correspondance de caractéristiques, avec des performances sans cesse améliorées sur les benchmarks conventionnels. Cependant, notre investigation montre que malgré ces progrès, leur potentiel pour des applications réelles est limité par leurs capacités de généralisation restreintes à de nouveaux domaines d'images. Dans cet article, nous présentons OmniGlue, le premier matcher d'images apprenable conçu avec la généralisation comme principe fondamental. OmniGlue exploite des connaissances étendues provenant d'un modèle de fondation en vision pour guider le processus de mise en correspondance des caractéristiques, améliorant ainsi la généralisation à des domaines non vus pendant l'entraînement. De plus, nous proposons un nouveau mécanisme d'attention guidé par la position des points clés qui dissocie les informations spatiales et d'apparence, conduisant à des descripteurs de correspondance améliorés. Nous effectuons des expériences approfondies sur une suite de 7 jeux de données couvrant divers domaines d'images, incluant des images de scènes, centrées sur des objets et aériennes. Les composants novateurs d'OmniGlue entraînent des gains relatifs de 20,9 % sur des domaines non vus par rapport à un modèle de référence directement comparable, tout en surpassant également la méthode récente LightGlue de 9,5 % en termes relatifs. Le code et le modèle sont disponibles à l'adresse suivante : https://hwjiang1510.github.io/OmniGlue
Nous présentons des résidus personnalisés et un échantillonnage guidé par attention localisée pour une génération efficace pilotée par des concepts utilisant des modèles de diffusion texte-image. Notre méthode représente d'abord les concepts en gelant les poids d'un modèle de diffusion pré-entraîné conditionné par le texte et en apprenant des résidus de faible rang pour un petit sous-ensemble des couches du modèle. L'approche basée sur les résidus permet ensuite l'application directe de notre technique d'échantillonnage proposée, qui applique les résidus appris uniquement dans les zones où le concept est localisé via l'attention croisée et applique les poids de diffusion originaux dans toutes les autres régions. L'échantillonnage localisé combine ainsi l'identité apprise du concept avec le prior génératif existant du modèle de diffusion sous-jacent. Nous montrons que les résidus personnalisés capturent efficacement l'identité d'un concept en ~3 minutes sur un seul GPU sans utiliser d'images de régularisation et avec moins de paramètres que les modèles précédents, et que l'échantillonnage localisé permet d'utiliser le modèle original comme prior fort pour une grande partie de l'image.