Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents succès révolutionnaires en apprentissage automatique sont principalement attribués à l'échelle : à savoir des architectures basées sur l'attention à grande échelle et des jeux de données d'une ampleur sans précédent. Cet article étudie l'impact de l'entraînement à grande échelle pour les échecs. Contrairement aux moteurs d'échecs traditionnels qui reposent sur des heuristiques complexes, une recherche explicite ou une combinaison des deux, nous entraînons un modèle transformeur de 270 millions de paramètres avec un apprentissage supervisé sur un jeu de données de 10 millions de parties d'échecs. Nous annotons chaque position du jeu de données avec des valeurs d'action fournies par le puissant moteur Stockfish 16, ce qui conduit à environ 15 milliards de points de données. Notre plus grand modèle atteint un Elo blitz Lichess de 2895 contre des humains et résout avec succès une série de puzzles d'échecs complexes, sans aucun ajustement spécifique au domaine ou algorithme de recherche explicite. Nous montrons également que notre modèle surpasse les réseaux de politique et de valeur d'AlphaZero (sans MCTS) et GPT-3.5-turbo-instruct. Une investigation systématique de la taille du modèle et du jeu de données montre qu'une performance forte aux échecs n'émerge qu'à une échelle suffisante. Pour valider nos résultats, nous effectuons une série extensive d'ablation des choix de conception et des hyperparamètres.
Les interfaces utilisateur (UI) à l'écran et les infographies, partageant un langage visuel et des principes de conception similaires, jouent un rôle important dans la communication humaine et l'interaction homme-machine. Nous présentons ScreenAI, un modèle vision-langage spécialisé dans la compréhension des UI et des infographies. Notre modèle améliore l'architecture PaLI grâce à la stratégie de patch flexible de pix2struct et est entraîné sur un mélange unique de jeux de données. Au cœur de ce mélange se trouve une nouvelle tâche d'annotation d'écran dans laquelle le modèle doit identifier le type et l'emplacement des éléments d'interface. Nous utilisons ces annotations textuelles pour décrire les écrans aux modèles de langage de grande taille (LLM) et générer automatiquement des jeux de données d'entraînement pour le question-réponse (QA), la navigation dans les UI et la synthèse à grande échelle. Nous menons des études d'ablation pour démontrer l'impact de ces choix de conception. Avec seulement 5 milliards de paramètres, ScreenAI établit de nouveaux records sur des tâches basées sur les UI et les infographies (Multi-page DocVQA, WebSRC, MoTIF et Widget Captioning), et obtient des performances inégalées sur d'autres (Chart QA, DocVQA et InfographicVQA) par rapport à des modèles de taille similaire. Enfin, nous publions trois nouveaux jeux de données : un axé sur la tâche d'annotation d'écran et deux autres centrés sur le question-réponse.
Les méthodes d'alignement direct à partir des préférences (DAP), telles que DPO, ont récemment émergé comme des alternatives efficaces à l'apprentissage par renforcement à partir de retours humains (RLHF), ne nécessitant pas de modèle de récompense séparé. Cependant, les ensembles de données de préférences utilisés dans les méthodes DAP sont généralement collectés avant l'entraînement et jamais mis à jour, ce qui rend les retours purement hors ligne. De plus, les réponses dans ces ensembles de données sont souvent échantillonnées à partir d'un modèle de langage distinct de celui en cours d'alignement, et puisque le modèle évolue au cours de l'entraînement, la phase d'alignement est inévitablement hors politique. Dans cette étude, nous postulons que les retours en ligne sont essentiels et améliorent les méthodes DAP. Notre méthode, les retours d'IA en ligne (OAIF), utilise un LLM comme annotateur : à chaque itération d'entraînement, nous échantillonnons deux réponses du modèle actuel et demandons à l'annotateur LLM de choisir celle qui est préférée, fournissant ainsi des retours en ligne. Malgré sa simplicité, nous démontrons via une évaluation humaine sur plusieurs tâches que OAIF surpasse à la fois les méthodes DAP hors ligne et RLHF. Nous montrons en outre que les retours utilisés dans OAIF sont facilement contrôlables, via des instructions données à l'annotateur LLM.
La création de contenu 3D a réalisé des progrès significatifs en termes de qualité et de rapidité. Bien que les modèles feed-forward actuels puissent produire des objets 3D en quelques secondes, leur résolution est limitée par le calcul intensif requis pendant l'entraînement. Dans cet article, nous présentons le Large Multi-View Gaussian Model (LGM), un nouveau cadre conçu pour générer des modèles 3D haute résolution à partir de prompts textuels ou d'images à vue unique. Nos principales contributions sont doubles : 1) Représentation 3D : Nous proposons des caractéristiques gaussiennes multi-vues comme une représentation à la fois efficace et puissante, qui peuvent ensuite être fusionnées pour un rendu différentiable. 2) Architecture 3D : Nous introduisons un U-Net asymétrique comme backbone à haut débit opérant sur des images multi-vues, qui peuvent être produites à partir d'un texte ou d'une image à vue unique en exploitant des modèles de diffusion multi-vues. Des expériences approfondies démontrent la haute fidélité et l'efficacité de notre approche. En particulier, nous maintenons la rapidité de génération d'objets 3D en moins de 5 secondes tout en augmentant la résolution d'entraînement à 512, permettant ainsi une génération de contenu 3D haute résolution.
Nous présentons EfficientViT-SAM, une nouvelle famille de modèles accélérés pour la segmentation universelle. Nous conservons l'encodeur de prompt léger et le décodeur de masque de SAM tout en remplaçant l'encodeur d'image lourd par EfficientViT. Pour l'entraînement, nous commençons par une distillation de connaissances à partir de l'encodeur d'image SAM-ViT-H vers EfficientViT. Ensuite, nous effectuons un entraînement de bout en bout sur le jeu de données SA-1B. Grâce à l'efficacité et à la capacité d'EfficientViT, EfficientViT-SAM offre une accélération mesurée de 48,9x avec TensorRT sur un GPU A100 par rapport à SAM-ViT-H, sans compromettre les performances. Notre code et nos modèles pré-entraînés sont disponibles à l'adresse https://github.com/mit-han-lab/efficientvit.
Les grands modèles de langage (LLM) basés sur l'architecture Transformer sont désormais déployés auprès de centaines de millions d'utilisateurs. L'inférence des LLM est généralement effectuée sur des lots de séquences partageant un préfixe commun, comme des exemples few-shot ou un prompt de système de chatbot. Le décodage dans ce contexte de grands lots peut être limité par l'opération d'attention, qui lit de larges caches clé-valeur (KV) en mémoire et calcule des produits matrice-vecteur inefficaces pour chaque séquence du lot. Dans ce travail, nous introduisons Hydragen, une implémentation exacte et optimisée pour le matériel de l'attention avec des préfixes partagés. Hydragen calcule l'attention sur le préfixe partagé et les suffixes uniques séparément. Cette décomposition permet une attention efficace sur le préfixe en regroupant les requêtes entre les séquences, réduisant les lectures redondantes en mémoire et permettant l'utilisation de multiplications matricielles adaptées au matériel. Notre méthode peut améliorer le débit end-to-end des LLM jusqu'à 32 fois par rapport à des bases de référence compétitives, avec une accélération qui augmente avec la taille du lot et la longueur du préfixe partagé. Hydragen permet également l'utilisation de contextes partagés très longs : avec un lot de grande taille, augmenter la longueur du préfixe de 1K à 16K tokens réduit le débit de Hydragen de moins de 15 %, tandis que le débit des bases de référence chute de plus de 90 %. Hydragen se généralise au-delà de la simple décomposition préfixe-suffixe et peut être appliqué à des motifs de partage de prompts basés sur des arbres, nous permettant de réduire encore le temps d'inférence sur des problèmes de programmation compétitive de 55 %.
Les grands modèles de langage résolvent de plus en plus de tâches que l'on considère généralement comme nécessitant une capacité de raisonnement de niveau humain. Cependant, ces modèles restent très peu performants sur des benchmarks d'intelligence générale tels que le Corpus d'Abstraction et de Raisonnement (ARC). Dans cet article, nous abordons ARC comme un problème de programmation par exemples et introduisons une méthode novatrice et évolutive d'auto-amélioration des modèles de langage appelée Itération de Code (CodeIt). Notre méthode alterne entre 1) l'échantillonnage de programmes et le re-étiquetage rétrospectif, et 2) l'apprentissage par relecture priorisée des expériences. En re-étiquetant l'objectif d'un épisode (c'est-à-dire la sortie du programme cible pour une entrée donnée) avec la sortie réalisée produite par le programme échantillonné, notre méthode traite efficacement l'extrême rareté des récompenses dans la synthèse de programmes. En appliquant CodeIt au jeu de données ARC, nous démontrons que la relecture rétrospective priorisée, combinée à un pré-entraînement et à une augmentation des données, permet une généralisation inter-tâches réussie. CodeIt est la première approche neuro-symbolique qui s'adapte à l'ensemble du jeu de données d'évaluation ARC. Notre méthode résout 15 % des tâches d'évaluation ARC, atteignant des performances de pointe et surpassant les bases de référence neuronales et symboliques existantes.
Les attentions linéaires ont montré un potentiel pour améliorer l'efficacité des Transformers, réduisant la complexité quadratique de l'attention à une complexité linéaire par rapport à la longueur de la séquence. Cela ouvre des perspectives prometteuses pour (1) l'entraînement de Transformers linéaires à partir de zéro, (2) la "conversion par ajustement fin" de Transformers spécifiques à une tâche en versions linéaires qui retrouvent les performances de la tâche, et (3) la "conversion à partir de modèles pré-entraînés" de Transformers, tels que les grands modèles de langage, en versions linéaires pouvant être ajustées sur des tâches en aval. Cependant, les attentions linéaires sous-performent souvent l'attention softmax standard en termes de qualité. Pour combler cet écart de performance, nous constatons que les attentions linéaires antérieures manquent de propriétés clés de l'attention softmax liées à de bonnes performances : des poids à faible entropie (ou "pointus") et une monotonie du produit scalaire. Nous observons également des cartes de caractéristiques étonnamment simples qui conservent ces propriétés et égalent les performances de l'attention softmax, mais qui sont inefficaces à calculer dans le cadre de l'attention linéaire. Nous proposons donc Hedgehog, une attention linéaire apprenable qui conserve les propriétés pointues et monotones de l'attention softmax tout en maintenant une complexité linéaire. Hedgehog utilise des MLPs simples et entraînables pour produire des poids d'attention imitant l'attention softmax. Les expériences montrent que Hedgehog récupère plus de 99 % de la qualité du Transformer standard dans des configurations d'entraînement à partir de zéro et de conversion par ajustement fin, surpassant les attentions linéaires antérieures jusqu'à 6 points de perplexité sur WikiText-103 avec des GPT causaux, et jusqu'à 8,7 points de score GLUE sur des BERT bidirectionnels ajustés finement. Hedgehog permet également la conversion à partir de modèles pré-entraînés. La conversion d'un GPT-2 pré-entraîné en une variante d'attention linéaire atteint un état de l'art de 16,7 en perplexité sur WikiText-103 pour des modèles décodeurs sous-quadratiques de 125M. Nous transformons enfin un Llama-2 7B pré-entraîné en un Llama à attention linéaire viable. Avec une adaptation de bas rang, Hedgehog-Llama2 7B atteint 28,1 points ROUGE-1 de plus que le modèle de base à attention standard, là où les attentions linéaires antérieures entraînent une baisse de 16,5 points.
La génération d'audio stéréo long format à 44,1 kHz à partir de prompts textuels peut être exigeante en termes de calcul. De plus, la plupart des travaux précédents ne traitent pas du fait que la musique et les effets sonores varient naturellement en durée. Notre recherche se concentre sur la génération efficace de musique et de sons stéréo long format de durée variable à 44,1 kHz en utilisant des prompts textuels avec un modèle génératif. Stable Audio est basé sur la diffusion latente, avec son latent défini par un autoencodeur variationnel entièrement convolutionnel. Il est conditionné par des prompts textuels ainsi que des embeddings temporels, permettant un contrôle précis à la fois du contenu et de la durée de la musique et des sons générés. Stable Audio est capable de produire des signaux stéréo allant jusqu'à 95 secondes à 44,1 kHz en 8 secondes sur une GPU A100. Malgré son efficacité en termes de calcul et son inférence rapide, il figure parmi les meilleurs sur deux benchmarks publics de conversion texte-musique et texte-audio et, contrairement aux modèles de pointe, il peut générer de la musique avec une structure et des sons stéréo.
Dans cet article, nous présentons une méthode novatrice qui réduit la latence d'inférence des modèles lors du déploiement distribué de grands modèles de langage (LLM). Notre contribution est un schéma d'inférence optimisé qui surmonte les limitations actuelles des noyaux de quantification de pointe lorsqu'ils sont utilisés conjointement avec le parallélisme tensoriel (TP). Notre méthode préserve la localité des données dans les modèles d'accès à la mémoire GPU et exploite une connaissance a priori du TP pour réduire la communication globale. Nous démontrons une accélération allant jusqu'à 1,81x par rapport aux méthodes existantes pour Llama-70B et jusqu'à 1,78x pour les tailles de problème de la couche MLP de Granite-20B d'IBM WatsonX sur les systèmes NVIDIA DGX A100 et H100, pour diverses configurations de TP.
La parcimonie structurée N:M a suscité un intérêt significatif en raison de son surcoût relativement modeste et de son efficacité accrue. De plus, cette forme de parcimonie présente un attrait considérable pour réduire l'empreinte mémoire grâce à son faible surcoût de représentation. Des efforts ont été déployés pour développer des méthodes d'entraînement pour la parcimonie structurée N:M, se concentrant principalement sur les régions de faible parcimonie (environ 50 %). Cependant, les performances des modèles entraînés avec ces approches ont tendance à décliner lorsqu'ils sont confrontés à des régions de haute parcimonie (>80 %). Dans ce travail, nous étudions l'efficacité des méthodes d'entraînement parcimonieux existantes dans les régions de haute parcimonie et soutenons que ces méthodes ne parviennent pas à maintenir la qualité des modèles au même niveau que dans les régions de faible parcimonie. Nous démontrons que le facteur principal contribuant à cette disparité est la présence de niveaux élevés de bruit induit dans les magnitudes des gradients. Pour atténuer cet effet indésirable, nous utilisons des mécanismes de décroissance pour restreindre progressivement le flux des gradients vers les éléments élagués. Notre approche améliore la qualité des modèles jusqu'à 2 % et 5 % respectivement pour les modèles de vision et de langage dans le régime de haute parcimonie. Nous évaluons également le compromis entre la précision du modèle et le coût de calcul d'entraînement en termes de FLOPs. À nombre de FLOPs d'entraînement équivalent, notre méthode offre de meilleures performances par rapport aux méthodes d'entraînement parcimonieux conventionnelles, avec une amélioration de la précision allant jusqu'à 2 %. Le code source est disponible à l'adresse suivante : https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.