Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons AudioPaLM, un grand modèle de langage pour la compréhension et la génération de la parole. AudioPaLM fusionne des modèles de langage basés sur le texte et sur la parole, PaLM-2 [Anil et al., 2023] et AudioLM [Borsos et al., 2022], dans une architecture multimodale unifiée capable de traiter et de générer du texte et de la parole, avec des applications incluant la reconnaissance vocale et la traduction parole-à-parole. AudioPaLM hérite de la capacité à préserver les informations paralinguistiques telles que l'identité du locuteur et l'intonation d'AudioLM, ainsi que des connaissances linguistiques présentes uniquement dans les grands modèles de langage basés sur le texte comme PaLM-2. Nous démontrons que l'initialisation d'AudioPaLM avec les poids d'un grand modèle de langage uniquement textuel améliore le traitement de la parole, en exploitant avec succès la plus grande quantité de données textuelles utilisées lors du pré-entraînement pour assister les tâches de parole. Le modèle résultant surpasse significativement les systèmes existants pour les tâches de traduction vocale et possède la capacité d'effectuer une traduction parole-à-texte en zero-shot pour de nombreuses langues pour lesquelles les combinaisons de langues d'entrée/cible n'ont pas été vues lors de l'entraînement. AudioPaLM démontre également des caractéristiques des modèles de langage audio, comme le transfert d'une voix à travers les langues basé sur un court échantillon vocal. Nous publions des exemples de notre méthode à l'adresse https://google-research.github.io/seanet/audiopalm/examples.
Le modèle récemment proposé Segment Anything Model (SAM) a eu un impact significatif sur de nombreuses tâches de vision par ordinateur. Il devient une étape fondamentale pour de nombreuses tâches de haut niveau, telles que la segmentation d'images, la génération de légendes d'images et l'édition d'images. Cependant, ses coûts de calcul élevés limitent son application à grande échelle dans des scénarios industriels. Ces coûts de calcul proviennent principalement de l'architecture Transformer avec des entrées à haute résolution. Dans cet article, nous proposons une méthode alternative accélérée pour cette tâche fondamentale, offrant des performances comparables. En reformulant la tâche en termes de génération de segments et d'invites, nous constatons qu'un détecteur CNN standard avec une branche de segmentation par instance peut également accomplir cette tâche de manière efficace. Plus précisément, nous transformons cette tâche en une tâche de segmentation par instance bien étudiée et entraînons directement une méthode de segmentation par instance existante en utilisant seulement 1/50 du jeu de données SA-1B publié par les auteurs de SAM. Avec notre méthode, nous obtenons des performances comparables à celles de SAM avec une vitesse d'exécution 50 fois supérieure. Nous fournissons des résultats expérimentaux suffisants pour démontrer son efficacité. Les codes et démonstrations seront disponibles sur https://github.com/CASIA-IVA-Lab/FastSAM.
Comment le langage informe-t-il notre pensée en aval ? Plus précisément, comment les humains construisent-ils du sens à partir du langage — et comment pouvons-nous exploiter une théorie de la signification linguistique pour construire des machines qui pensent de manière plus humaine ? Dans cet article, nous proposons la construction rationnelle du sens, un cadre computationnel pour une pensée informée par le langage qui combine des modèles neuronaux du langage avec des modèles probabilistes pour l'inférence rationnelle. Nous définissons la signification linguistique comme une correspondance sensible au contexte entre le langage naturel et un langage de pensée probabiliste (PLoT) — un substrat symbolique polyvalent pour la modélisation probabiliste et générative du monde. Notre architecture intègre deux outils computationnels puissants qui n'avaient jamais été combinés auparavant : nous modélisons la pensée avec des programmes probabilistes, une représentation expressive pour un raisonnement de bon sens flexible ; et nous modélisons la construction du sens avec des modèles de langage à grande échelle (LLMs), qui permettent une traduction à large couverture des énoncés en langage naturel vers des expressions de code dans un langage de programmation probabiliste. Nous illustrons notre cadre en action à travers des exemples couvrant quatre domaines fondamentaux des sciences cognitives : le raisonnement probabiliste, le raisonnement logique et relationnel, le raisonnement visuel et physique, et le raisonnement social sur les agents et leurs plans. Dans chaque cas, nous montrons que les LLMs peuvent générer des traductions sensibles au contexte qui capturent des significations linguistiques pragmatiquement appropriées, tandis que l'inférence bayésienne avec les programmes générés soutient un raisonnement de bon sens cohérent et robuste. Nous étendons notre cadre pour intégrer des modules symboliques motivés par la cognition, fournissant ainsi une interface unifiée de pensée de bon sens à partir du langage. Enfin, nous explorons comment le langage peut guider la construction des modèles du monde eux-mêmes.
La quantification des activations, poids et gradients en 4 bits est prometteuse pour accélérer l'entraînement des réseaux de neurones. Cependant, les méthodes existantes d'entraînement en 4 bits nécessitent des formats numériques personnalisés qui ne sont pas supportés par le matériel contemporain. Dans ce travail, nous proposons une méthode d'entraînement pour les transformers où toutes les multiplications matricielles sont implémentées avec l'arithmétique INT4. L'entraînement avec une précision INT4 ultra-faible est un défi. Pour y parvenir, nous analysons attentivement les structures spécifiques des activations et des gradients dans les transformers afin de proposer des quantificateurs dédiés. Pour la propagation avant, nous identifions le problème des valeurs aberrantes et proposons un quantificateur de Hadamard pour les supprimer. Pour la rétropropagation, nous exploitons la sparsité structurelle des gradients en proposant des techniques de division de bits et d'échantillonnage par score de levier pour quantifier les gradients avec précision. Notre algorithme atteint une précision compétitive sur un large éventail de tâches, notamment la compréhension du langage naturel, la traduction automatique et la classification d'images. Contrairement aux méthodes précédentes d'entraînement en 4 bits, notre algorithme peut être implémenté sur la génération actuelle de GPU. Notre implémentation prototype d'opérateur linéaire est jusqu'à 2,2 fois plus rapide que les équivalents en FP16 et accélère l'entraînement jusqu'à 35,1 %.
Nous considérons les grands modèles de langage (LLMs) comme des couches de langage stochastiques dans un réseau, où les paramètres apprenables sont les prompts en langage naturel à chaque couche. Nous empilons deux de ces couches, en alimentant la sortie d'une couche à la suivante. Nous appelons cette architecture empilée un Réseau de Langage Profond (Deep Language Network, DLN). Nous montrons d'abord comment optimiser efficacement les prompts pour un réseau de langage à une couche (DLN-1). Ensuite, nous démontrons comment entraîner des DLNs à deux couches (DLN-2), où deux prompts doivent être appris. Nous considérons la sortie de la première couche comme une variable latente à marginaliser, et nous concevons un algorithme d'inférence variationnelle pour l'entraînement conjoint des prompts. Un DLN-2 atteint des performances supérieures à une seule couche, parfois comparables à celles de GPT-4 en few-shot, même lorsque chaque LLM dans le réseau est plus petit et moins puissant. Le code du DLN est open source : https://github.com/microsoft/deep-language-networks.
Les modèles Transformer ont été largement adoptés dans divers domaines au cours des dernières années, et en particulier les grands modèles de langage ont considérablement fait progresser le domaine de l'IA. En raison de leur taille, la capacité de ces réseaux a augmenté de manière spectaculaire, mais cela s'est fait au prix d'une augmentation significative des ressources de calcul nécessaires. La quantification est l'une des méthodes les plus efficaces pour réduire le temps de calcul et la consommation de mémoire des réseaux de neurones. Cependant, de nombreuses études ont montré que les modèles Transformer modernes ont tendance à apprendre des valeurs aberrantes fortes dans leurs activations, ce qui les rend difficiles à quantifier. Pour conserver des performances acceptables, la présence de ces valeurs aberrantes nécessite que les activations soient représentées avec une plus grande précision binaire, ou l'utilisation de formats numériques différents, d'un réglage fin supplémentaire, ou d'autres solutions de contournement. Nous montrons que ces fortes valeurs aberrantes sont liées à un comportement très spécifique des têtes d'attention qui tentent d'apprendre une opération "no-op" ou simplement une mise à jour partielle du résiduel. Pour obtenir les zéros exacts nécessaires dans la matrice d'attention pour une non-mise à jour, l'entrée de la fonction softmax est poussée à devenir de plus en plus grande pendant l'entraînement, provoquant des valeurs aberrantes dans d'autres parties du réseau. Sur la base de ces observations, nous proposons deux modifications simples (et indépendantes) du mécanisme d'attention - le softmax tronqué et l'attention à porte. Nous montrons empiriquement que les modèles pré-entraînés en utilisant nos méthodes apprennent des valeurs aberrantes significativement plus petites tout en maintenant, et parfois même en améliorant, les performances en virgule flottante. Cela nous permet de quantifier les Transformers en une quantification INT8 complète des activations sans effort supplémentaire. Nous démontrons l'efficacité de nos méthodes à la fois sur les modèles de langage (BERT, OPT) et sur les Transformers pour la vision.
Les modèles de diffusion texte-image pré-entraînés sur des milliards de paires image-texte ont récemment permis la création de contenu 3D à partir de texte en optimisant un champ de radiance neuronale (NeRF) initialisé aléatoirement par distillation de score. Cependant, les modèles 3D résultants présentent deux limitations : (a) des problèmes de qualité tels que des couleurs saturées et le problème de Janus ; (b) une diversité extrêmement faible par rapport à la synthèse d'images guidée par texte. Dans cet article, nous montrons que le conflit entre le processus d'optimisation du NeRF et l'échantillonnage uniforme des pas de temps dans la distillation de score est la principale raison de ces limitations. Pour résoudre ce conflit, nous proposons de prioriser l'échantillonnage des pas de temps avec des fonctions monotones non croissantes, ce qui aligne l'optimisation du NeRF avec le processus d'échantillonnage du modèle de diffusion. Des expériences approfondies montrent que cette simple redéfinition améliore significativement la création de contenu 3D à partir de texte, avec une qualité et une diversité accrues.
Les récents progrès des modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont permis de nombreuses applications en édition d'images. Cependant, aucune de ces méthodes n'a été capable de modifier la disposition d'images individuelles existantes. Pour combler cette lacune, nous proposons le premier cadre de travail permettant de modifier la disposition d'une seule image tout en préservant ses propriétés visuelles, permettant ainsi une édition continue sur une seule image. Notre approche repose sur deux modules clés. Tout d'abord, pour préserver les caractéristiques de plusieurs objets au sein d'une image, nous dissocions les concepts des différents objets et les intégrons dans des tokens textuels distincts en utilisant une nouvelle méthode appelée inversion textuelle masquée. Ensuite, nous proposons une méthode d'optimisation sans apprentissage pour contrôler la disposition d'un modèle de diffusion pré-entraîné, ce qui nous permet de régénérer des images avec les concepts appris et de les aligner avec les dispositions spécifiées par l'utilisateur. En tant que premier cadre de travail permettant de modifier la disposition d'images existantes, nous démontrons que notre méthode est efficace et surpasse d'autres approches de référence adaptées pour cette tâche. Notre code sera librement accessible au public après acceptation.
Polis est une plateforme qui exploite l'intelligence artificielle pour intensifier les processus délibératifs. Dans cet article, nous explorons les opportunités et les risques associés à l'application des modèles de langage de grande taille (LLMs) aux défis liés à la facilitation, la modération et la synthèse des résultats des engagements sur Polis. Plus précisément, nous démontrons, à travers des expériences pilotes utilisant Claude d'Anthropic, que les LLMs peuvent effectivement augmenter l'intelligence humaine pour aider à gérer plus efficacement les conversations sur Polis. En particulier, nous constatons que les capacités de synthèse permettent des méthodes entièrement nouvelles, prometteuses pour renforcer le public dans des exercices de construction collective de sens. Et de manière notable, les limitations contextuelles des LLMs ont un impact significatif sur la profondeur et la qualité de ces résultats. Cependant, ces opportunités s'accompagnent de risques. Nous discutons de certains de ces risques, ainsi que des principes et techniques pour les caractériser et les atténuer, et des implications pour d'autres systèmes délibératifs ou politiques qui pourraient employer des LLMs. Enfin, nous concluons avec plusieurs directions de recherche futures ouvertes pour améliorer des outils comme Polis avec des LLMs.
Les Transformers équivariants tels que l'Equiformer ont démontré l'efficacité de l'application des Transformers au domaine des systèmes atomistiques 3D. Cependant, ils restent limités à de faibles degrés de représentations équivariantes en raison de leur complexité computationnelle. Dans cet article, nous étudions si ces architectures peuvent bien s'adapter à des degrés plus élevés. En partant de l'Equiformer, nous remplaçons d'abord les convolutions SO(3) par des convolutions eSCN pour incorporer efficacement des tenseurs de degré supérieur. Ensuite, pour mieux exploiter la puissance des degrés plus élevés, nous proposons trois améliorations architecturales : la re-normalisation de l'attention, l'activation séparable S^2 et la normalisation de couche séparable. En combinant tout cela, nous proposons l'EquiformerV2, qui surpasse les méthodes de pointe précédentes sur le jeu de données OC20 à grande échelle avec une amélioration allant jusqu'à 12 % sur les forces, 4 % sur les énergies, offre de meilleurs compromis vitesse-précision, et une réduction par deux des calculs DFT nécessaires pour calculer les énergies d'adsorption.