Articles de recherche en IA sélectionnés quotidiennement avec traductions
Une capacité émergente impressionnante des grands modèles de langage (LLM) est la génération de code, y compris le langage de requête structuré (SQL) pour les bases de données. Pour la tâche de conversion de texte en langage naturel en requêtes SQL, Text-to-SQL, l'adaptation des LLM est d'une importance primordiale, que ce soit dans des contextes d'apprentissage en contexte ou de fine-tuning, en fonction de la quantité de données d'adaptation utilisées. Dans cet article, nous proposons un modèle Text-to-SQL basé sur les LLM, SQL-PaLM, s'appuyant sur PaLM-2, qui repousse l'état de l'art dans les deux contextes. La version few-shot de SQL-PaLM repose sur une approche d'auto-cohérence basée sur l'exécution, conçue pour Text-to-SQL, et atteint une précision de 77,3 % sur le test-suite de Spider, ce qui, à notre connaissance, est la première fois qu'un modèle surpasse significativement l'état de l'art précédent avec un fine-tuning, avec une marge de 4 %. De plus, nous démontrons que la version fine-tunée de SQL-PaLM le surpasse encore de 1 %. Pour appliquer SQL-PaLM à des scénarios réels, nous évaluons également sa robustesse sur d'autres variantes difficiles de Spider et mettons en évidence la capacité de généralisation supérieure de SQL-PaLM. En outre, à travers des études de cas approfondies, nous démontrons les capacités intelligentes impressionnantes et les divers facteurs de succès des modèles Text-to-SQL basés sur les LLM.
Les modèles de diffusion texte-image peuvent générer des images impressionnantes à partir de descriptions en langage naturel, rivalisant avec le travail d'artistes et de photographes professionnels. Cependant, ces modèles sont volumineux, avec des architectures de réseau complexes et des dizaines d'itérations de débruitage, ce qui les rend coûteux en calcul et lents à exécuter. Par conséquent, des GPU haut de gamme et une inférence basée sur le cloud sont nécessaires pour exécuter ces modèles de diffusion à grande échelle. Cela est coûteux et soulève des problèmes de confidentialité, en particulier lorsque les données des utilisateurs sont envoyées à un tiers. Pour surmonter ces défis, nous présentons une approche générique qui, pour la première fois, permet d'exécuter des modèles de diffusion texte-image sur des appareils mobiles en moins de 2 secondes. Nous y parvenons en introduisant une architecture de réseau efficace et en améliorant la distillation des étapes. Plus précisément, nous proposons un UNet efficace en identifiant la redondance du modèle original et en réduisant le calcul du décodeur d'images via la distillation de données. De plus, nous améliorons la distillation des étapes en explorant des stratégies d'entraînement et en introduisant une régularisation issue de la guidance sans classifieur. Nos expériences approfondies sur MS-COCO montrent que notre modèle avec 8 étapes de débruitage obtient de meilleurs scores FID et CLIP que Stable Diffusion v1.5 avec 50 étapes. Notre travail démocratise la création de contenu en mettant des modèles de diffusion texte-image puissants entre les mains des utilisateurs.
Nous présentons Wuerstchen, une nouvelle technique de synthèse d'images à partir de texte qui allie des performances compétitives à une efficacité économique sans précédent et une facilité d'entraînement sur du matériel limité. S'appuyant sur les avancées récentes en apprentissage automatique, notre approche, qui utilise des stratégies de diffusion latente avec des taux de compression d'image latente élevés, réduit considérablement la charge de calcul, généralement associée aux modèles de pointe, tout en préservant, voire en améliorant, la qualité des images générées. Wuerstchen réalise des améliorations notables en termes de vitesse lors de l'inférence, rendant ainsi les applications en temps réel plus viables. L'un des principaux avantages de notre méthode réside dans ses modestes exigences d'entraînement, nécessitant seulement 9 200 heures de GPU, ce qui réduit considérablement les coûts habituels sans compromettre les performances finales. Dans une comparaison avec l'état de l'art, nous avons constaté que cette approche offre une forte compétitivité. Cet article ouvre la voie à une nouvelle ligne de recherche qui privilégie à la fois les performances et l'accessibilité computationnelle, démocratisant ainsi l'utilisation des technologies d'IA sophistiquées. À travers Wuerstchen, nous démontrons un pas en avant convaincant dans le domaine de la synthèse d'images à partir de texte, offrant une voie innovante à explorer dans les recherches futures.
Nous présentons GenMM, un modèle génératif qui "extrait" autant de mouvements divers que possible à partir d'une seule ou de quelques séquences d'exemple. Contrairement aux méthodes existantes basées sur les données, qui nécessitent généralement un long temps d'entraînement hors ligne, sont sujettes à des artefacts visuels, et ont tendance à échouer sur des squelettes complexes et de grande taille, GenMM hérite de la nature sans entraînement et de la qualité supérieure de la méthode bien connue de Motion Matching. GenMM peut synthétiser un mouvement de haute qualité en une fraction de seconde, même avec des structures squelettiques très complexes et de grande taille. Au cœur de notre cadre génératif se trouve le module de génération de correspondance de mouvements, qui utilise la similarité visuelle bidirectionnelle comme fonction de coût générative pour la correspondance de mouvements, et opère dans un cadre multi-étapes pour affiner progressivement une estimation aléatoire en utilisant des correspondances de mouvements exemplaires. En plus de la génération de mouvements divers, nous montrons la polyvalence de notre cadre génératif en l'étendant à un certain nombre de scénarios qui ne sont pas possibles avec la seule correspondance de mouvements, y compris la complétion de mouvements, la génération guidée par des images clés, la boucle infinie et le réassemblage de mouvements. Le code et les données pour cet article sont disponibles à l'adresse https://wyysf-98.github.io/GenMM/.
Les approches modernes d'apprentissage profond transforment généralement les entrées en une forme spécifique à la modalité. Par exemple, l'approche la plus courante pour la classification d'images consiste à décoder les octets des fichiers image en un tenseur RGB, qui est ensuite passé à un réseau neuronal. Nous explorons plutôt la possibilité d'effectuer la classification directement sur les octets des fichiers, sans nécessiter de décodage au moment de l'inférence. Utiliser les octets des fichiers comme entrées du modèle permet de développer des modèles capables de fonctionner sur plusieurs modalités d'entrée. Notre modèle, ByteFormer, atteint une précision Top-1 de 77,33 % sur ImageNet lors de l'entraînement et du test directement sur les octets de fichiers TIFF, en utilisant une architecture de transformateur similaire à DeiT-Ti (72,2 % de précision sur les images RGB). Sans modifications ni réglage d'hyperparamètres, ByteFormer atteint une précision de classification de 95,42 % sur les fichiers WAV du jeu de données Speech Commands v2 (contre une précision de pointe de 98,7 %). De plus, nous démontrons que ByteFormer a des applications dans l'inférence préservant la confidentialité. ByteFormer est capable d'effectuer des inférences sur des représentations d'entrée obscurcies spécifiques sans perte de précision. Nous montrons également la capacité de ByteFormer à effectuer des inférences avec une caméra hypothétique préservant la confidentialité, qui évite de former des images complètes en masquant systématiquement 90 % des canaux de pixels, tout en atteignant une précision de 71,35 % sur ImageNet. Notre code sera disponible à l'adresse https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Les modèles de diffusion texte-image ont démontré une capacité inégalée à générer des images de haute qualité et diversifiées à partir d'un concept textuel (par exemple, "un médecin", "l'amour"). Cependant, le processus interne de transformation du texte en une représentation visuelle riche reste une énigme. Dans ce travail, nous relevons le défi de comprendre les représentations conceptuelles dans les modèles texte-image en décomposant une invite textuelle en un petit ensemble d'éléments interprétables. Cela est réalisé en apprenant un pseudo-jeton qui est une combinaison pondérée et parcimonieuse de jetons issus du vocabulaire du modèle, avec pour objectif de reconstruire les images générées pour le concept donné. Appliquée au modèle Stable Diffusion de pointe, cette décomposition révèle des structures non triviales et surprenantes dans les représentations des concepts. Par exemple, nous constatons que certains concepts tels que "un président" ou "un compositeur" sont dominés par des instances spécifiques (par exemple, "Obama", "Biden") et leurs interpolations. D'autres concepts, comme "le bonheur", combinent des termes associés qui peuvent être concrets ("famille", "rire") ou abstraits ("amitié", "émotion"). En plus de permettre un aperçu du fonctionnement interne de Stable Diffusion, notre méthode ouvre également la voie à des applications telles que la décomposition d'une seule image en jetons, la détection et l'atténuation des biais, ainsi que la manipulation sémantique d'images. Notre code sera disponible à l'adresse suivante : https://hila-chefer.github.io/Conceptor/
Créer une vidéo vivante à partir d'un événement ou d'un scénario imaginé est une expérience véritablement fascinante. Les récents progrès dans la synthèse texte-vidéo ont révélé le potentiel d'y parvenir en utilisant uniquement des prompts. Bien que le texte soit pratique pour transmettre le contexte global d'une scène, il peut s'avérer insuffisant pour un contrôle précis. Dans cet article, nous explorons la génération de vidéos personnalisées en utilisant le texte comme description contextuelle et la structure de mouvement (par exemple, la profondeur image par image) comme guide concret. Notre méthode, baptisée Make-Your-Video, implique une génération vidéo conditionnelle conjointe utilisant un modèle de diffusion latente pré-entraîné pour la synthèse d'images fixes, puis adapté pour la génération vidéo grâce à l'introduction de modules temporels. Ce schéma d'apprentissage en deux étapes réduit non seulement les ressources de calcul nécessaires, mais améliore également les performances en transférant les concepts riches disponibles dans les ensembles de données d'images uniquement vers la génération vidéo. De plus, nous utilisons une stratégie de masque d'attention causale simple mais efficace pour permettre la synthèse de vidéos plus longues, ce qui atténue efficacement la dégradation potentielle de la qualité. Les résultats expérimentaux montrent la supériorité de notre méthode par rapport aux approches existantes, en particulier en termes de cohérence temporelle et de fidélité aux directives de l'utilisateur. En outre, notre modèle permet plusieurs applications intrigantes qui démontrent un potentiel d'utilisation pratique.
Nous étudions le potentiel de l'apprentissage de représentations visuelles à l'aide d'images synthétiques générées par des modèles de texte-à-image. Cette question se pose naturellement au vu des performances exceptionnelles de ces modèles dans la génération d'images de haute qualité. Nous considérons spécifiquement Stable Diffusion, l'un des principaux modèles open source de texte-à-image. Nous montrons que (1) lorsque le modèle génératif est configuré avec une échelle de guidage sans classifieur appropriée, l'entraînement de méthodes auto-supervisées sur des images synthétiques peut égaler ou surpasser leur équivalent sur des images réelles ; (2) en traitant les multiples images générées à partir de la même invite textuelle comme des positifs les unes pour les autres, nous développons une méthode d'apprentissage contrastif multi-positif, que nous appelons StableRep. Avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP utilisant le même ensemble d'invites textuelles et d'images réelles correspondantes, sur des jeux de données à grande échelle. Lorsque nous ajoutons en plus une supervision linguistique, StableRep entraîné avec 20 millions d'images synthétiques atteint une meilleure précision que CLIP entraîné avec 50 millions d'images réelles.
La génération personnalisée d'images à partir de texte utilisant des modèles de diffusion a récemment été proposée et a suscité beaucoup d'attention. Étant donné un petit nombre d'images contenant un concept nouveau (par exemple, un jouet unique), nous cherchons à ajuster le modèle génératif pour capturer les détails visuels fins de ce concept et générer des images photoréalistes en suivant une condition textuelle. Nous présentons une méthode plug-in, nommée ViCo, pour une génération personnalisée rapide et légère. Plus précisément, nous proposons un module d'attention sur les images pour conditionner le processus de diffusion sur la sémantique visuelle par patch. Nous introduisons un masque d'objet basé sur l'attention qui est obtenu presque sans coût supplémentaire à partir du module d'attention. De plus, nous concevons une régularisation simple basée sur les propriétés intrinsèques des cartes d'attention texte-image pour atténuer la dégradation courante due au surajustement. Contrairement à de nombreux modèles existants, notre méthode ne procède à aucun ajustement fin des paramètres du modèle de diffusion original. Cela permet un déploiement de modèle plus flexible et transférable. Avec seulement un entraînement léger des paramètres (~6% de l'U-Net de diffusion), notre méthode atteint des performances comparables ou même supérieures à tous les modèles de pointe, tant qualitativement que quantitativement.
L'apprentissage auto-supervisé (SSL) a récemment émergé comme un paradigme prometteur pour entraîner des modèles généralisables sur des données à grande échelle dans les domaines de la vision, du texte et de la parole. Bien que le SSL ait prouvé son efficacité pour la parole et l'audio, son application à l'audio musical reste encore largement inexplorée. Cela est principalement dû aux défis spécifiques liés à la modélisation des connaissances musicales, en particulier les caractéristiques tonales et mélodiques de la musique. Pour combler cette lacune de recherche, nous proposons un modèle de compréhension acoustique de la musique avec un entraînement auto-supervisé à grande échelle (MERT), qui intègre des modèles enseignants pour fournir des étiquettes pseudo dans le cadre d'un pré-entraînement acoustique de type modélisation de langage masqué (MLM). Au cours de notre exploration, nous avons identifié une combinaison supérieure de modèles enseignants, qui surpasse les approches conventionnelles de la parole et de l'audio en termes de performance. Cette combinaison inclut un enseignant acoustique basé sur un auto-encodeur variationnel à quantification vectorielle résiduelle (RVQ-VAE) et un enseignant musical basé sur la transformée en Q constant (CQT). Ces enseignants guident efficacement notre modèle étudiant, un encodeur de type BERT, pour mieux modéliser l'audio musical. De plus, nous introduisons une augmentation par mélange de bruit intra-lot pour renforcer la robustesse des représentations. Par ailleurs, nous explorons un large éventail de paramètres pour surmonter l'instabilité dans le pré-entraînement des modèles de langage acoustique, ce qui permet à notre paradigme conçu de passer de 95M à 330M de paramètres. Les résultats expérimentaux indiquent que notre modèle peut généraliser et performer efficacement sur 14 tâches de compréhension musicale, atteignant des scores globaux de pointe (SOTA). Le code et les modèles sont disponibles en ligne : https://github.com/yizhilll/MERT.
Il existe une demande exquise pour personnaliser les grands modèles pré-entraînés de génération d'images à partir de texte, comme Stable Diffusion, afin de générer des concepts innovants, tels que les utilisateurs eux-mêmes. Cependant, le nouveau concept ajouté par les méthodes de personnalisation précédentes montre souvent des capacités de combinaison plus faibles que les concepts originaux, même avec plusieurs images fournies pendant l'entraînement. Nous proposons donc une nouvelle méthode de personnalisation qui permet l'intégration transparente d'un individu unique dans le modèle de diffusion pré-entraîné en utilisant une seule photographie faciale et seulement 1024 paramètres apprenables en moins de 3 minutes. Ainsi, nous pouvons générer sans effort des images époustouflantes de cette personne dans n'importe quelle pose ou position, interagissant avec quiconque et faisant tout ce qui est imaginable à partir de prompts textuels. Pour y parvenir, nous analysons et construisons d'abord une base de célébrités bien définie à partir de l'espace d'embedding du grand encodeur de texte pré-entraîné. Ensuite, étant donné une photo faciale comme identité cible, nous générons son propre embedding en optimisant le poids de cette base et en verrouillant tous les autres paramètres. Grâce à la base de célébrités proposée, la nouvelle identité dans notre modèle personnalisé démontre une meilleure capacité de combinaison de concepts que les méthodes de personnalisation précédentes. De plus, notre modèle peut également apprendre plusieurs nouvelles identités simultanément et les faire interagir entre elles, là où le modèle de personnalisation précédent échoue. Le code sera publié.
Les modèles génératifs à grande échelle sont capables de produire des images de haute qualité à partir de descriptions textuelles détaillées. Cependant, de nombreux aspects d'une image sont difficiles, voire impossibles, à transmettre par le texte. Nous introduisons l'auto-guidage, une méthode qui offre un meilleur contrôle sur les images générées en guidant les représentations internes des modèles de diffusion. Nous démontrons que des propriétés telles que la forme, la position et l'apparence des objets peuvent être extraites de ces représentations et utilisées pour orienter l'échantillonnage. L'auto-guidage fonctionne de manière similaire au guidage par classifieur, mais utilise des signaux présents dans le modèle pré-entraîné lui-même, sans nécessiter de modèles supplémentaires ni d'entraînement. Nous montrons comment un ensemble simple de propriétés peut être composé pour réaliser des manipulations d'images complexes, telles que la modification de la position ou de la taille des objets, la fusion de l'apparence des objets d'une image avec la disposition d'une autre, la composition d'objets provenant de plusieurs images en une seule, et bien plus encore. Nous montrons également que l'auto-guidage peut être utilisé pour éditer des images réelles. Pour les résultats et une démonstration interactive, consultez notre page de projet à l'adresse https://dave.ml/selfguidance/.
Les grands modèles de langage basés sur des transformateurs ont obtenu d'importants succès empiriques. Cependant, à mesure qu'ils sont déployés plus largement, il devient de plus en plus nécessaire de mieux comprendre leurs mécanismes internes afin de les rendre plus fiables. Ces modèles semblent stocker de vastes quantités de connaissances issues de leurs données d'entraînement et s'adapter rapidement aux nouvelles informations fournies dans leur contexte ou leur prompt. Nous étudions comment les transformateurs équilibrent ces deux types de connaissances en considérant un cadre synthétique où les tokens sont générés à partir de distributions de bigrammes globaux ou spécifiques au contexte. Par une analyse empirique minutieuse du processus d'entraînement sur un transformateur simplifié à deux couches, nous illustrons l'apprentissage rapide des bigrammes globaux et le développement plus lent d'un mécanisme de "tête d'induction" pour les bigrammes en contexte. Nous mettons en lumière le rôle des matrices de poids en tant que mémoires associatives, fournissons des insights théoriques sur la manière dont les gradients permettent leur apprentissage pendant l'entraînement, et étudions le rôle des propriétés distributionnelles des données.
La génération de musique à partir de descriptions textuelles constitue un mode convivial, car le texte représente une interface relativement simple pour l'engagement des utilisateurs. Bien que certaines approches utilisent des textes pour contrôler la génération audio musicale, l'édition des éléments musicaux dans l'audio généré reste un défi pour les utilisateurs. En revanche, la musique symbolique offre une facilité d'édition, rendant plus accessible la manipulation d'éléments musicaux spécifiques. Dans cet article, nous proposons MuseCoco, qui génère de la musique symbolique à partir de descriptions textuelles en utilisant des attributs musicaux comme pont pour décomposer la tâche en deux étapes : la compréhension texte-vers-attribut et la génération attribut-vers-musique. MuseCoco, acronyme de Music Composition Copilot, permet aux musiciens de générer de la musique directement à partir de descriptions textuelles données, offrant une amélioration significative de l'efficacité par rapport à la création de musique entièrement à partir de zéro. Le système présente deux avantages principaux : Premièrement, il est efficace en termes de données. Dans l'étape de génération attribut-vers-musique, les attributs peuvent être directement extraits des séquences musicales, rendant l'entraînement du modèle auto-supervisé. Dans l'étape de compréhension texte-vers-attribut, le texte est synthétisé et affiné par ChatGPT sur la base de modèles d'attributs définis. Deuxièmement, le système permet un contrôle précis avec des attributs spécifiques dans les descriptions textuelles et offre plusieurs options de contrôle via des approches conditionnées par attributs ou par texte. MuseCoco surpasse les systèmes de référence en termes de musicalité, de contrôlabilité et de score global d'au moins 1,27, 1,08 et 1,32 respectivement. De plus, on observe une amélioration notable d'environ 20 % dans la précision du contrôle objectif. En outre, nous avons développé un modèle robuste à grande échelle avec 1,2 milliard de paramètres, démontrant une contrôlabilité et une musicalité exceptionnelles.
L'intelligence du code joue un rôle clé dans la transformation de l'ingénierie logicielle moderne. Récemment, les modèles basés sur l'apprentissage profond, en particulier les grands modèles de langage (LLMs) fondés sur l'architecture Transformer, ont démontré un potentiel remarquable pour relever ces défis en exploitant des données massives de code open source et les caractéristiques des langages de programmation. Cependant, le développement et le déploiement de tels modèles nécessitent souvent une expertise à la fois en apprentissage automatique et en ingénierie logicielle, ce qui crée une barrière à leur adoption. Dans cet article, nous présentons CodeTF, une bibliothèque open source basée sur Transformer pour les LLMs de code de pointe et l'intelligence du code. Suivant les principes de conception modulaire et de cadre extensible, nous avons conçu CodeTF avec une interface unifiée pour permettre un accès rapide et un développement à travers différents types de modèles, ensembles de données et tâches. Notre bibliothèque prend en charge une collection de modèles LLMs de code pré-entraînés et des benchmarks de code populaires, incluant une interface standardisée pour entraîner et déployer efficacement des LLMs de code, ainsi que des fonctionnalités de données telles que des analyseurs spécifiques aux langages et des fonctions utilitaires pour extraire les attributs du code. Dans cet article, nous décrivons les principes de conception, l'architecture, les modules et composants clés, et nous comparons avec d'autres outils de bibliothèque connexes. Enfin, nous espérons que CodeTF pourra combler le fossé entre l'apprentissage automatique/l'IA générative et l'ingénierie logicielle, offrant une solution open source complète pour les développeurs, chercheurs et praticiens.
Les modèles de diffusion conditionnés par le texte sont capables de générer des images de haute fidélité avec des contenus variés. Cependant, les représentations linguistiques présentent souvent des descriptions ambiguës de l'imagerie objective envisagée, nécessitant l'incorporation de signaux de contrôle supplémentaires pour renforcer l'efficacité des modèles de diffusion guidés par le texte. Dans ce travail, nous proposons Cocktail, un pipeline pour mélanger diverses modalités en un seul embedding, combiné avec un ControlNet généralisé (gControlNet), une normalisation contrôlée (ControlNorm), et une méthode d'échantillonnage guidé spatialement, afin de réaliser un contrôle multimodal et spatialement raffiné pour les modèles de diffusion conditionnés par le texte. Plus précisément, nous introduisons un hyper-réseau gControlNet, dédié à l'alignement et à l'infusion des signaux de contrôle provenant de modalités disparates dans le modèle de diffusion pré-entraîné. gControlNet est capable d'accepter des signaux de modalités flexibles, englobant la réception simultanée de toute combinaison de signaux de modalités, ou la fusion supplémentaire de multiples signaux de modalités. Les signaux de contrôle sont ensuite fusionnés et injectés dans le modèle principal selon notre ControlNorm proposé. De plus, notre méthodologie avancée d'échantillonnage guidé spatialement incorpore efficacement le signal de contrôle dans la région désignée, évitant ainsi la manifestation d'objets indésirables dans l'image générée. Nous démontrons les résultats de notre méthode dans le contrôle de diverses modalités, prouvant une synthèse de haute qualité et une fidélité à de multiples signaux externes.
Nous présentons le benchmark ObjectFolder, une suite de 10 tâches pour l'apprentissage multisensoriel centré sur les objets, axé sur la reconnaissance, la reconstruction et la manipulation d'objets par la vue, le son et le toucher. Nous introduisons également le jeu de données ObjectFolder Real, comprenant les mesures multisensorielles de 100 objets domestiques du monde réel, en nous appuyant sur une nouvelle pipeline conçue pour collecter les maillages 3D, les vidéos, les sons d'impact et les lectures tactiles d'objets réels. Nous effectuons un benchmarking systématique à la fois sur les 1 000 objets neuronaux multisensoriels d'ObjectFolder et sur les données multisensorielles réelles d'ObjectFolder Real. Nos résultats démontrent l'importance de la perception multisensorielle et révèlent les rôles respectifs de la vision, de l'audio et du toucher pour différentes tâches d'apprentissage centrées sur les objets. En rendant publiques notre jeu de données et notre suite de benchmarks, nous espérons catalyser et permettre de nouvelles recherches dans l'apprentissage multisensoriel centré sur les objets en vision par ordinateur, robotique et au-delà. Page du projet : https://objectfolder.stanford.edu
Les approches basées sur les modèles de diffusion ont montré des résultats prometteurs en planification pilotée par les données, mais elles ne fournissent aucune garantie de sécurité, ce qui rend leur application difficile dans des contextes critiques. Pour relever ces défis, nous proposons une nouvelle méthode, appelée SafeDiffuser, visant à garantir que les modèles probabilistes de diffusion satisfont des spécifications en utilisant une classe de fonctions de barrière de contrôle. L'idée clé de notre approche est d'intégrer l'invariance de diffusion en temps fini proposée dans le processus de débruitage par diffusion, ce qui permet une génération de données de diffusion fiable. De plus, nous démontrons que notre méthode d'invariance de diffusion en temps fini via des modèles génératifs maintient non seulement les performances de généralisation, mais confère également une robustesse dans la génération de données sécurisées. Nous testons notre méthode sur une série de tâches de planification sécurisées, incluant la génération de chemins dans un labyrinthe, la locomotion de robots à pattes et la manipulation en espace 3D, avec des résultats montrant des avantages en termes de robustesse et de garanties par rapport aux modèles de diffusion classiques.
Les Transformers sont au cœur des récents succès en traitement du langage naturel et en vision par ordinateur. Les Transformers possèdent une architecture principalement uniforme, où les couches alternent entre des couches feed-forward et des mécanismes d'auto-attention pour construire un réseau profond. Dans cette étude, nous examinons ce choix de conception et constatons que des blocs plus complexes, intégrant différentes permutations de primitives de couches, peuvent être plus efficaces. En nous appuyant sur cette observation, nous développons un bloc complexe, nommé Brainformer, qui combine divers types de couches telles que des couches feed-forward à portes éparses, des couches feed-forward denses, des couches d'attention, ainsi que diverses formes de normalisation de couches et de fonctions d'activation. Brainformer surpasse systématiquement les Transformers denses et éparses de pointe, tant en termes de qualité que d'efficacité. Un modèle Brainformer avec 8 milliards de paramètres activés par token montre une convergence d'entraînement 2 fois plus rapide et un temps par étape 5 fois plus rapide que son homologue GLaM. Dans l'évaluation des tâches en aval, Brainformer obtient également un score SuperGLUE 3 % plus élevé après ajustement fin, comparé à GLaM avec un nombre similaire de paramètres activés. Enfin, Brainformer surpasse largement un modèle dense Primer dérivé par recherche d'architecture neuronale (NAS) avec un calcul similaire par token dans des évaluations en few-shot.