Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) excellent dans diverses tâches, mais ils dépendent de prompts soigneusement conçus qui nécessitent souvent un effort humain considérable. Pour automatiser ce processus, nous proposons dans cet article un nouveau cadre d'optimisation discrète des prompts, appelé EvoPrompt, qui s'inspire des algorithmes évolutionnaires (EAs) en raison de leurs bonnes performances et de leur convergence rapide. Pour permettre aux EAs de fonctionner sur des prompts discrets, qui sont des expressions en langage naturel devant être cohérentes et lisibles par l'homme, nous connectons les LLMs avec les EAs. Cette approche nous permet de tirer simultanément parti des puissantes capacités de traitement du langage des LLMs et des performances d'optimisation efficaces des EAs. Plus précisément, en s'abstenant de tout gradient ou paramètre, EvoPrompt commence par une population de prompts et génère itérativement de nouveaux prompts avec les LLMs en se basant sur les opérateurs évolutionnaires, améliorant ainsi la population en fonction de l'ensemble de développement. Nous optimisons les prompts pour des LLMs à la fois propriétaires et open-source, incluant GPT-3.5 et Alpaca, sur 9 ensembles de données couvrant des tâches de compréhension et de génération de langage. EvoPrompt surpasse significativement les prompts conçus par l'homme et les méthodes existantes de génération automatique de prompts, avec des gains allant jusqu'à 25% et 14% respectivement. De plus, EvoPrompt démontre que la connexion entre les LLMs et les EAs crée des synergies, ce qui pourrait inspirer des recherches supplémentaires sur la combinaison des LLMs et des algorithmes conventionnels.
Les recherches précédentes ont observé une dégradation de la précision lors du remplacement du softmax d'attention par une activation ponctuelle telle que ReLU. Dans le contexte des vision transformers, nous constatons que cette dégradation est atténuée lorsqu'on divise par la longueur de la séquence. Nos expériences d'entraînement de vision transformers de petite à grande taille sur ImageNet-21k indiquent que l'attention ReLU peut approcher ou égaler les performances de l'attention softmax en termes de comportement de mise à l'échelle en fonction du calcul.
L'un des obstacles à une meilleure compréhension des mécanismes internes des réseaux de neurones est la polysémanticité, où les neurones semblent s'activer dans des contextes multiples et sémantiquement distincts. La polysémanticité nous empêche d'identifier des explications concises et compréhensibles par l'homme de ce que font les réseaux de neurones en interne. Une cause hypothétique de la polysémanticité est la superposition, où les réseaux de neurones représentent plus de caractéristiques qu'ils n'ont de neurones en assignant ces caractéristiques à un ensemble surcomplet de directions dans l'espace d'activation, plutôt qu'à des neurones individuels. Ici, nous tentons d'identifier ces directions en utilisant des autoencodeurs parcimonieux pour reconstruire les activations internes d'un modèle de langage. Ces autoencodeurs apprennent des ensembles de caractéristiques à activation parcimonieuse qui sont plus interprétables et monosémantiques que les directions identifiées par d'autres approches, où l'interprétabilité est mesurée par des méthodes automatisées. L'ablation de ces caractéristiques permet une édition précise du modèle, par exemple en supprimant des capacités telles que la prédiction des pronoms, tout en perturbant moins le comportement du modèle que les techniques précédentes. Ce travail indique qu'il est possible de résoudre la superposition dans les modèles de langage en utilisant une méthode évolutive et non supervisée. Notre méthode pourrait servir de base à de futurs travaux d'interprétabilité mécaniste, que nous espérons contribueront à une plus grande transparence et pilotabilité des modèles.
Nous explorons l'impact de la parcimonie des paramètres sur le comportement de mise à l'échelle des Transformers entraînés sur des ensembles de données massifs (c'est-à-dire des "modèles de base"), dans les domaines de la vision et du langage. Dans ce contexte, nous identifions la première loi de mise à l'échelle décrivant la relation entre la parcimonie des poids, le nombre de paramètres non nuls et la quantité de données d'entraînement, que nous validons empiriquement à travers différentes échelles de modèles et de données ; sur ViT/JFT-4B et T5/C4. Ces résultats nous permettent de caractériser la "parcimonie optimale", le niveau de parcimonie qui offre les meilleures performances pour une taille de modèle effective et un budget d'entraînement donnés. Pour un nombre fixe de paramètres non nuls, nous identifions que la parcimonie optimale augmente avec la quantité de données utilisées pour l'entraînement. Nous étendons également notre étude à différentes structures de parcimonie (telles que le motif n:m adapté au matériel) et stratégies (comme partir d'un modèle dense pré-entraîné). Nos résultats éclairent la puissance et les limites de la parcimonie des poids dans divers contextes de paramètres et de calcul, offrant à la fois une compréhension théorique et des implications pratiques pour exploiter la parcimonie afin d'améliorer l'efficacité computationnelle.
Pour prendre des décisions efficaces dans des environnements nouveaux avec des objectifs à long terme, il est essentiel de s’engager dans un raisonnement hiérarchique à travers des échelles spatiales et temporelles. Cela implique de planifier des séquences de sous-objectifs abstraits, de raisonner visuellement sur les plans sous-jacents, et d’exécuter des actions conformément au plan élaboré grâce à un contrôle visuo-moteur. Nous proposons les **Modèles Fondamentaux Compositionnels pour la Planification Hiérarchique (HiP)**, un modèle fondamental qui exploite plusieurs modèles experts spécialisés, entraînés individuellement sur des données linguistiques, visuelles et d’action, pour résoudre des tâches à long terme. Nous utilisons un grand modèle de langage pour construire des plans symboliques ancrés dans l’environnement grâce à un modèle de diffusion vidéo à grande échelle. Les plans vidéo générés sont ensuite ancrés dans un contrôle visuo-moteur via un modèle de dynamique inverse qui infère les actions à partir des vidéos générées. Pour permettre un raisonnement efficace au sein de cette hiérarchie, nous imposons une cohérence entre les modèles par un raffinement itératif. Nous illustrons l’efficacité et l’adaptabilité de notre approche dans trois tâches de manipulation sur table à long terme.
Malgré les progrès récents dans la génération texte-audio (TTA), nous montrons que les modèles de pointe, tels qu'AudioLDM, entraînés sur des ensembles de données présentant une distribution de classes déséquilibrée, comme AudioCaps, présentent des biais dans leurs performances de génération. Plus précisément, ils excellent dans la génération de classes audio courantes tout en sous-performant pour les classes rares, ce qui dégrade la performance globale de génération. Nous qualifions ce problème de génération texte-audio à longue traîne. Pour résoudre cette problématique, nous proposons une approche simple basée sur la récupération d'informations pour les modèles TTA. Concrètement, étant donné une invite textuelle en entrée, nous exploitons d'abord un modèle de pré-entraînement contrastif langue-audio (CLAP) pour récupérer des paires texte-audio pertinentes. Les caractéristiques des données audio-texte récupérées sont ensuite utilisées comme conditions supplémentaires pour guider l'apprentissage des modèles TTA. Nous améliorons AudioLDM avec notre approche proposée et désignons le système augmenté résultant sous le nom de Re-AudioLDM. Sur le jeu de données AudioCaps, Re-AudioLDM atteint une distance de Fréchet audio (FAD) de pointe de 1,37, surpassant largement les approches existantes. De plus, nous montrons que Re-AudioLDM peut générer des audios réalistes pour des scènes complexes, des classes audio rares, et même des types audio inédits, démontrant ainsi son potentiel dans les tâches TTA.
Les modèles de diffusion texte-image comprennent les relations spatiales entre les objets, mais représentent-ils véritablement la structure 3D du monde à partir d'une supervision uniquement 2D ? Nous démontrons que oui, les connaissances 3D sont encodées dans les modèles de diffusion d'images 2D comme Stable Diffusion, et nous montrons que cette structure peut être exploitée pour des tâches de vision 3D. Notre méthode, Viewpoint Neural Textual Inversion (ViewNeTI), contrôle le point de vue 3D des objets dans les images générées par des modèles de diffusion figés. Nous entraînons un petit réseau de mappage à prendre en compte les paramètres du point de vue de la caméra et à prédire les latents de l'encodeur de texte ; ces latents conditionnent ensuite le processus de génération par diffusion pour produire des images avec le point de vue de caméra souhaité. ViewNeTI aborde naturellement la synthèse de nouvelles vues (Novel View Synthesis, NVS). En exploitant le modèle de diffusion figé comme un a priori, nous pouvons résoudre le NVS avec très peu de vues d'entrée ; nous pouvons même réaliser une synthèse de nouvelles vues à partir d'une seule vue. Nos prédictions de NVS à vue unique présentent de bons détails sémantiques et un photoréalisme supérieurs aux méthodes précédentes. Notre approche est bien adaptée pour modéliser l'incertitude inhérente aux problèmes de vision 3D éparse, car elle peut générer efficacement des échantillons diversifiés. Notre mécanisme de contrôle du point de vue est général et peut même modifier la vue de la caméra dans les images générées par des invites définies par l'utilisateur.