Articles de recherche en IA sélectionnés quotidiennement avec traductions
La reproductibilité et la transparence des grands modèles de langage sont essentielles pour faire progresser la recherche ouverte, garantir la fiabilité des résultats et permettre l'étude des biais dans les données et les modèles, ainsi que des risques potentiels. Dans cette optique, nous publions OpenELM, un modèle de langage ouvert de pointe. OpenELM utilise une stratégie de mise à l'échelle par couches pour allouer efficacement les paramètres au sein de chaque couche du modèle de transformateur, ce qui améliore la précision. Par exemple, avec un budget d'environ un milliard de paramètres, OpenELM montre une amélioration de 2,36 % en précision par rapport à OLMo tout en nécessitant deux fois moins de jetons de pré-entraînement. Contrairement aux pratiques antérieures qui ne fournissaient que les poids du modèle et le code d'inférence, et qui pré-entraînaient sur des ensembles de données privés, notre publication inclut le cadre complet pour l'entraînement et l'évaluation du modèle de langage sur des ensembles de données publiquement disponibles, y compris les journaux d'entraînement, plusieurs points de contrôle et les configurations de pré-entraînement. Nous publions également le code pour convertir les modèles en bibliothèque MLX pour l'inférence et le réglage fin sur les appareils Apple. Cette publication exhaustive vise à renforcer et à autonomiser la communauté de recherche ouverte, ouvrant la voie à de futures initiatives de recherche ouverte. Notre code source, ainsi que les poids des modèles pré-entraînés et les recettes d'entraînement, sont disponibles à l'adresse suivante : https://github.com/apple/corenet. De plus, les modèles \model peuvent être trouvés sur HuggingFace à l'adresse : https://huggingface.co/apple/OpenELM.
Les Mélanges d'Experts Sparse (SMoE) permettent d'augmenter la capacité des modèles sans augmenter significativement les coûts d'entraînement et d'inférence, mais présentent deux problèmes majeurs : (1) Une faible activation des experts, où seul un petit sous-ensemble d'experts est activé pour l'optimisation. (2) Un manque de capacités analytiques fines pour les multiples concepts sémantiques au sein des tokens individuels. Nous proposons le Multi-Head Mixture-of-Experts (MH-MoE), qui utilise un mécanisme multi-têtes pour diviser chaque token en plusieurs sous-tokens. Ces sous-tokens sont ensuite assignés et traités en parallèle par un ensemble diversifié d'experts, puis réintégrés de manière transparente dans la forme originale du token. Le mécanisme multi-têtes permet au modèle de collecter des informations provenant de différents espaces de représentation au sein des experts, tout en augmentant significativement l'activation des experts, ce qui approfondit la compréhension du contexte et atténue le surapprentissage. De plus, notre MH-MoE est simple à implémenter et se découple des autres méthodes d'optimisation SMoE, ce qui facilite son intégration avec d'autres modèles SMoE pour améliorer les performances. Des résultats expérimentaux approfondis sur trois tâches : la modélisation linguistique centrée sur l'anglais, la modélisation linguistique multilingue et la modélisation masquée multimodale, démontrent l'efficacité de MH-MoE.
Les récents progrès dans la synthèse vocale à grande échelle en mode zero-shot ont été considérablement stimulés par les modèles de langage et les modèles de diffusion. Cependant, le processus de génération de ces deux méthodes est lent et nécessite une importante puissance de calcul. La synthèse vocale efficace avec un budget de calcul réduit tout en atteignant une qualité comparable aux travaux précédents reste un défi majeur. Dans cet article, nous présentons FlashSpeech, un système de synthèse vocale à grande échelle en mode zero-shot qui réduit le temps d'inférence à environ 5 % par rapport aux travaux antérieurs. FlashSpeech est basé sur le modèle de cohérence latente et applique une nouvelle approche d'entraînement adversarial de cohérence, permettant un entraînement à partir de zéro sans nécessiter un modèle de diffusion pré-entraîné comme enseignant. De plus, un nouveau module générateur de prosodie améliore la diversité de la prosodie, rendant le rythme de la parole plus naturel. Les processus de génération de FlashSpeech peuvent être réalisés efficacement en une ou deux étapes d'échantillonnage tout en maintenant une qualité audio élevée et une forte similarité avec l'extrait audio pour la génération de parole en mode zero-shot. Nos résultats expérimentaux démontrent la performance supérieure de FlashSpeech. Notamment, FlashSpeech peut être environ 20 fois plus rapide que les autres systèmes de synthèse vocale en mode zero-shot tout en maintenant des performances comparables en termes de qualité vocale et de similarité. Par ailleurs, FlashSpeech démontre sa polyvalence en réalisant efficacement des tâches telles que la conversion vocale, l'édition de parole et l'échantillonnage diversifié de parole. Des échantillons audio sont disponibles sur https://flashspeech.github.io/.
Ce rapport technique présente Pegasus-1, un modèle de langage multimodal spécialisé dans la compréhension et l'interaction avec des contenus vidéo via le langage naturel. Pegasus-1 est conçu pour relever les défis spécifiques posés par les données vidéo, tels que l'interprétation des informations spatio-temporelles, afin d'offrir une compréhension nuancée des contenus vidéo de différentes durées. Ce rapport technique donne un aperçu de l'architecture de Pegasus-1, de ses stratégies d'entraînement et de ses performances sur des benchmarks de conversation vidéo, de question-réponse vidéo en zero-shot et de résumé vidéo. Nous explorons également les caractéristiques qualitatives de Pegasus-1, en démontrant ses capacités ainsi que ses limites, afin de fournir aux lecteurs une vision équilibrée de son état actuel et de ses perspectives d'évolution.
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables dans le traitement de contextes étendus, avec le cache clé-valeur (KV) jouant un rôle essentiel dans l'amélioration de leurs performances. Cependant, la croissance du cache KV en réponse à l'augmentation de la longueur des entrées pose des défis en termes d'efficacité mémoire et temporelle. Pour résoudre ce problème, cet article présente SnapKV, une approche innovante et sans ajustement fin qui minimise efficacement la taille du cache KV tout en offrant des performances comparables dans des applications réelles. Nous découvrons que chaque tête d'attention du modèle se concentre de manière constante sur des caractéristiques spécifiques de l'attention du prompt pendant la génération. Par ailleurs, ce motif robuste peut être obtenu à partir d'une fenêtre d'« observation » située à la fin des prompts. En s'appuyant sur cette observation, SnapKV compresse automatiquement les caches KV en sélectionnant des positions KV importantes et regroupées pour chaque tête d'attention. Notre approche réduit significativement la surcharge computationnelle croissante et l'empreinte mémoire lors du traitement de longues séquences d'entrée. Plus précisément, SnapKV atteint une vitesse de décodage constante avec une augmentation de 3,6x de la vitesse de génération et une amélioration de 8,2x de l'efficacité mémoire par rapport à la référence lors du traitement d'entrées de 16K tokens. Parallèlement, il maintient des performances comparables aux modèles de référence sur 16 ensembles de données de séquences longues. De plus, SnapKV peut traiter jusqu'à 380K tokens de contexte sur un seul GPU A100-80GB en utilisant l'implémentation HuggingFace avec des modifications mineures, ne montrant qu'une baisse de précision négligeable dans le test Needle-in-a-Haystack. Des études complémentaires approfondies suggèrent le potentiel de SnapKV pour des applications pratiques.
Les modèles de diffusion (DMs) se sont imposés comme l'approche de modélisation générative de pointe dans le domaine visuel et au-delà. Un inconvénient majeur des DMs réside dans leur lenteur d'échantillonnage, qui repose sur de nombreuses évaluations séquentielles de fonctions via de grands réseaux de neurones. L'échantillonnage à partir des DMs peut être vu comme la résolution d'une équation différentielle à travers un ensemble discrétisé de niveaux de bruit, connu sous le nom de planification d'échantillonnage. Alors que les travaux précédents se sont principalement concentrés sur la dérivation de solveurs efficaces, peu d'attention a été accordée à la recherche de planifications d'échantillonnage optimales, et toute la littérature repose sur des heuristiques artisanales. Dans ce travail, nous proposons pour la première fois une approche générale et rigoureuse pour optimiser les planifications d'échantillonnage des DMs afin d'obtenir des résultats de haute qualité, appelée Align Your Steps. Nous exploitons des méthodes issues du calcul stochastique et trouvons des planifications optimales spécifiques à différents solveurs, DMs entraînés et jeux de données. Nous évaluons notre nouvelle approche sur plusieurs benchmarks de synthèse d'images, de vidéos ainsi que de données jouets en 2D, en utilisant une variété de différents échantillonneurs, et observons que nos planifications optimisées surpassent les planifications artisanales précédentes dans presque toutes les expériences. Notre méthode démontre le potentiel inexploité de l'optimisation des planifications d'échantillonnage, en particulier dans le régime de synthèse à faible nombre d'étapes.
De nombreux travaux existants ont analysé les capacités de l'architecture transformer en décrivant sa capacité de représentation à l'aide de modèles formels de calcul. Cependant, l'accent a jusqu'à présent été mis sur l'analyse de l'architecture en termes d'acceptation de langage. Nous soutenons qu'il s'agit d'un problème mal adapté à l'étude des modèles de langage (LMs), qui sont par définition des distributions de probabilité sur des chaînes de caractères. Dans cet article, nous nous concentrons sur la relation entre les LMs transformer et les LMs n-grammes, une classe de modèles de langage simple et historiquement pertinente. Nous montrons que les LMs transformer utilisant des mécanismes d'attention dure ou sparse peuvent représenter exactement n'importe quel LM n-gramme, ce qui nous donne une borne inférieure concrète sur leur capacité de représentation probabiliste. Cela constitue une première étape vers la compréhension des mécanismes que les LMs transformer peuvent utiliser pour représenter des distributions de probabilité sur des chaînes de caractères.