Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'entraînement des grands modèles de langage (LLMs) présente des défis mémoriels importants, principalement en raison de la taille croissante des poids et des états de l'optimiseur. Les approches courantes de réduction de la mémoire, telles que l'adaptation de bas rang (LoRA), ajoutent une matrice de bas rang entraînable aux poids pré-entraînés gelés dans chaque couche, réduisant ainsi les paramètres entraînables et les états de l'optimiseur. Cependant, ces approches sous-performent généralement l'entraînement avec des poids de rang complet, tant lors du pré-entraînement que du fine-tuning, car elles limitent la recherche des paramètres à un sous-espace de bas rang et altèrent la dynamique d'entraînement. De plus, elles peuvent nécessiter un démarrage à chaud avec des poids de rang complet. Dans ce travail, nous proposons la Projection de Gradient de Bas Rang (GaLore), une stratégie d'entraînement qui permet un apprentissage à paramètres complets tout en étant plus économe en mémoire que les méthodes courantes d'adaptation de bas rang comme LoRA. Notre approche réduit l'utilisation de la mémoire jusqu'à 65,5 % dans les états de l'optimiseur tout en maintenant à la fois l'efficacité et les performances pour le pré-entraînement sur les architectures LLaMA 1B et 7B avec le jeu de données C4 contenant jusqu'à 19,7 milliards de tokens, ainsi que pour le fine-tuning de RoBERTa sur les tâches GLUE. Notre version 8 bits de GaLore réduit encore la mémoire de l'optimiseur jusqu'à 82,5 % et la mémoire totale d'entraînement de 63,3 %, par rapport à une référence BF16. Notamment, nous démontrons, pour la première fois, la faisabilité du pré-entraînement d'un modèle de 7B sur des GPU grand public avec 24 Go de mémoire (par exemple, NVIDIA RTX 4090) sans recourir à des stratégies de parallélisation de modèle, de point de contrôle ou de déchargement.
Dans cet article, nous présentons SaulLM-7B, un modèle de langage de grande taille (LLM) spécialement conçu pour le domaine juridique. Avec 7 milliards de paramètres, SaulLM-7B est le premier LLM explicitement conçu pour la compréhension et la génération de textes juridiques. Basé sur l'architecture Mistral 7B, SaulLM-7B est entraîné sur un corpus juridique en anglais de plus de 30 milliards de tokens. SaulLM-7B démontre une maîtrise de pointe dans la compréhension et le traitement des documents juridiques. Par ailleurs, nous introduisons une nouvelle méthode de fine-tuning instructionnel qui exploite des ensembles de données juridiques pour améliorer davantage les performances de SaulLM-7B dans les tâches juridiques. SaulLM-7B est publié sous la licence CC-BY-SA-4.0.
Alors que les modèles de langage de grande taille (LLMs) continuent d'améliorer leurs performances, leur taille a considérablement augmenté, les LLMs actuels contenant des milliards, voire des milliers de milliards de paramètres. Cependant, dans cette étude, nous avons découvert que de nombreuses couches des LLMs présentent une similarité élevée, et que certaines couches jouent un rôle négligeable dans la fonctionnalité du réseau. Sur la base de cette observation, nous définissons une métrique appelée Influence de Bloc (Block Influence, BI) pour évaluer l'importance de chaque couche dans les LLMs. Nous proposons ensuite une approche d'élagage simple : la suppression de couches, dans laquelle nous supprimons directement les couches redondantes des LLMs en fonction de leurs scores BI. Les expériences montrent que notre méthode, que nous appelons ShortGPT, surpasse significativement les méthodes précédentes de pointe (SOTA) en matière d'élagage de modèles. De plus, ShortGPT est orthogonal aux méthodes de type quantification, permettant une réduction supplémentaire des paramètres et des calculs. La capacité à obtenir de meilleurs résultats grâce à une simple suppression de couches, par opposition à des techniques d'élagage plus complexes, suggère un degré élevé de redondance dans l'architecture du modèle.
Dans cet article, nous présentons PixArt-\Sigma, un modèle de Transformer de Diffusion (DiT) capable de générer directement des images en résolution 4K. PixArt-\Sigma représente une avancée significative par rapport à son prédécesseur, PixArt-\alpha, en offrant des images d'une fidélité nettement supérieure et un meilleur alignement avec les prompts textuels. Une caractéristique clé de PixArt-\Sigma est son efficacité en matière d'entraînement. En s'appuyant sur le pré-entraînement fondamental de PixArt-\alpha, il évolue d'un modèle de base "plus faible" vers un modèle "plus fort" en incorporant des données de meilleure qualité, un processus que nous appelons "entraînement de faible à fort". Les avancées de PixArt-\Sigma sont doubles : (1) Données d'entraînement de haute qualité : PixArt-\Sigma intègre des données d'images de qualité supérieure, associées à des légendes d'images plus précises et détaillées. (2) Compression efficace des tokens : nous proposons un nouveau module d'attention dans le cadre DiT qui compresse à la fois les clés et les valeurs, améliorant significativement l'efficacité et facilitant la génération d'images en ultra-haute résolution. Grâce à ces améliorations, PixArt-\Sigma atteint une qualité d'image supérieure et une meilleure adhésion aux prompts utilisateur avec une taille de modèle significativement plus petite (0,6 milliard de paramètres) que les modèles de diffusion texte-image existants, tels que SDXL (2,6 milliards de paramètres) et SD Cascade (5,1 milliards de paramètres). De plus, la capacité de PixArt-\Sigma à générer des images 4K soutient la création d'affiches et de fonds d'écran haute résolution, renforçant efficacement la production de contenu visuel de haute qualité dans des industries telles que le cinéma et le jeu vidéo.
Nous proposons une méthode pour enseigner à plusieurs grands modèles de langage (LLM) à collaborer en entrelaçant leurs générations au niveau des tokens. Nous modélisons la décision de savoir quel LLM génère le token suivant comme une variable latente. En optimisant la vraisemblance marginale d'un ensemble d'entraînement sous notre modèle à variable latente, le LLM de base apprend automatiquement quand générer lui-même et quand faire appel à l'un des modèles de langage « assistants » pour générer, le tout sans supervision directe. La collaboration au niveau des tokens pendant le décodage permet une fusion des expertises de chaque modèle, adaptée à la tâche spécifique en question. Notre décodage collaboratif est particulièrement utile dans des contextes inter-domaines où un LLM de base généraliste apprend à invoquer des modèles experts dans un domaine. Sur des tâches de suivi d'instructions, de questions-réponses spécifiques à un domaine et de raisonnement, nous montrons que les performances du système conjoint dépassent celles des modèles individuels. Grâce à une analyse qualitative des décisions latentes apprises, nous montrons que les modèles entraînés avec notre méthode présentent plusieurs schémas de collaboration intéressants, par exemple le remplissage de modèles. Notre code est disponible à l'adresse https://github.com/clinicalml/co-llm.
Nous proposons le pré-entraînement Fortement Supervisé avec Captures d'Écran (S4) - un nouveau paradigme de pré-entraînement pour les modèles vision-langage utilisant des données issues du rendu à grande échelle de captures d'écran web. L'utilisation de captures d'écran web débloque un trésor d'indices visuels et textuels qui ne sont pas présents dans les paires image-texte. Dans S4, nous exploitons la hiérarchie arborescente inhérente des éléments HTML et la localisation spatiale pour concevoir soigneusement 10 tâches de pré-entraînement avec des données annotées à grande échelle. Ces tâches ressemblent à des tâches en aval dans différents domaines et les annotations sont peu coûteuses à obtenir. Nous démontrons que, par rapport aux objectifs actuels de pré-entraînement sur captures d'écran, notre méthode innovante de pré-entraînement améliore significativement les performances d'un modèle image-texte sur neuf tâches en aval variées et populaires - jusqu'à 76,1% d'amélioration sur la Détection de Tableaux, et au moins 1% sur la Légendage de Widgets.
Les fonctions de valeur constituent un élément central de l'apprentissage par renforcement profond (RL). Ces fonctions, paramétrées par des réseaux de neurones, sont entraînées à l'aide d'un objectif de régression par erreur quadratique moyenne pour correspondre à des valeurs cibles bootstrapées. Cependant, la mise à l'échelle des méthodes RL basées sur la valeur qui utilisent la régression pour des réseaux de grande taille, tels que les Transformers à haute capacité, s'est avérée difficile. Cette difficulté contraste fortement avec l'apprentissage supervisé : en exploitant une perte de classification par entropie croisée, les méthodes supervisées ont été mises à l'échelle de manière fiable vers des réseaux massifs. En observant cette divergence, nous examinons dans cet article si l'évolutivité du RL profond peut également être améliorée simplement en utilisant la classification à la place de la régression pour l'entraînement des fonctions de valeur. Nous démontrons que les fonctions de valeur entraînées avec l'entropie croisée catégorique améliorent significativement les performances et l'évolutivité dans divers domaines. Ceux-ci incluent : le RL mono-tâche sur les jeux Atari 2600 avec SoftMoEs, le RL multi-tâches sur Atari avec des ResNets à grande échelle, la manipulation robotique avec des Q-transformers, le jeu d'échecs sans recherche, et une tâche d'agent linguistique Wordle avec des Transformers à haute capacité, obtenant des résultats de pointe dans ces domaines. À travers une analyse minutieuse, nous montrons que les avantages de l'entropie croisée catégorique découlent principalement de sa capacité à atténuer les problèmes inhérents au RL basé sur la valeur, tels que les cibles bruyantes et la non-stationnarité. Globalement, nous soutenons qu'un simple passage à l'entraînement des fonctions de valeur avec l'entropie croisée catégorique peut apporter des améliorations substantielles dans l'évolutivité du RL profond à un coût minimal, voire nul.
La modélisation à grande échelle de séquences a suscité des avancées rapides qui s'étendent désormais à la biologie et à la génomique. Cependant, la modélisation des séquences génomiques introduit des défis tels que la nécessité de modéliser les interactions à longue portée entre tokens, les effets des régions amont et aval du génome, ainsi que la complémentarité inverse (RC) de l'ADN. Nous proposons ici une architecture inspirée par ces défis, qui s'appuie sur le bloc Mamba à longue portée et l'étend à un composant BiMamba prenant en charge la bidirectionnalité, ainsi qu'à un bloc MambaDNA qui intègre en plus l'équivariance RC. Nous utilisons MambaDNA comme base pour Caduceus, la première famille de modèles de langage ADN bidirectionnels à longue portée équivariants RC, et nous introduisons des stratégies de pré-entraînement et de fine-tuning qui produisent des modèles fondateurs ADN Caduceus. Caduceus surpasse les modèles à longue portée précédents sur des benchmarks en aval ; sur une tâche prédictive d'effet de variante à longue portée particulièrement difficile, Caduceus dépasse les performances de modèles 10 fois plus grands qui n'exploitent ni la bidirectionnalité ni l'équivariance.
L'apprentissage par imitation offre une méthode efficace pour enseigner aux robots des compétences complexes ; cependant, l'apprentissage robuste et généralisable de compétences sophistiquées nécessite généralement de grandes quantités de démonstrations humaines. Pour résoudre ce problème complexe, nous présentons 3D Diffusion Policy (DP3), une nouvelle approche d'apprentissage par imitation visuelle qui intègre la puissance des représentations visuelles 3D dans les politiques de diffusion, une classe de modèles génératifs d'actions conditionnelles. Le concept central de DP3 repose sur l'utilisation d'une représentation visuelle 3D compacte, extraite de nuages de points épars grâce à un encodeur de points efficace. Dans nos expériences portant sur 72 tâches de simulation, DP3 réussit à traiter la plupart des tâches avec seulement 10 démonstrations et surpasse les méthodes de référence avec une amélioration relative de 55,3 %. Dans 4 tâches impliquant des robots réels, DP3 démontre un contrôle précis avec un taux de réussite élevé de 85 %, en utilisant seulement 40 démonstrations pour chaque tâche, et montre d'excellentes capacités de généralisation dans divers aspects, notamment l'espace, le point de vue, l'apparence et l'instance. Fait intéressant, dans les expériences avec des robots réels, DP3 enfreint rarement les exigences de sécurité, contrairement aux méthodes de référence qui le font fréquemment, nécessitant une intervention humaine. Notre évaluation approfondie souligne l'importance cruciale des représentations 3D dans l'apprentissage robotique en conditions réelles. Les vidéos, le code et les données sont disponibles sur https://3d-diffusion-policy.github.io.
De nombreux portails de contenu en ligne permettent aux utilisateurs de poser des questions pour approfondir leur compréhension (par exemple, de cours). Bien que les systèmes de recherche d'information (IR) puissent fournir des réponses à ces requêtes utilisateur, ils n'aident pas directement les créateurs de contenu -- tels que les enseignants souhaitant améliorer leur matériel -- à identifier les segments qui ont _provoqué_ ces questions. Nous introduisons la tâche de rétrotraçage, dans laquelle les systèmes récupèrent le segment de texte le plus susceptible d'avoir causé une requête utilisateur. Nous formalisons trois domaines du monde réel pour lesquels le rétrotraçage est crucial pour améliorer la diffusion et la communication du contenu : comprendre la cause de (a) la confusion des étudiants dans le domaine des Cours, (b) la curiosité des lecteurs dans le domaine des Articles de Presse, et (c) l'émotion des utilisateurs dans le domaine des Conversations. Nous évaluons les performances en zero-shot de méthodes populaires de recherche d'information et de modélisation du langage, incluant les méthodes bi-encodeur, de reclassement et basées sur la vraisemblance, ainsi que ChatGPT. Alors que les systèmes IR traditionnels récupèrent des informations sémantiquement pertinentes (par exemple, des détails sur les "matrices de projection" pour une requête "est-ce que projeter plusieurs fois conduit toujours au même point ?"), ils manquent souvent le contexte causalement pertinent (par exemple, l'enseignant déclare "projeter deux fois me donne la même réponse qu'une seule projection"). Nos résultats montrent qu'il y a une marge d'amélioration pour le rétrotraçage et qu'il nécessite de nouvelles approches de recherche. Nous espérons que notre benchmark contribuera à améliorer les futurs systèmes de recherche pour le rétrotraçage, engendrant des systèmes qui affinent la génération de contenu et identifient les déclencheurs linguistiques influençant les requêtes utilisateur. Notre code et nos données sont open-source : https://github.com/rosewang2008/backtracing.