Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons une nouvelle technique d'inférence basée sur un modèle de diffusion pré-entraîné pour la génération de vidéos conditionnées par du texte. Notre approche, appelée FIFO-Diffusion, est conceptuellement capable de générer des vidéos de longueur infinie sans entraînement supplémentaire. Cela est réalisé en effectuant itérativement un débruîtage diagonal, qui traite simultanément une série de trames consécutives avec des niveaux de bruit croissants dans une file d'attente ; notre méthode retire une trame entièrement débruîtée en tête de file tout en ajoutant une nouvelle trame de bruit aléatoire en queue. Cependant, le débruîtage diagonal est une arme à double tranchant, car les trames proches de la queue peuvent tirer parti de trames plus propres par référence avant, mais une telle stratégie induit un écart entre l'entraînement et l'inférence. Par conséquent, nous introduisons le partitionnement latent pour réduire cet écart et le débruîtage prospectif pour exploiter les avantages de la référence avant. Nous avons démontré les résultats prometteurs et l'efficacité des méthodes proposées sur des bases de référence existantes pour la génération de texte à vidéo.
L'adaptation à faible rang est une méthode populaire de réglage fin efficace en paramètres pour les grands modèles de langage. Dans cet article, nous analysons l'impact de la mise à jour à faible rang, telle qu'implémentée dans LoRA. Nos résultats suggèrent que le mécanisme de mise à jour à faible rang pourrait limiter la capacité des LLM à apprendre et à mémoriser efficacement de nouvelles connaissances. Inspirés par cette observation, nous proposons une nouvelle méthode appelée MoRA, qui utilise une matrice carrée pour réaliser une mise à jour à haut rang tout en conservant le même nombre de paramètres entraînables. Pour y parvenir, nous introduisons les opérateurs non paramétriques correspondants pour réduire la dimension d'entrée et augmenter la dimension de sortie pour la matrice carrée. De plus, ces opérateurs garantissent que le poids peut être réintégré dans les LLM, ce qui permet à notre méthode d'être déployée comme LoRA. Nous effectuons une évaluation complète de notre méthode sur cinq tâches : réglage par instruction, raisonnement mathématique, pré-entraînement continu, mémoire et pré-entraînement. Notre méthode surpasse LoRA sur les tâches intensives en mémoire et obtient des performances comparables sur les autres tâches.
Alors que les grands modèles de langage (LLM) continuent de croître selon les lois d'échelle, l'apprentissage par renforcement à partir de retours humains (RLHF) a suscité une attention significative en raison de ses performances exceptionnelles. Cependant, contrairement au pré-entraînement ou au réglage fin d'un seul modèle, la mise à l'échelle de l'apprentissage par renforcement à partir de retours humains (RLHF) pour l'entraînement de grands modèles de langage présente des défis de coordination entre quatre modèles. Nous présentons OpenRLHF, un cadre open-source permettant une mise à l'échelle efficace du RLHF. Contrairement aux cadres RLHF existants qui co-localisent quatre modèles sur les mêmes GPU, OpenRLHF reconçoit la planification pour les modèles dépassant 70 milliards de paramètres en utilisant Ray, vLLM et DeepSpeed, tirant parti d'une meilleure utilisation des ressources et de diverses approches d'entraînement. S'intégrant de manière transparente avec Hugging Face, OpenRLHF propose une solution prête à l'emploi avec des algorithmes optimisés et des scripts de lancement, garantissant ainsi une convivialité. OpenRLHF implémente le RLHF, le DPO, l'échantillonnage par rejet et d'autres techniques d'alignement. Favorisant le développement de LLM de pointe, le code d'OpenRLHF est disponible à l'adresse https://github.com/OpenLLMAI/OpenRLHF.
L'augmentation du nombre d'adaptations paramétriquement efficaces d'un modèle de langage de base (LLM) nécessite d'étudier si nous pouvons réutiliser ces adaptateurs entraînés pour améliorer les performances sur de nouvelles tâches. Nous étudions comment construire au mieux une bibliothèque d'adaptateurs à partir de données multi-tâches et concevons des techniques pour la généralisation à la fois en mode zéro-shot et supervisé grâce à un routage dans cette bibliothèque. Nous évaluons les approches existantes pour construire cette bibliothèque et introduisons le clustering basé sur le modèle, MBC, une méthode qui regroupe les tâches en fonction de la similarité de leurs paramètres d'adaptateurs, optimisant indirectement le transfert à travers l'ensemble de données multi-tâches. Pour réutiliser la bibliothèque, nous présentons un nouveau mécanisme de routage zéro-shot, Arrow, qui permet une sélection dynamique des adaptateurs les plus pertinents pour de nouvelles entrées sans nécessiter de réentraînement. Nous expérimentons avec plusieurs LLMs, tels que Phi-2 et Mistral, sur un large éventail de tâches réservées, vérifiant que les adaptateurs basés sur MBC et le routage Arrow conduisent à une généralisation supérieure sur de nouvelles tâches. Nous faisons des pas vers la création de LLMs modulaires et adaptables qui peuvent égaler ou surpasser l'entraînement conjoint traditionnel.
En exploitant les capacités des grands modèles de langage (LLMs), les récents modèles multimodaux de grande taille (LMMs) ont démontré une polyvalence remarquable dans la compréhension multimodale en monde ouvert. Néanmoins, ils sont généralement gourmands en paramètres et en calculs, ce qui limite leur applicabilité dans des scénarios à ressources contraintes. À cette fin, plusieurs LMMs légers ont été proposés successivement pour maximiser les capacités sous une échelle contrainte (par exemple, 3 milliards de paramètres). Malgré les résultats encourageants obtenus par ces méthodes, la plupart d'entre elles se concentrent uniquement sur un ou deux aspects de l'espace de conception, et les choix clés de conception qui influencent les capacités du modèle n'ont pas encore été approfondis. Dans cet article, nous menons une étude systématique des LMMs légers en examinant l'architecture du modèle, la stratégie d'entraînement et les données d'entraînement. Sur la base de nos découvertes, nous obtenons Imp -- une famille de LMMs très performants à l'échelle de 2 à 4 milliards de paramètres. Notamment, notre modèle Imp-3B surpasse de manière constante tous les LMMs légers existants de taille similaire, et dépasse même les LMMs de pointe à l'échelle de 13 milliards de paramètres. Grâce à des techniques de quantification en basse précision et de réduction de résolution, notre modèle Imp peut être déployé sur un processeur mobile Qualcomm Snapdragon 8Gen3 avec une vitesse d'inférence élevée d'environ 13 tokens par seconde.
Les politiques de grande envergure pré-entraînées sur des ensembles de données robotiques diversifiées ont le potentiel de transformer l'apprentissage robotique : au lieu de former de nouvelles politiques à partir de zéro, ces politiques généralistes pour robots peuvent être affinées avec seulement un peu de données spécifiques au domaine, tout en conservant une large généralisation. Cependant, pour être largement applicables à une gamme de scénarios, environnements et tâches d'apprentissage robotique, ces politiques doivent gérer des capteurs et des espaces d'action divers, s'adapter à une variété de plateformes robotiques couramment utilisées, et s'affiner facilement et efficacement à de nouveaux domaines. Dans ce travail, nous visons à poser les bases pour le développement de politiques généralistes, open-source et largement applicables pour la manipulation robotique. Comme première étape, nous présentons Octo, une politique basée sur un transformeur de grande taille, entraînée sur 800 000 trajectoires issues de l'ensemble de données Open X-Embodiment, le plus grand ensemble de données de manipulation robotique à ce jour. Elle peut être instruite via des commandes linguistiques ou des images d'objectif, et peut être efficacement affinée à des configurations robotiques avec de nouvelles entrées sensorielles et espaces d'action en quelques heures sur des GPU grand public standards. Dans des expériences menées sur 9 plateformes robotiques, nous démontrons qu'Octo sert d'initialisation de politique polyvalente qui peut être efficacement affinée à de nouveaux espaces d'observation et d'action. Nous effectuons également des ablations détaillées des décisions de conception pour le modèle Octo, de l'architecture aux données d'entraînement, afin de guider les recherches futures sur la construction de modèles robotiques généralistes.
Les Transformers sont devenus des architectures fondamentales pour les tâches de traitement du langage naturel et de vision par ordinateur. Cependant, leur coût computationnel élevé rend leur déploiement sur des appareils à ressources limitées particulièrement difficile. Cet article étudie les modules qui constituent des goulots d'étranglement computationnels dans les Transformers efficaces, à savoir les couches de normalisation et les modules d'attention. Le LayerNorm est couramment utilisé dans les architectures de Transformers, mais il n'est pas favorable sur le plan computationnel en raison du calcul des statistiques pendant l'inférence. Cependant, remplacer le LayerNorm par le BatchNorm, plus efficace, dans les Transformers conduit souvent à une performance inférieure et à un effondrement pendant l'entraînement. Pour résoudre ce problème, nous proposons une nouvelle méthode appelée PRepBN pour remplacer progressivement le LayerNorm par un BatchNorm reparamétré pendant l'entraînement. De plus, nous proposons un module d'attention linéaire simplifié (SLA) qui est simple mais efficace pour atteindre de solides performances. Des expériences approfondies sur la classification d'images ainsi que sur la détection d'objets démontrent l'efficacité de notre méthode proposée. Par exemple, notre SLAB-Swin obtient une précision top-1 de 83,6 % sur ImageNet-1K avec une latence de 16,2 ms, ce qui est 2,4 ms de moins que celle de Flatten-Swin avec une précision supérieure de 0,1 %. Nous avons également évalué notre méthode pour la tâche de modélisation du langage et obtenu des performances comparables avec une latence réduite. Les codes sont disponibles publiquement à l'adresse https://github.com/xinghaochen/SLAB et https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
Dans ce travail, nous proposons une nouvelle méthode de Trajectory Score Matching (TSM) visant à résoudre le problème d'incohérence des pseudo-vérités terrain causé par l'erreur accumulée dans la méthode Interval Score Matching (ISM) lors de l'utilisation du processus d'inversion des modèles implicites de débruitage par diffusion (DDIM). Contrairement à ISM qui adopte le processus d'inversion de DDIM pour calculer sur un seul chemin, notre méthode TSM exploite le processus d'inversion de DDIM pour générer deux chemins à partir du même point de départ pour le calcul. Puisque les deux chemins partent du même point de départ, TSM peut réduire l'erreur accumulée par rapport à ISM, atténuant ainsi le problème d'incohérence des pseudo-vérités terrain. TSM améliore la stabilité et la cohérence des chemins générés par le modèle pendant le processus de distillation. Nous démontrons cela expérimentalement et montrons en outre qu'ISM est un cas particulier de TSM. De plus, pour optimiser le processus actuel d'optimisation multi-étapes allant du texte haute résolution à la génération 3D, nous adoptons Stable Diffusion XL pour le guidage. En réponse aux problèmes de réplication anormale et de division causés par des gradients instables pendant le processus de splatting Gaussien 3D lors de l'utilisation de Stable Diffusion XL, nous proposons une méthode de découpage des gradients pixel par pixel. Des expériences approfondies montrent que notre modèle surpasse significativement les modèles de pointe en termes de qualité visuelle et de performance. Code : https://github.com/xingy038/Dreamer-XL.