Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le raisonnement mathématique représente un défi majeur pour les modèles de langage en raison de sa nature complexe et structurée. Dans cet article, nous présentons DeepSeekMath 7B, qui poursuit le pré-entraînement de DeepSeek-Coder-Base-v1.5 7B avec 120 milliards de tokens liés aux mathématiques, extraits de Common Crawl, ainsi que des données en langage naturel et en code. DeepSeekMath 7B a obtenu un score impressionnant de 51,7 % sur le benchmark MATH de niveau compétition, sans recourir à des outils externes ni à des techniques de vote, approchant ainsi les performances de Gemini-Ultra et GPT-4. La cohérence interne sur 64 échantillons de DeepSeekMath 7B atteint 60,9 % sur MATH. La capacité de raisonnement mathématique de DeepSeekMath est attribuée à deux facteurs clés : Premièrement, nous exploitons le potentiel significatif des données web publiques grâce à un pipeline de sélection de données soigneusement conçu. Deuxièmement, nous introduisons l'Optimisation de Politique Relative par Groupe (GRPO), une variante de l'Optimisation de Politique Proximale (PPO), qui améliore les capacités de raisonnement mathématique tout en optimisant simultanément l'utilisation de la mémoire de PPO.
Les modèles de génération d'images à partir de texte offrent un nouveau niveau de flexibilité créative en permettant aux utilisateurs de guider le processus de génération d'images via le langage naturel. Cependant, utiliser ces modèles pour représenter de manière cohérente le même sujet à travers divers prompts reste un défi. Les approches existantes ajustent finement le modèle pour lui enseigner de nouveaux mots décrivant des sujets spécifiques fournis par l'utilisateur ou ajoutent un conditionnement d'image au modèle. Ces méthodes nécessitent une optimisation longue par sujet ou un pré-entraînement à grande échelle. De plus, elles peinent à aligner les images générées avec les prompts textuels et rencontrent des difficultés pour représenter plusieurs sujets. Nous présentons ici ConsiStory, une approche sans entraînement qui permet la génération cohérente de sujets en partageant les activations internes du modèle pré-entraîné. Nous introduisons un bloc d'attention partagée piloté par le sujet et une injection de caractéristiques basée sur la correspondance pour promouvoir la cohérence du sujet entre les images. De plus, nous développons des stratégies pour encourager la diversité de la mise en page tout en maintenant la cohérence du sujet. Nous comparons ConsiStory à une gamme de méthodes de référence et démontrons des performances de pointe en matière de cohérence du sujet et d'alignement textuel, sans nécessiter une seule étape d'optimisation. Enfin, ConsiStory peut naturellement s'étendre à des scénarios multi-sujets, et même permettre une personnalisation sans entraînement pour des objets courants.
Pour aider la communauté open-source à mieux comprendre les modèles de langage de grande taille (LLMs) basés sur le concept de Mixture-of-Experts (MoE), nous avons entraîné et publié OpenMoE, une série de LLMs MoE décodés uniquement, entièrement open-source et reproductibles, allant de 650 millions à 34 milliards de paramètres et entraînés sur plus de 1 000 milliards de tokens. Notre étude confirme que les LLMs basés sur MoE peuvent offrir un meilleur rapport coût-efficacité que les LLMs denses, soulignant ainsi leur potentiel pour le développement futur des LLMs. Une contribution importante de cette étude est une analyse approfondie des mécanismes de routage au sein de nos modèles OpenMoE, qui a conduit à trois découvertes majeures : la spécialisation indépendante du contexte, l'apprentissage précoce du routage et la chute vers la fin. Nous avons découvert que les décisions de routage dans les modèles MoE sont principalement basées sur les identifiants des tokens, avec une pertinence contextuelle minimale. Les affectations des tokens aux experts sont déterminées tôt dans la phase de pré-entraînement et restent largement inchangées. Ce routage imparfait peut entraîner une dégradation des performances, en particulier dans les tâches séquentielles comme les conversations à plusieurs tours, où les tokens apparaissant plus tard dans une séquence sont plus susceptibles d'être abandonnés. Enfin, nous repensons notre conception sur la base des observations et analyses mentionnées ci-dessus. Pour faciliter le développement futur des LLMs MoE, nous proposons des stratégies potentielles pour atténuer les problèmes identifiés et améliorer davantage les conceptions existantes des LLMs MoE.
Les modèles à espace d'états (SSM) ont récemment démontré des performances compétitives par rapport aux transformateurs sur des benchmarks de modélisation du langage à grande échelle, tout en atteignant une complexité temporelle et mémoire linéaire en fonction de la longueur de la séquence. Mamba, un modèle SSM récemment publié, montre des performances impressionnantes à la fois dans la modélisation du langage et dans le traitement de longues séquences. Parallèlement, les modèles à mélange d'experts (MoE) ont montré des performances remarquables tout en réduisant significativement les coûts de calcul et de latence lors de l'inférence, au prix d'une empreinte mémoire plus importante. Dans cet article, nous présentons BlackMamba, une nouvelle architecture qui combine le SSM Mamba avec MoE pour bénéficier des avantages des deux. Nous démontrons que BlackMamba performe de manière compétitive par rapport aux modèles de référence Mamba et transformateurs, et surpasse en termes de FLOPs d'inférence et d'entraînement. Nous avons entièrement entraîné et rendu open-source des modèles BlackMamba de 340M/1.5B et 630M/2.8B sur 300 milliards de tokens d'un jeu de données personnalisé. Nous montrons que BlackMamba hérite et combine les avantages des architectures SSM et MoE, alliant une génération à complexité linéaire du SSM à une inférence rapide et peu coûteuse du MoE. Nous rendons publics tous les poids, points de contrôle et le code d'inférence. Code d'inférence disponible à l'adresse : https://github.com/Zyphra/BlackMamba
L'apprentissage automatique interprétable a connu un essor considérable au cours de la dernière décennie, stimulé par l'émergence de jeux de données de plus en plus volumineux et de réseaux de neurones profonds. Parallèlement, les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans un large éventail de tâches, offrant une opportunité de repenser les possibilités en matière d'apprentissage automatique interprétable. Notamment, la capacité à expliquer en langage naturel permet aux LLMs d'élargir l'échelle et la complexité des modèles qui peuvent être présentés à un humain. Cependant, ces nouvelles capacités soulèvent également de nouveaux défis, tels que des explications hallucinées et des coûts de calcul immenses. Dans ce document de position, nous commençons par passer en revue les méthodes existantes pour évaluer le domaine émergent de l'interprétation des LLMs (à la fois interpréter les LLMs et utiliser les LLMs pour fournir des explications). Nous soutenons que, malgré leurs limites, les LLMs offrent l'opportunité de redéfinir l'interprétabilité avec une portée plus ambitieuse dans de nombreuses applications, y compris dans l'audit des LLMs eux-mêmes. Nous mettons en lumière deux priorités de recherche émergentes pour l'interprétation des LLMs : l'utilisation des LLMs pour analyser directement de nouveaux jeux de données et pour générer des explications interactives.
L'alignement des modèles de langage (LMs) avec des retours humains soigneusement sélectionnés est crucial pour contrôler leurs comportements dans des applications réelles. Plusieurs méthodes récentes d'optimisation de politique, telles que DPO et SLiC, constituent des alternatives prometteuses à l'approche traditionnelle de l'apprentissage par renforcement à partir de retours humains (RLHF). En pratique, les retours humains se présentent souvent sous la forme d'une liste classée de plusieurs réponses pour amortir le coût de lecture des prompts. Plusieurs réponses peuvent également être classées par des modèles de récompense ou des retours d'IA. Il manque une étude sur l'ajustement direct à partir d'une liste de réponses. Dans ce travail, nous formulons l'alignement des LMs comme un problème de classement par liste et décrivons le cadre d'optimisation des préférences par liste (LiPO), où la politique peut potentiellement apprendre plus efficacement à partir d'une liste classée de réponses plausibles données au prompt. Cette perspective établit un lien explicite avec l'apprentissage au classement (Learning-to-Rank, LTR), où la plupart des travaux existants sur l'optimisation des préférences peuvent être mappés à des objectifs de classement existants, en particulier ceux par paires. En suivant ce lien, nous examinons des objectifs de classement qui ne sont pas bien étudiés pour l'alignement des LMs, avec DPO et SLiC comme cas particuliers lorsque la taille de la liste est de deux. En particulier, nous mettons en avant une méthode spécifique, LiPO-{\lambda}, qui exploite un objectif de classement par liste de pointe et pondère chaque paire de préférences de manière plus avancée. Nous montrons que LiPO-{\lambda} peut surpasser DPO et SLiC de manière significative sur deux tâches d'alignement des préférences.
Les récents modèles de diffusion texte-vidéo ont réalisé des progrès impressionnants. En pratique, les utilisateurs souhaitent souvent pouvoir contrôler indépendamment le mouvement des objets et le mouvement de la caméra pour créer des vidéos personnalisées. Cependant, les méthodes actuelles ne se concentrent pas sur le contrôle séparé du mouvement des objets et du mouvement de la caméra de manière découplée, ce qui limite la contrôlabilité et la flexibilité des modèles texte-vidéo. Dans cet article, nous présentons Direct-a-Video, un système qui permet aux utilisateurs de spécifier indépendamment les mouvements d'un ou plusieurs objets et/ou les mouvements de la caméra, comme s'ils dirigeaient une vidéo. Nous proposons une stratégie simple mais efficace pour le contrôle découplé du mouvement des objets et du mouvement de la caméra. Le mouvement des objets est contrôlé par modulation de l'attention croisée spatiale en utilisant les connaissances a priori du modèle, sans nécessiter d'optimisation supplémentaire. Pour le mouvement de la caméra, nous introduisons de nouvelles couches d'attention croisée temporelle pour interpréter les paramètres quantitatifs du mouvement de la caméra. Nous utilisons en outre une approche basée sur l'augmentation pour entraîner ces couches de manière auto-supervisée sur un petit ensemble de données, éliminant ainsi le besoin d'annotations explicites de mouvement. Les deux composants fonctionnent indépendamment, permettant un contrôle individuel ou combiné, et peuvent généraliser à des scénarios en domaine ouvert. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode. Page du projet : https://direct-a-video.github.io/.
Nous présentons InteractiveVideo, un cadre centré sur l'utilisateur pour la génération de vidéos. Contrairement aux approches génératives traditionnelles qui fonctionnent à partir d'images ou de textes fournis par l'utilisateur, notre cadre est conçu pour une interaction dynamique, permettant aux utilisateurs d'instruire le modèle génératif à travers divers mécanismes intuitifs tout au long du processus de génération, tels que des invites textuelles et visuelles, du dessin, du glisser-déposer, etc. Nous proposons un mécanisme d'Instruction Multimodale Synergétique, conçu pour intégrer de manière fluide les instructions multimodales des utilisateurs dans les modèles génératifs, facilitant ainsi une interaction coopérative et réactive entre les entrées utilisateur et le processus génératif. Cette approche permet un affinement itératif et granulaire du résultat de génération grâce à des instructions utilisateur précises et efficaces. Avec InteractiveVideo, les utilisateurs bénéficient de la flexibilité nécessaire pour ajuster méticuleusement les aspects clés d'une vidéo. Ils peuvent peindre l'image de référence, modifier la sémantique et ajuster les mouvements de la vidéo jusqu'à ce que leurs exigences soient pleinement satisfaites. Le code, les modèles et une démonstration sont disponibles à l'adresse suivante : https://github.com/invictus717/InteractiveVideo.
L'élagage structuré des grands modèles de langage modernes (LLMs) est apparu comme une méthode pour réduire leurs besoins computationnels élevés. L'élagage en largeur diminue la taille des matrices de poids de projection (par exemple, en supprimant des têtes d'attention) tout en maintenant le nombre de couches. L'élagage en profondeur, en revanche, supprime des couches ou des blocs entiers, tout en conservant la taille des poids restants. La plupart des recherches actuelles se concentrent soit sur l'élagage en largeur uniquement, soit sur une combinaison d'élagage en largeur et en profondeur, avec peu d'analyses comparatives entre ces deux unités (largeur vs profondeur) concernant leur impact sur l'efficacité de l'inférence des LLMs. Dans ce travail, nous montrons qu'une approche simple d'élagage en profondeur peut rivaliser avec les méthodes récentes d'élagage en largeur en termes de performance sur des tâches en zero-shot. Notre méthode d'élagage améliore les vitesses d'inférence, en particulier dans des conditions de mémoire limitée qui nécessitent des tailles de lot réduites pour exécuter les LLMs, où l'élagage en largeur est inefficace. Nous espérons que ce travail pourra faciliter le déploiement des LLMs sur des appareils locaux et périphériques.
Il existe un fossé sensoriel entre la Terre que les humains habitent et les domaines numériques dans lesquels les agents d'IA modernes sont créés. Pour développer des agents d'IA capables de percevoir, penser et agir avec la même flexibilité que les humains dans des environnements réels, il est impératif de combler l'écart de réalisme entre les mondes numérique et physique. Comment pouvons-nous incarner des agents dans un environnement aussi riche et diversifié que celui que nous habitons, sans les contraintes imposées par le matériel réel et le contrôle ? Dans cette optique, nous présentons V-IRL : une plateforme qui permet aux agents d'interagir de manière évolutive avec le monde réel dans un environnement virtuel mais réaliste. Notre plateforme sert à la fois de terrain de jeu pour développer des agents capables d'accomplir diverses tâches pratiques et de vaste banc d'essai pour mesurer les progrès dans des capacités englobant la perception, la prise de décision et l'interaction avec des données du monde réel à l'échelle planétaire.
À la lumière des avancées récentes dans les modèles de langage multimodal de grande envergure (LLMs), une attention croissante est portée sur leur extension des données image-texte à des vidéos du monde réel plus informatives. Par rapport aux images statiques, la vidéo présente des défis uniques pour un pré-entraînement efficace à grande échelle en raison de la modélisation de ses dynamiques spatio-temporelles. Dans cet article, nous abordons ces limitations dans le pré-entraînement vidéo-langage avec une décomposition vidéo efficace qui représente chaque vidéo sous forme d'images clés et de mouvements temporels. Ces éléments sont ensuite adaptés à un LLM en utilisant des tokeniseurs bien conçus qui discrétisent les informations visuelles et temporelles en quelques tokens, permettant ainsi un pré-entraînement génératif unifié des vidéos, images et textes. Lors de l'inférence, les tokens générés par le LLM sont soigneusement reconvertis dans l'espace pixel continu original pour créer divers contenus vidéo. Notre cadre proposé est à la fois capable de comprendre et de générer des contenus image et vidéo, comme en témoigne sa performance compétitive sur 13 benchmarks multimodaux dans la compréhension et la génération d'images et de vidéos. Notre code et nos modèles seront disponibles à l'adresse https://video-lavit.github.io.
L'augmentation des grands modèles de langage (LLMs) pour comprendre l'audio — incluant les sons non vocaux et les éléments non verbaux de la parole — est d'une importance cruciale pour diverses applications réelles des LLMs. Dans cet article, nous proposons Audio Flamingo, un nouveau modèle de langage audio doté de 1) fortes capacités de compréhension audio, 2) la capacité de s'adapter rapidement à des tâches inédites via l'apprentissage en contexte et la récupération, et 3) de solides capacités de dialogue multi-tours. Nous introduisons une série de techniques d'entraînement, de conception architecturale et de stratégies de données pour doter notre modèle de ces capacités. Des évaluations approfondies sur diverses tâches de compréhension audio confirment l'efficacité de notre méthode, établissant de nouveaux référentiels de pointe.
La puissance des grands modèles de langage (LLMs) a été démontrée grâce à d'importantes ressources en données et en calcul. Cependant, l'application de ces modèles de langage sur les appareils mobiles se heurte à des défis majeurs en termes de coûts de calcul et de mémoire, ce qui rend crucial le développement de petits modèles de langage à haute performance. Limitée par la complexité du processus d'entraînement, de nombreux aspects liés à l'optimisation des modèles de langage restent peu étudiés en détail. Dans cette étude, en nous basant sur un petit modèle de langage de 1 milliard de paramètres, nous concevons soigneusement une série d'expériences pour analyser l'effet de chaque composant. Trois perspectives sont principalement abordées : l'architecture neuronale, l'initialisation des paramètres et la stratégie d'optimisation. Plusieurs formules de conception s'avèrent empiriquement particulièrement efficaces pour les petits modèles de langage, notamment la compression du tokenizer, l'ajustement de l'architecture, l'héritage des paramètres et l'entraînement en plusieurs étapes. Nous entraînons ensuite PanGu-pi-1B Pro et PanGu-pi-1.5B Pro sur un corpus multilingue de 1,6 téraoctets, en suivant ces formules établies. Les résultats expérimentaux montrent que les améliorations apportées à l'optimisation et à l'architecture entraînent une amélioration moyenne notable de 8,87 sur les ensembles d'évaluation de référence pour PanGu-pi-1B Pro. Par ailleurs, PanGu-pi-1.5B Pro surpasse une gamme de modèles SOTA de tailles plus importantes, validant ainsi ses performances supérieures. Le code sera bientôt publié (https://github.com/YuchuanTian/RethinkTinyLM).
Des études récentes ont montré que les modèles de langage de code à grande échelle démontrent des gains de performance significatifs sur des tâches en aval, telles que la génération de code. Cependant, la plupart des travaux existants sur l'apprentissage de représentations de code entraînent des modèles à l'échelle de centaines de millions de paramètres en utilisant des corpus de prétraitement très limités. Dans ce travail, nous alimentons l'apprentissage de représentations de code avec une quantité massive de données de code via un schéma de prétraitement en deux étapes. Nous entraînons d'abord les encodeurs via un mélange qui exploite à la fois l'aléa dans la modélisation de langage masqué et l'aspect structurel des langages de programmation. Nous améliorons ensuite les représentations via un apprentissage contrastif avec des négatifs durs et des positifs durs construits de manière non supervisée. Nous établissons un modèle encodeur prêt à l'emploi qui surpasse de manière persistante les modèles existants sur une grande variété de tâches en aval avec des marges importantes. Pour comprendre les facteurs contribuant à un apprentissage réussi des représentations de code, nous menons des ablations détaillées et partageons nos découvertes sur (i) un schéma de débruitage personnalisé et efficace au niveau des tokens pour le code source ; (ii) l'importance des négatifs durs et des positifs durs ; (iii) comment l'apprentissage contrastif bimodal proposé améliore les performances de recherche sémantique multilingue ; et (iv) comment les schémas de prétraitement déterminent l'échelle des performances des tâches en aval en fonction de la taille du modèle.
Les modèles de diffusion Text-to-Image (T2I) à grande échelle ont révolutionné la génération d'images au cours des dernières années. Bien qu'ils possèdent des capacités de génération diversifiées et de haute qualité, la traduction de ces capacités en édition d'images à granularité fine reste un défi. Dans cet article, nous proposons DiffEditor pour corriger deux faiblesses des méthodes d'édition d'images basées sur la diffusion existantes : (1) dans des scénarios complexes, les résultats d'édition manquent souvent de précision et présentent des artefacts inattendus ; (2) un manque de flexibilité pour harmoniser les opérations d'édition, par exemple, imaginer de nouveaux contenus. Dans notre solution, nous introduisons des invites d'images dans l'édition d'images à granularité fine, en collaboration avec l'invite textuelle pour mieux décrire le contenu à éditer. Pour augmenter la flexibilité tout en maintenant la cohérence du contenu, nous combinons localement l'équation différentielle stochastique (EDS) à l'échantillonnage par équation différentielle ordinaire (EDO). De plus, nous intégrons un guidage par gradient basé sur les scores régionaux et une stratégie de voyage dans le temps dans l'échantillonnage par diffusion, améliorant ainsi la qualité de l'édition. Des expériences approfondies démontrent que notre méthode peut efficacement atteindre des performances de pointe dans diverses tâches d'édition d'images à granularité fine, y compris l'édition au sein d'une seule image (par exemple, déplacement d'objets, redimensionnement et glissement de contenu) et entre images (par exemple, remplacement d'apparence et collage d'objets). Notre code source est disponible à l'adresse suivante : https://github.com/MC-E/DragonDiffusion.