Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'intérêt croissant pour les modèles vision-langage (VLMs) a été stimulé par les progrès des grands modèles de langage et des transformeurs de vision. Malgré l'abondance de littérature sur ce sujet, nous observons que les décisions critiques concernant la conception des VLMs sont souvent peu justifiées. Nous soutenons que ces décisions non étayées entravent les progrès dans le domaine en rendant difficile l'identification des choix qui améliorent les performances des modèles. Pour résoudre ce problème, nous menons des expériences approfondies autour des modèles pré-entraînés, du choix d'architecture, des données et des méthodes d'apprentissage. Notre consolidation des résultats inclut le développement d'Idefics2, un modèle fondationnel VLM efficace de 8 milliards de paramètres. Idefics2 atteint des performances de pointe dans sa catégorie de taille sur divers benchmarks multimodaux, et rivalise souvent avec des modèles quatre fois plus grands. Nous publions le modèle (de base, instruit et conversationnel) ainsi que les ensembles de données créés pour son entraînement.
Nous présentons dans ce rapport technique le flux de travail de l'apprentissage par renforcement itératif en ligne à partir de retours humains (RLHF), une méthode largement reconnue pour surpasser de manière significative son homologue hors ligne dans la littérature récente sur les grands modèles de langage (LLM). Cependant, les projets open-source existants en RLHF restent largement confinés au cadre d'apprentissage hors ligne. Dans ce rapport technique, nous visons à combler cette lacune et à fournir une recette détaillée et facilement reproductible pour le RLHF itératif en ligne. En particulier, puisque les retours humains en ligne sont généralement irréalisables pour les communautés open-source aux ressources limitées, nous commençons par construire des modèles de préférence en utilisant un ensemble diversifié de jeux de données open-source, puis utilisons ce modèle de préférence proxy pour approximer les retours humains. Ensuite, nous discutons des insights théoriques et des principes algorithmiques sous-jacents au RLHF itératif en ligne, suivis d'une implémentation pratique détaillée. Notre LLM entraîné, SFR-Iterative-DPO-LLaMA-3-8B-R, obtient des performances impressionnantes sur les benchmarks de chatbots LLM, notamment AlpacaEval-2, Arena-Hard et MT-Bench, ainsi que sur d'autres benchmarks académiques tels que HumanEval et TruthfulQA. Nous avons démontré que le fine-tuning supervisé (SFT) et le RLHF itératif peuvent atteindre des performances de pointe avec des jeux de données entièrement open-source. De plus, nous avons rendu publics nos modèles, les jeux de données curatés et des guides de code étape par étape complets. Pour plus de détails, veuillez consulter https://github.com/RLHFlow/RLHF-Reward-Modeling et https://github.com/RLHFlow/Online-RLHF.
Dans cet article, nous présentons SUTRA, une architecture de modèle de langage multilingue de grande envergure capable de comprendre, raisonner et générer du texte dans plus de 50 langues. La conception de SUTRA découple de manière unique la compréhension conceptuelle centrale du traitement spécifique à chaque langue, ce qui facilite un alignement et un apprentissage multilingues évolutifs et efficaces. En employant un cadre de Mélange d'Experts à la fois pour le traitement des langues et des concepts, SUTRA démontre à la fois une efficacité computationnelle et une réactivité. À travers des évaluations approfondies, SUTRA surpasse des modèles existants comme GPT-3.5 et Llama2 de 20 à 30 % sur les principaux benchmarks de compréhension multilingue Massive Multitask Language Understanding (MMLU) pour les tâches multilingues. Les modèles SUTRA sont également des modèles de langage en ligne qui peuvent utiliser les connaissances d'Internet pour fournir des réponses factuelles, à jour et exemptes d'hallucinations tout en conservant leurs capacités multilingues. De plus, nous explorons les implications plus larges de son architecture pour l'avenir de l'IA multilingue, en mettant en lumière son potentiel à démocratiser l'accès à la technologie de l'IA à l'échelle mondiale et à améliorer l'équité et l'utilité de l'IA dans les régions où les langues non anglaises prédominent. Nos résultats suggèrent que SUTRA comble non seulement des lacunes cruciales dans les capacités des modèles multilingues, mais établit également un nouveau standard en matière d'efficacité opérationnelle et de scalabilité dans les applications d'IA.
Les modèles de langage monolithiques de grande taille (LLMs) comme GPT-4 ont ouvert la voie aux applications modernes d'IA générative. Cependant, l'entraînement, le déploiement et la maintenance de ces LLMs monolithiques à grande échelle restent extrêmement coûteux et complexes. L'augmentation disproportionnée du ratio calcul-mémoire des accélérateurs d'IA modernes a créé un "mur de mémoire", nécessitant de nouvelles méthodes pour déployer l'IA. La Composition d'Experts (CoE) est une approche modulaire alternative qui réduit les coûts et la complexité de l'entraînement et du déploiement. Cependant, cette approche présente deux défis majeurs lors de l'utilisation de matériel conventionnel : (1) sans opérations fusionnées, les modèles plus petits ont une intensité opérationnelle réduite, ce qui rend plus difficile d'atteindre une utilisation élevée ; et (2) héberger un grand nombre de modèles peut être soit prohibitivement coûteux, soit lent lors de la commutation dynamique entre eux. Dans cet article, nous décrivons comment la combinaison de la CoE, du flux de données en continu et d'un système mémoire à trois niveaux permet de surmonter le mur de mémoire de l'IA. Nous présentons Samba-CoE, un système CoE comprenant 150 experts et un total de mille milliards de paramètres. Nous déployons Samba-CoE sur le SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - une architecture d'accélérateur de flux de données conçue conjointement pour les applications d'inférence et d'entraînement en entreprise. Le processeur introduit un nouveau système mémoire à trois niveaux avec de la SRAM distribuée sur puce, de la HBM sur package et de la DRAM DDR hors package. Un réseau inter-RDU dédié permet une montée en puissance et en échelle sur plusieurs sockets. Nous démontrons des accélérations allant de 2x à 13x sur divers benchmarks exécutés sur huit sockets RDU par rapport à une base de référence non fusionnée. Nous montrons que pour les déploiements d'inférence CoE, le nœud RDU à 8 sockets réduit l'empreinte machine jusqu'à 19x, accélère le temps de commutation de modèle de 15x à 31x, et obtient une accélération globale de 3,7x par rapport à un DGX H100 et de 6,6x par rapport à un DGX A100.
Les récentes avancées dans les grands modèles ont mis en lumière l'importance cruciale de l'échelle des données, des étiquettes et des modalités. Dans cet article, nous présentons MS MARCO Web Search, le premier ensemble de données web à grande échelle riche en informations, comportant des millions d'étiquettes réelles de requêtes-documents cliquées. Cet ensemble de données reproduit fidèlement la distribution réelle des documents et des requêtes sur le web, fournit des informations riches pour divers types de tâches en aval et encourage la recherche dans divers domaines, tels que les modèles d'indexation neuronale génériques de bout en bout, les modèles d'embedding génériques et les systèmes d'accès à l'information de nouvelle génération avec des grands modèles de langage. MS MARCO Web Search propose un benchmark de recherche avec trois tâches de défi de recherche web qui exigent des innovations dans les domaines de l'apprentissage automatique et de la recherche en systèmes de recherche d'information. En tant que premier ensemble de données répondant aux exigences de volume, de réalité et de richesse des données, MS MARCO Web Search ouvre la voie à de futures avancées dans la recherche en IA et en systèmes. L'ensemble de données MS MARCO Web Search est disponible à l'adresse suivante : https://github.com/microsoft/MS-MARCO-Web-Search.
Les progrès remarquables des modèles de langage multi-modaux (MLLMs) ont suscité une attention considérable en raison de leurs performances supérieures dans des contextes visuels. Cependant, leurs capacités à transformer des figures visuelles en code exécutable n'ont pas été évaluées de manière approfondie. Pour répondre à cela, nous introduisons Plot2Code, un benchmark complet de codage visuel conçu pour une évaluation juste et détaillée des MLLMs. Nous avons soigneusement collecté 132 graphiques matplotlib de haute qualité, sélectionnés manuellement, couvrant six types de graphiques provenant de galeries matplotlib publiquement accessibles. Pour chaque graphique, nous fournissons attentivement son code source ainsi qu'une instruction descriptive résumée par GPT-4. Cette approche permet à Plot2Code d'évaluer de manière extensive les capacités de codage des MLLMs à travers diverses modalités d'entrée. De plus, nous proposons trois métriques d'évaluation automatiques, incluant le taux de réussite du code, le ratio de correspondance textuelle et l'évaluation globale par GPT-4V, pour une évaluation fine du code généré et des images rendues. Au lieu de simplement juger en termes de réussite ou d'échec, nous utilisons GPT-4V pour porter un jugement global entre les images générées et les images de référence, ce qui s'est avéré cohérent avec l'évaluation humaine. Les résultats de l'évaluation, qui incluent des analyses de 14 MLLMs tels que le GPT-4V propriétaire, Gemini-Pro et le Mini-Gemini open-source, mettent en évidence les défis substantiels posés par Plot2Code. Avec Plot2Code, nous révélons que la plupart des MLLMs existants peinent à coder visuellement des graphiques riches en texte, dépendant fortement des instructions textuelles. Nous espérons que les résultats d'évaluation de Plot2Code sur le codage visuel guideront le développement futur des MLLMs. Toutes les données associées à Plot2Code sont disponibles à l'adresse suivante : https://huggingface.co/datasets/TencentARC/Plot2Code.
Dans ce rapport, nous présentons Piccolo2, un modèle d'embedding qui surpasse les autres modèles dans l'évaluation complète de 6 tâches sur le benchmark CMTEB, établissant ainsi un nouvel état de l'art. Piccolo2 exploite principalement une approche de formation hybride multi-tâches efficace, tirant parti des données textuelles et des étiquettes provenant de diverses tâches en aval. De plus, Piccolo2 augmente la dimension de l'embedding et utilise la formation MRL pour prendre en charge des dimensions de vecteurs plus flexibles. Les informations les plus récentes sur les modèles Piccolo peuvent être consultées via : https://huggingface.co/sensenova/
Les logos animés constituent un moyen captivant et omniprésent pour les individus et les marques de se représenter en ligne. La création manuelle de ces logos peut nécessiter des compétences artistiques et un effort considérables. Pour aider les designers débutants à animer des logos, les outils de conception proposent actuellement des modèles et des préréglages d'animation. Cependant, ces solutions peuvent être limitées dans leur portée expressive. Les grands modèles de langage ont le potentiel d'aider les designers débutants à créer des logos animés en générant du code d'animation adapté à leur contenu. Dans cet article, nous présentons LogoMotion, un système basé sur un grand modèle de langage qui prend en entrée un document en couches et génère des logos animés grâce à une synthèse de programmes visuellement ancrée. Nous introduisons des techniques pour créer une représentation HTML d'un canevas, identifier les éléments primaires et secondaires, synthétiser du code d'animation et déboguer visuellement les erreurs d'animation. En comparaison avec un outil standard de l'industrie, nous constatons que LogoMotion produit des animations plus conscientes du contenu et de qualité équivalente. Nous concluons par une discussion sur les implications des animations générées par les grands modèles de langage pour le design de mouvement.
Le développement de modèles de domaine reste l'un des rares domaines nécessitant un travail manuel humain dans la planification en IA. Ainsi, afin de rendre la planification plus accessible, il est souhaitable d'automatiser le processus de génération de modèles de domaine. Dans cette optique, nous explorons si les grands modèles de langage (LLMs) peuvent être utilisés pour générer des modèles de domaine de planification à partir de descriptions textuelles simples. Plus précisément, nous introduisons un cadre pour l'évaluation automatisée des domaines générés par les LLMs en comparant les ensembles de plans pour les instances de domaine. Enfin, nous effectuons une analyse empirique de 7 grands modèles de langage, incluant des modèles de codage et de conversation, sur 9 domaines de planification différents, et sous trois classes de descriptions de domaine en langage naturel. Nos résultats indiquent que les LLMs, en particulier ceux avec un nombre élevé de paramètres, montrent un niveau modéré de compétence dans la génération de domaines de planification corrects à partir de descriptions en langage naturel. Notre code est disponible à l'adresse suivante : https://github.com/IBM/NL2PDDL.