HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

Quels sont les éléments essentiels lors de la construction de modèles vision-langage ?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

104

L'intérêt croissant pour les modèles vision-langage (VLMs) a été stimulé par les progrès des grands modèles de langage et des transformeurs de vision. Malgré l'abondance de littérature sur ce sujet, nous observons que les décisions critiques concernant la conception des VLMs sont souvent peu justifiées. Nous soutenons que ces décisions non étayées entravent les progrès dans le domaine en rendant difficile l'identification des choix qui améliorent les performances des modèles. Pour résoudre ce problème, nous menons des expériences approfondies autour des modèles pré-entraînés, du choix d'architecture, des données et des méthodes d'apprentissage. Notre consolidation des résultats inclut le développement d'Idefics2, un modèle fondationnel VLM efficace de 8 milliards de paramètres. Idefics2 atteint des performances de pointe dans sa catégorie de taille sur divers benchmarks multimodaux, et rivalise souvent avec des modèles quatre fois plus grands. Nous publions le modèle (de base, instruit et conversationnel) ainsi que les ensembles de données créés pour son entraînement.

Flux de travail RLHF : De la modélisation de la récompense au RLHF en ligne
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

Nous présentons dans ce rapport technique le flux de travail de l'apprentissage par renforcement itératif en ligne à partir de retours humains (RLHF), une méthode largement reconnue pour surpasser de manière significative son homologue hors ligne dans la littérature récente sur les grands modèles de langage (LLM). Cependant, les projets open-source existants en RLHF restent largement confinés au cadre d'apprentissage hors ligne. Dans ce rapport technique, nous visons à combler cette lacune et à fournir une recette détaillée et facilement reproductible pour le RLHF itératif en ligne. En particulier, puisque les retours humains en ligne sont généralement irréalisables pour les communautés open-source aux ressources limitées, nous commençons par construire des modèles de préférence en utilisant un ensemble diversifié de jeux de données open-source, puis utilisons ce modèle de préférence proxy pour approximer les retours humains. Ensuite, nous discutons des insights théoriques et des principes algorithmiques sous-jacents au RLHF itératif en ligne, suivis d'une implémentation pratique détaillée. Notre LLM entraîné, SFR-Iterative-DPO-LLaMA-3-8B-R, obtient des performances impressionnantes sur les benchmarks de chatbots LLM, notamment AlpacaEval-2, Arena-Hard et MT-Bench, ainsi que sur d'autres benchmarks académiques tels que HumanEval et TruthfulQA. Nous avons démontré que le fine-tuning supervisé (SFT) et le RLHF itératif peuvent atteindre des performances de pointe avec des jeux de données entièrement open-source. De plus, nous avons rendu publics nos modèles, les jeux de données curatés et des guides de code étape par étape complets. Pour plus de détails, veuillez consulter https://github.com/RLHFlow/RLHF-Reward-Modeling et https://github.com/RLHFlow/Online-RLHF.

SUTRA : Architecture de modèle de langage multilingue évolutive
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

Dans cet article, nous présentons SUTRA, une architecture de modèle de langage multilingue de grande envergure capable de comprendre, raisonner et générer du texte dans plus de 50 langues. La conception de SUTRA découple de manière unique la compréhension conceptuelle centrale du traitement spécifique à chaque langue, ce qui facilite un alignement et un apprentissage multilingues évolutifs et efficaces. En employant un cadre de Mélange d'Experts à la fois pour le traitement des langues et des concepts, SUTRA démontre à la fois une efficacité computationnelle et une réactivité. À travers des évaluations approfondies, SUTRA surpasse des modèles existants comme GPT-3.5 et Llama2 de 20 à 30 % sur les principaux benchmarks de compréhension multilingue Massive Multitask Language Understanding (MMLU) pour les tâches multilingues. Les modèles SUTRA sont également des modèles de langage en ligne qui peuvent utiliser les connaissances d'Internet pour fournir des réponses factuelles, à jour et exemptes d'hallucinations tout en conservant leurs capacités multilingues. De plus, nous explorons les implications plus larges de son architecture pour l'avenir de l'IA multilingue, en mettant en lumière son potentiel à démocratiser l'accès à la technologie de l'IA à l'échelle mondiale et à améliorer l'équité et l'utilité de l'IA dans les régions où les langues non anglaises prédominent. Nos résultats suggèrent que SUTRA comble non seulement des lacunes cruciales dans les capacités des modèles multilingues, mais établit également un nouveau standard en matière d'efficacité opérationnelle et de scalabilité dans les applications d'IA.

SambaNova SN40L : Surmonter le mur de la mémoire en IA grâce au flux de données et à la composition d'experts
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

Les modèles de langage monolithiques de grande taille (LLMs) comme GPT-4 ont ouvert la voie aux applications modernes d'IA générative. Cependant, l'entraînement, le déploiement et la maintenance de ces LLMs monolithiques à grande échelle restent extrêmement coûteux et complexes. L'augmentation disproportionnée du ratio calcul-mémoire des accélérateurs d'IA modernes a créé un "mur de mémoire", nécessitant de nouvelles méthodes pour déployer l'IA. La Composition d'Experts (CoE) est une approche modulaire alternative qui réduit les coûts et la complexité de l'entraînement et du déploiement. Cependant, cette approche présente deux défis majeurs lors de l'utilisation de matériel conventionnel : (1) sans opérations fusionnées, les modèles plus petits ont une intensité opérationnelle réduite, ce qui rend plus difficile d'atteindre une utilisation élevée ; et (2) héberger un grand nombre de modèles peut être soit prohibitivement coûteux, soit lent lors de la commutation dynamique entre eux. Dans cet article, nous décrivons comment la combinaison de la CoE, du flux de données en continu et d'un système mémoire à trois niveaux permet de surmonter le mur de mémoire de l'IA. Nous présentons Samba-CoE, un système CoE comprenant 150 experts et un total de mille milliards de paramètres. Nous déployons Samba-CoE sur le SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - une architecture d'accélérateur de flux de données conçue conjointement pour les applications d'inférence et d'entraînement en entreprise. Le processeur introduit un nouveau système mémoire à trois niveaux avec de la SRAM distribuée sur puce, de la HBM sur package et de la DRAM DDR hors package. Un réseau inter-RDU dédié permet une montée en puissance et en échelle sur plusieurs sockets. Nous démontrons des accélérations allant de 2x à 13x sur divers benchmarks exécutés sur huit sockets RDU par rapport à une base de référence non fusionnée. Nous montrons que pour les déploiements d'inférence CoE, le nœud RDU à 8 sockets réduit l'empreinte machine jusqu'à 19x, accélère le temps de commutation de modèle de 15x à 31x, et obtient une accélération globale de 3,7x par rapport à un DGX H100 et de 6,6x par rapport à un DGX A100.

MS MARCO Web Search : un vaste ensemble de données web riche en informations avec des millions de labels de clics réels
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

Les récentes avancées dans les grands modèles ont mis en lumière l'importance cruciale de l'échelle des données, des étiquettes et des modalités. Dans cet article, nous présentons MS MARCO Web Search, le premier ensemble de données web à grande échelle riche en informations, comportant des millions d'étiquettes réelles de requêtes-documents cliquées. Cet ensemble de données reproduit fidèlement la distribution réelle des documents et des requêtes sur le web, fournit des informations riches pour divers types de tâches en aval et encourage la recherche dans divers domaines, tels que les modèles d'indexation neuronale génériques de bout en bout, les modèles d'embedding génériques et les systèmes d'accès à l'information de nouvelle génération avec des grands modèles de langage. MS MARCO Web Search propose un benchmark de recherche avec trois tâches de défi de recherche web qui exigent des innovations dans les domaines de l'apprentissage automatique et de la recherche en systèmes de recherche d'information. En tant que premier ensemble de données répondant aux exigences de volume, de réalité et de richesse des données, MS MARCO Web Search ouvre la voie à de futures avancées dans la recherche en IA et en systèmes. L'ensemble de données MS MARCO Web Search est disponible à l'adresse suivante : https://github.com/microsoft/MS-MARCO-Web-Search.

Plot2Code : Un Benchmark Complet pour l'Évaluation des Modèles de Langage Multimodaux de Grande Taille dans la Génération de Code à partir de Graphiques Scientifiques
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

Les progrès remarquables des modèles de langage multi-modaux (MLLMs) ont suscité une attention considérable en raison de leurs performances supérieures dans des contextes visuels. Cependant, leurs capacités à transformer des figures visuelles en code exécutable n'ont pas été évaluées de manière approfondie. Pour répondre à cela, nous introduisons Plot2Code, un benchmark complet de codage visuel conçu pour une évaluation juste et détaillée des MLLMs. Nous avons soigneusement collecté 132 graphiques matplotlib de haute qualité, sélectionnés manuellement, couvrant six types de graphiques provenant de galeries matplotlib publiquement accessibles. Pour chaque graphique, nous fournissons attentivement son code source ainsi qu'une instruction descriptive résumée par GPT-4. Cette approche permet à Plot2Code d'évaluer de manière extensive les capacités de codage des MLLMs à travers diverses modalités d'entrée. De plus, nous proposons trois métriques d'évaluation automatiques, incluant le taux de réussite du code, le ratio de correspondance textuelle et l'évaluation globale par GPT-4V, pour une évaluation fine du code généré et des images rendues. Au lieu de simplement juger en termes de réussite ou d'échec, nous utilisons GPT-4V pour porter un jugement global entre les images générées et les images de référence, ce qui s'est avéré cohérent avec l'évaluation humaine. Les résultats de l'évaluation, qui incluent des analyses de 14 MLLMs tels que le GPT-4V propriétaire, Gemini-Pro et le Mini-Gemini open-source, mettent en évidence les défis substantiels posés par Plot2Code. Avec Plot2Code, nous révélons que la plupart des MLLMs existants peinent à coder visuellement des graphiques riches en texte, dépendant fortement des instructions textuelles. Nous espérons que les résultats d'évaluation de Plot2Code sur le codage visuel guideront le développement futur des MLLMs. Toutes les données associées à Plot2Code sont disponibles à l'adresse suivante : https://huggingface.co/datasets/TencentARC/Plot2Code.

Piccolo2 : Encodage de texte généralisé par entraînement avec fonction de perte hybride multi-tâches
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

Dans ce rapport, nous présentons Piccolo2, un modèle d'embedding qui surpasse les autres modèles dans l'évaluation complète de 6 tâches sur le benchmark CMTEB, établissant ainsi un nouvel état de l'art. Piccolo2 exploite principalement une approche de formation hybride multi-tâches efficace, tirant parti des données textuelles et des étiquettes provenant de diverses tâches en aval. De plus, Piccolo2 augmente la dimension de l'embedding et utilise la formation MRL pour prendre en charge des dimensions de vecteurs plus flexibles. Les informations les plus récentes sur les modèles Piccolo peuvent être consultées via : https://huggingface.co/sensenova/

LogoMotion : Génération de code visuellement ancré pour des animations adaptées au contenu
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

Les logos animés constituent un moyen captivant et omniprésent pour les individus et les marques de se représenter en ligne. La création manuelle de ces logos peut nécessiter des compétences artistiques et un effort considérables. Pour aider les designers débutants à animer des logos, les outils de conception proposent actuellement des modèles et des préréglages d'animation. Cependant, ces solutions peuvent être limitées dans leur portée expressive. Les grands modèles de langage ont le potentiel d'aider les designers débutants à créer des logos animés en générant du code d'animation adapté à leur contenu. Dans cet article, nous présentons LogoMotion, un système basé sur un grand modèle de langage qui prend en entrée un document en couches et génère des logos animés grâce à une synthèse de programmes visuellement ancrée. Nous introduisons des techniques pour créer une représentation HTML d'un canevas, identifier les éléments primaires et secondaires, synthétiser du code d'animation et déboguer visuellement les erreurs d'animation. En comparaison avec un outil standard de l'industrie, nous constatons que LogoMotion produit des animations plus conscientes du contenu et de qualité équivalente. Nous concluons par une discussion sur les implications des animations générées par les grands modèles de langage pour le design de mouvement.

Les grands modèles de langage en tant que générateurs de domaines de planification
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

Le développement de modèles de domaine reste l'un des rares domaines nécessitant un travail manuel humain dans la planification en IA. Ainsi, afin de rendre la planification plus accessible, il est souhaitable d'automatiser le processus de génération de modèles de domaine. Dans cette optique, nous explorons si les grands modèles de langage (LLMs) peuvent être utilisés pour générer des modèles de domaine de planification à partir de descriptions textuelles simples. Plus précisément, nous introduisons un cadre pour l'évaluation automatisée des domaines générés par les LLMs en comparant les ensembles de plans pour les instances de domaine. Enfin, nous effectuons une analyse empirique de 7 grands modèles de langage, incluant des modèles de codage et de conversation, sur 9 domaines de planification différents, et sous trois classes de descriptions de domaine en langage naturel. Nos résultats indiquent que les LLMs, en particulier ceux avec un nombre élevé de paramètres, montrent un niveau modéré de compétence dans la génération de domaines de planification corrects à partir de descriptions en langage naturel. Notre code est disponible à l'adresse suivante : https://github.com/IBM/NL2PDDL.

SambaNova SN40L : Surmonter le mur de la mémoire en IA grâce au flux de données et à la composition d'experts
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13