Articles de recherche en IA sélectionnés quotidiennement avec traductions
Bien que les modèles de langage à grande échelle (LLMs) démontrent des capacités impressionnantes en génération de texte, nous constatons que leur aptitude n'a pas encore été généralisée à la musique, le langage créatif de l'humanité. Nous présentons ChatMusician, un LLM open-source qui intègre des capacités musicales intrinsèques. Il est basé sur un pré-entraînement continu et un ajustement fin de LLaMA2 sur une représentation musicale compatible avec le texte, la notation ABC, où la musique est traitée comme une seconde langue. ChatMusician peut comprendre et générer de la musique avec un tokeniseur de texte pur, sans aucune structure neuronale ou tokeniseur multimodaux externes. Fait intéressant, l'ajout de capacités musicales ne nuit pas aux compétences linguistiques, atteignant même un score MMLU légèrement supérieur. Notre modèle est capable de composer de la musique bien structurée et de longue durée, conditionnée par des textes, des accords, des mélodies, des motifs, des formes musicales, etc., surpassant la base de référence GPT-4. Sur notre benchmark méticuleusement élaboré de compréhension musicale de niveau universitaire, MusicTheoryBench, ChatMusician surpasse LLaMA2 et GPT-3.5 en configuration zero-shot par une marge notable. Notre travail révèle que les LLMs peuvent être d'excellents compresseurs pour la musique, mais il reste un territoire significatif à conquérir. Nous publions notre corpus de 4B tokens MusicPile, le benchmark MusicTheoryBench collecté, le code, le modèle et une démonstration sur GitHub.
Nous présentons Nemotron-4 15B, un grand modèle de langage multilingue de 15 milliards de paramètres entraîné sur 8 000 milliards de tokens de texte. Nemotron-4 15B démontre des performances solides lorsqu'il est évalué sur des tâches en anglais, multilingues et de codage : il surpasse tous les modèles ouverts de taille similaire dans 4 des 7 domaines d'évaluation en aval et atteint des performances compétitives par rapport aux modèles ouverts leaders dans les autres. Plus précisément, Nemotron-4 15B présente les meilleures capacités multilingues parmi tous les modèles de taille similaire, surpassant même des modèles plus de quatre fois plus grands et ceux spécialement conçus pour les tâches multilingues.
Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cette approche engendre des coûts substantiels et peut entraîner une redondance potentielle dans les compétences. Une stratégie alternative consiste à combiner des LLM existants en un LLM plus robuste, réduisant ainsi la nécessité d'un pré-entraînement coûteux. Cependant, en raison de la diversité des architectures des LLM, la fusion directe des paramètres s'avère irréalisable. Récemment, FuseLLM a introduit le concept de fusion de connaissances pour transférer le savoir collectif de plusieurs LLM structurellement variés vers un LLM cible via un entraînement continu léger. Dans ce rapport, nous étendons l'évolutivité et la flexibilité du cadre FuseLLM pour réaliser la fusion de LLM de chat, aboutissant à FuseChat. FuseChat comprend deux étapes principales. Premièrement, nous effectuons une fusion de connaissances pour des LLM sources de structures et de tailles variées afin de dériver plusieurs LLM cibles de structure et de taille identiques via un ajustement fin léger. Ensuite, ces LLM cibles sont fusionnés dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les poids de fusion basée sur le ratio de variation des matrices de paramètres avant et après l'ajustement fin. Nous validons notre approche en utilisant trois LLM de chat de premier plan avec des architectures et des échelles diverses, à savoir NH2-Mixtral-8x7B, NH2-Solar-10.7B et OpenChat-3.5-7B. Les résultats expérimentaux couvrant divers domaines de chat démontrent la supériorité de \textsc{FuseChat-7B} sur un large spectre de LLM de chat aux échelles de 7B et 34B, surpassant même GPT-3.5 (mars) et approchant Mixtral-8x7B-Instruct. Notre code, les poids des modèles et les données sont librement accessibles à l'adresse https://github.com/fanqiwan/FuseLLM.
Nous présentons la conception, la mise en œuvre et l'expérience d'ingénierie dans la construction et le déploiement de MegaScale, un système de production pour l'entraînement de modèles de langage à grande échelle (LLM) sur plus de 10 000 GPU. L'entraînement de LLM à cette échelle pose des défis sans précédent en termes d'efficacité et de stabilité de l'entraînement. Nous adoptons une approche full-stack qui co-conçoit les composants algorithmiques et système à travers la conception des blocs de modèle et de l'optimiseur, le chevauchement des calculs et des communications, l'optimisation des opérateurs, le pipeline de données et le réglage des performances réseau. Maintenir une efficacité élevée tout au long du processus d'entraînement (c'est-à-dire la stabilité) est une considération importante en production, étant donné la longue durée des tâches d'entraînement des LLM. De nombreux problèmes de stabilité difficiles n'apparaissent qu'à grande échelle, et une observabilité approfondie est la clé pour les résoudre. Nous développons un ensemble d'outils de diagnostic pour surveiller les composants système et les événements en profondeur dans la pile, identifier les causes racines et dériver des techniques efficaces pour atteindre la tolérance aux fautes et atténuer les retardataires. MegaScale atteint une utilisation des FLOPs du modèle (MFU) de 55,2 % lors de l'entraînement d'un modèle LLM de 175B sur 12 288 GPU, améliorant le MFU de 1,34x par rapport à Megatron-LM. Nous partageons notre expérience opérationnelle dans l'identification et la correction des défaillances et des retardataires. Nous espérons qu'en articulant les problèmes et en partageant notre expérience d'un point de vue système, ce travail pourra inspirer les futures recherches sur les systèmes LLM.
L'adaptation à faible rang (LoRA) est largement utilisée dans les modèles de génération d'images à partir de texte pour la représentation précise d'éléments spécifiques tels que des personnages distincts ou des styles uniques dans les images générées. Cependant, les méthodes existantes rencontrent des difficultés à composer efficacement plusieurs LoRAs, en particulier lorsque le nombre de LoRAs à intégrer augmente, ce qui entrave la création d'images complexes. Dans cet article, nous étudions la composition multi-LoRA à travers une perspective centrée sur le décodage. Nous présentons deux méthodes ne nécessitant pas d'entraînement : LoRA Switch, qui alterne entre différentes LoRAs à chaque étape de débruitage, et LoRA Composite, qui intègre simultanément toutes les LoRAs pour guider une synthèse d'image plus cohérente. Pour évaluer les approches proposées, nous établissons ComposLoRA, un nouveau banc d'essai complet dans le cadre de cette recherche. Il comprend une gamme variée de catégories de LoRAs avec 480 ensembles de composition. En utilisant un cadre d'évaluation basé sur GPT-4V, nos résultats montrent une nette amélioration des performances avec nos méthodes par rapport à la base de référence courante, particulièrement évidente lors de l'augmentation du nombre de LoRAs dans une composition.
Nous étudions si les modèles de langage à grande échelle (LLMs) effectuent de manière latente un raisonnement multi-étapes avec des prompts complexes tels que "La mère du chanteur de 'Superstition' est". Nous recherchons des preuves d'un chemin de raisonnement latent où un LLM (1) identifie de manière latente "le chanteur de 'Superstition'" comme étant Stevie Wonder, l'entité pont, et (2) utilise sa connaissance de la mère de Stevie Wonder pour compléter le prompt. Nous analysons ces deux étapes individuellement et considérons leur co-occurrence comme indicative d'un raisonnement multi-étapes latent. Pour la première étape, nous testons si le fait de modifier le prompt pour mentionner indirectement l'entité pont plutôt qu'une autre entité augmente le rappel interne de l'entité pont par le LLM. Pour la deuxième étape, nous testons si l'augmentation de ce rappel améliore l'utilisation par le LLM de ce qu'il sait sur l'entité pont. Nous trouvons des preuves solides d'un raisonnement multi-étapes latent pour les prompts de certains types de relations, avec le chemin de raisonnement utilisé dans plus de 80% des prompts. Cependant, l'utilisation est hautement contextuelle, variant selon les différents types de prompts. De plus, en moyenne, les preuves pour la deuxième étape et le parcours complet multi-étapes sont plutôt modérées et seulement substantielles pour la première étape. Par ailleurs, nous observons une tendance claire de mise à l'échelle avec l'augmentation de la taille du modèle pour la première étape du raisonnement, mais pas pour la deuxième étape. Nos résultats expérimentaux suggèrent des défis et des opportunités potentiels pour le développement et les applications futures des LLMs.
Les sources de données structurées, telles que les tableaux, les graphiques et les bases de données, sont des sources de connaissances omniprésentes. Malgré les capacités démontrées des grands modèles de langage (LLMs) sur le texte brut, leur aptitude à interpréter et à utiliser des données structurées reste limitée. Notre enquête révèle une lacune notable dans la capacité des LLMs à traiter les données structurées, par exemple, ChatGPT est en retard par rapport au modèle de pointe (SoTA) d'une moyenne de 35 %. Pour renforcer les capacités de fondement des connaissances structurées (SKG) dans les LLMs, nous avons développé un ensemble de données complet pour l'ajustement par instruction, comprenant 1,1 million d'exemples. En utilisant cet ensemble de données, nous avons entraîné une série de modèles, appelés StructLM, basés sur l'architecture Code-LLaMA, allant de 7B à 34B paramètres. Notre série StructLM surpasse les modèles spécifiques à la tâche sur 14 des 18 ensembles de données évalués et établit de nouveaux records SoTA sur 7 tâches SKG. De plus, StructLM démontre une généralisation exceptionnelle sur 6 nouvelles tâches SKG. Contrairement aux attentes, nous observons que l'augmentation de la taille du modèle offre des avantages marginaux, avec StructLM-34B ne montrant que de légères améliorations par rapport à StructLM-7B. Cela suggère que le fondement des connaissances structurées reste une tâche difficile et nécessite une conception plus innovante pour atteindre un nouveau niveau.
"Plus grand est mieux" a été la tendance dominante dans le développement récent des grands modèles de langage (LLM). Cependant, les LLM ne conviennent pas bien aux scénarios nécessitant un traitement sur appareil, une efficacité énergétique, une empreinte mémoire réduite et une réponse rapide. Ces exigences sont cruciales pour la confidentialité, la sécurité et un déploiement durable. Cet article explore le paradigme "moins c'est plus" en relevant le défi de concevoir des petits modèles de langage (SLM) précis et efficaces pour les appareils à ressources limitées. Notre contribution principale est l'introduction d'un SLM open-source précis et entièrement transparent de 0,5 milliard de paramètres, nommé MobiLlama, répondant aux besoins spécifiques du calcul à ressources contraintes avec un accent sur une performance accrue et des demandes de ressources réduites. MobiLlama est une conception de SLM qui part d'un modèle plus grand et applique un schéma minutieux de partage de paramètres pour réduire à la fois le coût de pré-entraînement et de déploiement. Notre travail vise non seulement à combler le manque de SLM open-source, mais aussi à garantir une transparence totale, où l'ensemble du pipeline de données d'entraînement, le code d'entraînement, les poids du modèle, ainsi que plus de 300 points de contrôle et les codes d'évaluation sont disponibles à l'adresse suivante : https://github.com/mbzuai-oryx/MobiLlama.
Les configurations comparatives (par exemple, choix par paires, classement par liste) ont été largement adoptées dans une variété d'études subjectives pour l'évaluation de la qualité d'image (IQA), car elles standardisent intrinsèquement les critères d'évaluation entre différents observateurs et offrent des réponses plus claires. Dans ce travail, nous repoussons les limites des modèles multimodaux de grande taille (LMMs) émergents pour faire progresser la comparaison de qualité visuelle dans des contextes ouverts, capables de : 1) répondre à des questions ouvertes sur la comparaison de qualité ; 2) fournir des raisonnements détaillés au-delà des réponses directes. À cette fin, nous proposons le Co-Instruct. Pour entraîner ce comparateur de qualité visuelle ouvert et open-source, une première du genre, nous collectons le jeu de données Co-Instruct-562K à partir de deux sources : (a) des descriptions de qualité d'image unique fusionnées par LMM, (b) des réponses de "l'enseignant" GPT-4V sur des données non étiquetées. De plus, pour mieux évaluer ce cadre, nous proposons le MICBench, le premier benchmark pour la comparaison multi-images des LMMs. Nous démontrons que Co-Instruct non seulement atteint une précision supérieure de 30 % par rapport aux LMMs open-source de pointe, mais surpasse également GPT-4V (son enseignant), à la fois sur les benchmarks existants connexes et sur le MICBench proposé. Notre modèle est publié à l'adresse https://huggingface.co/q-future/co-instruct.
Alors que les grands modèles de langage (LLM) deviennent de plus en plus répandus dans de nombreuses applications du monde réel, comprendre et améliorer leur robustesse face aux entrées utilisateurs est d'une importance capitale. Les méthodes existantes pour identifier les invites adverses tendent à se concentrer sur des domaines spécifiques, manquent de diversité ou nécessitent des annotations humaines approfondies. Pour pallier ces limitations, nous présentons Rainbow Teaming, une nouvelle approche pour produire une collection diversifiée d'invites adverses. Rainbow Teaming aborde la génération d'invites adverses comme un problème de qualité-diversité, et utilise une recherche ouverte pour générer des invites à la fois efficaces et variées. Cette méthode peut révéler les vulnérabilités d'un modèle dans un large éventail de domaines, incluant, dans cet article, la sécurité, la réponse aux questions et la cybersécurité. Nous démontrons également que l'affinage sur des données synthétiques générées par Rainbow Teaming améliore la sécurité des LLM de pointe sans compromettre leurs capacités générales et leur utilité, ouvrant la voie à une amélioration continue ouverte.