Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, notre objectif est d'améliorer les performances de SwiftBrush, un modèle de diffusion de texte en image en une étape de premier plan, afin qu'il soit compétitif avec son homologue Stable Diffusion à plusieurs étapes. Nous explorons initialement le compromis qualité-diversité entre SwiftBrush et SD Turbo : le premier excelle dans la diversité des images, tandis que le second excelle dans la qualité des images. Cette observation motive nos modifications proposées dans la méthodologie d'entraînement, comprenant une meilleure initialisation des poids et un entraînement LoRA efficace. De plus, notre introduction d'une nouvelle perte CLIP clippée améliore l'alignement image-texte et conduit à une meilleure qualité d'image. Remarquablement, en combinant les poids des modèles entraînés avec LoRA efficace et un entraînement complet, nous obtenons un nouveau modèle de diffusion en une étape de pointe, atteignant un FID de 8,14 et dépassant tous les modèles basés sur GAN et les modèles Stable Diffusion à plusieurs étapes. Le code d'évaluation est disponible sur : https://github.com/vinairesearch/swiftbrushv2.
Ces dernières années, les modèles fondamentaux (MF), tels que les grands modèles de langage (GML) et les modèles de diffusion latente (MDL), ont profondément impacté divers secteurs, y compris la musique. Cette revue exhaustive examine les modèles pré-entraînés de pointe (SOTA) et les modèles fondamentaux en musique, couvrant l'apprentissage de la représentation, l'apprentissage génératif et l'apprentissage multimodal. Nous contextualisons d'abord l'importance de la musique dans diverses industries et retraçons l'évolution de l'IA dans la musique. En délimitant les modalités ciblées par les modèles fondamentaux, nous découvrons que de nombreuses représentations musicales sont peu explorées dans le développement des MF. Ensuite, nous mettons l'accent sur le manque de polyvalence des méthodes précédentes dans diverses applications musicales, ainsi que sur le potentiel des MF dans la compréhension, la génération et l'application médicale de la musique. En explorant de manière exhaustive les détails du paradigme de pré-entraînement du modèle, les choix architecturaux, la tokenisation, les méthodologies de finetuning et la contrôlabilité, nous soulignons les sujets importants qui auraient dû être bien explorés, comme l'ajustement des instructions et l'apprentissage en contexte, la loi d'échelle et la capacité émergente, ainsi que la modélisation de longues séquences, etc. Une section dédiée présente des aperçus sur les agents musicaux, accompagnés d'une analyse approfondie des ensembles de données et des évaluations essentielles pour le pré-entraînement et les tâches en aval. Enfin, en soulignant l'importance vitale des considérations éthiques, nous préconisons que les recherches futures sur les MF en musique devraient se concentrer davantage sur des questions telles que l'interprétabilité, la transparence, la responsabilité humaine et les problèmes de droits d'auteur. L'article offre des perspectives sur les défis et tendances futurs des MF en musique, visant à façonner la trajectoire de la collaboration homme-IA dans le domaine musical.
La résolution des problèmes GitHub est une tâche critique en génie logiciel, attirant récemment une attention significative tant dans l'industrie que dans le milieu universitaire. Dans le cadre de cette tâche, SWE-bench a été publié pour évaluer les capacités de résolution de problèmes des grands modèles de langage (LLM), mais s'est jusqu'à présent concentré uniquement sur la version Python. Cependant, le support de plus de langages de programmation est également important, car il existe une forte demande dans l'industrie. En tant que première étape vers un support multilingue, nous avons développé une version Java de SWE-bench, appelée SWE-bench-java. Nous avons publié publiquement l'ensemble de données, ainsi que l'environnement d'évaluation basé sur Docker correspondant et le classement, qui seront continuellement entretenus et mis à jour dans les mois à venir. Pour vérifier la fiabilité de SWE-bench-java, nous mettons en œuvre une méthode classique SWE-agent et testons plusieurs LLM puissants dessus. Comme il est bien connu, le développement d'un banc d'essai multilingue de haute qualité est chronophage et intensif en main-d'œuvre, nous accueillons donc les contributions via des demandes de tirage ou des collaborations pour accélérer son itération et son affinement, ouvrant la voie à la programmation entièrement automatisée.
L'avancée rapide des modèles génératifs visuels nécessite des méthodes d'évaluation efficaces et fiables. La plateforme Arena, qui recueille les votes des utilisateurs sur les comparaisons de modèles, peut classer les modèles selon les préférences humaines. Cependant, les méthodes traditionnelles d'Arena, bien établies, nécessitent un nombre excessif de comparaisons pour que le classement converge et sont vulnérables au bruit des préférences dans les votes, suggérant la nécessité de meilleures approches adaptées aux défis d'évaluation contemporains. Dans cet article, nous présentons K-Sort Arena, une plateforme efficace et fiable basée sur un aperçu clé : les images et les vidéos possèdent une plus grande intuitivité perceptuelle que les textes, permettant une évaluation rapide de plusieurs échantillons simultanément. En conséquence, K-Sort Arena utilise des comparaisons K-wise, permettant à K modèles de participer à des compétitions tous contre tous, ce qui fournit des informations beaucoup plus riches que les comparaisons par paires. Pour améliorer la robustesse du système, nous exploitons la modélisation probabiliste et les techniques de mise à jour bayésienne. Nous proposons une stratégie de jumelage basée sur l'exploration-exploitation pour faciliter des comparaisons plus informatives. Dans nos expériences, K-Sort Arena présente une convergence 16,3 fois plus rapide par rapport à l'algorithme ELO largement utilisé. Pour valider davantage la supériorité et obtenir un classement complet, nous recueillons les retours des humains via des évaluations participatives de nombreux modèles de texte vers image et de texte vers vidéo de pointe. Grâce à son efficacité élevée, K-Sort Arena peut incorporer continuellement de nouveaux modèles et mettre à jour le classement avec un nombre minimal de votes. Notre projet a fait l'objet de plusieurs mois de tests internes et est désormais disponible sur https://huggingface.co/spaces/ksort/K-Sort-Arena.
L'adoption généralisée des grands modèles de langage propriétaires basés sur le cloud a introduit des défis significatifs, notamment des dépendances opérationnelles, des préoccupations en matière de confidentialité et la nécessité d'une connectivité Internet continue. Dans ce travail, nous présentons un pipeline LLMOps, "LlamaDuo", pour la migration transparente des connaissances et des capacités des LLMs orientés service vers des modèles plus petits et gérables localement. Ce pipeline est essentiel pour garantir la continuité du service en cas de défaillances opérationnelles, de politiques de confidentialité strictes ou d'exigences hors ligne. Notre LlamaDuo implique un ajustement fin d'un petit modèle de langage par rapport au LLM de service en utilisant un ensemble de données synthétiques généré par ce dernier. Si les performances du modèle ajusté finement ne répondent pas aux attentes, il est amélioré par un ajustement fin supplémentaire avec des données similaires supplémentaires créées par le LLM de service. Ce processus itératif garantit que le modèle plus petit peut éventuellement égaler, voire dépasser, les capacités du LLM de service dans des tâches spécifiques en aval, offrant ainsi une solution pratique et évolutive pour la gestion des déploiements d'IA dans des environnements contraints. Des expériences approfondies avec des LLM de pointe sont menées pour démontrer l'efficacité, l'adaptabilité et l'accessibilité de LlamaDuo dans diverses tâches en aval. Notre implémentation du pipeline est disponible sur https://github.com/deep-diver/llamaduo.
Trouver le taux d'apprentissage optimal pour la pré-entraînement des modèles de langage est une tâche difficile. Ceci est dû non seulement à la corrélation complexe entre le taux d'apprentissage, la taille du lot, le nombre de jetons d'entraînement, la taille du modèle et d'autres hyperparamètres, mais aussi au coût prohibitif de réaliser une recherche d'hyperparamètres pour de grands modèles de langage avec des milliards ou des billions de paramètres. Des études récentes proposent d'utiliser de petits modèles proxy et un petit corpus pour effectuer des recherches d'hyperparamètres et de transposer les paramètres optimaux à de grands modèles et de grands corpus. Alors que la transférabilité zéro-shot est théoriquement et empiriquement prouvée pour les hyperparamètres liés à la taille du modèle, comme la profondeur et la largeur, le transfert zéro-shot du petit corpus au grand corpus est peu exploré. Dans cet article, nous étudions la corrélation entre le taux d'apprentissage optimal, la taille du lot et le nombre de jetons d'entraînement pour l'ordonnanceur WSD récemment proposé. Après des milliers de petites expériences, nous avons trouvé une relation de loi de puissance entre les variables et démontré sa transférabilité à travers les tailles de modèle. Sur la base de l'observation, nous proposons un nouvel ordonnanceur de taux d'apprentissage, l'ordonnanceur Power, qui est agnostique quant au nombre de jetons d'entraînement et à la taille du lot. L'expérience montre que la combinaison de l'ordonnanceur Power avec la Paramétrisation de Mise à Jour Maximale (muP) peut atteindre de manière cohérente des performances impressionnantes avec un ensemble d'hyperparamètres quel que soit le nombre de jetons d'entraînement, la taille du lot, la taille du modèle, voire l'architecture du modèle. Nos modèles denses 3B et MoE entraînés avec l'ordonnanceur Power atteignent des performances comparables à celles des petits modèles de langage de pointe. Nous mettons ces modèles pré-entraînés en open source sur https://ibm.biz/BdKhLa.
Dans les jeux de tir à la première personne multijoueurs comme Counter-Strike: Global Offensive (CS:GO), le mouvement coordonné est un élément essentiel des stratégies de haut niveau. Cependant, la complexité de la coordination d'équipe et la diversité des conditions présentes dans les cartes de jeu populaires rendent impraticable la création manuelle de politiques de mouvement pour chaque scénario. Nous montrons qu'il est possible d'adopter une approche basée sur les données pour créer des contrôleurs de mouvement semblables à ceux des humains pour CS:GO. Nous avons constitué un ensemble de données sur le mouvement d'équipe comprenant 123 heures de traces de jeu professionnel, et avons utilisé cet ensemble de données pour entraîner un modèle de mouvement basé sur un transformateur qui génère un mouvement d'équipe semblable à celui des humains pour tous les joueurs dans une manche de "Retakes" du jeu. Il est important de noter que le modèle de prédiction de mouvement est efficace. Effectuer des inférences pour tous les joueurs prend moins de 0,5 ms par étape de jeu (coût amorti) sur un seul cœur de CPU, ce qui le rend utilisable dans les jeux commerciaux actuels. Des évaluateurs humains ont évalué que notre modèle se comporte plus comme des humains que les bots disponibles dans le commerce et les contrôleurs de mouvement procéduraux scriptés par des experts (de 16% à 59% de plus selon l'évaluation TrueSkill de "semblable à un humain"). En utilisant des expériences impliquant des affrontements de bots en jeu, nous démontrons que notre modèle réalise des formes simples de travail d'équipe, commet moins d'erreurs de mouvement courantes, et produit des distributions de mouvement, des durées de vie des joueurs et des emplacements de kill similaires à ceux observés lors de parties professionnelles de CS:GO.
Les modèles de génération vidéo ont un potentiel considérable dans des domaines tels que la production cinématographique. Cependant, les modèles actuels de diffusion vidéo nécessitent des coûts computationnels élevés et produisent des résultats suboptimaux en raison de la complexité élevée de la tâche de génération vidéo. Dans cet article, nous proposons ConFiner, un cadre efficace de génération vidéo de haute qualité qui découple la génération vidéo en sous-tâches plus simples : le contrôle de la structure et le raffinement spatial-temporel. Il peut générer des vidéos de haute qualité avec une chaîne d'experts en modèles de diffusion prêts à l'emploi, chaque expert étant responsable d'une sous-tâche découplée. Pendant le raffinement, nous introduisons un débruitage coordonné, qui peut fusionner les capacités de plusieurs experts en diffusion en un seul échantillonnage. De plus, nous concevons le cadre ConFiner-Long, qui peut générer une vidéo longue et cohérente avec trois stratégies de contrainte sur ConFiner. Les résultats expérimentaux indiquent qu'avec seulement 10\% du coût d'inférence, notre ConFiner surpasse des modèles représentatifs tels que Lavie et Modelscope sur tous les critères objectifs et subjectifs. Et ConFiner-Long peut générer des vidéos de haute qualité et cohérentes avec jusqu'à 600 images.
Les grands modèles de langage multimodaux (MM-LLMs) ont connu des avancées significatives au cours de l'année écoulée, démontrant des performances impressionnantes sur diverses tâches. Cependant, pour démocratiser véritablement l'IA, les modèles doivent présenter de solides capacités et être capables de fonctionner efficacement sur de petites empreintes de calcul accessibles par la plupart des utilisateurs. Dans le cadre de cette quête, nous présentons LLaVaOLMoBitnet1B - le premier LLM multimodal ternaire capable de traiter des entrées Image(s)+Texte pour produire des réponses textuelles cohérentes. Le modèle est entièrement open source, accompagné de scripts d'entraînement pour encourager de nouvelles recherches dans ce domaine. Ce rapport technique associé met en lumière le processus d'entraînement, les détails de l'évaluation, les défis associés aux modèles ternaires et les opportunités futures. Lien vers le modèle : https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
L'utilisation croissante des Grands Modèles de Langage (GML) a entraîné une demande croissante de systèmes de traitement à l'échelle planétaire, où des dizaines de milliers de GPU servent continuellement des centaines de millions d'utilisateurs. Par conséquent, le débit (sous contraintes de latence raisonnables) est devenu une mesure clé déterminant les performances des systèmes de traitement. Pour augmenter le débit, différentes méthodes de parallélisme inter-appareils (par exemple, données, tenseurs, pipeline) ont été explorées. Cependant, les méthodes existantes ne tiennent pas compte du chevauchement de l'utilisation de différentes ressources au sein d'un seul appareil, ce qui entraîne une sous-utilisation et des performances sous-optimales. Nous proposons NanoFlow, un nouveau cadre de traitement qui exploite le parallélisme intra-appareil, qui chevauche l'utilisation de ressources telles que le calcul, la mémoire et le réseau au sein d'un seul appareil grâce à la programmation conjointe des opérations. Pour exploiter le parallélisme intra-appareil, NanoFlow introduit deux innovations clés : Premièrement, NanoFlow divise les requêtes en nano-lots à la granularité des opérations, ce qui rompt la dépendance des opérations séquentielles dans l'inférence des GML et permet le chevauchement ; ensuite, pour tirer parti du chevauchement, NanoFlow utilise un pipeline au niveau des opérations avec une planification des unités d'exécution, qui partitionne les unités fonctionnelles de l'appareil et exécute simultanément différentes opérations dans chaque unité. NanoFlow automatise la configuration du pipeline en utilisant un algorithme de recherche de paramètres, ce qui permet de porter facilement NanoFlow sur différents modèles. Nous implémentons NanoFlow sur des GPU NVIDIA et évaluons le débit de traitement de bout en bout sur plusieurs modèles populaires tels que LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B, etc. Avec des charges de travail pratiques, NanoFlow offre un gain de débit de 1,91 par rapport aux systèmes de traitement de pointe, atteignant de 59 % à 72 % du débit optimal sur les modèles portés.
Les grands modèles de langage (LLM) ont révolutionné le traitement du langage, offrant des résultats exceptionnels dans de multiples applications. Cependant, le déploiement des LLM sur des appareils périphériques pose plusieurs défis en termes de mémoire, d'énergie et de coûts de calcul, limitant leur utilisation généralisée sur des appareils tels que les téléphones mobiles. Une solution prometteuse consiste à réduire le nombre de bits utilisés pour représenter les poids et les activations. Bien que des travaux existants aient obtenu un succès partiel en quantifiant les LLM à des largeurs de bits inférieures, par exemple des poids sur 4 bits, quantifier les activations au-delà de 16 bits entraîne souvent des surcoûts computationnels importants en raison d'un support de quantification médiocre sur l'appareil ou d'une chute de précision considérable. Cependant, les activations sur 8 bits sont très attrayantes pour le déploiement sur appareil car elles permettraient aux LLM d'exploiter pleinement le matériel adapté aux mobiles, par exemple les unités de traitement neuronal (NPU). Dans ce travail, nous faisons une première tentative pour faciliter le déploiement sur appareil des LLM en utilisant une quantification entièrement entière. Nous examinons d'abord les limites des méthodes de quantification existantes pour le déploiement sur appareil, en mettant l'accent sur la quantification des activations. Nous abordons ensuite ces limites en introduisant une méthode de quantification post-entraînement simple, appelée MobileQuant, qui étend les travaux précédents sur la transformation équivalente des poids en optimisant conjointement la transformation des poids et les paramètres de plage d'activation de manière intégrée. MobileQuant démontre des capacités supérieures aux méthodes existantes en 1) atteignant une quantification quasi sans perte sur un large éventail de références LLM, 2) réduisant la latence et la consommation d'énergie de 20 à 50 % par rapport aux stratégies actuelles de quantification sur appareil, 3) nécessitant un budget de calcul limité, 4) étant compatible avec les unités de calcul adaptées aux mobiles, par exemple les NPU.
Les vidéos de transition jouent un rôle crucial dans la production médiatique, améliorant le flux et la cohérence des récits visuels. Les méthodes traditionnelles telles que la morphing manquent souvent d'attrait artistique et nécessitent des compétences spécialisées, limitant leur efficacité. Les récentes avancées dans la génération de vidéos basée sur des modèles de diffusion offrent de nouvelles possibilités pour créer des transitions, mais font face à des défis tels que la modélisation insuffisante des relations inter-trames et les changements de contenu abrupts. Nous proposons une approche novatrice de génération de vidéos de transition (TVG) sans entraînement, utilisant des modèles de diffusion au niveau de la vidéo pour résoudre ces limitations sans nécessiter de formation supplémentaire. Notre méthode exploite la Régression par Processus Gaussien (GPR) pour modéliser les représentations latentes, garantissant des transitions fluides et dynamiques entre les trames. De plus, nous introduisons des contrôles conditionnels basés sur l'interpolation et une architecture de Fusion Bidirectionnelle Sensible à la Fréquence (FBiF) pour améliorer le contrôle temporel et la fiabilité des transitions. Les évaluations sur des ensembles de données de référence et des paires d'images personnalisées démontrent l'efficacité de notre approche dans la génération de vidéos de transition fluides et de haute qualité. Le code est disponible sur https://sobeymil.github.io/tvg.com.
Les grands modèles de langage (LLM) tels que ChatGPT et Gemini ont considérablement fait progresser le traitement automatique du langage naturel, permettant diverses applications telles que les chatbots et la génération de contenu automatisée. Cependant, ces modèles peuvent être exploités par des individus malveillants qui créent des invitations toxiques pour susciter des réponses nuisibles ou non éthiques. Ces individus utilisent souvent des techniques de contournement pour outrepasser les mécanismes de sécurité, soulignant ainsi le besoin de méthodes robustes de détection des invitations toxiques. Les techniques de détection existantes, qu'elles soient boîte noire ou boîte blanche, rencontrent des défis liés à la diversité des invitations toxiques, à la scalabilité et à l'efficacité computationnelle. En réponse, nous proposons ToxicDetector, une méthode grise légère conçue pour détecter efficacement les invitations toxiques dans les LLM. ToxicDetector exploite les LLM pour créer des invitations de concepts toxiques, utilise des vecteurs d'incorporation pour former des vecteurs de caractéristiques, et utilise un classifieur Multi-Layer Perceptron (MLP) pour la classification des invitations. Notre évaluation sur diverses versions des modèles LLama, Gemma-2, et plusieurs ensembles de données démontre que ToxicDetector atteint une précision élevée de 96,39\% et un faible taux de faux positifs de 2,00\%, surpassant les méthodes de pointe. De plus, le temps de traitement de ToxicDetector de 0,0780 seconde par invitation le rend très adapté aux applications en temps réel. ToxicDetector atteint une haute précision, efficacité et scalabilité, en faisant une méthode pratique pour la détection des invitations toxiques dans les LLM.
Les travaux existants sur la reconstruction humaine à partir d'une seule image souffrent d'une faible généralisabilité en raison d'un manque de données d'entraînement suffisantes ou d'incohérences en 3D pour un manque de connaissances multi-vues complètes. Dans cet article, nous présentons MagicMan, un modèle de diffusion multi-vues spécifique aux humains conçu pour générer des images de nouvelles vues de haute qualité à partir d'une seule image de référence. À sa base, nous exploitons un modèle de diffusion 2D pré-entraîné en tant que prior générateur pour la généralisabilité, avec le modèle paramétrique SMPL-X en tant que prior du corps en 3D pour promouvoir la conscience en 3D. Pour relever le défi critique de maintenir la cohérence tout en réalisant une génération dense multi-vues pour une amélioration de la reconstruction humaine en 3D, nous introduisons d'abord une attention multi-vues hybride pour faciliter à la fois un échange d'informations efficace et approfondi entre différentes vues. De plus, nous présentons une double branche consciente de la géométrie pour effectuer une génération simultanée dans les domaines RGB et des normales, renforçant encore la cohérence via des indices géométriques. Enfin, pour résoudre les problèmes de forme incorrecte résultant d'une estimation imprécise de SMPL-X en conflit avec l'image de référence, nous proposons une nouvelle stratégie de raffinement itératif, qui optimise progressivement l'exactitude de SMPL-X tout en améliorant la qualité et la cohérence des vues multiples générées. Des résultats expérimentaux approfondis démontrent que notre méthode surpasse significativement les approches existantes à la fois dans la synthèse de nouvelles vues et les tâches subséquentes de reconstruction humaine en 3D.