Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) ont transformé le paysage de l'intelligence artificielle, bien que leur taille considérable présente des défis majeurs en termes de coûts computationnels. Nous présentons LoRAShear, une nouvelle approche efficace pour élaguer structurellement les LLMs et récupérer les connaissances. Pour des LLMs généraux, LoRAShear commence par créer des graphes de dépendance pour identifier les structures minimales à supprimer et analyser la distribution des connaissances. Il procède ensuite à un élagage structurel progressif sur les adaptateurs LoRA, permettant un transfert de connaissances intrinsèque pour mieux préserver l'information dans les structures redondantes. Pour récupérer les connaissances perdues lors de l'élagage, LoRAShear étudie minutieusement et propose des schémas de réglage fin dynamiques avec des adaptateurs de données dynamiques, afin de réduire efficacement l'écart de performance par rapport aux modèles complets. Les résultats numériques démontrent qu'en utilisant seulement un GPU en quelques jours, LoRAShear a efficacement réduit l'empreinte des LLMs de 20 % avec seulement 1,0 % de dégradation de performance, surpassant significativement les méthodes de pointe. Le code source sera disponible à l'adresse https://github.com/microsoft/lorashear.
Nous présentons MM-VID, un système intégré qui exploite les capacités de GPT-4V, combinées à des outils spécialisés en vision, audio et parole, pour faciliter une compréhension avancée des vidéos. MM-VID est conçu pour relever les défis posés par les vidéos de longue durée et les tâches complexes telles que le raisonnement sur des contenus d'une heure et la compréhension d'intrigues s'étendant sur plusieurs épisodes. MM-VID utilise une génération de script à partir de vidéo avec GPT-4V pour transcrire les éléments multimodaux en un long script textuel. Le script généré détaille les mouvements, actions, expressions et dialogues des personnages, ouvrant la voie aux grands modèles de langage (LLMs) pour atteindre une compréhension vidéo. Cela permet des capacités avancées, incluant la description audio, l'identification des personnages et une compréhension multimodale de haut niveau. Les résultats expérimentaux démontrent l'efficacité de MM-VID à traiter différents genres de vidéos avec des durées variées. De plus, nous illustrons son potentiel lorsqu'il est appliqué à des environnements interactifs, tels que les jeux vidéo et les interfaces graphiques utilisateur.
La génération de vidéos suscite un intérêt croissant tant dans le milieu académique que dans l'industrie. Bien que des outils commerciaux puissent produire des vidéos plausibles, le nombre de modèles open source disponibles pour les chercheurs et les ingénieurs reste limité. Dans ce travail, nous présentons deux modèles de diffusion pour la génération de vidéos de haute qualité, à savoir des modèles texte-à-vidéo (T2V) et image-à-vidéo (I2V). Les modèles T2V synthétisent une vidéo à partir d'une entrée textuelle donnée, tandis que les modèles I2V intègrent une entrée supplémentaire sous forme d'image. Notre modèle T2V proposé est capable de générer des vidéos réalistes et de qualité cinématographique avec une résolution de 1024 × 576, surpassant en qualité les autres modèles T2V open source. Le modèle I2V est conçu pour produire des vidéos qui respectent strictement le contenu de l'image de référence fournie, en préservant son contenu, sa structure et son style. Ce modèle est le premier modèle de base I2V open source capable de transformer une image donnée en un clip vidéo tout en respectant les contraintes de préservation du contenu. Nous pensons que ces modèles open source de génération de vidéos contribueront de manière significative aux avancées technologiques au sein de la communauté.
La demande croissante pour les modèles de langage de grande taille (LLMs) dans des applications telles que la génération de contenu, les chatbots intelligents et l'analyse de sentiments pose des défis considérables pour les fournisseurs de services LLM. Pour utiliser efficacement les ressources GPU et augmenter le débit, le regroupement de plusieurs requêtes (batching) est devenu un paradigme populaire ; pour accélérer davantage ce regroupement, les techniques de quantification des LLMs réduisent la consommation de mémoire et augmentent la capacité de calcul. Cependant, les schémas de quantification courants (par exemple, la quantification poids-activation en 8 bits) ne permettent pas de tirer pleinement parti des capacités des GPU modernes, tels que les opérateurs entiers en 4 bits, ce qui entraîne des performances sous-optimales. Pour maximiser le débit de service des LLMs, nous présentons Atom, une méthode de quantification à faible précision qui permet d'obtenir des améliorations significatives du débit avec une perte de précision négligeable. Atom augmente considérablement le débit de service en utilisant des opérateurs à faible précision et réduit notablement la consommation de mémoire grâce à une quantification à faible précision. Il atteint une haute précision en appliquant un processus novateur de quantification mixte et à granularité fine. Nous évaluons Atom dans des configurations de quantification poids-activation en 4 bits dans un contexte de service. Atom améliore le débit de bout en bout jusqu'à 7,73 fois par rapport au FP16 et 2,53 fois par rapport à la quantification INT8, tout en maintenant le même objectif de latence.
L'intégration d'un objet personnalisé dans la génération d'images représente une fonctionnalité attrayante dans la génération d'images à partir de texte. Cependant, les méthodes existantes basées sur l'optimisation et sur les encodeurs sont entravées par des inconvénients tels qu'une optimisation chronophage, une préservation insuffisante de l'identité et un effet de copier-coller prédominant. Pour surmonter ces limitations, nous introduisons CustomNet, une nouvelle approche de personnalisation d'objets qui intègre explicitement des capacités de synthèse de vues 3D novatrices dans le processus de personnalisation d'objets. Cette intégration facilite l'ajustement des relations de position spatiale et des points de vue, produisant des résultats variés tout en préservant efficacement l'identité de l'objet. De plus, nous introduisons des conceptions délicates pour permettre un contrôle de l'emplacement et un contrôle flexible de l'arrière-plan grâce à des descriptions textuelles ou à des images spécifiques définies par l'utilisateur, surmontant ainsi les limites des méthodes existantes de synthèse de vues 3D novatrices. Nous exploitons également un pipeline de construction de jeu de données qui peut mieux gérer les objets du monde réel et les arrière-plans complexes. Dotée de ces conceptions, notre méthode facilite la personnalisation d'objets en zero-shot sans optimisation au moment du test, offrant un contrôle simultané sur les points de vue, l'emplacement et l'arrière-plan. En conséquence, notre CustomNet garantit une préservation améliorée de l'identité et génère des résultats variés et harmonieux.
Les grands modèles de langage (LLMs) démontrent des capacités impressionnantes de raisonnement et d'augmentation de données dans diverses tâches de NLP. Mais qu'en est-il des petits modèles ? Dans ce travail, nous proposons TeacherLM-7.1B, capable d'annoter les fondamentaux pertinents, la chaîne de raisonnement et les erreurs courantes pour la plupart des échantillons de NLP, ce qui transforme l'annotation en bien plus qu'une simple réponse, permettant ainsi à d'autres modèles d'apprendre le "pourquoi" plutôt que simplement le "quoi". Le modèle TeacherLM-7.1B a obtenu un score zero-shot de 52,3 sur MMLU, surpassant la plupart des modèles comptant plus de 100 milliards de paramètres. Plus remarquable encore est sa capacité d'augmentation de données. Sur la base de TeacherLM-7.1B, nous avons augmenté 58 ensembles de données de NLP et entraîné divers modèles étudiants avec des paramètres variés issus des séries OPT et BLOOM dans un cadre multitâche. Les résultats expérimentaux indiquent que l'augmentation de données fournie par TeacherLM a apporté des bénéfices significatifs. Nous publierons la série de modèles TeacherLM ainsi que les ensembles de données augmentés en open-source.
Dans cet article, nous évaluons de manière critique les capacités du modèle de langage multimodal de pointe, à savoir GPT-4 avec Vision (GPT-4V), sur la tâche de Réponse à des Questions Visuelles (VQA). Nos expériences examinent en profondeur la compétence de GPT-4V à répondre à des questions associées à des images en utilisant des ensembles de données de pathologie et de radiologie provenant de 11 modalités (par exemple, microscopie, dermoscopie, radiographie, scanner, etc.) et quinze objets d'intérêt (cerveau, foie, poumon, etc.). Nos ensembles de données couvrent un large éventail de questions médicales, incluant seize types de questions distincts. Tout au long de nos évaluations, nous avons conçu des invites textuelles pour GPT-4V, l'incitant à combiner les informations visuelles et textuelles. Les expériences basées sur le score de précision concluent que la version actuelle de GPT-4V n'est pas recommandée pour des diagnostics en situation réelle en raison de sa précision peu fiable et sous-optimale dans la réponse aux questions médicales diagnostiques. De plus, nous décrivons sept aspects uniques du comportement de GPT-4V dans le cadre de la VQA médicale, mettant en lumière ses limites dans ce domaine complexe. Les détails complets de nos cas d'évaluation sont accessibles à l'adresse suivante : https://github.com/ZhilingYan/GPT4V-Medical-Report.
Avec l'émergence de modèles de langage (LLM) puissants et propriétaires (ChatGPT, GPT-4), l'intérêt pour distiller les capacités de ces LLM propriétaires vers des LLM open-source plus petits ne cesse de croître. Les méthodes de distillation précédentes incitent généralement ChatGPT à générer un ensemble d'instructions et de réponses, que le modèle étudiant doit apprendre. Cependant, cette approche standard de distillation néglige les mérites et les conditions spécifiques du modèle étudiant. Inspirés par les principes pédagogiques modernes, nous concevons un processus de distillation personnalisé, dans lequel l'étudiant tente d'abord de résoudre une tâche, puis l'enseignant fournit un raffinement adaptatif pour que l'étudiant s'améliore. Au lieu de nourrir l'étudiant avec les connaissances préalables de l'enseignant, la distillation personnalisée permet un apprentissage personnalisé pour le modèle étudiant, car il n'apprend que sur les exemples où il commet des erreurs et améliore ainsi sa propre solution. En génération de code, la distillation personnalisée surpasse systématiquement la distillation standard avec seulement un tiers des données. Avec seulement 2,5 à 3 000 exemples personnalisés, impliquant un coût de collecte de données de 4 à 6 dollars, nous améliorons CodeGen-mono-16B de 7 % pour atteindre 36,4 % de pass@1 et StarCoder de 12,2 % pour atteindre 45,8 % de pass@1 sur HumanEval.
Dans ce rapport technique, nous présentons Skywork-13B, une famille de grands modèles de langage (LLM) entraînés sur un corpus de plus de 3,2 billions de tokens issus de textes en anglais et en chinois. Ce modèle de base bilingue est le LLM de taille comparable le plus largement entraîné et ouvertement publié à ce jour. Nous introduisons une méthodologie d'entraînement en deux étapes utilisant un corpus segmenté, visant respectivement un entraînement à usage général puis un entraînement spécifique à des domaines particuliers. Nous montrons que notre modèle excelle non seulement sur les benchmarks populaires, mais atteint également des performances de pointe en modélisation du langage chinois sur divers domaines. Par ailleurs, nous proposons une nouvelle méthode de détection de fuites, démontrant que la contamination des données de test est un problème pressant nécessitant une investigation approfondie par la communauté des LLM. Pour stimuler les recherches futures, nous publions Skywork-13B ainsi que les points de contrôle obtenus lors des étapes intermédiaires du processus d'entraînement. Nous publions également une partie de notre corpus SkyPile, une collection de plus de 150 milliards de tokens de textes web, qui constitue le plus grand corpus de pré-entraînement chinois de haute qualité ouvert à ce jour. Nous espérons que Skywork-13B et notre corpus ouvert serviront de ressource open-source précieuse pour démocratiser l'accès à des LLM de haute qualité.
La génération de texte vers 3D a réalisé des progrès remarquables récemment, en particulier avec les méthodes basées sur l'échantillonnage par distillation de score (Score Distillation Sampling, SDS) qui exploitent des modèles de diffusion 2D pré-entraînés. Bien que l'utilisation de l'orientation sans classifieur (classifier-free guidance) soit largement reconnue comme cruciale pour une optimisation réussie, elle est souvent considérée comme une astuce auxiliaire plutôt que comme l'élément le plus essentiel. Dans cet article, nous réévaluons le rôle de l'orientation sans classifieur dans la distillation de score et découvrons un résultat surprenant : l'orientation seule suffit pour des tâches efficaces de génération de texte vers 3D. Nous nommons cette méthode Distillation de Score par Classifieur (Classifier Score Distillation, CSD), qui peut être interprétée comme l'utilisation d'un modèle de classification implicite pour la génération. Cette nouvelle perspective révèle des insights inédits pour comprendre les techniques existantes. Nous validons l'efficacité de la CSD sur une variété de tâches de génération de texte vers 3D, incluant la génération de formes, la synthèse de textures et l'édition de formes, obtenant des résultats supérieurs à ceux des méthodes de pointe. Notre page de projet est disponible à l'adresse suivante : https://xinyu-andy.github.io/Classifier-Score-Distillation.