Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage propriétaires tels que GPT-4 sont souvent utilisés pour évaluer la qualité des réponses provenant de divers modèles de langage. Cependant, des préoccupations concernant la transparence, la contrôlabilité et l'accessibilité financière motivent fortement le développement de modèles de langage open-source spécialisés dans les évaluations. D'un autre côté, les modèles évaluateurs open-source existants présentent des lacunes critiques : 1) ils attribuent des scores qui divergent significativement de ceux attribués par les humains, et 2) ils manquent de flexibilité pour effectuer à la fois une évaluation directe et un classement par paires, les deux formes d'évaluation les plus répandues. De plus, ils ne possèdent pas la capacité d'évaluer en fonction de critères personnalisés, se concentrant plutôt sur des attributs généraux comme l'utilité et l'innocuité. Pour résoudre ces problèmes, nous présentons Prometheus 2, un modèle évaluateur plus puissant que son prédécesseur, qui reflète étroitement les jugements humains et ceux de GPT-4. En outre, il est capable de traiter à la fois les formats d'évaluation directe et de classement par paires, regroupés avec un critère d'évaluation défini par l'utilisateur. Sur quatre benchmarks d'évaluation directe et quatre benchmarks de classement par paires, Prometheus 2 obtient la plus haute corrélation et concordance avec les jugements humains et ceux des modèles de langage propriétaires parmi tous les modèles évaluateurs open-source testés. Nos modèles, code et données sont tous disponibles publiquement à l'adresse https://github.com/prometheus-eval/prometheus-eval.
L'adaptation à faible rang (LoRA) s'est imposée comme l'une des méthodes les plus largement adoptées pour le réglage fin efficace en paramètres (PEFT) des grands modèles de langage (LLM). LoRA réduit le nombre de paramètres entraînables et l'utilisation de la mémoire tout en atteignant des performances comparables à celles d'un réglage fin complet. Nous cherchons à évaluer la viabilité de l'entraînement et du déploiement de LLM réglés finement avec LoRA dans des applications réelles. Premièrement, nous mesurons la qualité des LLM réglés finement avec des adaptateurs à faible rang quantifiés sur 10 modèles de base et 31 tâches, pour un total de 310 modèles. Nous constatons que les modèles réglés finement avec LoRA en 4 bits surpassent les modèles de base de 34 points et GPT-4 de 10 points en moyenne. Deuxièmement, nous étudions les modèles de base les plus efficaces pour le réglage fin et évaluons les capacités corrélatives et prédictives des heuristiques de complexité des tâches pour anticiper les résultats du réglage fin. Enfin, nous évaluons la latence et les capacités de concurrence de LoRAX, un serveur d'inférence Multi-LoRA open-source qui facilite le déploiement de plusieurs modèles réglés finement avec LoRA sur un seul GPU en utilisant des poids de modèle de base partagés et un chargement dynamique des adaptateurs. LoRAX alimente LoRA Land, une application web qui héberge 25 LLM Mistral-7B réglés finement avec LoRA sur un seul GPU NVIDIA A100 avec 80 Go de mémoire. LoRA Land met en avant la qualité et la rentabilité de l'utilisation de plusieurs LLM spécialisés plutôt que d'un seul LLM à usage général.
Les chatbots tels que GPT-4 et ChatGPT servent désormais des millions d'utilisateurs. Malgré leur utilisation généralisée, il existe un manque de jeux de données publics montrant comment ces outils sont utilisés en pratique par une population d'utilisateurs. Pour combler cette lacune, nous avons offert un accès gratuit à ChatGPT aux utilisateurs en ligne en échange de leur consentement explicite et anonyme pour collecter leurs transcriptions de conversations et leurs en-têtes de requêtes. À partir de cela, nous avons compilé WildChat, un corpus d'un million de conversations utilisateur-ChatGPT, comprenant plus de 2,5 millions de tours d'interaction. Nous comparons WildChat avec d'autres jeux de données populaires d'interactions utilisateur-chatbot, et constatons que notre ensemble de données offre les invites utilisateur les plus diversifiées, contient le plus grand nombre de langues et présente la plus grande variété de cas d'utilisation potentiellement toxiques pour les chercheurs. En plus des transcriptions de conversations horodatées, nous enrichissons le jeu de données avec des données démographiques, y compris l'état, le pays et les adresses IP hachées, ainsi que les en-têtes de requêtes. Cette augmentation permet une analyse plus détaillée des comportements des utilisateurs à travers différentes régions géographiques et dimensions temporelles. Enfin, comme il capture un large éventail de cas d'utilisation, nous démontrons l'utilité potentielle de ce jeu de données pour affiner les modèles de suivi d'instructions. WildChat est disponible à l'adresse https://wildchat.allen.ai sous les licences AI2 ImpACT.
Pour les modèles génératifs récents basés sur la diffusion, maintenir une cohérence de contenu à travers une série d'images générées, en particulier celles contenant des sujets et des détails complexes, représente un défi majeur. Dans cet article, nous proposons une nouvelle méthode de calcul d'auto-attention, appelée Auto-Attention Cohérente, qui améliore significativement la cohérence entre les images générées et enrichit les modèles pré-entraînés de génération d'images à partir de texte basés sur la diffusion, de manière zero-shot. Pour étendre notre méthode à la génération de vidéos longues, nous introduisons en outre un module novateur de prédiction de mouvement temporel dans l'espace sémantique, nommé Prédicteur de Mouvement Sémantique. Ce module est entraîné à estimer les conditions de mouvement entre deux images fournies dans les espaces sémantiques. Il convertit la séquence d'images générées en vidéos avec des transitions fluides et des sujets cohérents, offrant une stabilité bien supérieure aux modules basés uniquement sur les espaces latents, en particulier dans le contexte de la génération de vidéos longues. En combinant ces deux composants novateurs, notre framework, appelé StoryDiffusion, peut décrire une histoire basée sur du texte avec des images ou des vidéos cohérentes englobant une grande variété de contenus. Le StoryDiffusion proposé englobe des explorations pionnières dans la génération d'histoires visuelles avec la présentation d'images et de vidéos, ce qui, nous l'espérons, pourrait inspirer davantage de recherches du point de vue des modifications architecturales. Notre code est rendu public à l'adresse suivante : https://github.com/HVision-NKU/StoryDiffusion.
L'alignement des grands modèles de langage (LLMs) avec les valeurs et préférences humaines est essentiel pour les rendre utiles et sûrs. Cependant, la création d'outils efficaces pour réaliser cet alignement peut s'avérer complexe, en particulier pour les LLMs les plus vastes et performants, qui contiennent souvent des dizaines ou des centaines de milliards de paramètres. Nous avons développé NeMo-Aligner, une boîte à outils pour l'alignement des modèles, capable de s'adapter efficacement à l'utilisation de centaines de GPU pour l'entraînement. NeMo-Aligner propose des implémentations hautement optimisées et évolutives pour les principaux paradigmes d'alignement des modèles, tels que : l'apprentissage par renforcement à partir de retours humains (RLHF), l'optimisation directe des préférences (DPO), SteerLM, et le réglage fin par auto-jeu (SPIN). De plus, notre boîte à outils permet d'exécuter la plupart des techniques d'alignement dans un cadre de réglage fin efficace en paramètres (PEFT). NeMo-Aligner est conçu pour être extensible, permettant l'intégration d'autres techniques d'alignement avec un effort minimal. Il est publié en open source sous licence Apache 2.0, et nous invitons la communauté à contribuer sur https://github.com/NVIDIA/NeMo-Aligner.
L'alignement est une procédure standard pour affiner des modèles de langage pré-entraînés (LLMs) afin qu'ils suivent des instructions en langage naturel et servent d'assistants IA utiles. Cependant, nous avons observé que le processus d'alignement conventionnel ne parvient pas à améliorer la précision factuelle des LLMs, et conduit souvent à la génération de plus de fausses informations (c'est-à-dire des hallucinations). Dans cet article, nous étudions comment rendre le processus d'alignement des LLMs plus factuel, en identifiant d'abord les facteurs qui conduisent à des hallucinations dans les deux étapes de l'alignement : le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). En particulier, nous constatons que l'entraînement du LLM sur de nouvelles connaissances ou des textes non familiers peut encourager les hallucinations. Cela rend le SFT moins factuel, car il s'entraîne sur des données étiquetées par des humains qui peuvent être nouvelles pour le LLM. De plus, les fonctions de récompense utilisées dans le RL standard peuvent également encourager les hallucinations, car elles guident le LLM à fournir des réponses plus utiles sur un ensemble diversifié d'instructions, en privilégiant souvent des réponses plus longues et plus détaillées. Sur la base de ces observations, nous proposons un alignement conscient de la factualité, composé d'un SFT conscient de la factualité et d'un RL conscient de la factualité via l'optimisation directe des préférences. Les expériences montrent que notre alignement conscient de la factualité guide les LLMs à produire des réponses plus factuelles tout en maintenant leur capacité à suivre les instructions.
La réinterprétation artistique consiste à créer une variation d'une œuvre de référence, produisant ainsi une paire d'œuvres qui présente un style artistique distinct. Nous nous demandons si une telle paire d'images peut être utilisée pour personnaliser un modèle génératif afin de capturer la différence stylistique démontrée. Nous proposons Pair Customization, une nouvelle méthode de personnalisation qui apprend la différence stylistique à partir d'une seule paire d'images, puis applique le style acquis au processus de génération. Contrairement aux méthodes existantes qui apprennent à imiter un seul concept à partir d'une collection d'images, notre méthode capture la différence stylistique entre les images appariées. Cela nous permet d'appliquer un changement stylistique sans surapprentissage au contenu spécifique des images dans les exemples. Pour aborder cette nouvelle tâche, nous utilisons une méthode d'optimisation conjointe qui sépare explicitement le style et le contenu dans des espaces de poids LoRA distincts. Nous optimisons ces poids de style et de contenu pour reproduire les images de style et de contenu tout en encourageant leur orthogonalité. Pendant l'inférence, nous modifions le processus de diffusion via un nouveau guidage stylistique basé sur les poids appris. Les expériences qualitatives et quantitatives montrent que notre méthode peut apprendre efficacement le style tout en évitant le surapprentissage au contenu de l'image, mettant en lumière le potentiel de modélisation de telles différences stylistiques à partir d'une seule paire d'images.
Le développement de l'audiodescription (AD) a constitué une avancée majeure pour rendre les contenus vidéo plus accessibles et inclusifs. Traditionnellement, la production d'AD nécessite une main-d'œuvre qualifiée importante, tandis que les approches automatisées existantes exigent encore un entraînement approfondi pour intégrer des entrées multimodales et adapter le résultat d'un style de sous-titrage à un style d'AD. Dans cet article, nous présentons un pipeline automatisé de génération d'AD qui exploite les puissantes capacités multimodales et de suivi d'instructions de GPT-4V(ision). Notamment, notre méthodologie utilise des composants facilement disponibles, éliminant ainsi le besoin d'un entraînement supplémentaire. Elle produit des AD qui respectent non seulement les standards établis de production d'AD en langage naturel, mais maintiennent également des informations contextuellement cohérentes sur les personnages d'une image à l'autre, grâce à un module de reconnaissance de personnages basé sur le suivi. Une analyse approfondie sur le jeu de données MAD révèle que notre approche atteint une performance comparable à celle des méthodes basées sur l'apprentissage dans la production automatisée d'AD, comme en témoigne un score CIDEr de 20,5.