Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le développement des grands modèles de langage a suscité un intérêt généralisé parmi les chercheurs pour comprendre leurs capacités intrinsèques de raisonnement et de résolution de problèmes. Malgré un nombre considérable de recherches visant à élucider ces capacités, il existe encore un écart notable dans la compréhension du développement moral et des jugements de ces modèles. Les approches actuelles d'évaluation des capacités de raisonnement éthique de ces modèles, considérées comme une tâche de classification, présentent de nombreuses inexactitudes en raison d'une simplification excessive. Dans cette étude, nous avons établi une connexion psychologique en rapprochant deux domaines distincts - la psychologie humaine et l'intelligence artificielle. Nous avons proposé un cadre d'évaluation efficace qui peut aider à délimiter la capacité de raisonnement éthique du modèle en termes de cohérence morale et des stades de développement moral de Kohlberg, à l'aide de l'outil d'évaluation psychométrique - le Defining Issues Test.
Bien que les méthodes récentes de génération de texte-à-vidéo (T2V) aient connu des avancées significatives, la plupart de ces travaux se concentrent sur la production de courts clips vidéo d'un seul événement avec un seul arrière-plan (c'est-à-dire des vidéos à scène unique). Parallèlement, les grands modèles de langage (LLMs) récents ont démontré leur capacité à générer des mises en page et des programmes pour contrôler des modules visuels en aval tels que les modèles de génération d'images. Cela soulève une question importante : pouvons-nous exploiter les connaissances intégrées dans ces LLMs pour la génération de vidéos longues et temporellement cohérentes ? Dans cet article, nous proposons VideoDirectorGPT, un nouveau cadre pour la génération cohérente de vidéos multi-scènes qui utilise les connaissances des LLMs pour la planification du contenu vidéo et la génération de vidéos ancrées. Plus précisément, étant donné une seule invite textuelle, nous demandons d'abord à notre LLM planificateur vidéo (GPT-4) de l'étendre en un 'plan vidéo', qui implique la génération des descriptions de scènes, des entités avec leurs mises en page respectives, de l'arrière-plan pour chaque scène, et des regroupements de cohérence des entités et des arrière-plans. Ensuite, guidé par cette sortie du planificateur vidéo, notre générateur vidéo, Layout2Vid, a un contrôle explicite sur les mises en page spatiales et peut maintenir la cohérence temporelle des entités/arrière-plans à travers les scènes, tout en étant uniquement entraîné avec des annotations au niveau de l'image. Nos expériences démontrent que le cadre VideoDirectorGPT améliore considérablement le contrôle des mises en page et des mouvements dans la génération de vidéos à scène unique et multi-scènes, et peut générer des vidéos multi-scènes avec une cohérence visuelle entre les scènes, tout en atteignant des performances compétitives avec les SOTAs dans la génération T2V à scène unique en domaine ouvert. Nous démontrons également que notre cadre peut contrôler dynamiquement la force de guidage des mises en page et peut également générer des vidéos avec des images fournies par l'utilisateur. Nous espérons que notre cadre pourra inspirer des travaux futurs sur une meilleure intégration de la capacité de planification des LLMs dans la génération de vidéos longues cohérentes.
Les modèles multimodaux de grande taille (LMM) sont construits à travers différentes modalités, et le désalignement entre deux modalités peut entraîner des "hallucinations", générant des sorties textuelles qui ne sont pas ancrées dans les informations multimodales du contexte. Pour résoudre ce problème de désalignement multimodal, nous adaptons l'apprentissage par renforcement à partir de retours humains (RLHF) du domaine textuel à la tâche d'alignement vision-langage, où des annotateurs humains sont invités à comparer deux réponses et à identifier celle qui est la plus hallucinée, et où le modèle vision-langage est entraîné pour maximiser les récompenses humaines simulées. Nous proposons un nouvel algorithme d'alignement appelé Factually Augmented RLHF, qui enrichit le modèle de récompense avec des informations factuelles supplémentaires telles que des légendes d'images et des options de choix multiples de référence, ce qui atténue le phénomène de triche des récompenses dans RLHF et améliore encore les performances. Nous améliorons également les données d'entraînement générées par GPT-4 (pour le réglage des instructions visuelles) avec des paires image-texte écrites par des humains précédemment disponibles, afin d'améliorer les capacités générales de notre modèle. Pour évaluer l'approche proposée dans des scénarios réels, nous développons un nouveau benchmark d'évaluation, MMHAL-BENCH, qui se concentre particulièrement sur la pénalisation des hallucinations. En tant que premier LMM entraîné avec RLHF, notre approche obtient une amélioration remarquable sur le jeu de données LLaVA-Bench, atteignant 94 % du niveau de performance du GPT-4 textuel uniquement (alors que les meilleures méthodes précédentes ne pouvaient atteindre que 87 %), et une amélioration de 60 % sur MMHAL-BENCH par rapport aux autres méthodes de référence. Nous mettons à disposition notre code, modèle et données sur https://llava-rlhf.github.io.
La plupart des modèles multi-modaux existants, entravés par leur incapacité à gérer habilement les entrées entrelacées d'images et de texte dans des dialogues multi-images et multi-tours, font face à des contraintes substantielles en matière d'allocation de ressources pour l'entraînement et d'accessibilité des données, ce qui impacte leur adaptabilité et leur évolutivité dans divers domaines d'interaction. Pour remédier à cela, nous présentons le framework DeepSpeed-VisualChat, conçu pour optimiser les modèles de langage de grande taille (LLMs) en intégrant des capacités multi-modales, avec un accent particulier sur l'amélioration de la compétence des modèles de vision et de langage de grande taille dans la gestion des entrées entrelacées. Notre framework se distingue par (1) son support open-source pour les dialogues multi-tours et multi-images, (2) l'introduction d'un mécanisme innovant d'attention causale multi-modale, et (3) l'utilisation de techniques de mélange de données sur des ensembles de données existants pour assurer des interactions fluides dans les conversations multi-tours et multi-images. Par rapport aux frameworks existants, DeepSpeed-VisualChat démontre une évolutivité supérieure jusqu'à des modèles de langage de 70 milliards de paramètres, représentant une avancée significative dans les modèles de langage multi-modaux et posant une base solide pour les explorations futures.
Les équipes ayant entraîné des modèles de grande taille basés sur des Transformers ont rapporté des instabilités lors de l'entraînement à grande échelle, qui n'apparaissaient pas lors de l'entraînement avec les mêmes hyperparamètres à des échelles plus réduites. Bien que les causes de ces instabilités soient d'un intérêt scientifique, les ressources nécessaires pour les reproduire ont rendu leur investigation difficile. Dans ce travail, nous cherchons des moyens de reproduire et d'étudier la stabilité et l'instabilité de l'entraînement à des échelles plus petites. Tout d'abord, nous nous concentrons sur deux sources d'instabilité décrites dans des travaux antérieurs : la croissance des logits dans les couches d'attention (Dehghani et al., 2023) et la divergence des logits de sortie par rapport aux log-probabilités (Chowdhery et al., 2022). En mesurant la relation entre le taux d'apprentissage et la perte à différentes échelles, nous montrons que ces instabilités apparaissent également dans les petits modèles lors de l'entraînement à des taux d'apprentissage élevés, et que les atténuations précédemment employées à grande échelle sont tout aussi efficaces dans ce régime. Cela nous incite à étudier dans quelle mesure d'autres interventions connues sur l'optimiseur et le modèle influencent la sensibilité de la perte finale aux variations du taux d'apprentissage. À cette fin, nous étudions des méthodes telles que le warm-up, la décroissance de poids et le muParam (Yang et al., 2022), et combinons des techniques pour entraîner des petits modèles qui atteignent des pertes similaires sur plusieurs ordres de grandeur de variation du taux d'apprentissage. Enfin, pour conclure notre exploration, nous étudions deux cas où les instabilités peuvent être prédites avant leur apparition en examinant le comportement de mise à l'échelle des normes des activations et des gradients du modèle.
Les grands modèles de langage (LLMs) peuvent améliorer leur précision sur diverses tâches en affinant et en révisant itérativement leurs sorties sur la base de retours. Nous observons que ces révisions peuvent introduire des erreurs, auquel cas il est préférable de revenir à un résultat précédent. De plus, les révisions sont généralement homogènes : elles utilisent la même méthode de raisonnement qui a produit la réponse initiale, ce qui peut ne pas corriger les erreurs. Pour permettre l'exploration dans ce domaine, nous présentons SCREWS, un cadre modulaire pour le raisonnement avec révisions. Il est composé de trois modules principaux : Échantillonnage, Rééchantillonnage Conditionnel et Sélection, chacun comprenant des sous-modules qui peuvent être sélectionnés manuellement par tâche. Nous montrons que SCREWS unifie non seulement plusieurs approches précédentes sous un cadre commun, mais révèle également plusieurs stratégies novatrices pour identifier des chaînes de raisonnement améliorées. Nous évaluons notre cadre avec des LLMs de pointe (ChatGPT et GPT-4) sur un ensemble diversifié de tâches de raisonnement et découvrons des stratégies de raisonnement utiles et nouvelles pour chacune : problèmes de mots arithmétiques, questions-réponses multi-sauts et débogage de code. Les stratégies de révision hétérogènes s'avèrent importantes, tout comme la sélection entre les candidats originaux et révisés.
Les récents progrès des grands modèles de langage (LLMs) en modélisation du langage et leurs capacités émergentes en font un évaluateur prometteur sans référence de la qualité de génération de langage naturel, ainsi qu'une alternative compétente à l'évaluation humaine. Cependant, freinés par leur nature propriétaire ou par les exigences computationnelles élevées nécessaires pour les héberger et les ajuster, il manque une pratique pour calibrer davantage un évaluateur basé sur un LLM prêt à l'emploi afin de mieux l'aligner avec les préférences humaines. Dans ce travail, nous proposons AutoCalibrate, une approche multi-étapes et sans gradient pour calibrer et aligner automatiquement un évaluateur basé sur un LLM en fonction des préférences humaines. Au lieu de modéliser explicitement les préférences humaines, nous les intégrons d'abord implicitement dans un ensemble d'étiquettes humaines. Ensuite, un ensemble initial de critères de notation est rédigé par le modèle de langage lui-même, en exploitant l'apprentissage en contexte sur différents exemples en few-shot. Pour calibrer davantage cet ensemble de critères, nous sélectionnons les meilleurs et les rédigeons à nouveau par auto-affinage. Nos expériences sur plusieurs ensembles de données d'évaluation de la qualité de texte montrent une amélioration significative de la corrélation avec l'évaluation experte grâce à la calibration. Notre analyse qualitative approfondie révèle des intuitions et observations perspicaces sur l'essence des critères de notation efficaces.
Segmenter les vidéos longues en chapitres permet aux utilisateurs de naviguer rapidement vers les informations qui les intéressent. Ce sujet important a été peu étudié en raison du manque de jeux de données publics. Pour résoudre ce problème, nous présentons VidChapters-7M, un ensemble de données de 817K vidéos découpées en chapitres par les utilisateurs, comprenant 7M chapitres au total. VidChapters-7M est créé automatiquement à partir de vidéos en ligne de manière scalable en extrayant les chapitres annotés par les utilisateurs, et donc sans aucune annotation manuelle supplémentaire. Nous introduisons les trois tâches suivantes basées sur ces données. Premièrement, la tâche de génération de chapitres vidéo consiste à segmenter temporellement la vidéo et à générer un titre de chapitre pour chaque segment. Pour approfondir l'analyse du problème, nous définissons également deux variantes de cette tâche : la génération de chapitres vidéo avec des limites temporelles données, qui nécessite de générer un titre de chapitre pour un segment vidéo annoté, et l'ancrage temporel de chapitres, qui consiste à localiser temporellement un chapitre à partir de son titre annoté. Nous évaluons à la fois des modèles de base simples et des modèles vidéo-texte de pointe pour ces trois tâches. Nous montrons également que le pré-entraînement sur VidChapters-7M se transfère bien aux tâches de description dense de vidéos, tant en mode zero-shot qu'en fine-tuning, améliorant considérablement l'état de l'art sur les benchmarks YouCook2 et ViTT. Enfin, nos expériences révèlent que les performances en aval évoluent favorablement avec la taille du jeu de données de pré-entraînement. Notre jeu de données, code et modèles sont disponibles publiquement à l'adresse https://antoyang.github.io/vidchapters.html.