Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération automatique de descriptions musicales, qui produit des descriptions en langage naturel pour des morceaux de musique donnés, présente un potentiel significatif pour améliorer la compréhension et l'organisation de grands volumes de données musicales. Malgré son importance, les chercheurs rencontrent des défis liés au processus coûteux et chronologique de collecte des jeux de données existants associant musique et langage, qui sont de taille limitée. Pour résoudre ce problème de pénurie de données, nous proposons d'utiliser des modèles de langage de grande taille (LLMs) pour générer artificiellement des phrases descriptives à partir de jeux de données d'étiquettes à grande échelle. Cela aboutit à environ 2,2 millions de descriptions associées à 0,5 millions d'extraits audio. Nous nommons cet ensemble de données Large Language Model based Pseudo music caption dataset, ou en abrégé, LP-MusicCaps. Nous réalisons une évaluation systématique de ce jeu de données à grande échelle en utilisant diverses métriques d'évaluation quantitatives issues du domaine du traitement du langage naturel ainsi qu'une évaluation humaine. Par ailleurs, nous avons entraîné un modèle de génération de descriptions musicales basé sur des transformers avec ce jeu de données et l'avons évalué dans des configurations de zéro-shot et d'apprentissage par transfert. Les résultats démontrent que notre approche proposée surpasse le modèle de référence supervisé.
Nous étudions comment les modèles vision-langage entraînés sur des données à l'échelle d'Internet peuvent être intégrés directement dans le contrôle robotique de bout en bout pour améliorer la généralisation et permettre un raisonnement sémantique émergent. Notre objectif est de permettre à un seul modèle entraîné de bout en bout d'apprendre à la fois à mapper les observations du robot en actions et de bénéficier des avantages d'un pré-entraînement à grande échelle sur des données de langage et vision-langage provenant du web. Pour ce faire, nous proposons de co-affiner des modèles vision-langage de pointe à la fois sur des données de trajectoires robotiques et sur des tâches vision-langage à l'échelle d'Internet, telles que la réponse à des questions visuelles. Contrairement à d'autres approches, nous proposons une recette simple et générale pour atteindre cet objectif : afin de faire correspondre à la fois les réponses en langage naturel et les actions robotiques dans le même format, nous exprimons les actions sous forme de tokens textuels et les intégrons directement dans l'ensemble d'entraînement du modèle de la même manière que les tokens de langage naturel. Nous qualifions cette catégorie de modèles de modèles vision-langage-action (VLA) et en instancions un exemple, que nous appelons RT-2. Notre évaluation approfondie (6 000 essais d'évaluation) montre que notre approche conduit à des politiques robotiques performantes et permet à RT-2 d'acquérir une gamme de capacités émergentes grâce à l'entraînement à l'échelle d'Internet. Cela inclut une amélioration significative de la généralisation à de nouveaux objets, la capacité à interpréter des commandes absentes des données d'entraînement du robot (comme placer un objet sur un nombre ou une icône particulière), et la capacité à effectuer un raisonnement rudimentaire en réponse aux commandes de l'utilisateur (comme ramasser le plus petit ou le plus grand objet, ou celui le plus proche d'un autre objet). Nous montrons en outre que l'intégration d'un raisonnement en chaîne de pensée permet à RT-2 d'effectuer un raisonnement sémantique en plusieurs étapes, par exemple déterminer quel objet ramasser pour l'utiliser comme un marteau improvisé (une pierre), ou quel type de boisson est le mieux adapté à quelqu'un qui est fatigué (une boisson énergisante).
Nous étudions diverses stratégies de prompting pour améliorer les performances de recommandation de contenu personnalisé avec des modèles de langage de grande taille (LLM) grâce à l'augmentation des entrées. Notre approche proposée, appelée LLM-Rec, englobe quatre stratégies de prompting distinctes : (1) prompting de base, (2) prompting orienté recommandation, (3) prompting guidé par l'engagement, et (4) prompting orienté recommandation + guidé par l'engagement. Nos expériences empiriques montrent que la combinaison de la description originale du contenu avec le texte d'entrée augmenté généré par le LLM à l'aide de ces stratégies de prompting conduit à une amélioration des performances de recommandation. Cette découverte souligne l'importance d'incorporer des prompts diversifiés et des techniques d'augmentation des entrées pour renforcer les capacités de recommandation des modèles de langage de grande taille dans le cadre de la recommandation de contenu personnalisé.
Nous étudions la structure interne des calculs des modèles de langage en utilisant une analyse causale et démontrons deux motifs : (1) une forme de calcul adaptatif où les ablations d'une couche d'attention d'un modèle de langage entraînent la compensation par une autre couche (que nous nommons l'effet Hydre) et (2) une fonction de contrebalancement des couches MLP tardives qui agissent pour réguler à la baisse le token de maximum de vraisemblance. Nos études d'ablation montrent que les couches des modèles de langage sont généralement relativement faiblement couplées (les ablations d'une couche n'affectent qu'un petit nombre de couches en aval). Étonnamment, ces effets se produisent même dans les modèles de langage entraînés sans aucune forme de dropout. Nous analysons ces effets dans le contexte de la récupération de faits et considérons leurs implications pour l'attribution au niveau des circuits dans les modèles de langage.
La génération de légendes d'images est traditionnellement formulée comme la tâche de produire des descriptions d'images correspondant à la distribution des paires image-légende de référence. Cependant, les légendes de référence dans les jeux de données standards sont souvent courtes et peuvent ne pas identifier de manière unique les images qu'elles décrivent. Ces problèmes sont encore exacerbés lorsque les modèles sont entraînés directement sur des paires image-texte alternatif collectées sur internet. Dans ce travail, nous montrons qu'il est possible de générer des légendes plus spécifiques avec des modifications minimales du processus d'entraînement. Nous mettons en œuvre le guidage sans classifieur pour un modèle de génération de légendes autoregressif en l'affinant pour estimer à la fois les distributions conditionnelles et inconditionnelles sur les légendes. L'échelle de guidage appliquée lors du décodage contrôle un compromis entre la maximisation de p(légende|image) et p(image|légende). Par rapport au décodage glouton standard, le décodage avec une échelle de guidage de 2 améliore considérablement les métriques sans référence telles que le CLIPScore (0,808 contre 0,775) et la performance de récupération d'images à partir de légendes dans l'espace d'embedding CLIP (rappel@1 44,6 % contre 26,5 %), mais dégrade les métriques standard de génération de légendes basées sur la référence (par exemple, CIDEr 78,6 contre 126,1). Nous explorons également l'utilisation de modèles de langage pour guider le processus de décodage, obtenant de légères améliorations par rapport à la frontière de Pareto des métriques sans référence versus basées sur la référence résultant du guidage sans classifieur, et améliorant significativement la qualité des légendes générées par un modèle entraîné uniquement sur des données web minimalement curées.
Récemment, l'intégration de modèles de base pour la vidéo et de grands modèles de langage a permis de construire un système de compréhension vidéo surmontant les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos avec très peu d'images. Pour les vidéos longues, la complexité computationnelle, le coût en mémoire et la connexion temporelle à long terme restent des défis majeurs. Inspirés par le modèle de mémoire d'Atkinson-Shiffrin, nous développons un mécanisme de mémoire incluant une mémoire à court terme mise à jour rapidement et une mémoire à long terme compacte et donc durable. Nous utilisons les tokens dans les Transformers comme supports de mémoire. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues.
Les modèles de langage de grande taille (LLMs) ont rapproché la quête ambitieuse d'agents généralistes de la réalité. Un obstacle majeur à la construction de tels modèles généraux réside dans la diversité et l'hétérogénéité des tâches et des modalités. Une solution prometteuse est l'unification, permettant de supporter une multitude de tâches et de modalités dans un cadre unifié. Bien que quelques grands modèles (par exemple, Flamingo (Alayrac et al., 2022), entraînés sur des ensembles de données massifs, puissent supporter plus de deux modalités, les modèles unifiés de petite à moyenne échelle actuels sont encore limités à 2 modalités, généralement image-texte ou vidéo-texte. La question que nous posons est : est-il possible de construire efficacement un modèle unifié capable de supporter toutes les modalités ? Pour y répondre, nous proposons UnIVAL, un pas de plus vers cet objectif ambitieux. Sans s'appuyer sur des ensembles de données gigantesques ou des modèles avec des milliards de paramètres, le modèle UnIVAL de ~ 0,25 milliard de paramètres va au-delà de deux modalités et unifie le texte, les images, la vidéo et l'audio dans un seul modèle. Notre modèle est efficacement pré-entraîné sur de nombreuses tâches, basé sur l'équilibrage des tâches et l'apprentissage curriculaire multimodal. UnIVAL montre des performances compétitives par rapport aux approches de pointe existantes, à travers les tâches image-texte et vidéo-texte. Les représentations de caractéristiques apprises à partir des modalités image et vidéo-texte permettent au modèle d'atteindre des performances compétitives lorsqu'il est affiné sur des tâches audio-texte, malgré l'absence de pré-entraînement sur l'audio. Grâce au modèle unifié, nous proposons une nouvelle étude sur la fusion de modèles multimodaux via l'interpolation de poids de modèles entraînés sur différentes tâches multimodales, montrant leurs avantages notamment pour la généralisation hors distribution. Enfin, nous motivons l'unification en montrant la synergie entre les tâches. Les poids du modèle et le code sont disponibles ici : https://github.com/mshukor/UnIVAL.
Peut-on mieux anticiper les actions futures d'un acteur (par exemple, mélanger des œufs) en connaissant ce qui se produit couramment après son action actuelle (par exemple, casser des œufs) ? Et si nous connaissons également l'objectif à long terme de l'acteur (par exemple, préparer un riz frit aux œufs) ? La tâche d'anticipation d'actions à long terme (LTA) vise à prédire le comportement futur d'un acteur à partir d'observations vidéo sous forme de séquences de verbes et de noms, et elle est cruciale pour l'interaction homme-machine. Nous proposons de formuler la tâche LTA selon deux perspectives : une approche ascendante (bottom-up) qui prédit les actions suivantes de manière autorégressive en modélisant la dynamique temporelle ; et une approche descendante (top-down) qui infère l'objectif de l'acteur et planifie la procédure nécessaire pour l'atteindre. Nous émettons l'hypothèse que les grands modèles de langage (LLMs), pré-entraînés sur des données textuelles de procédures (par exemple, recettes, tutoriels), ont le potentiel d'aider la LTA sous ces deux angles. Ils peuvent fournir des connaissances préalables sur les actions suivantes possibles et inférer l'objectif à partir de la partie observée d'une procédure. Pour exploiter les LLMs, nous proposons un framework en deux étapes, AntGPT. Il reconnaît d'abord les actions déjà effectuées dans les vidéos observées, puis demande à un LLM de prédire les actions futures via une génération conditionnée, ou d'inférer l'objectif et de planifier l'ensemble de la procédure par un enchaînement de pensées (chain-of-thought prompting). Les résultats empiriques sur les benchmarks Ego4D LTA v1 et v2, EPIC-Kitchens-55, ainsi que EGTEA GAZE+ démontrent l'efficacité de notre approche proposée. AntGPT atteint des performances de pointe sur tous ces benchmarks et parvient à inférer l'objectif, permettant ainsi une prédiction "contrefactuelle" conditionnée par l'objectif via une analyse qualitative. Le code et le modèle seront disponibles à l'adresse suivante : https://brown-palm.github.io/AntGPT.
Le repérage temporel dans les vidéos (Video Temporal Grounding, VTG), qui vise à localiser des clips cibles dans des vidéos (tels que des intervalles consécutifs ou des plans disjoints) en fonction de requêtes linguistiques personnalisées (par exemple, des phrases ou des mots), est essentiel pour la navigation vidéo sur les réseaux sociaux. La plupart des méthodes dans ce domaine développent des modèles spécifiques à une tâche, entraînés avec des étiquettes spécifiques à un type, comme la récupération de moments (intervalle temporel) et la détection de moments forts (courbe de pertinence), ce qui limite leur capacité à généraliser à diverses tâches et étiquettes de VTG. Dans cet article, nous proposons d'unifier les différentes étiquettes et tâches de VTG, appelé UniVTG, selon trois axes : Premièrement, nous revisitons un large éventail d'étiquettes et de tâches de VTG et définissons une formulation unifiée. Sur cette base, nous développons des schémas d'annotation de données pour créer une supervision pseudo-scalable. Deuxièmement, nous développons un modèle de repérage efficace et flexible capable de traiter chaque tâche et d'utiliser pleinement chaque étiquette. Enfin, grâce au cadre unifié, nous sommes en mesure de débloquer le pré-entraînement de repérage temporel à partir d'étiquettes diversifiées à grande échelle et de développer des capacités de repérage plus fortes, par exemple, le repérage zero-shot. Des expériences approfondies sur trois tâches (récupération de moments, détection de moments forts et résumé vidéo) à travers sept jeux de données (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum et QFVS) démontrent l'efficacité et la flexibilité de notre cadre proposé. Les codes sont disponibles à l'adresse https://github.com/showlab/UniVTG.
Nous présentons l'Injection Virtuelle de Prompt (Virtual Prompt Injection, VPI) pour les modèles de langage de grande taille (Large Language Models, LLMs) ajustés par instruction. La VPI permet à un prompt virtuel spécifié par un attaquant d'orienter le comportement du modèle dans des scénarios déclencheurs spécifiques, sans aucune injection explicite dans l'entrée du modèle. Par exemple, si un LLM est compromis avec le prompt virtuel "Décrivez Joe Biden de manière négative." pour les instructions liées à Joe Biden, alors tout service déployant ce modèle propagera des points de vue biaisés lors du traitement des requêtes des utilisateurs concernant Joe Biden. La VPI est particulièrement nuisible pour deux raisons principales. Premièrement, l'attaquant peut exercer un contrôle granulaire sur les comportements des LLMs en définissant divers prompts virtuels, exploitant ainsi la capacité des LLMs à suivre des instructions. Deuxièmement, ce contrôle est réalisé sans aucune interaction de l'attaquant pendant que le modèle est en service, ce qui conduit à une attaque persistante. Pour démontrer la menace, nous proposons une méthode simple pour réaliser la VPI en empoisonnant les données d'ajustement par instruction du modèle. Nous constatons que notre méthode proposée est très efficace pour orienter le LLM avec la VPI. Par exemple, en injectant seulement 52 exemples empoisonnés (0,1 % de la taille des données d'entraînement) dans les données d'ajustement par instruction, le pourcentage de réponses négatives données par le modèle entraîné sur les requêtes liées à Joe Biden passe de 0 % à 40 %. Nous soulignons donc la nécessité de garantir l'intégrité des données d'ajustement par instruction, car une petite quantité de données empoisonnées peut causer un préjudice furtif et persistant au modèle déployé. Nous explorons également les défenses possibles et identifions le filtrage des données comme un moyen efficace de se protéger contre les attaques par empoisonnement. Notre page de projet est disponible à l'adresse https://poison-llm.github.io.
Fondés sur des modèles de langage de grande envergure (LLMs) puissants, les récents modèles génératifs multimodaux de langage de grande envergure (MLLMs) ont gagné en importance en tant que domaine de recherche clé, démontrant des capacités remarquables à la fois en compréhension et en génération. Dans ce travail, nous abordons l'évaluation de la compréhension générative dans les MLLMs comme une étape préliminaire vers une évaluation complète des modèles génératifs, en introduisant un benchmark nommé SEED-Bench. SEED-Bench se compose de 19 000 questions à choix multiples avec des annotations humaines précises (6 fois plus que les benchmarks existants), couvrant 12 dimensions d'évaluation incluant la compréhension des modalités image et vidéo. Nous développons un pipeline avancé pour générer des questions à choix multiples ciblant des dimensions d'évaluation spécifiques, intégrant à la fois des processus de filtrage automatique et de vérification manuelle. Les questions à choix multiples avec des options de référence dérivées d'annotations humaines permettent une évaluation objective et efficace des performances des modèles, éliminant le besoin d'intervention humaine ou de GPT lors de l'évaluation. Nous évaluons en outre les performances de 18 modèles à travers les 12 dimensions, couvrant à la fois la compréhension spatiale et temporelle. En révélant les limites des MLLMs existants à travers les résultats d'évaluation, nous visons à ce que SEED-Bench fournisse des insights pour motiver les recherches futures. Nous lancerons et maintiendrons régulièrement un tableau de classement pour offrir une plateforme à la communauté afin d'évaluer et d'étudier les capacités des modèles.
Les robots autonomes déployés dans le monde réel auront besoin de politiques de contrôle capables de s'adapter rapidement aux changements environnementaux. À cette fin, nous proposons AutoRobotics-Zero (ARZ), une méthode basée sur AutoML-Zero qui découvre des politiques adaptables en zero-shot à partir de zéro. Contrairement aux politiques d'adaptation basées sur les réseaux de neurones, où seuls les paramètres du modèle sont optimisés, ARZ peut construire des algorithmes de contrôle avec toute la puissance expressive d'une machine à registres linéaires. Nous faisons évoluer des politiques modulaires qui ajustent leurs paramètres de modèle et modifient leur algorithme d'inférence à la volée pour s'adapter aux changements environnementaux soudains. Nous démontrons notre méthode sur un robot quadrupède simulé réaliste, pour lequel nous faisons évoluer des politiques de contrôle sûres qui évitent les chutes lorsque des membres individuels se brisent soudainement. Il s'agit d'une tâche difficile dans laquelle deux modèles de référence populaires basés sur les réseaux de neurones échouent. Enfin, nous menons une analyse détaillée de notre méthode sur une nouvelle tâche de contrôle non stationnaire et difficile appelée Cataclysmic Cartpole. Les résultats confirment nos conclusions qu'ARZ est significativement plus robuste aux changements environnementaux soudains et peut construire des politiques de contrôle simples et interprétables.