Articles de recherche en IA sélectionnés quotidiennement avec traductions
La révolution de l'IA générative s'est récemment étendue aux vidéos. Néanmoins, les modèles vidéo actuels les plus avancés restent en retard par rapport aux modèles d'images en termes de qualité visuelle et de contrôle utilisateur sur le contenu généré. Dans ce travail, nous présentons un cadre qui exploite la puissance d'un modèle de diffusion texte-à-image pour la tâche d'édition vidéo pilotée par texte. Plus précisément, étant donné une vidéo source et une invite texte cible, notre méthode génère une vidéo de haute qualité qui respecte le texte cible, tout en préservant la disposition spatiale et le mouvement de la vidéo d'entrée. Notre méthode repose sur une observation clé : la cohérence dans la vidéo éditée peut être obtenue en imposant une cohérence dans l'espace des caractéristiques de diffusion. Nous y parvenons en propageant explicitement les caractéristiques de diffusion en fonction des correspondances inter-images, facilement disponibles dans le modèle. Ainsi, notre cadre ne nécessite aucun apprentissage ou ajustement fin, et peut fonctionner en conjonction avec toute méthode d'édition texte-à-image prête à l'emploi. Nous démontrons des résultats d'édition de pointe sur une variété de vidéos du monde réel. Page web : https://diffusion-tokenflow.github.io/
L'apprentissage multimodal vise à construire des modèles capables de traiter et de relier des informations provenant de multiples modalités. Malgré des années de développement dans ce domaine, il reste difficile de concevoir un réseau unifié pour traiter diverses modalités (par exemple, le langage naturel, les images 2D, les nuages de points 3D, l'audio, la vidéo, les séries temporelles, les données tabulaires) en raison des écarts inhérents entre elles. Dans ce travail, nous proposons un cadre, nommé Meta-Transformer, qui exploite un encodeur figé pour effectuer une perception multimodale sans aucune donnée d'entraînement multimodale appariée. Dans Meta-Transformer, les données brutes en entrée provenant de diverses modalités sont mappées dans un espace de tokens partagé, permettant à un encodeur ultérieur avec des paramètres figés d'extraire des caractéristiques sémantiques de haut niveau des données d'entrée. Composé de trois éléments principaux : un tokeniseur de données unifié, un encodeur partagé entre les modalités, et des têtes spécifiques aux tâches pour les tâches en aval, Meta-Transformer est le premier cadre à effectuer un apprentissage unifié sur 12 modalités avec des données non appariées. Les expériences sur différents benchmarks révèlent que Meta-Transformer peut gérer un large éventail de tâches incluant la perception fondamentale (texte, image, nuage de points, audio, vidéo), l'application pratique (rayons X, infrarouge, hyperspectral, et IMU), et l'exploration de données (graphe, tabulaire, et série temporelle). Meta-Transformer indique un avenir prometteur pour le développement d'une intelligence multimodale unifiée avec les transformers. Le code sera disponible à l'adresse https://github.com/invictus717/MetaTransformer.
Le processus de reconstruction des expériences à partir de l'activité cérébrale humaine offre une perspective unique sur la manière dont le cerveau interprète et représente le monde. Dans cet article, nous présentons une méthode pour reconstruire de la musique à partir de l'activité cérébrale, capturée par imagerie par résonance magnétique fonctionnelle (IRMf). Notre approche utilise soit la récupération de musique, soit le modèle de génération musicale MusicLM conditionné par des embeddings dérivés des données IRMf. La musique générée ressemble aux stimuli musicaux expérimentés par les sujets humains, en ce qui concerne des propriétés sémantiques telles que le genre, l'instrumentation et l'ambiance. Nous étudions la relation entre les différentes composantes de MusicLM et l'activité cérébrale à travers une analyse de modélisation d'encodage voxel par voxel. De plus, nous discutons des régions cérébrales qui représentent des informations dérivées de descriptions purement textuelles des stimuli musicaux. Nous fournissons du matériel supplémentaire, incluant des exemples de musique reconstruite, à l'adresse suivante : https://google-research.github.io/seanet/brain2music.
L'évaluation des grands modèles de langage (LLMs) est complexe, car l'alignement sur les valeurs humaines nécessite la combinaison de multiples compétences, et l'ensemble des compétences requises varie en fonction des instructions. Les études récentes ont évalué les performances des LLMs de deux manières : (1) une évaluation automatique sur plusieurs benchmarks indépendants et (2) une évaluation humaine ou basée sur des machines attribuant un score global à la réponse. Cependant, ces deux approches constituent des évaluations grossières, ne tenant pas compte de la nature des instructions utilisateur qui nécessitent une composition de compétences spécifique à chaque instance, ce qui limite l'interprétation des véritables capacités des LLMs. Dans cet article, nous présentons FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocole d'évaluation fine qui peut être utilisé pour des évaluations basées sur des modèles ou sur des humains, décomposant les scores globaux en un ensemble de compétences spécifiques à chaque instance. Plus précisément, nous définissons 12 compétences fines nécessaires aux LLMs pour suivre des instructions utilisateur ouvertes et construisons un ensemble d'évaluation en attribuant un ensemble de compétences à chaque instance. En annotant également les domaines cibles et le niveau de difficulté pour chaque instance, FLASK offre une vision holistique avec une analyse complète des performances d'un modèle en fonction des compétences, des domaines et de la difficulté. En utilisant FLASK, nous comparons plusieurs LLMs open-source et propriétaires et observons des résultats fortement corrélés entre les évaluations basées sur des modèles et celles basées sur des humains. FLASK permet aux développeurs de mesurer plus précisément les performances des modèles et d'identifier comment les améliorer en analysant les facteurs qui rendent les LLMs compétents dans des compétences particulières. Pour les praticiens, FLASK peut être utilisé pour recommander des modèles adaptés à des situations spécifiques grâce à une comparaison approfondie entre divers LLMs. Nous publions les données d'évaluation et le code d'implémentation à l'adresse https://github.com/kaistAI/FLASK.
Les vastes ensembles de données web jouent un rôle clé dans le succès des grands modèles vision-langage comme CLIP et Flamingo. Cependant, les données web brutes sont bruyantes, et les méthodes de filtrage existantes pour réduire ce bruit se font souvent au détriment de la diversité des données. Notre travail se concentre sur la qualité des légendes comme source majeure de bruit, et étudie comment les légendes générées peuvent augmenter l'utilité des points de données extraits du web avec des textes peu descriptifs. En explorant différentes stratégies de mélange pour les légendes brutes et générées, nous surpassons la meilleure méthode de filtrage proposée par le benchmark DataComp de 2 % sur ImageNet et de 4 % en moyenne sur 38 tâches, avec un pool de candidats de 128 millions de paires image-texte. Notre meilleure approche est également deux fois plus performante pour la recherche sur Flickr et MS-COCO. Nous analysons ensuite ce qui rend les légendes synthétiques une source efficace de supervision textuelle. En expérimentant avec différents modèles de génération de légendes d'images, nous démontrons également que la performance d'un modèle sur les benchmarks standards de légendage d'images (par exemple, NoCaps CIDEr) n'est pas un indicateur fiable de l'utilité des légendes qu'il génère pour l'entraînement multimodal. Enfin, nos expériences avec l'utilisation de légendes générées à l'échelle de DataComp (1,28 milliard de paires image-texte) offrent des insights sur les limites du texte synthétique, ainsi que sur l'importance de la curation des images avec l'augmentation de la quantité de données d'entraînement.
L'apprentissage auto-supervisé a engendré un changement de paradigme révolutionnaire dans divers domaines informatiques, incluant le traitement du langage naturel (NLP), la vision par ordinateur et la biologie. Les approches récentes impliquent un pré-entraînement de modèles transformateurs sur de vastes quantités de données non labellisées, servant de point de départ pour résoudre efficacement des tâches en aval. Dans le domaine de l'apprentissage par renforcement, les chercheurs ont récemment adapté ces approches en développant des modèles pré-entraînés sur des trajectoires expertes, leur permettant de traiter un large éventail de tâches, allant de la robotique aux systèmes de recommandation. Cependant, les méthodes existantes reposent principalement sur des objectifs de pré-entraînement complexes adaptés à des applications spécifiques en aval. Cet article présente une investigation approfondie des modèles que nous appelons Pretrained Action-State Transformer Agents (PASTA). Notre étude utilise une méthodologie unifiée et couvre un ensemble étendu de tâches générales en aval, incluant le clonage comportemental, l'apprentissage par renforcement hors ligne, la robustesse aux défaillances de capteurs et l'adaptation aux changements de dynamique. Notre objectif est de comparer systématiquement divers choix de conception et de fournir des insights précieux aux praticiens pour construire des modèles robustes. Les points clés de notre étude incluent la tokenisation au niveau des composantes d'action et d'état, l'utilisation d'objectifs de pré-entraînement fondamentaux comme la prédiction du prochain token, l'entraînement de modèles sur des domaines divers simultanément, et l'utilisation d'un réglage fin efficace en termes de paramètres (PEFT). Les modèles développés dans notre étude contiennent moins de 10 millions de paramètres, et l'application du PEFT permet un réglage fin de moins de 10 000 paramètres lors de l'adaptation en aval, permettant à une large communauté d'utiliser ces modèles et de reproduire nos expériences. Nous espérons que cette étude encouragera des recherches supplémentaires sur l'utilisation de transformateurs avec des choix de conception basés sur les premiers principes pour représenter des trajectoires d'apprentissage par renforcement et contribuer à un apprentissage de politiques robuste.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont démontré des progrès notables sur de nombreux benchmarks mathématiques. Cependant, la plupart de ces benchmarks ne présentent que des problèmes basés sur les programmes du collège et du lycée, contiennent uniquement des questions à choix multiples, et se limitent à un champ restreint d'opérations arithmétiques élémentaires. Pour remédier à ces limitations, cet article introduit une suite de benchmarks étendue, SciBench, qui vise à examiner systématiquement les capacités de raisonnement nécessaires à la résolution de problèmes scientifiques complexes. SciBench comprend deux ensembles de données soigneusement sélectionnés : un ensemble ouvert présentant une variété de problèmes scientifiques de niveau universitaire tirés de manuels de mathématiques, de chimie et de physique, et un ensemble fermé comprenant des problèmes issus d'examens de premier cycle en informatique et en mathématiques. Sur la base de ces deux ensembles de données, nous menons une étude approfondie de deux LLMs représentatifs avec diverses stratégies d'incitation. Les résultats révèlent que les LLMs actuels ne parviennent pas à offrir une performance satisfaisante, avec un score global de seulement 35,80 %. De plus, à travers une étude utilisateur détaillée, nous catégorisons les erreurs commises par les LLMs en dix capacités de résolution de problèmes. Notre analyse indique qu'aucune stratégie d'incitation ne surpasse significativement les autres, et que certaines stratégies qui montrent des améliorations dans certaines compétences de résolution de problèmes entraînent des déclins dans d'autres compétences. Nous envisageons que SciBench catalysera des développements ultérieurs dans les capacités de raisonnement des LLMs, contribuant ainsi finalement à la recherche et à la découverte scientifiques.
Les mécanismes sous-jacents au succès de l'apprentissage auto-supervisé multi-vues (MVSSL) ne sont pas encore entièrement compris. Les méthodes contrastives de MVSSL ont été étudiées à travers le prisme d'InfoNCE, une borne inférieure de l'information mutuelle (MI). Cependant, la relation entre les autres méthodes de MVSSL et l'information mutuelle reste incertaine. Nous considérons une borne inférieure différente sur l'information mutuelle, composée d'un terme d'entropie et d'un terme de reconstruction (ER), et analysons les principales familles de MVSSL à travers ce prisme. Grâce à cette borne ER, nous montrons que les méthodes basées sur le clustering, telles que DeepCluster et SwAV, maximisent l'information mutuelle. Nous réinterprétons également les mécanismes des approches basées sur la distillation, comme BYOL et DINO, en montrant qu'elles maximisent explicitement le terme de reconstruction et encouragent implicitement une entropie stable, ce que nous confirmons empiriquement. Nous démontrons que le remplacement des objectifs des méthodes courantes de MVSSL par cette borne ER permet d'atteindre des performances compétitives, tout en les rendant stables lors de l'entraînement avec des tailles de lot plus petites ou des coefficients de moyenne mobile exponentielle (EMA) plus faibles. Dépôt Github : https://github.com/apple/ml-entropy-reconstruction.
Bien que les modèles ajustés par instruction aient démontré un succès remarquable dans diverses tâches de traitement du langage naturel, évaluer avec précision leur capacité à suivre les instructions reste un défi. Les benchmarks existants se concentrent principalement sur des instructions courantes qui s'alignent bien avec ce que le modèle a appris pendant l'entraînement. Cependant, la maîtrise dans la réponse à ces instructions n'implique pas nécessairement une forte capacité à suivre les instructions. Dans cet article, nous proposons un nouveau protocole d'évaluation de la capacité à suivre les instructions appelé manipulation de verbaliseur. Il demande au modèle de verbaliser l'étiquette de la tâche avec des mots s'alignant à différents degrés avec les a priori du modèle, en adoptant des verbaliseurs allant de fortement alignés (par exemple, produire « positif » pour un sentiment positif) à minimalement alignés (par exemple, produire « négatif » pour un sentiment positif). La manipulation de verbaliseur peut être intégrée de manière transparente à n'importe quel benchmark de classification pour examiner la dépendance du modèle aux a priori et sa capacité à les outrepasser pour suivre les instructions avec précision. Nous menons une évaluation complète de quatre grandes familles de modèles sur neuf ensembles de données, en utilisant douze ensembles de verbaliseurs pour chacun d'eux. Nous observons que les capacités à suivre les instructions des modèles, à travers différentes familles et échelles, sont significativement distinguées par leurs performances sur des verbaliseurs moins naturels. Même le modèle GPT-4, le plus performant, peine à faire mieux qu'une prédiction aléatoire sur le verbaliseur le plus difficile, soulignant la nécessité de poursuivre les avancées pour améliorer leurs capacités à suivre les instructions.