Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons le Recognize Anything Model (RAM) : un modèle de base robuste pour l'étiquetage d'images. RAM est capable de reconnaître avec une grande précision toute catégorie commune. RAM introduit un nouveau paradigme pour l'étiquetage d'images, en exploitant des paires image-texte à grande échelle pour l'entraînement, plutôt que des annotations manuelles. Le développement de RAM comprend quatre étapes clés. Premièrement, des étiquettes d'images sans annotation sont obtenues à grande échelle grâce à l'analyse sémantique automatique de texte. Ensuite, un modèle préliminaire est entraîné pour l'annotation automatique en unifiant les tâches de légende et d'étiquetage, supervisées respectivement par les textes originaux et les étiquettes analysées. Troisièmement, un moteur de données est utilisé pour générer des annotations supplémentaires et nettoyer celles qui sont incorrectes. Enfin, le modèle est réentraîné avec les données traitées et affiné à l'aide d'un ensemble de données plus petit mais de meilleure qualité. Nous évaluons les capacités d'étiquetage de RAM sur de nombreux benchmarks et observons des performances impressionnantes en zero-shot, surpassant significativement CLIP et BLIP. De manière remarquable, RAM dépasse même les méthodes entièrement supervisées et montre des performances compétitives avec l'API Google. Nous mettons RAM à disposition sur https://recognize-anything.github.io/ pour favoriser les avancées des grands modèles en vision par ordinateur.
Le réglage par instruction a considérablement fait progresser les grands modèles de langage (LLMs) tels que ChatGPT, leur permettant de s'aligner sur les instructions humaines pour diverses tâches. Cependant, les progrès dans les modèles vision-langage ouverts (VLMs) ont été limités en raison de la rareté des ensembles de données d'instructions de haute qualité. Pour relever ce défi et promouvoir la recherche dans le domaine vision-langage, nous introduisons l'ensemble de données Multi-Modal, Multilingual Instruction Tuning (M^3IT), conçu pour optimiser l'alignement des VLMs avec les instructions humaines. Notre ensemble de données M^3IT comprend 40 ensembles de données soigneusement sélectionnés, incluant 2,4 millions d'instances et 400 instructions de tâches rédigées manuellement, reformatées dans une structure vision-texte. Les tâches clés sont traduites en 80 langues à l'aide d'un système de traduction avancé, garantissant une accessibilité plus large. M^3IT surpasse les ensembles de données précédents en termes de couverture des tâches, nombre d'instructions et échelle des instances. De plus, nous développons Ying-VLM, un modèle VLM entraîné sur notre ensemble de données M^3IT, démontrant son potentiel à répondre à des questions complexes nécessitant des connaissances générales, à généraliser à des tâches vidéo non vues et à comprendre des instructions non vues en chinois. Pour encourager des recherches supplémentaires, nous avons rendu publics à la fois l'ensemble de données et les modèles entraînés.
Nous nous intéressons à une nouvelle tâche, à savoir la génération d'avatars parlants avec peu de ressources. En utilisant uniquement une vidéo de quelques minutes d'une personne parlante avec sa piste audio comme données d'entraînement et des textes arbitraires comme entrée motrice, nous visons à synthétiser des vidéos de portraits parlants de haute qualité correspondant au texte d'entrée. Cette tâche présente de vastes perspectives d'application dans l'industrie des humains numériques, mais n'a pas encore été techniquement réalisée en raison de deux défis : (1) Il est difficile d'imiter le timbre à partir d'audio hors domaine pour un système traditionnel de synthèse vocale multi-locuteurs. (2) Il est complexe de générer des avatars parlants de haute fidélité et synchronisés au niveau des lèvres avec des données d'entraînement limitées. Dans cet article, nous présentons Adaptive Text-to-Talking Avatar (Ada-TTA), qui (1) conçoit un modèle générique de synthèse vocale multi-locuteurs en zero-shot qui dissocie efficacement le contenu textuel, le timbre et la prosodie ; et (2) intègre les avancées récentes en rendu neuronal pour réaliser une génération réaliste de vidéos de visages parlants pilotées par l'audio. Grâce à ces conceptions, notre méthode surmonte les deux défis mentionnés ci-dessus et parvient à générer une parole préservant l'identité et des vidéos réalistes de personnes parlantes. Les expériences démontrent que notre méthode peut synthétiser des vidéos d'avatars parlants réalistes, préservant l'identité et synchronisées audio-visuellement.
La recherche de correspondances entre images constitue un problème fondamental en vision par ordinateur. Dans cet article, nous démontrons que ces correspondances émergent dans les modèles de diffusion d'images sans aucune supervision explicite. Nous proposons une stratégie simple pour extraire cette connaissance implicite des réseaux de diffusion sous forme de caractéristiques d'images, appelées DIffusion FeaTures (DIFT), et les utilisons pour établir des correspondances entre des images réelles. Sans aucun ajustement fin ou supervision supplémentaire sur des données ou annotations spécifiques à la tâche, DIFT parvient à surpasser à la fois les méthodes faiblement supervisées et les caractéristiques prêtes à l'emploi concurrentes dans l'identification de correspondances sémantiques, géométriques et temporelles. En particulier pour les correspondances sémantiques, DIFT issu de Stable Diffusion surpasse DINO et OpenCLIP de respectivement 19 et 14 points de précision sur le benchmark exigeant SPair-71k. Il dépasse même les méthodes supervisées de pointe dans 9 des 18 catégories tout en restant à égalité pour la performance globale. Page du projet : https://diffusionfeatures.github.io
Les grands modèles de langage (LLM) peuvent être utilisés pour générer des données textuelles destinées à l'entraînement et à l'évaluation d'autres modèles. Cependant, la création de jeux de données de haute qualité avec des LLM peut s'avérer complexe. Dans ce travail, nous explorons des partenariats humain-IA pour favoriser une grande diversité et précision dans la génération de données textuelles basées sur des LLM. Nous examinons d'abord deux approches pour diversifier la génération de texte : 1) la suppression des logits, qui minimise la génération de langages déjà fréquemment produits, et 2) l'échantillonnage par température, qui aplatit la probabilité de sélection des tokens. Nous avons constaté que les approches de diversification peuvent augmenter la diversité des données, mais souvent au détriment de leur précision (c'est-à-dire que le texte et les étiquettes sont adaptés au domaine cible). Pour résoudre ce problème, nous avons examiné deux interventions humaines : 1) le remplacement des étiquettes (LR), qui corrige les étiquettes mal alignées, et 2) le filtrage hors champ (OOSF), qui supprime les instances en dehors du domaine d'intérêt de l'utilisateur ou auxquelles aucune étiquette considérée ne s'applique. Grâce à des études oracles, nous avons constaté que le LR augmente la précision absolue des modèles entraînés avec des jeux de données diversifiés de 14,4 %. De plus, certains modèles entraînés avec des données générées grâce aux interventions LR ont surpassé la classification few-shot basée sur des LLM. En revanche, le OOSF n'a pas été efficace pour augmenter la précision des modèles, ce qui souligne la nécessité de travaux futurs sur la génération de données textuelles en boucle humaine.
Les modèles de langage obtiennent souvent une meilleure précision lorsqu'ils raisonnent étape par étape dans des tâches complexes. Cependant, leur raisonnement peut être incorrect, incohérent ou reposer sur des hypothèses préalables indésirables. Pour résoudre ces problèmes, nous introduisons une classe d'outils pour les modèles de langage appelés guides, qui utilisent un état et des contraintes incrémentales pour orienter la génération. Un guide peut être invoqué par le modèle pour contraindre sa propre génération à un ensemble d'énoncés valides fournis par l'outil. En retour, les choix du modèle peuvent modifier l'état du guide. Nous montrons comment un système général de raisonnement logique peut être utilisé comme guide, que nous appelons LogicGuide. Étant donné un problème de raisonnement en langage naturel, un modèle peut formaliser ses hypothèses pour LogicGuide et ainsi garantir que ses étapes de raisonnement sont valides. Dans des expériences avec les ensembles de données de raisonnement PrOntoQA et ProofWriter, LogicGuide améliore significativement les performances de GPT-3, GPT-3.5 Turbo et LLaMA (gains de précision allant jusqu'à 35 %). LogicGuide réduit également considérablement les effets de contenu : l'interférence des hypothèses préalables et actuelles dont les humains et les modèles de langage ont été montrés comme souffrant. Enfin, nous explorons l'auto-amélioration de LLaMA 13B à partir de son propre raisonnement et constatons que LogicGuide est essentiel : en s'entraînant uniquement sur un raisonnement auto-généré certifié, LLaMA peut s'auto-améliorer, évitant ainsi d'apprendre à partir de ses propres hallucinations.
L'adaptation de domaine utilisant un corpus textuel uniquement est un défi dans la reconnaissance vocale de bout en bout (E2E). L'adaptation par synthèse audio à partir de texte via TTS (Text-to-Speech) est consommatrice de ressources. Nous présentons une méthode pour apprendre une représentation unifiée parole-texte dans un Conformer Transducer (USTR-CT) afin de permettre une adaptation de domaine rapide en utilisant un corpus textuel uniquement. Contrairement à la méthode précédente du textogramme, un encodeur de texte supplémentaire est introduit dans notre travail pour apprendre la représentation textuelle et est supprimé lors de l'inférence, ce qui ne nécessite aucune modification pour un déploiement en ligne. Pour améliorer l'efficacité de l'adaptation, des adaptations en une étape et en plusieurs étapes sont également explorées. Les expériences sur l'adaptation de LibriSpeech à SPGISpeech montrent que la méthode proposée réduit le taux d'erreur sur les mots (WER) de 44 % relativement dans le domaine cible, ce qui est meilleur que les méthodes TTS et textogramme. Il est également démontré que la méthode proposée peut être combinée avec l'estimation du modèle de langage interne (ILME) pour améliorer davantage les performances.
Bien qu'ils mémorisent facilement les connaissances générales sur les entités, les modèles de langage pré-entraînés (LMs) peinent à combiner deux faits ou plus pour effectuer un raisonnement multi-étapes dans les tâches de question-réponse. Dans ce travail, nous proposons des techniques qui améliorent cette limitation en s'appuyant sur des marches aléatoires sur des graphes de connaissances structurés. Plus précisément, nous utilisons des prompts souples pour guider les LMs à enchaîner leurs connaissances encodées en apprenant à mapper des questions multi-étapes vers des chemins de marche aléatoire menant à la réponse. L'application de nos méthodes sur deux modèles T5 montre des améliorations substantielles par rapport aux approches de réglage standard pour répondre à des questions nécessitant un raisonnement à 2 étapes.
Dans cet article, nous présentons une approche pour localiser les étapes d'activités procédurales dans des vidéos explicatives narrées. Pour pallier la rareté des données annotées à grande échelle, nous extrayons les descriptions des étapes à partir d'une base de connaissances linguistique (wikiHow) contenant des articles pédagogiques pour une grande variété de tâches procédurales. Sans aucune supervision manuelle, notre modèle apprend à ancrer temporellement les étapes des articles procéduraux dans les vidéos explicatives en faisant correspondre trois modalités : les images, les narrations et les descriptions des étapes. Plus précisément, notre méthode aligne les étapes aux vidéos en fusionnant les informations provenant de deux voies distinctes : i) un alignement {\em direct} des descriptions des étapes aux images, ii) un alignement {\em indirect} obtenu en combinant les correspondances étapes-narrations avec les correspondances narrations-vidéo. Notamment, notre approche effectue un ancrage temporel global de toutes les étapes d'un article en une seule fois en exploitant les informations d'ordre, et est entraînée avec des pseudo-labels d'étapes qui sont itérativement affinés et agressivement filtrés. Pour valider notre modèle, nous introduisons un nouveau benchmark d'évaluation -- HT-Step -- obtenu en annotant manuellement un sous-ensemble de 124 heures de HowTo100M. Le serveur de test est accessible à l'adresse \url{https://eval.ai/web/challenges/challenge-page/2082.} avec des étapes issues d'articles de wikiHow. Les expériences sur ce benchmark ainsi que les évaluations en zero-shot sur CrossTask démontrent que notre alignement multi-modal apporte des gains significatifs par rapport à plusieurs baselines et travaux antérieurs. Enfin, nous montrons que notre module interne pour l'appariement narration-vidéo surpasse de manière significative l'état de l'art sur le benchmark d'alignement narration-vidéo HTM-Align.