Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage en contexte (In-context learning, ICL) dans les grands modèles de langage (Large Language Models, LLMs) est apparu comme un nouveau paradigme d'apprentissage puissant. Cependant, son mécanisme sous-jacent reste mal compris. En particulier, il est difficile de le relier au cadre "standard" de l'apprentissage automatique, où l'on utilise un ensemble d'entraînement S pour trouver une fonction f(x) la mieux adaptée dans une certaine classe d'hypothèses. Nous progressons ici sur ce problème en montrant que les fonctions apprises par l'ICL ont souvent une structure très simple : elles correspondent au transformateur LLM dont les seules entrées sont la requête x et un unique "vecteur de tâche" calculé à partir de l'ensemble d'entraînement. Ainsi, l'ICL peut être vu comme une compression de S en un seul vecteur de tâche theta(S), qui est ensuite utilisé pour moduler le transformateur afin de produire la sortie. Nous étayons cette affirmation par des expériences approfondies sur une gamme de modèles et de tâches.
Le paysage des modèles de base pour la vision (VFMs) disponibles publiquement, tels que CLIP et Segment Anything Model (SAM), s'étend rapidement. Les VFMs sont dotés de capacités distinctes découlant de leurs objectifs de pré-entraînement. Par exemple, CLIP excelle dans la compréhension sémantique, tandis que SAM se spécialise dans la compréhension spatiale pour la segmentation. Dans ce travail, nous introduisons une recette simple pour fusionner efficacement les VFMs en un modèle unifié qui assimile leur expertise. Notre méthode proposée intègre l'apprentissage multitâche, les techniques d'apprentissage continu et la distillation enseignant-élève. Cette stratégie implique un coût computationnel nettement moindre par rapport à l'entraînement multitâche traditionnel à partir de zéro. De plus, elle ne nécessite qu'une petite fraction des ensembles de données de pré-entraînement initialement utilisés pour entraîner les modèles individuels. En appliquant notre méthode à SAM et CLIP, nous obtenons SAM-CLIP : un modèle unifié qui amalgame les forces de SAM et CLIP en une seule architecture, le rendant adapté aux applications sur appareils embarqués. Nous montrons que SAM-CLIP apprend des représentations visuelles plus riches, équipées à la fois de caractéristiques de localisation et sémantiques, adaptées à une large gamme de tâches de vision. SAM-CLIP obtient des performances améliorées sur plusieurs tâches de sondage par rapport à SAM et CLIP. Nous montrons en outre que SAM-CLIP conserve non seulement les forces fondamentales de ses modèles précurseurs, mais introduit également des fonctionnalités synergiques, notamment dans la segmentation sémantique zero-shot, où SAM-CLIP établit de nouveaux résultats de pointe sur 5 benchmarks. Il surpasse les modèles précédents spécifiquement conçus pour cette tâche par une large marge, y compris une amélioration de +6,8 % et +5,9 % en moyenne IoU sur les ensembles de données Pascal-VOC et COCO-Stuff, respectivement.
L'hallucination est une ombre importante qui plane sur les modèles de langage multimodaux de grande envergure (MLLMs) en évolution rapide, faisant référence au phénomène où le texte généré est incohérent avec le contenu de l'image. Pour atténuer les hallucinations, les études existantes recourent principalement à une méthode d'ajustement par instruction qui nécessite de réentraîner les modèles avec des données spécifiques. Dans cet article, nous empruntons une voie différente en introduisant une méthode sans entraînement nommée Woodpecker. Comme un pic-vert soigne les arbres, elle identifie et corrige les hallucinations dans le texte généré. Concrètement, Woodpecker se compose de cinq étapes : extraction des concepts clés, formulation de questions, validation des connaissances visuelles, génération d'affirmations visuelles et correction des hallucinations. Implémentée de manière post-réparation, Woodpecker peut facilement servir différents MLLMs tout en étant interprétable grâce à l'accès aux sorties intermédiaires des cinq étapes. Nous évaluons Woodpecker à la fois quantitativement et qualitativement et montrons le potentiel énorme de ce nouveau paradigme. Sur le benchmark POPE, notre méthode obtient une amélioration de 30,66 %/24,33 % en précision par rapport au modèle de référence MiniGPT-4/mPLUG-Owl. Le code source est disponible à l'adresse https://github.com/BradyFU/Woodpecker.
La plupart des travaux récents sur l'utilisation des grands modèles de langage (LLMs) tels que GPT-3 pour la traduction automatique (MT) se sont concentrés sur la sélection des exemples few-shot pour le prompting. Dans cette étude, nous cherchons à mieux comprendre le rôle des attributs des démonstrations dans l'apprentissage en contexte des traductions, à travers des perturbations de démonstrations de haute qualité et spécifiques au domaine. Nous constatons que les perturbations asymétriques des correspondances source-cible produisent des résultats très différents. Nous montrons que la perturbation du côté source a un impact étonnamment faible, tandis que la perturbation de la cible peut réduire considérablement la qualité de la traduction, suggérant que c'est la distribution du texte de sortie qui fournit le signal d'apprentissage le plus important lors de l'apprentissage en contexte des traductions. Nous proposons une méthode nommée Zero-Shot-Context pour ajouter automatiquement ce signal dans le prompting zero-shot. Nous démontrons qu'elle améliore les performances de traduction zero-shot de GPT-3, la rendant même compétitive par rapport aux traductions obtenues par prompting few-shot.
Dans cet article, nous présentons le modèle Recognize Anything Plus (RAM++), un modèle fondamental de reconnaissance d'images doté de solides capacités de reconnaissance en ensemble ouvert, en injectant des concepts sémantiques dans le cadre d'entraînement d'étiquetage d'images. Les approches précédentes sont soit des modèles d'étiquetage d'images limités par une sémantique restreinte, soit des modèles vision-langage avec une interaction superficielle, conduisant à des performances sous-optimales dans la reconnaissance multi-étiquettes. En revanche, RAM++ intègre l'alignement image-texte et l'étiquetage d'images dans un cadre d'interaction fine unifié basé sur des triplets image-étiquettes-texte. Cette conception permet à RAM++ non seulement d'exceller dans l'identification des catégories prédéfinies, mais aussi d'augmenter significativement sa capacité de reconnaissance dans les catégories en ensemble ouvert. De plus, RAM++ utilise des modèles de langage de grande taille (LLM) pour générer des descriptions visuelles d'étiquettes diversifiées, pionnier dans l'intégration des connaissances des LLM dans l'entraînement d'étiquetage d'images. Cette approche permet à RAM++ d'intégrer des concepts de description visuelle pour la reconnaissance en ensemble ouvert lors de l'inférence. Les évaluations sur des benchmarks complets de reconnaissance d'images démontrent que RAM++ surpasse les modèles fondamentaux de reconnaissance d'images de pointe (SOTA) dans la plupart des aspects. Plus précisément, pour les catégories d'étiquettes couramment utilisées prédéfinies, RAM++ montre des améliorations de 10,2 mAP et 15,4 mAP par rapport à CLIP sur OpenImages et ImageNet. Pour les catégories en ensemble ouvert au-delà des prédéfinies, RAM++ enregistre des améliorations de 5 mAP et 6,4 mAP par rapport à CLIP et RAM respectivement sur OpenImages. Pour les phrases diverses d'interaction humain-objet, RAM++ atteint des améliorations de 7,8 mAP et 4,7 mAP sur le benchmark HICO. Le code, les ensembles de données et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/xinyu1205/recognize-anything.
Nous étudions la capacité des modèles de pointe à répondre à des requêtes de satisfaction de contraintes pour la recherche d'information (par exemple, 'une liste de glaciers à San Diego'). Par le passé, de telles requêtes étaient considérées comme des tâches ne pouvant être résolues que via une recherche web ou des bases de connaissances. Plus récemment, les grands modèles de langage (LLMs) ont démontré des capacités émergentes initiales dans cette tâche. Cependant, de nombreux benchmarks de récupération actuels sont soit saturés, soit ne mesurent pas la satisfaction des contraintes. Motivés par les préoccupations croissantes concernant les erreurs factuelles et les hallucinations des LLMs, nous présentons KITAB, un nouveau jeu de données pour mesurer les capacités de satisfaction de contraintes des modèles de langage. KITAB comprend des données liées aux livres pour plus de 600 auteurs et 13 000 requêtes, et propose également une approche dynamique de collecte de données et de vérification des contraintes pour acquérir des données de test similaires pour d'autres auteurs. Nos expériences approfondies sur GPT4 et GPT3.5 caractérisent et découplent les modes d'échec courants selon des dimensions telles que la popularité de l'information, les types de contraintes et la disponibilité du contexte. Les résultats montrent qu'en l'absence de contexte, les modèles présentent des limitations sévères en termes d'informations non pertinentes, d'erreurs factuelles et d'incomplétude, dont beaucoup s'aggravent à mesure que la popularité de l'information diminue. Bien que la disponibilité du contexte atténue les informations non pertinentes, elle n'est pas utile pour satisfaire les contraintes, identifiant ainsi des barrières fondamentales à la satisfaction des contraintes. Nous rendons nos contributions open source pour favoriser des recherches ultérieures visant à améliorer les capacités de satisfaction de contraintes des futurs modèles.
L'architecture Transformer est cruciale pour de nombreux modèles d'IA, mais elle rencontre encore des défis dans la modélisation linguistique à long terme. Bien que plusieurs architectures Transformer spécifiques aient été conçues pour résoudre les problèmes de dépendances à long terme, les méthodes existantes comme Transformer-XL sont affectées par un pourcentage élevé de mémoires inefficaces. Dans cette étude, nous présentons une stratégie plug-and-play, appelée TRAining-free Memory Selection (TRAMS), qui sélectionne les tokens participant au calcul d'attention en se basant sur une métrique simple. Cette stratégie nous permet de conserver les tokens susceptibles d'avoir un score d'attention élevé avec les requêtes actuelles et d'ignorer les autres. Nous avons testé notre approche sur le benchmark au niveau des mots (WikiText-103) et au niveau des caractères (enwik8), et les résultats montrent une amélioration sans nécessiter d'entraînement supplémentaire ni ajouter de paramètres supplémentaires.
La théorie des fondements moraux (MFT) est un outil d'évaluation psychologique qui décompose le raisonnement moral humain en cinq facteurs, incluant soin/nuisance, liberté/oppression et sacré/dégradation (Graham et al., 2009). Les individus varient dans l'importance qu'ils accordent à ces dimensions lorsqu'ils prennent des décisions morales, en partie en raison de leur éducation culturelle et de leur idéologie politique. Étant donné que les grands modèles de langage (LLMs) sont entraînés sur des ensembles de données collectés sur Internet, ils peuvent refléter les biais présents dans ces corpus. Cet article utilise la MFT comme une lentille pour analyser si les LLMs populaires ont acquis un biais en faveur d'un ensemble particulier de valeurs morales. Nous analysons des LLMs connus et constatons qu'ils présentent des fondements moraux spécifiques, et montrons comment ceux-ci se rapportent aux fondements moraux humains et aux affiliations politiques. Nous mesurons également la cohérence de ces biais, c'est-à-dire s'ils varient fortement en fonction du contexte dans lequel le modèle est sollicité. Enfin, nous montrons que nous pouvons sélectionner de manière antagoniste des prompts qui encouragent le modèle à adopter un ensemble particulier de fondements moraux, et que cela peut influencer le comportement du modèle sur des tâches ultérieures. Ces résultats aident à illustrer les risques potentiels et les conséquences imprévues des LLMs adoptant une position morale particulière.