Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous présentons OtterHD-8B, un modèle multimodal innovant dérivé de Fuyu-8B, spécialement conçu pour interpréter des entrées visuelles haute résolution avec une précision granulaire. Contrairement aux modèles conventionnels limités par des encodeurs visuels de taille fixe, OtterHD-8B possède la capacité de gérer des dimensions d'entrée flexibles, garantissant ainsi sa polyvalence face à diverses exigences d'inférence. Parallèlement à ce modèle, nous introduisons MagnifierBench, un cadre d'évaluation conçu pour examiner la capacité des modèles à discerner des détails minutieux et les relations spatiales de petits objets. Notre analyse comparative révèle que si les modèles leaders actuels échouent sur ce benchmark, OtterHD-8B, en particulier lorsqu'il traite directement des entrées haute résolution, surpasse ses homologues de manière significative. Les résultats mettent en lumière les différences structurelles dans le traitement de l'information visuelle entre différents modèles, ainsi que l'influence des disparités de résolution de pré-entraînement des encodeurs visuels sur l'efficacité des modèles dans de tels benchmarks. Notre étude souligne le rôle crucial de la flexibilité et des capacités d'entrée haute résolution dans les grands modèles multimodaux, tout en illustrant le potentiel inhérent à la simplicité de l'architecture Fuyu pour gérer des données visuelles complexes.
Les modèles de langage multi-modaux de grande taille (MLLMs) ont démontré des capacités impressionnantes à suivre des instructions dans diverses tâches ouvertes. Cependant, les méthodes précédentes se concentrent principalement sur l'amélioration des capacités multi-modales. Dans ce travail, nous introduisons un modèle de langage multi-modal polyvalent, mPLUG-Owl2, qui exploite efficacement la collaboration entre modalités pour améliorer les performances dans les tâches textuelles et multi-modales. mPLUG-Owl2 utilise une conception de réseau modulaire, avec le décodeur de langage agissant comme une interface universelle pour gérer les différentes modalités. Plus précisément, mPLUG-Owl2 intègre des modules fonctionnels partagés pour faciliter la collaboration entre modalités et introduit un module adaptatif aux modalités qui préserve les caractéristiques spécifiques à chaque modalité. Des expériences approfondies révèlent que mPLUG-Owl2 est capable de généraliser à la fois les tâches textuelles et multi-modales et d'atteindre des performances de pointe avec un seul modèle générique. Notamment, mPLUG-Owl2 est le premier modèle MLLM à démontrer le phénomène de collaboration entre modalités dans des scénarios purement textuels et multi-modaux, traçant ainsi une voie pionnière dans le développement des futurs modèles de base multi-modaux.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont révolutionné la prise de décision en décomposant des problèmes complexes en séquences linguistiques plus gérables, appelées « pensées ». Une conception efficace des pensées doit prendre en compte trois perspectives clés : la performance, l'efficacité et la flexibilité. Cependant, les pensées existantes ne peuvent au mieux présenter que deux de ces attributs. Pour surmonter ces limitations, nous introduisons une nouvelle approche de stimulation des pensées appelée « Tout des Pensées » (XoT), qui défie la loi du « triangle de Penrose des paradigmes de pensée existants ». XoT exploite l'apprentissage par renforcement pré-entraîné et la recherche arborescente de Monte Carlo (MCTS) pour intégrer des connaissances externes du domaine dans les pensées, améliorant ainsi les capacités des LLMs et leur permettant de généraliser efficacement à des problèmes inédits. Grâce à l'utilisation du cadre de révision collaborative des pensées MCTS-LLM, cette approche produit de manière autonome des cartes cognitives complètes et de haute qualité avec un minimum d'interactions LLM. De plus, XoT permet aux LLMs de s'engager dans une pensée sans contraintes, autorisant des cartes cognitives flexibles pour des problèmes à solutions multiples.
Les propriétés acoustiques d'une pièce résultent de sa géométrie, des objets qu'elle contient et de leurs positions spécifiques. Ces propriétés acoustiques peuvent être caractérisées par la réponse impulsionnelle de la pièce (RIR) entre une source et un point d'écoute, ou approximativement déduites à partir d'enregistrements de signaux naturels présents dans la pièce. Les variations dans la position des objets d'une pièce peuvent entraîner des changements mesurables dans ses propriétés acoustiques, telles que caractérisées par la RIR. Les jeux de données existants de RIR ne varient pas systématiquement les positions des objets dans un environnement, ou se composent uniquement de RIR simulées. Nous présentons SoundCam, le plus grand ensemble de données de RIR uniques provenant de pièces réelles, publié à ce jour. Il comprend 5 000 mesures réelles de réponses impulsionnelles de pièce sur 10 canaux et 2 000 enregistrements de musique sur 10 canaux dans trois pièces différentes, incluant un laboratoire acoustique contrôlé, un salon réel et une salle de conférence, avec différentes personnes positionnées dans chaque pièce. Nous montrons que ces mesures peuvent être utilisées pour des tâches intéressantes, telles que la détection et l'identification des personnes, ainsi que le suivi de leurs positions.
Alors que les modèles de langage de grande taille (LLMs) sont déployés avec des responsabilités croissantes dans le monde réel, il est important de pouvoir spécifier et contraindre le comportement de ces systèmes de manière fiable. Les développeurs de modèles peuvent souhaiter définir des règles explicites pour le modèle, telles que "ne pas générer de contenu abusif", mais celles-ci peuvent être contournées par des techniques de jailbreaking. Évaluer dans quelle mesure les LLMs respectent les règles fournies par les développeurs face à des entrées adverses nécessite généralement une revue manuelle, ce qui ralentit la surveillance et le développement de méthodes. Pour résoudre ce problème, nous proposons Rule-following Language Evaluation Scenarios (RuLES), un cadre programmatique pour mesurer la capacité des LLMs à suivre des règles. RuLES consiste en 15 scénarios textuels simples dans lesquels le modèle est invité à obéir à un ensemble de règles en langage naturel tout en interagissant avec l'utilisateur humain. Chaque scénario dispose d'un programme d'évaluation concis pour déterminer si le modèle a enfreint des règles au cours d'une conversation. Grâce à une exploration manuelle du comportement des modèles dans nos scénarios, nous identifions 6 catégories de stratégies d'attaque et collectons deux ensembles de cas de test : l'un composé de conversations uniques issues de tests manuels et l'autre implémentant systématiquement des stratégies issues des 6 catégories. À travers divers modèles populaires, propriétaires et open source, tels que GPT-4 et Llama 2, nous constatons que tous les modèles sont vulnérables à une grande variété d'entrées utilisateur adverses conçues manuellement, bien que GPT-4 soit le modèle le plus performant. De plus, nous évaluons les modèles open source sous des attaques basées sur le gradient et identifions des vulnérabilités significatives. Nous proposons RuLES comme un nouveau cadre de recherche stimulant pour explorer et se défendre contre les attaques manuelles et automatiques sur les LLMs.
Neural MMO 2.0 est un environnement massivement multi-agents dédié à la recherche en apprentissage par renforcement. La caractéristique principale de cette nouvelle version est un système de tâches flexible qui permet aux utilisateurs de définir un large éventail d'objectifs et de signaux de récompense. Nous lançons un défi aux chercheurs : entraîner des agents capables de généraliser à des tâches, des cartes et des adversaires jamais rencontrés pendant l'entraînement. Neural MMO propose des cartes générées de manière procédurale avec 128 agents dans le paramétrage standard et prend en charge jusqu'à [nombre non spécifié]. La version 2.0 est une réécriture complète de son prédécesseur, offrant une performance trois fois supérieure et une compatibilité avec CleanRL. Nous publions cette plateforme en tant que logiciel libre et open-source, accompagnée d'une documentation complète disponible sur neuralmmo.github.io et d'une communauté active sur Discord. Pour stimuler les premières recherches sur cette nouvelle plateforme, nous organisons simultanément un concours lors de NeurIPS 2023.
Le matting vidéo conventionnel produit une seule matte alpha pour toutes les instances apparaissant dans une image vidéo, ce qui ne permet pas de distinguer les instances individuelles. Bien que la segmentation d'instances vidéo fournisse des masques d'instances cohérents dans le temps, les résultats sont insatisfaisants pour les applications de matting, notamment en raison de la binarisation appliquée. Pour remédier à cette lacune, nous proposons le Video Instance Matting (VIM), c'est-à-dire l'estimation des mattes alpha de chaque instance à chaque image d'une séquence vidéo. Pour résoudre ce problème complexe, nous présentons MSG-VIM, un réseau de neurones de Video Instance Matting guidé par une séquence de masques, comme modèle de référence novateur pour le VIM. MSG-VIM exploite un mélange d'augmentations de masques pour rendre les prédictions robustes aux guidages de masques imprécis et incohérents. Il intègre un guidage temporel des masques et des caractéristiques pour améliorer la cohérence temporelle des prédictions de mattes alpha. Par ailleurs, nous avons construit un nouveau benchmark pour le VIM, appelé VIM50, qui comprend 50 clips vidéo avec plusieurs instances humaines comme objets de premier plan. Pour évaluer les performances sur la tâche de VIM, nous introduisons une métrique appropriée appelée Video Instance-aware Matting Quality (VIMQ). Notre modèle proposé, MSG-VIM, établit une référence solide sur le benchmark VIM50 et surpasse les méthodes existantes de manière significative. Le projet est open-source à l'adresse https://github.com/SHI-Labs/VIM.
Alors que les grands modèles de langage deviennent de plus en plus répandus, leurs réponses potentiellement nuisibles ou inappropriées suscitent des inquiétudes. Cet article présente un ensemble de données unique contenant des exemples adverses sous forme de questions, que nous appelons AttaQ, conçu pour provoquer de telles réponses nuisibles ou inappropriées. Nous évaluons l'efficacité de notre ensemble de données en analysant les vulnérabilités de divers modèles lorsqu'ils y sont soumis. De plus, nous introduisons une nouvelle approche automatique pour identifier et nommer les régions sémantiques vulnérables - des zones sémantiques d'entrée pour lesquelles le modèle est susceptible de produire des sorties nuisibles. Cela est réalisé grâce à l'application de techniques de clustering spécialisées qui prennent en compte à la fois la similarité sémantique des attaques d'entrée et la nocivité des réponses du modèle. L'identification automatique des régions sémantiques vulnérables améliore l'évaluation des faiblesses du modèle, facilitant ainsi des améliorations ciblées de ses mécanismes de sécurité et de sa fiabilité globale.
L'apprentissage de représentations auto-supervisé dépend fortement des augmentations de données pour spécifier les invariances encodées dans les représentations. Les travaux précédents ont montré que l'application d'augmentations de données diversifiées est cruciale pour les performances en aval, mais les techniques d'augmentation restent peu explorées. Dans ce travail, nous proposons une nouvelle famille de transformations locales basées sur des champs aléatoires gaussiens pour générer des augmentations d'images pour l'apprentissage de représentations auto-supervisé. Ces transformations généralisent les transformations affines et de couleur bien établies (translation, rotation, variation de couleur, etc.) et augmentent considérablement l'espace des augmentations en permettant aux valeurs des paramètres de transformation de varier d'un pixel à l'autre. Les paramètres sont traités comme des fonctions continues des coordonnées spatiales et modélisés comme des champs aléatoires gaussiens indépendants. Les résultats empiriques montrent l'efficacité des nouvelles transformations pour l'apprentissage de représentations auto-supervisé. Plus précisément, nous obtenons une amélioration de 1,7 % de la précision top-1 par rapport à la ligne de base sur la classification en aval d'ImageNet, et une amélioration de 3,6 % sur la classification en aval hors distribution d'iNaturalist. Cependant, en raison de la flexibilité des nouvelles transformations, les représentations apprises sont sensibles aux hyperparamètres. Alors que des transformations modérées améliorent les représentations, nous observons que des transformations fortes peuvent dégrader la structure d'une image, indiquant qu'il est important d'équilibrer la diversité et la force des augmentations pour améliorer la généralisation des représentations apprises.
La vérification formelle peut garantir de manière prouvable la correction des logiciels systèmes critiques, mais la charge de preuve élevée a longtemps entravé son adoption généralisée. Récemment, les modèles de langage de grande taille (LLMs) ont montré des succès dans l'analyse et la synthèse de code. Dans cet article, nous présentons une combinaison de LLMs et d'analyse statique pour synthétiser des invariants, des assertions et d'autres structures de preuve pour un cadre de vérification formelle basé sur Rust appelé Verus. Dans un contexte de few-shot, les LLMs démontrent une capacité logique impressionnante à générer des postconditions et des invariants de boucle, en particulier lors de l'analyse de courts extraits de code. Cependant, les LLMs manquent de la capacité à retenir et à propager les informations contextuelles, une force de l'analyse statique traditionnelle. Sur la base de ces observations, nous avons développé un prototype basé sur le modèle GPT-4 d'OpenAI. Notre prototype décompose la tâche de vérification en plusieurs sous-tâches plus petites, interroge GPT-4 de manière itérative, et combine sa sortie avec une analyse statique légère. Nous avons évalué le prototype avec un développeur dans la boucle d'automatisation sur 20 programmes manipulant des vecteurs. Les résultats démontrent qu'il réduit significativement l'effort humain dans l'écriture de code de preuve de niveau d'entrée.