HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

10 papers found

OtterHD : Un modèle multi-modal haute résolution
OtterHD: A High-Resolution Multi-modality Model

Nov 7

ByBo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu

Dans cet article, nous présentons OtterHD-8B, un modèle multimodal innovant dérivé de Fuyu-8B, spécialement conçu pour interpréter des entrées visuelles haute résolution avec une précision granulaire. Contrairement aux modèles conventionnels limités par des encodeurs visuels de taille fixe, OtterHD-8B possède la capacité de gérer des dimensions d'entrée flexibles, garantissant ainsi sa polyvalence face à diverses exigences d'inférence. Parallèlement à ce modèle, nous introduisons MagnifierBench, un cadre d'évaluation conçu pour examiner la capacité des modèles à discerner des détails minutieux et les relations spatiales de petits objets. Notre analyse comparative révèle que si les modèles leaders actuels échouent sur ce benchmark, OtterHD-8B, en particulier lorsqu'il traite directement des entrées haute résolution, surpasse ses homologues de manière significative. Les résultats mettent en lumière les différences structurelles dans le traitement de l'information visuelle entre différents modèles, ainsi que l'influence des disparités de résolution de pré-entraînement des encodeurs visuels sur l'efficacité des modèles dans de tels benchmarks. Notre étude souligne le rôle crucial de la flexibilité et des capacités d'entrée haute résolution dans les grands modèles multimodaux, tout en illustrant le potentiel inhérent à la simplicité de l'architecture Fuyu pour gérer des données visuelles complexes.

mPLUG-Owl2 : Révolutionner les modèles de langage multi-modaux de grande envergure grâce à la collaboration entre modalités
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

Nov 7

ByQinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU

Les modèles de langage multi-modaux de grande taille (MLLMs) ont démontré des capacités impressionnantes à suivre des instructions dans diverses tâches ouvertes. Cependant, les méthodes précédentes se concentrent principalement sur l'amélioration des capacités multi-modales. Dans ce travail, nous introduisons un modèle de langage multi-modal polyvalent, mPLUG-Owl2, qui exploite efficacement la collaboration entre modalités pour améliorer les performances dans les tâches textuelles et multi-modales. mPLUG-Owl2 utilise une conception de réseau modulaire, avec le décodeur de langage agissant comme une interface universelle pour gérer les différentes modalités. Plus précisément, mPLUG-Owl2 intègre des modules fonctionnels partagés pour faciliter la collaboration entre modalités et introduit un module adaptatif aux modalités qui préserve les caractéristiques spécifiques à chaque modalité. Des expériences approfondies révèlent que mPLUG-Owl2 est capable de généraliser à la fois les tâches textuelles et multi-modales et d'atteindre des performances de pointe avec un seul modèle générique. Notamment, mPLUG-Owl2 est le premier modèle MLLM à démontrer le phénomène de collaboration entre modalités dans des scénarios purement textuels et multi-modaux, traçant ainsi une voie pionnière dans le développement des futurs modèles de base multi-modaux.

Tout sur les Pensées : Défier la Loi du Triangle de Penrose pour la Génération de Pensées
Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation

Nov 7

ByRuomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Wei Zhang, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont révolutionné la prise de décision en décomposant des problèmes complexes en séquences linguistiques plus gérables, appelées « pensées ». Une conception efficace des pensées doit prendre en compte trois perspectives clés : la performance, l'efficacité et la flexibilité. Cependant, les pensées existantes ne peuvent au mieux présenter que deux de ces attributs. Pour surmonter ces limitations, nous introduisons une nouvelle approche de stimulation des pensées appelée « Tout des Pensées » (XoT), qui défie la loi du « triangle de Penrose des paradigmes de pensée existants ». XoT exploite l'apprentissage par renforcement pré-entraîné et la recherche arborescente de Monte Carlo (MCTS) pour intégrer des connaissances externes du domaine dans les pensées, améliorant ainsi les capacités des LLMs et leur permettant de généraliser efficacement à des problèmes inédits. Grâce à l'utilisation du cadre de révision collaborative des pensées MCTS-LLM, cette approche produit de manière autonome des cartes cognitives complètes et de haute qualité avec un minimum d'interactions LLM. De plus, XoT permet aux LLMs de s'engager dans une pensée sans contraintes, autorisant des cartes cognitives flexibles pour des problèmes à solutions multiples.

Les modèles de langage peuvent-ils suivre des règles simples ?
Can LLMs Follow Simple Rules?

Nov 6

ByNorman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Dan Hendrycks, David Wagner

Alors que les modèles de langage de grande taille (LLMs) sont déployés avec des responsabilités croissantes dans le monde réel, il est important de pouvoir spécifier et contraindre le comportement de ces systèmes de manière fiable. Les développeurs de modèles peuvent souhaiter définir des règles explicites pour le modèle, telles que "ne pas générer de contenu abusif", mais celles-ci peuvent être contournées par des techniques de jailbreaking. Évaluer dans quelle mesure les LLMs respectent les règles fournies par les développeurs face à des entrées adverses nécessite généralement une revue manuelle, ce qui ralentit la surveillance et le développement de méthodes. Pour résoudre ce problème, nous proposons Rule-following Language Evaluation Scenarios (RuLES), un cadre programmatique pour mesurer la capacité des LLMs à suivre des règles. RuLES consiste en 15 scénarios textuels simples dans lesquels le modèle est invité à obéir à un ensemble de règles en langage naturel tout en interagissant avec l'utilisateur humain. Chaque scénario dispose d'un programme d'évaluation concis pour déterminer si le modèle a enfreint des règles au cours d'une conversation. Grâce à une exploration manuelle du comportement des modèles dans nos scénarios, nous identifions 6 catégories de stratégies d'attaque et collectons deux ensembles de cas de test : l'un composé de conversations uniques issues de tests manuels et l'autre implémentant systématiquement des stratégies issues des 6 catégories. À travers divers modèles populaires, propriétaires et open source, tels que GPT-4 et Llama 2, nous constatons que tous les modèles sont vulnérables à une grande variété d'entrées utilisateur adverses conçues manuellement, bien que GPT-4 soit le modèle le plus performant. De plus, nous évaluons les modèles open source sous des attaques basées sur le gradient et identifions des vulnérabilités significatives. Nous proposons RuLES comme un nouveau cadre de recherche stimulant pour explorer et se défendre contre les attaques manuelles et automatiques sur les LLMs.

SoundCam : Un ensemble de données pour localiser les humains à l'aide de l'acoustique des pièces
SoundCam: A Dataset for Finding Humans Using Room Acoustics

Nov 6

ByMason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu

Les propriétés acoustiques d'une pièce résultent de sa géométrie, des objets qu'elle contient et de leurs positions spécifiques. Ces propriétés acoustiques peuvent être caractérisées par la réponse impulsionnelle de la pièce (RIR) entre une source et un point d'écoute, ou approximativement déduites à partir d'enregistrements de signaux naturels présents dans la pièce. Les variations dans la position des objets d'une pièce peuvent entraîner des changements mesurables dans ses propriétés acoustiques, telles que caractérisées par la RIR. Les jeux de données existants de RIR ne varient pas systématiquement les positions des objets dans un environnement, ou se composent uniquement de RIR simulées. Nous présentons SoundCam, le plus grand ensemble de données de RIR uniques provenant de pièces réelles, publié à ce jour. Il comprend 5 000 mesures réelles de réponses impulsionnelles de pièce sur 10 canaux et 2 000 enregistrements de musique sur 10 canaux dans trois pièces différentes, incluant un laboratoire acoustique contrôlé, un salon réel et une salle de conférence, avec différentes personnes positionnées dans chaque pièce. Nous montrons que ces mesures peuvent être utilisées pour des tâches intéressantes, telles que la détection et l'identification des personnes, ainsi que le suivi de leurs positions.

Neural MMO 2.0 : Une extension massivement multi-tâche pour l'apprentissage massivement multi-agent
Neural MMO 2.0: A Massively Multi-task Addition to Massively Multi-agent Learning

Nov 7

ByJoseph Suárez, Phillip Isola, Kyoung Whan Choe, David Bloomin, Hao Xiang Li, Nikhil Pinnaparaju, Nishaanth Kanna, Daniel Scott, Ryan Sullivan, Rose S. Shuman, Lucas de Alcântara, Herbie Bradley, Louis Castricato, Kirsty You, Yuhao Jiang, Qimai Li, Jiaxin Chen, Xiaolong Zhu

Neural MMO 2.0 est un environnement massivement multi-agents dédié à la recherche en apprentissage par renforcement. La caractéristique principale de cette nouvelle version est un système de tâches flexible qui permet aux utilisateurs de définir un large éventail d'objectifs et de signaux de récompense. Nous lançons un défi aux chercheurs : entraîner des agents capables de généraliser à des tâches, des cartes et des adversaires jamais rencontrés pendant l'entraînement. Neural MMO propose des cartes générées de manière procédurale avec 128 agents dans le paramétrage standard et prend en charge jusqu'à [nombre non spécifié]. La version 2.0 est une réécriture complète de son prédécesseur, offrant une performance trois fois supérieure et une compatibilité avec CleanRL. Nous publions cette plateforme en tant que logiciel libre et open-source, accompagnée d'une documentation complète disponible sur neuralmmo.github.io et d'une communauté active sur Discord. Pour stimuler les premières recherches sur cette nouvelle plateforme, nous organisons simultanément un concours lors de NeurIPS 2023.

Matting d'Instances Vidéo
Video Instance Matting

Nov 7

ByJiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi

Le matting vidéo conventionnel produit une seule matte alpha pour toutes les instances apparaissant dans une image vidéo, ce qui ne permet pas de distinguer les instances individuelles. Bien que la segmentation d'instances vidéo fournisse des masques d'instances cohérents dans le temps, les résultats sont insatisfaisants pour les applications de matting, notamment en raison de la binarisation appliquée. Pour remédier à cette lacune, nous proposons le Video Instance Matting (VIM), c'est-à-dire l'estimation des mattes alpha de chaque instance à chaque image d'une séquence vidéo. Pour résoudre ce problème complexe, nous présentons MSG-VIM, un réseau de neurones de Video Instance Matting guidé par une séquence de masques, comme modèle de référence novateur pour le VIM. MSG-VIM exploite un mélange d'augmentations de masques pour rendre les prédictions robustes aux guidages de masques imprécis et incohérents. Il intègre un guidage temporel des masques et des caractéristiques pour améliorer la cohérence temporelle des prédictions de mattes alpha. Par ailleurs, nous avons construit un nouveau benchmark pour le VIM, appelé VIM50, qui comprend 50 clips vidéo avec plusieurs instances humaines comme objets de premier plan. Pour évaluer les performances sur la tâche de VIM, nous introduisons une métrique appropriée appelée Video Instance-aware Matting Quality (VIMQ). Notre modèle proposé, MSG-VIM, établit une référence solide sur le benchmark VIM50 et surpasse les méthodes existantes de manière significative. Le projet est open-source à l'adresse https://github.com/SHI-Labs/VIM.

Augmentations de Champs Aléatoires pour l'Apprentissage de Représentations Auto-Supervisé
Random Field Augmentations for Self-Supervised Representation Learning

Nov 7

ByPhilip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar, Karan Singhal

L'apprentissage de représentations auto-supervisé dépend fortement des augmentations de données pour spécifier les invariances encodées dans les représentations. Les travaux précédents ont montré que l'application d'augmentations de données diversifiées est cruciale pour les performances en aval, mais les techniques d'augmentation restent peu explorées. Dans ce travail, nous proposons une nouvelle famille de transformations locales basées sur des champs aléatoires gaussiens pour générer des augmentations d'images pour l'apprentissage de représentations auto-supervisé. Ces transformations généralisent les transformations affines et de couleur bien établies (translation, rotation, variation de couleur, etc.) et augmentent considérablement l'espace des augmentations en permettant aux valeurs des paramètres de transformation de varier d'un pixel à l'autre. Les paramètres sont traités comme des fonctions continues des coordonnées spatiales et modélisés comme des champs aléatoires gaussiens indépendants. Les résultats empiriques montrent l'efficacité des nouvelles transformations pour l'apprentissage de représentations auto-supervisé. Plus précisément, nous obtenons une amélioration de 1,7 % de la précision top-1 par rapport à la ligne de base sur la classification en aval d'ImageNet, et une amélioration de 3,6 % sur la classification en aval hors distribution d'iNaturalist. Cependant, en raison de la flexibilité des nouvelles transformations, les représentations apprises sont sensibles aux hyperparamètres. Alors que des transformations modérées améliorent les représentations, nous observons que des transformations fortes peuvent dégrader la structure d'une image, indiquant qu'il est important d'équilibrer la diversité et la force des augmentations pour améliorer la généralisation des représentations apprises.

Révéler les vulnérabilités de sécurité des modèles de langage de grande taille
Unveiling Safety Vulnerabilities of Large Language Models

Nov 7

ByGeorge Kour, Marcel Zalmanovici, Naama Zwerdling, Esther Goldbraich, Ora Nova Fandina, Ateret Anaby-Tavor, Orna Raz, Eitan Farchi

Alors que les grands modèles de langage deviennent de plus en plus répandus, leurs réponses potentiellement nuisibles ou inappropriées suscitent des inquiétudes. Cet article présente un ensemble de données unique contenant des exemples adverses sous forme de questions, que nous appelons AttaQ, conçu pour provoquer de telles réponses nuisibles ou inappropriées. Nous évaluons l'efficacité de notre ensemble de données en analysant les vulnérabilités de divers modèles lorsqu'ils y sont soumis. De plus, nous introduisons une nouvelle approche automatique pour identifier et nommer les régions sémantiques vulnérables - des zones sémantiques d'entrée pour lesquelles le modèle est susceptible de produire des sorties nuisibles. Cela est réalisé grâce à l'application de techniques de clustering spécialisées qui prennent en compte à la fois la similarité sémantique des attaques d'entrée et la nocivité des réponses du modèle. L'identification automatique des régions sémantiques vulnérables améliore l'évaluation des faiblesses du modèle, facilitant ainsi des améliorations ciblées de ses mécanismes de sécurité et de sa fiabilité globale.

Exploiter les modèles de langage à grande échelle pour la synthèse automatisée de preuves en Rust
Leveraging Large Language Models for Automated Proof Synthesis in Rust

Nov 7

ByJianan Yao, Ziqiao Zhou, Weiteng Chen, Weidong Cui

La vérification formelle peut garantir de manière prouvable la correction des logiciels systèmes critiques, mais la charge de preuve élevée a longtemps entravé son adoption généralisée. Récemment, les modèles de langage de grande taille (LLMs) ont montré des succès dans l'analyse et la synthèse de code. Dans cet article, nous présentons une combinaison de LLMs et d'analyse statique pour synthétiser des invariants, des assertions et d'autres structures de preuve pour un cadre de vérification formelle basé sur Rust appelé Verus. Dans un contexte de few-shot, les LLMs démontrent une capacité logique impressionnante à générer des postconditions et des invariants de boucle, en particulier lors de l'analyse de courts extraits de code. Cependant, les LLMs manquent de la capacité à retenir et à propager les informations contextuelles, une force de l'analyse statique traditionnelle. Sur la base de ces observations, nous avons développé un prototype basé sur le modèle GPT-4 d'OpenAI. Notre prototype décompose la tâche de vérification en plusieurs sous-tâches plus petites, interroge GPT-4 de manière itérative, et combine sa sortie avec une analyse statique légère. Nous avons évalué le prototype avec un développeur dans la boucle d'automatisation sur 20 programmes manipulant des vecteurs. Les résultats démontrent qu'il réduit significativement l'effort humain dans l'écriture de code de preuve de niveau d'entrée.

Les modèles de langage peuvent-ils suivre des règles simples ?
Can LLMs Follow Simple Rules?

Nov 6

ByNorman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Dan Hendrycks, David Wagner