Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Segment Anything Model 2 (SAM 2), un modèle de base visant à résoudre la segmentation visuelle pilotable dans les images et les vidéos. Nous avons développé un moteur de données, qui améliore le modèle et les données via l'interaction utilisateur, pour collecter le plus grand ensemble de données de segmentation vidéo à ce jour. Notre modèle repose sur une architecture de transformateur simple dotée d'une mémoire en flux pour le traitement vidéo en temps réel. SAM 2, entraîné sur nos données, offre des performances solides sur une large gamme de tâches. Pour la segmentation vidéo, nous observons une meilleure précision, en utilisant 3 fois moins d'interactions que les approches précédentes. Pour la segmentation d'images, notre modèle est plus précis et 6 fois plus rapide que le Segment Anything Model (SAM). Nous pensons que nos données, notre modèle et nos insights constitueront une étape importante pour la segmentation vidéo et les tâches de perception associées. Nous mettons à disposition une version de notre modèle, l'ensemble de données et une démonstration interactive.
Dans ce travail, nous présentons Gemma 2, une nouvelle addition à la famille Gemma de modèles open source légers et à la pointe de la technologie, allant de 2 à 27 milliards de paramètres. Dans cette nouvelle version, nous appliquons plusieurs modifications techniques connues à l'architecture Transformer, telles que l'alternance d'attention locale-globale (Beltagy et al., 2020a) et l'attention par groupes de requêtes (Ainslie et al., 2023). Nous entraînons également les modèles de 2B et 9B par distillation de connaissances (Hinton et al., 2015) plutôt que par prédiction du token suivant. Les modèles résultants offrent les meilleures performances pour leur taille et constituent même des alternatives compétitives à des modèles 2 à 3 fois plus grands. Nous mettons tous nos modèles à disposition de la communauté.
Nous présentons SF3D, une nouvelle méthode permettant la reconstruction rapide et de haute qualité de maillages d'objets texturés à partir d'une seule image en seulement 0,5 seconde. Contrairement à la plupart des approches existantes, SF3D est explicitement entraîné pour la génération de maillages, intégrant une technique rapide de dépliage UV qui permet une génération rapide de textures plutôt que de s'appuyer sur des couleurs de vertex. La méthode apprend également à prédire les paramètres de matériaux et les cartes normales pour améliorer la qualité visuelle des maillages 3D reconstruits. De plus, SF3D intègre une étape de suppression d'éclairage pour éliminer efficacement les effets d'éclairage à basse fréquence, garantissant que les maillages reconstruits peuvent être facilement utilisés dans de nouvelles conditions d'éclairage. Les expériences démontrent la performance supérieure de SF3D par rapport aux techniques existantes. Page du projet : https://stable-fast-3d.github.io
Bien que les grands modèles de langage démontrent des performances remarquables dans la compréhension du langage naturel, leur nature gourmande en ressources les rend moins accessibles. En revanche, les modèles de langage plus petits, tels que MiniCPM, offrent une scalabilité plus durable, mais sous-performent souvent sans optimisation spécialisée. Dans cet article, nous explorons l'amélioration des modèles de langage plus petits grâce à l'optimisation de leurs embeddings de texte. Nous sélectionnons trois modèles de langage, MiniCPM, Phi-2 et Gemma, pour effectuer un fine-tuning contrastif sur le jeu de données NLI. Nos résultats montrent que cette méthode de fine-tuning améliore la qualité des embeddings de texte pour les trois modèles sur divers benchmarks, avec MiniCPM affichant les améliorations les plus significatives, avec un gain de performance moyen de 56,33 %. Le code de fine-tuning contrastif est disponible publiquement à l'adresse suivante : https://github.com/trapoom555/Language-Model-STS-CFT.
Le récent succès des grands modèles de vision et de langage montre un potentiel considérable pour piloter les systèmes d'agents opérant sur les interfaces utilisateur. Cependant, nous soutenons que la puissance des modèles multimodaux comme GPT-4V en tant qu'agents généraux sur plusieurs systèmes d'exploitation et applications différentes est largement sous-estimée en raison de l'absence d'une technique robuste d'analyse d'écran capable de : 1) identifier de manière fiable les icônes interactives au sein de l'interface utilisateur, et 2) comprendre la sémantique des différents éléments dans une capture d'écran et associer avec précision l'action souhaitée à la région correspondante sur l'écran. Pour combler ces lacunes, nous introduisons OmniParser, une méthode complète pour analyser les captures d'écran d'interfaces utilisateur en éléments structurés, ce qui améliore significativement la capacité de GPT-4V à générer des actions pouvant être ancrées avec précision dans les régions correspondantes de l'interface. Nous avons d'abord constitué un ensemble de données de détection d'icônes interactives à partir de pages web populaires et un ensemble de données de descriptions d'icônes. Ces ensembles de données ont été utilisés pour affiner des modèles spécialisés : un modèle de détection pour analyser les régions interactives sur l'écran et un modèle de légende pour extraire la sémantique fonctionnelle des éléments détectés. OmniParser améliore significativement les performances de GPT-4V sur le benchmark ScreenSpot. Et sur les benchmarks Mind2Web et AITW, OmniParser avec uniquement une capture d'écran en entrée surpasse les performances de référence de GPT-4V nécessitant des informations supplémentaires en dehors de la capture d'écran.
Les modèles de langage multimodaux (MLLMs) sont de plus en plus déployés dans des environnements réels, ce qui nécessite leur capacité à interpréter des espaces 3D et à comprendre les dynamiques temporelles. Malgré leur potentiel, les meilleurs modèles actuels de notre communauté peinent encore à appréhender de manière adéquate les dimensions spatiales et temporelles. Nous introduisons Coarse Correspondence, une méthode simple, efficace, polyvalente et ne nécessitant pas d'entraînement, conçue pour susciter une compréhension 3D et temporelle dans les MLLMs. Notre méthode utilise un modèle de suivi léger pour établir des correspondances d'objets entre les images d'une vidéo ou entre des ensembles de points de vue d'images. Elle sélectionne les instances d'objets les plus fréquentes et les visualise avec des marqueurs dotés d'identifiants uniques dans l'image. Avec cette approche simple, nous obtenons des résultats de pointe sur des benchmarks de compréhension 3D, notamment ScanQA (+20,5\%) et un sous-ensemble d'OpenEQA (+9,7\%), ainsi que sur des benchmarks de vidéos longues comme EgoSchema (+6,0\%). Nous avons également constitué un petit ensemble de données diagnostiques pour évaluer si les MLLMs peuvent raisonner sur l'espace à partir d'un point de vue décrit autre que celui de la caméra. Une fois encore, Coarse Correspondence améliore les capacités de prise de perspective spatiale, mais nous soulignons que les MLLMs rencontrent des difficultés avec cette tâche. Ensemble, nous démontrons que notre méthode de prompting simple peut considérablement aider les tâches en aval nécessitant un raisonnement 3D ou temporel.
Les applications récentes des grands modèles de langage, telles que la génération augmentée par récupération et les chatbots, ont accru le besoin de traiter des contextes d'entrée plus longs. Cependant, cette exigence est entravée par des limitations inhérentes. Sur le plan architectural, les modèles sont contraints par une fenêtre de contexte définie lors de l'entraînement. De plus, le traitement de textes étendus nécessite une mémoire GPU substantielle. Nous proposons une nouvelle approche, Finch, pour compresser le contexte d'entrée en exploitant les poids pré-entraînés du mécanisme d'auto-attention. Étant donné une instruction et un texte long, Finch identifie itérativement les paires de Clés (K) et de Valeurs (V) les plus pertinentes sur des segments du texte, conditionnées par l'instruction. Seules ces paires sont stockées dans le cache KV, qui, dans l'espace limité par la fenêtre de contexte, contient finalement une version compressée du texte long. Notre proposition permet aux modèles de consommer des entrées volumineuses même avec un taux de compression élevé (jusqu'à 93x) tout en préservant l'intégrité sémantique, sans nécessiter de réglage fin.
Les modèles de diffusion ont ouvert la voie à une large gamme de cadres d'édition d'images basés sur le texte. Cependant, ces approches s'appuient généralement sur la nature multi-étapes du processus de diffusion inverse, et leur adaptation à des méthodes de sampling rapide et distillé s'est avérée étonnamment difficile. Ici, nous nous concentrons sur une ligne populaire de cadres d'édition basés sur le texte - l'approche d'inversion de bruit DDPM dite « edit-friendly ». Nous analysons son application aux méthodes de sampling rapide et catégorisons ses échecs en deux classes : l'apparition d'artefacts visuels et une force d'édition insuffisante. Nous attribuons les artefacts à une inadéquation des statistiques de bruit entre les bruits inversés et le calendrier de bruit attendu, et suggérons un calendrier de bruit décalé qui corrige cet écart. Pour augmenter la force d'édition, nous proposons une approche de pseudo-guidage qui augmente efficacement l'amplitude des modifications sans introduire de nouveaux artefacts. Au final, notre méthode permet l'édition d'images basée sur le texte avec aussi peu que trois étapes de diffusion, tout en fournissant de nouvelles perspectives sur les mécanismes sous-jacents aux approches populaires d'édition basées sur le texte.
MM-Vet, avec ses questions ouvertes en vision-langage visant à évaluer les capacités intégrées, est devenu l'un des benchmarks les plus populaires pour l'évaluation des grands modèles multimodaux. MM-Vet évalue six capacités fondamentales en vision-langage (VL) : la reconnaissance, les connaissances, la conscience spatiale, la génération de langage, la reconnaissance optique de caractères (OCR) et les mathématiques. Cependant, son format de questions se limite à des paires image-texte uniques, ne prenant pas en compte les séquences entrelacées d'images et de textes fréquentes dans les scénarios réels. Pour pallier cette limitation, nous introduisons MM-Vet v2, qui inclut une nouvelle capacité VL appelée "compréhension des séquences image-texte", évaluant la capacité des modèles à traiter des séquences VL. De plus, nous maintenons la haute qualité des échantillons d'évaluation tout en élargissant davantage la taille de l'ensemble d'évaluation. En utilisant MM-Vet v2 pour évaluer les grands modèles multimodaux, nous avons constaté que Claude 3.5 Sonnet est le meilleur modèle avec un score de 71,8, surpassant légèrement GPT-4o qui a obtenu 71,0. Parmi les modèles à poids ouvert, InternVL2-Llama3-76B se distingue avec un score de 68,4.
Ces dernières années ont vu une amélioration considérable de la qualité des approches de génération et d'édition vidéo. Alors que plusieurs techniques se concentrent sur l'édition de l'apparence, peu abordent le mouvement. Les approches actuelles utilisant du texte, des trajectoires ou des boîtes englobantes se limitent à des mouvements simples, c'est pourquoi nous spécifions les mouvements à l'aide d'une seule vidéo de référence de mouvement. Nous proposons en outre d'utiliser un modèle pré-entraîné image-à-vidéo plutôt qu'un modèle texte-à-vidéo. Cette approche nous permet de préserver l'apparence et la position exactes d'un objet ou d'une scène cible et aide à dissocier l'apparence du mouvement. Notre méthode, appelée inversion motion-textuelle, s'appuie sur notre observation que les modèles image-à-vidéo extraient principalement l'apparence à partir de l'entrée d'image (latente), tandis que l'incorporation de texte/image injectée via l'attention croisée contrôle principalement le mouvement. Nous représentons donc le mouvement à l'aide de tokens d'incorporation de texte/image. En opérant sur une incorporation motion-textuelle gonflée contenant plusieurs tokens d'incorporation de texte/image par frame, nous obtenons une granularité temporelle élevée du mouvement. Une fois optimisée sur la vidéo de référence de mouvement, cette incorporation peut être appliquée à diverses images cibles pour générer des vidéos avec des mouvements sémantiquement similaires. Notre approche ne nécessite pas d'alignement spatial entre la vidéo de référence de mouvement et l'image cible, se généralise à divers domaines et peut être appliquée à diverses tâches telles que la réincarnation corporelle et faciale, ainsi que le contrôle du mouvement d'objets inanimés et de la caméra. Nous démontrons empiriquement l'efficacité de notre méthode dans la tâche de transfert sémantique de mouvement vidéo, surpassant significativement les méthodes existantes dans ce contexte.
L'animation faciale 3D pilotée par l'audio vise à mapper un signal audio d'entrée à des mouvements faciaux réalistes. Malgré des progrès significatifs, des limitations découlent d'annotations 3D incohérentes, contraignant les modèles précédents à s'entraîner sur des annotations spécifiques et limitant ainsi l'échelle d'entraînement. Dans ce travail, nous présentons UniTalker, un modèle unifié doté d'une architecture multi-têtes conçue pour exploiter efficacement des jeux de données avec des annotations variées. Pour améliorer la stabilité de l'entraînement et assurer la cohérence entre les sorties multi-têtes, nous employons trois stratégies d'entraînement : l'ACP (Analyse en Composantes Principales), l'échauffement du modèle et l'incorporation d'identité pivot. Pour étendre l'échelle et la diversité de l'entraînement, nous constituons A2F-Bench, comprenant cinq jeux de données publics et trois nouveaux jeux de données. Ces ensembles couvrent un large éventail de domaines audio, incluant des voix multilingues et des chansons, augmentant ainsi les données d'entraînement de moins d'une heure à 18,5 heures. Avec un seul modèle UniTalker entraîné, nous obtenons des réductions substantielles de l'erreur des sommets labiaux de 9,2 % pour le jeu de données BIWI et de 13,7 % pour Vocaset. De plus, le modèle UniTalker pré-entraîné montre un potentiel en tant que modèle de base pour les tâches d'animation faciale pilotée par l'audio. Le fine-tuning d'UniTalker pré-entraîné sur des jeux de données connus améliore encore les performances sur chaque ensemble, avec une réduction moyenne de l'erreur de 6,3 % sur A2F-Bench. Par ailleurs, le fine-tuning d'UniTalker sur un jeu de données inédit avec seulement la moitié des données surpasse les modèles de pointe précédents entraînés sur l'ensemble complet des données. Le code et les jeux de données sont disponibles sur la page du projet https://github.com/X-niper/UniTalker.
Permettre l'accès au manga pour les personnes malvoyantes représente un défi majeur en raison de sa nature intrinsèquement visuelle. Dans l'objectif de favoriser l'accessibilité, cet article vise à générer automatiquement une transcription dialoguée d'un chapitre complet de manga, en mettant particulièrement l'accent sur la cohérence narrative. Cela implique d'identifier (i) ce qui est dit, c'est-à-dire détecter les textes sur chaque page et les classer comme essentiels ou non essentiels, et (ii) qui le dit, c'est-à-dire attribuer chaque dialogue à son locuteur, tout en veillant à ce que les mêmes personnages soient nommés de manière cohérente tout au long du chapitre. À cette fin, nous présentons : (i) Magiv2, un modèle capable de générer des transcriptions de manga de haute qualité à l'échelle d'un chapitre, avec des personnages nommés et une précision significativement accrue dans la diarisation des locuteurs par rapport aux travaux précédents ; (ii) une extension du jeu de données d'évaluation PopManga, qui inclut désormais des annotations pour les boîtes de queue des bulles de dialogue, les associations de texte aux queues correspondantes, la classification des textes comme essentiels ou non essentiels, et l'identité de chaque boîte de personnage ; et (iii) un nouveau jeu de données de banque de personnages, comprenant plus de 11 000 personnages issus de 76 séries de manga, avec un total de 11 500 images exemplaires de personnages, ainsi qu'une liste des chapitres dans lesquels ils apparaissent. Le code, le modèle entraîné et les deux jeux de données sont disponibles à l'adresse suivante : https://github.com/ragavsachdeva/magi
Les modèles de diffusion conditionnelle ont démontré un succès remarquable dans la génération de contenu visuel, produisant des échantillons de haute qualité dans divers domaines, en grande partie grâce à l'orientation sans classifieur (CFG). Les tentatives récentes pour étendre cette orientation aux modèles non conditionnels se sont appuyées sur des techniques heuristiques, entraînant une qualité de génération sous-optimale et des effets indésirables. Dans ce travail, nous proposons l'Orientation Énergétique Lissée (SEG), une nouvelle approche sans entraînement ni condition qui exploite la perspective énergétique du mécanisme d'auto-attention pour améliorer la génération d'images. En définissant l'énergie de l'auto-attention, nous introduisons une méthode pour réduire la courbure du paysage énergétique de l'attention et utilisons la sortie comme prédiction non conditionnelle. Pratiquement, nous contrôlons la courbure du paysage énergétique en ajustant le paramètre du noyau gaussien tout en gardant fixe le paramètre d'échelle d'orientation. De plus, nous présentons une méthode de floutage des requêtes qui équivaut à flouter l'ensemble des poids d'attention sans engendrer une complexité quadratique en fonction du nombre de tokens. Dans nos expériences, SEG réalise une amélioration de Pareto à la fois en qualité et en réduction des effets secondaires. Le code est disponible à l'adresse https://github.com/SusungHong/SEG-SDXL.
Les rébus sont des énigmes qui nécessitent un raisonnement multi-étapes contraint pour identifier une phrase cachée à partir d'un ensemble d'images et de lettres. Dans ce travail, nous introduisons une vaste collection de rébus verbalisés pour la langue italienne et l'utilisons pour évaluer les capacités de résolution de rébus des modèles de langage de pointe. Bien que les systèmes généralistes tels que LLaMA-3 et GPT-4o obtiennent de faibles performances sur cette tâche, un ajustement ad hoc semble améliorer les performances des modèles. Cependant, nous constatons que les gains de performance obtenus grâce à l'entraînement sont largement motivés par la mémorisation. Nos résultats suggèrent que la résolution de rébus reste un banc d'essai difficile pour évaluer la maîtrise linguistique et les compétences de suivi séquentiel des instructions des modèles de langage de grande taille.
La détection d'échantillons hors distribution (OOD) est cruciale pour garantir la sécurité des systèmes d'apprentissage automatique et a façonné le domaine de la détection OOD. Parallèlement, plusieurs autres problèmes sont étroitement liés à la détection OOD, notamment la détection d'anomalies (AD), la détection de nouveauté (ND), la reconnaissance en ensemble ouvert (OSR) et la détection de valeurs aberrantes (OD). Pour unifier ces problèmes, un cadre généralisé de détection OOD a été proposé, catégorisant taxonomiquement ces cinq problèmes. Cependant, les modèles de vision et langage (VLMs) tels que CLIP ont considérablement changé le paradigme et brouillé les frontières entre ces domaines, semant à nouveau la confusion parmi les chercheurs. Dans cette étude, nous présentons d'abord une version généralisée de la détection OOD v2, englobant l'évolution de l'AD, de la ND, de l'OSR, de la détection OOD et de l'OD à l'ère des VLMs. Notre cadre révèle qu'avec une certaine inactivité et intégration des domaines, les défis majeurs sont devenus la détection OOD et l'AD. De plus, nous mettons également en lumière un changement significatif dans la définition, les paramètres des problèmes et les benchmarks ; nous proposons donc une revue complète des méthodologies de détection OOD, incluant une discussion sur les autres tâches connexes pour clarifier leur relation avec la détection OOD. Enfin, nous explorons les avancées dans l'ère émergente des grands modèles de vision et langage (LVLMs), tels que GPT-4V. Nous concluons cette étude par les défis ouverts et les directions futures.
Cet article présente une nouvelle approche appelée résumé de parole phrase par phrase (Sen-SSum), qui génère des résumés textuels à partir d'un document parlé de manière phrase par phrase. Sen-SSum combine le traitement en temps réel de la reconnaissance automatique de la parole (ASR) avec la concision du résumé de parole. Pour explorer cette approche, nous présentons deux ensembles de données pour Sen-SSum : Mega-SSum et CSJ-SSum. En utilisant ces ensembles de données, notre étude évalue deux types de modèles basés sur les Transformers : 1) des modèles en cascade qui combinent l'ASR et des modèles de résumé de texte performants, et 2) des modèles de bout en bout (E2E) qui convertissent directement la parole en un résumé textuel. Bien que les modèles E2E soient attrayants pour développer des modèles efficaces en termes de calcul, ils obtiennent de moins bons résultats que les modèles en cascade. Par conséquent, nous proposons une distillation de connaissances pour les modèles E2E en utilisant des pseudo-résumés générés par les modèles en cascade. Nos expériences montrent que cette distillation de connaissances proposée améliore efficacement les performances du modèle E2E sur les deux ensembles de données.
Ce travail présente un cadre novateur pour l'entraînement de modèles d'embeddings imbriqués en arabe grâce à l'apprentissage d'embeddings Matryoshka, en exploitant des modèles multilingues, spécifiques à l'arabe et basés sur l'anglais, afin de mettre en lumière la puissance des modèles d'embeddings imbriqués dans diverses tâches aval de traitement du langage naturel (NLP) en arabe. Notre contribution innovante inclut la traduction de plusieurs ensembles de données de similarité de phrases en arabe, permettant ainsi un cadre d'évaluation complet pour comparer ces modèles selon différentes dimensions. Nous avons entraîné plusieurs modèles d'embeddings imbriqués sur l'ensemble de données de triplets d'inférence en langage naturel en arabe et avons évalué leurs performances à l'aide de plusieurs métriques d'évaluation, incluant les corrélations de Pearson et Spearman pour la similarité cosinus, la distance de Manhattan, la distance euclidienne et la similarité par produit scalaire. Les résultats démontrent la performance supérieure des modèles d'embeddings Matryoshka, en particulier dans la capture des nuances sémantiques propres à la langue arabe. Les résultats ont montré que les modèles d'embeddings Matryoshka en arabe surpassent significativement les modèles traditionnels, avec une amélioration allant jusqu'à 20-25\% sur diverses métriques de similarité. Ces résultats soulignent l'efficacité de l'entraînement spécifique à la langue et mettent en évidence le potentiel des modèles Matryoshka pour améliorer les tâches de similarité sémantique textuelle en NLP arabe.