papers.title

papers.description

SAM 2 : Segmentation de tout élément dans les images et les vidéos
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

120

Nous présentons Segment Anything Model 2 (SAM 2), un modèle de base visant à résoudre la segmentation visuelle pilotable dans les images et les vidéos. Nous avons développé un moteur de données, qui améliore le modèle et les données via l'interaction utilisateur, pour collecter le plus grand ensemble de données de segmentation vidéo à ce jour. Notre modèle repose sur une architecture de transformateur simple dotée d'une mémoire en flux pour le traitement vidéo en temps réel. SAM 2, entraîné sur nos données, offre des performances solides sur une large gamme de tâches. Pour la segmentation vidéo, nous observons une meilleure précision, en utilisant 3 fois moins d'interactions que les approches précédentes. Pour la segmentation d'images, notre modèle est plus précis et 6 fois plus rapide que le Segment Anything Model (SAM). Nous pensons que nos données, notre modèle et nos insights constitueront une étape importante pour la segmentation vidéo et les tâches de perception associées. Nous mettons à disposition une version de notre modèle, l'ensemble de données et une démonstration interactive.

Gemma 2 : Amélioration des modèles de langage ouverts à une taille pratique
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

Dans ce travail, nous présentons Gemma 2, une nouvelle addition à la famille Gemma de modèles open source légers et à la pointe de la technologie, allant de 2 à 27 milliards de paramètres. Dans cette nouvelle version, nous appliquons plusieurs modifications techniques connues à l'architecture Transformer, telles que l'alternance d'attention locale-globale (Beltagy et al., 2020a) et l'attention par groupes de requêtes (Ainslie et al., 2023). Nous entraînons également les modèles de 2B et 9B par distillation de connaissances (Hinton et al., 2015) plutôt que par prédiction du token suivant. Les modèles résultants offrent les meilleures performances pour leur taille et constituent même des alternatives compétitives à des modèles 2 à 3 fois plus grands. Nous mettons tous nos modèles à disposition de la communauté.

SF3D : Reconstruction stable et rapide de maillages 3D avec dépliage UV et séparation de l'éclairage
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Nous présentons SF3D, une nouvelle méthode permettant la reconstruction rapide et de haute qualité de maillages d'objets texturés à partir d'une seule image en seulement 0,5 seconde. Contrairement à la plupart des approches existantes, SF3D est explicitement entraîné pour la génération de maillages, intégrant une technique rapide de dépliage UV qui permet une génération rapide de textures plutôt que de s'appuyer sur des couleurs de vertex. La méthode apprend également à prédire les paramètres de matériaux et les cartes normales pour améliorer la qualité visuelle des maillages 3D reconstruits. De plus, SF3D intègre une étape de suppression d'éclairage pour éliminer efficacement les effets d'éclairage à basse fréquence, garantissant que les maillages reconstruits peuvent être facilement utilisés dans de nouvelles conditions d'éclairage. Les expériences démontrent la performance supérieure de SF3D par rapport aux techniques existantes. Page du projet : https://stable-fast-3d.github.io

Amélioration des embeddings textuels pour les modèles de langage de petite taille grâce au fine-tuning contrastif
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

Bien que les grands modèles de langage démontrent des performances remarquables dans la compréhension du langage naturel, leur nature gourmande en ressources les rend moins accessibles. En revanche, les modèles de langage plus petits, tels que MiniCPM, offrent une scalabilité plus durable, mais sous-performent souvent sans optimisation spécialisée. Dans cet article, nous explorons l'amélioration des modèles de langage plus petits grâce à l'optimisation de leurs embeddings de texte. Nous sélectionnons trois modèles de langage, MiniCPM, Phi-2 et Gemma, pour effectuer un fine-tuning contrastif sur le jeu de données NLI. Nos résultats montrent que cette méthode de fine-tuning améliore la qualité des embeddings de texte pour les trois modèles sur divers benchmarks, avec MiniCPM affichant les améliorations les plus significatives, avec un gain de performance moyen de 56,33 %. Le code de fine-tuning contrastif est disponible publiquement à l'adresse suivante : https://github.com/trapoom555/Language-Model-STS-CFT.

OmniParser pour agent d'interface graphique basé uniquement sur la vision
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Le récent succès des grands modèles de vision et de langage montre un potentiel considérable pour piloter les systèmes d'agents opérant sur les interfaces utilisateur. Cependant, nous soutenons que la puissance des modèles multimodaux comme GPT-4V en tant qu'agents généraux sur plusieurs systèmes d'exploitation et applications différentes est largement sous-estimée en raison de l'absence d'une technique robuste d'analyse d'écran capable de : 1) identifier de manière fiable les icônes interactives au sein de l'interface utilisateur, et 2) comprendre la sémantique des différents éléments dans une capture d'écran et associer avec précision l'action souhaitée à la région correspondante sur l'écran. Pour combler ces lacunes, nous introduisons OmniParser, une méthode complète pour analyser les captures d'écran d'interfaces utilisateur en éléments structurés, ce qui améliore significativement la capacité de GPT-4V à générer des actions pouvant être ancrées avec précision dans les régions correspondantes de l'interface. Nous avons d'abord constitué un ensemble de données de détection d'icônes interactives à partir de pages web populaires et un ensemble de données de descriptions d'icônes. Ces ensembles de données ont été utilisés pour affiner des modèles spécialisés : un modèle de détection pour analyser les régions interactives sur l'écran et un modèle de légende pour extraire la sémantique fonctionnelle des éléments détectés. OmniParser améliore significativement les performances de GPT-4V sur le benchmark ScreenSpot. Et sur les benchmarks Mind2Web et AITW, OmniParser avec uniquement une capture d'écran en entrée surpasse les performances de référence de GPT-4V nécessitant des informations supplémentaires en dehors de la capture d'écran.

La correspondance approximative suscite une compréhension spatio-temporelle 3D dans les modèles de langage multimodaux.
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Les modèles de langage multimodaux (MLLMs) sont de plus en plus déployés dans des environnements réels, ce qui nécessite leur capacité à interpréter des espaces 3D et à comprendre les dynamiques temporelles. Malgré leur potentiel, les meilleurs modèles actuels de notre communauté peinent encore à appréhender de manière adéquate les dimensions spatiales et temporelles. Nous introduisons Coarse Correspondence, une méthode simple, efficace, polyvalente et ne nécessitant pas d'entraînement, conçue pour susciter une compréhension 3D et temporelle dans les MLLMs. Notre méthode utilise un modèle de suivi léger pour établir des correspondances d'objets entre les images d'une vidéo ou entre des ensembles de points de vue d'images. Elle sélectionne les instances d'objets les plus fréquentes et les visualise avec des marqueurs dotés d'identifiants uniques dans l'image. Avec cette approche simple, nous obtenons des résultats de pointe sur des benchmarks de compréhension 3D, notamment ScanQA (+20,5\%) et un sous-ensemble d'OpenEQA (+9,7\%), ainsi que sur des benchmarks de vidéos longues comme EgoSchema (+6,0\%). Nous avons également constitué un petit ensemble de données diagnostiques pour évaluer si les MLLMs peuvent raisonner sur l'espace à partir d'un point de vue décrit autre que celui de la caméra. Une fois encore, Coarse Correspondence améliore les capacités de prise de perspective spatiale, mais nous soulignons que les MLLMs rencontrent des difficultés avec cette tâche. Ensemble, nous démontrons que notre méthode de prompting simple peut considérablement aider les tâches en aval nécessitant un raisonnement 3D ou temporel.

Finch : Compression du cache clé-valeur guidée par des prompts
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

Les applications récentes des grands modèles de langage, telles que la génération augmentée par récupération et les chatbots, ont accru le besoin de traiter des contextes d'entrée plus longs. Cependant, cette exigence est entravée par des limitations inhérentes. Sur le plan architectural, les modèles sont contraints par une fenêtre de contexte définie lors de l'entraînement. De plus, le traitement de textes étendus nécessite une mémoire GPU substantielle. Nous proposons une nouvelle approche, Finch, pour compresser le contexte d'entrée en exploitant les poids pré-entraînés du mécanisme d'auto-attention. Étant donné une instruction et un texte long, Finch identifie itérativement les paires de Clés (K) et de Valeurs (V) les plus pertinentes sur des segments du texte, conditionnées par l'instruction. Seules ces paires sont stockées dans le cache KV, qui, dans l'espace limité par la fenêtre de contexte, contient finalement une version compressée du texte long. Notre proposition permet aux modèles de consommer des entrées volumineuses même avec un taux de compression élevé (jusqu'à 93x) tout en préservant l'intégrité sémantique, sans nécessiter de réglage fin.

TurboEdit : Édition d'images basée sur le texte à l'aide de modèles de diffusion en quelques étapes
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

Les modèles de diffusion ont ouvert la voie à une large gamme de cadres d'édition d'images basés sur le texte. Cependant, ces approches s'appuient généralement sur la nature multi-étapes du processus de diffusion inverse, et leur adaptation à des méthodes de sampling rapide et distillé s'est avérée étonnamment difficile. Ici, nous nous concentrons sur une ligne populaire de cadres d'édition basés sur le texte - l'approche d'inversion de bruit DDPM dite « edit-friendly ». Nous analysons son application aux méthodes de sampling rapide et catégorisons ses échecs en deux classes : l'apparition d'artefacts visuels et une force d'édition insuffisante. Nous attribuons les artefacts à une inadéquation des statistiques de bruit entre les bruits inversés et le calendrier de bruit attendu, et suggérons un calendrier de bruit décalé qui corrige cet écart. Pour augmenter la force d'édition, nous proposons une approche de pseudo-guidage qui augmente efficacement l'amplitude des modifications sans introduire de nouveaux artefacts. Au final, notre méthode permet l'édition d'images basée sur le texte avec aussi peu que trois étapes de diffusion, tout en fournissant de nouvelles perspectives sur les mécanismes sous-jacents aux approches populaires d'édition basées sur le texte.

MM-Vet v2 : Un benchmark exigeant pour évaluer les capacités intégrées des grands modèles multimodaux
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

MM-Vet, avec ses questions ouvertes en vision-langage visant à évaluer les capacités intégrées, est devenu l'un des benchmarks les plus populaires pour l'évaluation des grands modèles multimodaux. MM-Vet évalue six capacités fondamentales en vision-langage (VL) : la reconnaissance, les connaissances, la conscience spatiale, la génération de langage, la reconnaissance optique de caractères (OCR) et les mathématiques. Cependant, son format de questions se limite à des paires image-texte uniques, ne prenant pas en compte les séquences entrelacées d'images et de textes fréquentes dans les scénarios réels. Pour pallier cette limitation, nous introduisons MM-Vet v2, qui inclut une nouvelle capacité VL appelée "compréhension des séquences image-texte", évaluant la capacité des modèles à traiter des séquences VL. De plus, nous maintenons la haute qualité des échantillons d'évaluation tout en élargissant davantage la taille de l'ensemble d'évaluation. En utilisant MM-Vet v2 pour évaluer les grands modèles multimodaux, nous avons constaté que Claude 3.5 Sonnet est le meilleur modèle avec un score de 71,8, surpassant légèrement GPT-4o qui a obtenu 71,0. Parmi les modèles à poids ouvert, InternVL2-Llama3-76B se distingue avec un score de 68,4.

Réinterpréter Tout : Transfert de Mouvement Vidéo Sémantique par Inversion Mouvement-Texte
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

Ces dernières années ont vu une amélioration considérable de la qualité des approches de génération et d'édition vidéo. Alors que plusieurs techniques se concentrent sur l'édition de l'apparence, peu abordent le mouvement. Les approches actuelles utilisant du texte, des trajectoires ou des boîtes englobantes se limitent à des mouvements simples, c'est pourquoi nous spécifions les mouvements à l'aide d'une seule vidéo de référence de mouvement. Nous proposons en outre d'utiliser un modèle pré-entraîné image-à-vidéo plutôt qu'un modèle texte-à-vidéo. Cette approche nous permet de préserver l'apparence et la position exactes d'un objet ou d'une scène cible et aide à dissocier l'apparence du mouvement. Notre méthode, appelée inversion motion-textuelle, s'appuie sur notre observation que les modèles image-à-vidéo extraient principalement l'apparence à partir de l'entrée d'image (latente), tandis que l'incorporation de texte/image injectée via l'attention croisée contrôle principalement le mouvement. Nous représentons donc le mouvement à l'aide de tokens d'incorporation de texte/image. En opérant sur une incorporation motion-textuelle gonflée contenant plusieurs tokens d'incorporation de texte/image par frame, nous obtenons une granularité temporelle élevée du mouvement. Une fois optimisée sur la vidéo de référence de mouvement, cette incorporation peut être appliquée à diverses images cibles pour générer des vidéos avec des mouvements sémantiquement similaires. Notre approche ne nécessite pas d'alignement spatial entre la vidéo de référence de mouvement et l'image cible, se généralise à divers domaines et peut être appliquée à diverses tâches telles que la réincarnation corporelle et faciale, ainsi que le contrôle du mouvement d'objets inanimés et de la caméra. Nous démontrons empiriquement l'efficacité de notre méthode dans la tâche de transfert sémantique de mouvement vidéo, surpassant significativement les méthodes existantes dans ce contexte.

UniTalker : Amélioration de l'animation faciale 3D pilotée par l'audio grâce à un modèle unifié
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

L'animation faciale 3D pilotée par l'audio vise à mapper un signal audio d'entrée à des mouvements faciaux réalistes. Malgré des progrès significatifs, des limitations découlent d'annotations 3D incohérentes, contraignant les modèles précédents à s'entraîner sur des annotations spécifiques et limitant ainsi l'échelle d'entraînement. Dans ce travail, nous présentons UniTalker, un modèle unifié doté d'une architecture multi-têtes conçue pour exploiter efficacement des jeux de données avec des annotations variées. Pour améliorer la stabilité de l'entraînement et assurer la cohérence entre les sorties multi-têtes, nous employons trois stratégies d'entraînement : l'ACP (Analyse en Composantes Principales), l'échauffement du modèle et l'incorporation d'identité pivot. Pour étendre l'échelle et la diversité de l'entraînement, nous constituons A2F-Bench, comprenant cinq jeux de données publics et trois nouveaux jeux de données. Ces ensembles couvrent un large éventail de domaines audio, incluant des voix multilingues et des chansons, augmentant ainsi les données d'entraînement de moins d'une heure à 18,5 heures. Avec un seul modèle UniTalker entraîné, nous obtenons des réductions substantielles de l'erreur des sommets labiaux de 9,2 % pour le jeu de données BIWI et de 13,7 % pour Vocaset. De plus, le modèle UniTalker pré-entraîné montre un potentiel en tant que modèle de base pour les tâches d'animation faciale pilotée par l'audio. Le fine-tuning d'UniTalker pré-entraîné sur des jeux de données connus améliore encore les performances sur chaque ensemble, avec une réduction moyenne de l'erreur de 6,3 % sur A2F-Bench. Par ailleurs, le fine-tuning d'UniTalker sur un jeu de données inédit avec seulement la moitié des données surpasse les modèles de pointe précédents entraînés sur l'ensemble complet des données. Le code et les jeux de données sont disponibles sur la page du projet https://github.com/X-niper/UniTalker.

Les queues racontent des histoires : transcriptions chapitre par chapitre de mangas avec noms de personnages
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Permettre l'accès au manga pour les personnes malvoyantes représente un défi majeur en raison de sa nature intrinsèquement visuelle. Dans l'objectif de favoriser l'accessibilité, cet article vise à générer automatiquement une transcription dialoguée d'un chapitre complet de manga, en mettant particulièrement l'accent sur la cohérence narrative. Cela implique d'identifier (i) ce qui est dit, c'est-à-dire détecter les textes sur chaque page et les classer comme essentiels ou non essentiels, et (ii) qui le dit, c'est-à-dire attribuer chaque dialogue à son locuteur, tout en veillant à ce que les mêmes personnages soient nommés de manière cohérente tout au long du chapitre. À cette fin, nous présentons : (i) Magiv2, un modèle capable de générer des transcriptions de manga de haute qualité à l'échelle d'un chapitre, avec des personnages nommés et une précision significativement accrue dans la diarisation des locuteurs par rapport aux travaux précédents ; (ii) une extension du jeu de données d'évaluation PopManga, qui inclut désormais des annotations pour les boîtes de queue des bulles de dialogue, les associations de texte aux queues correspondantes, la classification des textes comme essentiels ou non essentiels, et l'identité de chaque boîte de personnage ; et (iii) un nouveau jeu de données de banque de personnages, comprenant plus de 11 000 personnages issus de 76 séries de manga, avec un total de 11 500 images exemplaires de personnages, ainsi qu'une liste des chapitres dans lesquels ils apparaissent. Le code, le modèle entraîné et les deux jeux de données sont disponibles à l'adresse suivante : https://github.com/ragavsachdeva/magi

Amélioration de la compréhension de la similarité sémantique en TALN arabe grâce à l'apprentissage d'embeddings imbriqués
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Ce travail présente un cadre novateur pour l'entraînement de modèles d'embeddings imbriqués en arabe grâce à l'apprentissage d'embeddings Matryoshka, en exploitant des modèles multilingues, spécifiques à l'arabe et basés sur l'anglais, afin de mettre en lumière la puissance des modèles d'embeddings imbriqués dans diverses tâches aval de traitement du langage naturel (NLP) en arabe. Notre contribution innovante inclut la traduction de plusieurs ensembles de données de similarité de phrases en arabe, permettant ainsi un cadre d'évaluation complet pour comparer ces modèles selon différentes dimensions. Nous avons entraîné plusieurs modèles d'embeddings imbriqués sur l'ensemble de données de triplets d'inférence en langage naturel en arabe et avons évalué leurs performances à l'aide de plusieurs métriques d'évaluation, incluant les corrélations de Pearson et Spearman pour la similarité cosinus, la distance de Manhattan, la distance euclidienne et la similarité par produit scalaire. Les résultats démontrent la performance supérieure des modèles d'embeddings Matryoshka, en particulier dans la capture des nuances sémantiques propres à la langue arabe. Les résultats ont montré que les modèles d'embeddings Matryoshka en arabe surpassent significativement les modèles traditionnels, avec une amélioration allant jusqu'à 20-25\% sur diverses métriques de similarité. Ces résultats soulignent l'efficacité de l'entraînement spécifique à la langue et mettent en évidence le potentiel des modèles Matryoshka pour améliorer les tâches de similarité sémantique textuelle en NLP arabe.

Guidance par Énergie Lissée : Orienter les Modèles de Diffusion avec une Courbure d'Attention Réduite
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Les modèles de diffusion conditionnelle ont démontré un succès remarquable dans la génération de contenu visuel, produisant des échantillons de haute qualité dans divers domaines, en grande partie grâce à l'orientation sans classifieur (CFG). Les tentatives récentes pour étendre cette orientation aux modèles non conditionnels se sont appuyées sur des techniques heuristiques, entraînant une qualité de génération sous-optimale et des effets indésirables. Dans ce travail, nous proposons l'Orientation Énergétique Lissée (SEG), une nouvelle approche sans entraînement ni condition qui exploite la perspective énergétique du mécanisme d'auto-attention pour améliorer la génération d'images. En définissant l'énergie de l'auto-attention, nous introduisons une méthode pour réduire la courbure du paysage énergétique de l'attention et utilisons la sortie comme prédiction non conditionnelle. Pratiquement, nous contrôlons la courbure du paysage énergétique en ajustant le paramètre du noyau gaussien tout en gardant fixe le paramètre d'échelle d'orientation. De plus, nous présentons une méthode de floutage des requêtes qui équivaut à flouter l'ensemble des poids d'attention sans engendrer une complexité quadratique en fonction du nombre de tokens. Dans nos expériences, SEG réalise une amélioration de Pareto à la fois en qualité et en réduction des effets secondaires. Le code est disponible à l'adresse https://github.com/SusungHong/SEG-SDXL.

Non Verbis, Sed Rebus : Les grands modèles de langage sont des solveurs faibles des rébus italiens
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Les rébus sont des énigmes qui nécessitent un raisonnement multi-étapes contraint pour identifier une phrase cachée à partir d'un ensemble d'images et de lettres. Dans ce travail, nous introduisons une vaste collection de rébus verbalisés pour la langue italienne et l'utilisons pour évaluer les capacités de résolution de rébus des modèles de langage de pointe. Bien que les systèmes généralistes tels que LLaMA-3 et GPT-4o obtiennent de faibles performances sur cette tâche, un ajustement ad hoc semble améliorer les performances des modèles. Cependant, nous constatons que les gains de performance obtenus grâce à l'entraînement sont largement motivés par la mémorisation. Nos résultats suggèrent que la résolution de rébus reste un banc d'essai difficile pour évaluer la maîtrise linguistique et les compétences de suivi séquentiel des instructions des modèles de langage de grande taille.

Détection Généralisée des Distributions Hors Domaine et Au-Delà à l'Ère des Modèles Vision-Langage : Une Revue
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

La détection d'échantillons hors distribution (OOD) est cruciale pour garantir la sécurité des systèmes d'apprentissage automatique et a façonné le domaine de la détection OOD. Parallèlement, plusieurs autres problèmes sont étroitement liés à la détection OOD, notamment la détection d'anomalies (AD), la détection de nouveauté (ND), la reconnaissance en ensemble ouvert (OSR) et la détection de valeurs aberrantes (OD). Pour unifier ces problèmes, un cadre généralisé de détection OOD a été proposé, catégorisant taxonomiquement ces cinq problèmes. Cependant, les modèles de vision et langage (VLMs) tels que CLIP ont considérablement changé le paradigme et brouillé les frontières entre ces domaines, semant à nouveau la confusion parmi les chercheurs. Dans cette étude, nous présentons d'abord une version généralisée de la détection OOD v2, englobant l'évolution de l'AD, de la ND, de l'OSR, de la détection OOD et de l'OD à l'ère des VLMs. Notre cadre révèle qu'avec une certaine inactivité et intégration des domaines, les défis majeurs sont devenus la détection OOD et l'AD. De plus, nous mettons également en lumière un changement significatif dans la définition, les paramètres des problèmes et les benchmarks ; nous proposons donc une revue complète des méthodologies de détection OOD, incluant une discussion sur les autres tâches connexes pour clarifier leur relation avec la détection OOD. Enfin, nous explorons les avancées dans l'ère émergente des grands modèles de vision et langage (LVLMs), tels que GPT-4V. Nous concluons cette étude par les défis ouverts et les directions futures.

Résumé de discours phrase par phrase : Tâche, jeux de données et modélisation end-to-end avec distillation de connaissances de modèles de langage
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Cet article présente une nouvelle approche appelée résumé de parole phrase par phrase (Sen-SSum), qui génère des résumés textuels à partir d'un document parlé de manière phrase par phrase. Sen-SSum combine le traitement en temps réel de la reconnaissance automatique de la parole (ASR) avec la concision du résumé de parole. Pour explorer cette approche, nous présentons deux ensembles de données pour Sen-SSum : Mega-SSum et CSJ-SSum. En utilisant ces ensembles de données, notre étude évalue deux types de modèles basés sur les Transformers : 1) des modèles en cascade qui combinent l'ASR et des modèles de résumé de texte performants, et 2) des modèles de bout en bout (E2E) qui convertissent directement la parole en un résumé textuel. Bien que les modèles E2E soient attrayants pour développer des modèles efficaces en termes de calcul, ils obtiennent de moins bons résultats que les modèles en cascade. Par conséquent, nous proposons une distillation de connaissances pour les modèles E2E en utilisant des pseudo-résumés générés par les modèles en cascade. Nos expériences montrent que cette distillation de connaissances proposée améliore efficacement les performances du modèle E2E sur les deux ensembles de données.

papers.title

papers.description

SAM 2 : Segmentation de tout élément dans les images et les vidéos
SAM 2: Segment Anything in Images and Videos

Aug 1

120

Gemma 2 : Amélioration des modèles de langage ouverts à une taille pratique
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

SF3D : Reconstruction stable et rapide de maillages 3D avec dépliage UV et séparation de l'éclairage
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Amélioration des embeddings textuels pour les modèles de langage de petite taille grâce au fine-tuning contrastif
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

OmniParser pour agent d'interface graphique basé uniquement sur la vision
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

La correspondance approximative suscite une compréhension spatio-temporelle 3D dans les modèles de langage multimodaux.
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Finch : Compression du cache clé-valeur guidée par des prompts
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

TurboEdit : Édition d'images basée sur le texte à l'aide de modèles de diffusion en quelques étapes
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

MM-Vet v2 : Un benchmark exigeant pour évaluer les capacités intégrées des grands modèles multimodaux
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

Réinterpréter Tout : Transfert de Mouvement Vidéo Sémantique par Inversion Mouvement-Texte
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

UniTalker : Amélioration de l'animation faciale 3D pilotée par l'audio grâce à un modèle unifié
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

Les queues racontent des histoires : transcriptions chapitre par chapitre de mangas avec noms de personnages
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Amélioration de la compréhension de la similarité sémantique en TALN arabe grâce à l'apprentissage d'embeddings imbriqués
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Guidance par Énergie Lissée : Orienter les Modèles de Diffusion avec une Courbure d'Attention Réduite
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Non Verbis, Sed Rebus : Les grands modèles de langage sont des solveurs faibles des rébus italiens
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Détection Généralisée des Distributions Hors Domaine et Au-Delà à l'Ère des Modèles Vision-Langage : Une Revue
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Résumé de discours phrase par phrase : Tâche, jeux de données et modélisation end-to-end avec distillation de connaissances de modèles de langage
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix