HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

XLand-100B : Un jeu de données multi-tâches à grande échelle pour l'apprentissage par renforcement en contexte
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

Suite au succès du paradigme d'apprentissage en contexte dans les modèles de langage et de vision par ordinateur à grande échelle, le domaine émergent de l'apprentissage par renforcement en contexte connaît une croissance rapide. Cependant, son développement a été freiné par le manque de benchmarks exigeants, car toutes les expériences ont été menées dans des environnements simples et sur des jeux de données de petite taille. Nous présentons XLand-100B, un jeu de données à grande échelle pour l'apprentissage par renforcement en contexte basé sur l'environnement XLand-MiniGrid, comme une première étape pour atténuer ce problème. Il contient des historiques d'apprentissage complets pour près de 30 000 tâches différentes, couvrant 100 milliards de transitions et 2,5 milliards d'épisodes. La collecte de ce jeu de données a nécessité 50 000 heures de GPU, ce qui dépasse les capacités de la plupart des laboratoires académiques. En plus du jeu de données, nous fournissons les utilitaires pour le reproduire ou l'étendre encore davantage. Avec cet effort substantiel, nous visons à démocratiser la recherche dans le domaine en pleine croissance de l'apprentissage par renforcement en contexte et à fournir une base solide pour un passage à l'échelle ultérieur. Le code est open-source et disponible sous licence Apache 2.0 à l'adresse https://github.com/dunno-lab/xland-minigrid-datasets.

Faites-en le compte : Génération d'images à partir de texte avec un nombre précis d'objets
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

Malgré le succès sans précédent des modèles de diffusion texte-image, contrôler le nombre d'objets représentés à l'aide de texte s'avère étonnamment difficile. Ceci est important pour diverses applications, allant des documents techniques aux livres pour enfants en passant par l'illustration de recettes de cuisine. Générer des comptes d'objets corrects est fondamentalement complexe car le modèle génératif doit maintenir une identité distincte pour chaque instance de l'objet, même si plusieurs objets semblent identiques ou se chevauchent, puis effectuer un calcul global de manière implicite lors de la génération. On ignore encore si de telles représentations existent. Pour aborder la génération avec un compte correct, nous identifions d'abord les caractéristiques du modèle de diffusion qui peuvent porter l'information sur l'identité de l'objet. Nous les utilisons ensuite pour séparer et compter les instances d'objets pendant le processus de débruitage, et détecter la sur-génération et la sous-génération. Nous corrigeons cette dernière en entraînant un modèle qui prédit à la fois la forme et la position d'un objet manquant, en se basant sur la disposition des objets existants, et montrons comment il peut être utilisé pour guider le débruitage avec un compte d'objets correct. Notre approche, CountGen, ne dépend pas d'une source externe pour déterminer la disposition des objets, mais utilise plutôt l'a priori du modèle de diffusion lui-même, créant des dispositions dépendantes de l'invite et de la graine. Évalué sur deux ensembles de données de référence, nous constatons que CountGen surpasse largement la précision de compte des bases de référence existantes.

ChartMimic : Évaluation des capacités de raisonnement intermodal des LMM via la génération de graphiques en code
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Nous présentons un nouveau benchmark, ChartMimic, conçu pour évaluer les capacités de génération de code visuellement ancré des grands modèles multimodaux (LMM). ChartMimic utilise des graphiques visuels riches en informations et des instructions textuelles comme entrées, exigeant des LMM qu'ils génèrent le code correspondant pour le rendu des graphiques. ChartMimic comprend 1 000 triplets (figure, instruction, code) soigneusement sélectionnés par des humains, représentant des cas d'utilisation authentiques de graphiques trouvés dans des articles scientifiques couvrant divers domaines (par exemple, Physique, Informatique, Économie, etc.). Ces graphiques englobent 18 types réguliers et 4 types avancés, se diversifiant en 191 sous-catégories. De plus, nous proposons des métriques d'évaluation multi-niveaux pour fournir une évaluation automatique et approfondie du code généré et des graphiques rendus. Contrairement aux benchmarks existants de génération de code, ChartMimic met l'accent sur l'évaluation de la capacité des LMM à harmoniser un mélange de compétences cognitives, comprenant la compréhension visuelle, la génération de code et le raisonnement intermodal. L'évaluation de 3 modèles propriétaires et de 11 modèles open-weight met en évidence les défis substantiels posés par ChartMimic. Même les modèles avancés comme GPT-4V et Claude-3-opus n'obtiennent respectivement que des scores moyens de 73,2 et 53,7, indiquant une marge d'amélioration significative. Nous espérons que ChartMimic inspirera le développement des LMM, faisant progresser la quête de l'intelligence artificielle générale.

Aiguille dans une botte de foin multimodale
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

Avec les progrès rapides des modèles de langage multimodaux de grande envergure (MLLMs), leur évaluation est devenue de plus en plus exhaustive. Cependant, la compréhension de contenus multimodaux longs, en tant que capacité fondamentale pour les applications réelles, reste peu explorée. Dans ce travail, nous présentons Needle In A Multimodal Haystack (MM-NIAH), le premier benchmark spécifiquement conçu pour évaluer systématiquement la capacité des MLLMs existants à comprendre des documents multimodaux longs. Notre benchmark comprend trois types de tâches d'évaluation : la recherche multimodale, le décompte et le raisonnement. Dans chaque tâche, le modèle doit répondre aux questions en fonction de différentes informations clés dispersées dans le document multimodal donné. En évaluant les MLLMs leaders sur MM-NIAH, nous observons que les modèles existants ont encore une marge d'amélioration significative sur ces tâches, en particulier sur l'évaluation centrée sur la vision. Nous espérons que ce travail pourra fournir une plateforme pour des recherches futures sur la compréhension de documents multimodaux longs et contribuer à l'avancement des MLLMs. Le code et le benchmark sont disponibles à l'adresse https://github.com/OpenGVLab/MM-NIAH.

BABILong : Tester les limites des LLM avec un contexte long Raisonnement dans une botte de foin
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

Ces dernières années, la taille des contextes d'entrée des grands modèles de langage (LLM) a considérablement augmenté. Cependant, les méthodes d'évaluation existantes n'ont pas suivi cette évolution, ne parvenant pas à évaluer de manière exhaustive l'efficacité des modèles dans la gestion de contextes longs. Pour combler cette lacune, nous introduisons le benchmark BABILong, conçu pour tester la capacité des modèles de langage à raisonner sur des faits répartis dans des documents extrêmement longs. BABILong inclut un ensemble varié de 20 tâches de raisonnement, telles que l'enchaînement de faits, l'induction simple, la déduction, le comptage et la gestion de listes/ensembles. Ces tâches sont déjà difficiles en elles-mêmes, et deviennent encore plus exigeantes lorsque les faits nécessaires sont dispersés dans un texte naturel long. Nos évaluations montrent que les LLM populaires n'utilisent efficacement que 10 à 20 % du contexte, et que leurs performances déclinent fortement avec l'augmentation de la complexité du raisonnement. Parmi les alternatives au raisonnement en contexte, les méthodes de Génération Augmentée par Récupération (RAG) atteignent une précision modeste de 60 % pour les questions à réponse unique, indépendamment de la longueur du contexte. Parmi les méthodes d'extension de contexte, les transformateurs à mémoire récurrente démontrent les meilleures performances, permettant de traiter des longueurs allant jusqu'à 11 millions de tokens. Le benchmark BABILong est extensible à n'importe quelle longueur pour soutenir l'évaluation des nouveaux modèles aux capacités accrues, et nous fournissons des jeux de données allant jusqu'à 1 million de tokens.

SEACrowd : Une plateforme de données multilingues et multimodales et une suite de benchmarks pour les langues d'Asie du Sud-Est
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

L'Asie du Sud-Est (ASE) est une région riche en diversité linguistique et variété culturelle, avec plus de 1 300 langues autochtones et une population de 671 millions d'habitants. Cependant, les modèles d'IA actuels souffrent d'un manque significatif de représentation des textes, images et ensembles de données audio provenant de l'ASE, compromettant ainsi la qualité des modèles d'IA pour les langues de cette région. L'évaluation des modèles pour les langues de l'ASE est difficile en raison de la rareté des ensembles de données de haute qualité, aggravée par la domination des données d'entraînement en anglais, ce qui soulève des inquiétudes quant à une éventuelle mauvaise représentation culturelle. Pour relever ces défis, nous présentons SEACrowd, une initiative collaborative qui consolide un centre de ressources complet comblant le manque de ressources en fournissant des corpus standardisés dans près de 1 000 langues de l'ASE, couvrant trois modalités. Grâce à nos benchmarks SEACrowd, nous évaluons la qualité des modèles d'IA sur 36 langues autochtones à travers 13 tâches, offrant ainsi des insights précieux sur le paysage actuel de l'IA en ASE. De plus, nous proposons des stratégies pour faciliter de plus grandes avancées en IA, maximisant l'utilité potentielle et l'équité des ressources pour l'avenir de l'IA en ASE.

OmniCorpus : Un corpus multimodal unifié de 10 milliards d'images entrelacées avec du texte
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Les données intercalées image-texte, composées de multiples images et textes organisés dans un format de document naturel, s'alignent sur le paradigme de présentation des données internet et ressemblent étroitement aux habitudes de lecture humaines. Des études récentes ont montré que de telles données favorisent l'apprentissage multimodal en contexte et préservent les capacités des grands modèles de langage lors du réglage fin multimodal. Cependant, l'échelle limitée et la diversité des données intercalées image-texte actuelles restreignent le développement des grands modèles de langage multimodaux. Dans cet article, nous présentons OmniCorpus, un ensemble de données intercalées image-texte à l'échelle de 10 milliards. En utilisant un moteur de données efficace, nous filtrons et extrayons des documents de grande échelle et de haute qualité, contenant 8,6 milliards d'images et 1 696 milliards de tokens de texte. Comparé à ses homologues (par exemple, MMC4, OBELICS), notre ensemble de données 1) a une échelle 15 fois plus grande tout en maintenant une bonne qualité des données ; 2) présente des sources plus diversifiées, incluant des sites web en anglais et non anglais ainsi que des sites web centrés sur la vidéo ; 3) est plus flexible, pouvant facilement être dégradé d'un format intercalé image-texte à un corpus de texte pur et à des paires image-texte. À travers une analyse et des expériences approfondies, nous validons la qualité, l'utilisabilité et l'efficacité de l'ensemble de données proposé. Nous espérons que cela pourra fournir une base de données solide pour les futures recherches sur les modèles multimodaux. Le code et les données sont disponibles à l'adresse https://github.com/OpenGVLab/OmniCorpus.

GUI Odyssey : Un ensemble de données complet pour la navigation inter-applications via les interfaces graphiques sur les appareils mobiles
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Les utilisateurs de smartphones naviguent souvent entre plusieurs applications (apps) pour accomplir des tâches telles que le partage de contenu entre différentes plateformes de médias sociaux. Les agents autonomes de navigation d'interface graphique (GUI) peuvent améliorer l'expérience utilisateur dans les domaines de la communication, du divertissement et de la productivité en rationalisant les flux de travail et en réduisant l'intervention manuelle. Cependant, les agents GUI précédents étaient souvent entraînés avec des ensembles de données comprenant des tâches simples pouvant être accomplies dans une seule application, ce qui entraînait de mauvaises performances en navigation inter-applications. Pour résoudre ce problème, nous présentons GUI Odyssey, un ensemble de données complet pour l'entraînement et l'évaluation des agents de navigation inter-applications. GUI Odyssey se compose de 7 735 épisodes provenant de 6 appareils mobiles, couvrant 6 types de tâches inter-applications, 201 applications et 1,4K combinaisons d'applications. En exploitant GUI Odyssey, nous avons développé OdysseyAgent, un agent de navigation inter-applications multimodal, en affinant le modèle Qwen-VL avec un module de rééchantillonnage de l'historique. Des expériences approfondies démontrent la précision supérieure d'OdysseyAgent par rapport aux modèles existants. Par exemple, OdysseyAgent surpasse Qwen-VL affiné et GPT-4V en mode zero-shot de 1,44 % et 55,49 % en précision intra-domaine, et de 2,29 % et 48,14 % en précision extra-domaine en moyenne. L'ensemble de données et le code seront disponibles sur https://github.com/OpenGVLab/GUI-Odyssey.

Glyph-ByT5-v2 : Une base esthétique robuste pour un rendu visuel précis de texte multilingue
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

Récemment, Glyph-ByT5 a atteint des performances très précises en matière de rendu visuel de texte dans les images de conception graphique. Cependant, il se concentre uniquement sur l'anglais et obtient des résultats relativement médiocres en termes d'attrait visuel. Dans ce travail, nous abordons ces deux limitations fondamentales en présentant Glyph-ByT5-v2 et Glyph-SDXL-v2, qui non seulement prennent en charge un rendu visuel de texte précis pour 10 langues différentes, mais atteignent également une bien meilleure qualité esthétique. Pour y parvenir, nous apportons les contributions suivantes : (i) la création d'un ensemble de données multilingue de haute qualité composé de plus d'un million de paires glyphe-texte et de 10 millions de paires image-texte de conception graphique couvrant neuf autres langues, (ii) la construction d'un benchmark multilingue de paragraphes visuels comprenant 1 000 invites, avec 100 pour chaque langue, afin d'évaluer la précision orthographique visuelle multilingue, et (iii) l'exploitation de la dernière approche d'apprentissage de préférences consciente des étapes pour améliorer la qualité esthétique visuelle. Grâce à la combinaison de ces techniques, nous proposons un encodeur de texte multilingue personnalisé puissant, Glyph-ByT5-v2, et un modèle de génération graphique esthétique robuste, Glyph-SDXL-v2, capable de prendre en charge une orthographe précise dans 10 langues différentes. Nous considérons notre travail comme une avancée significative, étant donné que les derniers modèles DALL-E3 et Ideogram 1.0 rencontrent encore des difficultés avec la tâche de rendu visuel de texte multilingue.

GEB-1.3B : Modèle de Langage Léger et Ouvert à Grande Échelle
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

Les grands modèles de langage (LLM) récemment développés, tels que ChatGPT, Claude et Llama, ont démontré des capacités impressionnantes, surpassant même les performances humaines dans plusieurs tâches. Malgré leur succès, les exigences intensives en ressources de ces modèles, nécessitant une puissance de calcul significative pour l'entraînement et l'inférence, limitent leur déploiement à des serveurs hautes performances. De plus, les calculs étendus requis par ces modèles entraînent souvent une latence accrue dans les temps de réponse. Face au besoin croissant de faire fonctionner les LLM de manière efficace sur des CPU, des recherches sur des modèles légers optimisés pour l'inférence sur CPU ont émergé. Dans ce travail, nous présentons GEB-1.3B, un LLM léger entraîné sur 550 milliards de tokens en chinois et en anglais. Nous utilisons des techniques d'entraînement novatrices, notamment ROPE, Group-Query-Attention et FlashAttention-2, pour accélérer l'entraînement tout en maintenant les performances du modèle. De plus, nous affinons le modèle à l'aide de 10 millions d'échantillons de données d'instruction pour améliorer l'alignement. GEB-1.3B montre des performances exceptionnelles sur des benchmarks généraux tels que MMLU, C-Eval et CMMLU, surpassant des modèles comparatifs comme MindLLM-1.3B et TinyLLaMA-1.1B. Notamment, la version FP32 de GEB-1.3B atteint des temps d'inférence remarquables sur les CPU, avec des efforts en cours pour améliorer encore la vitesse grâce à des techniques de quantification avancées. La publication de GEB-1.3B en tant que modèle open-source représente une contribution significative au développement de LLM légers, promettant de stimuler davantage de recherches et d'innovations dans ce domaine.

Contrôle de caméra sans apprentissage pour la génération de vidéos
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Nous proposons une solution robuste et ne nécessitant pas d'entraînement pour offrir un contrôle des mouvements de caméra aux modèles de diffusion vidéo prêts à l'emploi. Contrairement aux travaux précédents, notre méthode ne nécessite aucun ajustement supervisé sur des ensembles de données annotés pour la caméra ni d'entraînement auto-supervisé via l'augmentation de données. Au lieu de cela, elle peut être intégrée et utilisée avec la plupart des modèles de diffusion vidéo pré-entraînés, générant des vidéos contrôlables par la caméra avec une seule image ou un texte comme entrée. L'inspiration de notre travail provient de la priorité de mise en page que les latents intermédiaires détiennent envers les résultats générés, ce qui signifie que réorganiser les pixels bruités dans ces latents entraînera également une réallocation du contenu en sortie. Puisque le mouvement de la caméra peut également être vu comme une forme de réarrangement de pixels causé par un changement de perspective, les vidéos pourraient être réorganisées suivant un mouvement spécifique de la caméra si leurs latents bruités changent en conséquence. Basé sur cela, nous proposons notre méthode CamTrol, qui permet un contrôle robuste de la caméra pour les modèles de diffusion vidéo. Cela est réalisé par un processus en deux étapes. Premièrement, nous modélisons le réarrangement de la mise en page de l'image à travers un mouvement explicite de la caméra dans l'espace des nuages de points 3D. Deuxièmement, nous générons des vidéos avec un mouvement de caméra en utilisant la priorité de mise en page des latents bruités formés par une série d'images réarrangées. Des expériences approfondies ont démontré la robustesse de notre méthode dans le contrôle du mouvement de la caméra des vidéos générées. De plus, nous montrons que notre méthode peut produire des résultats impressionnants dans la génération de vidéos de rotation 3D avec un contenu dynamique. Page du projet à https://lifedecoder.github.io/CamTrol/.

Conception d'un tableau de bord pour la transparence et le contrôle des systèmes d'IA conversationnelle
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

Les modèles de langage conversationnels (LLM) fonctionnent comme des systèmes boîte noire, laissant les utilisateurs dans l'incertitude quant aux raisons des réponses qu'ils reçoivent. Ce manque de transparence est potentiellement problématique, notamment en raison des préoccupations liées aux biais et à la véracité. Pour résoudre ce problème, nous présentons un prototype de bout en bout qui associe des techniques d'interprétabilité à la conception de l'expérience utilisateur, visant à rendre les chatbots plus transparents. Nous commençons par montrer qu'un LLM open-source de premier plan possède un "modèle utilisateur" : en examinant l'état interne du système, nous pouvons extraire des données liées à l'âge, au genre, au niveau d'éducation et au statut socio-économique de l'utilisateur. Ensuite, nous décrivons la conception d'un tableau de bord accompagnant l'interface du chatbot, affichant ce modèle utilisateur en temps réel. Ce tableau de bord permet également de contrôler le modèle utilisateur et le comportement du système. Enfin, nous discutons d'une étude dans laquelle les utilisateurs ont conversé avec le système instrumenté. Nos résultats suggèrent que les utilisateurs apprécient de voir les états internes, ce qui les a aidés à identifier des comportements biaisés et a renforcé leur sentiment de contrôle. Les participants ont également formulé des suggestions précieuses, ouvrant des perspectives futures pour la conception et la recherche en apprentissage automatique. La page du projet et une démonstration vidéo de notre système TalkTuner sont disponibles à l'adresse https://bit.ly/talktuner-project-page.

VideoGUI : Un benchmark pour l'automatisation d'interfaces graphiques à partir de vidéos pédagogiques
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

L'automatisation des interfaces graphiques (GUI) présente un potentiel significatif pour améliorer la productivité humaine en assistant dans les tâches informatiques. Les formulations de tâches existantes se concentrent principalement sur des tâches simples pouvant être spécifiées par une instruction unique en langage naturel, comme "Insérer une nouvelle diapositive". Dans ce travail, nous introduisons VideoGUI, un nouveau benchmark multimodal conçu pour évaluer les assistants GUI sur des tâches visuellement centrées. Sourcé à partir de vidéos pédagogiques web de haute qualité, notre benchmark se concentre sur des tâches impliquant des logiciels professionnels et innovants (par exemple, Adobe Photoshop ou Stable Diffusion WebUI) et des activités complexes (par exemple, le montage vidéo). VideoGUI évalue les assistants GUI à travers un processus hiérarchique, permettant d'identifier les niveaux spécifiques où ils peuvent échouer : (i) planification de haut niveau : reconstruire des sous-tâches procédurales à partir de conditions visuelles sans descriptions linguistiques ; (ii) planification de niveau intermédiaire : générer des séquences de narrations d'actions précises basées sur l'état visuel (c'est-à-dire, une capture d'écran) et les objectifs ; (iii) exécution d'actions atomiques : effectuer des actions spécifiques telles que cliquer avec précision sur des éléments désignés. Pour chaque niveau, nous concevons des métriques d'évaluation à travers des dimensions individuelles pour fournir des signaux clairs, tels que la performance individuelle en clic, glisser-déposer, saisie et défilement pour l'exécution d'actions atomiques. Notre évaluation sur VideoGUI révèle que même le modèle multimodal de pointe GPT4o performe mal sur les tâches GUI visuellement centrées, en particulier pour la planification de haut niveau.

Repenser le protocole d'évaluation humaine pour les modèles texte-vidéo : Améliorer la fiabilité, la reproductibilité et la praticité
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

Les récentes avancées dans la technologie de génération de vidéo à partir de texte (Text-to-Video, T2V), illustrées par des modèles tels que Gen2, Pika et Sora, ont considérablement élargi leur applicabilité et leur popularité. Malgré ces progrès, l'évaluation de ces modèles présente des défis substantiels. Principalement, en raison des limites inhérentes aux métriques automatiques, l'évaluation manuelle est souvent considérée comme une méthode supérieure pour évaluer la génération T2V. Cependant, les protocoles d'évaluation manuelle existants rencontrent des problèmes de reproductibilité, de fiabilité et de praticabilité. Pour relever ces défis, cet article introduit le protocole d'évaluation humaine Text-to-Video (T2VHE), un protocole complet et standardisé pour les modèles T2V. Le protocole T2VHE inclut des métriques bien définies, une formation approfondie des annotateurs et un module d'évaluation dynamique efficace. Les résultats expérimentaux démontrent que ce protocole non seulement garantit des annotations de haute qualité, mais peut également réduire les coûts d'évaluation de près de 50 %. Nous rendrons open-source l'ensemble de la configuration du protocole T2VHE, y compris le flux de travail complet du protocole, les détails du composant d'évaluation dynamique et le code de l'interface d'annotation. Cela aidera les communautés à établir des protocoles d'évaluation humaine plus sophistiqués.

Soyez comme un poisson rouge, ne mémorisez pas ! Atténuer la mémorisation dans les modèles de langage génératifs de grande taille
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Les grands modèles de langage peuvent mémoriser et répéter leurs données d'entraînement, ce qui pose des risques en matière de confidentialité et de droits d'auteur. Pour atténuer cette mémorisation, nous introduisons une modification subtile de l'objectif d'entraînement de prédiction du token suivant, que nous appelons la perte goldfish. Pendant l'entraînement, un sous-ensemble aléatoire de tokens est exclu du calcul de la perte. Ces tokens ignorés ne sont pas mémorisés par le modèle, ce qui empêche la reproduction textuelle d'une séquence complète de tokens provenant de l'ensemble d'entraînement. Nous menons des expériences approfondies en entraînant des modèles Llama-2 à l'échelle du milliard, à la fois pré-entraînés et entraînés à partir de zéro, et démontrons des réductions significatives de la mémorisation extractible avec un impact minimal, voire nul, sur les benchmarks en aval.

Vivid-ZOO : Génération de vidéos multi-vues avec un modèle de diffusion
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Si les modèles de diffusion ont démontré des performances impressionnantes dans la génération d'images/vidéos 2D, la génération de vidéos multi-vues à partir de texte (Text-to-Multi-view-Video, T2MVid) basée sur la diffusion reste peu explorée. Les nouveaux défis posés par la génération T2MVid résident dans le manque de vidéos multi-vues massivement annotées et dans la complexité de modéliser une telle distribution multidimensionnelle. Pour répondre à ces défis, nous proposons un pipeline innovant basé sur la diffusion qui génère des vidéos multi-vues de haute qualité centrées sur un objet 3D dynamique à partir de texte. Plus précisément, nous décomposons le problème T2MVid en composantes d'espace de vue et de temps. Une telle factorisation nous permet de combiner et de réutiliser des couches de modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, assurant ainsi la cohérence multi-vue et la cohérence temporelle des vidéos multi-vues générées, tout en réduisant considérablement les coûts d'entraînement. Nous introduisons en outre des modules d'alignement pour aligner les espaces latents des couches issues des modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, résolvant ainsi l'incompatibilité des couches réutilisées due à l'écart de domaine entre les données 2D et multi-vues. Pour soutenir cette recherche et les travaux futurs, nous contribuons également à un ensemble de données de vidéos multi-vues annotées. Les résultats expérimentaux montrent que notre méthode génère des vidéos multi-vues de haute qualité, présentant des mouvements vifs, une cohérence temporelle et une cohérence multi-vue, pour une variété de prompts textuels.

AV-GS : Apprentissage de connaissances préalables sur les matériaux et la géométrie pour la synthèse acoustique de nouvelles vues
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

La synthèse acoustique de nouvelles vues (NVAS) vise à produire un audio binaural à partir de n'importe quel point de vue cible, en se basant sur un audio mono émis par une source sonore dans une scène 3D. Les méthodes existantes ont proposé des modèles implicites basés sur NeRF pour exploiter les indices visuels comme condition de synthèse de l'audio binaural. Cependant, en plus d'une faible efficacité due au rendu lourd de NeRF, ces méthodes présentent toutes une capacité limitée à caractériser l'ensemble de l'environnement de la scène, comme la géométrie de la pièce, les propriétés des matériaux et la relation spatiale entre l'auditeur et la source sonore. Pour résoudre ces problèmes, nous proposons un nouveau modèle de projection gaussienne audio-visuelle (AV-GS). Pour obtenir une condition prenant en compte les matériaux et la géométrie pour la synthèse audio, nous apprenons une représentation explicite de la scène basée sur des points, avec un paramètre d'orientation audio sur des points gaussiens initialisés localement, en tenant compte de la relation spatiale entre l'auditeur et la source sonore. Pour rendre le modèle de scène visuelle adaptatif à l'audio, nous proposons une stratégie de densification et d'élagage des points afin de distribuer de manière optimale les points gaussiens, en fonction de leur contribution individuelle à la propagation du son (par exemple, davantage de points sont nécessaires pour les surfaces murales sans texture, car elles affectent la déviation du trajet sonore). Des expériences approfondies valident la supériorité de notre AV-GS par rapport aux alternatives existantes sur les ensembles de données RWAS en monde réel et SoundSpaces basé sur la simulation.

RVT-2 : Apprentissage de manipulations précises à partir de quelques démonstrations
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

Dans ce travail, nous étudions comment construire un système robotique capable de résoudre plusieurs tâches de manipulation 3D à partir d'instructions en langage naturel. Pour être utile dans les domaines industriels et domestiques, un tel système doit être capable d'apprendre de nouvelles tâches avec peu de démonstrations et de les résoudre avec précision. Les travaux précédents, comme PerAct et RVT, ont abordé ce problème, mais ils rencontrent souvent des difficultés avec les tâches nécessitant une grande précision. Nous étudions comment les rendre plus efficaces, précis et rapides. En combinant des améliorations architecturales et systémiques, nous proposons RVT-2, un modèle de manipulation 3D multitâche qui est 6 fois plus rapide à l'entraînement et 2 fois plus rapide en inférence que son prédécesseur RVT. RVT-2 établit un nouvel état de l'art sur RLBench, améliorant le taux de réussite de 65 % à 82 %. RVT-2 est également efficace dans le monde réel, où il peut apprendre des tâches nécessitant une grande précision, comme ramasser et insérer des fiches, avec seulement 10 démonstrations. Les résultats visuels, le code et le modèle entraîné sont disponibles à l'adresse suivante : https://robotic-view-transformer-2.github.io/.

GaussianSR : Sur-résolution 3D par Gaussiennes avec a priori de diffusion 2D
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

Atteindre une synthèse de nouvelles vues à haute résolution (HRNVS) à partir de vues d'entrée à basse résolution est une tâche complexe en raison du manque de données haute résolution. Les méthodes précédentes optimisent un champ de radiance neuronale (NeRF) haute résolution à partir de vues d'entrée à basse résolution, mais souffrent d'une vitesse de rendu lente. Dans ce travail, nous basons notre méthode sur le lissage de Gaussiennes 3D (3DGS) en raison de sa capacité à produire des images de haute qualité à une vitesse de rendu plus rapide. Pour pallier le manque de données pour la synthèse à plus haute résolution, nous proposons d'exploiter des préalables de diffusion 2D prêts à l'emploi en distillant la connaissance 2D en 3D avec l'échantillonnage par distillation de score (SDS). Cependant, l'application directe de SDS à la super-résolution 3D basée sur des Gaussiennes conduit à des primitives 3D Gaussiennes indésirables et redondantes, en raison de l'aléatoire introduit par les préalables génératifs. Pour atténuer ce problème, nous introduisons deux techniques simples mais efficaces pour réduire les perturbations stochastiques introduites par SDS. Plus précisément, nous 1) réduisons l'intervalle des pas de temps de diffusion dans SDS avec une stratégie de recuit ; 2) éliminons aléatoirement les primitives Gaussiennes redondantes lors de la densification. Des expériences approfondies ont démontré que notre méthode GaussainSR peut obtenir des résultats de haute qualité pour la HRNVS avec seulement des entrées à basse résolution sur des ensembles de données synthétiques et réels. Page du projet : https://chchnii.github.io/GaussianSR/

Décoder la diversité : Un panorama de la recherche en IA dans le contexte indien
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Cet article de synthèse propose un aperçu complet des axes de recherche sur les modèles de langage de grande taille (LLM) dans les langues indiennes. Les langues indiennes sont celles parlées dans le sous-continent indien, incluant l'Inde, le Pakistan, le Bangladesh, le Sri Lanka, le Népal et le Bhoutan, entre autres. Ces langues possèdent un riche héritage culturel et linguistique et sont parlées par plus de 1,5 milliard de personnes dans le monde. Avec l'énorme potentiel de marché et la demande croissante d'applications basées sur le traitement automatique du langage naturel (TALN) dans des langues diverses, les applications génératives pour les langues indiennes présentent des défis et des opportunités uniques pour la recherche. Notre article plonge en profondeur dans les avancées récentes en modélisation générative pour les langues indiennes, en proposant une taxonomie des axes de recherche et en recensant 84 publications récentes. Les axes de recherche examinés dans cet article incluent le développement de LLM, le fine-tuning de LLM existants, la création de corpus, l'établissement de benchmarks et l'évaluation, ainsi que des publications sur des techniques, outils et applications spécifiques. Nous avons constaté que les chercheurs à travers ces publications mettent en avant les défis liés à la disponibilité limitée des données, au manque de standardisation et aux complexités linguistiques particulières des langues indiennes. Ce travail vise à servir de ressource précieuse pour les chercheurs et praticiens travaillant dans le domaine du TALN, en particulier ceux axés sur les langues indiennes, et contribue au développement d'applications LLM plus précises et efficaces pour ces langues.

MaskLID : Identification de langue en alternance codique par masquage itératif
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Nous présentons MaskLID, une méthode simple mais efficace pour l'identification des langues (LID) dans le contexte de l'alternance codique (CS). MaskLID ne nécessite aucun apprentissage et est conçu pour compléter les systèmes de LID actuels performants au niveau de la phrase. Les systèmes de LID au niveau de la phrase sont des classificateurs entraînés sur des textes monolingues pour fournir des étiquettes uniques, utilisant généralement une couche softmax pour transformer les scores en probabilités. Cependant, dans les cas où une phrase est composée à la fois en langues L1 et L2, le classificateur LID ne retourne souvent que l'étiquette dominante L1. Pour pallier cette limitation, MaskLID emploie une stratégie consistant à masquer les caractéristiques textuelles associées à L1, permettant ainsi au LID de classer le texte comme L2 dans l'étape suivante. Cette méthode utilise le LID lui-même pour identifier les caractéristiques à masquer et ne repose sur aucune ressource externe. Dans ce travail, nous explorons l'utilisation de MaskLID pour deux systèmes de LID open-source (GlotLID et OpenLID), tous deux basés sur l'architecture FastText. Le code et une démonstration sont disponibles à l'adresse https://github.com/cisnlp/MaskLID.

SEACrowd : Une plateforme de données multilingues et multimodales et une suite de benchmarks pour les langues d'Asie du Sud-Est
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14