papers.title

papers.description

Rapport Technique de Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

Nous présentons les dernières avancées de Qwen-Audio, un modèle audio-langage à grande échelle appelé Qwen2-Audio, capable de traiter divers signaux audio en entrée et d'effectuer des analyses audio ou de fournir des réponses textuelles directes en réponse à des instructions vocales. Contrairement à des étiquettes hiérarchiques complexes, nous avons simplifié le processus de pré-entraînement en utilisant des invites en langage naturel pour différentes données et tâches, tout en augmentant considérablement le volume de données. Nous avons renforcé la capacité de Qwen2-Audio à suivre les instructions et avons implémenté deux modes d'interaction audio distincts pour le chat vocal et l'analyse audio. Dans le mode chat vocal, les utilisateurs peuvent interagir librement par la voix avec Qwen2-Audio sans nécessiter de saisie de texte. Dans le mode analyse audio, les utilisateurs peuvent fournir des instructions audio et textuelles pour une analyse lors de l'interaction. Notons que nous n'utilisons aucune invite système pour basculer entre les modes chat vocal et analyse audio. Qwen2-Audio est capable de comprendre intelligemment le contenu audio et de suivre les commandes vocales pour répondre de manière appropriée. Par exemple, dans un segment audio contenant simultanément des sons, des conversations multi-locuteurs et une commande vocale, Qwen2-Audio peut directement comprendre la commande et fournir une interprétation ainsi qu'une réponse à l'audio. De plus, DPO a optimisé les performances du modèle en termes de factualité et de conformité au comportement souhaité. Selon les résultats d'évaluation d'AIR-Bench, Qwen2-Audio surpasse les précédents modèles de pointe, tels que Gemini-1.5-pro, dans les tests axés sur les capacités de suivi d'instructions centrées sur l'audio. Qwen2-Audio est open-source dans le but de favoriser l'avancement de la communauté du langage multimodal.

NeedleBench : Les modèles de langage peuvent-ils effectuer la recherche et le raisonnement dans une fenêtre contextuelle d'un million de tokens ?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Dans l'évaluation des capacités de contexte long des grands modèles de langage (LLM), l'identification du contenu pertinent par rapport à la requête de l'utilisateur à partir de documents longs originaux constitue une condition préalable cruciale pour qu'un LLM puisse répondre à des questions basées sur des textes étendus. Nous présentons NeedleBench, un cadre composé d'une série de tâches progressivement plus complexes pour évaluer les capacités bilingues en contexte long, couvrant plusieurs intervalles de longueur (4k, 8k, 32k, 128k, 200k, 1000k, et au-delà) et différentes plages de profondeur, permettant l'insertion stratégique de points de données critiques dans différentes zones de profondeur de texte afin de tester rigoureusement les capacités de récupération et de raisonnement des modèles dans divers contextes. Nous utilisons le cadre NeedleBench pour évaluer dans quelle mesure les principaux modèles open-source peuvent identifier les informations clés pertinentes à la question et appliquer ces informations au raisonnement dans des textes longs bilingues. De plus, nous proposons le Ancestral Trace Challenge (ATC) pour imiter la complexité des défis de raisonnement logique susceptibles d'être présents dans les tâches réelles en contexte long, fournissant une méthode simple pour évaluer les LLM dans la gestion de situations complexes en contexte long. Nos résultats suggèrent que les LLM actuels ont une marge d'amélioration significative dans les applications pratiques en contexte long, car ils peinent à gérer la complexité des défis de raisonnement logique susceptibles d'être présents dans les tâches réelles en contexte long. Tous les codes et ressources sont disponibles sur OpenCompass : https://github.com/open-compass/opencompass.

Mise à l'échelle des Transformers de Diffusion jusqu'à 16 milliards de paramètres
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Dans cet article, nous présentons DiT-MoE, une version éparse du Transformer de diffusion, qui est scalable et compétitive par rapport aux réseaux denses tout en offrant une inférence hautement optimisée. Le DiT-MoE intègre deux conceptions simples : le routage d'experts partagés et la perte d'équilibre au niveau des experts, permettant ainsi de capturer des connaissances communes et de réduire la redondance entre les différents experts routés. Lorsqu'il est appliqué à la génération d'images conditionnelles, une analyse approfondie de la spécialisation des experts révèle quelques observations intéressantes : (i) La sélection des experts montre une préférence pour la position spatiale et l'étape de débruitage, tout en étant insensible aux différentes informations conditionnelles de classe ; (ii) À mesure que les couches MoE deviennent plus profondes, la sélection des experts passe progressivement d'une position spatiale spécifique à une dispersion et un équilibre. (iii) La spécialisation des experts tend à être plus concentrée au début de l'étape de débruitage, puis devient progressivement uniforme après la moitié. Nous attribuons cela au processus de diffusion qui modélise d'abord les informations spatiales de basse fréquence, puis les informations complexes de haute fréquence. Sur la base de ces observations, une série de DiT-MoE atteint expérimentalement des performances comparables à celles des réseaux denses tout en nécessitant une charge de calcul bien moindre lors de l'inférence. Plus encourageant encore, nous démontrons le potentiel de DiT-MoE avec des données d'images synthétisées, en mettant à l'échelle un modèle de diffusion à 16,5 milliards de paramètres qui obtient un nouveau score SoTA FID-50K de 1,80 dans des résolutions de 512x512. La page du projet : https://github.com/feizc/DiT-MoE.

Ref-AVS : Référencer et segmenter des objets dans des scènes audio-visuelles
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Les tâches traditionnelles de segmentation de référence se sont principalement concentrées sur des scènes visuelles silencieuses, négligeant le rôle essentiel de la perception et de l'interaction multimodales dans les expériences humaines. Dans ce travail, nous introduisons une nouvelle tâche appelée Segmentation Audio-Visuelle de Référence (Ref-AVS), qui vise à segmenter des objets dans le domaine visuel en se basant sur des expressions contenant des indices multimodaux. Ces expressions sont formulées sous forme de langage naturel mais sont enrichies d'indices multimodaux, incluant des descriptions audio et visuelles. Pour faciliter cette recherche, nous construisons le premier benchmark Ref-AVS, qui fournit des annotations au niveau des pixels pour les objets décrits dans les expressions correspondantes contenant des indices multimodaux. Pour aborder la tâche Ref-AVS, nous proposons une nouvelle méthode qui utilise adéquatement les indices multimodaux pour offrir une guidance de segmentation précise. Enfin, nous menons des expériences quantitatives et qualitatives sur trois sous-ensembles de test pour comparer notre approche avec les méthodes existantes issues de tâches connexes. Les résultats démontrent l'efficacité de notre méthode, mettant en avant sa capacité à segmenter précisément des objets en utilisant des expressions contenant des indices multimodaux. Le jeu de données est disponible à l'adresse suivante : https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.

Sibyl : Un cadre d'agent simple mais efficace pour le raisonnement complexe en environnement réel
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

Les agents existants basés sur des modèles de langage de grande taille (LLMs) démontrent des capacités robustes de résolution de problèmes en intégrant les connaissances inhérentes des LLMs, leur forte capacité d'apprentissage en contexte et en zero-shot, ainsi que l'utilisation d'outils combinés à des workflows d'invocation de LLM minutieusement conçus par des humains. Cependant, ces agents présentent encore des lacunes dans le raisonnement à long terme et sous-utilisent le potentiel des outils existants, ce qui entraîne des déficiences notables dans les scénarios de raisonnement complexes du monde réel. Pour pallier ces limitations, nous introduisons Sibyl, un cadre d'agent basé sur les LLMs, simple mais puissant, conçu pour relever des tâches de raisonnement complexes en exploitant efficacement un ensemble minimal d'outils. S'inspirant de la théorie de l'espace de travail global, Sibyl intègre un espace de travail global pour améliorer la gestion et le partage des connaissances et de l'historique des conversations à travers le système. De plus, guidé par la théorie de la société de l'esprit, Sibyl met en œuvre un jury basé sur un débat multi-agents pour auto-affiner les réponses finales, garantissant une approche complète et équilibrée. Cette approche vise à réduire la complexité du système tout en élargissant la portée des problèmes résolubles, passant de questions typiquement résolues par les humains en quelques minutes à celles nécessitant des heures, voire des jours, facilitant ainsi une transition de la pensée de type Système-1 à celle de type Système-2. Sibyl a été conçu en mettant l'accent sur l'évolutivité et la facilité de débogage en intégrant dès sa conception le concept de réentrance issu de la programmation fonctionnelle, dans le but d'une intégration fluide et peu coûteuse dans d'autres applications LLM pour améliorer leurs capacités. Nos résultats expérimentaux sur l'ensemble de tests de référence GAIA révèlent que l'agent Sibyl instancié avec GPT-4 atteint des performances de pointe avec un score moyen de 34,55 %, par rapport à d'autres agents basés sur GPT-4. Nous espérons que Sibyl pourra inspirer des solutions d'agents basés sur les LLMs plus fiables et réutilisables pour aborder des tâches de raisonnement complexes dans le monde réel.

VLMEvalKit : Une Boîte à Outils Open-Source pour l'Évaluation des Grands Modèles Multi-Modaux
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

Nous présentons VLMEvalKit : une boîte à outils open-source pour l'évaluation de grands modèles multi-modaux basée sur PyTorch. Cette boîte à outils vise à fournir un cadre convivial et complet permettant aux chercheurs et développeurs d'évaluer les modèles multi-modaux existants et de publier des résultats d'évaluation reproductibles. Dans VLMEvalKit, nous avons implémenté plus de 70 grands modèles multi-modaux différents, incluant à la fois des API propriétaires et des modèles open-source, ainsi que plus de 20 benchmarks multi-modaux. En mettant en œuvre une interface unique, de nouveaux modèles peuvent être facilement ajoutés à la boîte à outils, tandis que celle-ci gère automatiquement les tâches restantes, telles que la préparation des données, l'inférence distribuée, le post-traitement des prédictions et le calcul des métriques. Bien que la boîte à outils soit actuellement principalement utilisée pour évaluer les grands modèles vision-langage, sa conception est compatible avec des mises à jour futures intégrant des modalités supplémentaires, comme l'audio et la vidéo. Sur la base des résultats d'évaluation obtenus avec la boîte à outils, nous hébergeons OpenVLM Leaderboard, un classement complet pour suivre les progrès de la recherche en apprentissage multi-modal. La boîte à outils est disponible à l'adresse https://github.com/open-compass/VLMEvalKit et est activement maintenue.

DreamCatalyst : Édition 3D rapide et de haute qualité grâce au contrôle de l'éditabilité et de la préservation de l'identité
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

L'échantillonnage par distillation de score (Score Distillation Sampling, SDS) s'est imposé comme un cadre efficace pour les tâches d'édition 3D pilotées par texte grâce à sa cohérence 3D inhérente. Cependant, les méthodes d'édition 3D basées sur SDS existantes souffrent d'un temps d'entraînement excessif et produisent des résultats de faible qualité, principalement parce que ces méthodes s'écartent de la dynamique d'échantillonnage des modèles de diffusion. Dans cet article, nous proposons DreamCatalyst, un nouveau cadre qui interprète l'édition basée sur SDS comme un processus inverse de diffusion. Notre fonction objectif prend en compte la dynamique d'échantillonnage, faisant ainsi du processus d'optimisation de DreamCatalyst une approximation du processus inverse de diffusion dans les tâches d'édition. DreamCatalyst vise à réduire le temps d'entraînement et à améliorer la qualité de l'édition. DreamCatalyst propose deux modes : (1) un mode rapide, qui édite la scène NeRF en seulement environ 25 minutes, et (2) un mode haute qualité, qui produit des résultats supérieurs en moins de 70 minutes. Plus précisément, notre mode haute qualité surpasse les méthodes d'édition NeRF actuelles de pointe à la fois en termes de vitesse et de qualité. Consultez des résultats plus approfondis sur notre page de projet : https://dream-catalyst.github.io.

YouTube-SL-25 : Un corpus parallèle multilingue de langue des signes à grande échelle et en domaine ouvert
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Même pour les langues des signes mieux étudiées comme la langue des signes américaine (ASL), les données constituent le principal goulot d'étranglement pour la recherche en apprentissage automatique. La situation est encore plus critique pour les nombreuses autres langues des signes utilisées par les communautés sourdes et malentendantes à travers le monde. Dans cet article, nous présentons YouTube-SL-25, un corpus multilingue à grande échelle et ouvert de vidéos en langue des signes, avec des sous-titres apparemment bien alignés, extraits de YouTube. Avec plus de 3000 heures de vidéos couvrant plus de 25 langues des signes, YouTube-SL-25 est a) plus de 3 fois plus volumineux que YouTube-ASL, b) le plus grand ensemble de données parallèles en langue des signes à ce jour, et c) le premier ou le plus grand ensemble de données parallèles pour plusieurs des langues qu'il inclut. Nous fournissons des modèles de référence pour les tâches de traduction signe-texte en utilisant un modèle multilingue multitâche unifié basé sur T5, et rapportons les scores sur des benchmarks couvrant 4 langues des signes. Les résultats démontrent que le transfert multilingue profite à la fois aux langues des signes mieux dotées et moins dotées au sein de YouTube-SL-25.

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.

EfficientQAT : Entraînement efficace avec prise en compte de la quantification pour les grands modèles de langage
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

Les grands modèles de langage (LLMs) sont essentiels au traitement moderne du langage naturel et à l'intelligence artificielle. Cependant, ils rencontrent des difficultés pour gérer leurs importantes exigences en matière de mémoire. Bien que l'entraînement avec prise en compte de la quantification (QAT) offre une solution en réduisant la consommation de mémoire grâce à des représentations en faible précision avec une perte de précision minimale, il nécessite des ressources d'entraînement substantielles pour optimiser les poids du modèle et les paramètres de quantification. Pour résoudre ce problème, nous proposons Efficient Quantization-Aware Training (EfficientQAT), une nouvelle technique de quantification pour compresser les LLMs. EfficientQAT comprend deux phases consécutives : l'entraînement bloc par bloc de tous les paramètres (Block-AP) et l'entraînement de bout en bout des paramètres de quantification (E2E-QP). Block-AP effectue séquentiellement un entraînement avec prise en compte de la quantification pour tous les paramètres de chaque bloc de transformateur avec une reconstruction bloc par bloc, maintenant l'efficacité en évitant d'entraîner l'ensemble du LLM. Initialisé avec un modèle quantifié, E2E-QP entraîne ensuite uniquement les paramètres de quantification (tailles de pas) de bout en bout, améliorant l'efficacité avec un backbone quantifié fixe et un nombre réduit de paramètres entraînables. Des expériences approfondies démontrent qu'EfficientQAT surpasse les méthodes de quantification précédentes sur une gamme de modèles, incluant les LLMs de base, les LLMs ajustés par instruction et les LLMs multimodaux, avec des échelles allant de 7B à 70B paramètres à différents bits de quantification. Par exemple, EfficientQAT obtient un modèle Llama-2-70B en 2 bits sur un seul GPU A100-80GB en 41 heures, avec une dégradation de précision inférieure à 3\% par rapport à la précision complète (69,48 vs. 72,41). Notamment, ce modèle quantifié INT2 de 70B obtient un gain de précision de 1,67 par rapport au modèle Llama-2-13B (69,48 vs. 67,81) tout en nécessitant moins de mémoire (19,2GB vs. 24,2GB). Le code est disponible à l'adresse https://github.com/OpenGVLab/EfficientQAT.

FIRE : Un ensemble de données pour l'évaluation de l'intégration de feedback et du raffinement des modèles multimodaux
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Les modèles de langage visuel (VLMs) ont réalisé des progrès impressionnants dans diverses applications, devenant une direction de recherche prédominante. Dans cet article, nous construisons FIRE, un ensemble de données de raffinement par feedback, composé de 1,1 million de conversations multi-tours dérivées de 27 ensembles de données sources, permettant aux VLMs d'affiner spontanément leurs réponses en fonction des retours utilisateurs à travers diverses tâches. Pour accélérer la collecte de données, FIRE est constitué de deux composantes : FIRE-100K et FIRE-1M, où FIRE-100K est généré par GPT-4V, et FIRE-1M est généré librement via des modèles entraînés sur FIRE-100K. Ensuite, nous construisons FIRE-Bench, un benchmark pour évaluer de manière exhaustive la capacité de raffinement par feedback des VLMs, qui contient 11 000 conversations de raffinement par feedback comme données de test, deux configurations d'évaluation, et un modèle pour fournir des feedbacks aux VLMs. Nous développons le modèle FIRE-LLaVA en affinant LLaVA sur FIRE-100K et FIRE-1M, qui démontre une capacité remarquable de raffinement par feedback sur FIRE-Bench et surpasse les VLMs non entraînés de 50 %, rendant les interactions utilisateur-agent plus efficaces et soulignant l'importance de l'ensemble de données FIRE.

Entraînement efficace avec des poids neuronaux débruités
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

Une bonne initialisation des poids constitue une mesure efficace pour réduire le coût d'entraînement d'un modèle de réseau de neurones profond (DNN). Le choix de la manière d'initialiser les paramètres est complexe et peut nécessiter un réglage manuel, ce qui peut être chronophage et sujet à des erreurs humaines. Pour surmonter ces limitations, ce travail propose une approche novatrice en construisant un générateur de poids pour synthétiser les poids neuronaux destinés à l'initialisation. Nous utilisons la tâche de traduction d'image à image avec des réseaux antagonistes génératifs (GANs) comme exemple, en raison de la facilité à collecter des poids de modèles couvrant une large gamme. Plus précisément, nous collectons d'abord un ensemble de données contenant divers concepts d'édition d'images et leurs poids entraînés correspondants, qui sont ensuite utilisés pour l'entraînement du générateur de poids. Pour prendre en compte les différentes caractéristiques entre les couches et le nombre important de poids à prédire, nous divisons les poids en blocs de taille égale et attribuons un index à chaque bloc. Par la suite, un modèle de diffusion est entraîné avec cet ensemble de données en utilisant à la fois les conditions textuelles du concept et les index des blocs. En initialisant le modèle de traduction d'image avec les poids débruités prédits par notre modèle de diffusion, l'entraînement ne nécessite que 43,3 secondes. Par rapport à un entraînement à partir de zéro (c'est-à-dire Pix2pix), nous obtenons une accélération du temps d'entraînement de 15x pour un nouveau concept tout en atteignant une meilleure qualité de génération d'images.

De GaLore à WeLore : Comment les poids de bas rang émergent de manière non uniforme à partir de gradients de bas rang
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

Les modèles de langage modernes de grande taille (LLMs) sont composés de matrices contenant des milliards d'éléments, ce qui rend leur stockage et leur traitement particulièrement exigeants en termes de ressources computationnelles et d'utilisation de la mémoire. Étant de taille considérable, ces matrices peuvent souvent être exprimées dans un format de faible rang, ce qui offre un potentiel pour réduire les exigences en ressources. Contrairement aux travaux antérieurs qui se concentrent sur le développement de nouveaux algorithmes de décomposition matricielle, dans cette étude, nous examinons d'abord l'émergence de structures de faible rang à travers les matrices des différentes couches des LLMs et établissons une relation conséquente entre la dynamique des gradients et l'expressivité de faible rang émergente des matrices. Nos résultats révèlent que différentes couches présentent des niveaux variables de structure de faible rang convergée, nécessitant une réduction de rang non uniforme pour minimiser la baisse de performance due à la compression. Dans cette perspective, nous présentons la Projection de Poids à Faible Rang (WeLore), qui unifie la compression des poids et le réglage fin efficace en mémoire en UNE seule étape, de manière agnostique aux données et en une seule passe. WeLore exploite la distribution à queue lourde des valeurs singulières pour identifier un ratio de réduction de rang approprié pour les matrices au sein des LLMs. Allant au-delà d'une simple technique de compression, WeLore catégorise les matrices de poids en Composants de Faible Rang (LRCs) et Composants Non-Faible Rang (N-LRCs) en fonction de leur capacité à s'exprimer en faible rang. Notre perspective sur les gradients et nos expériences approfondies montrent que les LRCs ont tendance à avoir de meilleures capacités de réglage fin et peuvent imiter de près (parfois surpasser) la trajectoire de perte d'entraînement et la performance d'un réglage fin complet, avec une réduction notable de l'empreinte mémoire et computationnelle. Par exemple, le réglage fin d'un modèle LLaMa-2 7B compressé à 50 % en utilisant seulement une fraction des paramètres dans les LRCs (WeLore) peut surpasser son réglage fin complet avec un débit environ 3 fois meilleur et une exigence GPU réduite de ~0,6x. Nos codes sont disponibles à l'adresse https://github.com/VITA-Group/welore.

OmniBind : Représentation Omni Multimodale à Grande Échelle par Liaison d'Espaces
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Récemment, l'interaction homme-machine avec diverses modalités a montré des applications prometteuses, comme GPT-4o et Gemini. Compte tenu du rôle fondamental de la représentation conjointe multimodale dans les pipelines de compréhension et de génération, des représentations conjointes omni de haute qualité constitueraient une avancée vers le traitement simultané d'informations multimodales plus diversifiées. Dans ce travail, nous présentons OmniBind, des modèles de représentation conjointe multimodale à grande échelle, allant de 7 à 30 milliards de paramètres, qui prennent en charge des entrées en 3D, audio, image et langage. En raison de la rareté des paires de données couvrant toutes les modalités, plutôt que d'entraîner de grands modèles à partir de zéro, nous proposons de remapper et de lier les espaces de divers modèles spécialisés pré-entraînés. Cette approche permet un "mise à l'échelle" en augmentant indirectement le nombre de paramètres du modèle et la quantité de données observées. Pour intégrer efficacement divers espaces, nous attribuons dynamiquement des poids à différents espaces en apprenant des routeurs avec deux objectifs : l'alignement global intermodal et le découplage de la représentation linguistique. Notamment, puisque la liaison et le routage des espaces ne nécessitent que des réseaux légers, OmniBind est extrêmement efficace en termes d'entraînement. L'apprentissage du plus grand modèle de 30 milliards de paramètres ne nécessite que des données unimodales non appariées et environ 3 jours sur un seul nœud équipé de 8 GPU 4090. Des expériences approfondies démontrent la polyvalence et la supériorité d'OmniBind en tant que modèle de représentation omni, mettant en évidence son grand potentiel pour diverses applications, telles que la compréhension multimodale à requête libre et composable.

Saisie d'objets divers par des humanoïdes simulés
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Nous présentons une méthode pour contrôler un humanoïde simulé afin de saisir un objet et de le déplacer pour suivre une trajectoire donnée. En raison des difficultés liées au contrôle d'un humanoïde doté de mains habiles, les méthodes précédentes utilisent souvent une main isolée et ne considèrent que des soulèvements verticaux ou des trajectoires courtes. Cette limitation réduit leur applicabilité pour les manipulations d'objets nécessaires à l'animation et à la simulation. Pour combler cette lacune, nous apprenons un contrôleur capable de saisir un grand nombre d'objets (>1200) et de les transporter en suivant des trajectoires générées aléatoirement. Notre idée clé est d'exploiter une représentation du mouvement humanoïde qui fournit des compétences motrices humaines et accélère considérablement l'entraînement. En utilisant uniquement des représentations simplistes de la récompense, de l'état et des objets, notre méthode montre une scalabilité favorable sur une diversité d'objets et de trajectoires. Pour l'entraînement, nous n'avons pas besoin d'un ensemble de données de mouvements corporels complets associés à des trajectoires d'objets. Au moment du test, nous avons uniquement besoin du maillage de l'objet et des trajectoires souhaitées pour la saisie et le transport. Pour démontrer les capacités de notre méthode, nous montrons des taux de réussite de pointe dans le suivi de trajectoires d'objets et la généralisation à des objets non vus. Le code et les modèles seront publiés.

Data-Juicer Sandbox : Une Suite Complète pour le Co-développement de Modèles et de Données Multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

L'émergence de modèles génératifs multi-modèles à grande échelle a considérablement fait progresser l'intelligence artificielle, introduisant des niveaux de performance et de fonctionnalité sans précédent. Cependant, l'optimisation de ces modèles reste un défi en raison des trajectoires historiquement isolées des développements centrés sur le modèle et sur les données, conduisant à des résultats sous-optimaux et à une utilisation inefficace des ressources. En réponse, nous présentons une suite de sandbox novatrice conçue pour un co-développement intégré des données et des modèles. Ce sandbox fournit une plateforme expérimentale complète, permettant une itération rapide et un affinement basé sur les insights à la fois des données et des modèles. Notre flux de travail "Sonder-Analyser-Raffiner", validé par des applications sur des modèles de pointe de type LLaVA et basés sur DiT, entraîne des gains de performance significatifs, comme atteindre la première place du classement VBench. Nous dévoilons également des insights précieux tirés de benchmarks exhaustifs, éclairant l'interaction critique entre la qualité des données, leur diversité et le comportement des modèles. Dans l'espoir de favoriser une compréhension plus approfondie et des progrès futurs dans les données multi-modales et la modélisation générative, nos codes, jeux de données et modèles sont maintenus et accessibles à l'adresse https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Vibravox : Un ensemble de données de parole française capturée à l'aide de capteurs audio par conduction corporelle
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Vibravox est un ensemble de données conforme au Règlement Général sur la Protection des Données (RGPD) contenant des enregistrements audio réalisés à l'aide de cinq capteurs audio différents par conduction corporelle : deux microphones intra-auriculaires, deux capteurs de vibrations par conduction osseuse et un laryngophone. L'ensemble de données inclut également des données audio provenant d'un microphone aérien utilisé comme référence. Le corpus Vibravox contient 38 heures d'échantillons de parole et de sons physiologiques enregistrés par 188 participants dans différentes conditions acoustiques imposées par un spatialiseur 3D ambisonique d'ordre élevé. Des annotations sur les conditions d'enregistrement et des transcriptions linguistiques sont également incluses dans le corpus. Nous avons mené une série d'expériences sur diverses tâches liées à la parole, notamment la reconnaissance vocale, l'amélioration de la parole et la vérification du locuteur. Ces expériences ont été réalisées à l'aide de modèles de pointe pour évaluer et comparer leurs performances sur les signaux capturés par les différents capteurs audio proposés par l'ensemble de données Vibravox, dans le but de mieux comprendre leurs caractéristiques individuelles.

Click-Gaussian : Segmentation interactive vers n'importe quel modèle 3D de Gaussiennes
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

La segmentation interactive de Gaussiennes 3D ouvre une opportunité remarquable pour la manipulation en temps réel de scènes 3D, grâce à la capacité de rendu en temps réel offerte par la technique de "3D Gaussian Splatting". Cependant, les méthodes actuelles souffrent d'un post-traitement chronophage pour gérer les sorties de segmentation bruyantes. De plus, elles peinent à fournir une segmentation détaillée, essentielle pour une manipulation fine des scènes 3D. Dans cette étude, nous proposons Click-Gaussian, qui apprend des champs de caractéristiques distinguables à deux niveaux de granularité, facilitant la segmentation sans post-traitement long. Nous explorons les défis découlant de champs de caractéristiques appris de manière incohérente, résultant d'une segmentation 2D obtenue indépendamment d'une scène 3D. La précision de la segmentation 3D se détériore lorsque les résultats de segmentation 2D à travers les différentes vues, indices principaux pour la segmentation 3D, sont en conflit. Pour surmonter ces problèmes, nous proposons l'apprentissage guidé par caractéristiques globales (GFL). GFL construit des clusters de candidats de caractéristiques globales à partir de segments 2D bruyants à travers les vues, ce qui atténue les bruits lors de l'apprentissage des caractéristiques des Gaussiennes 3D. Notre méthode s'exécute en 10 ms par clic, soit 15 à 130 fois plus rapide que les méthodes précédentes, tout en améliorant significativement la précision de la segmentation. Notre page de projet est disponible à l'adresse suivante : https://seokhunchoi.github.io/Click-Gaussian.

L'incertitude est fragile : Manipuler l'incertitude dans les grands modèles de langage
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang

Les grands modèles de langage (LLMs) sont utilisés dans divers domaines à enjeux élevés, où la fiabilité de leurs sorties est cruciale. Une méthode couramment employée pour évaluer la fiabilité des réponses des LLMs est l'estimation de l'incertitude, qui mesure la probabilité que leurs réponses soient correctes. Alors que de nombreuses études se concentrent sur l'amélioration de la précision des estimations d'incertitude pour les LLMs, notre recherche examine la fragilité de l'estimation de l'incertitude et explore des attaques potentielles. Nous démontrons qu'un attaquant peut intégrer une porte dérobée dans les LLMs, qui, lorsqu'elle est activée par un déclencheur spécifique dans l'entrée, manipule l'incertitude du modèle sans affecter la sortie finale. Plus précisément, la méthode d'attaque par porte dérobée proposée peut modifier la distribution de probabilité des sorties d'un LLM, faisant converger la distribution de probabilité vers une distribution prédéfinie par l'attaquant tout en garantissant que la prédiction top-1 reste inchangée. Nos résultats expérimentaux montrent que cette attaque compromet efficacement la fiabilité de l'auto-évaluation du modèle dans les questions à choix multiples. Par exemple, nous avons atteint un taux de réussite d'attaque (ASR) de 100 % avec trois stratégies de déclenchement différentes dans quatre modèles. De plus, nous étudions si cette manipulation se généralise à différents prompts et domaines. Ce travail met en lumière une menace significative pour la fiabilité des LLMs et souligne la nécessité de développer des défenses futures contre de telles attaques. Le code est disponible à l'adresse suivante : https://github.com/qcznlp/uncertainty_attack.

papers.title

papers.description

Rapport Technique de Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

NeedleBench : Les modèles de langage peuvent-ils effectuer la recherche et le raisonnement dans une fenêtre contextuelle d'un million de tokens ?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Mise à l'échelle des Transformers de Diffusion jusqu'à 16 milliards de paramètres
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Ref-AVS : Référencer et segmenter des objets dans des scènes audio-visuelles
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Sibyl : Un cadre d'agent simple mais efficace pour le raisonnement complexe en environnement réel
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

VLMEvalKit : Une Boîte à Outils Open-Source pour l'Évaluation des Grands Modèles Multi-Modaux
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

DreamCatalyst : Édition 3D rapide et de haute qualité grâce au contrôle de l'éditabilité et de la préservation de l'identité
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

YouTube-SL-25 : Un corpus parallèle multilingue de langue des signes à grande échelle et en domaine ouvert
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

EfficientQAT : Entraînement efficace avec prise en compte de la quantification pour les grands modèles de langage
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

FIRE : Un ensemble de données pour l'évaluation de l'intégration de feedback et du raffinement des modèles multimodaux
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Entraînement efficace avec des poids neuronaux débruités
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

De GaLore à WeLore : Comment les poids de bas rang émergent de manière non uniforme à partir de gradients de bas rang
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

OmniBind : Représentation Omni Multimodale à Grande Échelle par Liaison d'Espaces
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Saisie d'objets divers par des humanoïdes simulés
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Data-Juicer Sandbox : Une Suite Complète pour le Co-développement de Modèles et de Données Multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

Vibravox : Un ensemble de données de parole française capturée à l'aide de capteurs audio par conduction corporelle
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Click-Gaussian : Segmentation interactive vers n'importe quel modèle 3D de Gaussiennes
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

L'incertitude est fragile : Manipuler l'incertitude dans les grands modèles de langage
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang