papers.title

papers.description

ROICtrl : Renforcement du Contrôle d'Instance pour la Génération Visuelle
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Le langage naturel a souvent du mal à associer avec précision les informations de position et d'attribut à plusieurs instances, ce qui limite les modèles de génération visuelle basés sur du texte actuels à des compositions plus simples ne comportant que quelques instances dominantes. Pour remédier à cette limitation, ce travail améliore les modèles de diffusion en introduisant un contrôle d'instance régional, où chaque instance est régie par une boîte englobante associée à une légende libre. Les méthodes précédentes dans ce domaine s'appuient généralement sur un encodage de position implicite ou des masques d'attention explicites pour séparer les régions d'intérêt (ROIs), ce qui entraîne soit une injection de coordonnées inexacte, soit une surcharge computationnelle importante. Inspirés par ROI-Align en détection d'objets, nous introduisons une opération complémentaire appelée ROI-Unpool. Ensemble, ROI-Align et ROI-Unpool permettent une manipulation explicite, efficace et précise des ROIs sur des cartes de caractéristiques haute résolution pour la génération visuelle. En s'appuyant sur ROI-Unpool, nous proposons ROICtrl, un adaptateur pour les modèles de diffusion pré-entraînés qui permet un contrôle précis des instances régionales. ROICtrl est compatible avec les modèles de diffusion affinés par la communauté, ainsi qu'avec les ajouts basés sur l'espace existants (par exemple, ControlNet, T2I-Adapter) et les ajouts basés sur l'incorporation (par exemple, IP-Adapter, ED-LoRA), étendant leurs applications à la génération multi-instance. Les expériences montrent que ROICtrl obtient des performances supérieures en matière de contrôle d'instances régionales tout en réduisant significativement les coûts computationnels.

CAT4D : Créez n'importe quoi en 4D avec des modèles de diffusion vidéo multi-vues
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Nous présentons CAT4D, une méthode pour créer des scènes 4D (3D dynamique) à partir de vidéos monoscopiques. CAT4D exploite un modèle de diffusion vidéo multi-vues entraîné sur une combinaison diversifiée d'ensembles de données pour permettre une synthèse de vue novatrice à des poses de caméra et des horodatages spécifiés. Associé à une approche d'échantillonnage novatrice, ce modèle peut transformer une seule vidéo monoscopique en une vidéo multi-vues, permettant une reconstruction 4D robuste via l'optimisation d'une représentation gaussienne 3D déformable. Nous démontrons des performances compétitives sur des référentiels de synthèse de vue novatrice et de reconstruction de scène dynamique, et mettons en avant les capacités créatives pour la génération de scènes 4D à partir de vidéos réelles ou générées. Consultez notre page de projet pour les résultats et les démonstrations interactives : cat-4d.github.io.

Agents GUI à base de grands modèles de langage : Une enquête
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

Les interfaces graphiques utilisateur (GUI) ont longtemps été au cœur de l'interaction homme-machine, offrant un moyen intuitif et visuel d'accéder et d'interagir avec des systèmes numériques. L'avènement des LLM, en particulier des modèles multimodaux, a ouvert une nouvelle ère d'automatisation des GUI. Ils ont démontré des capacités exceptionnelles en compréhension du langage naturel, génération de code et traitement visuel. Cela a ouvert la voie à une nouvelle génération d'agents GUI à base de LLM capables d'interpréter des éléments GUI complexes et d'exécuter autonomement des actions basées sur des instructions en langage naturel. Ces agents représentent un changement de paradigme, permettant aux utilisateurs d'accomplir des tâches complexes en plusieurs étapes grâce à des commandes conversationnelles simples. Leurs applications s'étendent à la navigation web, aux interactions avec les applications mobiles et à l'automatisation des bureaux, offrant une expérience utilisateur transformative qui révolutionne la manière dont les individus interagissent avec les logiciels. Ce domaine émergent progresse rapidement, avec des avancées significatives tant dans la recherche que dans l'industrie. Pour fournir une compréhension structurée de cette tendance, cet article présente une enquête approfondie sur les agents GUI à base de LLM, explorant leur évolution historique, leurs composants principaux et leurs techniques avancées. Nous abordons des questions de recherche telles que les cadres existants des agents GUI, la collecte et l'utilisation de données pour former des agents GUI spécialisés, le développement de grands modèles d'actions adaptés aux tâches GUI, et les métriques d'évaluation et les référentiels nécessaires pour évaluer leur efficacité. De plus, nous examinons les applications émergentes alimentées par ces agents. Grâce à une analyse détaillée, cette enquête identifie les lacunes de recherche clés et esquisse une feuille de route pour les avancées futures dans le domaine. En consolidant les connaissances fondamentales et les développements de pointe, ce travail vise à guider à la fois les chercheurs et les praticiens dans la résolution des défis et le déblocage du plein potentiel des agents GUI à base de LLM.

MARVEL-40M+: Elaboration Visuelle Multi-Niveaux pour la Création de Contenu Textuel en 3D Haute Fidélité
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

La génération de contenu 3D haute fidélité à partir de descriptions textuelles reste un défi majeur en vision par ordinateur en raison de la taille limitée, de la diversité et de la profondeur d'annotation des ensembles de données existants. Pour remédier à cela, nous présentons MARVEL-40M+, un ensemble de données étendu comprenant 40 millions d'annotations textuelles pour plus de 8,9 millions d'éléments 3D provenant de sept ensembles de données 3D majeurs. Notre contribution est un nouveau pipeline d'annotation multi-étapes qui intègre des VLMs et LLMs pré-entraînés multi-vues en open source pour produire automatiquement des descriptions multi-niveaux, allant de détaillées (150-200 mots) à des balises sémantiques concises (10-20 mots). Cette structure prend en charge à la fois la reconstruction 3D détaillée et le prototypage rapide. De plus, nous incorporons des métadonnées humaines des ensembles de données sources dans notre pipeline d'annotation pour ajouter des informations spécifiques au domaine dans notre annotation et réduire les hallucinations des VLM. En outre, nous développons MARVEL-FX3D, un pipeline texte-3D en deux étapes. Nous adaptons Stable Diffusion avec nos annotations et utilisons un réseau image-3D pré-entraîné pour générer des maillages 3D texturés en moins de 15 secondes. Des évaluations approfondies montrent que MARVEL-40M+ surpasse significativement les ensembles de données existants en termes de qualité d'annotation et de diversité linguistique, atteignant des taux de réussite de 72,41% par GPT-4 et de 73,40% par les évaluateurs humains.

Graphique de scène entrelacé pour la génération entrelacée de texte et d'image Évaluation
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

De nombreuses requêtes d'utilisateurs du monde réel (par exemple, "Comment faire du riz frit aux œufs ?") pourraient bénéficier de systèmes capables de générer des réponses avec des étapes textuelles accompagnées d'images, similaires à un livre de cuisine. Les modèles conçus pour générer du texte et des images de manière entrelacée sont confrontés à des défis pour garantir la cohérence au sein et entre ces modalités. Pour relever ces défis, nous présentons ISG, un cadre d'évaluation complet pour la génération de texte et d'image entrelacés. ISG exploite une structure de graphe de scène pour capturer les relations entre les blocs de texte et d'image, évaluant les réponses sur quatre niveaux de granularité : holistique, structurel, au niveau du bloc et spécifique à l'image. Cette évaluation à plusieurs niveaux permet une évaluation nuancée de la cohérence, de la cohésion et de l'exactitude, et fournit des retours question-réponse interprétables. En conjonction avec ISG, nous introduisons un banc d'essai, ISG-Bench, comprenant 1 150 échantillons répartis dans 8 catégories et 21 sous-catégories. Ce jeu de données de référence inclut des dépendances complexes entre le langage et la vision ainsi que des réponses de référence pour évaluer efficacement les modèles sur des tâches centrées sur la vision telles que le transfert de style, un domaine difficile pour les modèles actuels. En utilisant ISG-Bench, nous démontrons que les récents modèles unifiés de vision-langage ont de faibles performances dans la génération de contenu entrelacé. Alors que les approches compositionnelles combinant des modèles de langage et d'image distincts montrent une amélioration de 111 % par rapport aux modèles unifiés au niveau holistique, leurs performances restent sous-optimales aux niveaux du bloc et de l'image. Pour faciliter les travaux futurs, nous développons ISG-Agent, un agent de base utilisant un pipeline "plan-exécuter-affiner" pour invoquer des outils, obtenant une amélioration de performance de 122 %.

Auto-Distillation de la Diffusion pour la Génération d'Images Personnalisées sans Pré-Entraînement
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

Les modèles de diffusion texte-vers-image produisent des résultats impressionnants mais sont des outils frustrants pour les artistes qui recherchent un contrôle précis. Par exemple, un cas d'utilisation courant est de créer des images d'une instance spécifique dans des contextes nouveaux, c'est-à-dire une "génération préservant l'identité". Ce scénario, ainsi que de nombreuses autres tâches (par exemple, le reéclairage), se prêtent naturellement aux modèles génératifs conditionnés texte+image. Cependant, il n'existe pas suffisamment de données appariées de haute qualité pour entraîner un tel modèle directement. Nous proposons la Distillation Auto-diffusion, une méthode pour utiliser un modèle texte-vers-image pré-entraîné pour générer son propre ensemble de données pour les tâches image-vers-image conditionnées par le texte. Nous exploitons d'abord la capacité de génération en contexte d'un modèle de diffusion texte-vers-image pour créer des grilles d'images et constituer un grand ensemble de données appariées avec l'aide d'un Modèle Langage-Image. Ensuite, nous affinons le modèle texte-vers-image en un modèle texte+image-vers-image en utilisant l'ensemble de données appariées constitué. Nous démontrons que la Distillation Auto-diffusion surpasse les méthodes de zéro-shot existantes et est compétitive avec les techniques de réglage par instance sur un large éventail de tâches de génération préservant l'identité, sans nécessiter d'optimisation au moment du test.

Éclatement convexe en 3D : Rendu de champ de radiance avec des convexes lisses en 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

Les récents progrès dans la reconstruction de champs de luminance, tels que le Splatting Gaussien en 3D (3DGS), ont permis d'obtenir une synthèse de nouvelle vue de haute qualité et un rendu rapide en représentant les scènes avec des compositions de primitives gaussiennes. Cependant, les Gaussiennes en 3D présentent plusieurs limitations pour la reconstruction de scènes. Capturer précisément les arêtes vives est difficile sans augmenter significativement le nombre de Gaussiennes, ce qui crée une empreinte mémoire importante. De plus, elles ont du mal à représenter les surfaces planes, car elles se diffusent dans l'espace. Sans régularisateurs faits à la main, elles ont tendance à se disperser de manière irrégulière autour de la surface réelle. Pour contourner ces problèmes, nous introduisons une nouvelle méthode, nommée Splatting Convexe en 3D (3DCS), qui exploite des convexes lisses en 3D comme primitives pour modéliser des champs de luminance géométriquement significatifs à partir d'images multi-vues. Les formes convexes lisses offrent une plus grande flexibilité que les Gaussiennes, permettant une meilleure représentation de scènes en 3D avec des arêtes vives et des volumes denses en utilisant moins de primitives. Alimenté par notre rasterizer efficace basé sur CUDA, 3DCS obtient des performances supérieures à 3DGS sur des benchmarks tels que Mip-NeRF360, Tanks and Temples, et Deep Blending. Plus précisément, notre méthode atteint une amélioration allant jusqu'à 0,81 en PSNR et 0,026 en LPIPS par rapport à 3DGS tout en maintenant des vitesses de rendu élevées et en réduisant le nombre de primitives requis. Nos résultats mettent en évidence le potentiel du Splatting Convexe en 3D pour devenir la nouvelle norme en matière de reconstruction de scènes de haute qualité et de synthèse de nouvelle vue. Page du projet : convexsplatting.github.io.

DiffusionDrive : Modèle de Diffusion Tronqué pour la Conduite Autonome de Bout en Bout
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Récemment, le modèle de diffusion a émergé en tant que technique générative puissante pour l'apprentissage de politiques robotiques, capable de modéliser des distributions d'actions multi-mode. Exploiter sa capacité pour la conduite autonome de bout en bout est une direction prometteuse. Cependant, les nombreuses étapes de débruitage dans la politique de diffusion robotique et la nature plus dynamique et ouverte des scènes de circulation posent des défis substantiels pour générer diverses actions de conduite à une vitesse en temps réel. Pour relever ces défis, nous proposons une nouvelle politique de diffusion tronquée qui intègre des ancres multi-mode antérieures et tronque le calendrier de diffusion, permettant au modèle d'apprendre le débruitage de la distribution d'actions de conduite multi-mode ancrée gaussienne. De plus, nous concevons un décodeur de diffusion en cascade efficace pour une interaction améliorée avec le contexte de scène conditionnel. Le modèle proposé, DiffusionDrive, démontre une réduction de 10 fois des étapes de débruitage par rapport à la politique de diffusion classique, offrant une diversité et une qualité supérieures en seulement 2 étapes. Sur l'ensemble de données NAVSIM orienté vers la planification, avec l'épine dorsale ResNet-34 alignée, DiffusionDrive atteint 88,1 PDMS sans artifices, établissant un nouveau record, tout en fonctionnant à une vitesse en temps réel de 45 FPS sur un NVIDIA 4090. Les résultats qualitatifs sur des scénarios difficiles confirment en outre que DiffusionDrive peut générer de manière robuste diverses actions de conduite plausibles. Le code et le modèle seront disponibles sur https://github.com/hustvl/DiffusionDrive.

Make-It-Animatable : Un cadre efficace pour la création de personnages 3D prêts pour l'animation
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

Les personnages en 3D sont essentiels aux industries créatives modernes, mais les rendre animables demande souvent un travail manuel approfondi dans des tâches telles que le rigging et le skinning. Les outils de rigging automatique existants rencontrent plusieurs limitations, notamment la nécessité d'annotations manuelles, des topologies de squelette rigides et une généralisation limitée à travers des formes et des poses diverses. Une approche alternative consiste à générer des avatars animables pré-liés à un maillage de modèle riggé. Cependant, cette méthode manque souvent de flexibilité et est généralement limitée à des formes humaines réalistes. Pour résoudre ces problèmes, nous présentons Make-It-Animatable, une méthode novatrice basée sur les données pour rendre tout modèle humain en 3D prêt pour l'animation de personnage en moins d'une seconde, quelles que soient ses formes et poses. Notre cadre unifié génère des poids de mélange, des os et des transformations de pose de haute qualité. En incorporant un autoencodeur de forme basé sur des particules, notre approche prend en charge diverses représentations 3D, y compris des maillages et des éclats gaussiens en 3D. De plus, nous utilisons une représentation de grossier à fin et une stratégie de modélisation consciente de la structure pour garantir à la fois précision et robustesse, même pour des personnages avec des structures de squelette non standard. Nous avons mené des expériences approfondies pour valider l'efficacité de notre cadre. Comparé aux méthodes existantes, notre approche démontre des améliorations significatives tant en termes de qualité que de vitesse.

UniPose : Un cadre multimodal unifié pour la compréhension, la génération et l'édition de la pose humaine
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

La pose humaine joue un rôle crucial à l'ère numérique. Alors que des travaux récents ont réalisé des progrès impressionnants dans la compréhension et la génération des poses humaines, ils soutiennent souvent uniquement une seule modalité de signaux de contrôle et fonctionnent de manière isolée, limitant leur application dans des scénarios du monde réel. Cet article présente UniPose, un cadre utilisant de grands modèles de langage (LLM) pour comprendre, générer et éditer des poses humaines à travers diverses modalités, y compris les images, le texte et les poses 3D SMPL. Plus précisément, nous appliquons un tokeniseur de pose pour convertir les poses 3D en tokens de pose discrets, permettant une intégration transparente dans le LLM au sein d'un vocabulaire unifié. Pour améliorer davantage les capacités de perception des poses détaillées, nous facilitons UniPose avec un mélange d'encodeurs visuels, parmi lesquels un encodeur visuel spécifique aux poses. Bénéficiant d'une stratégie d'apprentissage unifiée, UniPose transfère efficacement les connaissances entre différentes tâches liées aux poses, s'adapte à des tâches inconnues et présente des capacités étendues. Ce travail constitue la première tentative de construction d'un cadre polyvalent pour la compréhension, la génération et l'édition des poses. Des expériences approfondies mettent en évidence les performances compétitives voire supérieures d'UniPose dans diverses tâches liées aux poses.

Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

La génération de vidéos textuelles à vidéo (IPT2V) préservant l'identité vise à créer des vidéos haute fidélité avec une identité humaine cohérente. Il s'agit d'une tâche importante en génération de vidéos mais reste un problème ouvert pour les modèles génératifs. Cet article repousse la frontière technique de l'IPT2V dans deux directions qui n'ont pas été résolues dans la littérature : (1) un pipeline sans réglage fastidieux sans réglage cas par cas, et (2) un schéma de contrôle heuristique préservant l'identité basé sur DiT et conscient de la fréquence. Nous proposons ConsisID, un modèle IPT2V contrôlable basé sur DiT sans réglage pour maintenir l'identité humaine cohérente dans la vidéo générée. Inspiré par des découvertes antérieures dans l'analyse de fréquence des transformateurs de diffusion, il utilise des signaux de contrôle d'identité dans le domaine de fréquence, où les traits du visage peuvent être décomposés en traits globaux à basse fréquence et en traits intrinsèques à haute fréquence. Premièrement, d'un point de vue basse fréquence, nous introduisons un extracteur facial global, qui code les images de référence et les points clés du visage dans un espace latent, générant des traits enrichis en informations à basse fréquence. Ces traits sont ensuite intégrés dans les couches superficielles du réseau pour atténuer les défis d'entraînement associés à DiT. Deuxièmement, d'un point de vue haute fréquence, nous concevons un extracteur facial local pour capturer les détails à haute fréquence et les injecter dans les blocs transformateurs, améliorant la capacité du modèle à préserver les caractéristiques détaillées. Nous proposons une stratégie d'entraînement hiérarchique pour exploiter les informations de fréquence pour la préservation de l'identité, transformant un modèle de génération de vidéos pré-entraîné de base en un modèle IPT2V. Des expériences approfondies démontrent que notre schéma heuristique conscient de la fréquence fournit une solution de contrôle optimale pour les modèles basés sur DiT. Grâce à ce schéma, notre ConsisID génère des vidéos de haute qualité préservant l'identité, faisant des avancées vers un IPT2V plus efficace.

Le décodage collaboratif rend la modélisation auto-régressive visuelle plus efficace.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

Dans le domaine en constante évolution de la génération d'images, la modélisation auto-régressive visuelle (VAR) a attiré une attention considérable pour son approche innovante de prédiction à l'échelle suivante. Ce paradigme offre des améliorations substantielles en termes d'efficacité, de scalabilité et de généralisation sans entraînement. Cependant, la nature intrinsèquement grossière à fine de VAR introduit une séquence de jetons prolongée, entraînant une consommation de mémoire prohibitive et des redondances computationnelles. Pour résoudre ces goulots d'étranglement, nous proposons le Décodage Collaboratif (CoDe), une nouvelle stratégie de décodage efficace conçue pour le cadre VAR. CoDe tire parti de deux observations critiques : les demandes de paramètres considérablement réduites aux échelles plus grandes et les schémas de génération exclusifs à travers différentes échelles. Sur la base de ces insights, nous partitionnons le processus d'inférence multi-échelle en une collaboration harmonieuse entre un grand modèle et un petit modèle. Le grand modèle agit en tant que "concepteur", spécialisé dans la génération de contenu à basse fréquence à des échelles plus petites, tandis que le petit modèle agit en tant que "raffineur", se concentrant uniquement sur la prédiction de détails à haute fréquence à des échelles plus grandes. Cette collaboration offre une efficacité remarquable avec un impact minimal sur la qualité : CoDe réalise une accélération de 1,7 fois, réduit l'utilisation de mémoire d'environ 50 %, et préserve la qualité de l'image avec une augmentation FID négligeable de 1,95 à 1,98. Lorsque les étapes de conception sont encore réduites, CoDe peut atteindre un impressionnant ratio d'accélération de 2,9 fois, atteignant 41 images/s à une résolution de 256x256 sur un seul GPU NVIDIA 4090, tout en préservant un FID louable de 2,27. Le code est disponible sur https://github.com/czg1225/CoDe

DreamCache : Génération d'images personnalisées légère sans réglage fin via le stockage de caractéristiques
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

La génération d'images personnalisées nécessite des modèles génératifs texte-vers-image qui capturent les caractéristiques essentielles d'un sujet de référence pour permettre une génération contrôlée dans différents contextes. Les méthodes existantes sont confrontées à des défis en raison des exigences de formation complexes, des coûts élevés d'inférence, d'une flexibilité limitée, ou d'une combinaison de ces problèmes. Dans cet article, nous présentons DreamCache, une approche évolutive pour une génération efficace et de haute qualité d'images personnalisées. En mettant en cache un petit nombre de caractéristiques d'image de référence à partir d'un sous-ensemble de couches et d'un seul pas de temps du débruiteur de diffusion pré-entraîné, DreamCache permet une modulation dynamique des caractéristiques d'image générées grâce à des adaptateurs de conditionnement légers et entraînés. DreamCache atteint un alignement image-texte de pointe, en utilisant un ordre de grandeur moins de paramètres supplémentaires, et est à la fois plus efficace sur le plan computationnel et plus polyvalent que les modèles existants.

ChatRex : Apprivoiser le LLM multimodal pour la perception et la compréhension conjointes
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

La perception et la compréhension sont deux piliers de la vision par ordinateur. Alors que les grands modèles de langage multimodaux (MLLM) ont démontré des capacités remarquables en matière de compréhension visuelle, ils manquent vraisemblablement de capacités de perception précise, par exemple, le modèle de pointe Qwen2-VL n'atteint qu'un taux de rappel de 43,9 % sur l'ensemble de données COCO, limitant de nombreuses tâches nécessitant la combinaison de la perception et de la compréhension. Dans ce travail, nous visons à combler ce fossé perceptif à la fois du point de vue de la conception du modèle et du développement des données. Nous introduisons d'abord ChatRex, un MLLM avec une conception de perception découplée. Au lieu de faire directement prédire les coordonnées des boîtes par le LLM, nous alimentons les boîtes de sortie d'un réseau de proposition universel dans le LLM, lui permettant de produire les indices de boîtes correspondants pour représenter ses résultats de détection, transformant la tâche de régression en une tâche basée sur la récupération que le LLM gère de manière plus efficace. Du point de vue des données, nous construisons un moteur de données entièrement automatisé et créons l'ensemble de données Rexverse-2M qui possède plusieurs granularités pour soutenir l'entraînement conjoint de la perception et de la compréhension. Après un entraînement standard en deux étapes, ChatRex démontre de solides capacités de perception tout en préservant les performances de compréhension multimodale. La combinaison de ces deux capacités débloque simultanément de nombreuses applications attrayantes, démontrant les rôles complémentaires de la perception et de la compréhension dans les MLLM. Le code est disponible sur https://github.com/IDEA-Research/ChatRex.

Génération de sons Foley guidée par vidéo avec contrôles multimodaux
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

La génération d'effets sonores pour les vidéos nécessite souvent la création d'effets sonores artistiques qui s'éloignent considérablement des sources réelles et offrent un contrôle flexible dans la conception sonore. Pour résoudre ce problème, nous présentons MultiFoley, un modèle conçu pour la génération sonore guidée par la vidéo qui prend en charge la condition multimodale à travers du texte, de l'audio et de la vidéo. En donnant une vidéo silencieuse et un texte d'indication, MultiFoley permet aux utilisateurs de créer des sons propres (par exemple, les roues d'un skateboard tournant sans bruit de vent) ou des sons plus fantaisistes (par exemple, faire en sorte qu'un rugissement de lion ressemble à un miaulement de chat). MultiFoley permet également aux utilisateurs de choisir un audio de référence à partir de bibliothèques d'effets sonores (SFX) ou de vidéos partielles pour la condition. Une nouveauté clé de notre modèle réside dans son entraînement conjoint sur à la fois des ensembles de données vidéo sur internet avec un audio de faible qualité et des enregistrements professionnels d'effets sonores, permettant une génération audio de haute qualité et pleine bande passante (48kHz). À travers des évaluations automatisées et des études humaines, nous démontrons que MultiFoley génère avec succès des sons de haute qualité synchronisés à travers diverses entrées conditionnelles et surpasse les méthodes existantes. Veuillez consulter notre page de projet pour les résultats vidéo: https://ificl.github.io/MultiFoley/

Omégance : Un seul paramètre pour différentes granularités dans la synthèse basée sur la diffusion
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

Dans ce travail, nous introduisons un unique paramètre oméga pour contrôler efficacement la granularité dans la synthèse basée sur la diffusion. Ce paramètre est intégré lors des étapes de débruitage du processus inverse du modèle de diffusion. Notre approche ne nécessite pas de reformation du modèle, de modifications architecturales ou de surcharge computationnelle supplémentaire lors de l'inférence, mais permet un contrôle précis du niveau de détails dans les sorties générées. De plus, des masques spatiaux ou des plannings de débruitage avec des valeurs oméga variables peuvent être appliqués pour obtenir un contrôle de granularité spécifique à une région ou à un pas de temps. La connaissance préalable de la composition de l'image à partir de signaux de contrôle ou d'images de référence facilite davantage la création de masques oméga précis pour le contrôle de la granularité sur des objets spécifiques. Pour mettre en avant le rôle du paramètre dans le contrôle des variations de détails subtils, la technique est nommée Omegance, combinant "omega" et "nuance". Notre méthode démontre des performances impressionnantes dans diverses tâches de synthèse d'images et de vidéos et est adaptable à des modèles de diffusion avancés. Le code est disponible sur https://github.com/itsmag11/Omegance.

Modèle de brouillon sait quand s'arrêter : une politique de longueur de vérification automatique pour le décodage spéculatif
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

Le Décodage Spéculatif (SD) est devenu une technique importante pour accélérer la vitesse d'inférence des grands modèles de langage. Les méthodes SD conventionnelles utilisent une longueur de brouillon fixe, ce qui ignore la difficulté de génération des jetons selon les tâches. Par conséquent, dans cet article, nous abordons cette problématique et introduisons SVIP - une politique de longueur de brouillon dynamique prenant en compte la difficulté pour les systèmes de décodage spéculatif. En se basant sur une borne inférieure théorique du taux d'acceptation des jetons de brouillon et son approximation en temps d'inférence, SVIP détermine de manière adaptative les longueurs des séquences de brouillon en fonction de l'entropie de chaque distribution de jetons de brouillon. Les résultats expérimentaux sur des référentiels et des cadres SD populaires démontrent les performances supérieures de SVIP, atteignant jusqu'à 20\% d'accélération du temps mural sur SpecBench par rapport aux méthodes SD de base et 60\% d'accélération sur MT-Bench pour la génération de longs textes allant jusqu'à 8K jetons. De plus, SVIP ne nécessite aucun entraînement et est compatible avec toutes les méthodes SD existantes qui génèrent les jetons de brouillon de manière autorégressive. Les résultats expérimentaux montrent également que SVIP apporte une amélioration constante du temps mural par rapport à GliDe & CaPE et EAGLE-2.

VideoLLM sait quand parler : Améliorer la compréhension des vidéos sensibles au temps avec le format d'interaction vidéo-texte en duo
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Les recherches récentes sur les grands modèles de langage vidéo (VideoLLM) se concentrent principalement sur les architectures de modèle et les ensembles de données d'entraînement, laissant sous-exploité le format d'interaction entre l'utilisateur et le modèle. Dans les travaux existants, les utilisateurs interagissent souvent avec les VideoLLM en utilisant la vidéo entière et une requête en entrée, après quoi le modèle génère une réponse. Ce format d'interaction limite l'application des VideoLLM dans des scénarios tels que la compréhension en direct de vidéos où les vidéos ne se terminent pas et des réponses sont nécessaires en temps réel, et entraîne également des performances insatisfaisantes sur des tâches sensibles au temps qui nécessitent la localisation de segments vidéo. Dans cet article, nous nous concentrons sur un format d'interaction vidéo-texte en duo. Ce format d'interaction se caractérise par la lecture continue de la vidéo, et à la fois l'utilisateur et le modèle peuvent insérer leurs messages textuels à n'importe quel moment pendant la lecture de la vidéo. Lorsqu'un message texte se termine, la vidéo continue de jouer, similaire à l'alternance de deux interprètes dans un duo. Nous construisons MMDuetIT, un ensemble de données d'entraînement vidéo-texte conçu pour adapter les VideoLLM au format d'interaction vidéo-texte en duo. Nous introduisons également la tâche de Question-Réponse Vidéo Ancrée à Réponses Multiples (MAGQA) pour évaluer la capacité de réponse en temps réel des VideoLLM. Entraîné sur MMDuetIT, MMDuet démontre qu'adopter le format d'interaction vidéo-texte en duo permet au modèle d'obtenir des améliorations significatives dans diverses tâches sensibles au temps (76% CIDEr sur la légende dense de vidéos YouCook2, 90% mAP sur la détection de points forts QVHighlights et 25% R@0.5 sur l'ancrage temporel de vidéos Charades-STA) avec des efforts de formation minimaux, et permet également aux VideoLLM de répondre en temps réel pendant la lecture de la vidéo. Le code, les données et la démonstration sont disponibles sur : https://github.com/yellow-binary-tree/MMDuet.

Optimisation de la segmentation des tumeurs cérébrales avec MedNeXt : BraTS 2024 SSA et Pédiatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

Identifier les caractéristiques pathologiques clés dans les IRM cérébrales est crucial pour la survie à long terme des patients atteints de gliome. Cependant, la segmentation manuelle est chronophage, nécessite l'intervention d'experts et est sujette aux erreurs humaines. Par conséquent, d'importants travaux de recherche ont été consacrés au développement de méthodes d'apprentissage automatique capables de segmenter avec précision les tumeurs dans les IRM cérébrales multimodales 3D. Malgré leurs progrès, les modèles de pointe sont souvent limités par les données sur lesquelles ils sont entraînés, soulevant des préoccupations quant à leur fiabilité lorsqu'ils sont appliqués à des populations diverses pouvant introduire des décalages de distribution. Ces décalages peuvent provenir de la technologie IRM de moindre qualité (par exemple, en Afrique subsaharienne) ou des variations dans les données démographiques des patients (par exemple, les enfants). Le défi BraTS-2024 offre une plateforme pour aborder ces problèmes. Cette étude présente notre méthodologie pour segmenter les tumeurs dans les tâches BraTS-2024 SSA et Tumeurs Pédiatriques en utilisant MedNeXt, un ensemble de modèles complet et un post-traitement approfondi. Notre approche a démontré de solides performances sur l'ensemble de validation non vu, atteignant un coefficient de similarité Dice (DSC) moyen de 0,896 sur l'ensemble de données BraTS-2024 SSA et un DSC moyen de 0,830 sur l'ensemble de données BraTS Tumeurs Pédiatriques. De plus, notre méthode a obtenu une distance de Hausdorff moyenne (HD95) de 14,682 sur l'ensemble de données BraTS-2024 SSA et une HD95 moyenne de 37,508 sur l'ensemble de données BraTS Pédiatriques. Notre dépôt GitHub est accessible ici : Dépôt du projet : https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

Restauration d'image tout-en-un adaptative et aveugle
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Les modèles de restauration d'image tout-en-un aveugles visent à récupérer une image de haute qualité à partir d'une entrée dégradée par des distorsions inconnues. Cependant, ces modèles nécessitent que tous les types de dégradations possibles soient définis lors de l'étape d'entraînement tout en montrant une généralisation limitée aux dégradations non vues, ce qui limite leur application pratique dans des cas complexes. Dans cet article, nous proposons un modèle de restauration aveugle tout-en-un adaptatif simple mais efficace (ABAIR), qui peut traiter plusieurs dégradations, généraliser efficacement aux dégradations non vues et incorporer efficacement de nouvelles dégradations en entraînant une petite fraction de paramètres. Tout d'abord, nous entraînons notre modèle de base sur un grand ensemble de données d'images naturelles avec plusieurs dégradations synthétiques, augmenté d'une tête de segmentation pour estimer les types de dégradations par pixel, ce qui donne une colonne vertébrale puissante capable de généraliser à une large gamme de dégradations. Ensuite, nous adaptons notre modèle de base à des tâches de restauration d'image variables en utilisant des adaptateurs indépendants de rang faible. Troisièmement, nous apprenons à combiner de manière adaptative les adaptateurs aux images polyvalentes via un estimateur de dégradation flexible et léger. Notre modèle est à la fois puissant pour traiter des distorsions spécifiques et flexible pour s'adapter à des tâches complexes, il surpasse largement l'état de l'art sur des configurations IR à cinq et trois tâches, et montre également une meilleure généralisation aux dégradations non vues et aux distorsions composites.

Entraînement et Évaluation de Modèles de Langage avec Génération de Données Basée sur des Modèles.
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

L'avancée rapide des grands modèles de langage (LLM) tels que GPT-3, PaLM et Llama a considérablement transformé le traitement du langage naturel, mettant en avant des capacités remarquables en compréhension et génération de langage. Cependant, ces modèles rencontrent souvent des difficultés dans les tâches nécessitant un raisonnement complexe, notamment dans la résolution de problèmes mathématiques, en partie en raison de la rareté de jeux de données spécifiques au domaine, à grande échelle et de haute qualité, nécessaires pour entraîner des capacités de raisonnement sophistiquées. Pour pallier cette limitation, nous introduisons la Génération de Données basée sur des Modèles de Gabarits (TDG), une approche novatrice qui exploite les LLM (GPT-4) pour générer automatiquement des méta-gabarits paramétrés, qui sont ensuite utilisés pour synthétiser une vaste gamme de problèmes et solutions de haute qualité. En exploitant la TDG, nous créons TemplateMath Partie I : TemplateGSM, un ensemble de données comprenant plus de 7 millions de problèmes mathématiques de niveau primaire générés de manière synthétique, chacun étant accompagné de solutions en langage naturel et basées sur du code, avec la capacité de générer un nombre pratiquement illimité de problèmes supplémentaires. Cet ensemble de données pallie la rareté des ensembles de données mathématiques à grande échelle et constitue une ressource précieuse pour la pré-formation, le réglage fin et l'évaluation des LLM dans le raisonnement mathématique. Notre méthode permet non seulement la génération de données virtuellement infinies, mais élève également l'augmentation de données à un nouveau niveau en utilisant GPT-4 pour la génération de méta-gabarits, garantissant des structures de problèmes diverses et de haute qualité. L'ensemble de données TemplateMath Partie I : TemplateGSM est disponible publiquement sur https://huggingface.co/datasets/math-ai/TemplateGSM. Le code est disponible sur https://github.com/iiis-ai/TemplateMath.

Modifiez à volonté, mon visage ne restera pas: Défense biométrique personnelle contre la modification générative malveillante
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

Les récents progrès dans les modèles de diffusion ont rendu l'édition d'images génératives plus accessible, permettant des modifications créatives mais soulevant des préoccupations éthiques, notamment en ce qui concerne les modifications malveillantes apportées aux portraits humains qui menacent la vie privée et la sécurité de l'identité. Les méthodes de protection existantes reposent principalement sur des perturbations adverses pour annuler les modifications, mais échouent souvent face à des demandes de modifications diverses. Nous proposons FaceLock, une approche novatrice pour la protection des portraits qui optimise les perturbations adverses pour détruire ou modifier significativement les informations biométriques, rendant les sorties modifiées méconnaissables sur le plan biométrique. FaceLock intègre la reconnaissance faciale et la perception visuelle dans l'optimisation des perturbations pour offrir une protection robuste contre diverses tentatives de modification. Nous mettons également en évidence les lacunes des métriques d'évaluation couramment utilisées et révélons comment elles peuvent être manipulées, soulignant la nécessité d'évaluations fiables de la protection. Les expériences montrent que FaceLock surpasse les références en défendant contre les modifications malveillantes et est robuste contre les techniques de purification. Des études d'ablation confirment sa stabilité et sa large applicabilité à travers les algorithmes de modification basés sur la diffusion. Notre travail fait progresser la défense biométrique et pose les bases pour des pratiques préservant la vie privée dans l'édition d'images. Le code est disponible sur : https://github.com/taco-group/FaceLock.

papers.title

papers.description

ROICtrl : Renforcement du Contrôle d'Instance pour la Génération Visuelle
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

CAT4D : Créez n'importe quoi en 4D avec des modèles de diffusion vidéo multi-vues
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Agents GUI à base de grands modèles de langage : Une enquête
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

MARVEL-40M+: Elaboration Visuelle Multi-Niveaux pour la Création de Contenu Textuel en 3D Haute Fidélité
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

Graphique de scène entrelacé pour la génération entrelacée de texte et d'image Évaluation
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

Auto-Distillation de la Diffusion pour la Génération d'Images Personnalisées sans Pré-Entraînement
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

Éclatement convexe en 3D : Rendu de champ de radiance avec des convexes lisses en 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

DiffusionDrive : Modèle de Diffusion Tronqué pour la Conduite Autonome de Bout en Bout
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Make-It-Animatable : Un cadre efficace pour la création de personnages 3D prêts pour l'animation
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

UniPose : Un cadre multimodal unifié pour la compréhension, la génération et l'édition de la pose humaine
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

Le décodage collaboratif rend la modélisation auto-régressive visuelle plus efficace.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

DreamCache : Génération d'images personnalisées légère sans réglage fin via le stockage de caractéristiques
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

ChatRex : Apprivoiser le LLM multimodal pour la perception et la compréhension conjointes
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

Génération de sons Foley guidée par vidéo avec contrôles multimodaux
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

Omégance : Un seul paramètre pour différentes granularités dans la synthèse basée sur la diffusion
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

Modèle de brouillon sait quand s'arrêter : une politique de longueur de vérification automatique pour le décodage spéculatif
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

VideoLLM sait quand parler : Améliorer la compréhension des vidéos sensibles au temps avec le format d'interaction vidéo-texte en duo
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Optimisation de la segmentation des tumeurs cérébrales avec MedNeXt : BraTS 2024 SSA et Pédiatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

Restauration d'image tout-en-un adaptative et aveugle
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Entraînement et Évaluation de Modèles de Langage avec Génération de Données Basée sur des Modèles.
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

Modifiez à volonté, mon visage ne restera pas: Défense biométrique personnelle contre la modification générative malveillante
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu