Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

ShowUI : Un modèle Vision-Langage-Action pour un Agent Visuel d'Interface Graphique Utilisateur
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

La création d'assistants d'interface utilisateur graphique (GUI) offre un potentiel significatif pour améliorer la productivité des flux de travail humains. Alors que la plupart des agents sont basés sur le langage, reposant sur des API propriétaires avec des métadonnées riches en texte (par exemple, HTML ou l'arborescence d'accessibilité), ils montrent des limites dans la perception des éléments visuels de l'interface utilisateur comme le font les humains, soulignant ainsi le besoin d'agents visuels GUI. Dans ce travail, nous développons un modèle vision-langage-action dans le monde numérique, nommé ShowUI, qui présente les innovations suivantes : (i) Sélection de jetons visuels guidée par l'interface utilisateur pour réduire les coûts de calcul en formulant des captures d'écran sous forme de graphe d'interface utilisateur, identifiant de manière adaptative leurs relations redondantes et servant de critère de sélection de jetons pendant les blocs d'auto-attention ; (ii) Diffusion intercalée de vision-langage-action qui unifie de manière flexible les besoins divers dans les tâches GUI, permettant une gestion efficace de l'historique des actions visuelles dans la navigation ou l'appariement de séquences de requêtes-actions multi-tours par capture d'écran pour améliorer l'efficacité de l'entraînement ; (iii) Ensembles de données de suivi d'instructions GUI de petite taille et de haute qualité par une curation minutieuse des données et en utilisant une stratégie de rééchantillonnage pour résoudre les déséquilibres significatifs des types de données. Avec les composants ci-dessus, ShowUI, un modèle 2B léger utilisant 256K de données, atteint une précision solide de 75,1% dans l'ancrage de captures d'écran sans pré-entraînement. Sa sélection de jetons guidée par l'interface utilisateur réduit en outre de 33% les jetons visuels redondants lors de l'entraînement et accélère les performances de 1,4 fois. Les expériences de navigation à travers les environnements web Mind2Web, mobile AITW et en ligne MiniWob soulignent en outre l'efficacité et le potentiel de notre modèle dans l'avancement des agents visuels GUI. Les modèles sont disponibles sur https://github.com/showlab/ShowUI.

ROICtrl : Renforcement du Contrôle d'Instance pour la Génération Visuelle
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Le langage naturel a souvent du mal à associer avec précision les informations de position et d'attribut à plusieurs instances, ce qui limite les modèles de génération visuelle basés sur du texte actuels à des compositions plus simples ne comportant que quelques instances dominantes. Pour remédier à cette limitation, ce travail améliore les modèles de diffusion en introduisant un contrôle d'instance régional, où chaque instance est régie par une boîte englobante associée à une légende libre. Les méthodes précédentes dans ce domaine s'appuient généralement sur un encodage de position implicite ou des masques d'attention explicites pour séparer les régions d'intérêt (ROIs), ce qui entraîne soit une injection de coordonnées inexacte, soit une surcharge computationnelle importante. Inspirés par ROI-Align en détection d'objets, nous introduisons une opération complémentaire appelée ROI-Unpool. Ensemble, ROI-Align et ROI-Unpool permettent une manipulation explicite, efficace et précise des ROIs sur des cartes de caractéristiques haute résolution pour la génération visuelle. En s'appuyant sur ROI-Unpool, nous proposons ROICtrl, un adaptateur pour les modèles de diffusion pré-entraînés qui permet un contrôle précis des instances régionales. ROICtrl est compatible avec les modèles de diffusion affinés par la communauté, ainsi qu'avec les ajouts basés sur l'espace existants (par exemple, ControlNet, T2I-Adapter) et les ajouts basés sur l'incorporation (par exemple, IP-Adapter, ED-LoRA), étendant leurs applications à la génération multi-instance. Les expériences montrent que ROICtrl obtient des performances supérieures en matière de contrôle d'instances régionales tout en réduisant significativement les coûts computationnels.

Chemins sur la variété des images : Édition d'images via la génération de vidéos
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Les récentes avancées en matière de retouche d'images, basées sur des modèles de diffusion d'images, ont montré des progrès remarquables. Cependant, des défis importants subsistent, car ces modèles ont souvent du mal à suivre avec précision des instructions de retouche complexes et compromettent fréquemment la fidélité en altérant des éléments clés de l'image d'origine. Parallèlement, la génération de vidéos a fait des progrès remarquables, avec des modèles qui fonctionnent efficacement en tant que simulateurs de monde cohérents et continus. Dans cet article, nous proposons de fusionner ces deux domaines en utilisant des modèles d'images vers vidéos pour la retouche d'images. Nous reformulons la retouche d'images en un processus temporel, en utilisant des modèles vidéo pré-entraînés pour créer des transitions fluides de l'image d'origine à la retouche souhaitée. Cette approche parcourt de manière continue la variété d'images, garantissant des retouches cohérentes tout en préservant les aspects clés de l'image d'origine. Notre approche obtient des résultats de pointe en matière de retouche d'images basée sur du texte, démontrant des améliorations significatives tant en termes de précision de la retouche que de préservation de l'image.

Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

La génération de vidéos textuelles à vidéo (IPT2V) préservant l'identité vise à créer des vidéos haute fidélité avec une identité humaine cohérente. Il s'agit d'une tâche importante en génération de vidéos mais reste un problème ouvert pour les modèles génératifs. Cet article repousse la frontière technique de l'IPT2V dans deux directions qui n'ont pas été résolues dans la littérature : (1) un pipeline sans réglage fastidieux sans réglage cas par cas, et (2) un schéma de contrôle heuristique préservant l'identité basé sur DiT et conscient de la fréquence. Nous proposons ConsisID, un modèle IPT2V contrôlable basé sur DiT sans réglage pour maintenir l'identité humaine cohérente dans la vidéo générée. Inspiré par des découvertes antérieures dans l'analyse de fréquence des transformateurs de diffusion, il utilise des signaux de contrôle d'identité dans le domaine de fréquence, où les traits du visage peuvent être décomposés en traits globaux à basse fréquence et en traits intrinsèques à haute fréquence. Premièrement, d'un point de vue basse fréquence, nous introduisons un extracteur facial global, qui code les images de référence et les points clés du visage dans un espace latent, générant des traits enrichis en informations à basse fréquence. Ces traits sont ensuite intégrés dans les couches superficielles du réseau pour atténuer les défis d'entraînement associés à DiT. Deuxièmement, d'un point de vue haute fréquence, nous concevons un extracteur facial local pour capturer les détails à haute fréquence et les injecter dans les blocs transformateurs, améliorant la capacité du modèle à préserver les caractéristiques détaillées. Nous proposons une stratégie d'entraînement hiérarchique pour exploiter les informations de fréquence pour la préservation de l'identité, transformant un modèle de génération de vidéos pré-entraîné de base en un modèle IPT2V. Des expériences approfondies démontrent que notre schéma heuristique conscient de la fréquence fournit une solution de contrôle optimale pour les modèles basés sur DiT. Grâce à ce schéma, notre ConsisID génère des vidéos de haute qualité préservant l'identité, faisant des avancées vers un IPT2V plus efficace.

MME-Survey : Une enquête exhaustive sur l'évaluation des LLM multimodaux
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

En tant que direction majeure de l'Intelligence Artificielle Générale (IAG), les Grands Modèles de Langage Multimodaux (GMLM) ont suscité un intérêt croissant tant de l'industrie que du milieu universitaire. En s'appuyant sur des GML pré-entraînés, cette famille de modèles développe davantage les capacités de perception et de raisonnement multimodales qui sont impressionnantes, telles que la rédaction de code à partir d'un organigramme ou la création d'histoires basées sur une image. Dans le processus de développement, l'évaluation est cruciale car elle fournit des retours intuitifs et des orientations pour améliorer les modèles. Différente du paradigme traditionnel d'entraînement-évaluation-test qui favorise uniquement une tâche unique comme la classification d'images, la polyvalence des GMLM a stimulé l'émergence de divers nouveaux référentiels et méthodes d'évaluation. Dans cet article, nous visons à présenter une enquête complète sur l'évaluation des GMLM, en discutant de quatre aspects clés : 1) les types de référentiels résumés divisés par les capacités d'évaluation, comprenant les capacités fondamentales, l'auto-analyse du modèle et les applications étendues ; 2) le processus typique de construction de référentiels, comprenant la collecte de données, l'annotation et les précautions ; 3) la manière systématique d'évaluation composée de juges, de métriques et d'outils ; 4) les perspectives pour le prochain référentiel. Ce travail vise à offrir aux chercheurs une compréhension facile de la manière d'évaluer efficacement les GMLM selon les besoins spécifiques et à inspirer de meilleures méthodes d'évaluation, contribuant ainsi à faire avancer la recherche sur les GMLM.

Graphique de scène entrelacé pour la génération entrelacée de texte et d'image Évaluation
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

De nombreuses requêtes d'utilisateurs du monde réel (par exemple, "Comment faire du riz frit aux œufs ?") pourraient bénéficier de systèmes capables de générer des réponses avec des étapes textuelles accompagnées d'images, similaires à un livre de cuisine. Les modèles conçus pour générer du texte et des images de manière entrelacée sont confrontés à des défis pour garantir la cohérence au sein et entre ces modalités. Pour relever ces défis, nous présentons ISG, un cadre d'évaluation complet pour la génération de texte et d'image entrelacés. ISG exploite une structure de graphe de scène pour capturer les relations entre les blocs de texte et d'image, évaluant les réponses sur quatre niveaux de granularité : holistique, structurel, au niveau du bloc et spécifique à l'image. Cette évaluation à plusieurs niveaux permet une évaluation nuancée de la cohérence, de la cohésion et de l'exactitude, et fournit des retours question-réponse interprétables. En conjonction avec ISG, nous introduisons un banc d'essai, ISG-Bench, comprenant 1 150 échantillons répartis dans 8 catégories et 21 sous-catégories. Ce jeu de données de référence inclut des dépendances complexes entre le langage et la vision ainsi que des réponses de référence pour évaluer efficacement les modèles sur des tâches centrées sur la vision telles que le transfert de style, un domaine difficile pour les modèles actuels. En utilisant ISG-Bench, nous démontrons que les récents modèles unifiés de vision-langage ont de faibles performances dans la génération de contenu entrelacé. Alors que les approches compositionnelles combinant des modèles de langage et d'image distincts montrent une amélioration de 111 % par rapport aux modèles unifiés au niveau holistique, leurs performances restent sous-optimales aux niveaux du bloc et de l'image. Pour faciliter les travaux futurs, nous développons ISG-Agent, un agent de base utilisant un pipeline "plan-exécuter-affiner" pour invoquer des outils, obtenant une amélioration de performance de 122 %.

SketchAgent : Génération de croquis séquentielle basée sur le langage
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Le croquis sert d'outil polyvalent pour externaliser des idées, permettant une exploration rapide et une communication visuelle qui couvre diverses disciplines. Alors que les systèmes artificiels ont entraîné des avancées substantielles dans la création de contenu et l'interaction homme-machine, capturer la nature dynamique et abstraite du croquis humain reste un défi. Dans ce travail, nous présentons SketchAgent, une méthode de génération de croquis séquentielle pilotée par le langage qui permet aux utilisateurs de créer, modifier et affiner des croquis à travers des interactions dynamiques et conversationnelles. Notre approche ne nécessite aucun entraînement ni aucun ajustement fin. Au lieu de cela, nous exploitons la nature séquentielle et la riche connaissance préalable des modèles de langage multimodaux larges (LLM) prêts à l'emploi. Nous présentons un langage de croquis intuitif, introduit au modèle à travers des exemples en contexte, lui permettant de "dessiner" en utilisant des actions basées sur des chaînes. Celles-ci sont traitées en graphiques vectoriels, puis rendues pour créer un croquis sur un canevas de pixels, qui peut être de nouveau consulté pour d'autres tâches. En dessinant trait par trait, notre agent capture les qualités évolutives et dynamiques intrinsèques au croquis. Nous démontrons que SketchAgent peut générer des croquis à partir de diverses incitations, s'engager dans un dessin piloté par le dialogue et collaborer de manière significative avec les utilisateurs humains.

Repenser la réduction des jetons dans les MLLMs : Vers un paradigme unifié pour une accélération sans entraînement.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Pour accélérer l'inférence des lourds Modèles de Langage Multimodaux (MLLM), cette étude repense le paysage actuel de la recherche sur la réduction de jetons sans entraînement. Nous regrettons de constater que les composants critiques des méthodes existantes sont étroitement liés, avec leurs interconnexions et effets restant flous pour la comparaison, le transfert et l'expansion. Par conséquent, nous proposons un paradigme unifié "filtrer-corréler-compresser" qui décompose la réduction de jetons en trois étapes distinctes au sein d'un pipeline, en maintenant des objectifs de conception et des éléments cohérents tout en permettant des implémentations uniques. Nous démystifions également les travaux populaires et les intégrons dans notre paradigme pour en montrer l'universalité. Enfin, nous proposons une série de méthodes ancrées dans le paradigme, trouvant un équilibre entre vitesse et précision tout au long des différentes phases de l'inférence. Les résultats expérimentaux sur 10 benchmarks indiquent que nos méthodes peuvent atteindre jusqu'à une réduction de 82,4% des FLOPs avec un impact minimal sur les performances, dépassant simultanément les méthodes sans entraînement de pointe. Notre page de projet se trouve à l'adresse https://ficoco-accelerate.github.io/.

La quantification à faible nombre de bits favorise les LLM sous-entraînés : Lois d'échelle pour les LLM quantifiés avec 100 billions de jetons d'entraînement.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

Nous révélons que la quantification à faible nombre de bits favorise les grands modèles de langage insuffisamment entraînés (LLM) en observant que les modèles de plus grande taille ou avec moins de jetons d'entraînement subissent moins de dégradation induite par la quantification (QiD) lors de l'application d'une quantification à faible nombre de bits, tandis que les modèles plus petits avec un grand nombre de jetons d'entraînement souffrent d'une dégradation significative de la QiD. Pour obtenir des informations plus approfondies sur cette tendance, nous étudions plus de 1500 points de contrôle de LLM quantifiés de différentes tailles et à différents niveaux d'entraînement (insuffisamment entraînés ou entièrement entraînés) dans un environnement contrôlé, en dérivant des lois d'échelle pour comprendre la relation entre la QiD et des facteurs tels que le nombre de jetons d'entraînement, la taille du modèle et la largeur en bits. Avec les lois d'échelle dérivées, nous proposons une nouvelle perspective selon laquelle nous pouvons utiliser la QiD pour mesurer les niveaux d'entraînement d'un LLM et déterminer le nombre de jetons d'entraînement nécessaires pour entraîner pleinement des LLM de différentes tailles. De plus, nous utilisons les lois d'échelle pour prédire les performances de quantification de différents LLM de tailles différentes entraînés avec 100 billions de jetons. Notre projection montre que les performances de quantification à faible nombre de bits des futurs modèles, qui devraient être entraînés avec plus de 100 billions de jetons, pourraient NE PAS être souhaitables. Cela pose un défi potentiel pour la quantification à faible nombre de bits à l'avenir et souligne la nécessité de prendre en compte le niveau d'entraînement d'un modèle lors de l'évaluation de la recherche sur la quantification à faible nombre de bits. Pour faciliter les futures recherches sur ce problème, nous mettons à disposition tous les points de contrôle quantifiés utilisés dans ce travail, soit plus de 1500, sur https://huggingface.co/Xu-Ouyang.

SAR3D : Génération et compréhension autoregressive d'objets 3D via un VQVAE 3D multi-échelle
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Les modèles autorégressifs ont démontré un succès remarquable dans divers domaines, des grands modèles de langage (LLM) aux grands modèles multimodaux (LMM) et à la génération de contenu 2D, se rapprochant ainsi de l'intelligence artificielle générale (AGI). Malgré ces avancées, l'application des approches autorégressives à la génération et à la compréhension d'objets 3D reste largement inexplorée. Cet article présente Scale AutoRegressive 3D (SAR3D), un nouveau cadre qui exploite un autoencodeur variationnel vectorisé 3D à échelle multiple (VQVAE) pour tokeniser les objets 3D en vue d'une génération autorégressive efficace et d'une compréhension détaillée. En prédisant l'échelle suivante dans une représentation latente à échelle multiple au lieu du jeton suivant unique, SAR3D réduit significativement le temps de génération, réalisant une génération rapide d'objets 3D en seulement 0,82 seconde sur un GPU A6000. De plus, étant donné les jetons enrichis d'informations hiérarchiques 3D, nous affinons un LLM pré-entraîné sur ceux-ci, permettant une compréhension multimodale du contenu 3D. Nos expériences montrent que SAR3D surpasse les méthodes actuelles de génération 3D à la fois en termes de vitesse et de qualité, et permet aux LLM d'interpréter et de légender de manière exhaustive les modèles 3D.

VLRewardBench : un benchmark exigeant pour les modèles de récompense générative vision-langage
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Les modèles de récompense générative vision-langage (VL-GenRMs) jouent un rôle crucial dans l'alignement et l'évaluation des systèmes d'IA multimodaux, mais leur propre évaluation reste peu explorée. Les méthodes d'évaluation actuelles reposent principalement sur des étiquettes de préférence annotées par l'IA à partir de tâches VL traditionnelles, ce qui peut introduire des biais et souvent ne parvient pas à remettre efficacement en question les modèles de pointe. Pour remédier à ces limitations, nous introduisons VL-RewardBench, un banc d'essai complet couvrant des requêtes multimodales générales, la détection d'hallucinations visuelles et des tâches de raisonnement complexes. Grâce à notre pipeline d'annotation assisté par l'IA combinant la sélection d'échantillons avec la vérification humaine, nous avons sélectionné avec soin 1 250 exemples de haute qualité spécifiquement conçus pour sonder les limitations des modèles. Une évaluation complète sur 16 des principaux grands modèles vision-langage démontre l'efficacité de VL-RewardBench en tant que banc d'essai exigeant, où même GPT-4o n'atteint qu'une précision de 65,4 %, et où des modèles open-source de pointe tels que Qwen2-VL-72B peinent à dépasser le hasard. De manière importante, les performances sur VL-RewardBench sont fortement corrélées (r de Pearson > 0,9) avec l'exactitude de MMMU-Pro en utilisant l'échantillonnage Best-of-N avec les VL-GenRMs. Des expériences d'analyse révèlent trois insights critiques pour améliorer les VL-GenRMs : (i) les modèles échouent principalement dans les tâches de perception visuelle de base plutôt que dans les tâches de raisonnement ; (ii) les avantages de l'adaptation à l'échelle au moment de l'inférence varient considérablement en fonction de la capacité du modèle ; et (iii) former les VL-GenRMs à apprendre à juger renforce considérablement la capacité de jugement (+14,7 % de précision pour un VL-GenRM 7B). Nous pensons que VL-RewardBench, associé aux insights expérimentaux, deviendra une ressource précieuse pour faire progresser les VL-GenRMs.

Apprentissage de représentations 3D à partir de programmes 3D procéduraux
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

L'apprentissage auto-supervisé s'est imposé comme une approche prometteuse pour acquérir des représentations 3D transférables à partir de nuages de points 3D non étiquetés. Contrairement aux images 2D, largement accessibles, l'acquisition d'actifs 3D nécessite une expertise spécialisée ou un équipement de numérisation 3D professionnel, ce qui rend difficile l'évolutivité et soulève des préoccupations en matière de droits d'auteur. Pour relever ces défis, nous proposons d'apprendre des représentations 3D à partir de programmes 3D procéduraux qui génèrent automatiquement des formes 3D à l'aide de primitives simples et d'augmentations. Remarquablement, malgré l'absence de contenu sémantique, les représentations 3D apprises à partir de cet ensemble de données synthétisées sont à la hauteur des représentations de pointe apprises à partir de modèles 3D reconnaissables sémantiquement (par exemple, des avions) dans diverses tâches 3D ultérieures, notamment la classification de formes, la segmentation de parties et l'achèvement de nuages de points masqués. Notre analyse suggère en outre que les méthodes actuelles d'apprentissage auto-supervisé capturent principalement les structures géométriques plutôt que les sémantiques de haut niveau.

SALOVA : Assistant Vidéo Longue Durée Augmentée par Segmentation pour la Récupération Ciblée et le Routage dans l'Analyse de Vidéos Longues
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Malgré les avancées des Grands Modèles Multi-modaux, les appliquer à des contenus vidéo longs et non coupés reste difficile en raison des limitations de longueur du contexte et de la charge mémoire substantielle. Ces contraintes entraînent souvent une perte d'informations significative et une pertinence réduite dans les réponses du modèle. Avec la croissance exponentielle des données vidéo sur les plateformes web, la compréhension des vidéos longues est cruciale pour faire progresser l'intelligence généralisée. Dans cet article, nous présentons SALOVA : Segment-Augmented LOng Video Assistant, un nouveau cadre vidéo-LLM conçu pour améliorer la compréhension des contenus vidéo longs grâce à un processus de recherche ciblée. Nous abordons deux principaux défis pour y parvenir : (i) Nous présentons le jeu de données SceneWalk, une collection de haute qualité de 87,8K vidéos longues, chacune étant densément sous-titrée au niveau du segment pour permettre aux modèles de capturer la continuité des scènes et de maintenir un contexte descriptif riche. (ii) Nous développons des conceptions architecturales robustes intégrant un mécanisme de routage dynamique et un projecteur spatio-temporel pour récupérer et traiter efficacement les segments vidéo pertinents en fonction des requêtes des utilisateurs. Notre cadre atténue les limitations des actuels vidéo-LMMs en permettant l'identification précise et la récupération des segments vidéo pertinents en réponse aux requêtes, améliorant ainsi la pertinence contextuelle des réponses générées. À travers des expériences approfondies, SALOVA démontre une capacité améliorée à traiter des vidéos longues complexes, montrant une capacité significative à maintenir l'intégrité contextuelle à travers des séquences étendues.

LÉGENDE FINECAPTION : Description d'Images Compositionnelle Axée sur l'Endroit de Votre Choix à Toute Granularité
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

L'avènement des grands Modèles Vision-Texte (VLM) a considérablement fait progresser les tâches multimodales, permettant un raisonnement plus sophistiqué et précis à travers diverses applications, y compris la légende d'images et de vidéos, la réponse à des questions visuelles et la recherche cross-modale. Malgré leurs capacités supérieures, les VLM rencontrent des difficultés avec la perception des informations de composition régionale d'image à grain fin. En particulier, ils ont du mal à aligner avec précision les masques de segmentation avec les sémantiques correspondantes et à décrire précisément les aspects compositionnels des régions mentionnées. Cependant, la compositionnalité - la capacité à comprendre et générer de nouvelles combinaisons d'éléments visuels et textuels connus - est cruciale pour faciliter un raisonnement cohérent et une compréhension à travers les modalités par les VLM. Pour résoudre ce problème, nous proposons FINECAPTION, un nouveau VLM capable de reconnaître des masques arbitraires en tant qu'entrées référentielles et de traiter des images haute résolution pour la légende compositionnelle d'images à différents niveaux de granularité. Pour soutenir cette entreprise, nous introduisons COMPOSITIONCAP, un nouvel ensemble de données pour la légende d'images régionales compositionnelles multi-granulaires, qui présente la tâche de légende d'images régionales consciente des attributs compositionnels. Des résultats empiriques démontrent l'efficacité de notre modèle proposé par rapport à d'autres VLM de pointe. De plus, nous analysons les capacités des VLM actuels à reconnaître divers stimuli visuels pour la légende d'images régionales compositionnelles, mettant en évidence les domaines à améliorer dans la conception et l'entraînement des VLM.

AnchorCrafter : Animer les CyberAncres pour Vendre Vos Produits via la Génération de Vidéos Interagissant avec des Humains-Objets
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

La génération automatique de vidéos de promotion de produits de style ancre présente des opportunités prometteuses dans le commerce en ligne, la publicité et l'engagement des consommateurs. Cependant, cela reste une tâche difficile malgré les avancées significatives dans la génération de vidéos humaines guidées par la pose. Pour relever ce défi, nous identifions l'intégration des interactions humain-objet (HOI) dans la génération de vidéos humaines guidées par la pose comme un problème central. À cette fin, nous présentons AnchorCrafter, un nouveau système basé sur la diffusion conçu pour générer des vidéos 2D mettant en scène un humain cible et un objet personnalisé, atteignant une haute fidélité visuelle et des interactions contrôlables. Plus précisément, nous proposons deux innovations clés : la perception de l'apparence HOI, qui améliore la reconnaissance de l'apparence de l'objet à partir de perspectives multi-vues arbitraires et démêle l'apparence de l'objet et de l'humain, et l'injection de mouvement HOI, qui permet des interactions complexes entre humain et objet en surmontant les défis liés à la condition de trajectoire de l'objet et à la gestion de l'inter-occlusion. De plus, nous introduisons la perte de rééquilibrage de région HOI, un objectif d'entraînement qui améliore l'apprentissage des détails de l'objet. Des expériences approfondies démontrent que notre système proposé surpasse les méthodes existantes en préservant l'apparence et la conscience de la forme de l'objet, tout en maintenant simultanément la cohérence dans l'apparence et le mouvement humains. Page du projet : https://cangcz.github.io/Anchor-Crafter/

EfficientViM : Mamba de Vision Efficace avec un Mélangeur d'États Cachés basé sur la Dualité de l'Espace d'États
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Pour le déploiement de réseaux neuronaux dans des environnements aux ressources limitées, des travaux antérieurs ont construit des architectures légères avec des convolutions et de l'attention pour capturer respectivement les dépendances locales et globales. Récemment, le modèle d'espace d'états a émergé comme une interaction de jeton global efficace avec son coût computationnel linéaire favorable en fonction du nombre de jetons. Cependant, les architectures de vision efficaces construites avec SSM ont été moins explorées. Dans cet article, nous introduisons Efficient Vision Mamba (EfficientViM), une architecture novatrice construite sur la dualité de l'espace d'états basée sur le mélangeur d'états cachés (HSM-SSD) qui capture efficacement les dépendances globales avec un coût computationnel réduit. Dans la couche HSM-SSD, nous redessinons la couche SSD précédente pour permettre l'opération de mélange de canaux au sein des états cachés. De plus, nous proposons une fusion d'états cachés multi-étapes pour renforcer davantage la puissance de représentation des états cachés, et fournissons la conception atténuant le goulot d'étranglement causé par les opérations liées à la mémoire. En conséquence, la famille EfficientViM atteint un nouvel équilibre vitesse-précision de pointe sur ImageNet-1k, offrant jusqu'à une amélioration de performance de 0,7% par rapport au deuxième meilleur modèle SHViT avec une vitesse plus rapide. De plus, nous observons des améliorations significatives en termes de débit et de précision par rapport aux travaux antérieurs, lors de la mise à l'échelle des images ou de l'utilisation de l'entraînement par distillation. Le code est disponible sur https://github.com/mlvlab/EfficientViM.

MolReFlect : Vers des Alignements Fine-grained en Contexte entre Molécules et Textes
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

La découverte de molécules est un domaine de recherche essentiel, ayant un impact sur tout, des médicaments que nous prenons aux matériaux que nous utilisons. Récemment, les Grands Modèles de Langage (GML) ont été largement adoptés dans la compréhension et la génération de molécules, cependant, les alignements entre les molécules et leurs légendes correspondantes restent un défi significatif. Les efforts précédents considéraient souvent la molécule comme une chaîne SMILES générale ou un graphe moléculaire, négligeant les alignements détaillés entre les sous-structures moléculaires et les phrases textuelles descriptives, qui sont essentiels pour des prédictions précises et explicables. Dans ce cas, nous introduisons MolReFlect, un nouveau cadre enseignant-élève conçu pour effectuer contextuellement les alignements molécule-légende de manière détaillée. Notre approche exploite initialement un plus grand enseignant GML pour étiqueter les alignements détaillés en extrayant directement des phrases critiques des légendes de molécules ou des chaînes SMILES et en les appliquant aux sous-structures ou caractéristiques correspondantes. Pour affiner ces alignements, nous proposons une Réflexion Sélective en Contexte, qui récupère les résultats d'extraction précédents en tant qu'exemples de contexte pour que l'enseignant GML réfléchisse et permet à un plus petit élève GML de choisir parmi la réflexion en contexte et les résultats d'extraction précédents. Enfin, nous améliorons le processus d'apprentissage de l'élève GML grâce à un Accord en Chaîne de Pensée en Contexte pour l'Accord Moléculaire, intégrant les alignements détaillés et les processus de raisonnement dans le format de Chaîne de Pensée. Nos résultats expérimentaux démontrent que MolReFlect permet aux GML comme Mistral-7B de surpasser significativement les baselines précédentes, atteignant des performances de pointe sur l'ensemble de données ChEBI-20. Cette avancée non seulement améliore les capacités génératives des GML dans la tâche de traduction molécule-légende, mais contribue également à un cadre plus explicatif.

Test de Turing de Compteur Visuel (VCT^2) : Découverte des Défis pour la Détection d'Images Générées par l'IA et Introduction de l'Indice d'IA Visuelle (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

La prolifération des techniques d'IA pour la génération d'images, associée à leur accessibilité croissante, a soulevé des préoccupations importantes quant au potentiel de détournement de ces images pour propager des informations erronées. Les récents méthodes de détection d'images générées par IA (AGID) incluent CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake et Deep Fake Detection. Cependant, nous soutenons que les techniques AGID de pointe actuelles sont insuffisantes pour détecter efficacement les images générées par IA contemporaines et préconisons une réévaluation complète de ces méthodes. Nous introduisons le Test de Turing Visuel Contre (VCT^2), un ensemble de référence comprenant environ 130 000 images générées par des modèles texte-image contemporains (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 et Midjourney 6). VCT^2 comprend deux ensembles de stimuli provenant de tweets du compte Twitter du New York Times et de légendes du jeu de données MS COCO. Nous évaluons également les performances des techniques AGID mentionnées ci-dessus sur le référentiel VCT^2, mettant en évidence leur inefficacité dans la détection d'images générées par IA. Alors que les modèles d'IA génératifs d'images continuent d'évoluer, la nécessité d'un cadre quantifiable pour évaluer ces modèles devient de plus en plus critique. Pour répondre à ce besoin, nous proposons l'Indice d'IA Visuelle (V_AI), qui évalue les images générées sous divers angles visuels, y compris la complexité de la texture et la cohérence des objets, établissant ainsi une nouvelle norme pour l'évaluation des modèles d'IA génératifs d'images. Pour encourager la recherche dans ce domaine, nous mettons nos ensembles de données COCO_AI et twitter_AI, disponibles publiquement sur https://huggingface.co/datasets/anonymous1233/COCO_AI et https://huggingface.co/datasets/anonymous1233/twitter_AI.

Génération d'images humaines contrôlables avec des vêtements multiples personnalisés
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Nous présentons BootComp, un nouveau cadre basé sur des modèles de diffusion texte-vers-image pour la génération d'images humaines contrôlables avec plusieurs vêtements de référence. Ici, le principal goulot d'étranglement est l'acquisition de données pour l'entraînement : collecter un ensemble de données à grande échelle d'images de vêtements de référence de haute qualité par sujet humain est assez difficile, c'est-à-dire, idéalement, il est nécessaire de rassembler manuellement chaque photographie de vêtement portée par chaque individu. Pour résoudre ce problème, nous proposons un pipeline de génération de données pour construire un grand ensemble de données synthétiques, composé de paires humain et vêtement multiples, en introduisant un modèle pour extraire toutes les images de vêtements de référence de chaque image humaine. Pour garantir la qualité des données, nous proposons également une stratégie de filtrage pour éliminer les données générées indésirables en mesurant les similarités perceptuelles entre le vêtement présenté dans l'image humaine et le vêtement extrait. Enfin, en utilisant l'ensemble de données synthétiques construit, nous entraînons un modèle de diffusion ayant deux chemins de débruitage parallèles qui utilisent plusieurs images de vêtements comme conditions pour générer des images humaines tout en préservant leurs détails fins. Nous montrons en outre la grande applicabilité de notre cadre en l'adaptant à différents types de génération basée sur des références dans le domaine de la mode, y compris l'essayage virtuel, et la génération d'images humaines contrôlables avec d'autres conditions, par exemple, la pose, le visage, etc.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

ShowUI : Un modèle Vision-Langage-Action pour un Agent Visuel d'Interface Graphique Utilisateur
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl : Renforcement du Contrôle d'Instance pour la Génération Visuelle
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Chemins sur la variété des images : Édition d'images via la génération de vidéos
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Survey : Une enquête exhaustive sur l'évaluation des LLM multimodaux
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Graphique de scène entrelacé pour la génération entrelacée de texte et d'image Évaluation
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent : Génération de croquis séquentielle basée sur le langage
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Repenser la réduction des jetons dans les MLLMs : Vers un paradigme unifié pour une accélération sans entraînement.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

La quantification à faible nombre de bits favorise les LLM sous-entraînés : Lois d'échelle pour les LLM quantifiés avec 100 billions de jetons d'entraînement.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D : Génération et compréhension autoregressive d'objets 3D via un VQVAE 3D multi-échelle
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench : un benchmark exigeant pour les modèles de récompense générative vision-langage
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Apprentissage de représentations 3D à partir de programmes 3D procéduraux
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA : Assistant Vidéo Longue Durée Augmentée par Segmentation pour la Récupération Ciblée et le Routage dans l'Analyse de Vidéos Longues
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

LÉGENDE FINECAPTION : Description d'Images Compositionnelle Axée sur l'Endroit de Votre Choix à Toute Granularité
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter : Animer les CyberAncres pour Vendre Vos Produits via la Génération de Vidéos Interagissant avec des Humains-Objets
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM : Mamba de Vision Efficace avec un Mélangeur d'États Cachés basé sur la Dualité de l'Espace d'États
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect : Vers des Alignements Fine-grained en Contexte entre Molécules et Textes
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Test de Turing de Compteur Visuel (VCT^2) : Découverte des Défis pour la Détection d'Images Générées par l'IA et Introduction de l'Indice d'IA Visuelle (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

Génération d'images humaines contrôlables avec des vêtements multiples personnalisés
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin