Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que des cartes de texture de haute qualité sont essentielles pour le rendu réaliste des actifs 3D, peu d'études ont exploré l'apprentissage directement dans l'espace de texture, en particulier sur des ensembles de données à grande échelle. Dans ce travail, nous nous éloignons de l'approche conventionnelle qui repose sur des modèles de diffusion 2D pré-entraînés pour l'optimisation des textures 3D au moment du test. Au lieu de cela, nous nous concentrons sur le problème fondamental de l'apprentissage dans l'espace de texture UV lui-même. Pour la première fois, nous entraînons un grand modèle de diffusion capable de générer directement des cartes de texture haute résolution de manière feed-forward. Pour faciliter l'apprentissage efficace dans les espaces de texture UV haute résolution, nous proposons une architecture de réseau évolutive qui entrelace des convolutions sur les cartes UV avec des couches d'attention sur les nuages de points. En exploitant cette conception architecturale, nous entraînons un modèle de diffusion de 700 millions de paramètres qui peut générer des cartes de texture UV guidées par des instructions textuelles et des images à vue unique. Une fois entraîné, notre modèle prend naturellement en charge diverses applications étendues, notamment l'inpainting de texture guidé par du texte, l'achèvement de texture à vue clairsemée et la synthèse de texture pilotée par du texte. La page du projet se trouve sur http://cvmi-lab.github.io/TEXGen/.
L'inpainting d'images piloté par le sujet est devenu une tâche populaire en édition d'images aux côtés des récentes avancées dans les modèles de diffusion. Les méthodes précédentes se concentrent principalement sur la préservation de l'identité mais peinent à maintenir la capacité d'édition des objets insérés. En réponse, cet article présente DreamMix, un modèle génératif basé sur la diffusion capable d'insérer des objets cibles dans des scènes données à des emplacements spécifiés par l'utilisateur tout en permettant simultanément des modifications arbitraires pilotées par du texte à leurs attributs. En particulier, nous exploitons des modèles d'inpainting fondamentaux avancés et introduisons un cadre d'inpainting local-global désentrelacé pour équilibrer une insertion précise d'objets locaux avec une cohérence visuelle globale efficace. De plus, nous proposons un Mécanisme de Découplage d'Attributs (ADM) et un module de Substitution d'Attributs Textuels (TAS) pour améliorer la diversité et la capacité discriminative de l'orientation des attributs basée sur du texte, respectivement. Des expériences approfondies démontrent que DreamMix équilibre efficacement la préservation de l'identité et la capacité d'édition des attributs à travers divers scénarios d'application, incluant l'insertion d'objets, l'édition d'attributs et l'inpainting d'objets de petite taille. Notre code est publiquement disponible sur https://github.com/mycfhs/DreamMix.
L'inférence avec les Modèles de Langage de Grande Taille (LLMs) basés sur les Transformers sur de longues séquences est à la fois coûteuse et lente en raison de la complexité quadratique du mécanisme d'auto-attention. Nous introduisons Star Attention, une approximation à blocs clairsemés en deux phases qui améliore l'efficacité computationnelle en répartissant l'attention sur plusieurs hôtes tout en minimisant les frais de communication. Dans la première phase, le contexte est traité en utilisant une attention locale par blocs à travers les hôtes, en parallèle. Dans la deuxième phase, les jetons de requête et de réponse s'attendent à tous les jetons précédents mis en cache grâce à une attention globale à la séquence. Star Attention s'intègre parfaitement avec la plupart des LLMs basés sur les Transformers entraînés avec une attention globale, réduisant les besoins en mémoire et le temps d'inférence jusqu'à 11 fois tout en préservant 95 à 100 % de la précision.
La création d'assistants d'interface utilisateur graphique (GUI) offre un potentiel significatif pour améliorer la productivité des flux de travail humains. Alors que la plupart des agents sont basés sur le langage, reposant sur des API propriétaires avec des métadonnées riches en texte (par exemple, HTML ou l'arborescence d'accessibilité), ils montrent des limites dans la perception des éléments visuels de l'interface utilisateur comme le font les humains, soulignant ainsi le besoin d'agents visuels GUI. Dans ce travail, nous développons un modèle vision-langage-action dans le monde numérique, nommé ShowUI, qui présente les innovations suivantes : (i) Sélection de jetons visuels guidée par l'interface utilisateur pour réduire les coûts de calcul en formulant des captures d'écran sous forme de graphe d'interface utilisateur, identifiant de manière adaptative leurs relations redondantes et servant de critère de sélection de jetons pendant les blocs d'auto-attention ; (ii) Diffusion intercalée de vision-langage-action qui unifie de manière flexible les besoins divers dans les tâches GUI, permettant une gestion efficace de l'historique des actions visuelles dans la navigation ou l'appariement de séquences de requêtes-actions multi-tours par capture d'écran pour améliorer l'efficacité de l'entraînement ; (iii) Ensembles de données de suivi d'instructions GUI de petite taille et de haute qualité par une curation minutieuse des données et en utilisant une stratégie de rééchantillonnage pour résoudre les déséquilibres significatifs des types de données. Avec les composants ci-dessus, ShowUI, un modèle 2B léger utilisant 256K de données, atteint une précision solide de 75,1% dans l'ancrage de captures d'écran sans pré-entraînement. Sa sélection de jetons guidée par l'interface utilisateur réduit en outre de 33% les jetons visuels redondants lors de l'entraînement et accélère les performances de 1,4 fois. Les expériences de navigation à travers les environnements web Mind2Web, mobile AITW et en ligne MiniWob soulignent en outre l'efficacité et le potentiel de notre modèle dans l'avancement des agents visuels GUI. Les modèles sont disponibles sur https://github.com/showlab/ShowUI.
Les récentes avancées en matière de retouche d'images, basées sur des modèles de diffusion d'images, ont montré des progrès remarquables. Cependant, des défis importants subsistent, car ces modèles ont souvent du mal à suivre avec précision des instructions de retouche complexes et compromettent fréquemment la fidélité en altérant des éléments clés de l'image d'origine. Parallèlement, la génération de vidéos a fait des progrès remarquables, avec des modèles qui fonctionnent efficacement en tant que simulateurs de monde cohérents et continus. Dans cet article, nous proposons de fusionner ces deux domaines en utilisant des modèles d'images vers vidéos pour la retouche d'images. Nous reformulons la retouche d'images en un processus temporel, en utilisant des modèles vidéo pré-entraînés pour créer des transitions fluides de l'image d'origine à la retouche souhaitée. Cette approche parcourt de manière continue la variété d'images, garantissant des retouches cohérentes tout en préservant les aspects clés de l'image d'origine. Notre approche obtient des résultats de pointe en matière de retouche d'images basée sur du texte, démontrant des améliorations significatives tant en termes de précision de la retouche que de préservation de l'image.
En tant que direction majeure de l'Intelligence Artificielle Générale (IAG), les Grands Modèles de Langage Multimodaux (GMLM) ont suscité un intérêt croissant tant de l'industrie que du milieu universitaire. En s'appuyant sur des GML pré-entraînés, cette famille de modèles développe davantage les capacités de perception et de raisonnement multimodales qui sont impressionnantes, telles que la rédaction de code à partir d'un organigramme ou la création d'histoires basées sur une image. Dans le processus de développement, l'évaluation est cruciale car elle fournit des retours intuitifs et des orientations pour améliorer les modèles. Différente du paradigme traditionnel d'entraînement-évaluation-test qui favorise uniquement une tâche unique comme la classification d'images, la polyvalence des GMLM a stimulé l'émergence de divers nouveaux référentiels et méthodes d'évaluation. Dans cet article, nous visons à présenter une enquête complète sur l'évaluation des GMLM, en discutant de quatre aspects clés : 1) les types de référentiels résumés divisés par les capacités d'évaluation, comprenant les capacités fondamentales, l'auto-analyse du modèle et les applications étendues ; 2) le processus typique de construction de référentiels, comprenant la collecte de données, l'annotation et les précautions ; 3) la manière systématique d'évaluation composée de juges, de métriques et d'outils ; 4) les perspectives pour le prochain référentiel. Ce travail vise à offrir aux chercheurs une compréhension facile de la manière d'évaluer efficacement les GMLM selon les besoins spécifiques et à inspirer de meilleures méthodes d'évaluation, contribuant ainsi à faire avancer la recherche sur les GMLM.
Pour accélérer l'inférence des lourds Modèles de Langage Multimodaux (MLLM), cette étude repense le paysage actuel de la recherche sur la réduction de jetons sans entraînement. Nous regrettons de constater que les composants critiques des méthodes existantes sont étroitement liés, avec leurs interconnexions et effets restant flous pour la comparaison, le transfert et l'expansion. Par conséquent, nous proposons un paradigme unifié "filtrer-corréler-compresser" qui décompose la réduction de jetons en trois étapes distinctes au sein d'un pipeline, en maintenant des objectifs de conception et des éléments cohérents tout en permettant des implémentations uniques. Nous démystifions également les travaux populaires et les intégrons dans notre paradigme pour en montrer l'universalité. Enfin, nous proposons une série de méthodes ancrées dans le paradigme, trouvant un équilibre entre vitesse et précision tout au long des différentes phases de l'inférence. Les résultats expérimentaux sur 10 benchmarks indiquent que nos méthodes peuvent atteindre jusqu'à une réduction de 82,4% des FLOPs avec un impact minimal sur les performances, dépassant simultanément les méthodes sans entraînement de pointe. Notre page de projet se trouve à l'adresse https://ficoco-accelerate.github.io/.
Le croquis sert d'outil polyvalent pour externaliser des idées, permettant une exploration rapide et une communication visuelle qui couvre diverses disciplines. Alors que les systèmes artificiels ont entraîné des avancées substantielles dans la création de contenu et l'interaction homme-machine, capturer la nature dynamique et abstraite du croquis humain reste un défi. Dans ce travail, nous présentons SketchAgent, une méthode de génération de croquis séquentielle pilotée par le langage qui permet aux utilisateurs de créer, modifier et affiner des croquis à travers des interactions dynamiques et conversationnelles. Notre approche ne nécessite aucun entraînement ni aucun ajustement fin. Au lieu de cela, nous exploitons la nature séquentielle et la riche connaissance préalable des modèles de langage multimodaux larges (LLM) prêts à l'emploi. Nous présentons un langage de croquis intuitif, introduit au modèle à travers des exemples en contexte, lui permettant de "dessiner" en utilisant des actions basées sur des chaînes. Celles-ci sont traitées en graphiques vectoriels, puis rendues pour créer un croquis sur un canevas de pixels, qui peut être de nouveau consulté pour d'autres tâches. En dessinant trait par trait, notre agent capture les qualités évolutives et dynamiques intrinsèques au croquis. Nous démontrons que SketchAgent peut générer des croquis à partir de diverses incitations, s'engager dans un dessin piloté par le dialogue et collaborer de manière significative avec les utilisateurs humains.
Nous révélons que la quantification à faible nombre de bits favorise les grands modèles de langage insuffisamment entraînés (LLM) en observant que les modèles de plus grande taille ou avec moins de jetons d'entraînement subissent moins de dégradation induite par la quantification (QiD) lors de l'application d'une quantification à faible nombre de bits, tandis que les modèles plus petits avec un grand nombre de jetons d'entraînement souffrent d'une dégradation significative de la QiD. Pour obtenir des informations plus approfondies sur cette tendance, nous étudions plus de 1500 points de contrôle de LLM quantifiés de différentes tailles et à différents niveaux d'entraînement (insuffisamment entraînés ou entièrement entraînés) dans un environnement contrôlé, en dérivant des lois d'échelle pour comprendre la relation entre la QiD et des facteurs tels que le nombre de jetons d'entraînement, la taille du modèle et la largeur en bits. Avec les lois d'échelle dérivées, nous proposons une nouvelle perspective selon laquelle nous pouvons utiliser la QiD pour mesurer les niveaux d'entraînement d'un LLM et déterminer le nombre de jetons d'entraînement nécessaires pour entraîner pleinement des LLM de différentes tailles. De plus, nous utilisons les lois d'échelle pour prédire les performances de quantification de différents LLM de tailles différentes entraînés avec 100 billions de jetons. Notre projection montre que les performances de quantification à faible nombre de bits des futurs modèles, qui devraient être entraînés avec plus de 100 billions de jetons, pourraient NE PAS être souhaitables. Cela pose un défi potentiel pour la quantification à faible nombre de bits à l'avenir et souligne la nécessité de prendre en compte le niveau d'entraînement d'un modèle lors de l'évaluation de la recherche sur la quantification à faible nombre de bits. Pour faciliter les futures recherches sur ce problème, nous mettons à disposition tous les points de contrôle quantifiés utilisés dans ce travail, soit plus de 1500, sur https://huggingface.co/Xu-Ouyang.
Les modèles autorégressifs ont démontré un succès remarquable dans divers domaines, des grands modèles de langage (LLM) aux grands modèles multimodaux (LMM) et à la génération de contenu 2D, se rapprochant ainsi de l'intelligence artificielle générale (AGI). Malgré ces avancées, l'application des approches autorégressives à la génération et à la compréhension d'objets 3D reste largement inexplorée. Cet article présente Scale AutoRegressive 3D (SAR3D), un nouveau cadre qui exploite un autoencodeur variationnel vectorisé 3D à échelle multiple (VQVAE) pour tokeniser les objets 3D en vue d'une génération autorégressive efficace et d'une compréhension détaillée. En prédisant l'échelle suivante dans une représentation latente à échelle multiple au lieu du jeton suivant unique, SAR3D réduit significativement le temps de génération, réalisant une génération rapide d'objets 3D en seulement 0,82 seconde sur un GPU A6000. De plus, étant donné les jetons enrichis d'informations hiérarchiques 3D, nous affinons un LLM pré-entraîné sur ceux-ci, permettant une compréhension multimodale du contenu 3D. Nos expériences montrent que SAR3D surpasse les méthodes actuelles de génération 3D à la fois en termes de vitesse et de qualité, et permet aux LLM d'interpréter et de légender de manière exhaustive les modèles 3D.
Les modèles de récompense générative vision-langage (VL-GenRMs) jouent un rôle crucial dans l'alignement et l'évaluation des systèmes d'IA multimodaux, mais leur propre évaluation reste peu explorée. Les méthodes d'évaluation actuelles reposent principalement sur des étiquettes de préférence annotées par l'IA à partir de tâches VL traditionnelles, ce qui peut introduire des biais et souvent ne parvient pas à remettre efficacement en question les modèles de pointe. Pour remédier à ces limitations, nous introduisons VL-RewardBench, un banc d'essai complet couvrant des requêtes multimodales générales, la détection d'hallucinations visuelles et des tâches de raisonnement complexes. Grâce à notre pipeline d'annotation assisté par l'IA combinant la sélection d'échantillons avec la vérification humaine, nous avons sélectionné avec soin 1 250 exemples de haute qualité spécifiquement conçus pour sonder les limitations des modèles. Une évaluation complète sur 16 des principaux grands modèles vision-langage démontre l'efficacité de VL-RewardBench en tant que banc d'essai exigeant, où même GPT-4o n'atteint qu'une précision de 65,4 %, et où des modèles open-source de pointe tels que Qwen2-VL-72B peinent à dépasser le hasard. De manière importante, les performances sur VL-RewardBench sont fortement corrélées (r de Pearson > 0,9) avec l'exactitude de MMMU-Pro en utilisant l'échantillonnage Best-of-N avec les VL-GenRMs. Des expériences d'analyse révèlent trois insights critiques pour améliorer les VL-GenRMs : (i) les modèles échouent principalement dans les tâches de perception visuelle de base plutôt que dans les tâches de raisonnement ; (ii) les avantages de l'adaptation à l'échelle au moment de l'inférence varient considérablement en fonction de la capacité du modèle ; et (iii) former les VL-GenRMs à apprendre à juger renforce considérablement la capacité de jugement (+14,7 % de précision pour un VL-GenRM 7B). Nous pensons que VL-RewardBench, associé aux insights expérimentaux, deviendra une ressource précieuse pour faire progresser les VL-GenRMs.
Malgré les avancées des Grands Modèles Multi-modaux, les appliquer à des contenus vidéo longs et non coupés reste difficile en raison des limitations de longueur du contexte et de la charge mémoire substantielle. Ces contraintes entraînent souvent une perte d'informations significative et une pertinence réduite dans les réponses du modèle. Avec la croissance exponentielle des données vidéo sur les plateformes web, la compréhension des vidéos longues est cruciale pour faire progresser l'intelligence généralisée. Dans cet article, nous présentons SALOVA : Segment-Augmented LOng Video Assistant, un nouveau cadre vidéo-LLM conçu pour améliorer la compréhension des contenus vidéo longs grâce à un processus de recherche ciblée. Nous abordons deux principaux défis pour y parvenir : (i) Nous présentons le jeu de données SceneWalk, une collection de haute qualité de 87,8K vidéos longues, chacune étant densément sous-titrée au niveau du segment pour permettre aux modèles de capturer la continuité des scènes et de maintenir un contexte descriptif riche. (ii) Nous développons des conceptions architecturales robustes intégrant un mécanisme de routage dynamique et un projecteur spatio-temporel pour récupérer et traiter efficacement les segments vidéo pertinents en fonction des requêtes des utilisateurs. Notre cadre atténue les limitations des actuels vidéo-LMMs en permettant l'identification précise et la récupération des segments vidéo pertinents en réponse aux requêtes, améliorant ainsi la pertinence contextuelle des réponses générées. À travers des expériences approfondies, SALOVA démontre une capacité améliorée à traiter des vidéos longues complexes, montrant une capacité significative à maintenir l'intégrité contextuelle à travers des séquences étendues.
L'apprentissage auto-supervisé s'est imposé comme une approche prometteuse pour acquérir des représentations 3D transférables à partir de nuages de points 3D non étiquetés. Contrairement aux images 2D, largement accessibles, l'acquisition d'actifs 3D nécessite une expertise spécialisée ou un équipement de numérisation 3D professionnel, ce qui rend difficile l'évolutivité et soulève des préoccupations en matière de droits d'auteur. Pour relever ces défis, nous proposons d'apprendre des représentations 3D à partir de programmes 3D procéduraux qui génèrent automatiquement des formes 3D à l'aide de primitives simples et d'augmentations. Remarquablement, malgré l'absence de contenu sémantique, les représentations 3D apprises à partir de cet ensemble de données synthétisées sont à la hauteur des représentations de pointe apprises à partir de modèles 3D reconnaissables sémantiquement (par exemple, des avions) dans diverses tâches 3D ultérieures, notamment la classification de formes, la segmentation de parties et l'achèvement de nuages de points masqués. Notre analyse suggère en outre que les méthodes actuelles d'apprentissage auto-supervisé capturent principalement les structures géométriques plutôt que les sémantiques de haut niveau.
L'avènement des grands Modèles Vision-Texte (VLM) a considérablement fait progresser les tâches multimodales, permettant un raisonnement plus sophistiqué et précis à travers diverses applications, y compris la légende d'images et de vidéos, la réponse à des questions visuelles et la recherche cross-modale. Malgré leurs capacités supérieures, les VLM rencontrent des difficultés avec la perception des informations de composition régionale d'image à grain fin. En particulier, ils ont du mal à aligner avec précision les masques de segmentation avec les sémantiques correspondantes et à décrire précisément les aspects compositionnels des régions mentionnées. Cependant, la compositionnalité - la capacité à comprendre et générer de nouvelles combinaisons d'éléments visuels et textuels connus - est cruciale pour faciliter un raisonnement cohérent et une compréhension à travers les modalités par les VLM. Pour résoudre ce problème, nous proposons FINECAPTION, un nouveau VLM capable de reconnaître des masques arbitraires en tant qu'entrées référentielles et de traiter des images haute résolution pour la légende compositionnelle d'images à différents niveaux de granularité. Pour soutenir cette entreprise, nous introduisons COMPOSITIONCAP, un nouvel ensemble de données pour la légende d'images régionales compositionnelles multi-granulaires, qui présente la tâche de légende d'images régionales consciente des attributs compositionnels. Des résultats empiriques démontrent l'efficacité de notre modèle proposé par rapport à d'autres VLM de pointe. De plus, nous analysons les capacités des VLM actuels à reconnaître divers stimuli visuels pour la légende d'images régionales compositionnelles, mettant en évidence les domaines à améliorer dans la conception et l'entraînement des VLM.
La génération automatique de vidéos de promotion de produits de style ancre présente des opportunités prometteuses dans le commerce en ligne, la publicité et l'engagement des consommateurs. Cependant, cela reste une tâche difficile malgré les avancées significatives dans la génération de vidéos humaines guidées par la pose. Pour relever ce défi, nous identifions l'intégration des interactions humain-objet (HOI) dans la génération de vidéos humaines guidées par la pose comme un problème central. À cette fin, nous présentons AnchorCrafter, un nouveau système basé sur la diffusion conçu pour générer des vidéos 2D mettant en scène un humain cible et un objet personnalisé, atteignant une haute fidélité visuelle et des interactions contrôlables. Plus précisément, nous proposons deux innovations clés : la perception de l'apparence HOI, qui améliore la reconnaissance de l'apparence de l'objet à partir de perspectives multi-vues arbitraires et démêle l'apparence de l'objet et de l'humain, et l'injection de mouvement HOI, qui permet des interactions complexes entre humain et objet en surmontant les défis liés à la condition de trajectoire de l'objet et à la gestion de l'inter-occlusion. De plus, nous introduisons la perte de rééquilibrage de région HOI, un objectif d'entraînement qui améliore l'apprentissage des détails de l'objet. Des expériences approfondies démontrent que notre système proposé surpasse les méthodes existantes en préservant l'apparence et la conscience de la forme de l'objet, tout en maintenant simultanément la cohérence dans l'apparence et le mouvement humains. Page du projet : https://cangcz.github.io/Anchor-Crafter/
Pour le déploiement de réseaux neuronaux dans des environnements aux ressources limitées, des travaux antérieurs ont construit des architectures légères avec des convolutions et de l'attention pour capturer respectivement les dépendances locales et globales. Récemment, le modèle d'espace d'états a émergé comme une interaction de jeton global efficace avec son coût computationnel linéaire favorable en fonction du nombre de jetons. Cependant, les architectures de vision efficaces construites avec SSM ont été moins explorées. Dans cet article, nous introduisons Efficient Vision Mamba (EfficientViM), une architecture novatrice construite sur la dualité de l'espace d'états basée sur le mélangeur d'états cachés (HSM-SSD) qui capture efficacement les dépendances globales avec un coût computationnel réduit. Dans la couche HSM-SSD, nous redessinons la couche SSD précédente pour permettre l'opération de mélange de canaux au sein des états cachés. De plus, nous proposons une fusion d'états cachés multi-étapes pour renforcer davantage la puissance de représentation des états cachés, et fournissons la conception atténuant le goulot d'étranglement causé par les opérations liées à la mémoire. En conséquence, la famille EfficientViM atteint un nouvel équilibre vitesse-précision de pointe sur ImageNet-1k, offrant jusqu'à une amélioration de performance de 0,7% par rapport au deuxième meilleur modèle SHViT avec une vitesse plus rapide. De plus, nous observons des améliorations significatives en termes de débit et de précision par rapport aux travaux antérieurs, lors de la mise à l'échelle des images ou de l'utilisation de l'entraînement par distillation. Le code est disponible sur https://github.com/mlvlab/EfficientViM.
La découverte de molécules est un domaine de recherche essentiel, ayant un impact sur tout, des médicaments que nous prenons aux matériaux que nous utilisons. Récemment, les Grands Modèles de Langage (GML) ont été largement adoptés dans la compréhension et la génération de molécules, cependant, les alignements entre les molécules et leurs légendes correspondantes restent un défi significatif. Les efforts précédents considéraient souvent la molécule comme une chaîne SMILES générale ou un graphe moléculaire, négligeant les alignements détaillés entre les sous-structures moléculaires et les phrases textuelles descriptives, qui sont essentiels pour des prédictions précises et explicables. Dans ce cas, nous introduisons MolReFlect, un nouveau cadre enseignant-élève conçu pour effectuer contextuellement les alignements molécule-légende de manière détaillée. Notre approche exploite initialement un plus grand enseignant GML pour étiqueter les alignements détaillés en extrayant directement des phrases critiques des légendes de molécules ou des chaînes SMILES et en les appliquant aux sous-structures ou caractéristiques correspondantes. Pour affiner ces alignements, nous proposons une Réflexion Sélective en Contexte, qui récupère les résultats d'extraction précédents en tant qu'exemples de contexte pour que l'enseignant GML réfléchisse et permet à un plus petit élève GML de choisir parmi la réflexion en contexte et les résultats d'extraction précédents. Enfin, nous améliorons le processus d'apprentissage de l'élève GML grâce à un Accord en Chaîne de Pensée en Contexte pour l'Accord Moléculaire, intégrant les alignements détaillés et les processus de raisonnement dans le format de Chaîne de Pensée. Nos résultats expérimentaux démontrent que MolReFlect permet aux GML comme Mistral-7B de surpasser significativement les baselines précédentes, atteignant des performances de pointe sur l'ensemble de données ChEBI-20. Cette avancée non seulement améliore les capacités génératives des GML dans la tâche de traduction molécule-légende, mais contribue également à un cadre plus explicatif.
Nous présentons BootComp, un nouveau cadre basé sur des modèles de diffusion texte-vers-image pour la génération d'images humaines contrôlables avec plusieurs vêtements de référence. Ici, le principal goulot d'étranglement est l'acquisition de données pour l'entraînement : collecter un ensemble de données à grande échelle d'images de vêtements de référence de haute qualité par sujet humain est assez difficile, c'est-à-dire, idéalement, il est nécessaire de rassembler manuellement chaque photographie de vêtement portée par chaque individu. Pour résoudre ce problème, nous proposons un pipeline de génération de données pour construire un grand ensemble de données synthétiques, composé de paires humain et vêtement multiples, en introduisant un modèle pour extraire toutes les images de vêtements de référence de chaque image humaine. Pour garantir la qualité des données, nous proposons également une stratégie de filtrage pour éliminer les données générées indésirables en mesurant les similarités perceptuelles entre le vêtement présenté dans l'image humaine et le vêtement extrait. Enfin, en utilisant l'ensemble de données synthétiques construit, nous entraînons un modèle de diffusion ayant deux chemins de débruitage parallèles qui utilisent plusieurs images de vêtements comme conditions pour générer des images humaines tout en préservant leurs détails fins. Nous montrons en outre la grande applicabilité de notre cadre en l'adaptant à différents types de génération basée sur des références dans le domaine de la mode, y compris l'essayage virtuel, et la génération d'images humaines contrôlables avec d'autres conditions, par exemple, la pose, le visage, etc.
La prolifération des techniques d'IA pour la génération d'images, associée à leur accessibilité croissante, a soulevé des préoccupations importantes quant au potentiel de détournement de ces images pour propager des informations erronées. Les récents méthodes de détection d'images générées par IA (AGID) incluent CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake et Deep Fake Detection. Cependant, nous soutenons que les techniques AGID de pointe actuelles sont insuffisantes pour détecter efficacement les images générées par IA contemporaines et préconisons une réévaluation complète de ces méthodes. Nous introduisons le Test de Turing Visuel Contre (VCT^2), un ensemble de référence comprenant environ 130 000 images générées par des modèles texte-image contemporains (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 et Midjourney 6). VCT^2 comprend deux ensembles de stimuli provenant de tweets du compte Twitter du New York Times et de légendes du jeu de données MS COCO. Nous évaluons également les performances des techniques AGID mentionnées ci-dessus sur le référentiel VCT^2, mettant en évidence leur inefficacité dans la détection d'images générées par IA. Alors que les modèles d'IA génératifs d'images continuent d'évoluer, la nécessité d'un cadre quantifiable pour évaluer ces modèles devient de plus en plus critique. Pour répondre à ce besoin, nous proposons l'Indice d'IA Visuelle (V_AI), qui évalue les images générées sous divers angles visuels, y compris la complexité de la texture et la cohérence des objets, établissant ainsi une nouvelle norme pour l'évaluation des modèles d'IA génératifs d'images. Pour encourager la recherche dans ce domaine, nous mettons nos ensembles de données COCO_AI et twitter_AI, disponibles publiquement sur https://huggingface.co/datasets/anonymous1233/COCO_AI et https://huggingface.co/datasets/anonymous1233/twitter_AI.