papers.description
Les Transformers ont révolutionné l'apprentissage automatique, mais leur fonctionnement interne reste opaque pour beaucoup. Nous présentons Transformer Explainer, un outil de visualisation interactif conçu pour les non-experts afin d'apprendre les Transformers à travers le modèle GPT-2. Notre outil aide les utilisateurs à comprendre les concepts complexes des Transformers en intégrant une vue d'ensemble du modèle et en permettant des transitions fluides entre les niveaux d'abstraction des opérations mathématiques et des structures du modèle. Il exécute une instance en direct de GPT-2 localement dans le navigateur de l'utilisateur, permettant ainsi d'expérimenter avec leurs propres entrées et d'observer en temps réel comment les composants internes et les paramètres du Transformer interagissent pour prédire les tokens suivants. Notre outil ne nécessite aucune installation ni matériel spécial, élargissant ainsi l'accès du public à l'éducation sur les techniques modernes d'IA générative. Notre outil open-source est disponible à l'adresse https://poloclub.github.io/transformer-explainer/. Une démonstration vidéo est disponible à l'adresse https://youtu.be/ECR4oAwocjs.
Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) sont capables de traiter divers types de données tels que les images, le texte et les signaux physiologiques, et peuvent être appliqués dans de nombreux domaines. Dans le domaine médical, les LVLMs ont un potentiel élevé pour offrir une assistance substantielle au diagnostic et au traitement. Avant cela, il est crucial de développer des benchmarks pour évaluer l'efficacité des LVLMs dans diverses applications médicales. Les benchmarks actuels sont souvent construits à partir de littérature académique spécifique, se concentrant principalement sur un seul domaine et manquant de granularités perceptuelles variées. Ainsi, ils font face à des défis spécifiques, notamment une pertinence clinique limitée, des évaluations incomplètes et un guidage insuffisant pour les LVLMs interactifs. Pour répondre à ces limitations, nous avons développé le GMAI-MMBench, le benchmark général d'IA médicale le plus complet à ce jour, avec une structure de données bien catégorisée et une granularité perceptuelle multiple. Il est construit à partir de 285 jeux de données couvrant 39 modalités d'imagerie médicale, 18 tâches cliniques, 18 départements et 4 granularités perceptuelles dans un format de question-réponse visuelle (Visual Question Answering, VQA). De plus, nous avons mis en œuvre une structure arborescente lexicale qui permet aux utilisateurs de personnaliser les tâches d'évaluation, répondant à divers besoins d'évaluation et soutenant considérablement la recherche et les applications de l'IA médicale. Nous avons évalué 50 LVLMs, et les résultats montrent que même le GPT-4o avancé n'atteint qu'une précision de 52 %, indiquant une marge d'amélioration significative. Par ailleurs, nous avons identifié cinq insuffisances clés dans les LVLMs de pointe actuels qui doivent être résolues pour faire progresser le développement de meilleures applications médicales. Nous croyons que le GMAI-MMBench stimulera la communauté à construire la prochaine génération de LVLMs vers l'IA médicale générale (GMAI). Page du projet : https://uni-medical.github.io/GMAI-MMBench.github.io/
La génération de contenu 3D est au cœur de nombreuses applications en infographie, notamment les jeux vidéo, la production cinématographique, la réalité virtuelle et augmentée, etc. Cet article propose une nouvelle approche basée sur l'apprentissage profond pour générer automatiquement des scènes de jeu 3D interactives et jouables, à partir de simples indications de l'utilisateur, comme un croquis dessiné à la main. L'entrée basée sur des croquis offre un moyen naturel et pratique de transmettre l'intention de conception de l'utilisateur dans le processus de création de contenu. Pour contourner le défi du manque de données dans l'apprentissage (c'est-à-dire l'absence de grandes quantités de données d'entraînement de scènes 3D), notre méthode exploite un modèle de diffusion de débruitage 2D pré-entraîné pour générer une image 2D de la scène comme guide conceptuel. Dans ce processus, nous adoptons le mode de projection isométrique pour éliminer les poses de caméra inconnues tout en obtenant la disposition de la scène. À partir de l'image isométrique générée, nous utilisons une méthode de compréhension d'image pré-entraînée pour segmenter l'image en parties significatives, telles que des objets hors sol, des arbres et des bâtiments, et extraire la disposition 2D de la scène. Ces segments et dispositions sont ensuite intégrés dans un moteur de génération de contenu procédural (PCG), comme un moteur de jeu vidéo 3D tel que Unity ou Unreal, pour créer la scène 3D. La scène 3D résultante peut être intégrée de manière transparente dans un environnement de développement de jeu et est immédiatement jouable. Des tests approfondis démontrent que notre méthode peut générer efficacement des scènes de jeu 3D interactives de haute qualité, avec des dispositions qui suivent de près l'intention de l'utilisateur.
L'accessibilité généralisée des grands modèles de langage (LLMs) au grand public a considérablement amplifié la diffusion de textes générés par machine (MGTs). Les avancées dans la manipulation des prompts ont exacerbé la difficulté à déterminer l'origine d'un texte (écrit par un humain vs généré par machine). Cela soulève des inquiétudes concernant l'utilisation abusive potentielle des MGTs, en particulier dans les domaines éducatifs et académiques. Dans cet article, nous présentons LLM-DetectAIve — un système conçu pour la détection fine des MGTs. Il est capable de classer les textes en quatre catégories : écrit par un humain, généré par machine, écrit par machine puis humanisé, et écrit par un humain puis poli par machine. Contrairement aux détecteurs de MGTs précédents qui effectuent une classification binaire, l'introduction de deux catégories supplémentaires dans LLM-DetectAIve offre des insights sur les différents degrés d'intervention des LLMs lors de la création de texte. Cela pourrait être utile dans certains domaines comme l'éducation, où toute intervention des LLMs est généralement interdite. Les expériences montrent que LLM-DetectAIve peut identifier efficacement la paternité du contenu textuel, prouvant son utilité pour renforcer l'intégrité dans l'éducation, l'académie et d'autres domaines. LLM-DetectAIve est accessible publiquement à l'adresse https://huggingface.co/spaces/raj-tomar001/MGT-New. La vidéo décrivant notre système est disponible à l'adresse https://youtu.be/E8eT_bE7k8c.
Le développement de modèles de langage monolingues pour les langues à ressources faibles et intermédiaires continue d'être entravé par la difficulté à obtenir des données d'entraînement de haute qualité. Dans cette étude, nous présentons une nouvelle stratégie de transfert de vocabulaire translingue, la trans-tokenisation, conçue pour relever ce défi et permettre une adaptation linguistique plus efficace. Notre approche se concentre sur l'adaptation d'un modèle de langage monolingue à ressources élevées à une langue cible inconnue en initialisant les embeddings de tokens de la langue cible à l'aide d'une moyenne pondérée des embeddings de tokens sémantiquement similaires de la langue source. Pour cela, nous exploitons une ressource de traduction couvrant à la fois la langue source et la langue cible. Nous validons notre méthode avec les Tweeties, une série de modèles de langage trans-tokenisés, et démontrons leur performance compétitive sur diverses tâches en aval à travers un ensemble petit mais diversifié de langues. De plus, nous introduisons les Hydra LLMs, des modèles dotés de plusieurs têtes de modélisation linguistique et tables d'embeddings interchangeables, qui étendent encore les capacités de notre stratégie de trans-tokenisation. En concevant un Hydra LLM basé sur le modèle multilingue TowerInstruct, nous avons développé un modèle de traduction automatique de pointe pour le tatar, de manière zero-shot, contournant complètement le besoin de données parallèles de haute qualité. Cette avancée est particulièrement significative pour les langues à faibles ressources comme le tatar, où les données parallèles de haute qualité sont difficiles à obtenir. En réduisant les exigences en données et en temps pour l'entraînement de modèles de haute qualité, notre stratégie de trans-tokenisation permet le développement de modèles de langage pour un plus large éventail de langues, en particulier celles avec des ressources limitées. Nous espérons que notre travail inspirera des recherches et collaborations supplémentaires dans le domaine du transfert de vocabulaire translingue et contribuera à l'émancipation des langues à l'échelle mondiale.
Nous proposons une nouvelle méthode, la traduction aller-retour d'instructions, pour construire des données synthétiques de haute qualité ancrées dans la connaissance du monde afin d'aligner les grands modèles de langage (LLM). À partir de documents issus d'un corpus web, nous générons et sélectionnons des instructions synthétiques en utilisant l'approche de rétro-traduction proposée par Li et al. (2023a), puis nous réécrivons les réponses pour en améliorer davantage la qualité en nous basant sur les documents initiaux. Le fine-tuning avec les paires résultantes (instruction rétro-traduite, réponse réécrite) permet d'obtenir des taux de victoire plus élevés sur AlpacaEval que l'utilisation d'autres ensembles de données d'instructions courants tels que Humpback, ShareGPT, Open Orca, Alpaca-GPT4 et Self-instruct. Nous démontrons également que la réécriture des réponses avec un LLM surpasse la distillation directe, et que les deux distributions de texte générées présentent une distinction significative dans l'espace d'embedding. Une analyse plus approfondie montre que nos instructions rétro-traduites sont de meilleure qualité que d'autres sources d'instructions synthétiques, tandis que nos réponses sont plus diversifiées et complexes que celles obtenues par distillation. Globalement, nous constatons que la traduction aller-retour d'instructions combine le meilleur des deux mondes -- en exploitant la diversité et la quantité d'informations disponibles sur le web, tout en garantissant la qualité des réponses, essentielle pour un alignement efficace.
Les modèles de langage multimodaux à hautes performances (MLLMs) dépendent fortement de la qualité des données. Cette étude introduit un nouveau jeu de données nommé Img-Diff, conçu pour améliorer la reconnaissance fine d'images dans les MLLMs en exploitant les insights de l'apprentissage contrastif et de la génération de descriptions de différences d'images. En analysant les différences d'objets entre des images similaires, nous mettons les modèles au défi d'identifier à la fois les composants correspondants et distincts. Nous utilisons le modèle Stable-Diffusion-XL et des techniques avancées d'édition d'images pour créer des paires d'images similaires qui mettent en évidence les remplacements d'objets. Notre méthodologie inclut un Générateur de Zones de Différence pour identifier les différences d'objets, suivi d'un Générateur de Descriptions de Différences pour produire des descriptions détaillées des différences. Le résultat est un jeu de données relativement petit mais de haute qualité, composé d'échantillons de "remplacement d'objets". Nous utilisons ce jeu de données proposé pour affiner des MLLMs de pointe tels que MGM-7B, obtenant des améliorations globales des scores de performance par rapport aux modèles de pointe entraînés avec des jeux de données plus volumineux, dans de nombreuses tâches de différences d'images et de Réponse à des Questions Visuelles. Par exemple, nos modèles entraînés surpassent notablement les modèles de pointe GPT-4V et Gemini sur le benchmark MMVP. En outre, nous explorons des méthodes alternatives pour générer des données de différences d'images via la "suppression d'objets" et menons une évaluation approfondie pour confirmer la diversité, la qualité et la robustesse du jeu de données, présentant plusieurs insights sur la synthèse de tels jeux de données contrastifs. Pour encourager la recherche future et faire progresser le domaine de la synthèse de données multimodales et l'amélioration des capacités fondamentales des MLLMs pour la compréhension d'images, nous publions nos codes et notre jeu de données à l'adresse https://github.com/modelscope/data-juicer/tree/ImgDiff.
La détection de têtes humaines, l'estimation de points clés et l'ajustement de modèles 3D de têtes sont des tâches importantes avec de nombreuses applications. Cependant, les ensembles de données traditionnels du monde réel souffrent souvent de biais, de problèmes de confidentialité et de préoccupations éthiques, et ont été enregistrés dans des environnements de laboratoire, ce qui rend difficile la généralisation des modèles entraînés. Ici, nous présentons VGGHeads -- un ensemble de données synthétique à grande échelle généré à l'aide de modèles de diffusion pour la détection de têtes humaines et l'estimation de maillages 3D. Notre ensemble de données comprend plus d'un million d'images haute résolution, chacune annotée avec des maillages 3D détaillés de têtes, des points de repère faciaux et des boîtes englobantes. En utilisant cet ensemble de données, nous introduisons une nouvelle architecture de modèle capable de détecter les têtes et de reconstruire les maillages de têtes à partir d'une seule image en une seule étape. Grâce à des évaluations expérimentales approfondies, nous démontrons que les modèles entraînés sur nos données synthétiques atteignent des performances solides sur des images réelles. De plus, la polyvalence de notre ensemble de données le rend applicable à un large éventail de tâches, offrant une représentation générale et complète des têtes humaines. Enfin, nous fournissons des informations détaillées sur le pipeline de génération de données synthétiques, permettant sa réutilisation pour d'autres tâches et domaines.
Nous présentons Puppet-Master, un modèle génératif de vidéo interactif qui peut servir de priorité de mouvement pour la dynamique au niveau des parties. Au moment du test, étant donné une seule image et un ensemble parcimonieux de trajectoires de mouvement (c'est-à-dire des glissements), Puppet-Master peut synthétiser une vidéo représentant un mouvement réaliste au niveau des parties, fidèle aux interactions de glissement données. Cela est réalisé en affinant un modèle de diffusion vidéo pré-entraîné à grande échelle, pour lequel nous proposons une nouvelle architecture de conditionnement pour injecter efficacement le contrôle par glissement. Plus important encore, nous introduisons le mécanisme d'attention all-to-first, un remplacement direct des modules d'attention spatiale largement adoptés, qui améliore significativement la qualité de génération en résolvant les problèmes d'apparence et de fond dans les modèles existants. Contrairement aux autres générateurs de vidéo conditionnés par le mouvement qui sont entraînés sur des vidéos en situation réelle et déplacent principalement un objet entier, Puppet-Master est appris à partir d'Objaverse-Animation-HQ, un nouveau jeu de données de clips de mouvement au niveau des parties soigneusement sélectionnés. Nous proposons une stratégie pour filtrer automatiquement les animations sous-optimales et enrichir les rendus synthétiques avec des trajectoires de mouvement significatives. Puppet-Master généralise bien aux images réelles dans diverses catégories et surpasse les méthodes existantes de manière zero-shot sur un benchmark du monde réel. Consultez notre page de projet pour plus de résultats : vgg-puppetmaster.github.io.
L'ancrage du langage naturel dans des environnements physiques 3D est essentiel pour l'avancement de l'intelligence artificielle incarnée. Les ensembles de données et modèles actuels pour l'ancrage visuel 3D se concentrent principalement sur l'identification et la localisation d'objets à partir de descriptions statiques centrées sur les objets. Ces approches ne répondent pas adéquatement à la nature dynamique et séquentielle de l'ancrage orienté tâche nécessaire pour des applications pratiques. Dans ce travail, nous proposons une nouvelle tâche : l'Ancrage Séquentiel Orienté Tâche dans des scènes 3D, où un agent doit suivre des instructions détaillées étape par étape pour accomplir des activités quotidiennes en localisant une séquence d'objets cibles dans des scènes intérieures. Pour faciliter cette tâche, nous introduisons SG3D, un ensemble de données à grande échelle contenant 22 346 tâches avec 112 236 étapes réparties sur 4 895 scènes 3D du monde réel. L'ensemble de données est construit en combinant des scans RGB-D provenant de divers ensembles de données de scènes 3D et un pipeline automatisé de génération de tâches, suivi d'une vérification humaine pour assurer la qualité. Nous avons adapté trois modèles d'ancrage visuel 3D de pointe à la tâche d'ancrage séquentiel et évalué leurs performances sur SG3D. Nos résultats révèlent que si ces modèles performent bien sur les benchmarks traditionnels, ils rencontrent des défis significatifs avec l'ancrage séquentiel orienté tâche, soulignant le besoin de recherches supplémentaires dans ce domaine.
La représentation moléculaire constitue un élément fondamental dans notre compréhension du monde physique. Son importance s'étend des principes de base des réactions chimiques à la conception de nouvelles thérapies et matériaux. Les modèles précédents d'apprentissage automatique moléculaire ont utilisé des chaînes de caractères, des empreintes moléculaires, des caractéristiques globales et des graphes moléculaires simples, qui sont par nature des représentations pauvres en informations. Cependant, à mesure que la complexité des tâches de prédiction augmente, la représentation moléculaire doit encoder des informations de plus haute fidélité. Ce travail introduit une nouvelle approche pour intégrer des informations riches en chimie quantique dans les graphes moléculaires via les effets stéréoélectroniques. Nous montrons que l'ajout explicite d'interactions stéréoélectroniques améliore significativement les performances des modèles d'apprentissage automatique moléculaire. De plus, les représentations enrichies en stéréoélectronique peuvent être apprises et déployées grâce à un flux de travail sur mesure utilisant un double réseau de neurones graphiques, permettant leur application à toute tâche d'apprentissage automatique moléculaire en aval. Enfin, nous montrons que les représentations apprises permettent une évaluation stéréoélectronique aisée de systèmes auparavant inaccessibles, comme des protéines entières, ouvrant ainsi de nouvelles voies dans la conception moléculaire.
Prédire le comportement d'un programme sans exécution est une tâche essentielle et complexe en ingénierie logicielle. Les modèles traditionnels peinent souvent à capturer les dépendances dynamiques et les interactions au sein du code. Cet article présente un nouveau cadre d'apprentissage automatique appelé CodeFlowrepresents, qui prédit la couverture de code et détecte les erreurs d'exécution grâce à l'apprentissage des dépendances dynamiques. En utilisant des graphes de flot de contrôle (CFG), CodeFlowrepresents représente tous les chemins d'exécution possibles et les relations entre les différentes instructions, offrant ainsi une compréhension approfondie du comportement du programme. Il construit des CFG pour illustrer les chemins d'exécution et apprend des représentations vectorielles pour les nœuds des CFG, capturant ainsi les dépendances statiques du flot de contrôle. De plus, il apprend les dépendances dynamiques à travers des traces d'exécution, qui reflètent les impacts entre les instructions pendant l'exécution. Cette approche permet une prédiction précise de la couverture de code et une identification efficace des erreurs d'exécution. Les évaluations empiriques montrent des améliorations significatives dans la précision de la prédiction de la couverture de code et une localisation efficace des erreurs d'exécution, surpassant les modèles actuels.
Lors de l'utilisation de modèles de langage (LMs) pour résoudre des problèmes complexes, les humains peuvent rencontrer des difficultés à comprendre les solutions générées par ces modèles et à corriger celles qui sont défectueuses. Pour les aider dans cette tâche de correction, nous proposons de décomposer automatiquement les solutions complexes en plusieurs éléments plus simples, correspondant à des sous-tâches spécifiques. Nous introduisons un nouvel objectif pour l'apprentissage de la décomposition de tâches, appelé valeur d'assistance (AssistV), qui mesure la faisabilité et la rapidité avec lesquelles les humains peuvent corriger la solution décomposée. Nous collectons un ensemble de données sur les expériences de correction humaine appliquées à différentes solutions décomposées. En utilisant ces données collectées comme exemples contextuels, nous apprenons ensuite à critiquer, affiner et classer les solutions décomposées afin d'améliorer la valeur d'assistance. Nous validons notre méthode sur des problèmes de programmation compétitive : au cours d'une étude humaine de 177 heures, notre méthode permet à des non-experts de résoudre 33,3 % de problèmes supplémentaires, les rend 3,3 fois plus rapides et leur permet de rivaliser avec des experts non assistés.