papers.description
Les Transformers sont récemment apparus comme un outil puissant pour l'apprentissage de représentations visuelles. Dans cet article, nous identifions et caractérisons des artefacts dans les cartes de caractéristiques des réseaux ViT supervisés et auto-supervisés. Ces artefacts correspondent à des tokens de norme élevée apparaissant principalement dans les zones d'arrière-plan peu informatives des images lors de l'inférence, et qui sont réutilisés pour des calculs internes. Nous proposons une solution simple mais efficace basée sur l'ajout de tokens supplémentaires à la séquence d'entrée du Vision Transformer pour remplir ce rôle. Nous montrons que cette solution résout entièrement ce problème pour les modèles supervisés et auto-supervisés, établit un nouvel état de l'art pour les modèles visuels auto-supervisés sur les tâches de prédiction visuelle dense, permet aux méthodes de découverte d'objets d'utiliser des modèles plus grands, et surtout conduit à des cartes de caractéristiques et des cartes d'attention plus lisses pour le traitement visuel en aval.
Nous présentons Any-Modality Augmented Language Model (AnyMAL), un modèle unifié capable de raisonner sur des signaux d'entrée de diverses modalités (c'est-à-dire texte, image, vidéo, audio, capteur de mouvement IMU) et de générer des réponses textuelles. AnyMAL hérite des puissantes capacités de raisonnement basées sur le texte des modèles de langage de pointe, notamment LLaMA-2 (70B), et convertit les signaux spécifiques à chaque modalité dans un espace textuel commun grâce à un module d'alignement pré-entraîné. Pour renforcer davantage les capacités du modèle de langage multimodal, nous affinons le modèle avec un ensemble d'instructions multimodales collectées manuellement pour couvrir des sujets et des tâches variés au-delà des simples questions-réponses. Nous menons une analyse empirique complète comprenant des évaluations humaines et automatiques, et démontrons des performances de pointe sur diverses tâches multimodales.
Les récents progrès dans la création de contenu 3D reposent principalement sur la génération 3D basée sur l'optimisation via l'échantillonnage par distillation de score (SDS). Bien que des résultats prometteurs aient été obtenus, ces méthodes souffrent souvent d'une optimisation lente par échantillon, limitant leur utilisation pratique. Dans cet article, nous proposons DreamGaussian, un nouveau cadre de génération de contenu 3D qui allie à la fois efficacité et qualité. Notre idée clé est de concevoir un modèle génératif de splatting de Gaussiennes 3D accompagné d'une extraction de maillage et d'un raffinement de texture dans l'espace UV. Contrairement à l'élagage d'occupation utilisé dans les champs de radiance neuronaux, nous démontrons que la densification progressive des Gaussiennes 3D converge significativement plus rapidement pour les tâches de génération 3D. Pour améliorer davantage la qualité de la texture et faciliter les applications en aval, nous introduisons un algorithme efficace pour convertir les Gaussiennes 3D en maillages texturés et appliquons une étape de réglage fin pour affiner les détails. Des expériences approfondies démontrent la supériorité en termes d'efficacité et la qualité de génération compétitive de notre approche proposée. Notamment, DreamGaussian produit des maillages texturés de haute qualité en seulement 2 minutes à partir d'une image à vue unique, atteignant une accélération d'environ 10 fois par rapport aux méthodes existantes.
Les grands modèles de langage (LLM) ont révolutionné le domaine de l'intelligence artificielle, permettant des tâches de traitement du langage naturel qui étaient auparavant considérées comme exclusivement humaines. Dans ce travail, nous présentons Qwen, la première version de notre série de grands modèles de langage. Qwen est une série complète de modèles de langage qui englobe des modèles distincts avec des nombres de paramètres variés. Elle inclut Qwen, les modèles de langage de base pré-entraînés, et Qwen-Chat, les modèles de conversation affinés avec des techniques d'alignement humain. Les modèles de langage de base démontrent systématiquement des performances supérieures sur une multitude de tâches en aval, et les modèles de conversation, en particulier ceux entraînés à l'aide de l'apprentissage par renforcement à partir de retours humains (RLHF), sont très compétitifs. Les modèles de conversation possèdent des capacités avancées d'utilisation d'outils et de planification pour créer des applications d'agents, affichant des performances impressionnantes même par rapport à des modèles plus grands sur des tâches complexes comme l'utilisation d'un interpréteur de code. De plus, nous avons développé des modèles spécialisés en codage, Code-Qwen et Code-Qwen-Chat, ainsi que des modèles axés sur les mathématiques, Math-Qwen-Chat, qui sont construits sur des modèles de langage de base. Ces modèles démontrent des performances significativement améliorées par rapport aux modèles open-source, et se situent légèrement en retrait par rapport aux modèles propriétaires.
Dans cet article, nous présentons GSGEN, une méthode innovante de génération de texte vers 3D basée sur le Gaussian Splatting, permettant de créer des objets 3D de haute qualité. Les approches précédentes souffrent d'une géométrie imprécise et d'une fidélité limitée en raison de l'absence de connaissances préalables en 3D et d'une représentation adéquate. Nous exploitons le Gaussian Splatting 3D, une représentation récente de pointe, pour pallier ces lacunes en tirant parti de sa nature explicite qui permet l'intégration de connaissances 3D. Concrètement, notre méthode adopte une stratégie d'optimisation progressive, comprenant une étape d'optimisation de la géométrie et une étape de raffinement de l'apparence. Lors de l'optimisation de la géométrie, une représentation grossière est établie en s'appuyant sur une connaissance préalable de la géométrie 3D ainsi que sur la perte SDS 2D classique, garantissant une forme approximative cohérente en 3D. Par la suite, les Gaussiennes obtenues subissent un raffinement itératif pour enrichir les détails. À cette étape, nous augmentons le nombre de Gaussiennes via une densification basée sur la compacité, améliorant ainsi la continuité et la fidélité. Grâce à ces choix de conception, notre approche permet de générer du contenu 3D avec des détails fins et une géométrie plus précise. Des évaluations approfondies démontrent l'efficacité de notre méthode, en particulier pour capturer les composantes haute fréquence. Les résultats vidéo sont disponibles à l'adresse https://gsgen3d.github.io. Notre code est accessible sur https://github.com/gsgen3d/gsgen.
Nous présentons une série de modèles de langage à contexte étendu (LLMs) prenant en charge des fenêtres de contexte efficaces allant jusqu'à 32 768 tokens. Notre série de modèles est construite par un pré-entraînement continu à partir de Llama 2, avec des séquences d'entraînement plus longues et sur un jeu de données où les textes longs sont suréchantillonnés. Nous effectuons une évaluation approfondie sur la modélisation du langage, des tâches de sondage de contexte synthétique et une large gamme de benchmarks de recherche. Sur ces benchmarks, nos modèles obtiennent des améliorations constantes sur la plupart des tâches régulières et des améliorations significatives sur les tâches à contexte étendu par rapport à Llama 2. Notamment, grâce à une procédure d'ajustement par instruction économique ne nécessitant pas de données d'instructions longues annotées par des humains, la variante 70B dépasse déjà les performances globales de gpt-3.5-turbo-16k sur une série de tâches à contexte étendu. Parallèlement à ces résultats, nous fournissons une analyse approfondie des composants individuels de notre méthode. Nous explorons les encodages de position de Llama et discutons de ses limites dans la modélisation des dépendances longues. Nous examinons également l'impact de divers choix de conception dans le processus de pré-entraînement, notamment le mélange de données et le curriculum d'entraînement des longueurs de séquence. Nos expériences d'ablation suggèrent que la présence abondante de textes longs dans le jeu de données de pré-entraînement n'est pas la clé pour obtenir de solides performances, et nous vérifions empiriquement que le pré-entraînement continu à contexte étendu est plus efficace et tout aussi performant qu'un pré-entraînement à partir de zéro avec des séquences longues.
Nous visons à aborder un problème important mais peu étudié dans l'industrie de l'anime, à savoir l'interpolation des dessins animés en lignes. L'interpolation consiste à générer des images intermédiaires entre deux dessins en noir et blanc, un processus long et coûteux qui pourrait bénéficier d'une automatisation. Cependant, les méthodes existantes d'interpolation d'images, qui reposent sur l'appariement et la déformation d'images raster entières, ne conviennent pas à l'interpolation de lignes et produisent souvent des artefacts de flou qui endommagent les structures complexes des lignes. Pour préserver la précision et les détails des dessins en lignes, nous proposons une nouvelle approche, AnimeInbet, qui géométrise les dessins raster en graphes de points d'extrémité et reformule la tâche d'interpolation comme un problème de fusion de graphes avec repositionnement des sommets. Notre méthode peut capturer efficacement la sparsité et la structure unique des dessins en lignes tout en préservant les détails lors de l'interpolation. Cela est rendu possible grâce à nos nouveaux modules, à savoir l'encastrement géométrique des sommets, un Transformer de correspondance des sommets, un mécanisme efficace de repositionnement des sommets et un prédicteur de visibilité. Pour entraîner notre méthode, nous introduisons MixamoLine240, un nouveau jeu de données de dessins en lignes avec une vectorisation et des étiquettes d'appariement de référence. Nos expériences démontrent qu'AnimeInbet synthétise des dessins intermédiaires en lignes de haute qualité, nets et complets, surpassant les méthodes existantes quantitativement et qualitativement, en particulier dans les cas de mouvements importants. Les données et le code sont disponibles à l'adresse https://github.com/lisiyao21/AnimeInbet.
Le pré-entraînement contrastif texte-image (CLIP) est une approche qui a fait progresser la recherche et les applications en vision par ordinateur, alimentant les systèmes de reconnaissance modernes et les modèles génératifs. Nous pensons que l'ingrédient principal du succès de CLIP réside dans ses données, et non dans l'architecture du modèle ou l'objectif de pré-entraînement. Cependant, CLIP ne fournit que des informations très limitées sur ses données et sur la manière dont elles ont été collectées, ce qui a conduit à des travaux visant à reproduire les données de CLIP en les filtrant à l'aide de ses paramètres de modèle. Dans ce travail, nous souhaitons révéler l'approche de curation des données de CLIP et, dans notre quête pour la rendre accessible à la communauté, nous introduisons le pré-entraînement texte-image avec curation de métadonnées (MetaCLIP). MetaCLIP prend un pool de données brutes et des métadonnées (dérivées des concepts de CLIP) et produit un sous-ensemble équilibré selon la distribution des métadonnées. Notre étude expérimentale isole rigoureusement le modèle et les paramètres d'entraînement, en se concentrant uniquement sur les données. MetaCLIP appliqué à CommonCrawl avec 400 millions de paires image-texte surpasse les données de CLIP sur plusieurs benchmarks standards. En classification zéro-shot sur ImageNet, MetaCLIP atteint une précision de 70,8 %, dépassant les 68,3 % de CLIP sur les modèles ViT-B. En passant à 1 milliard de données, tout en conservant le même budget d'entraînement, on atteint 72,4 %. Nos observations se vérifient pour différentes tailles de modèles, comme en témoigne ViT-H qui atteint 80,5 %, sans aucune fioriture. Le code de curation et la distribution des données d'entraînement sur les métadonnées sont disponibles à l'adresse https://github.com/facebookresearch/MetaCLIP.
Les classificateurs basés sur des modèles vision-langage tels que CLIP ont démontré des performances remarquables en classification d'images en mode zero-shot sur un large éventail de tâches. Les travaux antérieurs ont exploré différentes méthodes pour créer automatiquement des ensembles de descripteurs pour chaque classe à partir de modèles de prompts, allant de modèles conçus manuellement à des modèles obtenus à partir d'un grand modèle de langage, en passant par des modèles construits à partir de mots et de caractères aléatoires. En revanche, la dérivation de classificateurs zero-shot à partir des descripteurs de classe encodés respectifs est restée pratiquement inchangée, c'est-à-dire : classer dans la classe qui maximise la similarité cosinus entre ses descripteurs de classe encodés moyennés et l'image encodée. Cependant, attribuer un poids égal à tous les descripteurs de classe peut être sous-optimal lorsque certains descripteurs correspondent mieux aux indices visuels d'une image donnée que d'autres. Dans ce travail, nous proposons AutoCLIP, une méthode pour auto-ajuster les classificateurs zero-shot. AutoCLIP attribue à chaque modèle de prompt des poids par image, qui sont dérivés des statistiques de similarité entre les descripteurs de classe et l'image au moment de l'inférence. AutoCLIP est entièrement non supervisé, a une très faible surcharge et peut être facilement implémenté en quelques lignes de code. Nous montrons que pour un large éventail de modèles vision-langage, de jeux de données et de modèles de prompts, AutoCLIP surpasse les méthodes de référence de manière constante et jusqu'à 3 points de pourcentage en précision.
La prévision fiable du comportement futur des agents routiers est un élément essentiel pour une planification sécurisée dans les véhicules autonomes. Ici, nous représentons les trajectoires continues comme des séquences de tokens de mouvement discrets et formulons la prédiction de mouvement multi-agent comme une tâche de modélisation du langage dans ce domaine. Notre modèle, MotionLM, offre plusieurs avantages : Premièrement, il ne nécessite pas d'ancres ni d'optimisation explicite de variables latentes pour apprendre des distributions multimodales. Au lieu de cela, nous exploitons un objectif unique de modélisation du langage, maximisant la probabilité logarithmique moyenne sur les tokens de séquence. Deuxièmement, notre approche contourne les heuristiques d'interaction post-hoc où la génération de trajectoires individuelles des agents est effectuée avant le calcul interactif. Au contraire, MotionLM produit des distributions conjointes sur les futurs interactifs des agents en un seul processus de décodage autorégressif. De plus, la factorisation séquentielle du modèle permet des déploiements conditionnels temporellement causaux. L'approche proposée établit de nouvelles performances de pointe pour la prédiction de mouvement multi-agent sur le Waymo Open Motion Dataset, se classant première sur le classement du défi interactif.
Les récents progrès dans le domaine de la génération d'images ont donné naissance à des modèles de "outpainting" et "inpainting" capables de produire un contenu visuel de haute qualité et plausible dans des régions inconnues. Cependant, le contenu que ces modèles hallucinent est nécessairement inauthentique, car ils manquent de contexte suffisant sur la scène réelle. Dans ce travail, nous proposons RealFill, une nouvelle approche générative pour la complétion d'images qui remplit les régions manquantes d'une image avec le contenu qui aurait dû s'y trouver. RealFill est un modèle d'inpainting génératif personnalisé à l'aide de seulement quelques images de référence d'une scène. Ces images de référence n'ont pas besoin d'être alignées avec l'image cible et peuvent être prises avec des points de vue, des conditions d'éclairage, des ouvertures de caméra ou des styles d'image radicalement différents. Une fois personnalisé, RealFill est capable de compléter une image cible avec un contenu visuellement convaincant et fidèle à la scène originale. Nous évaluons RealFill sur un nouveau benchmark de complétion d'images couvrant un ensemble de scénarios divers et difficiles, et constatons qu'il surpasse largement les approches existantes. Consultez plus de résultats sur notre page de projet : https://realfill.github.io
Avec l'avancée rapide des grands modèles de langage (LLM), il existe un besoin pressant d'une suite d'évaluation complète pour mesurer leurs capacités et leurs limites. Les classements existants des LLM font souvent référence aux scores rapportés dans d'autres articles sans paramètres et invites cohérents, ce qui peut involontairement encourager la sélection de paramètres et d'invites favoris pour obtenir de meilleurs résultats. Dans ce travail, nous présentons GPT-Fathom, une suite d'évaluation open-source et reproductible pour les LLM, construite sur OpenAI Evals. Nous évaluons systématiquement plus de 10 LLM leaders ainsi que les modèles hérités d'OpenAI sur plus de 20 benchmarks soigneusement sélectionnés, couvrant 7 catégories de capacités, le tout dans des paramètres alignés. Notre étude rétrospective sur les modèles antérieurs d'OpenAI offre des insights précieux sur le chemin évolutif de GPT-3 à GPT-4. Actuellement, la communauté est impatiente de comprendre comment GPT-3 s'est progressivement amélioré pour devenir GPT-4, y compris des détails techniques tels que l'impact de l'ajout de données de code sur la capacité de raisonnement des LLM, les aspects des capacités des LLM qui peuvent être améliorés par SFT et RLHF, le coût de l'alignement, etc. Notre analyse éclaire nombre de ces questions, visant à améliorer la transparence des LLM avancés.
Nous considérons la tâche de générer des vidéos diversifiées et réalistes guidées par des échantillons audio naturels provenant d'une grande variété de classes sémantiques. Pour cette tâche, les vidéos doivent être alignées à la fois globalement et temporellement avec l'audio d'entrée : globalement, l'audio d'entrée est sémantiquement associé à l'ensemble de la vidéo générée, et temporellement, chaque segment de l'audio d'entrée est associé à un segment correspondant de cette vidéo. Nous utilisons un modèle existant de génération de vidéos conditionné par le texte ainsi qu'un modèle encodeur audio pré-entraîné. La méthode proposée repose sur un réseau adaptateur léger, qui apprend à mapper la représentation basée sur l'audio à la représentation d'entrée attendue par le modèle de génération de texte-à-vidéo. Ainsi, elle permet également la génération de vidéos conditionnées par le texte, par l'audio et, pour la première fois à notre connaissance, par les deux simultanément. Nous validons notre méthode de manière approfondie sur trois ensembles de données démontrant une diversité sémantique significative des échantillons audio-vidéo, et nous proposons en outre une nouvelle métrique d'évaluation (AV-Align) pour évaluer l'alignement des vidéos générées avec les échantillons audio d'entrée. AV-Align est basée sur la détection et la comparaison des pics d'énergie dans les deux modalités. Par rapport aux approches récentes de l'état de l'art, notre méthode génère des vidéos mieux alignées avec le son d'entrée, tant sur le plan du contenu que de l'axe temporel. Nous montrons également que les vidéos produites par notre méthode présentent une qualité visuelle supérieure et sont plus diversifiées.
Pour que les robots puissent accomplir une grande variété de tâches, ils ont besoin d'une représentation 3D du monde qui soit sémantiquement riche, tout en étant compacte et efficace pour la perception et la planification axées sur les tâches. Les approches récentes ont tenté d'exploiter les caractéristiques des grands modèles vision-langage pour encoder la sémantique dans les représentations 3D. Cependant, ces approches ont tendance à produire des cartes avec des vecteurs de caractéristiques par point, qui ne s'adaptent pas bien aux environnements plus vastes, et ne contiennent pas de relations spatiales sémantiques entre les entités de l'environnement, qui sont utiles pour la planification en aval. Dans ce travail, nous proposons ConceptGraphs, une représentation graphique structurée en vocabulaire ouvert pour les scènes 3D. ConceptGraphs est construit en exploitant des modèles de base 2D et en fusionnant leur sortie en 3D par association multi-vues. Les représentations résultantes généralisent à de nouvelles classes sémantiques, sans qu'il soit nécessaire de collecter de grands ensembles de données 3D ou de fine-tuner les modèles. Nous démontrons l'utilité de cette représentation à travers plusieurs tâches de planification en aval, spécifiées par des invites abstraites (langagières) et nécessitant un raisonnement complexe sur des concepts spatiaux et sémantiques. (Page du projet : https://concept-graphs.github.io/ Vidéo explicative : https://youtu.be/mRhNkQwRYnc)
Le succès des modèles de langage, en particulier des architectures basées sur les transformateurs, s'est étendu à d'autres domaines, donnant naissance à des "modèles de langage scientifiques" qui opèrent sur des petites molécules, des protéines ou des polymères. En chimie, les modèles de langage contribuent à accélérer le cycle de découverte moléculaire, comme en témoignent les résultats prometteurs récents dans la découverte de médicaments à un stade précoce. Ici, nous passons en revue le rôle des modèles de langage dans la découverte moléculaire, en soulignant leur force dans la conception de novo de médicaments, la prédiction de propriétés et la chimie des réactions. Nous mettons en avant des ressources logicielles open-source précieuses, abaissant ainsi le seuil d'entrée dans le domaine de la modélisation de langage scientifique. Enfin, nous esquissons une vision pour la conception moléculaire future qui combine une interface de chatbot avec un accès à des outils de chimie computationnelle. Notre contribution sert de ressource précieuse pour les chercheurs, les chimistes et les passionnés d'IA intéressés à comprendre comment les modèles de langage peuvent et seront utilisés pour accélérer la découverte chimique.
Dans ce travail, nous présentons CCEdit, un cadre polyvalent conçu pour relever les défis de l'édition vidéo créative et contrôlable. CCEdit répond à un large éventail de besoins d'édition des utilisateurs et permet un contrôle créatif accru grâce à une approche innovante qui découple la structure et l'apparence de la vidéo. Nous exploitons l'architecture fondamentale de ControlNet pour préserver l'intégrité structurelle, tout en intégrant de manière transparente des modules temporels adaptables compatibles avec les techniques de personnalisation de pointe pour la génération d'images à partir de texte, telles que DreamBooth et LoRA. De plus, nous introduisons l'édition vidéo conditionnée par référence, permettant aux utilisateurs d'exercer un contrôle créatif précis sur l'édition vidéo grâce au processus plus gérable de l'édition d'images clés. Nos évaluations expérimentales approfondies confirment la fonctionnalité exceptionnelle et les capacités d'édition du cadre CCEdit proposé. Une vidéo de démonstration est disponible à l'adresse suivante : https://www.youtube.com/watch?v=UQw4jq-igN4.