Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les couches d'auto-attention coûteuses dans les Transformers modernes nécessitent une mémoire et des calculs quadratiques par rapport à la longueur de la séquence. Les méthodes d'approximation existantes sous-performent généralement et ne parviennent pas à obtenir des accélérations significatives en pratique. Nous présentons ici SwitchHead - une méthode novatrice qui réduit à la fois les besoins en calcul et en mémoire, tout en obtenant une accélération en temps réel, tout en égalant les performances de modélisation linguistique des Transformers de référence avec le même budget de paramètres. SwitchHead utilise des couches de Mixture-of-Experts (MoE) pour les projections de valeur et de sortie, et nécessite 4 à 8 fois moins de matrices d'attention que les Transformers standard. Notre nouvelle attention peut également être combinée avec des couches MLP MoE, aboutissant à un modèle Transformer entièrement MoE efficace appelé "SwitchAll". Notre code est public.
Bien que la génération de vidéos basée sur la diffusion ait connu des progrès rapides, les résultats d'inférence des modèles existants présentent encore une cohérence temporelle insatisfaisante et des dynamiques peu naturelles. Dans cet article, nous explorons en profondeur l'initialisation du bruit dans les modèles de diffusion vidéo et découvrons un écart implicite entre l'entraînement et l'inférence qui explique la qualité d'inférence insatisfaisante. Nos principales découvertes sont : 1) la distribution des fréquences spatio-temporelles du latent initial lors de l'inférence est intrinsèquement différente de celle utilisée pendant l'entraînement, et 2) le processus de débruitage est significativement influencé par les composantes basse fréquence du bruit initial. Motivés par ces observations, nous proposons une stratégie d'échantillonnage d'inférence concise mais efficace, FreeInit, qui améliore considérablement la cohérence temporelle des vidéos générées par les modèles de diffusion. En affinant itérativement les composantes basse fréquence spatio-temporelles du latent initial pendant l'inférence, FreeInit est capable de compenser l'écart d'initialisation entre l'entraînement et l'inférence, améliorant ainsi efficacement l'apparence du sujet et la cohérence temporelle des résultats de génération. Des expériences approfondies démontrent que FreeInit améliore de manière constante les résultats de génération de divers modèles de génération de texte-à-vidéo sans nécessiter d'entraînement supplémentaire.
Les modèles de langage visuel (VLMs) ont progressé rapidement grâce aux récents succès des grands modèles de langage (LLMs). Des efforts croissants ont été consacrés à l'ajustement par instruction visuelle pour étendre les LLMs avec des entrées visuelles, mais une étude approfondie du processus de pré-entraînement en langage visuel, où le modèle apprend à effectuer une modélisation conjointe des deux modalités, fait défaut. Dans ce travail, nous examinons les options de conception pour le pré-entraînement des VLMs en transformant progressivement un LLM en VLM grâce à des comparaisons contrôlées étape par étape. Nous présentons trois principales conclusions : (1) le gel des LLMs pendant le pré-entraînement peut permettre des performances décentes en zero-shot, mais limite la capacité d'apprentissage en contexte, ce qui nécessite de dégeler le LLM ; (2) les données de pré-entraînement entrelacées sont bénéfiques, tandis que les paires image-texte seules ne sont pas optimales ; (3) le réassemblage des données d'instruction textuelles avec les données image-texte pendant l'ajustement fin par instruction non seulement remédie à la dégradation des tâches textuelles, mais améliore également la précision des tâches VLM. Avec une recette de pré-entraînement améliorée, nous construisons VILA, une famille de modèles de langage visuel qui surpasse systématiquement les modèles de pointe, par exemple LLaVA-1.5, sur les principaux benchmarks sans fioritures. Le pré-entraînement multimodal aide également à révéler des propriétés attrayantes de VILA, notamment le raisonnement multi-image, un apprentissage en contexte amélioré et une meilleure connaissance du monde.
Les modèles de diffusion ont atteint une qualité remarquable dans la génération d'images, surpassant les modèles génératifs précédents. Cependant, une limitation notable des modèles de diffusion, par rapport aux GANs, est leur difficulté à interpoler de manière fluide entre deux échantillons d'images, en raison de leur espace latent hautement non structuré. Une telle interpolation fluide est intrigante car elle sert naturellement de solution pour la tâche de morphing d'images, qui a de nombreuses applications. Dans ce travail, nous présentons DiffMorpher, la première approche permettant une interpolation d'images fluide et naturelle en utilisant des modèles de diffusion. Notre idée clé est de capturer la sémantique des deux images en ajustant deux LoRAs respectivement, et d'interpoler à la fois les paramètres des LoRAs et les bruits latents pour assurer une transition sémantique fluide, où la correspondance émerge automatiquement sans nécessiter d'annotation. De plus, nous proposons une technique d'interpolation et d'injection d'attention ainsi qu'un nouveau calendrier d'échantillonnage pour améliorer davantage la fluidité entre les images consécutives. Des expériences approfondies démontrent que DiffMorpher obtient des effets de morphing d'images nettement meilleurs que les méthodes précédentes sur une variété de catégories d'objets, comblant ainsi une lacune fonctionnelle critique qui distinguait les modèles de diffusion des GANs.
Les approches récentes telles que ControlNet offrent aux utilisateurs un contrôle spatial fin sur les modèles de diffusion texte-à-image (T2I). Cependant, des modules auxiliaires doivent être entraînés pour chaque type de condition spatiale, architecture de modèle et point de contrôle, ce qui les rend incompatibles avec la diversité des intentions et préférences qu'un concepteur humain souhaiterait exprimer aux modèles d'IA lors du processus de création de contenu. Dans ce travail, nous présentons FreeControl, une approche sans entraînement pour la génération contrôlée T2I qui prend en charge simultanément plusieurs conditions, architectures et points de contrôle. FreeControl conçoit un guidage de structure pour faciliter l'alignement structurel avec une image de référence, et un guidage d'apparence pour permettre le partage d'apparence entre les images générées à partir de la même graine. Des expériences qualitatives et quantitatives approfondies démontrent la performance supérieure de FreeControl sur une variété de modèles T2I pré-entraînés. En particulier, FreeControl facilite un contrôle pratique sans entraînement sur de nombreuses architectures et points de contrôle différents, permet de gérer des conditions d'entrée difficiles sur lesquelles la plupart des méthodes existantes sans entraînement échouent, et atteint une qualité de synthèse compétitive avec les approches basées sur l'entraînement.
L'évaluation des grands modèles de langage (LLMs) est cruciale pour mesurer leurs performances et atténuer les risques de sécurité potentiels. Dans cet article, nous présentons PromptBench, une bibliothèque unifiée pour évaluer les LLMs. Elle comprend plusieurs composants clés facilement utilisables et extensibles par les chercheurs : construction de prompts, ingénierie de prompts, chargement de jeux de données et de modèles, attaques adverses par prompts, protocoles d'évaluation dynamiques et outils d'analyse. PromptBench est conçu pour être une base de code ouverte, générale et flexible à des fins de recherche, facilitant les études originales dans la création de nouveaux benchmarks, le déploiement d'applications en aval et la conception de nouveaux protocoles d'évaluation. Le code est disponible à l'adresse : https://github.com/microsoft/promptbench et sera continuellement maintenu.
Nous examinons les applications des modèles de base pré-entraînés en robotique. Les modèles d'apprentissage profond traditionnels en robotique sont entraînés sur de petits ensembles de données spécifiques à des tâches particulières, ce qui limite leur adaptabilité à diverses applications. En revanche, les modèles de base pré-entraînés sur des données à l'échelle d'Internet semblent posséder des capacités de généralisation supérieures et, dans certains cas, démontrent une capacité émergente à trouver des solutions en zero-shot à des problèmes absents des données d'entraînement. Les modèles de base pourraient potentiellement améliorer divers composants de la pile d'autonomie robotique, de la perception à la prise de décision et au contrôle. Par exemple, les grands modèles de langage peuvent générer du code ou fournir un raisonnement de bon sens, tandis que les modèles vision-langage permettent une reconnaissance visuelle à vocabulaire ouvert. Cependant, d'importants défis de recherche subsistent, notamment autour de la rareté des données d'entraînement pertinentes pour la robotique, des garanties de sécurité et de la quantification de l'incertitude, ainsi que de l'exécution en temps réel. Dans cette étude, nous analysons des articles récents ayant utilisé ou développé des modèles de base pour résoudre des problèmes de robotique. Nous explorons comment ces modèles contribuent à améliorer les capacités des robots dans les domaines de la perception, de la prise de décision et du contrôle. Nous discutons des défis entravant l'adoption des modèles de base dans l'autonomie robotique et proposons des opportunités et des pistes potentielles pour des avancées futures. Le projet GitHub correspondant à cet article (version préliminaire. Nous nous engageons à améliorer et à mettre à jour ce travail pour en garantir la qualité et la pertinence) est disponible ici : https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
En raison de l'ampleur considérable des modèles de langage de grande taille (LLMs), l'application directe des méthodologies de compression conventionnelles s'avère impraticable. Les exigences computationnelles associées à des mises à jour de gradients même minimales posent des défis, en particulier sur du matériel grand public. Cet article présente une approche innovante pour la compression paramétrique et pratique des LLMs basée sur la modélisation d'ordre réduit, qui implique une décomposition de faible rang dans l'espace des caractéristiques et une re-paramétrisation dans l'espace des poids. Notamment, cette technique de compression fonctionne couche par couche, éliminant ainsi la nécessité d'un dispositif GPU et permettant la compression de modèles à l'échelle du milliard dans des contraintes strictes de mémoire et de temps. Notre méthode représente une avancée significative dans la compression de modèles en exploitant la décomposition matricielle, démontrant une efficacité supérieure par rapport à la méthode de taille structurée actuellement dominante.
Les recherches récentes ont réalisé des progrès significatifs dans l'application de techniques d'alignement pour améliorer l'utilité et l'innocuité des grands modèles de langage (LLMs) conformément aux intentions humaines. Dans cet article, nous plaidons pour l'importance de l'alignement pour l'honnêteté, en veillant à ce que les LLMs refusent de répondre aux questions lorsqu'ils manquent de connaissances, tout en évitant d'être excessivement conservateurs. Cependant, un aspect crucial de l'alignement pour l'honnêteté consiste à discerner les limites des connaissances d'un LLM, ce qui est loin d'être simple. Ce défi exige des solutions globales en termes de développement de métriques, de création de benchmarks et de méthodologies d'entraînement. Dans cet article, nous abordons ces défis en établissant d'abord une définition précise du problème et en définissant l'« honnêteté » inspirée des Analectes de Confucius. Cela sert de pierre angulaire pour développer des métriques qui mesurent efficacement l'honnêteté d'un LLM en quantifiant ses progrès après l'alignement. De plus, nous introduisons un cadre d'entraînement flexible qui est ensuite instancié par plusieurs techniques de fine-tuning efficaces qui mettent l'accent sur l'honnêteté sans sacrifier les performances sur d'autres tâches. Nos expériences approfondies révèlent que ces modèles alignés montrent une augmentation marquée de l'honnêteté, comme l'indiquent nos métriques proposées. Nous mettons à disposition une multitude de ressources pour faciliter les recherches futures à l'adresse https://github.com/GAIR-NLP/alignment-for-honesty, y compris des modèles alignés pour l'honnêteté, des ensembles de données d'entraînement et d'évaluation pour l'alignement de l'honnêteté, un glossaire de concepts, ainsi que tout le code source pertinent.
Nous présentons FIND, une interface généralisée pour l'alignement des embeddings de modèles de fondation. Comme illustré dans la figure d'introduction, une interface légère basée sur un transformateur, sans ajustement des poids du modèle de fondation, suffit pour une compréhension unifiée au niveau de l'image (segmentation) et du dataset (recherche). L'interface proposée possède les attributs favorables suivants : (1) Généralisable. Elle s'applique à diverses tâches telles que la recherche, la segmentation, etc., sous la même architecture et avec les mêmes poids. (2) Prototypable. Différentes tâches peuvent être implémentées via la création de masques d'attention et de types d'embeddings. (3) Extensible. L'interface proposée est adaptable à de nouvelles tâches et à de nouveaux modèles. (4) Entrelaçable. Grâce à l'entraînement multi-tâches et multi-modales, l'interface proposée crée un espace d'embeddings partagé et entrelacé. En lien avec cet espace d'embeddings entrelacé, nous introduisons FIND-Bench, qui ajoute de nouvelles annotations d'entraînement et d'évaluation au dataset COCO pour la segmentation et la recherche entrelacées. Notre approche atteint des performances de pointe sur FIND-Bench et des performances compétitives dans les configurations standard de recherche et de segmentation. Le code d'entraînement, d'évaluation et de démonstration, ainsi que le dataset, ont été publiés à l'adresse https://github.com/UX-Decoder/FIND.
Alors que le rendu neuronal a permis des avancées impressionnantes dans la reconstruction de scènes et la synthèse de nouvelles vues, il repose fortement sur des poses de caméra pré-calculées avec précision. Pour assouplir cette contrainte, plusieurs efforts ont été déployés pour entraîner des Champs de Radiance Neuronaux (NeRFs) sans poses de caméra prétraitées. Cependant, les représentations implicites des NeRFs posent des défis supplémentaires pour optimiser simultanément la structure 3D et les poses de caméra. D'autre part, la récente proposition de la méthode de projection par splats de Gaussiennes 3D offre de nouvelles opportunités grâce à ses représentations explicites sous forme de nuages de points. Cet article exploite à la fois la représentation géométrique explicite et la continuité du flux vidéo d'entrée pour effectuer la synthèse de nouvelles vues sans aucun prétraitement par Structure from Motion (SfM). Nous traitons les images d'entrée de manière séquentielle et développons progressivement l'ensemble des Gaussiennes 3D en prenant une image d'entrée à la fois, sans avoir besoin de pré-calculer les poses de caméra. Notre méthode améliore significativement les approches précédentes en matière de synthèse de vues et d'estimation des poses de caméra en cas de grands changements de mouvement. Notre page de projet est disponible à l'adresse suivante : https://oasisyang.github.io/colmap-free-3dgs
Les modèles de cohérence (Consistency Models, CMs) ont démontré leur potentiel pour créer du contenu visuel de manière efficace et de haute qualité. Cependant, la manière d'ajouter de nouveaux contrôles conditionnels aux CMs pré-entraînés n'a pas encore été explorée. Dans ce rapport technique, nous examinons des stratégies alternatives pour intégrer un contrôle conditionnel de type ControlNet aux CMs et présentons trois résultats significatifs. 1) Le ControlNet entraîné pour les modèles de diffusion (DMs) peut être directement appliqué aux CMs pour des contrôles sémantiques de haut niveau, mais rencontre des difficultés avec les détails de bas niveau et le contrôle du réalisme. 2) Les CMs constituent une classe indépendante de modèles génératifs, sur laquelle le ControlNet peut être entraîné à partir de zéro en utilisant l'entraînement de cohérence proposé par Song et al. 3) Un adaptateur léger peut être optimisé conjointement sous plusieurs conditions grâce à l'entraînement de cohérence, permettant un transfert rapide du ControlNet basé sur les DMs vers les CMs. Nous étudions ces trois solutions pour divers contrôles conditionnels, notamment les contours, la profondeur, la pose humaine, les images basse résolution et les images masquées, en utilisant des modèles de cohérence latente pour la génération d'images à partir de texte.
Nous présentons la méthode Contrastive Activation Addition (CAA), une approche innovante pour orienter les modèles de langage en modifiant les activations lors de leurs passes avant. CAA calcule des « vecteurs d'orientation » en faisant la moyenne des différences d'activations dans le flux résiduel entre des paires d'exemples positifs et négatifs d'un comportement spécifique, comme des réponses factuelles versus hallucinatoires. Pendant l'inférence, ces vecteurs d'orientation sont ajoutés à toutes les positions de tokens après l'invite de l'utilisateur, avec un coefficient positif ou négatif, permettant un contrôle précis du degré du comportement ciblé. Nous évaluons l'efficacité de CAA sur Llama 2 Chat en utilisant à la fois des ensembles de données de questions comportementales à choix multiples et des tâches de génération ouverte. Nous démontrons que CAA modifie significativement le comportement du modèle, surpasse les méthodes traditionnelles comme le fine-tuning et le prompting en few-shot, et réduit minimalement les capacités du modèle. De plus, en employant diverses méthodes d'interprétation de l'espace d'activation, nous obtenons des insights plus profonds sur les mécanismes de CAA. CAA oriente avec précision les sorties du modèle et éclaire également la manière dont les concepts de haut niveau sont représentés dans les grands modèles de langage (LLMs).
Dans les modèles de langage multimodaux de grande taille (MLLMs), un projecteur visuel joue un rôle crucial en reliant les encodeurs visuels pré-entraînés aux LLMs, permettant une compréhension visuelle approfondie tout en exploitant les capacités robustes des LLMs. Malgré l'importance du projecteur visuel, celui-ci a été relativement peu exploré. Dans cette étude, nous identifions d'abord deux propriétés essentielles du projecteur : (i) la flexibilité dans la gestion du nombre de tokens visuels, cruciale pour l'efficacité globale des MLLMs, et (ii) la préservation du contexte local des caractéristiques visuelles, vitale pour la compréhension spatiale. Sur la base de ces constatations, nous proposons une nouvelle conception de projecteur à la fois flexible et améliorée en termes de localité, satisfaisant efficacement ces deux propriétés souhaitables. De plus, nous présentons des stratégies complètes pour exploiter efficacement des ensembles de données d'instructions multiples et variés. À travers des expériences approfondies, nous examinons l'impact des choix de conception individuels. Enfin, notre MLLM proposé, Honeybee, surpasse de manière remarquable les méthodes précédentes de pointe sur divers benchmarks, notamment MME, MMBench, SEED-Bench et LLaVA-Bench, atteignant une efficacité significativement plus élevée. Le code et les modèles sont disponibles à l'adresse https://github.com/kakaobrain/honeybee.
Récemment, des progrès significatifs ont été réalisés dans le domaine de la génération de texte à vidéo, les modèles de pointe étant capables de produire des vidéos de haute qualité et réalistes. Cependant, ces modèles ne permettent pas aux utilisateurs de contrôler et de générer des vidéos de manière interactive, ce qui pourrait ouvrir de nouveaux domaines d'application. Dans un premier pas vers cet objectif, nous abordons le problème de doter les modèles de génération de vidéos basés sur la diffusion d'un contrôle spatio-temporel interactif sur leur sortie. Pour ce faire, nous nous inspirons des avancées récentes dans la littérature sur la segmentation pour proposer un nouveau module d'attention masquée spatio-temporelle - Peekaboo. Ce module, qui ne nécessite pas d'entraînement supplémentaire et n'ajoute aucune surcharge lors de l'inférence, peut être intégré à des modèles de génération de vidéos existants pour permettre un contrôle spatio-temporel. Nous proposons également un benchmark d'évaluation pour la tâche de génération de vidéos interactives. Grâce à une évaluation qualitative et quantitative approfondie, nous démontrons que Peekaboo permet un contrôle efficace de la génération de vidéos et obtient même un gain allant jusqu'à 3,8x en mIoU par rapport aux modèles de référence.
En apprentissage automatique, la généralisation face aux décalages de distribution - où les conditions de déploiement divergent des scénarios d'entraînement - est cruciale, en particulier dans des domaines comme la modélisation climatique, la biomédecine et la conduite autonome. L'émergence des modèles de fondation, caractérisés par leur pré-entraînement extensif et leur polyvalence face aux tâches, a suscité un intérêt croissant pour leur adaptabilité aux décalages de distribution. GPT-4V(ision) représente le modèle de fondation multimodal le plus avancé accessible au public, avec des applications étendues dans divers domaines, notamment la détection d'anomalies, la compréhension vidéo, la génération d'images et le diagnostic médical. Cependant, sa robustesse face aux distributions de données reste largement inexplorée. Comblant cette lacune, cette étude évalue rigoureusement l'adaptabilité et les capacités de généralisation de GPT-4V dans des environnements dynamiques, en le comparant à des modèles de référence comme CLIP et LLaVA. Nous explorons la généralisation en zero-shot de GPT-4V sur 13 ensembles de données variés couvrant les domaines naturels, médicaux et moléculaires. Nous examinons également son adaptabilité face à des perturbations contrôlées des données et étudions l'efficacité de l'apprentissage en contexte comme outil pour améliorer son adaptation. Nos résultats délimitent les capacités de GPT-4V face aux décalages de distribution, mettant en lumière ses forces et ses limites dans divers scénarios. Cette investigation contribue de manière significative à notre compréhension de la manière dont les modèles de fondation en IA généralisent face aux décalages de distribution, offrant des insights cruciaux sur leur adaptabilité et leur robustesse. Le code est disponible publiquement à l'adresse https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Les Transformers de Diffusion ont récemment démontré une efficacité remarquable dans la génération de nuages de points 3D de haute qualité. Cependant, l'entraînement de modèles de diffusion basés sur des voxels pour des voxels 3D haute résolution reste prohibitivement coûteux en raison de la complexité cubique des opérateurs d'attention, qui découle de la dimension supplémentaire des voxels. Motivés par la redondance inhérente de la 3D par rapport à la 2D, nous proposons FastDiT-3D, un nouveau transformer de diffusion masqué conçu pour une génération efficace de nuages de points 3D, réduisant considérablement les coûts d'entraînement. Plus précisément, nous nous inspirons des autoencodeurs masqués pour opérer dynamiquement le processus de débruitage sur des nuages de points voxélisés masqués. Nous proposons également une nouvelle stratégie de masquage adaptée aux voxels pour agréger de manière adaptative les informations de premier plan/arrière-plan des nuages de points voxélisés. Notre méthode atteint des performances de pointe avec un taux de masquage extrême de près de 99%. De plus, pour améliorer la génération 3D multi-catégories, nous introduisons le Mixture-of-Expert (MoE) dans le modèle de diffusion 3D. Chaque catégorie peut apprendre un chemin de diffusion distinct avec différents experts, atténuant les conflits de gradient. Les résultats expérimentaux sur le jeu de données ShapeNet démontrent que notre méthode atteint des performances de pointe en termes de fidélité et de diversité dans la génération de nuages de points 3D. Notre FastDiT-3D améliore les métriques de précision du 1-Nearest Neighbor et de couverture lors de la génération de nuages de points voxélisés à 128 résolutions, en utilisant seulement 6,5% du coût d'entraînement original.
Un facteur crucial dans le succès des systèmes d'aide à la décision est la modélisation précise des préférences des utilisateurs. La recherche en psychologie a démontré que les utilisateurs développent souvent leurs préférences au cours du processus d'élucidation, soulignant le rôle central de l'interaction système-utilisateur dans le développement de systèmes personnalisés. Cet article présente une approche novatrice, combinant les modèles de langage de grande taille (LLMs) avec la programmation par contraintes pour faciliter l'aide à la décision interactive. Nous étudions ce cadre hybride à travers le prisme de la planification de réunions, une activité quotidienne chronophage à laquelle sont confrontés de nombreux travailleurs de l'information. Nous menons trois études pour évaluer ce nouveau cadre, incluant une étude de journal (n=64) pour caractériser les préférences contextuelles de planification, une évaluation quantitative des performances du système, et une étude utilisateur (n=10) avec un prototype du système. Notre travail met en lumière le potentiel d'une approche hybride combinant LLM et optimisation pour l'élucidation itérative des préférences, ainsi que les considérations de conception pour la création de systèmes soutenant les processus de décision collaborative entre humains et systèmes.