Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de type ChatGPT ont révolutionné diverses applications en intelligence artificielle, allant de la synthèse et du codage à la traduction, égalant voire surpassant les performances humaines. Cependant, le paysage actuel manque d'un pipeline de formation RLHF (Reinforcement Learning with Human Feedback) accessible, efficace et rentable pour ces modèles puissants, en particulier lors de l'entraînement à l'échelle de milliards de paramètres. Cet article présente DeepSpeed-Chat, un système novateur qui démocratise la formation RLHF, la rendant accessible à la communauté de l'IA. DeepSpeed-Chat offre trois capacités clés : une expérience de formation et d'inférence facile à utiliser pour les modèles de type ChatGPT, un pipeline DeepSpeed-RLHF qui reproduit le pipeline de formation d'InstructGPT, et un système robuste DeepSpeed-RLHF qui combine diverses optimisations pour la formation et l'inférence de manière unifiée. Le système offre une efficacité et une scalabilité inégalées, permettant l'entraînement de modèles avec des centaines de milliards de paramètres en un temps record et à une fraction du coût. Avec cette avancée, DeepSpeed-Chat ouvre la voie à un accès plus large à la formation RLHF avancée, même pour les scientifiques des données disposant de ressources limitées, favorisant ainsi l'innovation et le développement ultérieur dans le domaine de l'IA.
Les architectures de mélange d'experts parcimonieux (MoE) permettent d'augmenter la capacité des modèles sans entraîner de hausse significative des coûts d'entraînement ou d'inférence. Malgré leur succès, les MoE souffrent de plusieurs problèmes : instabilité lors de l'entraînement, perte de tokens, difficulté à augmenter le nombre d'experts ou réglage fin inefficace. Dans ce travail, nous proposons Soft MoE, un Transformer parcimonieux entièrement différentiable qui résout ces défis tout en conservant les avantages des MoE. Soft MoE effectue une assignation douce implicite en transmettant à chaque expert différentes combinaisons pondérées de tous les tokens d'entrée. Comme dans d'autres travaux sur les MoE, les experts dans Soft MoE ne traitent qu'un sous-ensemble des tokens (combinés), permettant une plus grande capacité de modèle à un coût d'inférence réduit. Dans le contexte de la reconnaissance visuelle, Soft MoE surpasse largement les Transformers standards (ViTs) et les variantes populaires de MoE (Tokens Choice et Experts Choice). Par exemple, Soft MoE-Base/16 nécessite un coût d'inférence 10,5 fois inférieur (et un temps d'exécution 5,7 fois plus court) que ViT-Huge/14 tout en atteignant des performances similaires après un entraînement comparable. Soft MoE montre également une bonne scalabilité : Soft MoE Huge/14 avec 128 experts répartis sur 16 couches MoE possède plus de 40 fois plus de paramètres que ViT Huge/14, tandis que le temps d'inférence n'augmente que de 2 %, et il offre des performances nettement supérieures.
Bien que la manipulation d'images guidée par le langage ait réalisé des progrès remarquables, le défi de savoir comment instruire le processus de manipulation en reflétant fidèlement les intentions humaines persiste. Une description précise et complète d'une tâche de manipulation en utilisant le langage naturel est laborieuse et parfois même impossible, principalement en raison de l'incertitude et de l'ambiguïté inhérentes aux expressions linguistiques. Est-il possible d'accomplir la manipulation d'images sans recourir à des informations intermodales externes issues du langage ? Si cette possibilité existe, l'écart modal inhérent serait facilement éliminé. Dans cet article, nous proposons une nouvelle méthodologie de manipulation, baptisée ImageBrush, qui apprend des instructions visuelles pour un éditing d'image plus précis. Notre idée clé est d'utiliser une paire d'images de transformation comme instructions visuelles, qui capturent non seulement avec précision l'intention humaine, mais facilitent également l'accessibilité dans des scénarios réels. La capture d'instructions visuelles est particulièrement difficile car elle implique d'extraire les intentions sous-jacentes uniquement à partir de démonstrations visuelles, puis d'appliquer cette opération à une nouvelle image. Pour relever ce défi, nous formulons l'apprentissage des instructions visuelles comme un problème d'inpainting basé sur la diffusion, où l'information contextuelle est pleinement exploitée à travers un processus itératif de génération. Un encodeur d'invite visuelle est soigneusement conçu pour améliorer la capacité du modèle à découvrir l'intention humaine derrière les instructions visuelles. Des expériences approfondies montrent que notre méthode génère des résultats de manipulation captivants conformes aux transformations impliquées dans les démonstrations. De plus, notre modèle présente des capacités de généralisation robustes sur diverses tâches en aval telles que le transfert de pose, la traduction d'images et l'inpainting vidéo.
Notre approche, que nous appelons Embeddings for Language/Image-aligned X-Rays, ou ELIXR, exploite un encodeur d'images aligné sur le langage, combiné ou greffé à un modèle de langage large (LLM) fixe, PaLM 2, pour accomplir une large gamme de tâches. Nous entraînons cette architecture d'adaptation légère en utilisant des images associées à des rapports radiologiques en texte libre issus du jeu de données MIMIC-CXR. ELIXR a atteint des performances de pointe en classification zero-shot de radiographies thoraciques (CXR) (AUC moyen de 0,850 sur 13 observations), en classification de CXR avec une utilisation efficace des données (AUC moyens de 0,893 et 0,898 sur cinq observations (atélectasie, cardiomégalie, consolidation, épanchement pleural et œdème pulmonaire) pour 1 % (~2 200 images) et 10 % (~22 000 images) des données d'entraînement), et en recherche sémantique (0,76 de gain cumulé actualisé normalisé (NDCG) sur dix-neuf requêtes, incluant une récupération parfaite pour douze d'entre elles). Comparé aux méthodes existantes d'utilisation efficace des données, y compris l'apprentissage contrastif supervisé (SupCon), ELIXR a nécessité deux ordres de grandeur de données en moins pour atteindre des performances similaires. ELIXR a également montré des résultats prometteurs sur les tâches de vision-langage en CXR, démontrant des précisions globales de 58,7 % et 62,5 % sur les tâches de réponse à des questions visuelles et d'assurance qualité des rapports, respectivement. Ces résultats suggèrent qu'ELIXR est une approche robuste et polyvalente pour l'IA appliquée aux radiographies thoraciques.
Motivés par le fait que les approches basées sur DETR ont établi de nouveaux records sur les benchmarks de détection et de segmentation COCO, de nombreux travaux récents montrent un intérêt croissant pour l'amélioration des approches DETR via un pré-entraînement auto-supervisé du Transformer tout en gardant le backbone figé. Certaines études ont déjà rapporté des améliorations significatives en termes de précision. Dans cet article, nous examinons de plus près leur méthodologie expérimentale et vérifions si leurs approches restent efficaces sur les méthodes les plus récentes de pointe, telles que H-Deformable-DETR. Nous menons des expériences approfondies sur les tâches de détection d'objets COCO pour étudier l'influence du choix des jeux de données de pré-entraînement, des schémas de génération des cibles de localisation et de classification. Malheureusement, nous constatons que l'approche auto-supervisée représentative précédente, comme DETReg, ne parvient pas à améliorer les performances des approches DETR fortes dans des régimes de données complètes. Nous analysons ensuite les raisons et découvrons que la simple combinaison d'un prédicteur de boîtes plus précis et du benchmark Objects365 peut significativement améliorer les résultats dans les expériences suivantes. Nous démontrons l'efficacité de notre approche en atteignant des résultats solides en détection d'objets avec un AP=59,3% sur l'ensemble de validation COCO, surpassant H-Deformable-DETR + Swin-L de +1,4%. Enfin, nous générons une série de jeux de données synthétiques de pré-entraînement en combinant les modèles récents de génération de légendes image-texte (LLaVA) et de génération d'images à partir de texte (SDXL). Notamment, le pré-entraînement sur ces jeux de données synthétiques conduit à des améliorations notables des performances en détection d'objets. À l'avenir, nous anticipons des avantages substantiels grâce à l'expansion future du jeu de données synthétique de pré-entraînement.
CLIP, en tant que modèle fondamental de vision et langage, est largement utilisé dans la classification d'images en zero-shot grâce à sa capacité à comprendre divers concepts visuels et descriptions en langage naturel. Cependant, la manière d'exploiter pleinement les capacités de compréhension quasi humaines sans précédent de CLIP pour améliorer la classification en zero-shot reste une question ouverte. Ce document s'inspire du processus de perception visuelle humaine : une perspective moderne des neurosciences suggère que, pour classer un objet, les humains infèrent d'abord ses attributs indépendants de la classe (par exemple, l'arrière-plan et l'orientation), ce qui aide à séparer l'objet au premier plan de l'arrière-plan, puis prennent des décisions basées sur ces informations. Inspirés par cela, nous observons que fournir à CLIP des attributs contextuels améliore la classification en zero-shot et réduit la dépendance aux caractéristiques fallacieuses. Nous observons également que CLIP lui-même peut raisonnablement inférer les attributs à partir d'une image. Avec ces observations, nous proposons une méthode de classification en zero-shot en deux étapes, sans apprentissage, nommée PerceptionCLIP. Étant donnée une image, elle infère d'abord les attributs contextuels (par exemple, l'arrière-plan), puis effectue la classification de l'objet en les prenant en compte. Nos expériences montrent que PerceptionCLIP atteint une meilleure généralisation, une robustesse de groupe accrue et une meilleure interprétabilité. Par exemple, PerceptionCLIP avec ViT-L/14 améliore la précision du groupe le plus faible de 16,5 % sur le jeu de données Waterbirds et de 3,5 % sur CelebA.