Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons SUPIR (Scaling-UP Image Restoration), une méthode révolutionnaire de restauration d'images qui exploite un a priori génératif et la puissance de la mise à l'échelle des modèles. En s'appuyant sur des techniques multimodales et un a priori génératif avancé, SUPIR marque une avancée significative dans la restauration d'images intelligente et réaliste. En tant que catalyseur central au sein de SUPIR, la mise à l'échelle des modèles améliore considérablement ses capacités et démontre un nouveau potentiel pour la restauration d'images. Nous avons constitué un ensemble de données comprenant 20 millions d'images haute résolution et de haute qualité pour l'entraînement du modèle, chacune enrichie d'annotations textuelles descriptives. SUPIR offre la possibilité de restaurer des images guidées par des invites textuelles, élargissant ainsi son champ d'application et son potentiel. De plus, nous introduisons des invites de qualité négative pour améliorer davantage la qualité perceptuelle. Nous développons également une méthode d'échantillonnage guidée par la restauration pour atténuer le problème de fidélité rencontré dans la restauration basée sur la génération. Les expériences démontrent les effets de restauration exceptionnels de SUPIR ainsi que sa capacité novatrice à manipuler la restauration via des invites textuelles.
Les modèles de langage sans tokenisation apprennent directement à partir d'octets bruts et éliminent le biais introduit par la tokenisation en sous-mots. Cependant, opérer sur des octets entraîne des séquences nettement plus longues, et les Transformers autorégressifs standards s'adaptent mal dans de tels contextes. Nous expérimentons avec MambaByte, une adaptation sans tokenisation du modèle d'espace d'états Mamba, entraîné de manière autorégressive sur des séquences d'octets. Nos expériences montrent l'efficacité computationnelle de MambaByte par rapport à d'autres modèles opérant au niveau des octets. Nous constatons également que MambaByte rivalise avec, et même surpasse, les Transformers à sous-mots de pointe. De plus, grâce à une mise à l'échelle linéaire en fonction de la longueur, MambaByte bénéficie d'une inférence rapide comparée aux Transformers. Nos résultats établissent la viabilité de MambaByte pour permettre la modélisation de langage sans tokenisation.
Au cours de l'année écoulée, les modèles de langage multimodal de grande envergure (MM-LLMs) ont connu des avancées significatives, permettant d'étendre les capacités des modèles de langage existants pour prendre en charge des entrées ou sorties multimodales grâce à des stratégies d'entraînement économiques. Les modèles résultants non seulement préservent les capacités de raisonnement et de prise de décision inhérentes aux LLMs, mais permettent également de réaliser une variété de tâches multimodales. Dans cet article, nous proposons une revue exhaustive visant à faciliter les recherches futures sur les MM-LLMs. Plus précisément, nous décrivons d'abord les formulations générales de conception pour l'architecture des modèles et le pipeline d'entraînement. Ensuite, nous présentons brièvement 26 MM-LLMs existants, chacun caractérisé par ses formulations spécifiques. De plus, nous examinons les performances des MM-LLMs sur les benchmarks courants et résumons les principales recettes d'entraînement pour améliorer leur efficacité. Enfin, nous explorons des directions prometteuses pour les MM-LLMs tout en maintenant un site web de suivi en temps réel des dernières avancées dans ce domaine. Nous espérons que cette revue contribue à l'avancement continu du domaine des MM-LLMs.
L'avancée des grands modèles de langage (LLM) marque l'avènement d'une nouvelle ère caractérisée par le développement d'applications autonomes dans le monde réel, ce qui stimule l'innovation dans la création d'agents web avancés. Les agents web existants ne gèrent généralement qu'une seule modalité d'entrée et sont évalués uniquement dans des simulateurs web simplifiés ou des instantanés web statiques, limitant ainsi considérablement leur applicabilité dans des scénarios réels. Pour combler cette lacune, nous présentons WebVoyager, un agent web innovant basé sur un grand modèle multimodal (LMM) capable d'exécuter des instructions utilisateur de bout en bout en interagissant avec des sites web réels. De plus, nous proposons un nouveau protocole d'évaluation pour les agents web afin de relever les défis de l'évaluation automatique des tâches ouvertes des agents web, en exploitant les robustes capacités de compréhension multimodale de GPT-4V. Nous créons un nouveau benchmark en collectant des tâches réelles provenant de 15 sites web largement utilisés pour évaluer nos agents. Nous démontrons que WebVoyager atteint un taux de réussite de 55,7 %, surpassant significativement les performances de GPT-4 (tous outils) et de la configuration WebVoyager (texte uniquement), mettant en évidence les capacités exceptionnelles de WebVoyager dans des applications pratiques. Nous constatons que notre évaluation automatique proposée atteint un accord de 85,3 % avec le jugement humain, ouvrant la voie à un développement accru des agents web dans un contexte réel.
Les modèles récents de génération d'images à partir de texte ont démontré un succès impressionnant dans la création d'images qui suivent fidèlement les instructions textuelles. Cependant, la nécessité d'utiliser des mots pour décrire un concept souhaité offre un contrôle limité sur l'apparence des concepts générés. Dans ce travail, nous abordons cette limitation en proposant une approche pour activer des capacités de personnalisation dans les modèles de diffusion texte-image existants. Nous proposons une nouvelle architecture (BootPIG) qui permet à un utilisateur de fournir des images de référence d'un objet afin de guider l'apparence d'un concept dans les images générées. L'architecture BootPIG proposée apporte des modifications minimales à un modèle de diffusion texte-image préentraîné et utilise un modèle UNet séparé pour orienter les générations vers l'apparence souhaitée. Nous introduisons une procédure d'entraînement qui nous permet de démarrer les capacités de personnalisation dans l'architecture BootPIG en utilisant des données générées à partir de modèles texte-image préentraînés, d'agents de conversation LLM et de modèles de segmentation d'images. Contrairement aux méthodes existantes qui nécessitent plusieurs jours de pré-entraînement, l'architecture BootPIG peut être entraînée en environ 1 heure. Les expériences sur le jeu de données DreamBooth montrent que BootPIG surpasse les méthodes zero-shot existantes tout en étant comparable aux approches de fine-tuning au moment du test. À travers une étude utilisateur, nous validons la préférence pour les générations de BootPIG par rapport aux méthodes existantes, à la fois en termes de fidélité à l'apparence de l'objet de référence et d'alignement avec les instructions textuelles.
Les grands modèles de langage ont fait progresser l'état de l'art dans le traitement du langage naturel. Cependant, leur conception principalement axée sur l'anglais ou un ensemble limité de langues crée un écart substantiel dans leur efficacité pour les langues à faibles ressources. Pour combler cet écart, nous présentons MaLA-500, un nouveau grand modèle de langage conçu pour couvrir un vaste éventail de 534 langues. Pour entraîner MaLA-500, nous utilisons une extension de vocabulaire et un pré-entraînement continu sur LLaMA 2 avec Glot500-c. Nos expériences sur SIB-200 montrent que MaLA-500 atteint des résultats de pointe en apprentissage en contexte. Nous mettons MaLA-500 à disposition sur https://huggingface.co/MaLA-LM.
Le pré-entraînement de grands modèles de langage est connu pour être extrêmement gourmand en ressources et souvent inefficace, sous-utilisant l'information encapsulée dans les séquences de texte d'entraînement. Dans cet article, nous présentons SpacTor, une nouvelle procédure d'entraînement composée de (1) un objectif hybride combinant la corruption de segments (SC) et la détection de remplacement de tokens (RTD), et (2) un curriculum en deux étapes qui optimise l'objectif hybride sur les premières itérations tau, puis passe à la perte SC standard. Nous montrons empiriquement que l'efficacité de l'objectif hybride est liée au programme de pré-entraînement en deux étapes, et nous fournissons une analyse approfondie expliquant pourquoi cela est le cas. Dans nos expériences avec des architectures encodeur-décodeur (T5) sur une variété de tâches de NLP, SpacTor-T5 offre les mêmes performances en aval que le pré-entraînement SC standard, tout en permettant une réduction de 50 % des itérations de pré-entraînement et de 40 % du nombre total de FLOPs. Alternativement, avec le même budget de calcul, nous constatons que SpacTor entraîne une amélioration significative des performances sur les benchmarks en aval.
Récemment, les approches de génération de contenu 3D à partir de texte ont permis la création de modèles 3D de haute fidélité en utilisant des descriptions textuelles. Cependant, les objets générés sont stochastiques et manquent de contrôle fin. Les esquisses offrent une méthode peu coûteuse pour introduire un tel contrôle fin. Néanmoins, il est difficile d'obtenir un contrôle flexible à partir de ces esquisses en raison de leur abstraction et de leur ambiguïté. Dans cet article, nous présentons un cadre de génération de contenu 3D guidé par des esquisses multi-vues (nommé Sketch2NeRF) pour ajouter un contrôle par esquisse à la génération 3D. Plus précisément, notre méthode exploite des modèles de diffusion 2D pré-entraînés (par exemple, Stable Diffusion et ControlNet) pour superviser l'optimisation d'une scène 3D représentée par un champ de radiance neuronale (NeRF). Nous proposons une nouvelle méthode de génération et de reconstruction synchronisées pour optimiser efficacement le NeRF. Dans les expériences, nous avons collecté deux types de jeux de données d'esquisses multi-vues pour évaluer la méthode proposée. Nous démontrons que notre méthode peut synthétiser des contenus 3D cohérents avec un contrôle fin par esquisse tout en étant fidèle aux prompts textuels. Les résultats approfondis montrent que notre méthode atteint des performances de pointe en termes de similarité d'esquisse et d'alignement textuel.
Les modèles de diffusion texte-image existants génèrent principalement des images à partir d'invites textuelles. Cependant, la concision inhérente des descriptions textuelles pose des défis pour synthétiser fidèlement des images avec des détails complexes, tels que des entités ou des scènes spécifiques. Cet article présente UNIMO-G, un cadre simple de diffusion conditionnelle multimodale qui fonctionne avec des invites multimodales combinant des entrées textuelles et visuelles, démontrant une capacité unifiée pour la génération d'images à la fois pilotée par le texte et par le sujet. UNIMO-G comprend deux composants principaux : un modèle de langage multimodal de grande envergure (MLLM) pour encoder les invites multimodales, et un réseau de diffusion de débruitage conditionnel pour générer des images à partir de l'entrée multimodale encodée. Nous utilisons une stratégie d'entraînement en deux étapes pour former efficacement le cadre : d'abord un pré-entraînement sur des paires texte-image à grande échelle pour développer des capacités de génération d'images conditionnelles, puis un réglage par instruction avec des invites multimodales pour atteindre une compétence unifiée en génération d'images. Un pipeline de traitement de données bien conçu, impliquant l'ancrage linguistique et la segmentation d'images, est utilisé pour construire des invites multimodales. UNIMO-G excelle à la fois dans la génération texte-image et dans la synthèse pilotée par le sujet en zero-shot, et est particulièrement efficace pour générer des images de haute fidélité à partir d'invites multimodales complexes impliquant plusieurs entités visuelles.
Les récents progrès en IA ont conduit au développement de grands modèles multimodaux (LMMs) capables de traiter des tâches complexes impliquant un raisonnement conjoint sur le texte et le contenu visuel d'une image (par exemple, naviguer sur des cartes dans des lieux publics). Cet article présente ConTextual, un nouveau benchmark comprenant des instructions conçues explicitement pour évaluer la capacité des LMMs à effectuer un raisonnement visuel riche en texte sensible au contexte. ConTextual met l'accent sur divers scénarios du monde réel (par exemple, la lecture de l'heure, la navigation, les achats et plus encore) exigeant une compréhension approfondie des interactions entre les éléments textuels et visuels. Nos résultats révèlent un écart de performance significatif de 30,8 % entre le meilleur LMM, GPT-4V(ision), et les capacités humaines, selon une évaluation humaine, indiquant une marge d'amélioration substantielle dans le raisonnement visuel riche en texte sensible au contexte. Notamment, bien que GPT-4V ait excellé dans des catégories abstraites comme l'interprétation de mèmes et de citations, sa performance globale reste inférieure à celle des humains. En plus des évaluations humaines, nous avons également utilisé des métriques d'évaluation automatique avec GPT-4, révélant des tendances similaires dans les écarts de performance. Nous effectuons également une évaluation fine dans divers contextes visuels et fournissons une analyse qualitative qui offre un cadre robuste pour les avancées futures dans la conception des LMMs. https://con-textual.github.io/
Les modèles génératifs de grande échelle pour la synthèse d'images à partir de texte ont réalisé des progrès impressionnants, démontrant leur capacité à produire une vaste gamme d'images de haute qualité. Cependant, l'adaptation de ces modèles pour l'édition artistique d'images soulève deux défis majeurs. Premièrement, les utilisateurs éprouvent des difficultés à formuler des prompts textuels détaillant minutieusement les éléments visuels de l'image d'entrée. Deuxièmement, les modèles courants, lorsqu'ils modifient des zones spécifiques, perturbent fréquemment le style artistique global, compliquant ainsi l'obtention d'œuvres cohérentes et esthétiquement unifiées. Pour surmonter ces obstacles, nous avons développé le cadre innovant unifié CreativeSynth, basé sur un modèle de diffusion capable de coordonner des entrées multimodales et de gérer des tâches multiples dans le domaine de la génération d'images artistiques. En intégrant des caractéristiques multimodales avec des mécanismes d'attention personnalisés, CreativeSynth facilite l'importation de contenu sémantique du monde réel dans le domaine artistique grâce à l'inversion et au transfert de style en temps réel. Cela permet une manipulation précise du style et du contenu de l'image tout en préservant l'intégrité des paramètres originaux du modèle. Des évaluations qualitatives et quantitatives rigoureuses soulignent que CreativeSynth excelle dans l'amélioration de la fidélité des images artistiques et préserve leur essence esthétique intrinsèque. En comblant l'écart entre les modèles génératifs et la finesse artistique, CreativeSynth devient une palette numérique personnalisée.