Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons GAIA, un benchmark pour les Assistants d'Intelligence Générale qui, s'il était résolu, représenterait une étape majeure dans la recherche en IA. GAIA propose des questions issues du monde réel qui nécessitent un ensemble de compétences fondamentales telles que le raisonnement, la gestion de la multimodalité, la navigation sur le web et, de manière générale, la maîtrise de l'utilisation d'outils. Les questions de GAIA sont conceptuellement simples pour les humains mais restent difficiles pour la plupart des IA avancées : nous montrons que les répondants humains obtiennent un score de 92 % contre 15 % pour GPT-4 équipé de plugins. Cette disparité de performance notable contraste avec la tendance récente des modèles de langage (LLM) qui surpassent les humains sur des tâches nécessitant des compétences professionnelles, par exemple en droit ou en chimie. La philosophie de GAIA s'écarte de la tendance actuelle des benchmarks en IA qui visent des tâches de plus en plus difficiles pour les humains. Nous postulons que l'avènement de l'Intelligence Artificielle Générale (AGI) dépend de la capacité d'un système à démontrer une robustesse similaire à celle d'un humain moyen face à de telles questions. En utilisant la méthodologie de GAIA, nous avons conçu 466 questions et leurs réponses. Nous publions nos questions tout en conservant les réponses à 300 d'entre elles pour alimenter un classement disponible à l'adresse suivante : https://huggingface.co/gaia-benchmark.
Les approches de génération multimédia occupent une place prépondérante dans la recherche en intelligence artificielle. Les modèles de texte-à-image ont atteint des résultats de haute qualité au cours des dernières années. Cependant, les méthodes de synthèse vidéo ont récemment commencé à se développer. Cet article présente une nouvelle architecture de génération texte-à-vidéo en deux étapes basée sur un modèle de diffusion texte-à-image. La première étape concerne la synthèse des images clés pour définir la trame narrative d'une vidéo, tandis que la seconde est consacrée à la génération d'images d'interpolation pour rendre les mouvements de la scène et des objets fluides. Nous comparons plusieurs approches de conditionnement temporel pour la génération des images clés. Les résultats montrent l'avantage d'utiliser des blocs temporels séparés par rapport aux couches temporelles en termes de métriques reflétant les aspects de qualité de la génération vidéo et les préférences humaines. La conception de notre modèle d'interpolation réduit considérablement les coûts de calcul par rapport aux autres approches d'interpolation d'images masquées. De plus, nous évaluons différentes configurations du schéma de décodage vidéo basé sur MoVQ pour améliorer la cohérence et obtenir des scores plus élevés en PSNR, SSIM, MSE et LPIPS. Enfin, nous comparons notre pipeline avec les solutions existantes et obtenons les scores top-2 globalement et top-1 parmi les solutions open-source : CLIPSIM = 0,2976 et FVD = 433,054. Page du projet : https://ai-forever.github.io/kandinsky-video/
Avec l'utilisation généralisée des dispositifs et contenus de réalité virtuelle (VR), les demandes pour les techniques de génération de scènes 3D deviennent de plus en plus populaires. Cependant, les modèles existants de génération de scènes 3D limitent la scène cible à un domaine spécifique, principalement en raison de leurs stratégies d'entraînement utilisant des jeux de données de scans 3D qui sont éloignés de la réalité. Pour répondre à cette limitation, nous proposons LucidDreamer, un pipeline de génération de scènes sans domaine, en exploitant pleinement la puissance des modèles génératifs à grande échelle basés sur la diffusion. Notre LucidDreamer comporte deux étapes alternées : le Rêve et l'Alignement. Tout d'abord, pour générer des images cohérentes sous plusieurs angles à partir des entrées, nous utilisons le nuage de points comme guide géométrique pour chaque génération d'image. Plus précisément, nous projetons une partie du nuage de points sur la vue souhaitée et fournissons cette projection comme guide pour le remplissage à l'aide du modèle génératif. Les images remplies sont ensuite élevées dans l'espace 3D avec des cartes de profondeur estimées, formant ainsi de nouveaux points. Ensuite, pour agréger ces nouveaux points dans la scène 3D, nous proposons un algorithme d'alignement qui intègre harmonieusement les portions des scènes 3D nouvellement générées. La scène 3D finalement obtenue sert de points initiaux pour l'optimisation des splats gaussiens. LucidDreamer produit des splats gaussiens hautement détaillés par rapport aux méthodes précédentes de génération de scènes 3D, sans aucune contrainte sur le domaine de la scène cible.
Les grands modèles de langage (LLMs) sont affinés à l'aide de données de comparaison humaine avec des méthodes d'apprentissage par renforcement basé sur les retours humains (RLHF) pour mieux les aligner sur les préférences des utilisateurs. Contrairement aux LLMs, l'apprentissage des préférences humaines n'a pas été largement exploré dans les modèles de diffusion texte-image ; la meilleure approche existante consiste à affiner un modèle pré-entraîné en utilisant des images et des légendes de haute qualité soigneusement sélectionnées pour améliorer l'attrait visuel et l'alignement textuel. Nous proposons Diffusion-DPO, une méthode pour aligner les modèles de diffusion sur les préférences humaines en optimisant directement les données de comparaison humaine. Diffusion-DPO est adapté de l'optimisation directe des préférences (DPO), une alternative plus simple à RLHF qui optimise directement une politique satisfaisant au mieux les préférences humaines sous un objectif de classification. Nous reformulons DPO pour tenir compte d'une notion de vraisemblance dans les modèles de diffusion, en utilisant la borne inférieure de l'évidence pour dériver un objectif différentiable. En utilisant le jeu de données Pick-a-Pic de 851 000 préférences par paires collectées auprès de la foule, nous affinons le modèle de base du modèle de pointe Stable Diffusion XL (SDXL)-1.0 avec Diffusion-DPO. Notre modèle de base affiné surpasse significativement à la fois le modèle de base SDXL-1.0 et le modèle SDXL-1.0 plus grand comprenant un modèle de raffinement supplémentaire dans l'évaluation humaine, améliorant l'attrait visuel et l'alignement sur les prompts. Nous développons également une variante utilisant des retours d'IA et ayant des performances comparables à l'entraînement sur les préférences humaines, ouvrant la voie à la mise à l'échelle des méthodes d'alignement des modèles de diffusion.
Les méthodes pour affiner les modèles génératifs en vue d'une personnalisation axée sur les concepts obtiennent généralement des résultats solides pour la génération orientée par un sujet ou un style. Récemment, les adaptations de faible rang (LoRA) ont été proposées comme une approche économe en paramètres pour réaliser une personnalisation basée sur les concepts. Bien que des travaux récents explorent la combinaison de LoRAs distincts pour parvenir à une génération conjointe de styles et de sujets appris, les techniques existantes ne résolvent pas de manière fiable ce problème ; elles compromettent souvent soit la fidélité au sujet, soit la fidélité au style. Nous proposons ZipLoRA, une méthode permettant de fusionner de manière économique et efficace des LoRAs de style et de sujet entraînés indépendamment, afin de générer tout sujet fourni par l'utilisateur dans n'importe quel style fourni par l'utilisateur. Des expériences sur une large gamme de combinaisons de sujets et de styles montrent que ZipLoRA peut produire des résultats convaincants avec des améliorations significatives par rapport aux méthodes de référence en termes de fidélité au sujet et au style, tout en préservant la capacité à recontextualiser. Page du projet : https://ziplora.github.io
L'utilisation de l'apprentissage par renforcement avec feedback humain (RLHF) a montré un potentiel significatif pour le réglage fin des modèles de diffusion. Les méthodes précédentes commencent par entraîner un modèle de récompense aligné sur les préférences humaines, puis exploitent des techniques de RL pour affiner les modèles sous-jacents. Cependant, la conception d'un modèle de récompense efficace nécessite des jeux de données étendus, une architecture optimale et un réglage manuel des hyperparamètres, rendant le processus à la fois long et coûteux. La méthode d'optimisation directe des préférences (DPO), efficace pour le réglage fin des grands modèles de langage, élimine la nécessité d'un modèle de récompense. Cependant, l'importante mémoire GPU requise par le processus de débruitage des modèles de diffusion empêche l'application directe de la méthode DPO. Pour résoudre ce problème, nous introduisons la méthode Direct Preference for Denoising Diffusion Policy Optimization (D3PO) pour affiner directement les modèles de diffusion. L'analyse théorique démontre que bien que D3PO omette l'entraînement d'un modèle de récompense, il fonctionne efficacement comme le modèle de récompense optimal entraîné à l'aide de données de feedback humain pour guider le processus d'apprentissage. Cette approche ne nécessite pas l'entraînement d'un modèle de récompense, se révélant plus directe, économique et minimisant la surcharge computationnelle. Dans les expériences, notre méthode utilise l'échelle relative des objectifs comme proxy pour les préférences humaines, fournissant des résultats comparables aux méthodes utilisant des récompenses de référence. De plus, D3PO démontre la capacité à réduire les taux de distorsion d'images et à générer des images plus sûres, surmontant les défis liés à l'absence de modèles de récompense robustes.
L'utilisation de prompts contextuels dans les grands modèles de langage (LLM) est devenue une approche répandue pour améliorer les capacités en zero-shot, mais cette idée est moins explorée dans le domaine visuel. Les méthodes existantes de prompting visuel se concentrent sur la segmentation référentielle pour segmenter l'objet le plus pertinent, sans toutefois répondre à de nombreuses tâches visuelles génériques comme la segmentation en ensemble ouvert et la détection. Dans cet article, nous introduisons un cadre universel de prompting visuel contextuel pour ces deux tâches. Plus précisément, nous nous appuyons sur une architecture encodeur-décodeur et développons un encodeur de prompts polyvalent pour prendre en charge une variété de prompts tels que des traits, des boîtes et des points. Nous l'améliorons en outre pour qu'il puisse intégrer un nombre arbitraire de segments d'images de référence comme contexte. Nos explorations approfondies montrent que le prompting visuel contextuel proposé suscite des capacités extraordinaires de segmentation référentielle et générique pour référencer et détecter, obtenant des performances compétitives sur des ensembles de données fermés dans le domaine et des résultats prometteurs sur de nombreux ensembles de données de segmentation en ensemble ouvert. Grâce à un entraînement conjoint sur COCO et SA-1B, notre modèle atteint 57,7 PQ sur COCO et 23,2 PQ sur ADE20K. Le code sera disponible à l'adresse https://github.com/UX-Decoder/DINOv.
L'extension des modèles multimodaux de grande taille (LMM) basés sur l'image aux vidéos représente un défi en raison de la complexité inhérente des données vidéo. Les approches récentes visant à étendre les LMM basés sur l'image aux vidéos manquent soit de capacités d'ancrage (par exemple, VideoChat, Video-ChatGPT, Video-LLaMA), soit n'exploitent pas les signaux audio pour une meilleure compréhension des vidéos (par exemple, Video-ChatGPT). Pour combler ces lacunes, nous proposons Video-LLaVA, le premier LMM doté d'une capacité d'ancrage au niveau des pixels, intégrant des indices audio en les transcrivant en texte pour enrichir la compréhension du contexte vidéo. Notre framework utilise un tracker prêt à l'emploi et un nouveau module d'ancrage, lui permettant de localiser spatialement et temporellement des objets dans les vidéos en suivant les instructions de l'utilisateur. Nous évaluons Video-LLaVA à l'aide de benchmarks génératifs et de question-réponse basés sur la vidéo et introduisons de nouveaux benchmarks spécifiquement conçus pour mesurer les performances d'ancrage d'objets basées sur des prompts dans les vidéos. De plus, nous proposons l'utilisation de Vicuna plutôt que GPT-3.5, comme utilisé dans Video-ChatGPT, pour le benchmarking des conversations basées sur la vidéo, garantissant ainsi la reproductibilité des résultats, ce qui est une préoccupation liée à la nature propriétaire de GPT-3.5. Notre framework s'appuie sur le modèle LLaVA basé sur l'image de pointe et étend ses avantages au domaine vidéo, offrant des gains prometteurs dans les tâches de conversation et d'ancrage basées sur la vidéo. Page du projet : https://github.com/mbzuai-oryx/Video-LLaVA
Ce rapport technique traite de la génération d'images panoramiques à 360 degrés basée sur les modèles de diffusion. Contrairement aux images 2D classiques, les images panoramiques à 360 degrés capturent un champ de vision complet de 360° × 180°. Ainsi, les côtés droit et gauche de l'image panoramique à 360 degrés doivent se rejoindre de manière continue, ce qui constitue le principal défi dans ce domaine. Cependant, le pipeline de diffusion actuel n'est pas adapté à la génération d'une telle image panoramique à 360 degrés sans couture. Pour résoudre ce problème, nous proposons une stratégie de fusion circulaire à la fois lors des étapes de débruitage et de décodage VAE afin de maintenir la continuité géométrique. Sur cette base, nous présentons deux modèles pour les tâches de génération de panoramas à 360 degrés à partir de texte (Text-to-360-panoramas) et à partir d'une seule image (Single-Image-to-360-panoramas). Le code a été publié en tant que projet open-source sur https://github.com/ArcherFMY/SD-T2I-360PanoImage et https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary (ModelScope).