Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le développement récent des grands modèles multimodaux (LMMs), en particulier GPT-4V(ision) et Gemini, a rapidement repoussé les limites des capacités des modèles multimodaux au-delà des tâches traditionnelles telles que la génération de légendes d'images et la réponse à des questions visuelles. Dans ce travail, nous explorons le potentiel des LMMs comme GPT-4V en tant qu'agent web généraliste capable de suivre des instructions en langage naturel pour accomplir des tâches sur n'importe quel site web donné. Nous proposons SEEACT, un agent web généraliste qui exploite la puissance des LMMs pour une compréhension visuelle intégrée et une interaction sur le web. Nous évaluons notre approche sur le récent benchmark MIND2WEB. En plus de l'évaluation standard hors ligne sur des sites web mis en cache, nous introduisons un nouveau cadre d'évaluation en ligne en développant un outil permettant d'exécuter des agents web sur des sites web en direct. Nous montrons que GPT-4V présente un grand potentiel pour les agents web - il peut accomplir avec succès 50 % des tâches sur des sites web en direct si nous ancrons manuellement ses plans textuels en actions sur les sites web. Cela surpasse largement les modèles de langage uniquement textuels comme GPT-4 ou des modèles plus petits (FLAN-T5 et BLIP-2) spécifiquement affinés pour les agents web. Cependant, l'ancrage reste un défi majeur. Les stratégies d'ancrage existantes pour les LMMs, comme le *set-of-mark prompting*, s'avèrent inefficaces pour les agents web, et la meilleure stratégie d'ancrage que nous développons dans cet article exploite à la fois le texte HTML et les éléments visuels. Pourtant, il subsiste un écart important par rapport à un ancrage idéal, laissant une ample marge d'amélioration.
La plupart des modèles de diffusion vidéo (VDMs) existants se limitent à des conditions textuelles simples. Par conséquent, ils manquent généralement de contrôle sur l'apparence visuelle et la structure géométrique des vidéos générées. Ce travail présente Moonshot, un nouveau modèle de génération vidéo qui se base simultanément sur des entrées multimodales d'image et de texte. Le modèle s'appuie sur un module central, appelé bloc vidéo multimodal (MVB), qui comprend des couches spatio-temporelles conventionnelles pour représenter les caractéristiques vidéo, ainsi qu'une couche d'attention croisée découplée pour traiter les entrées d'image et de texte afin de conditionner l'apparence. En outre, nous avons soigneusement conçu l'architecture du modèle de manière à ce qu'il puisse s'intégrer de manière optionnelle avec des modules ControlNet d'image pré-entraînés pour les conditions visuelles géométriques, sans nécessiter de surcharge d'entraînement supplémentaire contrairement aux méthodes précédentes. Les expériences montrent qu'avec des mécanismes de conditionnement multimodaux polyvalents, Moonshot démontre une amélioration significative de la qualité visuelle et de la cohérence temporelle par rapport aux modèles existants. De plus, le modèle peut être facilement réutilisé pour une variété d'applications génératives, telles que la génération de vidéos personnalisées, l'animation d'images et l'édition vidéo, révélant son potentiel à servir d'architecture fondamentale pour la génération vidéo contrôlable. Les modèles seront rendus publics sur https://github.com/salesforce/LAVIS.
Nous présentons un modèle différentiable qui modélise explicitement les contours -- incluant les lignes, les coins et les jonctions -- en utilisant un nouveau mécanisme que nous appelons attention aux contours. Nous montrons que notre modèle fournit des résultats précis même lorsque le signal de contour est très faible ou noyé dans le bruit. Par rapport aux méthodes classiques précédentes pour détecter les contours faibles, notre modèle présente les avantages d'être différentiable ; d'être scalable à des images plus grandes ; et de s'adapter automatiquement à un niveau de détail géométrique approprié dans chaque partie d'une image. Comparé aux méthodes profondes précédentes pour détecter les contours via un apprentissage de bout en bout, il offre les avantages de fournir une précision sous-pixel, d'être plus résilient au bruit, et de pouvoir traiter n'importe quelle image à sa résolution native et son format d'aspect.
Nous présentons En3D, un schéma génératif amélioré pour sculpter des avatars humains 3D de haute qualité. Contrairement aux travaux précédents qui s'appuient sur des jeux de données 3D rares ou des collections 2D limitées avec des angles de vue déséquilibrés et des préalables de pose imprécis, notre approche vise à développer un schéma génératif 3D zero-shot capable de produire des humains 3D visuellement réalistes, géométriquement précis et diversifiés en termes de contenu, sans recourir à des ressources 3D ou 2D préexistantes. Pour relever ce défi, nous introduisons un workflow soigneusement conçu qui met en œuvre une modélisation physique précise pour apprendre le modèle génératif 3D amélioré à partir de données 2D synthétiques. Lors de l'inférence, nous intégrons des modules d'optimisation pour combler l'écart entre les apparences réalistes et les formes 3D grossières. Plus précisément, En3D comprend trois modules : un générateur 3D qui modélise avec précision des humains 3D généralisables avec une apparence réaliste à partir d'images humaines synthétisées, équilibrées, diversifiées et structurées ; un sculpteur de géométrie qui améliore la qualité des formes en utilisant des contraintes normales multi-vues pour une anatomie humaine complexe ; et un module de texturage qui dissocie des cartes de textures explicites avec fidélité et éditabilité, en exploitant un partitionnement UV sémantique et un rasteriseur différentiable. Les résultats expérimentaux montrent que notre approche surpasse significativement les travaux antérieurs en termes de qualité d'image, de précision géométrique et de diversité de contenu. Nous démontrons également l'applicabilité de nos avatars générés pour l'animation et l'édition, ainsi que l'évolutivité de notre approche pour une adaptation libre de contenu et de style.
Que nous apprend la modélisation des relations entre chaînes de caractères sur le monde visuel pour les grands modèles de langage (LLMs) ? Nous évaluons systématiquement les capacités des LLMs à générer et à reconnaître une variété de concepts visuels de complexité croissante, puis nous démontrons comment un système préliminaire d'apprentissage de représentations visuelles peut être entraîné à l'aide de modèles de texte. Étant donné que les modèles de langage ne peuvent ni consommer ni produire des informations visuelles sous forme de pixels, nous utilisons du code pour représenter les images dans notre étude. Bien que les images générées par les LLMs ne ressemblent pas à des images naturelles, les résultats en matière de génération d'images et la capacité des modèles à corriger ces images générées indiquent qu'une modélisation précise des chaînes de caractères peut enseigner aux modèles de langage de nombreux aspects du monde visuel. De plus, des expériences sur l'apprentissage auto-supervisé de représentations visuelles, utilisant des images générées avec des modèles de texte, mettent en lumière le potentiel d'entraîner des modèles de vision capables de faire des évaluations sémantiques d'images naturelles en utilisant uniquement des LLMs.
Alors que les grands modèles de langage (LLM) ajustés par instruction gagnent en adoption mondiale, leur capacité à suivre des instructions dans plusieurs langues devient de plus en plus cruciale. Une approche prometteuse est le transfert translinguistique, où un modèle acquiert une fonctionnalité spécifique dans une langue en étant affiné sur une autre langue. Dans ce travail, nous étudions comment le multilinguisme lors de l'ajustement par instruction d'un LLM multilingue affecte le suivi des instructions à travers les langues. Nous montrons d'abord que de nombreuses langues transfèrent certaines capacités de suivi des instructions à d'autres langues, même avec un ajustement monolingue. De plus, nous constatons que seulement 40 exemples multilingues dans un ensemble d'ajustement en anglais améliorent considérablement le suivi des instructions multilingues, à la fois dans les langues vues et non vues lors de l'ajustement. En général, nous observons que les modèles ajustés sur des mélanges multilingues présentent des performances comparables ou supérieures dans plusieurs langues par rapport aux modèles ajustés de manière monolingue, malgré un entraînement sur 10 fois moins d'exemples dans ces langues. Enfin, nous constatons que l'augmentation du nombre de langues dans l'ensemble d'ajustement par instruction de 1 à seulement 2, 3 ou 4 augmente la généralisation translinguistique. Nos résultats suggèrent que la construction de modèles massivement multilingues ajustés par instruction peut être réalisée avec seulement un très petit ensemble de réponses d'instruction multilingues.
Malgré les performances remarquables de la distillation de scores dans la génération de texte-à-3D, ces techniques souffrent notoirement de problèmes d'incohérence de vue, également connus sous le nom d'artefact "Janus", où les objets générés présentent plusieurs faces avant pour chaque vue. Bien que des méthodes empiriquement efficaces aient abordé ce problème via la correction des biais de scores ou l'ingénierie de prompts, une perspective plus rigoureuse pour expliquer et résoudre ce problème reste insaisissable. Dans cet article, nous révélons que les cadres existants de génération de texte-à-3D basés sur la distillation de scores dégénèrent en une recherche de vraisemblance maximale sur chaque vue indépendamment, souffrant ainsi du problème d'effondrement de mode, qui se manifeste comme l'artefact Janus en pratique. Pour maîtriser l'effondrement de mode, nous améliorons la distillation de scores en réintroduisant un terme d'entropie dans l'objectif variationnel correspondant, appliqué à la distribution des images rendues. Maximiser l'entropie encourage la diversité parmi les différentes vues dans les actifs 3D générés, atténuant ainsi le problème Janus. Sur la base de ce nouvel objectif, nous dérivons une nouvelle règle de mise à jour pour la distillation de scores 3D, appelée Distillation de Scores Entropique (ESD). Nous révélons théoriquement que l'ESD peut être simplifiée et implémentée en adoptant simplement l'astuce de guidage sans classifieur sur la distillation de scores variationnelle. Bien que d'une simplicité embarrassante, nos expériences approfondies démontrent avec succès que l'ESD peut être un traitement efficace contre les artefacts Janus dans la distillation de scores.
Cet article présente l'API WordArt Designer, un cadre novateur pour la synthèse de typographie artistique pilotée par l'utilisateur, exploitant les modèles de langage de grande taille (LLMs) sur ModelScope. Nous abordons le défi de simplifier la typographie artistique pour les non-professionnels en proposant une alternative dynamique, adaptable et efficace sur le plan computationnel aux modèles rigides traditionnels. Notre approche tire parti de la puissance des LLMs pour comprendre et interpréter les entrées utilisateur, facilitant ainsi un processus de conception plus intuitif. À travers diverses études de cas, nous démontrons comment les utilisateurs peuvent exprimer leurs préférences esthétiques et leurs exigences fonctionnelles, que le système traduit ensuite en designs typographiques uniques et créatifs. Nos évaluations indiquent des améliorations significatives en termes de satisfaction utilisateur, de flexibilité de conception et d'expression créative par rapport aux systèmes existants. L'API WordArt Designer ne démocratise pas seulement l'art de la typographie, mais ouvre également de nouvelles possibilités pour la communication numérique et la conception personnalisées.