Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) sont au cœur du traitement moderne du langage naturel, offrant des performances exceptionnelles dans diverses tâches. Cependant, leurs exigences intensives en calcul et en mémoire posent des défis, en particulier pour les appareils dotés d'une capacité DRAM limitée. Cet article aborde le défi d'exécuter efficacement des LLMs qui dépassent la capacité DRAM disponible en stockant les paramètres du modèle sur une mémoire flash, mais en les transférant à la demande vers la DRAM. Notre méthode consiste à construire un modèle de coût d'inférence qui s'harmonise avec le comportement de la mémoire flash, nous guidant pour optimiser deux aspects critiques : réduire le volume de données transférées depuis la flash et lire les données en blocs plus grands et plus contigus. Dans ce cadre informé par la mémoire flash, nous introduisons deux techniques principales. Premièrement, le "fenêtrage" réduit stratégiquement le transfert de données en réutilisant les neurones précédemment activés, et deuxièmement, le "regroupement ligne-colonne", adapté aux forces d'accès séquentiel des données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement d'exécuter des modèles jusqu'à deux fois la taille de la DRAM disponible, avec une augmentation de 4 à 5 fois et de 20 à 25 fois de la vitesse d'inférence par rapport aux approches de chargement naïves sur CPU et GPU, respectivement. Notre intégration de la prise en compte de la parcimonie, du chargement adaptatif au contexte et d'une conception orientée matériel ouvre la voie à une inférence efficace des LLMs sur des appareils à mémoire limitée.
Les graphiques vectoriels évolutifs (SVG) sont devenus essentiels dans les applications modernes de rendu d'images grâce à leur évolutivité infinie en termes de résolution, leur polyvalence d'utilisation et leurs capacités d'édition. Les SVG sont particulièrement populaires dans les domaines du développement web et du design graphique. Les approches existantes pour la modélisation des SVG utilisant l'apprentissage profond peinent souvent à générer des SVG complexes et se limitent à des versions plus simples nécessitant un traitement et une simplification intensifs. Cet article présente StarVector, un modèle multimodal de génération de SVG qui intègre efficacement des modèles de langage de grande taille pour la génération de code (CodeLLMs) et des modèles de vision. Notre approche utilise un encodeur d'images CLIP pour extraire des représentations visuelles à partir d'images basées sur des pixels, qui sont ensuite transformées en tokens visuels via un module d'adaptation. Ces tokens visuels sont préfixés aux embeddings de tokens SVG, et la séquence est modélisée par le modèle StarCoder en utilisant la prédiction du token suivant, apprenant ainsi à aligner les tokens visuels et de code. Cela permet à StarVector de générer des SVG sans restriction qui représentent fidèlement les images pixelisées. Pour évaluer les performances de StarVector, nous présentons SVG-Bench, un benchmark complet pour évaluer les méthodes de génération de SVG sur plusieurs ensembles de données et métriques pertinentes. Dans ce benchmark, nous introduisons de nouveaux ensembles de données, notamment SVG-Stack, un ensemble de données à grande échelle d'exemples de SVG du monde réel, et l'utilisons pour pré-entraîner StarVector en tant que modèle de fondation de grande taille pour les SVG. Nos résultats démontrent des améliorations significatives en termes de qualité visuelle et de gestion de la complexité par rapport aux méthodes actuelles, marquant une avancée notable dans la technologie de génération de SVG. Code et modèles : https://github.com/joanrod/star-vector
La reconstruction de la structure 3D et de la caméra à partir de points de repère 2D est au cœur de toute la discipline de la vision par ordinateur. Les méthodes traditionnelles se sont limitées à des objets rigides spécifiques, comme ceux des problèmes Perspective-n-Point (PnP), mais l'apprentissage profond a élargi notre capacité à reconstruire une large gamme de classes d'objets (par exemple, C3PDO et PAUL) avec une résilience au bruit, aux occlusions et aux distorsions de perspective. Cependant, toutes ces techniques ont été limitées par le besoin fondamental d'établir des correspondances dans les données d'entraînement 3D, ce qui restreint considérablement leur utilité aux applications où l'on dispose d'une abondance de données 3D "en correspondance". Notre approche exploite l'équivariance par permutation inhérente aux transformers pour gérer un nombre variable de points par instance de données 3D, résister aux occlusions et généraliser à des catégories non vues. Nous démontrons des performances de pointe sur les benchmarks de tâches de reconstruction 2D-3D. Puisque notre approche peut être entraînée sur une si large classe de structures, nous la qualifions simplement de modèle fondateur de reconstruction 3D (3D-LFM) — le premier du genre.
La capacité des grands modèles de langage (LLMs) à traiter des entrées visuelles a donné naissance à des systèmes de vision polyvalents, unifiant diverses tâches vision-langage (VL) par ajustement instructionnel. Cependant, en raison de l'énorme diversité des formats d'entrée-sortie dans le domaine de la vision, les modèles polyvalents existants échouent à intégrer avec succès la segmentation et les entrées multi-images avec des tâches de niveau grossier dans un cadre unique. Dans ce travail, nous présentons VistaLLM, un système visuel puissant qui aborde les tâches VL grossières et fines sur des images uniques et multiples en utilisant un cadre unifié. VistaLLM utilise un tokeniseur d'images guidé par des instructions qui filtre les embeddings globaux en utilisant les descriptions de tâches pour extraire des caractéristiques compressées et raffinées de nombreuses images. De plus, VistaLLM emploie une technique d'échantillonnage adaptatif sensible au gradient pour représenter les masques de segmentation binaire sous forme de séquences, améliorant significativement par rapport à l'échantillonnage uniforme précédemment utilisé. Pour renforcer les capacités souhaitées de VistaLLM, nous avons constitué CoinIt, un ensemble de données complet d'ajustement instructionnel du grossier au fin avec 6,8 millions d'échantillons. Nous abordons également le manque de données d'ancrage multi-images en introduisant une nouvelle tâche, AttCoSeg (Co-Segmentation au niveau des attributs), qui améliore la capacité de raisonnement et d'ancrage du modèle sur plusieurs images d'entrée. Des expériences approfondies sur une large gamme de tâches V et VL démontrent l'efficacité de VistaLLM en atteignant des performances de pointe cohérentes par rapport à des bases de référence solides dans toutes les tâches en aval. Notre page de projet est disponible à l'adresse https://shramanpramanick.github.io/VistaLLM/.
Nous présentons HAAR, un nouveau modèle génératif basé sur des mèches pour les coiffures humaines en 3D. Concrètement, à partir d'entrées textuelles, HAAR produit des coiffures 3D qui peuvent être utilisées comme des ressources de niveau production dans les moteurs de graphismes informatiques modernes. Les modèles génératifs actuels basés sur l'IA exploitent des connaissances préalables 2D puissantes pour reconstruire du contenu 3D sous forme de nuages de points, de maillages ou de fonctions volumétriques. Cependant, en utilisant ces connaissances 2D, ils sont intrinsèquement limités à ne reconstruire que les parties visibles. Les structures capillaires fortement occluses ne peuvent pas être reconstruites avec ces méthodes, et elles ne modélisent que la « coque externe », qui n'est pas prête à être utilisée dans des pipelines de rendu ou de simulation basés sur la physique. En revanche, nous proposons une première méthode générative guidée par texte qui utilise des mèches de cheveux 3D comme représentation sous-jacente. En tirant parti des systèmes de question-réponse visuelle (VQA) en 2D, nous annotons automatiquement des modèles capillaires synthétiques générés à partir d'un petit ensemble de coiffures créées par des artistes. Cela nous permet d'entraîner un modèle de diffusion latente opérant dans un espace UV commun pour les coiffures. Dans des études qualitatives et quantitatives, nous démontrons les capacités du modèle proposé et le comparons aux approches existantes de génération de coiffures.
La perception amodale, la capacité à comprendre les structures complètes des objets à partir d'une visibilité partielle, est une compétence fondamentale, même pour les nourrissons. Son importance s'étend à des applications comme la conduite autonome, où une compréhension claire des objets fortement occultés est essentielle. Cependant, les algorithmes modernes de détection et de suivi négligent souvent cette capacité critique, peut-être en raison de la prévalence des annotations modales dans la plupart des ensembles de données. Pour remédier à la rareté des données amodales, nous introduisons le benchmark TAO-Amodal, comprenant 880 catégories diverses dans des milliers de séquences vidéo. Notre ensemble de données inclut des boîtes englobantes amodales et modales pour les objets visibles et occultés, y compris les objets partiellement hors cadre. Pour améliorer le suivi amodal avec la permanence des objets, nous utilisons un module léger, l'expansif amodal, pour transformer les trackers modaux standards en trackers amodaux par fine-tuning sur quelques centaines de séquences vidéo avec augmentation des données. Nous obtenons une amélioration de 3,3 % et 1,6 % dans la détection et le suivi des objets occultés sur TAO-Amodal. Lorsqu'elle est évaluée sur des personnes, notre méthode produit des améliorations spectaculaires de 2x par rapport aux bases modales de pointe.
Le Neural Radiance Field (NeRF) s'est imposé comme une technique de pointe pour la synthèse de nouvelles vues, grâce à ses capacités impressionnantes de reconstruction et de rendu photoréalistes. Cependant, la réalisation d'un rendu NeRF en temps réel dans des scènes à grande échelle a posé des défis, conduisant souvent à l'adoption soit de représentations complexes de maillages précalculés avec un nombre important de triangles, soit de techniques de ray marching gourmandes en ressources dans des représentations précalculées. Nous remettons en question ces conventions, en observant qu'une géométrie de haute qualité, représentée par des maillages comportant un grand nombre de triangles, n'est pas nécessaire pour atteindre une qualité de rendu photoréaliste. Par conséquent, nous proposons MixRT, une nouvelle représentation NeRF qui inclut un maillage de faible qualité, une carte de déplacement dépendante de la vue et un modèle NeRF compressé. Cette conception exploite efficacement les capacités du matériel graphique existant, permettant ainsi un rendu NeRF en temps réel sur des appareils embarqués. En s'appuyant sur un framework de rendu hautement optimisé basé sur WebGL, notre proposition MixRT atteint des vitesses de rendu en temps réel sur des appareils embarqués (plus de 30 FPS à une résolution de 1280 x 720 sur un MacBook M1 Pro), une meilleure qualité de rendu (0,2 PSNR de plus dans les scènes intérieures des jeux de données Unbounded-360) et une taille de stockage réduite (moins de 80 % par rapport aux méthodes de pointe).
Les techniques de super-résolution (SR) ont récemment été proposées pour augmenter la résolution des sorties des champs de radiance neuronaux (NeRF) et générer des images de haute qualité avec des vitesses d'inférence améliorées. Cependant, les méthodes existantes combinant NeRF et SR augmentent la surcharge d'entraînement en utilisant des caractéristiques d'entrée supplémentaires, des fonctions de perte et/ou des procédures d'entraînement coûteuses telles que la distillation de connaissances. Dans cet article, nous visons à exploiter la SR pour des gains d'efficacité sans entraînement coûteux ni modifications architecturales. Plus précisément, nous construisons un pipeline simple combinant NeRF et SR qui intègre directement des modules existants, et nous proposons une technique d'augmentation légère, l'échantillonnage aléatoire de patchs, pour l'entraînement. Par rapport aux méthodes existantes combinant NeRF et SR, notre pipeline réduit la surcharge de calcul liée à la SR et peut être entraîné jusqu'à 23 fois plus rapidement, le rendant utilisable sur des appareils grand public tels que le MacBook d'Apple. Les expériences montrent que notre pipeline peut augmenter la résolution des sorties de NeRF par un facteur de 2 à 4 tout en maintenant une haute qualité, augmentant les vitesses d'inférence jusqu'à 18 fois sur une GPU NVIDIA V100 et 12,8 fois sur une puce M1 Pro. Nous concluons que la SR peut être une technique simple mais efficace pour améliorer l'efficacité des modèles NeRF sur les appareils grand public.
Dans cet article, nous présentons une nouvelle approche en deux étapes qui exploite pleinement les informations fournies par l'image de référence pour établir un a priori de connaissances personnalisé pour la génération d'images en 3D. Alors que les approches précédentes reposent principalement sur un a priori de diffusion général, qui peine à produire des résultats cohérents avec l'image de référence, nous proposons un modèle de diffusion spécifique au sujet et multimodal. Ce modèle non seulement facilite l'optimisation de NeRF en prenant en compte le mode d'ombrage pour améliorer la géométrie, mais améliore également la texture à partir des résultats bruts pour obtenir un affinage supérieur. Ces deux aspects contribuent à aligner fidèlement le contenu 3D avec le sujet. Des expériences approfondies démontrent la supériorité de notre méthode, Customize-It-3D, surpassant de manière significative les travaux précédents. Elle produit des reconstructions fidèles à 360 degrés avec une qualité visuelle impressionnante, la rendant bien adaptée à diverses applications, y compris la création de texte en 3D.
Les vidéos constituent une source de données hautement redondante, et il est souvent suffisant d'identifier quelques moments clés pour résoudre une tâche donnée. Dans cet article, nous présentons un module de rééchantillonnage vidéo conditionné par texte (TCR) qui utilise un encodeur visuel pré-entraîné et figé ainsi qu'un modèle de langage de grande taille (LLM) pour traiter de longues séquences vidéo en fonction d'une tâche. Le TCR localise les caractéristiques visuelles pertinentes de la vidéo en fonction d'une condition textuelle et les fournit à un LLM pour générer une réponse textuelle. Grâce à sa conception légère et à l'utilisation de l'attention croisée, le TCR peut traiter plus de 100 images à la fois, permettant au modèle d'utiliser des segments vidéo beaucoup plus longs que les travaux précédents. Nous apportons les contributions suivantes : (i) nous concevons une architecture d'échantillonnage basée sur des transformateurs capable de traiter de longues vidéos conditionnées par une tâche, ainsi qu'une méthode d'entraînement qui lui permet de relier des modèles visuels et linguistiques pré-entraînés ; (ii) nous validons empiriquement son efficacité sur une grande variété de tâches d'évaluation, et établissons un nouvel état de l'art sur NextQA, EgoSchema et le défi EGO4D-LTA ; et (iii) nous identifions les tâches qui nécessitent des contextes vidéo plus longs et qui peuvent donc être utilisées efficacement pour une évaluation approfondie des modèles vidéo à long terme.
Les modèles de diffusion pilotés par texte sont devenus de plus en plus populaires pour diverses tâches d'édition d'images, notamment l'inpainting, la stylisation et le remplacement d'objets. Cependant, il reste un problème de recherche ouvert d'adopter ce paradigme langage-vision pour des tâches de traitement d'image plus fines, telles que le débruitage, la super-résolution, le défloutage et la suppression des artefacts de compression. Dans cet article, nous développons TIP, un cadre de traitement d'image piloté par texte qui exploite le langage naturel comme interface conviviale pour contrôler le processus de restauration d'image. Nous considérons la capacité de l'information textuelle sous deux dimensions. Premièrement, nous utilisons des invites liées au contenu pour améliorer l'alignement sémantique, atténuant efficacement l'ambiguïté d'identité dans les résultats de restauration. Deuxièmement, notre approche est le premier cadre à supporter des instructions fines via une spécification quantitative basée sur la langue de l'intensité de restauration, sans nécessiter de conception explicite spécifique à la tâche. De plus, nous introduisons un nouveau mécanisme de fusion qui améliore l'architecture existante de ControlNet en apprenant à redimensionner le prior génératif, permettant ainsi une meilleure fidélité de restauration. Nos expériences approfondies démontrent la performance de restauration supérieure de TIP par rapport à l'état de l'art, tout en offrant la flexibilité d'un contrôle textuel sur les effets de restauration.
Cet article présente une nouvelle approche pour la modélisation thématique en exploitant les codebooks latents d'un Auto-Encodeur Variationnel Vectoriellement Quantifié (VQ-VAE), encapsulant de manière discrète les informations riches des embeddings pré-entraînés, tels que ceux d'un modèle de langage pré-entraîné. En interprétant de manière novatrice les codebooks latents et les embeddings comme des sacs de mots conceptuels, nous proposons un nouveau modèle génératif de thèmes appelé Topic-VQ-VAE (TVQ-VAE), qui génère de manière inverse les documents originaux associés à chaque codebook latent. Le TVQ-VAE permet de visualiser les thèmes avec diverses distributions génératives, incluant la distribution traditionnelle de sacs de mots (BoW) et la génération d'images autoregressive. Nos résultats expérimentaux sur l'analyse de documents et la génération d'images démontrent que le TVQ-VAE capture efficacement le contexte thématique, révélant les structures sous-jacentes du jeu de données et supportant des formes flexibles de génération de documents. L'implémentation officielle du TVQ-VAE proposé est disponible à l'adresse https://github.com/clovaai/TVQ-VAE.