Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous étudions empiriquement une stratégie simple d'élagage de couches pour des familles populaires de grands modèles de langage (LLM) pré-entraînés à poids ouverts, constatant une dégradation minimale des performances sur différents benchmarks de question-réponse jusqu'à ce qu'une grande fraction (jusqu'à la moitié) des couches soit supprimée. Pour élaguer ces modèles, nous identifions le bloc optimal de couches à éliminer en considérant la similarité entre les couches ; puis, pour "réparer" les dommages, nous effectuons un léger ajustement fin. En particulier, nous utilisons des méthodes d'ajustement fin efficace en paramètres (PEFT), spécifiquement la quantification et les adaptateurs de bas rang (QLoRA), de sorte que chacune de nos expériences puisse être réalisée sur une seule GPU A100. D'un point de vue pratique, ces résultats suggèrent que les méthodes d'élagage de couches peuvent compléter d'autres stratégies PEFT pour réduire davantage les ressources computationnelles nécessaires à l'ajustement fin d'une part, et améliorer la mémoire et la latence de l'inférence d'autre part. D'un point de vue scientifique, la robustesse de ces LLMs à la suppression de couches implique soit que les méthodes actuelles de pré-entraînement n'exploitent pas correctement les paramètres dans les couches profondes du réseau, soit que les couches superficielles jouent un rôle crucial dans le stockage des connaissances.
L'évolution des modèles de langage à grande échelle (LLMs) comme ChatGPT et GPT-4 a suscité des discussions sur l'avènement de l'Intelligence Artificielle Générale (AGI). Cependant, reproduire de telles avancées dans des modèles open-source s'est avéré difficile. Cet article présente InternLM2, un LLM open-source qui surpasse ses prédécesseurs dans des évaluations exhaustives couvrant 6 dimensions et 30 benchmarks, la modélisation de contextes longs, ainsi que des évaluations subjectives ouvertes grâce à des techniques innovantes de pré-entraînement et d'optimisation. Le processus de pré-entraînement d'InternLM2 est minutieusement détaillé, mettant en lumière la préparation de divers types de données, incluant du texte, du code et des données à contexte long. InternLM2 capture efficacement les dépendances à long terme, étant initialement entraîné sur des séquences de 4k tokens avant de progresser à 32k tokens lors des phases de pré-entraînement et de fine-tuning, démontrant des performances remarquables sur le test "Needle-in-a-Haystack" de 200k tokens. InternLM2 est ensuite aligné à l'aide d'un Fine-Tuning Supervisé (SFT) et d'une nouvelle stratégie de Reinforcement Learning from Human Feedback conditionnel en ligne (COOL RLHF) qui aborde les conflits de préférences humaines et le piratage des récompenses. En publiant les modèles InternLM2 à différentes étapes d'entraînement et tailles de modèles, nous offrons à la communauté des insights sur l'évolution du modèle.
Le 3D Gaussian Splatting (3DGS) a récemment révolutionné la reconstruction de champs de radiance, permettant une synthèse de nouvelles vues de haute qualité et un rendu rapide sans précalcul. Cependant, le 3DGS échoue à représenter avec précision les surfaces en raison de la nature incohérente en multi-vues des Gaussiennes 3D. Nous présentons le 2D Gaussian Splatting (2DGS), une nouvelle approche pour modéliser et reconstruire des champs de radiance géométriquement précis à partir d'images multi-vues. Notre idée clé est de réduire le volume 3D en un ensemble de disques gaussiens 2D orientés. Contrairement aux Gaussiennes 3D, les Gaussiennes 2D fournissent une géométrie cohérente en vue tout en modélisant intrinsèquement les surfaces. Pour reconstituer avec précision les surfaces fines et obtenir une optimisation stable, nous introduisons un processus de splatting 2D précis en perspective utilisant l'intersection rayon-splat et la rasterisation. De plus, nous intégrons des termes de distorsion de profondeur et de cohérence des normales pour améliorer davantage la qualité des reconstructions. Nous démontrons que notre rendu différenciable permet une reconstruction géométrique détaillée et sans bruit tout en maintenant une qualité d'apparence compétitive, une vitesse d'entraînement rapide et un rendu en temps réel. Notre code sera rendu public.
Les avancées impressionnantes dans les modèles génératifs texte-à-image (T2I) ont donné naissance à une pléthore de modèles performants capables de générer des images esthétiquement attrayantes et photoréalistes. Malgré ces progrès, ces modèles peinent encore à produire des images cohérentes avec l'invite d'entrée, échouant souvent à capturer correctement les quantités d'objets, leurs relations et leurs attributs. Les solutions existantes pour améliorer la cohérence entre l'invite et l'image se heurtent aux défis suivants : (1) elles nécessitent souvent un ajustement fin du modèle, (2) elles se concentrent uniquement sur des échantillons d'invites proches, et (3) elles sont affectées par des compromis défavorables entre la qualité de l'image, la diversité de la représentation et la cohérence entre l'invite et l'image. Dans cet article, nous relevons ces défis et introduisons un cadre d'optimisation par invitation, OPT2I, qui exploite un modèle de langage de grande taille (LLM) pour améliorer la cohérence entre l'invite et l'image dans les modèles T2I. Notre cadre part d'une invite utilisateur et génère itérativement des invites révisées dans le but de maximiser un score de cohérence. Notre validation approfondie sur deux ensembles de données, MSCOCO et PartiPrompts, montre qu'OPT2I peut augmenter le score de cohérence initial jusqu'à 24,9 % en termes de score DSG tout en préservant le FID et en augmentant le rappel entre les données générées et réelles. Notre travail ouvre la voie à la construction de systèmes T2I plus fiables et robustes en exploitant la puissance des LLM.
Les techniques récentes pour la génération de texte-à-4D synthétisent des scènes 3D dynamiques en utilisant la supervision de modèles pré-entraînés de texte-à-vidéo. Cependant, les représentations existantes du mouvement, telles que les modèles de déformation ou les représentations neuronales dépendantes du temps, sont limitées dans la quantité de mouvement qu'elles peuvent générer—elles ne peuvent pas synthétiser des mouvements s'étendant bien au-delà de la boîte englobante utilisée pour le rendu volumétrique. L'absence d'un modèle de mouvement plus flexible contribue à l'écart de réalisme entre les méthodes de génération 4D et les modèles récents de génération de vidéos quasi-photoréalistes. Ici, nous proposons TC4D : la génération texte-à-4D conditionnée par trajectoire, qui décompose le mouvement en composantes globales et locales. Nous représentons le mouvement global de la boîte englobante d'une scène en utilisant une transformation rigide le long d'une trajectoire paramétrée par une spline. Nous apprenons les déformations locales qui se conforment à la trajectoire globale en utilisant la supervision d'un modèle texte-à-vidéo. Notre approche permet la synthèse de scènes animées le long de trajectoires arbitraires, la génération de scènes compositionnelles, et des améliorations significatives du réalisme et de la quantité de mouvement généré, que nous évaluons qualitativement et à travers une étude utilisateur. Les résultats vidéo peuvent être consultés sur notre site web : https://sherwinbahmani.github.io/tc4d.
La récente technique de splatting par Gaussiennes 3D (3D-GS) a démontré une fidélité et une efficacité de rendu remarquables par rapport aux représentations de scènes neuronales basées sur NeRF. Bien qu'elle montre un potentiel pour le rendu en temps réel, la 3D-GS rencontre des goulots d'étranglement dans les scènes de grande taille avec des détails complexes en raison d'un nombre excessif de primitives Gaussiennes situées dans le frustum de vision. Cette limitation est particulièrement visible dans les vues éloignées et peut entraîner des vitesses de rendu incohérentes dans les scènes avec des détails variés. De plus, elle a souvent du mal à capturer le niveau de détails correspondant à différentes échelles avec son opération heuristique de contrôle de densité. Inspirés par les techniques de Niveau de Détail (LOD), nous introduisons Octree-GS, qui propose une approche de Gaussiennes 3D structurée en LOD, supportant une décomposition en niveaux de détail pour la représentation de scènes qui contribue aux résultats de rendu finaux. Notre modèle sélectionne dynamiquement le niveau approprié parmi un ensemble de points d'ancrage multi-résolution, garantissant une performance de rendu cohérente grâce à des ajustements adaptatifs du LOD tout en maintenant des résultats de rendu de haute fidélité.
Dans cette étude, nous proposons AniPortrait, un nouveau cadre pour générer des animations de haute qualité pilotées par l'audio et une image de portrait de référence. Notre méthodologie est divisée en deux étapes. Initialement, nous extrayons des représentations intermédiaires 3D à partir de l'audio et les projetons en une séquence de points de repère faciaux 2D. Ensuite, nous utilisons un modèle de diffusion robuste, couplé à un module de mouvement, pour convertir la séquence de points de repère en une animation de portrait photoréaliste et temporellement cohérente. Les résultats expérimentaux démontrent la supériorité d'AniPortrait en termes de naturalité faciale, de diversité des poses et de qualité visuelle, offrant ainsi une expérience perceptuelle améliorée. De plus, notre méthodologie présente un potentiel considérable en termes de flexibilité et de contrôlabilité, qui peut être efficacement appliqué dans des domaines tels que l'édition de mouvements faciaux ou le réenactment facial. Nous publions le code et les poids des modèles à l'adresse https://github.com/scutzzj/AniPortrait.
Nous présentons DreamPolisher, une nouvelle méthode basée sur le Gaussian Splatting avec guidage géométrique, conçue pour apprendre la cohérence inter-vues et les détails complexes à partir de descriptions textuelles. Bien que les progrès récents des méthodes de génération de texte-à-3D soient prometteurs, les méthodes actuelles échouent souvent à garantir la cohérence des vues et la richesse texturale. Ce problème devient particulièrement visible pour les méthodes qui fonctionnent uniquement avec une entrée textuelle. Pour y remédier, nous proposons une approche en deux étapes basée sur le Gaussian Splatting qui impose une cohérence géométrique entre les vues. Initialement, une génération 3D grossière est affinée via une optimisation géométrique. Ensuite, nous utilisons un raffineur piloté par ControlNet couplé à un terme de cohérence géométrique pour améliorer à la fois la fidélité des textures et la cohérence globale de l'asset 3D généré. Les évaluations empiriques sur divers prompts textuels couvrant différentes catégories d'objets démontrent l'efficacité de DreamPolisher à générer des objets 3D cohérents et réalistes, en alignement étroit avec la sémantique des instructions textuelles.
Cet article présente une implémentation SYCL de perceptrons multicouches (MLP), conçue et optimisée pour le processeur graphique Intel Data Center GPU Max 1550. Pour améliorer les performances, notre implémentation minimise les accès lents à la mémoire globale en maximisant la réutilisation des données dans le fichier de registres généraux et la mémoire locale partagée, grâce à la fusion des opérations dans chaque couche du MLP. Nous démontrons, à l'aide d'un modèle de toit simple, que cela entraîne une augmentation significative de l'intensité arithmétique, conduisant à des performances améliorées, en particulier pour l'inférence. Nous comparons notre approche à une implémentation CUDA similaire pour les MLP et montrons que notre implémentation sur le processeur graphique Intel surpasse l'implémentation CUDA sur le GPU H100 de Nvidia d'un facteur allant jusqu'à 2,84 pour l'inférence et 1,75 pour l'entraînement. L'article met également en lumière l'efficacité de notre implémentation SYCL dans trois domaines majeurs : la compression d'images, les champs de radiance neuronaux et l'apprentissage automatique informé par la physique. Dans tous les cas, notre implémentation surpasse l'implémentation standard Intel Extension for PyTorch (IPEX) sur le même GPU Intel d'un facteur allant jusqu'à 30, et la version CUDA de PyTorch sur le GPU H100 de Nvidia d'un facteur allant jusqu'à 19. Le code est disponible à l'adresse https://github.com/intel/tiny-dpcpp-nn.