Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage basés sur Transformer répartissent uniformément les FLOPs sur les séquences d'entrée. Dans ce travail, nous démontrons que les transformers peuvent plutôt apprendre à allouer dynamiquement les FLOPs (ou calcul) à des positions spécifiques dans une séquence, optimisant ainsi l'allocation le long de la séquence pour différentes couches à travers la profondeur du modèle. Notre méthode impose un budget de calcul total en limitant le nombre de tokens (k) pouvant participer aux calculs d'auto-attention et de MLP à une couche donnée. Les tokens à traiter sont déterminés par le réseau à l'aide d'un mécanisme de routage top-k. Puisque k est défini a priori, cette procédure simple utilise un graphe de calcul statique avec des tailles de tenseurs connues, contrairement à d'autres techniques de calcul conditionnel. Néanmoins, puisque les identités des k tokens sont fluides, cette méthode peut dépenser les FLOPs de manière non uniforme à travers les dimensions temporelles et de profondeur du modèle. Ainsi, la dépense de calcul est entièrement prévisible en somme totale, mais dynamique et sensible au contexte au niveau des tokens. Non seulement les modèles entraînés de cette manière apprennent à allouer dynamiquement le calcul, mais ils le font efficacement. Ces modèles égalent les performances de référence pour des FLOPs et temps d'entraînement équivalents, mais nécessitent une fraction des FLOPs par passage avant, et peuvent être jusqu'à 50\% plus rapides à exécuter lors de l'échantillonnage post-entraînement.
Nous présentons le Visual AutoRegressive modeling (VAR), un nouveau paradigme de génération qui redéfinit l'apprentissage autorégressif sur les images en tant que prédiction "d'échelle suivante" ou "de résolution suivante" du grossier au fin, s'écartant de la prédiction "de token suivant" par balayage raster standard. Cette méthodologie simple et intuitive permet aux transformateurs autorégressifs (AR) d'apprendre rapidement les distributions visuelles et de bien généraliser : VAR permet, pour la première fois, aux modèles AR de surpasser les transformateurs de diffusion en génération d'images. Sur le benchmark ImageNet 256x256, VAR améliore significativement la base de référence AR en améliorant la distance de Fréchet inception (FID) de 18,65 à 1,80, et le score inception (IS) de 80,4 à 356,4, avec une vitesse d'inférence environ 20 fois plus rapide. Il est également vérifié empiriquement que VAR surpasse le Diffusion Transformer (DiT) dans plusieurs dimensions, notamment la qualité de l'image, la vitesse d'inférence, l'efficacité des données et l'évolutivité. La mise à l'échelle des modèles VAR montre des lois d'échelle en puissance claires, similaires à celles observées dans les LLM, avec des coefficients de corrélation linéaire proches de -0,998 comme preuve solide. VAR démontre en outre une capacité de généralisation zero-shot dans des tâches en aval, y compris le remplissage d'image, l'extension d'image et l'édition. Ces résultats suggèrent que VAR a initialement imité les deux propriétés importantes des LLM : les lois d'échelle et la généralisation des tâches en zero-shot. Nous avons publié tous les modèles et codes pour promouvoir l'exploration des modèles AR/VAR pour la génération visuelle et l'apprentissage unifié.
Le raisonnement algorithmique désigne la capacité à comprendre les schémas complexes sous-jacents à un problème et à les décomposer en une séquence d'étapes de raisonnement menant à la solution. Cette nature du raisonnement algorithmique en fait un défi pour les grands modèles de langage (LLMs), même si ceux-ci ont démontré des performances prometteuses dans d'autres tâches de raisonnement. Dans ce contexte, certaines études récentes utilisent des langages de programmation (par exemple, Python) pour exprimer la logique nécessaire à la résolution d'une instance/question donnée (par exemple, Program-of-Thought), inspirées par leur syntaxe stricte et précise. Cependant, il n'est pas trivial d'écrire un code exécutable qui exprime la logique correcte à la volée lors d'un seul appel d'inférence. De plus, le code généré spécifiquement pour une instance ne peut pas être réutilisé pour d'autres, même si elles relèvent de la même tâche et pourraient nécessiter une logique identique pour être résolues. Cet article présente Think-and-Execute, un cadre novateur qui décompose le processus de raisonnement des modèles de langage en deux étapes. (1) Dans Think, nous découvrons une logique au niveau de la tâche qui est partagée par toutes les instances pour résoudre une tâche donnée, puis nous exprimons cette logique sous forme de pseudocode ; (2) Dans Execute, nous adaptons davantage le pseudocode généré à chaque instance et simulons l'exécution du code. Grâce à des expériences approfondies sur sept tâches de raisonnement algorithmique, nous démontrons l'efficacité de Think-and-Execute. Notre approche améliore mieux le raisonnement des LLMs par rapport à plusieurs bases de référence solides effectuant un raisonnement spécifique à l'instance (par exemple, CoT et PoT), suggérant l'utilité de découvrir une logique au niveau de la tâche. De plus, nous montrons que, par rapport au langage naturel, le pseudocode peut mieux guider le raisonnement des LLMs, même si ceux-ci sont entraînés à suivre des instructions en langage naturel.
Les grands modèles de langage (LLMs) ont démontré une excellente maîtrise du langage humain, mais peinent encore dans les applications réelles nécessitant la résolution de problèmes mathématiques. Bien que de nombreuses stratégies et jeux de données visant à améliorer les capacités mathématiques des LLMs aient été développés, il reste un défi de maintenir et d'améliorer simultanément les capacités linguistiques et mathématiques dans les systèmes LLMs déployés. Dans ce travail, nous adaptons le pipeline d'auto-critique, qui aborde ce défi lors de l'étape d'apprentissage par feedback dans l'alignement des LLMs. Nous commençons par entraîner un modèle général de Math-Critique à partir du LLM lui-même pour fournir des signaux de feedback. Ensuite, nous utilisons séquentiellement un réglage fin par rejet et une optimisation directe des préférences sur les générations du LLM pour la collecte de données. Basé sur ChatGLM3-32B, nous menons une série d'expériences sur un ensemble de données académiques ainsi que sur notre nouveau jeu de données difficile, MathUserEval. Les résultats montrent que notre pipeline améliore significativement la résolution de problèmes mathématiques du LLM tout en améliorant également ses capacités linguistiques, surpassant des LLMs pouvant être deux fois plus grands. Les techniques associées ont été déployées sur ChatGLM\url{https://chatglm.cn}, un LLM en ligne. Le jeu de données d'évaluation et les scripts associés sont disponibles à l'adresse https://github.com/THUDM/ChatGLM-Math.
Les modèles basés sur la diffusion sans réglage ont démontré un potentiel significatif dans le domaine de la personnalisation et de la customisation d'images. Cependant, malgré ces progrès notables, les modèles actuels continuent de faire face à plusieurs défis complexes dans la génération d'images cohérentes en termes de style. Premièrement, le concept de style est intrinsèquement sous-déterminé, englobant une multitude d'éléments tels que la couleur, le matériau, l'atmosphère, le design et la structure, entre autres. Deuxièmement, les méthodes basées sur l'inversion sont sujettes à une dégradation du style, entraînant souvent la perte de détails fins. Enfin, les approches basées sur des adaptateurs nécessitent fréquemment un réglage minutieux des poids pour chaque image de référence afin d'atteindre un équilibre entre l'intensité du style et la contrôlabilité textuelle. Dans cet article, nous commençons par examiner plusieurs observations convaincantes mais souvent négligées. Nous introduisons ensuite InstantStyle, un cadre conçu pour résoudre ces problèmes grâce à la mise en œuvre de deux stratégies clés : 1) Un mécanisme simple qui découple le style et le contenu des images de référence dans l'espace des caractéristiques, en partant du principe que les caractéristiques dans le même espace peuvent être ajoutées ou soustraites les unes des autres. 2) L'injection des caractéristiques de l'image de référence uniquement dans des blocs spécifiques au style, empêchant ainsi les fuites de style et évitant le besoin d'un réglage fastidieux des poids, caractéristique des conceptions plus lourdes en paramètres. Notre travail démontre des résultats de stylisation visuelle supérieurs, trouvant un équilibre optimal entre l'intensité du style et la contrôlabilité des éléments textuels. Nos codes seront disponibles à l'adresse https://github.com/InstantStyle/InstantStyle.
L'augmentation de la taille des modèles et des données a été un succès majeur dans l'évolution des LLMs (Large Language Models). Cependant, les lois de mise à l'échelle pour les modèles de génération d'images à partir de texte (T2I) basés sur la diffusion ne sont pas encore pleinement explorées. Il est également difficile de déterminer comment mettre à l'échelle efficacement ces modèles pour améliorer leurs performances tout en réduisant les coûts. Les différents paramètres d'entraînement et les coûts élevés de formation rendent une comparaison équitable des modèles extrêmement complexe. Dans ce travail, nous étudions empiriquement les propriétés de mise à l'échelle des modèles T2I basés sur la diffusion en effectuant des ablations extensives et rigoureuses sur la mise à l'échelle des architectures de débruitage et des ensembles d'entraînement, incluant l'entraînement de variantes de UNet et de Transformers allant de 0,4 à 4 milliards de paramètres sur des jeux de données allant jusqu'à 600 millions d'images. Pour la mise à l'échelle des modèles, nous constatons que l'emplacement et la quantité d'attention croisée distinguent les performances des architectures UNet existantes. De plus, augmenter le nombre de blocs de transformers est plus efficace en termes de paramètres pour améliorer l'alignement texte-image que d'augmenter le nombre de canaux. Nous identifions ensuite une variante efficace de UNet, qui est 45% plus petite et 28% plus rapide que le UNet de SDXL. Concernant la mise à l'échelle des données, nous montrons que la qualité et la diversité de l'ensemble d'entraînement sont plus importantes que la simple taille du jeu de données. Augmenter la densité et la diversité des légendes améliore les performances d'alignement texte-image et l'efficacité de l'apprentissage. Enfin, nous fournissons des fonctions de mise à l'échelle pour prédire les performances d'alignement texte-image en fonction de la taille du modèle, de la puissance de calcul et de la taille du jeu de données.
Cette étude explore le rôle de l'attention croisée lors de l'inférence dans les modèles de diffusion conditionnés par le texte. Nous constatons que les sorties de l'attention croisée convergent vers un point fixe après quelques étapes d'inférence. Par conséquent, le moment de la convergence divise naturellement le processus d'inférence entier en deux étapes : une étape initiale de planification sémantique, durant laquelle le modèle s'appuie sur l'attention croisée pour planifier la sémantique visuelle orientée par le texte, et une étape ultérieure d'amélioration de la fidélité, durant laquelle le modèle tente de générer des images à partir de la sémantique précédemment planifiée. Étonnamment, ignorer les conditions textuelles dans l'étape d'amélioration de la fidélité non seulement réduit la complexité computationnelle, mais maintient également la performance du modèle. Cela donne lieu à une méthode simple et sans entraînement appelée TGATE pour une génération efficace, qui met en cache la sortie de l'attention croisée une fois qu'elle converge et la maintient fixe durant les étapes restantes de l'inférence. Notre étude empirique sur l'ensemble de validation MS-COCO confirme son efficacité. Le code source de TGATE est disponible à l'adresse https://github.com/HaozheLiu-ST/T-GATE.
Cet article permet une édition NeRF de haute fidélité et transférable par décomposition fréquentielle. Les pipelines récents d'édition NeRF transposent les résultats de stylisation 2D en scènes 3D tout en produisant des résultats flous, et échouent à capturer les structures détaillées en raison de l'incohérence entre les éditions 2D. Notre intuition clé est que les composantes basse fréquence des images sont plus cohérentes en multivue après édition par rapport à leurs parties haute fréquence. De plus, le style d'apparence est principalement exhibé sur les composantes basse fréquence, tandis que les détails du contenu résident surtout dans les parties haute fréquence. Cela nous motive à effectuer l'édition sur les composantes basse fréquence, ce qui aboutit à des scènes éditées de haute fidélité. En outre, l'édition est réalisée dans l'espace de caractéristiques basse fréquence, permettant un contrôle stable de l'intensité et un transfert de scène innovant. Des expériences approfondies menées sur des datasets photoréalistes démontrent la performance supérieure de l'édition NeRF de haute fidélité et transférable. La page du projet est disponible à l'adresse suivante : https://aigc3d.github.io/freditor.