Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage sont construits sur une architecture basée sur des transformateurs pour traiter des entrées textuelles. Par exemple, LLaMA se distingue parmi de nombreuses implémentations open-source. Le même transformateur peut-il être utilisé pour traiter des images 2D ? Dans cet article, nous répondons à cette question en dévoilant un transformateur visuel inspiré de LLaMA, sous des formes simples et pyramidales, nommé VisionLLaMA, conçu spécifiquement à cet effet. VisionLLaMA est un cadre de modélisation unifié et générique pour résoudre la plupart des tâches visuelles. Nous évaluons largement son efficacité en utilisant des paradigmes de pré-entraînement typiques sur une grande partie des tâches en aval de perception d'images, et particulièrement de génération d'images. Dans de nombreux cas, VisionLLaMA a montré des gains substantiels par rapport aux transformateurs visuels de pointe précédents. Nous pensons que VisionLLaMA peut servir de nouveau modèle de référence solide pour la génération et la compréhension visuelles. Notre code sera publié à l'adresse https://github.com/Meituan-AutoML/VisionLLaMA.
L'architecture prédictive à codage conjoint (Joint-Embedding Predictive Architecture, JEPA) s'est imposée comme une approche prometteuse en apprentissage auto-supervisé, apprenant en exploitant un modèle du monde. Alors qu'elle était auparavant limitée à la prédiction de parties manquantes d'une entrée, nous explorons comment généraliser la tâche de prédiction de la JEPA à un ensemble plus large de corruptions. Nous introduisons les modèles du monde d'images (Image World Models, IWM), une approche qui va au-delà de la modélisation d'images masquées et apprend à prédire l'effet de transformations photométriques globales dans l'espace latent. Nous étudions la recette pour apprendre des IWM performants et montrons qu'elle repose sur trois aspects clés : le conditionnement, la difficulté de prédiction et la capacité. De plus, nous montrons que le modèle du monde prédictif appris par les IWM peut être adapté par affinage pour résoudre des tâches variées ; un modèle du monde IWM affiné égal ou dépasse les performances des méthodes auto-supervisées précédentes. Enfin, nous montrons que l'apprentissage avec un IWM permet de contrôler le niveau d'abstraction des représentations apprises, apprenant des représentations invariantes comme les méthodes contrastives, ou des représentations équivariantes comme la modélisation d'images masquées.
Cet article aborde le défi des scénarios d'entraînement court-test long (TSTL) dans les modèles de langage de grande taille (LLMs) équipés d'encodage positionnel rotatif (RoPE), où les modèles pré-entraînés sur des séquences plus courtes rencontrent des difficultés avec les positions de tokens hors distribution (OOD) dans des séquences plus longues. Nous introduisons Resonance RoPE, une nouvelle approche conçue pour réduire l'écart de généralisation dans les scénarios TSTL en affinant l'interpolation des caractéristiques RoPE pour les positions OOD, améliorant ainsi significativement les performances du modèle sans coût de calcul supplémentaire en ligne. Par ailleurs, nous présentons PosGen, un nouveau benchmark synthétique spécifiquement conçu pour l'analyse fine des comportements dans les scénarios TSTL, visant à isoler la difficulté croissante de génération de tokens sur des contextes longs des défis liés à la reconnaissance de nouvelles positions de tokens. Nos expériences sur des tâches synthétiques montrent qu'après l'application de Resonance RoPE, les Transformers reconnaissent mieux et plus robustement les positions OOD. Nos expériences approfondies sur les LLMs montrent également une performance supérieure après l'application de Resonance RoPE à la méthode actuelle de mise à l'échelle RoPE, YaRN, tant sur les tâches de modélisation du langage en amont que sur une variété d'applications en aval impliquant des textes longs.
La personnalisation texte-image, qui vise à synthétiser des images pilotées par du texte pour des sujets donnés, a récemment révolutionné la création de contenu. Les travaux existants suivent le paradigme des pseudo-mots, c'est-à-dire qu'ils représentent les sujets donnés comme des pseudo-mots puis les composent avec le texte donné. Cependant, la portée d'influence intrinsèquement entrelacée des pseudo-mots avec le texte donné entraîne un paradoxe de double optimum, c'est-à-dire que la similarité des sujets donnés et la contrôlabilité du texte donné ne peuvent pas être optimales simultanément. Nous présentons RealCustom qui, pour la première fois, dissocie la similarité de la contrôlabilité en limitant précisément l'influence du sujet aux parties pertinentes uniquement, obtenue en réduisant progressivement le mot texte réel de sa connotation générale au sujet spécifique et en utilisant son attention croisée pour distinguer la pertinence. Plus précisément, RealCustom introduit un nouveau cadre "entraînement-inférence" découplé : (1) pendant l'entraînement, RealCustom apprend l'alignement général entre les conditions visuelles et les conditions textuelles originales grâce à un nouveau module de score adaptatif pour moduler de manière adaptative la quantité d'influence ; (2) pendant l'inférence, une nouvelle stratégie de guidage par masque adaptatif est proposée pour mettre à jour itérativement la portée d'influence et la quantité d'influence des sujets donnés afin de réduire progressivement la génération du mot texte réel. Des expériences approfondies démontrent la capacité supérieure de personnalisation en temps réel de RealCustom dans le domaine ouvert, atteignant à la fois une similarité sans précédent des sujets donnés et une contrôlabilité du texte donné pour la première fois. La page du projet est https://corleone-huang.github.io/realcustom/.
Le _Patch d'Activation_ est une méthode permettant de calculer directement les attributions causales du comportement aux composants d'un modèle. Cependant, son application exhaustive nécessite un balayage dont le coût augmente linéairement avec le nombre de composants du modèle, ce qui peut s'avérer prohibitif pour les modèles de langage de pointe (LLMs). Nous étudions le _Patch d'Attribution_ (AtP), une approximation rapide basée sur les gradients du _Patch d'Activation_, et identifions deux classes de modes d'échec d'AtP conduisant à des faux négatifs significatifs. Nous proposons une variante d'AtP appelée AtP*, avec deux modifications pour résoudre ces modes d'échec tout en conservant l'évolutivité. Nous présentons la première étude systématique d'AtP et des méthodes alternatives pour un _Patch d'Activation_ plus rapide, et montrons qu'AtP surpasse significativement toutes les autres méthodes étudiées, avec AtP* offrant une amélioration supplémentaire notable. Enfin, nous fournissons une méthode pour borner la probabilité des faux négatifs restants dans les estimations d'AtP*.