papers.description
La génération d'images à partir de texte est un domaine majeur en vision par ordinateur moderne et a connu des améliorations substantielles grâce à l'évolution des architectures génératives. Parmi celles-ci, les modèles basés sur la diffusion ont démontré des avancées significatives en termes de qualité. Ces modèles sont généralement divisés en deux catégories : les approches au niveau des pixels et celles au niveau latent. Nous présentons Kandinsky1, une exploration novatrice de l'architecture de diffusion latente, combinant les principes des modèles de priorité d'image avec les techniques de diffusion latente. Le modèle de priorité d'image est entraîné séparément pour mapper les embeddings de texte aux embeddings d'image de CLIP. Une autre caractéristique distincte du modèle proposé est l'implémentation modifiée de MoVQ, qui sert de composant autoencodeur d'image. Globalement, le modèle conçu contient 3,3 milliards de paramètres. Nous avons également déployé un système de démonstration convivial qui prend en charge divers modes génératifs tels que la génération d'images à partir de texte, la fusion d'images, la fusion de texte et d'image, la génération de variations d'images, ainsi que l'inpainting/outpainting guidé par texte. De plus, nous avons publié le code source et les checkpoints des modèles Kandinsky. Les évaluations expérimentales montrent un score FID de 8,03 sur le jeu de données COCO-30K, positionnant notre modèle comme le meilleur performant open-source en termes de qualité mesurable de génération d'images.
Les modèles multimodaux de grande taille (LMM) ont récemment démontré des progrès encourageants grâce au réglage par instructions visuelles. Dans cette note, nous montrons que le connecteur intermodal vision-langage entièrement connecté dans LLaVA est étonnamment puissant et efficace en termes de données. Avec des modifications simples apportées à LLaVA, à savoir l'utilisation de CLIP-ViT-L-336px avec une projection MLP et l'ajout de données VQA orientées vers des tâches académiques avec des invites de formatage de réponse simples, nous établissons des références plus solides qui atteignent l'état de l'art sur 11 benchmarks. Notre point de contrôle final de 13B utilise seulement 1,2 million de données publiquement disponibles et termine l'entraînement complet en ~1 jour sur un seul nœud 8-A100. Nous espérons que cela pourra rendre la recherche de pointe sur les LMM plus accessible. Le code et le modèle seront rendus publics.
Le récemment publié GPT-4 Code Interpreter a démontré une remarquable compétence dans la résolution de problèmes mathématiques complexes, principalement grâce à sa capacité à raisonner de manière fluide en langage naturel, à générer du code, à exécuter ce code et à poursuivre son raisonnement en fonction des résultats de l'exécution. Dans cet article, nous présentons une méthode pour affiner des modèles de langage open-source, leur permettant d'utiliser du code pour modéliser et dériver des équations mathématiques, améliorant ainsi leurs capacités de raisonnement mathématique. Nous proposons une méthode de génération de jeux de données novateurs et de haute qualité contenant des problèmes mathématiques et leurs solutions basées sur du code, appelée MathCodeInstruct. Chaque solution entrelace langage naturel, code et résultats d'exécution. Nous introduisons également une approche personnalisée de fine-tuning supervisé et d'inférence. Cette approche donne naissance aux modèles MathCoder, une famille de modèles capables de générer des solutions basées sur du code pour résoudre des problèmes mathématiques complexes. De manière impressionnante, les modèles MathCoder atteignent des scores de pointe parmi les LLM open-source sur les jeux de données MATH (45,2 %) et GSM8K (83,9 %), surpassant largement les autres alternatives open-source. Il est à noter que le modèle MathCoder non seulement surpasse ChatGPT-3.5 et PaLM-2 sur GSM8K et MATH, mais dépasse également GPT-4 sur le jeu de données MATH de niveau compétition. Le jeu de données et les modèles seront disponibles à l'adresse https://github.com/mathllm/MathCoder.
Les modèles de diffusion texte-image ont récemment émergé à l'avant-garde de la génération d'images, alimentés par des ensembles de données d'entraînement texte-image non supervisés ou faiblement supervisés à très grande échelle. En raison de leur apprentissage non supervisé, contrôler leur comportement dans des tâches en aval, comme maximiser la qualité perçue des images par les humains, l'alignement texte-image ou la génération éthique d'images, est difficile. Des travaux récents affinent les modèles de diffusion pour des fonctions de récompense en aval en utilisant l'apprentissage par renforcement classique, connu pour la forte variance de ses estimateurs de gradient. Dans cet article, nous proposons AlignProp, une méthode qui aligne les modèles de diffusion sur des fonctions de récompense en aval en utilisant la rétropropagation end-to-end du gradient de récompense à travers le processus de débruitage. Bien qu'une implémentation naïve d'une telle rétropropagation nécessiterait des ressources mémoire prohibitives pour stocker les dérivées partielles des modèles texte-image modernes, AlignProp affine des modules de poids d'adaptation de faible rang et utilise la vérification de gradient pour rendre son utilisation de la mémoire viable. Nous testons AlignProp dans l'affinage de modèles de diffusion pour divers objectifs, tels que l'alignement sémantique texte-image, l'esthétique, la compressibilité et la contrôlabilité du nombre d'objets présents, ainsi que leurs combinaisons. Nous montrons qu'AlignProp atteint des récompenses plus élevées en moins d'étapes d'entraînement que les alternatives, tout en étant conceptuellement plus simple, ce qui en fait un choix direct pour optimiser les modèles de diffusion pour des fonctions de récompense différentielles d'intérêt. Le code et les résultats de visualisation sont disponibles à l'adresse https://align-prop.github.io/.
Les modèles de langage (LMs) ont démontré leur capacité à gérer une variété de tâches génératives. Cet article présente le système UniAudio qui, contrairement aux approches spécifiques à une tâche précédentes, exploite les techniques des LMs pour générer plusieurs types d'audio (y compris la parole, les sons, la musique et le chant) à partir de conditions d'entrée données. UniAudio 1) commence par tokeniser tous les types d'audio cibles ainsi que les autres modalités de condition, 2) concatène la paire source-cible en une seule séquence, et 3) effectue une prédiction de token suivant en utilisant les LMs. De plus, un modèle Transformer multi-échelle est proposé pour gérer les séquences excessivement longues causées par le codec neuronal basé sur la quantification vectorielle résiduelle lors de la tokenisation. L'entraînement d'UniAudio est mis à l'échelle avec 165 000 heures d'audio et 1 milliard de paramètres, couvrant toutes les tâches génératives, dans le but d'acquérir des connaissances préalables suffisantes non seulement sur les propriétés intrinsèques de l'audio, mais aussi sur les interrelations entre l'audio et les autres modalités. Par conséquent, le modèle UniAudio entraîné a le potentiel de devenir un modèle de base pour la génération universelle d'audio : il montre une forte capacité dans toutes les tâches entraînées et peut prendre en charge de manière fluide de nouvelles tâches de génération d'audio après un simple ajustement fin. Les expériences démontrent qu'UniAudio obtient des résultats à la pointe de l'état de l'art ou au moins compétitifs sur la plupart des 11 tâches. Une démo et le code sont disponibles à l'adresse https://github.com/yangdongchao/UniAudio.
La plupart des grands modèles de langage (LLMs) sont entraînés une seule fois et jamais mis à jour ; ils manquent donc de la capacité à s'adapter dynamiquement à notre monde en constante évolution. Dans ce travail, nous menons une étude détaillée de la factualité des textes générés par les LLMs dans le contexte de réponses à des questions testant les connaissances actuelles du monde. Plus précisément, nous introduisons FreshQA, un nouveau benchmark dynamique de questions-réponses englobant une diversité de types de questions et de réponses, y compris des questions nécessitant des connaissances mondiales à évolution rapide ainsi que des questions contenant des prémisses fausses qui doivent être démenties. Nous évaluons un large éventail de LLMs, à la fois propriétaires et open-source, selon une procédure d'évaluation à deux modes qui nous permet de mesurer à la fois la justesse et les hallucinations. Grâce à des évaluations humaines impliquant plus de 50 000 jugements, nous mettons en lumière les limites de ces modèles et démontrons une marge d'amélioration significative : par exemple, tous les modèles (quelle que soit leur taille) peinent sur les questions impliquant des connaissances à évolution rapide et des prémisses fausses. Motivés par ces résultats, nous présentons FreshPrompt, une méthode simple de prompting en few-shot qui améliore considérablement les performances d'un LLM sur FreshQA en intégrant des informations pertinentes et à jour récupérées d'un moteur de recherche dans le prompt. Nos expériences montrent que FreshPrompt surpasse à la fois les méthodes concurrentes de prompting assisté par moteur de recherche, comme Self-Ask (Press et al., 2022), ainsi que les systèmes commerciaux tels que Perplexity.AI. Une analyse plus approfondie de FreshPrompt révèle que le nombre de preuves récupérées et leur ordre jouent un rôle clé dans l'influence de la justesse des réponses générées par les LLMs. De plus, demander au LLM de générer des réponses concises et directes aide à réduire les hallucinations par rapport à l'encouragement de réponses plus verbeuses. Pour faciliter les travaux futurs, nous publions FreshQA sur github.com/freshllms/freshqa et nous nous engageons à le mettre à jour à intervalles réguliers.
Les modèles génératifs actuels en vision et langage reposent sur des corpus étendus de données image-texte appariées pour atteindre des performances optimales et des capacités de généralisation. Cependant, la collecte automatique de telles données (par exemple, via le scraping web à grande échelle) conduit à une faible qualité et à une mauvaise corrélation image-texte, tandis que l'annotation humaine, bien que plus précise, nécessite un effort manuel et des coûts significatifs. Nous présentons ITIT (InTegrating Image Text) : un paradigme d'entraînement innovant basé sur le concept de cohérence cyclique, qui permet l'entraînement en vision et langage sur des données image et texte non appariées. ITIT est composé d'un encodeur conjoint image-texte avec des décodeurs disjoints pour l'image et le texte, permettant une génération bidirectionnelle image-texte et texte-image dans un seul cadre. Pendant l'entraînement, ITIT exploite un petit ensemble de données image-texte appariées pour s'assurer que sa sortie correspond raisonnablement bien à l'entrée dans les deux directions. Simultanément, le modèle est également entraîné sur des ensembles de données beaucoup plus vastes contenant uniquement des images ou des textes. Cela est réalisé en imposant une cohérence cyclique entre les échantillons non appariés originaux et leurs contreparties générées cycliquement. Par exemple, il génère une légende pour une image d'entrée donnée, puis utilise cette légende pour créer une image de sortie, et impose une similarité entre l'image d'entrée et l'image de sortie. Nos expériences montrent qu'ITIT avec des ensembles de données non appariés présente un comportement de mise à l'échelle similaire à celui obtenu avec des données appariées de haute qualité. Nous démontrons des performances en génération d'images et en légendage comparables aux modèles de pointe en texte-image et image-texte, avec des ordres de grandeur moins de données image-texte appariées (seulement 3 millions).
Des succès notables ont été rapportés grâce à l'apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les grands modèles de langage. Les ensembles de données de préférences open-source et les modèles de récompense ont permis une expérimentation plus large au-delà des contextes de discussion génériques, en particulier pour rendre les systèmes plus "utiles" dans des tâches telles que la réponse à des questions sur le web, la synthèse et les dialogues multi-tours. Lors de l'optimisation pour l'utilité, il a été constamment observé que le RLHF pousse les modèles à produire des sorties plus longues. Cet article démontre que l'optimisation pour la longueur des réponses est un facteur significatif derrière les améliorations rapportées du RLHF dans ces contextes. Tout d'abord, nous étudions la relation entre la récompense et la longueur pour les modèles de récompense entraînés sur trois ensembles de données de préférences open-source pour l'utilité. Ici, la longueur est fortement corrélée à la récompense, et les améliorations du score de récompense sont en grande partie dues à un décalage de la distribution des longueurs de sortie. Nous explorons ensuite des interventions pendant l'apprentissage par renforcement et l'apprentissage des modèles de récompense pour voir si nous pouvons obtenir les mêmes améliorations en aval que le RLHF sans augmenter la longueur. Bien que nos interventions atténuent les augmentations de longueur, elles ne sont pas uniformément efficaces dans tous les contextes. De plus, nous constatons que même l'exécution du RLHF avec une récompense basée uniquement sur la longueur peut reproduire la plupart des améliorations en aval par rapport au modèle de politique initial, montrant que les modèles de récompense dans ces contextes ont encore un long chemin à parcourir.
L'exécution de tâches sur le web pose des défis fondamentaux aux grands modèles de langage (LLMs), notamment des tâches combinatoires dans un monde ouvert et des variations entre les interfaces web. Spécifier un grand prompt pour gérer tous les comportements et états possibles est extrêmement complexe et entraîne des fuites de comportement entre actions non liées. La décomposition en politiques distinctes peut résoudre ce problème, mais nécessite un transfert de contrôle minutieux entre les politiques. Nous proposons Stacked LLM Policies for Web Actions (SteP), une approche permettant de composer dynamiquement des politiques pour résoudre un ensemble diversifié de tâches web. SteP définit un processus de décision markovien où l'état est une pile de politiques représentant l'état de contrôle, c'est-à-dire la chaîne d'appels de politiques. Contrairement aux méthodes traditionnelles limitées à des hiérarchies statiques, SteP permet un contrôle dynamique qui s'adapte à la complexité de la tâche. Nous évaluons SteP par rapport à plusieurs références et environnements web, notamment WebArena, MiniWoB++ et un CRM. Sur WebArena, SteP améliore les résultats (de 14,9 % à 33,5 %) par rapport à l'état de l'art utilisant des politiques GPT-4, tandis que sur MiniWoB++, SteP est compétitif avec les travaux antérieurs tout en utilisant nettement moins de données. Notre code et nos données sont disponibles à l'adresse https://asappresearch.github.io/webagents-step.
Nous présentons DragView, un cadre interactif et novateur pour générer de nouvelles vues de scènes inédites. DragView initialise la nouvelle vue à partir d'une seule image source, et le rendu est soutenu par un ensemble épars d'images multi-vues non positionnées, le tout exécuté de manière fluide en une seule passe avant. Notre approche commence par l'utilisateur faisant glisser une vue source à travers un système de coordonnées relatives locales. Les caractéristiques alignées sur les pixels sont obtenues en projetant les points 3D échantillonnés le long du rayon cible sur la vue source. Nous intégrons ensuite une couche de modulation dépendante de la vue pour gérer efficacement les occlusions lors de la projection. De plus, nous élargissons le mécanisme d'attention épipolaire pour englober tous les pixels sources, facilitant l'agrégation des caractéristiques de points alignés sur les coordonnées initialisées à partir d'autres vues non positionnées. Enfin, nous utilisons un autre transformateur pour décoder les caractéristiques des rayons en intensités de pixels finales. De manière cruciale, notre cadre ne repose ni sur des modèles préalables 2D ni sur l'estimation explicite des poses de caméra. Lors des tests, DragView démontre sa capacité à généraliser à de nouvelles scènes non vues pendant l'entraînement, en utilisant uniquement des images de support non positionnées, permettant ainsi la génération de nouvelles vues photo-réalistes caractérisées par des trajectoires de caméra flexibles. Dans nos expériences, nous effectuons une comparaison approfondie des performances de DragView avec les réseaux récents de représentation de scènes fonctionnant dans des conditions sans pose, ainsi qu'avec des NeRFs généralisables soumis à des poses de caméra de test bruitées. DragView démontre systématiquement sa supériorité en termes de qualité de synthèse de vue, tout en étant plus convivial. Page du projet : https://zhiwenfan.github.io/DragView/.