Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les embeddings de position rotatifs (RoPE) se sont avérés efficaces pour encoder l'information positionnelle dans les modèles de langage basés sur des transformeurs. Cependant, ces modèles échouent à généraliser au-delà de la longueur de séquence sur laquelle ils ont été entraînés. Nous présentons YaRN (Yet another RoPE extensioN method), une méthode efficace en termes de calcul pour étendre la fenêtre contextuelle de tels modèles, nécessitant 10 fois moins de tokens et 2,5 fois moins d'étapes d'entraînement que les méthodes précédentes. En utilisant YaRN, nous montrons que les modèles LLaMA peuvent exploiter et extrapoler efficacement à des longueurs de contexte bien supérieures à celles permises par leur pré-entraînement initial, tout en surpassant l'état de l'art précédent en matière d'extension de fenêtre contextuelle. De plus, nous démontrons que YaRN possède la capacité d'extrapoler au-delà du contexte limité d'un jeu de données de fine-tuning. Nous publions les points de contrôle de Llama 2 7B/13B affinés à l'aide de YaRN avec des fenêtres contextuelles de 64k et 128k sur https://github.com/jquesnelle/yarn.
L'apprentissage par renforcement à partir de retours humains (RLHF) est efficace pour aligner les grands modèles de langage (LLMs) sur les préférences humaines, mais la collecte d'étiquettes de préférences humaines de haute qualité constitue un goulot d'étranglement majeur. Nous menons une comparaison directe entre le RLHF et l'apprentissage par renforcement à partir de retours d'IA (RLAIF) - une technique où les préférences sont étiquetées par un LLM standard plutôt que par des humains - et nous constatons qu'ils entraînent des améliorations similaires. Sur la tâche de résumé, les évaluateurs humains préfèrent les générations issues à la fois du RLAIF et du RLHF par rapport à un modèle de référence affiné de manière supervisée dans environ 70 % des cas. De plus, lorsqu'on leur demande de noter les résumés produits par le RLAIF et le RLHF, les humains les préfèrent à des taux égaux. Ces résultats suggèrent que le RLAIF peut atteindre des performances de niveau humain, offrant une solution potentielle aux limitations de scalabilité du RLHF.
Dans cet article, nous présentons VideoGen, une approche de génération de texte-à-vidéo capable de produire une vidéo haute définition avec une fidélité d'image élevée et une forte cohérence temporelle grâce à une diffusion latente guidée par référence. Nous exploitons un modèle de génération d'images à partir de texte prêt à l'emploi, tel que Stable Diffusion, pour générer une image de haute qualité à partir d'une invite textuelle, utilisée comme image de référence pour guider la génération de la vidéo. Ensuite, nous introduisons un module efficace de diffusion latente en cascade conditionné à la fois par l'image de référence et l'invite textuelle, pour générer des représentations vidéo latentes, suivies d'une étape de suréchantillonnage temporel basée sur le flux afin d'améliorer la résolution temporelle. Enfin, nous transformons les représentations vidéo latentes en une vidéo haute définition grâce à un décodeur vidéo amélioré. Pendant l'entraînement, nous utilisons la première image d'une vidéo de référence comme image de référence pour entraîner le module de diffusion latente en cascade. Les principales caractéristiques de notre approche incluent : l'image de référence générée par le modèle texte-à-image améliore la fidélité visuelle ; son utilisation comme condition permet au modèle de diffusion de se concentrer davantage sur l'apprentissage de la dynamique vidéo ; et le décodeur vidéo est entraîné sur des données vidéo non étiquetées, bénéficiant ainsi de vidéos de haute qualité facilement accessibles. VideoGen établit un nouvel état de l'art en génération texte-à-vidéo, tant en termes d'évaluation qualitative que quantitative.
Shannon, dans son article fondateur introduisant la théorie de l'information, a divisé la communication en trois niveaux : technique, sémantique et d'efficacité. Alors que le niveau technique concerne la reconstruction précise des symboles transmis, les niveaux sémantique et d'efficacité traitent du sens inféré et de son effet sur le récepteur. Grâce aux télécommunications, le problème du premier niveau a donné lieu à des avancées majeures comme l'internet. Les modèles de langage de grande taille (LLMs) font des progrès vers le deuxième objectif, mais le troisième niveau reste largement inexploré. Ce troisième problème concerne la prédiction et l'optimisation de la communication pour un comportement souhaité du récepteur. Les LLMs, bien qu'ils montrent des capacités de généralisation étendues sur une large gamme de tâches, sont incapables de résoudre ce problème. Une raison de cette sous-performance pourrait être l'absence de "tokens de comportement" dans les corpus d'entraînement des LLMs. Les tokens de comportement définissent le comportement du récepteur au cours d'une communication, tels que les partages, les likes, les clics, les achats, les retweets, etc. Lors du prétraitement des données pour l'entraînement des LLMs, les tokens de comportement sont souvent supprimés des corpus comme du bruit. Par conséquent, dans cet article, nous faisons des progrès initiaux vers la réintroduction des tokens de comportement dans l'entraînement des LLMs. Les modèles entraînés, en plus de montrer des performances similaires aux LLMs sur les tâches de compréhension de contenu, montrent des capacités de généralisation sur la simulation de comportement, la simulation de contenu, la compréhension du comportement et l'adaptation au domaine comportemental. En utilisant une large gamme de tâches sur deux corpus, nous montrons des résultats sur toutes ces capacités. Nous appelons ces modèles des Modèles de Contenu et de Comportement de Grande Taille (LCBMs). De plus, pour stimuler davantage de recherches sur les LCBMs, nous publions notre nouveau Corpus de Contenu et de Comportement (CBC), un référentiel contenant le communicateur, le message et le comportement correspondant du récepteur.
Les modèles de vision par ordinateur présentent des disparités de performance selon des attributs tels que le genre et la teinte de peau. Cela signifie que lors de tâches telles que la classification et la détection, les performances du modèle varient pour certaines classes en fonction des caractéristiques démographiques des personnes dans l'image. Ces disparités ont été démontrées, mais jusqu'à présent, il n'existait pas d'approche unifiée pour mesurer ces différences dans les cas d'utilisation courants des modèles de vision par ordinateur. Nous présentons un nouveau benchmark nommé FACET (FAirness in Computer Vision EvaluaTion), un ensemble d'évaluation de 32 000 images, disponible publiquement, pour certaines des tâches de vision les plus courantes : classification d'images, détection d'objets et segmentation. Pour chaque image de FACET, nous avons engagé des experts pour annoter manuellement des attributs liés aux personnes, tels que la teinte de peau perçue et le type de cheveux, dessiner manuellement des boîtes englobantes et étiqueter des classes fines liées aux personnes, comme disc-jockey ou guitariste. De plus, nous utilisons FACET pour évaluer les modèles de vision de pointe et offrir une compréhension approfondie des disparités de performance potentielles et des défis liés aux attributs démographiques sensibles. Avec les annotations exhaustives collectées, nous sondons les modèles en utilisant des attributs démographiques individuels ainsi que plusieurs attributs via une approche intersectionnelle (par exemple, la couleur des cheveux et la teinte de peau perçue). Nos résultats montrent que les modèles de classification, de détection, de segmentation et de localisation visuelle présentent des disparités de performance selon les attributs démographiques et les intersections d'attributs. Ces préjudices suggèrent que toutes les personnes représentées dans les ensembles de données ne reçoivent pas un traitement équitable et juste dans ces tâches de vision. Nous espérons que les résultats actuels et futurs obtenus avec notre benchmark contribueront à des modèles de vision plus équitables et robustes. FACET est disponible publiquement à l'adresse https://facet.metademolab.com/.