Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons la famille de modèles Yi, une série de modèles linguistiques et multimodaux qui démontrent de solides capacités multidimensionnelles. La famille de modèles Yi est basée sur des modèles linguistiques pré-entraînés de 6B et 34B, que nous étendons ensuite à des modèles de chat, des modèles à contexte long de 200K, des modèles à profondeur augmentée et des modèles vision-langage. Nos modèles de base obtiennent de solides performances sur un large éventail de benchmarks comme MMLU, et nos modèles de chat affinentés atteignent un taux de préférence humaine élevé sur les principales plateformes d'évaluation comme AlpacaEval et Chatbot Arena. En nous appuyant sur notre infrastructure de supercalcul évolutive et l'architecture classique des transformateurs, nous attribuons principalement la performance des modèles Yi à la qualité des données résultant de nos efforts en ingénierie des données. Pour le pré-entraînement, nous avons construit un corpus de 3,1 trillions de tokens en anglais et en chinois en utilisant un pipeline en cascade de déduplication et de filtrage de qualité des données. Pour l'affinage, nous avons perfectionné un petit ensemble de données d'instructions (moins de 10K) sur plusieurs itérations, de sorte que chaque instance a été vérifiée directement par nos ingénieurs en apprentissage automatique. Pour le domaine vision-langage, nous combinons le modèle de langage de chat avec un encodeur de transformateur visuel et entraînons le modèle à aligner les représentations visuelles sur l'espace sémantique du modèle de langage. Nous étendons également la longueur du contexte à 200K grâce à un pré-entraînement continu léger et démontrons une forte performance de récupération de type "aiguille dans une botte de foin". Nous montrons que l'extension de la profondeur du point de contrôle pré-entraîné par un pré-entraînement continu améliore encore les performances. Nous croyons qu'étant donné nos résultats actuels, continuer à augmenter les paramètres des modèles en utilisant des données soigneusement optimisées conduira à des modèles frontaliers encore plus performants.
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu une approche dominante pour aligner les sorties des modèles de langage (LLM) avec les préférences humaines. Inspirés par le succès du RLHF, nous étudions les performances de plusieurs algorithmes qui apprennent à partir de retours (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) pour améliorer les capacités de raisonnement des LLM. Nous examinons à la fois les récompenses éparses et denses fournies au LLM, de manière heuristique et via un modèle de récompense appris. Nous explorons également plusieurs tailles de modèles et initialisations, avec et sans données de fine-tuning supervisé (SFT). Globalement, nous constatons que tous les algorithmes performent de manière comparable, avec Expert Iteration qui obtient les meilleurs résultats dans la plupart des cas. Étonnamment, nous observons que la complexité en échantillons d'Expert Iteration est similaire à celle de PPO, nécessitant au plus de l'ordre de 10^6 échantillons pour converger à partir d'un point de contrôle pré-entraîné. Nous investiguons les raisons de ce phénomène, concluant que pendant l'entraînement par renforcement, les modèles échouent à explorer significativement au-delà des solutions déjà produites par les modèles SFT. De plus, nous discutons d'un compromis entre les métriques maj@1 et pass@96 pendant l'entraînement SFT, et comment, à l'inverse, l'entraînement par renforcement améliore les deux simultanément. Nous concluons en discutant des implications de nos résultats pour le RLHF et du rôle futur du renforcement dans le fine-tuning des LLM.
Les modèles de langage de grande taille (LLMs) ont débloqué de nouvelles capacités et applications ; cependant, l'évaluation de leur alignement avec les préférences humaines reste un défi majeur. Pour résoudre ce problème, nous présentons Chatbot Arena, une plateforme ouverte pour évaluer les LLMs sur la base des préférences humaines. Notre méthodologie utilise une approche de comparaison par paires et s'appuie sur les contributions d'une base d'utilisateurs diversifiée via le crowdsourcing. La plateforme est opérationnelle depuis plusieurs mois, accumulant plus de 240 000 votes. Cet article décrit la plateforme, analyse les données collectées jusqu'à présent, et explique les méthodes statistiques éprouvées que nous utilisons pour une évaluation et un classement efficaces et précis des modèles. Nous confirmons que les questions issues du crowdsourcing sont suffisamment diversifiées et discriminantes, et que les votes humains collectés concordent bien avec ceux des évaluateurs experts. Ces analyses établissent collectivement une base solide pour la crédibilité de Chatbot Arena. Grâce à sa valeur unique et à son ouverture, Chatbot Arena est devenu l'un des classements de LLMs les plus référencés, largement cité par les principaux développeurs et entreprises de LLMs. Notre démonstration est accessible publiquement à l'adresse https://chat.lmsys.org.
L'édition d'images par points a suscité une attention remarquable depuis l'émergence de DragGAN. Récemment, DragDiffusion a encore amélioré la qualité générative en adaptant cette technique de glissement aux modèles de diffusion. Malgré ces grands succès, ce schéma de glissement présente deux inconvénients majeurs, à savoir un suivi de points imprécis et une supervision du mouvement incomplète, ce qui peut entraîner des résultats de glissement insatisfaisants. Pour résoudre ces problèmes, nous construisons un cadre d'édition basé sur le glissement stable et précis, baptisé StableDrag, en concevant une méthode de suivi de points discriminative et une stratégie d'amélioration latente basée sur la confiance pour la supervision du mouvement. La première nous permet de localiser précisément les points de manipulation mis à jour, augmentant ainsi la stabilité des manipulations à longue distance, tandis que la seconde est responsable de garantir que le latent optimisé soit de la plus haute qualité possible à travers toutes les étapes de manipulation. Grâce à ces conceptions uniques, nous instancions deux types de modèles d'édition d'images, y compris StableDrag-GAN et StableDrag-Diff, qui atteignent une performance de glissement plus stable, à travers des expériences qualitatives approfondies et une évaluation quantitative sur DragBench.
Les outils sont essentiels pour que les grands modèles de langage (LLMs) puissent acquérir des informations à jour et entreprendre des actions conséquentes dans des environnements externes. Les travaux existants sur les LLMs augmentés par des outils se concentrent principalement sur la couverture étendue des outils et la flexibilité d'ajout de nouveaux outils. Cependant, un aspect critique qui a été étonnamment peu étudié est simplement la précision avec laquelle un LLM utilise les outils pour lesquels il a été entraîné. Nous constatons que les LLMs existants, y compris GPT-4 et les LLMs open-source spécifiquement affinés pour l'utilisation d'outils, n'atteignent qu'un taux de précision compris entre 30% et 60%, loin d'une utilisation fiable en pratique. Nous proposons une méthode inspirée de la biologie pour les LLMs augmentés par des outils, l'essai et l'erreur simulés (STE), qui orchestre trois mécanismes clés pour des comportements réussis d'utilisation d'outils dans les systèmes biologiques : l'essai et l'erreur, l'imagination et la mémoire. Plus précisément, STE exploite l'« imagination » d'un LLM pour simuler des scénarios plausibles d'utilisation d'un outil, après quoi le LLM interagit avec l'outil pour apprendre de ses retours d'exécution. La mémoire à court terme et à long terme est utilisée pour améliorer respectivement la profondeur et l'étendue de l'exploration. Des expériences approfondies sur ToolBench montrent que STE améliore considérablement l'apprentissage des outils pour les LLMs dans des contextes d'apprentissage en contexte et d'affinage, apportant un gain de 46,7% à Mistral-Instruct-7B et lui permettant de surpasser GPT-4. Nous montrons également un apprentissage continu efficace des outils via une simple stratégie de relecture d'expérience.
Les modèles vision-langage (VLMs) tels que GPT-4V ont récemment réalisé des progrès impressionnants sur une variété de tâches associant vision et langage. Nous nous penchons sur le raisonnement déductif basé sur la vision, un domaine plus sophistiqué mais moins exploré, et identifions des angles morts jusqu'alors inconnus dans les VLMs actuels de pointe. Plus précisément, nous utilisons les Matrices Progressives de Raven (RPMs) pour évaluer la capacité des VLMs à effectuer un raisonnement relationnel et déductif multi-étapes en s'appuyant uniquement sur des indices visuels. Nous menons une évaluation approfondie de plusieurs VLMs populaires en employant des stratégies standard telles que l'apprentissage en contexte, l'auto-cohérence et le Chaîne de Pensée (CoT) sur trois ensembles de données variés, incluant le test de QI Mensa, IntelligenceTest et RAVEN. Les résultats montrent que, malgré les capacités impressionnantes des LLMs en matière de raisonnement textuel, nous sommes encore loin d'atteindre une compétence comparable dans le raisonnement déductif visuel. Nous constatons que certaines stratégies standard efficaces pour les LLMs ne se transposent pas aisément aux défis posés par les tâches de raisonnement visuel. De plus, une analyse détaillée révèle que les VLMs peinent à résoudre ces tâches principalement parce qu'elles sont incapables de percevoir et de comprendre les multiples motifs abstraits et complexes présents dans les exemples de RPM.
Les capacités mathématiques étaient auparavant considérées comme émergeant dans les modèles de langage courants uniquement à très grande échelle ou nécessitant un pré-entraînement approfondi en mathématiques. Cet article montre que le modèle LLaMA-2 7B, avec un pré-entraînement standard, présente déjà de solides aptitudes mathématiques, comme en témoignent ses précisions impressionnantes de 97,7 % et 72,0 % sur les benchmarks GSM8K et MATH, respectivement, lors de la sélection de la meilleure réponse parmi 256 générations aléatoires. Le principal problème du modèle de base actuel réside dans la difficulté à exploiter de manière constante ses capacités mathématiques intrinsèques. Notamment, la précision pour la première réponse chute à 49,5 % et 7,9 % sur les benchmarks GSM8K et MATH, respectivement. Nous constatons que simplement augmenter les données de SFT (Supervised Fine-Tuning) peut considérablement améliorer la fiabilité de la génération de réponses correctes. Cependant, le potentiel d'un scaling extensif est limité par la rareté des questions mathématiques publiquement disponibles. Pour surmonter cette limitation, nous utilisons des données synthétiques, qui s'avèrent presque aussi efficaces que les données réelles et ne montrent aucun signe clair de saturation lorsqu'elles sont augmentées jusqu'à environ un million d'échantillons. Cette approche simple atteint une précision de 82,6 % sur GSM8K et 40,6 % sur MATH avec les modèles LLaMA-2 7B, surpassant les modèles précédents de 14,2 % et 20,8 %, respectivement. Nous fournissons également des insights sur les comportements de scaling selon différentes complexités de raisonnement et types d'erreurs.
Nous présentons Pix2Gif, un modèle de diffusion guidé par le mouvement pour la génération d'images vers GIF (vidéo). Nous abordons ce problème différemment en formulant la tâche comme un problème de traduction d'images piloté par des invites textuelles et de magnitude de mouvement, comme illustré dans la figure d'aperçu. Pour garantir que le modèle respecte le guidage du mouvement, nous proposons un nouveau module de déformation guidé par le mouvement pour transformer spatialement les caractéristiques de l'image source en fonction des deux types d'invites. De plus, nous introduisons une perte perceptuelle pour s'assurer que la carte de caractéristiques transformée reste dans le même espace que l'image cible, garantissant ainsi la cohérence et la continuité du contenu. En préparation pour l'entraînement du modèle, nous avons soigneusement sélectionné les données en extrayant des trames d'images cohérentes du jeu de données vidéo-légende TGIF, qui fournit des informations riches sur les changements temporels des sujets. Après le pré-entraînement, nous appliquons notre modèle de manière zero-shot à plusieurs jeux de données vidéo. Des expériences qualitatives et quantitatives approfondies démontrent l'efficacité de notre modèle — il capture non seulement l'invite sémantique du texte mais aussi les invites spatiales du guidage du mouvement. Nous entraînons tous nos modèles en utilisant un seul nœud de 16 GPU V100. Le code, le jeu de données et les modèles sont rendus publics à l'adresse suivante : https://hiteshk03.github.io/Pix2Gif/.
Les rayons X sont largement utilisés pour l'imagerie par transmission en raison de leur pénétration plus forte que la lumière naturelle. Lors du rendu de nouvelles projections de rayons X, les méthodes existantes basées principalement sur NeRF souffrent d'un temps d'entraînement long et d'une vitesse d'inférence lente. Dans cet article, nous proposons un cadre basé sur le splatting de Gaussiennes 3D, nommé X-Gaussian, pour la synthèse de nouvelles vues en rayons X. Tout d'abord, nous redessinons un modèle de nuage de points Gaussien radiatif inspiré par la nature isotrope de l'imagerie par rayons X. Notre modèle exclut l'influence de la direction de vue lors de l'apprentissage pour prédire l'intensité de radiation des points 3D. Sur la base de ce modèle, nous développons un Rasterisation Radiative Différentiable (DRR) avec une implémentation CUDA. Deuxièmement, nous personnalisons une stratégie d'Initialisation Uniforme de Cuboïde avec Angle-pose (ACUI) qui utilise directement les paramètres du scanner à rayons X pour calculer les informations de la caméra, puis échantillonne uniformément les positions des points dans un cuboïde englobant l'objet scanné. Les expériences montrent que notre X-Gaussian surpasse les méthodes de pointe de 6,5 dB tout en bénéficiant de moins de 15 % du temps d'entraînement et d'une vitesse d'inférence plus de 73 fois supérieure. L'application à la reconstruction de CT à vue clairsemée révèle également les valeurs pratiques de notre méthode. Le code et les modèles seront disponibles publiquement à l'adresse https://github.com/caiyuanhao1998/X-Gaussian. Une démonstration vidéo de la visualisation du processus d'entraînement est disponible à l'adresse https://www.youtube.com/watch?v=gDVf_Ngeghg.