Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage ont démontré leur efficacité dans une variété d'applications logicielles, en particulier pour les tâches liées à l'automatisation des workflows. Ces modèles possèdent la capacité cruciale d'appeler des fonctions, ce qui est essentiel pour créer des agents d'IA. Malgré les performances élevées des modèles de langage à grande échelle dans les environnements cloud, ils sont souvent associés à des préoccupations concernant la confidentialité et les coûts. Les modèles actuels pour l'appel de fonctions sur appareil rencontrent des problèmes de latence et de précision. Notre recherche présente une nouvelle méthode qui permet à un modèle sur appareil de 2 milliards de paramètres de surpasser les performances de GPT-4 en termes de précision et de latence, tout en réduisant la longueur du contexte de 95\%. Par rapport à Llama-7B avec un mécanisme d'appel de fonctions basé sur RAG, notre méthode améliore la latence d'un facteur 35. Cette méthode réduit la latence à des niveaux jugés adaptés au déploiement sur une variété d'appareils périphériques dans des environnements de production, répondant ainsi aux exigences de performance pour des applications réelles.
Nous présentons Eurus, une suite de grands modèles de langage (LLM) optimisés pour le raisonnement. Affinés à partir de Mistral-7B et CodeLlama-70B, les modèles Eurus atteignent des résultats de pointe parmi les modèles open-source sur un ensemble diversifié de benchmarks couvrant les mathématiques, la génération de code et les problèmes de raisonnement logique. Notamment, Eurus-70B surpasse GPT-3.5 Turbo en raisonnement grâce à un benchmarking complet sur 12 tests couvrant cinq tâches, et atteint une précision de 33,3 % en pass@1 sur LeetCode et de 32,6 % sur TheoremQA, deux benchmarks exigeants, surpassant largement les modèles open-source existants avec des marges supérieures à 13,3 %. La performance remarquable d'Eurus peut être principalement attribuée à UltraInteract, notre nouvel ensemble de données d'alignement à grande échelle et de haute qualité, spécifiquement conçu pour les tâches de raisonnement complexe. UltraInteract peut être utilisé à la fois pour l'affinage supervisé et pour l'apprentissage des préférences. Pour chaque instruction, il inclut un arbre de préférences composé de (1) chaînes de raisonnement avec des stratégies de planification diversifiées dans un format unifié, (2) trajectoires d'interaction multi-tours avec l'environnement et la critique, et (3) données par paires pour faciliter l'apprentissage des préférences. UltraInteract nous permet de mener une exploration approfondie de l'apprentissage des préférences pour les tâches de raisonnement. Notre investigation révèle que certains algorithmes bien établis d'apprentissage des préférences peuvent être moins adaptés aux tâches de raisonnement par rapport à leur efficacité dans les conversations générales. Inspirés par cela, nous dérivons un nouvel objectif de modélisation de récompense qui, conjointement avec UltraInteract, conduit à un modèle de récompense robuste.
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs dans le traitement de longues séquences dépassant 32 000 tokens. Cependant, leur évaluation s'est largement limitée à des métriques comme la perplexité et des tâches synthétiques, qui pourraient ne pas pleinement refléter leurs capacités dans des scénarios réels plus nuancés. Cette étude introduit un benchmark spécialisé (LIConBench) axé sur l'apprentissage en contexte long dans le domaine de la classification à labels extrêmes. Nous avons soigneusement sélectionné six jeux de données avec un nombre de labels allant de 28 à 174 classes, couvrant différentes longueurs d'entrée (démonstrations few-shot) de 2 000 à 50 000 tokens. Notre benchmark exige que les LLMs comprennent l'intégralité de l'entrée pour reconnaître les espaces de labels massifs et effectuer des prédictions correctes. Nous évaluons 13 LLMs à contexte long sur notre benchmark. Nous constatons que les LLMs à contexte long performent relativement bien pour des longueurs de tokens inférieures à 20 000, et que leurs performances bénéficient de l'utilisation d'une fenêtre de contexte longue. Cependant, lorsque la fenêtre de contexte dépasse 20 000 tokens, la plupart des LLMs, à l'exception de GPT-4, voient leurs performances chuter de manière significative. Cela suggère un écart notable dans les capacités actuelles des LLMs à traiter et comprendre des séquences longues et riches en contexte. Une analyse plus approfondie révèle une tendance des modèles à favoriser les prédictions pour les labels présentés vers la fin de la séquence. Leur capacité à raisonner sur plusieurs éléments dans une longue séquence reste à améliorer. Notre étude montre que la compréhension et le raisonnement en contexte long constituent toujours une tâche difficile pour les LLMs existants. Nous pensons que LIConBench pourrait servir d'évaluation plus réaliste pour les futurs LLMs à contexte long.
Nous entraînons une série de modèles fondateurs multimodaux (MMFM) en utilisant le cadre populaire LLaVA avec la famille récemment publiée de grands modèles de langage (LLM) Gemma. Le modèle Gemma de 2 milliards de paramètres est particulièrement intéressant, car il offre des opportunités pour construire des MMFM à petite échelle performants. Conformément aux conclusions d'autres travaux dans ce domaine, nous testons l'effet de la suppression de trois caractéristiques de conception : le pré-entraînement du connecteur, l'utilisation d'un backbone d'image plus puissant et l'augmentation de la taille du backbone de langage. Les modèles résultants, que nous appelons LLaVA-Gemma, montrent des performances modérées sur une série d'évaluations, mais ne parviennent pas à dépasser les modèles SOTA de taille comparable actuels. Une analyse plus approfondie des performances révèle des effets mitigés : sauter le pré-entraînement tend à réduire les performances, les modèles de vision plus grands améliorent parfois les performances, et l'augmentation de la taille du modèle de langage a des effets incohérents. Nous rendons publics les recettes d'entraînement, le code et les poids de nos modèles LLaVA-Gemma.
La contrôlabilité joue un rôle crucial dans la génération vidéo, car elle permet aux utilisateurs de créer le contenu souhaité. Cependant, les modèles existants ont largement négligé le contrôle précis de la pose de la caméra, qui sert de langage cinématographique pour exprimer des nuances narratives plus profondes. Pour remédier à ce problème, nous introduisons CameraCtrl, permettant un contrôle précis de la pose de la caméra pour les modèles de texte-à-vidéo (T2V). Après avoir paramétré avec précision la trajectoire de la caméra, un module de caméra plug-and-play est ensuite entraîné sur un modèle T2V, laissant les autres intacts. De plus, une étude approfondie sur l'effet de divers ensembles de données est également menée, suggérant que les vidéos avec une distribution variée de caméras et des apparences similaires améliorent en effet la contrôlabilité et la généralisation. Les résultats expérimentaux démontrent l'efficacité de CameraCtrl pour atteindre un contrôle de caméra précis et adaptatif au domaine, marquant une avancée dans la quête d'une narration vidéo dynamique et personnalisée à partir d'entrées textuelles et de poses de caméra. Notre site web de projet est disponible à l'adresse : https://hehao13.github.io/projects-CameraCtrl/.
Nous présentons HyperCLOVA X, une famille de grands modèles de langage (LLM) spécialement conçus pour la langue et la culture coréennes, tout en offrant des capacités compétitives en anglais, en mathématiques et en programmation. HyperCLOVA X a été entraîné sur un mélange équilibré de données en coréen, en anglais et en code, suivi d'un ajustement par instruction avec des ensembles de données annotés par des humains de haute qualité, tout en respectant des directives strictes en matière de sécurité, reflétant notre engagement envers une IA responsable. Le modèle est évalué sur divers benchmarks, incluant le raisonnement global, les connaissances, le bon sens, la factualité, la programmation, les mathématiques, le dialogue, la capacité à suivre des instructions et l'innocuité, à la fois en coréen et en anglais. HyperCLOVA X démontre de solides capacités de raisonnement en coréen, soutenues par une compréhension approfondie de la langue et des nuances culturelles. Une analyse approfondie de sa nature bilingue inhérente et de son extension au multilinguisme met en lumière la compétence translinguistique du modèle et sa forte capacité de généralisation à des langues non ciblées, y compris la traduction automatique entre plusieurs paires de langues et les tâches d'inférence translinguistique. Nous croyons qu'HyperCLOVA X peut fournir des orientations utiles aux régions ou pays souhaitant développer leurs propres LLM souverains.
Nous étudions les propriétés de mise à l'échelle des modèles de diffusion latente (LDMs) en mettant l'accent sur leur efficacité d'échantillonnage. Bien que des améliorations de l'architecture des réseaux et des algorithmes d'inférence aient démontré leur capacité à accroître efficacement l'efficacité d'échantillonnage des modèles de diffusion, le rôle de la taille du modèle -- un déterminant critique de cette efficacité -- n'a pas été examiné de manière approfondie. À travers une analyse empirique de modèles établis de diffusion texte-image, nous menons une investigation détaillée sur la manière dont la taille du modèle influence l'efficacité d'échantillonnage à travers différents pas d'échantillonnage. Nos résultats révèlent une tendance surprenante : lorsqu'ils opèrent avec un budget d'inférence donné, les modèles plus petits surpassent fréquemment leurs équivalents plus grands dans la génération de résultats de haute qualité. De plus, nous étendons notre étude pour démontrer la généralisabilité de ces conclusions en appliquant divers échantillonneurs de diffusion, en explorant différentes tâches en aval, en évaluant des modèles post-distillés, ainsi qu'en comparant les performances par rapport au calcul d'entraînement. Ces découvertes ouvrent de nouvelles voies pour le développement de stratégies de mise à l'échelle des LDMs, qui peuvent être employées pour améliorer les capacités génératives dans des budgets d'inférence limités.
Les grands modèles de langage (LLMs) ont suscité un intérêt croissant en raison de leur capacité à traiter le langage humain et à accomplir des tâches pour lesquelles ils n'ont pas été explicitement entraînés. Cela revêt une importance particulière pour les sciences chimiques, qui sont confrontées au problème de jeux de données petits et diversifiés, souvent sous forme textuelle. Les LLMs ont montré un potentiel prometteur pour résoudre ces problèmes et sont de plus en plus utilisés pour prédire les propriétés chimiques, optimiser les réactions, et même concevoir et mener des expériences de manière autonome. Cependant, nous n'avons encore qu'une compréhension systématique très limitée des capacités de raisonnement chimique des LLMs, ce qui serait nécessaire pour améliorer les modèles et atténuer les risques potentiels. Nous présentons ici "ChemBench", un cadre automatisé conçu pour évaluer rigoureusement les connaissances chimiques et les capacités de raisonnement des LLMs de pointe par rapport à l'expertise des chimistes humains. Nous avons rassemblé plus de 7 000 paires de questions-réponses couvrant un large éventail de sous-domaines des sciences chimiques, évalué les principaux LLMs open-source et propriétaires, et constaté que les meilleurs modèles surpassaient en moyenne les meilleurs chimistes humains dans notre étude. Cependant, les modèles rencontrent des difficultés avec certaines tâches de raisonnement chimique qui sont faciles pour les experts humains et fournissent des prédictions excessivement confiantes et trompeuses, par exemple concernant les profils de sécurité des produits chimiques. Ces résultats soulignent la double réalité selon laquelle, bien que les LLMs démontrent une remarquable compétence dans les tâches chimiques, des recherches supplémentaires sont cruciales pour améliorer leur sécurité et leur utilité dans les sciences chimiques. Nos conclusions indiquent également la nécessité d'adapter les programmes d'enseignement de la chimie et mettent en lumière l'importance de continuer à développer des cadres d'évaluation pour améliorer les LLMs de manière sûre et utile.
Le pré-entraînement des modèles de langage de pointe de grande taille nécessite désormais des milliers de milliards de mots, ce qui est plusieurs ordres de grandeur supérieur à la quantité de texte disponible pour la grande majorité des langues. Bien que l'inclusion de texte dans plusieurs langues soit une manière évidente d'acquérir davantage de données pour le pré-entraînement, le multilinguisme est souvent perçu comme une malédiction, et la plupart des efforts de formation de modèles continuent de se concentrer presque exclusivement sur des langues individuelles de grande envergure. Nous pensons que le multilinguisme peut être une bénédiction et qu'il devrait être possible d'améliorer considérablement les capacités des modèles monolingues pour les petites langues grâce à un entraînement multilingue. Dans cette étude, nous présentons Poro 34B, un modèle de 34 milliards de paramètres entraîné sur 1 000 milliards de tokens de finnois, d'anglais et de langages de programmation, et démontrons qu'une approche d'entraînement multilingue peut produire un modèle qui non seulement dépasse largement les capacités des modèles existants pour le finnois, mais excelle également en traduction et est compétitif dans sa catégorie pour la génération d'anglais et de langages de programmation. Nous publions les paramètres du modèle, les scripts et les données sous des licences ouvertes à l'adresse suivante : https://huggingface.co/LumiOpen/Poro-34B.
Nous proposons le 3D Congealing, un nouveau problème d'alignement 3D pour des images 2D capturant des objets sémantiquement similaires. Étant donné une collection d'images Internet non étiquetées, notre objectif est d'associer les parties sémantiques communes des entrées et d'agréger les connaissances des images 2D dans un espace canonique 3D partagé. Nous introduisons un cadre général qui aborde cette tâche sans supposer de modèles de forme, de poses ou de paramètres de caméra. Au cœur de ce cadre se trouve une représentation canonique 3D qui encapsule des informations géométriques et sémantiques. Le cadre optimise la représentation canonique ainsi que la pose pour chaque image d'entrée, et une carte de coordonnées par image qui déforme les coordonnées des pixels 2D vers le cadre canonique 3D pour tenir compte de la correspondance des formes. La procédure d'optimisation fusionne les connaissances a priori d'un modèle génératif d'images pré-entraîné et les informations sémantiques des images d'entrée. Le premier fournit un guide de connaissances solide pour cette tâche sous-contrainte, tandis que le second fournit les informations nécessaires pour atténuer le biais des données d'entraînement du modèle pré-entraîné. Notre cadre peut être utilisé pour diverses tâches telles que la correspondance de points, l'estimation de pose et l'édition d'images, obtenant des résultats robustes sur des ensembles de données d'images réelles dans des conditions d'éclairage difficiles et sur des collections d'images en ligne non contrôlées.
Nous présentons LLM-ABR, le premier système qui exploite les capacités génératives des grands modèles de langage (LLMs) pour concevoir de manière autonome des algorithmes de débit adaptatif (ABR) adaptés à diverses caractéristiques réseau. Fonctionnant dans un cadre d'apprentissage par renforcement, LLM-ABR permet aux LLMs de concevoir des composants clés tels que les états et les architectures de réseaux neuronaux. Nous évaluons LLM-ABR dans divers environnements réseau, incluant le haut débit, le satellite, la 4G et la 5G. LLM-ABR surpasse systématiquement les algorithmes ABR par défaut.