Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ces dernières années, les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer ont connu des avancées remarquables dans divers domaines. Alors que ces LLMs sont déployés pour des tâches de plus en plus complexes, ils sont souvent confrontés à la nécessité de mener des processus de raisonnement plus longs ou de comprendre des contextes plus étendus. Dans ces situations, l'échec de généralisation en termes de longueur des LLMs sur des séquences longues devient plus prononcé. La plupart des schémas de pré-entraînement tronquent les séquences d'entraînement à une longueur fixe (comme 2048 pour LLaMa). Les LLMs ont souvent du mal à générer des textes fluides, et encore moins à accomplir des tâches en aval, après des contextes plus longs, même avec un encodage positionnel relatif conçu pour résoudre ce problème. Les solutions courantes, comme le fine-tuning sur des corpus plus longs, impliquent souvent des coûts matériels et temporels importants et nécessitent une conception minutieuse du processus d'entraînement. Pour exploiter plus efficacement la capacité de génération des LLMs existants, nous étudions théoriquement et empiriquement les principaux facteurs hors distribution (OOD) contribuant à ce problème. Inspirés par ce diagnostic, nous proposons une solution simple mais efficace pour la généralisation en longueur à la volée, LM-Infinite, qui implique uniquement un masque d'attention en forme de Lambda et une limite de distance, sans nécessiter de mise à jour des paramètres ou d'apprentissage. Nous constatons qu'elle est applicable à une variété de LLMs utilisant des méthodes d'encodage positionnel relatif. LM-Infinite est efficace sur le plan computationnel avec une complexité en temps et en espace de O(n), et démontre une fluidité et une qualité de génération constantes jusqu'à 32 000 tokens sur les ensembles de données ArXiv et OpenWebText2, avec une accélération du décodage de 2,72x. Sur des tâches en aval comme la récupération de clé, elle continue de fonctionner sur des entrées bien plus longues que les longueurs d'entraînement où les modèles classiques échouent immédiatement.
Les modèles de langage multi-modaux de grande taille ont suscité un intérêt considérable récemment. Cependant, la plupart des travaux se concentrent sur les modèles multi-modaux vision-langage, offrant des capacités robustes pour suivre des instructions combinant vision et langage. Néanmoins, nous affirmons que la parole est également une modalité importante par laquelle les humains interagissent avec le monde. Par conséquent, il est crucial qu'un assistant à usage général soit capable de suivre des instructions multi-modales combinant parole et langage. Dans ce travail, nous proposons le modèle Large Language and Speech Model (LLaSM). LLaSM est un grand modèle multi-modal parole-langage entraîné de bout en bout avec des capacités conversationnelles inter-modales, capable de suivre des instructions combinant parole et langage. Nos premières expériences montrent que LLaSM offre une manière plus pratique et naturelle pour les humains d'interagir avec l'intelligence artificielle. Plus précisément, nous publions également un grand ensemble de données de suivi d'instructions vocales, LLaSM-Audio-Instructions. Le code et une démonstration sont disponibles à l'adresse https://github.com/LinkSoul-AI/LLaSM et https://huggingface.co/spaces/LinkSoul/LLaSM. L'ensemble de données LLaSM-Audio-Instructions est disponible à l'adresse https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Nous présentons Jais et Jais-chat, de nouveaux modèles de langage génératif ouvert (LLM) de pointe, centrés sur l’arabe, de type fondation et ajustés par instruction. Ces modèles sont basés sur l’architecture décodage-seule de GPT-3 et ont été pré-entraînés sur un mélange de textes en arabe et en anglais, incluant du code source dans divers langages de programmation. Avec 13 milliards de paramètres, ils démontrent des capacités de connaissance et de raisonnement en arabe supérieures à celles de tout modèle ouvert arabe ou multilingue existant, avec une marge significative, selon une évaluation approfondie. De plus, ces modèles sont compétitifs en anglais par rapport aux modèles ouverts centrés sur l’anglais de taille similaire, malgré un entraînement sur beaucoup moins de données en anglais. Nous fournissons une description détaillée de l’entraînement, de l’ajustement, de l’alignement de sécurité et de l’évaluation des modèles. Nous publions deux versions ouvertes du modèle — le modèle fondation Jais et une variante ajustée par instruction, Jais-chat — dans le but de promouvoir la recherche sur les LLM arabes. Disponibles sur https://huggingface.co/inception-mbzuai/jais-13b-chat.
Pour que les robots soient utiles en dehors des laboratoires et des usines spécialisées, nous avons besoin d'un moyen de leur enseigner rapidement de nouveaux comportements utiles. Les approches actuelles manquent soit de généralité pour intégrer de nouvelles tâches sans ingénierie spécifique, soit d'efficacité en termes de données pour le faire dans un délai permettant une utilisation pratique. Dans ce travail, nous explorons le suivi dense comme un vecteur de représentation pour permettre un apprentissage plus rapide et plus général à partir de démonstrations. Notre approche utilise des modèles Track-Any-Point (TAP) pour isoler le mouvement pertinent dans une démonstration, et paramétrer un contrôleur de bas niveau pour reproduire ce mouvement malgré les changements dans la configuration de la scène. Nous montrons que cela aboutit à des politiques robotiques robustes capables de résoudre des tâches complexes d'arrangement d'objets telles que l'appariement de formes, l'empilement, et même des tâches de suivi de trajectoire complètes comme l'application de colle et l'assemblage d'objets, le tout à partir de démonstrations pouvant être collectées en quelques minutes.
WeatherBench 2 est une mise à jour du benchmark mondial de prévision météorologique à moyen terme (1 à 14 jours) proposé par Rasp et al. (2020), conçu dans le but d’accélérer les progrès dans la modélisation météorologique basée sur les données. WeatherBench 2 comprend un cadre d’évaluation open-source, des données d’entraînement, des données de référence et des données de base accessibles au public, ainsi qu’un site web continuellement mis à jour avec les dernières métriques et les modèles de pointe : https://sites.research.google/weatherbench. Cet article décrit les principes de conception du cadre d’évaluation et présente les résultats des modèles météorologiques physiques et basés sur les données les plus récents. Les métriques sont basées sur les pratiques établies pour l’évaluation des prévisions météorologiques dans les principaux centres opérationnels de météorologie. Nous définissons un ensemble de scores principaux pour fournir une vue d’ensemble de la performance des modèles. En outre, nous discutons également des limites de la configuration actuelle de l’évaluation et des défis pour l’avenir de la prévision météorologique basée sur les données.
L'apprentissage de comportements stratégiques pour les robots -- comme ceux requis dans les interactions de poursuite-évasion -- sous les contraintes du monde réel est extrêmement complexe. Cela nécessite d'exploiter la dynamique de l'interaction et de planifier en tenant compte à la fois de l'incertitude sur l'état physique et de l'intention latente. Dans cet article, nous transformons ce problème insoluble en un problème d'apprentissage supervisé, où une politique robotique entièrement observable génère des données de supervision pour une politique partiellement observable. Nous constatons que la qualité du signal de supervision pour la politique de poursuite partiellement observable dépend de deux facteurs clés : l'équilibre entre la diversité et l'optimalité du comportement de l'évadé, ainsi que la robustesse des hypothèses de modélisation dans la politique entièrement observable. Nous déployons notre politique sur un robot quadrupède physique équipé d'une caméra RGB-D pour des interactions de poursuite-évasion en conditions réelles. Malgré tous les défis, les contraintes de perception stimulent la créativité : le robot est incité à collecter des informations en cas d'incertitude, à prédire l'intention à partir de mesures bruitées, et à anticiper pour intercepter. Page web du projet : https://abajcsy.github.io/vision-based-pursuit/