Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous développons et publions Llama 2, une collection de grands modèles de langage (LLMs) pré-entraînés et affinés, allant de 7 à 70 milliards de paramètres. Nos LLMs affinés, appelés Llama 2-Chat, sont optimisés pour des cas d'utilisation en dialogue. Nos modèles surpassent les modèles de chat open-source sur la plupart des benchmarks que nous avons testés, et sur la base de nos évaluations humaines en termes d'utilité et de sécurité, ils pourraient constituer une alternative appropriée aux modèles propriétaires. Nous fournissons une description détaillée de notre approche d'affinage et d'amélioration de la sécurité de Llama 2-Chat afin de permettre à la communauté de s'appuyer sur notre travail et de contribuer au développement responsable des LLMs.
GPT-3.5 et GPT-4 sont les deux services de grands modèles de langage (LLM) les plus largement utilisés. Cependant, le moment et la manière dont ces modèles sont mis à jour au fil du temps restent opaques. Ici, nous évaluons les versions de mars 2023 et juin 2023 de GPT-3.5 et GPT-4 sur quatre tâches variées : 1) résolution de problèmes mathématiques, 2) réponse à des questions sensibles/dangereuses, 3) génération de code et 4) raisonnement visuel. Nous constatons que les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps. Par exemple, GPT-4 (mars 2023) était très performant pour identifier les nombres premiers (précision de 97,6 %), mais GPT-4 (juin 2023) était très faible sur ces mêmes questions (précision de 2,4 %). Fait intéressant, GPT-3.5 (juin 2023) était bien meilleur que GPT-3.5 (mars 2023) dans cette tâche. GPT-4 était moins enclin à répondre aux questions sensibles en juin qu'en mars, et GPT-4 et GPT-3.5 ont commis plus d'erreurs de formatage dans la génération de code en juin qu'en mars. Globalement, nos résultats montrent que le comportement d'un même service de LLM peut changer de manière significative en un laps de temps relativement court, soulignant la nécessité d'une surveillance continue de la qualité des LLM.
L'analyse de circuits est une technique prometteuse pour comprendre les mécanismes internes des modèles de langage. Cependant, les analyses existantes sont réalisées sur de petits modèles loin de l'état de l'art. Pour remédier à cela, nous présentons une étude de cas d'analyse de circuits dans le modèle Chinchilla 70B, visant à tester l'évolutivité de l'analyse de circuits. En particulier, nous étudions la réponse à des questions à choix multiples et examinons la capacité de Chinchilla à identifier l'étiquette de la bonne réponse en connaissant le texte de la réponse correcte. Nous constatons que les techniques existantes d'attribution de logits, de visualisation des motifs d'attention et de patching d'activation s'étendent naturellement à Chinchilla, nous permettant d'identifier et de catégoriser un petit ensemble de `nœuds de sortie' (têtes d'attention et MLPs). Nous étudions en outre la catégorie des têtes d'attention `lettre correcte' afin de comprendre la sémantique de leurs caractéristiques, avec des résultats mitigés. Pour les réponses normales à des questions à choix multiples, nous compressons significativement les sous-espaces de requête, de clé et de valeur de la tête sans perte de performance lors de l'opération sur les étiquettes de réponses des questions à choix multiples, et nous montrons que les sous-espaces de requête et de clé représentent dans une certaine mesure une caractéristique de `Nième élément dans une énumération'. Cependant, lorsque nous tentons d'utiliser cette explication pour comprendre le comportement des têtes sur une distribution plus générale incluant des étiquettes de réponses randomisées, nous constatons qu'il ne s'agit que d'une explication partielle, suggérant qu'il reste encore à apprendre sur le fonctionnement des têtes `lettre correcte' dans la réponse à des questions à choix multiples.
Les modèles de contraste image-texte tels que CLIP sont utiles pour une variété d'applications en aval, notamment la classification zero-shot, la recherche image-texte et l'apprentissage par transfert. Cependant, ces modèles vision-langage entraînés par contraste échouent souvent sur des tâches compositionnelles visio-linguistiques comme Winoground, avec des performances équivalentes au hasard. Dans notre article, nous abordons ce problème et proposons une méthode légère et efficace en termes d'échantillons appelée SDS-CLIP pour améliorer les capacités de raisonnement visio-linguistique compositionnel de CLIP. L'idée centrale de notre méthode est d'utiliser des paramétrisations d'images différentiables pour affiner CLIP avec un objectif de distillation à partir de grands modèles génératifs texte-image tels que Stable-Diffusion, qui sont relativement performants dans les tâches de raisonnement visio-linguistique. Sur le benchmark de raisonnement compositionnel difficile de Winoground, notre méthode améliore la performance visio-linguistique absolue de différents modèles CLIP jusqu'à 7 %, tandis que sur le jeu de données ARO, notre méthode améliore la performance visio-linguistique jusqu'à 3 %. Comme sous-produit de l'introduction du raisonnement visio-linguistique dans CLIP, nous constatons également que la performance zero-shot s'améliore légèrement sur une variété de jeux de données en aval. Notre méthode renforce l'idée que des objectifs de distillation soigneusement conçus à partir de modèles génératifs peuvent être exploités pour étendre les modèles de contraste image-texte existants avec des capacités de raisonnement visio-linguistique améliorées.
Des progrès remarquables ont été réalisés dans la reconstruction 3D à partir d'entrées RGB-D monoculaires. MCC est actuellement la méthode de pointe dans ce domaine, obtenant un succès sans précédent en combinant des Transformers visuels avec un entraînement à grande échelle. Cependant, nous avons identifié deux limitations majeures de MCC : 1) Le décodeur Transformer est inefficace pour gérer un grand nombre de points de requête ; 2) La représentation 3D peine à restituer des détails de haute fidélité. Dans cet article, nous proposons une nouvelle approche appelée NU-MCC qui résout ces limitations. NU-MCC intègre deux innovations clés : un décodeur de voisinage et une fonction de distance non signée répulsive (Repulsive UDF). Premièrement, notre décodeur de voisinage introduit des points centraux comme proxy efficace des caractéristiques visuelles d'entrée, permettant à chaque point de requête de ne s'intéresser qu'à un petit voisinage. Cette conception permet non seulement une vitesse d'inférence bien plus rapide, mais aussi l'exploitation de caractéristiques visuelles à plus fine échelle pour une meilleure restitution des textures 3D. Deuxièmement, notre Repulsive UDF est une alternative novatrice au champ d'occupation utilisé dans MCC, améliorant significativement la qualité de la reconstruction d'objets 3D. Contrairement aux UDF standards qui produisent des trous dans les résultats, notre Repulsive UDF permet une reconstruction de surface plus complète. Les résultats expérimentaux montrent que NU-MCC est capable d'apprendre une représentation 3D robuste, faisant progresser de manière significative l'état de l'art en reconstruction 3D monoculaire. En particulier, il surpasse MCC de 9,7 % en termes de score F1 sur le jeu de données CO3D-v2, avec une vitesse d'exécution plus de 5 fois supérieure.
Nous présentons Biomaker CA : un projet de Biome Maker utilisant des Automates Cellulaires (CA). Dans Biomaker CA, la morphogenèse est une priorité, et de petites graines doivent se développer en organismes ressemblant à des plantes pour survivre dans un environnement pauvre en nutriments et finir par se reproduire avec des variations, permettant ainsi à un biome de perdurer sur de longues périodes. Nous simulons des biomes complexes grâce à des règles de CA sur des grilles 2D et parallélisons tous les calculs sur des GPU via le framework Python JAX. Nous montrons comment ce projet permet d'explorer plusieurs types d'environnements et de lois de 'physique', ainsi que différentes architectures de modèles et stratégies de mutation. Nous analysons également certaines configurations pour illustrer comment les agents végétaux peuvent croître, survivre, se reproduire et évoluer, formant des biomes stables ou instables. Nous démontrons ensuite comment il est possible de méta-évoluer des modèles pour survivre dans un environnement hostile, soit par une méta-évolution de bout en bout, soit par une approche plus ciblée et efficace, appelée méta-évolution en boîte de Petri. Enfin, nous montrons comment réaliser une évolution interactive, où l'utilisateur décide comment faire évoluer un modèle végétal de manière interactive avant de le déployer dans un environnement plus vaste. Nous rendons Biomaker CA open source à l'adresse suivante : https://tinyurl.com/2x8yu34s.