Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

Llama 2 : Modèles de base ouverts et modèles de discussion affinés
Llama 2: Open Foundation and Fine-Tuned Chat Models

Jul 18, 2023

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

24220

Dans ce travail, nous développons et publions Llama 2, une collection de grands modèles de langage (LLMs) pré-entraînés et affinés, allant de 7 à 70 milliards de paramètres. Nos LLMs affinés, appelés Llama 2-Chat, sont optimisés pour des cas d'utilisation en dialogue. Nos modèles surpassent les modèles de chat open-source sur la plupart des benchmarks que nous avons testés, et sur la base de nos évaluations humaines en termes d'utilité et de sécurité, ils pourraient constituer une alternative appropriée aux modèles propriétaires. Nous fournissons une description détaillée de notre approche d'affinage et d'amélioration de la sécurité de Llama 2-Chat afin de permettre à la communauté de s'appuyer sur notre travail et de contribuer au développement responsable des LLMs.

Comment le comportement de ChatGPT évolue-t-il au fil du temps ?
How is ChatGPT's behavior changing over time?

Jul 18, 2023

Lingjiao Chen, Matei Zaharia, James Zou

246

GPT-3.5 et GPT-4 sont les deux services de grands modèles de langage (LLM) les plus largement utilisés. Cependant, le moment et la manière dont ces modèles sont mis à jour au fil du temps restent opaques. Ici, nous évaluons les versions de mars 2023 et juin 2023 de GPT-3.5 et GPT-4 sur quatre tâches variées : 1) résolution de problèmes mathématiques, 2) réponse à des questions sensibles/dangereuses, 3) génération de code et 4) raisonnement visuel. Nous constatons que les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps. Par exemple, GPT-4 (mars 2023) était très performant pour identifier les nombres premiers (précision de 97,6 %), mais GPT-4 (juin 2023) était très faible sur ces mêmes questions (précision de 2,4 %). Fait intéressant, GPT-3.5 (juin 2023) était bien meilleur que GPT-3.5 (mars 2023) dans cette tâche. GPT-4 était moins enclin à répondre aux questions sensibles en juin qu'en mars, et GPT-4 et GPT-3.5 ont commis plus d'erreurs de formatage dans la génération de code en juin qu'en mars. Globalement, nos résultats montrent que le comportement d'un même service de LLM peut changer de manière significative en un laps de temps relativement court, soulignant la nécessité d'une surveillance continue de la qualité des LLM.

L'analyse de circuits permet-elle une interprétabilité à grande échelle ? Preuves tirées des capacités à choix multiples chez Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

L'analyse de circuits est une technique prometteuse pour comprendre les mécanismes internes des modèles de langage. Cependant, les analyses existantes sont réalisées sur de petits modèles loin de l'état de l'art. Pour remédier à cela, nous présentons une étude de cas d'analyse de circuits dans le modèle Chinchilla 70B, visant à tester l'évolutivité de l'analyse de circuits. En particulier, nous étudions la réponse à des questions à choix multiples et examinons la capacité de Chinchilla à identifier l'étiquette de la bonne réponse en connaissant le texte de la réponse correcte. Nous constatons que les techniques existantes d'attribution de logits, de visualisation des motifs d'attention et de patching d'activation s'étendent naturellement à Chinchilla, nous permettant d'identifier et de catégoriser un petit ensemble de `nœuds de sortie' (têtes d'attention et MLPs). Nous étudions en outre la catégorie des têtes d'attention `lettre correcte' afin de comprendre la sémantique de leurs caractéristiques, avec des résultats mitigés. Pour les réponses normales à des questions à choix multiples, nous compressons significativement les sous-espaces de requête, de clé et de valeur de la tête sans perte de performance lors de l'opération sur les étiquettes de réponses des questions à choix multiples, et nous montrons que les sous-espaces de requête et de clé représentent dans une certaine mesure une caractéristique de `Nième élément dans une énumération'. Cependant, lorsque nous tentons d'utiliser cette explication pour comprendre le comportement des têtes sur une distribution plus générale incluant des étiquettes de réponses randomisées, nous constatons qu'il ne s'agit que d'une explication partielle, suggérant qu'il reste encore à apprendre sur le fonctionnement des têtes `lettre correcte' dans la réponse à des questions à choix multiples.

Amélioration de CLIP par un raisonnement visio-linguistique renforcé
Augmenting CLIP with Improved Visio-Linguistic Reasoning

Jul 18, 2023

Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

Les modèles de contraste image-texte tels que CLIP sont utiles pour une variété d'applications en aval, notamment la classification zero-shot, la recherche image-texte et l'apprentissage par transfert. Cependant, ces modèles vision-langage entraînés par contraste échouent souvent sur des tâches compositionnelles visio-linguistiques comme Winoground, avec des performances équivalentes au hasard. Dans notre article, nous abordons ce problème et proposons une méthode légère et efficace en termes d'échantillons appelée SDS-CLIP pour améliorer les capacités de raisonnement visio-linguistique compositionnel de CLIP. L'idée centrale de notre méthode est d'utiliser des paramétrisations d'images différentiables pour affiner CLIP avec un objectif de distillation à partir de grands modèles génératifs texte-image tels que Stable-Diffusion, qui sont relativement performants dans les tâches de raisonnement visio-linguistique. Sur le benchmark de raisonnement compositionnel difficile de Winoground, notre méthode améliore la performance visio-linguistique absolue de différents modèles CLIP jusqu'à 7 %, tandis que sur le jeu de données ARO, notre méthode améliore la performance visio-linguistique jusqu'à 3 %. Comme sous-produit de l'introduction du raisonnement visio-linguistique dans CLIP, nous constatons également que la performance zero-shot s'améliore légèrement sur une variété de jeux de données en aval. Notre méthode renforce l'idée que des objectifs de distillation soigneusement conçus à partir de modèles génératifs peuvent être exploités pour étendre les modèles de contraste image-texte existants avec des capacités de raisonnement visio-linguistique améliorées.

NU-MCC : Codage Compressif Multivue avec Décodeur de Voisinage et Fonction de Distance Répulsive (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Jul 18, 2023

Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee

Des progrès remarquables ont été réalisés dans la reconstruction 3D à partir d'entrées RGB-D monoculaires. MCC est actuellement la méthode de pointe dans ce domaine, obtenant un succès sans précédent en combinant des Transformers visuels avec un entraînement à grande échelle. Cependant, nous avons identifié deux limitations majeures de MCC : 1) Le décodeur Transformer est inefficace pour gérer un grand nombre de points de requête ; 2) La représentation 3D peine à restituer des détails de haute fidélité. Dans cet article, nous proposons une nouvelle approche appelée NU-MCC qui résout ces limitations. NU-MCC intègre deux innovations clés : un décodeur de voisinage et une fonction de distance non signée répulsive (Repulsive UDF). Premièrement, notre décodeur de voisinage introduit des points centraux comme proxy efficace des caractéristiques visuelles d'entrée, permettant à chaque point de requête de ne s'intéresser qu'à un petit voisinage. Cette conception permet non seulement une vitesse d'inférence bien plus rapide, mais aussi l'exploitation de caractéristiques visuelles à plus fine échelle pour une meilleure restitution des textures 3D. Deuxièmement, notre Repulsive UDF est une alternative novatrice au champ d'occupation utilisé dans MCC, améliorant significativement la qualité de la reconstruction d'objets 3D. Contrairement aux UDF standards qui produisent des trous dans les résultats, notre Repulsive UDF permet une reconstruction de surface plus complète. Les résultats expérimentaux montrent que NU-MCC est capable d'apprendre une représentation 3D robuste, faisant progresser de manière significative l'état de l'art en reconstruction 3D monoculaire. En particulier, il surpasse MCC de 9,7 % en termes de score F1 sur le jeu de données CO3D-v2, avec une vitesse d'exécution plus de 5 fois supérieure.

Biomaker CA : un projet de création de biomes utilisant des automates cellulaires
Biomaker CA: a Biome Maker project using Cellular Automata

Jul 18, 2023

Ettore Randazzo, Alexander Mordvintsev

Nous présentons Biomaker CA : un projet de Biome Maker utilisant des Automates Cellulaires (CA). Dans Biomaker CA, la morphogenèse est une priorité, et de petites graines doivent se développer en organismes ressemblant à des plantes pour survivre dans un environnement pauvre en nutriments et finir par se reproduire avec des variations, permettant ainsi à un biome de perdurer sur de longues périodes. Nous simulons des biomes complexes grâce à des règles de CA sur des grilles 2D et parallélisons tous les calculs sur des GPU via le framework Python JAX. Nous montrons comment ce projet permet d'explorer plusieurs types d'environnements et de lois de 'physique', ainsi que différentes architectures de modèles et stratégies de mutation. Nous analysons également certaines configurations pour illustrer comment les agents végétaux peuvent croître, survivre, se reproduire et évoluer, formant des biomes stables ou instables. Nous démontrons ensuite comment il est possible de méta-évoluer des modèles pour survivre dans un environnement hostile, soit par une méta-évolution de bout en bout, soit par une approche plus ciblée et efficace, appelée méta-évolution en boîte de Petri. Enfin, nous montrons comment réaliser une évolution interactive, où l'utilisateur décide comment faire évoluer un modèle végétal de manière interactive avant de le déployer dans un environnement plus vaste. Nous rendons Biomaker CA open source à l'adresse suivante : https://tinyurl.com/2x8yu34s.

L'analyse de circuits permet-elle une interprétabilité à grande échelle ? Preuves tirées des capacités à choix multiples chez Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

Papers Quotidiens

Llama 2 : Modèles de base ouverts et modèles de discussion affinés
Llama 2: Open Foundation and Fine-Tuned Chat Models

Comment le comportement de ChatGPT évolue-t-il au fil du temps ?
How is ChatGPT's behavior changing over time?

L'analyse de circuits permet-elle une interprétabilité à grande échelle ? Preuves tirées des capacités à choix multiples chez Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Amélioration de CLIP par un raisonnement visio-linguistique renforcé
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC : Codage Compressif Multivue avec Décodeur de Voisinage et Fonction de Distance Répulsive (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA : un projet de création de biomes utilisant des automates cellulaires
Biomaker CA: a Biome Maker project using Cellular Automata

Support

Support

Papers Quotidiens

Llama 2 : Modèles de base ouverts et modèles de discussion affinés
Llama 2: Open Foundation and Fine-Tuned Chat Models

Comment le comportement de ChatGPT évolue-t-il au fil du temps ?
How is ChatGPT's behavior changing over time?

L'analyse de circuits permet-elle une interprétabilité à grande échelle ? Preuves tirées des capacités à choix multiples chez Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Amélioration de CLIP par un raisonnement visio-linguistique renforcé
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC : Codage Compressif Multivue avec Décodeur de Voisinage et Fonction de Distance Répulsive (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA : un projet de création de biomes utilisant des automates cellulaires
Biomaker CA: a Biome Maker project using Cellular Automata