ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Aya Dataset : Une Collection en Libre Accès pour le Réglage d'Instructions Multilingues
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9, 2024
Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker
571

Les ensembles de données constituent la base de nombreuses avancées dans l'intelligence artificielle moderne. De nombreuses réalisations récentes dans le domaine du traitement du langage naturel (NLP) peuvent être attribuées au réglage fin de modèles pré-entraînés sur un ensemble diversifié de tâches, permettant à un grand modèle de langage (LLM) de répondre à des instructions. Le réglage fin par instruction (Instruction Fine-Tuning, IFT) nécessite des ensembles de données spécifiquement construits et annotés. Cependant, les ensembles de données existants sont presque exclusivement en anglais. Dans ce travail, notre objectif principal est de combler le fossé linguistique en construisant un ensemble de données de suivi d'instructions, soigneusement élaboré par des humains, couvrant 65 langues. Nous avons collaboré avec des locuteurs natifs de langues du monde entier pour collecter des exemples naturels d'instructions et de réponses. De plus, nous créons la collection multilingue la plus étendue à ce jour, comprenant 513 millions d'exemples, grâce à la modélisation et à la traduction d'ensembles de données existants dans 114 langues. Au total, nous contribuons quatre ressources clés : nous développons et ouvrons au public la Plateforme d'Annotation Aya, l'Ensemble de Données Aya, la Collection Aya et la Suite d'Évaluation Aya. L'initiative Aya sert également d'étude de cas précieuse en recherche participative, impliquant des collaborateurs de 119 pays. Nous considérons cela comme un cadre précieux pour les futures collaborations de recherche visant à combler les lacunes en ressources.

InternLM-Math : Modèles de Langage à Grande Échelle Ouverts pour le Raisonnement Mathématique Vérifiable
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Feb 9, 2024
Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
201

Les capacités mathématiques des grands modèles de langage peuvent représenter leur aptitude au raisonnement abstrait. Dans cet article, nous présentons et ouvrons au public nos modèles de raisonnement mathématique InternLM-Math, qui sont pré-entraînés à partir d'InternLM2. Nous unifions le raisonnement en chaîne de pensée, la modélisation de récompense, le raisonnement formel, l'augmentation de données et l'interpréteur de code dans un format séquentiel à séquentiel (seq2seq) unifié, et supervisons notre modèle pour qu'il devienne un raisonneur, vérificateur, prouveur et générateur de données mathématiques polyvalent. Ces capacités peuvent être utilisées pour développer les prochains modèles de langage mathématique ou pour l'auto-itération. InternLM-Math obtient des performances de pointe open-source dans le cadre de l'apprentissage en contexte, du fine-tuning supervisé et du raisonnement assisté par code sur divers benchmarks informels et formels, notamment GSM8K, MATH, l'examen de mathématiques hongrois, MathBench-ZH et MiniF2F. Notre modèle pré-entraîné atteint un score de 30,3 sur l'ensemble de test MiniF2F sans fine-tuning. Nous explorons également comment utiliser LEAN pour résoudre des problèmes mathématiques et étudions ses performances dans le cadre de l'apprentissage multitâche, ce qui montre la possibilité d'utiliser LEAN comme plateforme unifiée pour la résolution et la preuve en mathématiques. Nos modèles, codes et données sont disponibles à l'adresse https://github.com/InternLM/InternLM-Math.

HeadStudio : Des textes vers des avatars de tête animables avec le splatting de gaussiennes 3D
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Feb 9, 2024
Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
182

La création d'avatars numériques à partir de prompts textuels a longtemps été une tâche souhaitable mais difficile. Malgré les résultats prometteurs obtenus grâce aux priors de diffusion 2D dans des travaux récents, les méthodes actuelles peinent à produire efficacement des avatars de haute qualité et animés. Dans cet article, nous présentons HeadStudio, un nouveau cadre qui utilise le splatting de Gaussiennes 3D pour générer des avatars réalistes et animés à partir de prompts textuels. Notre méthode pilote sémantiquement les Gaussiennes 3D pour créer une apparence flexible et réalisable grâce à la représentation intermédiaire FLAME. Plus précisément, nous intégrons FLAME à la fois dans la représentation 3D et dans la distillation de score : 1) Splatting de Gaussiennes 3D basé sur FLAME, en pilotant les points de Gaussiennes 3D en les attachant à un maillage FLAME. 2) Distillation de score basée sur FLAME, en utilisant un signal de contrôle fin basé sur FLAME pour guider la distillation de score à partir du prompt textuel. Des expériences approfondies démontrent l'efficacité de HeadStudio dans la génération d'avatars animables à partir de prompts textuels, présentant des apparences visuellement attrayantes. Les avatars sont capables de produire des vues nouvelles en temps réel de haute qualité (≥ 40 ips) à une résolution de 1024. Ils peuvent être contrôlés de manière fluide par la parole et la vidéo du monde réel. Nous espérons que HeadStudio pourra faire progresser la création d'avatars numériques et que la méthode présentée pourra être largement appliquée dans divers domaines.

MusicMagus : Édition texte-à-musique en zero-shot via des modèles de diffusion
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Feb 9, 2024
Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
154

Les récents progrès dans les modèles de génération de musique à partir de texte ont ouvert de nouvelles perspectives en matière de créativité musicale. Cependant, la génération de musique implique généralement des raffinements itératifs, et la manière de modifier la musique générée reste un défi majeur. Cet article présente une nouvelle approche pour l'édition de musique générée par de tels modèles, permettant la modification d'attributs spécifiques, tels que le genre, l'ambiance et les instruments, tout en conservant les autres aspects inchangés. Notre méthode transforme l'édition de texte en manipulation de l'espace latent tout en ajoutant une contrainte supplémentaire pour assurer la cohérence. Elle s'intègre de manière transparente avec les modèles de diffusion pré-entraînés existants pour la génération de musique à partir de texte, sans nécessiter d'entraînement supplémentaire. Les résultats expérimentaux démontrent une performance supérieure à la fois aux approches zero-shot et à certains modèles supervisés de référence dans les évaluations de transfert de style et de timbre. De plus, nous illustrons l'applicabilité pratique de notre approche dans des scénarios réels d'édition musicale.

ViGoR : Améliorer l'ancrage visuel des grands modèles de vision et de langage grâce à une modélisation fine des récompenses
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Feb 9, 2024
Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li
152

En combinant la compréhension du langage naturel, les capacités de génération et l'étendue des connaissances des grands modèles de langage avec la perception visuelle, les récents modèles de vision et langage à grande échelle (LVLMs) ont démontré des capacités de raisonnement sans précédent dans le monde réel. Cependant, le texte généré souffre souvent d'un ancrage visuel imprécis, entraînant des erreurs telles que l'hallucination d'éléments de scène inexistants, l'omission de parties significatives de la scène, et l'inférence incorrecte d'attributs et de relations entre objets. Pour résoudre ces problèmes, nous introduisons un nouveau cadre, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), qui utilise une modélisation de récompense fine pour améliorer significativement l'ancrage visuel des LVLMs par rapport aux modèles pré-entraînés de référence. Cette amélioration est efficacement réalisée en utilisant des évaluations humaines bien moins coûteuses que des supervisions complètes, ainsi que des méthodes automatisées. Nous démontrons l'efficacité de notre approche à travers de nombreuses métriques sur plusieurs benchmarks. De plus, nous construisons un ensemble de données complet et exigeant spécifiquement conçu pour valider les capacités d'ancrage visuel des LVLMs. Enfin, nous prévoyons de publier nos annotations humaines comprenant environ 16 000 paires d'images et de textes générés avec des évaluations fines pour contribuer aux recherches connexes dans la communauté.

Modification de modèles à l'aide d'exemples canoniques
Model Editing with Canonical Examples

Feb 9, 2024
John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
131

Nous introduisons l'édition de modèles avec des exemples canoniques, un cadre dans lequel (1) un seul exemple d'apprentissage est fourni pour chaque comportement souhaité, (2) l'évaluation est réalisée exclusivement hors distribution, et (3) l'écart par rapport à un modèle initial est strictement limité. Un exemple canonique est une instance simple de bon comportement, par exemple, "La capitale de Maurice est Port Louis", ou de mauvais comportement, par exemple, "Un aspect des chercheurs est insensible". L'ensemble d'évaluation contient des exemples plus complexes de chaque comportement (comme un paragraphe dans lequel la capitale de Maurice est mentionnée). Nous créons trois jeux de données et en modifions trois autres pour l'édition de modèles avec des exemples canoniques, couvrant des améliorations intensives en connaissances, l'atténuation des biais sociaux et des cas limites syntaxiques. Dans nos expériences sur les modèles de langage Pythia, nous constatons que LoRA surpasse le fine-tuning complet et MEMIT. Nous nous tournons ensuite vers l'architecture de modèle de langage Backpack car elle est conçue pour permettre des améliorations ciblées. Le Backpack définit une grande banque de vecteurs de sens—une décomposition des différentes utilisations de chaque mot—qui sont pondérés et sommés pour former les logits de sortie du modèle. Nous proposons le fine-tuning de sens, qui sélectionne et affine quelques vecteurs de sens (environ 10) pour chaque exemple canonique, et constatons qu'il surpasse d'autres méthodes de fine-tuning, par exemple, une amélioration de 4,8 % contre 0,3 %. Enfin, nous améliorons GPT-J-6B par un ensemble au moment de l'inférence avec uniquement les changements issus du fine-tuning de sens d'un Backpack 35 fois plus petit, surpassant dans un cas l'édition de GPT-J lui-même (4,1 % contre 1,0 %).

Keyframer : Renforcer la conception d'animation grâce aux modèles de langage à grande échelle
Keyframer: Empowering Animation Design using Large Language Models

Feb 8, 2024
Tiffany Tseng, Ruijia Cheng, Jeffrey Nichols
131

Les grands modèles de langage (LLMs) ont le potentiel d'influencer un large éventail de domaines créatifs, mais leur application à l'animation reste peu explorée et présente des défis inédits, tels que la manière dont les utilisateurs pourraient décrire efficacement le mouvement en langage naturel. Dans cet article, nous présentons Keyframer, un outil de conception pour animer des images statiques (SVGs) à l'aide du langage naturel. Inspiré par des entretiens avec des designers et ingénieurs professionnels de l'animation, Keyframer facilite l'exploration et l'affinement des animations grâce à la combinaison de prompts et à l'édition directe des résultats générés. Le système permet également aux utilisateurs de demander des variantes de conception, favorisant la comparaison et l'idéation. À travers une étude utilisateur menée auprès de 13 participants, nous proposons une caractérisation des stratégies de prompting, incluant une taxonomie des types de prompts sémantiques pour décrire le mouvement et un style de prompting « décomposé » où les utilisateurs adaptent continuellement leurs objectifs en réponse aux résultats générés. Nous montrons comment l'édition directe, combinée au prompting, permet une itération allant au-delà des interfaces de prompting en une seule étape, courantes dans les outils génératifs actuels. Par ce travail, nous explorons comment les LLMs pourraient permettre à un large public de s'engager dans la création d'animations.

SubGen : Génération de jetons en temps et mémoire sous-linéaires
SubGen: Token Generation in Sublinear Time and Memory

Feb 8, 2024
Amir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi
122

Malgré le succès significatif des grands modèles de langage (LLMs), leurs importants besoins en mémoire posent des défis pour leur déploiement dans la génération de tokens à contexte long. L'empreinte mémoire substantielle des décodeurs de LLMs découle de la nécessité de stocker tous les tokens précédents dans le module d'attention, une exigence imposée par la mise en cache des paires clé-valeur (KV). Dans ce travail, nous nous concentrons sur le développement d'une technique de compression efficace pour le cache KV. Des preuves empiriques indiquent une tendance significative au regroupement au sein des embeddings de clés dans le module d'attention. En nous appuyant sur cette observation clé, nous avons conçu une nouvelle méthode de mise en cache avec une complexité sous-linéaire, utilisant un clustering en ligne sur les tokens de clés et un échantillonnage ell_2 en ligne sur les valeurs. Le résultat est un algorithme de décodage d'attention à la fois précis et efficace, nommé SubGen. Non seulement cet algorithme garantit une empreinte mémoire sous-linéaire et une complexité temporelle sous-linéaire, mais nous établissons également une borne d'erreur serrée pour notre approche. Les évaluations empiriques sur des tâches de réponse à des questions à contexte long démontrent que SubGen surpasse significativement les méthodes existantes et de pointe de compression du cache KV en termes de performance et d'efficacité.

Supprimer les éléphants roses grâce au retour direct sur les principes
Suppressing Pink Elephants with Direct Principle Feedback

Feb 12, 2024
Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman
111

Les méthodes existantes pour contrôler les modèles de langage, telles que le RLHF et l'IA Constitutionnelle, impliquent de déterminer quels comportements des LLM sont souhaitables et de les intégrer dans un modèle de langage. Cependant, dans de nombreux cas, il est préférable que les LLM soient contrôlables au moment de l'inférence, afin qu'ils puissent être utilisés dans divers contextes aux besoins variés. Nous illustrons cela avec le problème de l'Éléphant Rose : demander à un LLM d'éviter de mentionner une certaine entité (un « Éléphant Rose ») et de discuter plutôt d'une entité préférée (« Éléphant Gris »). Nous appliquons une simplification novatrice de l'IA Constitutionnelle, le Feedback Direct sur les Principes, qui évite le classement des réponses et utilise directement le DPO sur les critiques et les révisions. Nos résultats montrent qu'après un fine-tuning avec DPF sur notre jeu de données synthétiques d'Éléphants Roses, notre modèle LLaMA 2 de 13B fine-tuné surpasse significativement Llama-2-13B-Chat et une baseline basée sur des prompts, et performe aussi bien que GPT-4 sur notre ensemble de tests évaluant le problème de l'Éléphant Rose.

Premier-TACO : Prétraitement de représentations multitâches via une fonction de perte contrastive pilotée par des actions temporelles
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Feb 9, 2024
Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang
112

Nous présentons Premier-TACO, une approche d'apprentissage de représentation de caractéristiques multitâche conçue pour améliorer l'efficacité de l'apprentissage de politiques en few-shot dans des tâches de prise de décision séquentielle. Premier-TACO exploite un sous-ensemble de jeux de données hors ligne multitâches pour pré-entraîner une représentation de caractéristiques générale, qui capture les dynamiques environnementales critiques et est affinée à l'aide de démonstrations expertes minimales. Il fait progresser l'objectif d'apprentissage contrastif d'actions temporelles (TACO), connu pour ses résultats de pointe dans les tâches de contrôle visuel, en intégrant une nouvelle stratégie d'échantillonnage d'exemples négatifs. Cette stratégie est cruciale pour augmenter significativement l'efficacité computationnelle de TACO, rendant possible le pré-entraînement hors ligne multitâche à grande échelle. Notre évaluation empirique approfondie sur un ensemble diversifié de benchmarks de contrôle continu, incluant Deepmind Control Suite, MetaWorld et LIBERO, démontre l'efficacité de Premier-TACO dans le pré-entraînement de représentations visuelles, améliorant significativement l'apprentissage par imitation en few-shot de nouvelles tâches. Notre code, les données de pré-entraînement, ainsi que les points de contrôle des modèles pré-entraînés seront publiés sur https://github.com/PremierTACO/premier-taco.

Autocollants animés : Donner vie aux autocollants avec la diffusion vidéo
Animated Stickers: Bringing Stickers to Life with Video Diffusion

Feb 8, 2024
David Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu
113

Nous présentons les stickers animés, un modèle de diffusion vidéo qui génère une animation conditionnée par une invite textuelle et une image de sticker statique. Notre modèle est construit sur la base du modèle Emu, un modèle de pointe pour la génération d'images à partir de texte, auquel nous avons ajouté des couches temporelles pour modéliser le mouvement. En raison de l'écart de domaine, c'est-à-dire des différences dans le style visuel et de mouvement, un modèle qui performait bien pour générer des vidéos naturelles ne parvient plus à produire des vidéos vives lorsqu'il est appliqué aux stickers. Pour combler cet écart, nous utilisons un pipeline de réglage fin en deux étapes : d'abord avec des données faiblement intra-domaines, suivies d'une stratégie d'intervention humaine (HITL) que nous appelons "ensemble-de-professeurs". Cette stratégie distille les meilleures qualités de plusieurs modèles enseignants dans un modèle étudiant plus petit. Nous montrons que cette approche nous permet d'améliorer spécifiquement la qualité du mouvement tout en conservant le style de l'image statique. Grâce à des optimisations lors de l'inférence, notre modèle est capable de générer une vidéo de huit images avec un mouvement de haute qualité, intéressant et pertinent en moins d'une seconde.

DeAL : Alignement au moment du décodage pour les grands modèles de langage
DeAL: Decoding-time Alignment for Large Language Models

Feb 5, 2024
James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth
91

Les grands modèles de langage (LLM) sont aujourd'hui censés générer du contenu aligné sur les préférences humaines. Les travaux actuels se concentrent sur l'alignement lors de l'entraînement du modèle, à travers des techniques telles que l'apprentissage par renforcement avec retour humain (RLHF). Cependant, il n'est pas clair si ces méthodes constituent un choix efficace pour enseigner les objectifs d'alignement au modèle. Premièrement, l'incapacité à incorporer des récompenses multiples et personnalisées, ainsi que la dépendance à une vision universelle et statique des principes par le développeur du modèle, sont des limitations majeures. Deuxièmement, les lacunes résiduelles dans l'entraînement du modèle et la fiabilité de ces approches sont également discutables (par exemple, la vulnérabilité au jail-breaking même après un entraînement de sécurité). Pour y remédier, nous proposons DeAL, un cadre qui permet à l'utilisateur de personnaliser les fonctions de récompense et permet l'Alignement au moment du décodage des LLM (DeAL). Au cœur de notre approche, nous considérons le décodage comme un processus de recherche guidé par des heuristiques et facilitons l'utilisation d'une grande variété d'objectifs d'alignement. Nos expériences avec des contraintes programmatiques telles que les contraintes de mots-clés et de longueur (largement étudiées à l'ère pré-LLM) et des objectifs abstraits tels que l'innocuité et l'utilité (proposés à l'ère post-LLM) montrent que nous pouvons gérer des compromis fins, améliorer l'adhésion aux objectifs d'alignement et combler les lacunes résiduelles des LLM. Enfin, bien que DeAL puisse être efficacement combiné avec RLHF et des techniques d'invite, sa généralité rend le décodage plus lent, une optimisation que nous laissons pour de futurs travaux.

Contrôle de Corps Rigides Dirigés par des Fluides dans le Monde Réel via l'Apprentissage par Renforcement Profond
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

Feb 8, 2024
Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
61

Les récents progrès dans les applications pratiques de l'apprentissage par renforcement (RL) reposent sur la capacité à simuler avec précision des systèmes à grande échelle. Cependant, des domaines tels que les systèmes de dynamique des fluides présentent des phénomènes dynamiques complexes difficiles à simuler à des taux d'intégration élevés, limitant ainsi l'application directe des algorithmes modernes de RL profond à du matériel souvent coûteux ou critique pour la sécurité. Dans ce travail, nous présentons "Box o Flows", un nouveau système expérimental de contrôle de laboratoire pour évaluer systématiquement les algorithmes de RL dans des scénarios dynamiques réels. Nous décrivons les composants clés de Box o Flows et, à travers une série d'expériences, démontrons comment les algorithmes de RL sans modèle de pointe peuvent synthétiser une variété de comportements complexes via des spécifications de récompense simples. De plus, nous explorons le rôle du RL hors ligne dans les tests d'hypothèses économes en données en réutilisant des expériences passées. Nous pensons que les insights tirés de cette étude préliminaire et la disponibilité de systèmes comme Box o Flows soutiennent la voie à suivre pour développer des algorithmes de RL systématiques pouvant être appliqués de manière générale à des systèmes dynamiques complexes. Le matériel supplémentaire et les vidéos des expériences sont disponibles à l'adresse https://sites.google.com/view/box-o-flows/home.

Feb 9
Feb 12
Feb 13