HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

15 papers found

LongWriter : Libérer la génération de textes de 10 000+ mots à partir de modèles de langage à contexte étendu
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Les modèles de langage à contexte étendu (LLMs) actuels peuvent traiter des entrées allant jusqu'à 100 000 tokens, mais peinent à générer des dépassant même une longueur modeste de 2 000 mots. À travers des expériences contrôlées, nous constatons que la longueur effective de génération du modèle est intrinsèquement limitée par les échantillons qu'il a vus lors du réglage supervisé (SFT). En d'autres termes, leur limitation de sortie est due à la rareté des exemples de sorties longues dans les ensembles de données SFT existants. Pour remédier à cela, nous introduisons AgentWrite, un pipeline basé sur des agents qui décompose les tâches de génération ultra-longues en sous-tâches, permettant aux LLMs disponibles sur étagère de générer des sorties cohérentes dépassant 20 000 mots. En exploitant AgentWrite, nous construisons LongWriter-6k, un ensemble de données contenant 6 000 données SFT avec des longueurs de sortie allant de 2k à 32k mots. En intégrant cet ensemble de données dans l'entraînement des modèles, nous parvenons à étendre la longueur de sortie des modèles existants à plus de 10 000 mots tout en maintenant la qualité de la sortie. Nous développons également LongBench-Write, un benchmark complet pour évaluer les capacités de génération ultra-longues. Notre modèle de 9B paramètres, encore amélioré grâce à DPO, atteint des performances de pointe sur ce benchmark, surpassant même des modèles propriétaires beaucoup plus volumineux. En général, notre travail démontre que les LLMs à contexte étendu existants possèdent déjà le potentiel pour une fenêtre de sortie plus large—tout ce dont vous avez besoin est des données avec des sorties étendues lors de l'alignement du modèle pour débloquer cette capacité. Notre code et nos modèles sont disponibles à l'adresse : https://github.com/THUDM/LongWriter.

Imagen 3
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

Nous présentons Imagen 3, un modèle de diffusion latente qui génère des images de haute qualité à partir de descriptions textuelles. Nous décrivons nos évaluations de qualité et de responsabilité. Imagen 3 est préféré aux autres modèles de pointe (SOTA) au moment de l'évaluation. De plus, nous abordons les questions liées à la sécurité et à la représentation, ainsi que les méthodes que nous avons utilisées pour minimiser les risques potentiels de nos modèles.

La diversité renforce l'intelligence : Intégration de l'expertise des agents d'ingénierie logicielle
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

Les agents de grands modèles de langage (LLM) ont démontré un potentiel considérable pour résoudre des problèmes réels d'ingénierie logicielle (SWE). L'agent open-source le plus avancé en SWE peut résoudre plus de 27 % des problèmes réels sur GitHub dans SWE-Bench Lite. Cependant, ces frameworks d'agents sophistiqués présentent des forces variées, excellant dans certaines tâches tout en sous-performant dans d'autres. Pour pleinement exploiter la diversité de ces agents, nous proposons DEI (Diversity Empowered Intelligence), un framework qui tire parti de leur expertise unique. DEI fonctionne comme un méta-module au-dessus des frameworks d'agents SWE existants, gérant des collectifs d'agents pour améliorer la résolution de problèmes. Les résultats expérimentaux montrent qu'un comité d'agents guidé par DEI est capable de surpasser largement la performance du meilleur agent individuel. Par exemple, un groupe d'agents SWE open-source, avec un taux de résolution individuel maximal de 27,3 % sur SWE-Bench Lite, peut atteindre un taux de résolution de 34,3 % avec DEI, soit une amélioration de 25 %, surpassant ainsi la plupart des solutions propriétaires. Notre groupe le plus performant excelle avec un taux de résolution de 55 %, obtenant le classement le plus élevé sur SWE-Bench Lite. Nos résultats contribuent au corpus croissant de recherches sur les systèmes d'IA collaboratifs et leur potentiel à résoudre des défis complexes en ingénierie logicielle.

OpenResearcher : Libérer le potentiel de l'IA pour accélérer la recherche scientifique
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

La croissance rapide de la littérature scientifique pose des défis importants pour les chercheurs qui s'efforcent de rester à jour avec les dernières avancées dans leurs domaines et d'explorer de nouveaux sujets. Nous présentons OpenResearcher, une plateforme innovante qui exploite les techniques d'Intelligence Artificielle (IA) pour accélérer le processus de recherche en répondant à diverses questions des chercheurs. OpenResearcher est construit sur la base de la Génération Augmentée par Récupération (RAG) pour intégrer des modèles de langage de grande envergure (LLMs) avec des connaissances spécifiques et actualisées dans le domaine. De plus, nous développons divers outils pour OpenResearcher afin de comprendre les requêtes des chercheurs, effectuer des recherches dans la littérature scientifique, filtrer les informations récupérées, fournir des réponses précises et complètes, et auto-affiner ces réponses. OpenResearcher peut utiliser ces outils de manière flexible pour équilibrer efficacité et efficience. En conséquence, OpenResearcher permet aux chercheurs de gagner du temps et d'augmenter leur potentiel à découvrir de nouvelles perspectives et à favoriser des percées scientifiques. Une démo, une vidéo et le code sont disponibles à l'adresse suivante : https://github.com/GAIR-NLP/OpenResearcher.

Routeur Récurrent par Couches pour les Mélanges d'Experts
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

Le passage à l'échelle des grands modèles de langage (LLMs) a révolutionné leurs capacités dans diverses tâches, mais cette croissance doit s'accompagner de stratégies de calcul efficaces. L'architecture Mixture-of-Experts (MoE) se distingue par sa capacité à augmenter la taille des modèles sans augmenter significativement les coûts d'entraînement. Malgré leurs avantages, les modèles MoE actuels présentent souvent une inefficacité en termes de paramètres. Par exemple, un LLM basé sur MoE pré-entraîné avec 52 milliards de paramètres pourrait offrir des performances comparables à un modèle standard de 6,7 milliards de paramètres. Étant une partie cruciale de MoE, les routeurs actuels dans différentes couches attribuent les tokens de manière indépendante sans exploiter les informations historiques de routage, ce qui peut conduire à des combinaisons token-expert sous-optimales et au problème d'inefficacité des paramètres. Pour atténuer ce problème, nous introduisons le Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE utilise une unité récurrente à porte (GRU) pour établir des dépendances entre les décisions de routage à travers les couches consécutives. Une telle récurrence par couche peut être calculée efficacement en parallèle pour les tokens d'entrée et introduit des coûts négociables. Nos évaluations empiriques approfondies démontrent que les modèles de langage basés sur RMoE surpassent systématiquement un éventail de modèles de référence. De plus, RMoE intègre une nouvelle étape de calcul orthogonale aux méthodes existantes, permettant une compatibilité transparente avec d'autres architectures MoE. Nos analyses attribuent les gains de RMoE à son partage efficace d'informations inter-couches, qui améliore également la sélection et la diversité des experts. Notre code est disponible à l'adresse https://github.com/qiuzh20/RMoE.

Amuro & Char : Analyse de la relation entre le pré-entraînement et le réglage fin des grands modèles de langage
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

Le développement des grands modèles de langage conduit à l'émergence d'un paradigme de pré-entraînement puis d'alignement, dans lequel le modèle est généralement pré-entraîné sur un vaste corpus de texte avant de subir une étape de réglage pour l'aligner sur les préférences humaines ou les tâches en aval. Dans ce travail, nous étudions la relation entre le pré-entraînement et le réglage fin en appliquant ce dernier à plusieurs points de contrôle intermédiaires du modèle pré-entraîné. Nos résultats sur 18 ensembles de données suggèrent que : i) le pré-entraînement continu améliore le modèle de manière latente qui se révèle après le réglage fin ; ii) avec un réglage fin supplémentaire, les ensembles de données pour lesquels le modèle ne démontre pas de capacités initiales bénéficient davantage que ceux où le modèle performe bien dès le stade de pré-entraînement ; iii) bien que le modèle tire un avantage significatif du réglage fin supervisé, il peut oublier des connaissances de domaine précédemment acquises ainsi que les tâches non rencontrées lors du réglage fin ; iv) le modèle présente une forte sensibilité aux prompts d'évaluation après un réglage fin supervisé, mais cette sensibilité peut être atténuée par un pré-entraînement supplémentaire.

SlotLifter : Relèvement de caractéristiques guidé par des slots pour l'apprentissage de champs de radiance centrés sur les objets
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

La capacité à extraire des abstractions centrées sur les objets à partir de scènes visuelles complexes est fondamentale pour une généralisation de niveau humain. Malgré les progrès significatifs des méthodes d'apprentissage centrées sur les objets, l'apprentissage de représentations centrées sur les objets dans le monde physique en 3D reste un défi crucial. Dans ce travail, nous proposons SlotLifter, un nouveau modèle de radiance centré sur les objets qui aborde conjointement la reconstruction et la décomposition de scènes via un relèvement de caractéristiques guidé par des slots. Une telle conception unifie les représentations d'apprentissage centrées sur les objets et les méthodes de rendu basées sur l'image, offrant des performances de pointe en décomposition de scènes et en synthèse de nouvelles vues sur quatre ensembles de données synthétiques complexes et quatre ensembles de données réels, surpassant largement les méthodes existantes d'apprentissage centré sur les objets en 3D. À travers des études ablatives approfondies, nous démontrons l'efficacité des conceptions de SlotLifter, révélant des insights clés pour des orientations futures potentielles.

DC3DO : Classificateur par diffusion pour objets 3D
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Inspirés par l'accent mis par Geoffrey Hinton sur la modélisation générative, "Pour reconnaître les formes, apprenez d'abord à les générer", nous explorons l'utilisation de modèles de diffusion 3D pour la classification d'objets. En exploitant les estimations de densité de ces modèles, notre approche, le Classificateur par Diffusion pour Objets 3D (DC3DO), permet une classification zero-shot de formes 3D sans entraînement supplémentaire. En moyenne, notre méthode obtient une amélioration de 12,5 % par rapport à ses homologues multivues, démontrant un raisonnement multimodal supérieur aux approches discriminatives. DC3DO utilise un modèle de diffusion conditionné par classe entraîné sur ShapeNet, et nous effectuons des inférences sur des nuages de points de chaises et de voitures. Ce travail met en lumière le potentiel des modèles génératifs dans la classification d'objets 3D.

FuxiTranyu : Un modèle de langage multilingue de grande taille entraîné avec des données équilibrées
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

Les grands modèles de langage (LLMs) ont démontré leur prouesse dans un large éventail de tâches. Cependant, de nombreux LLMs présentent des écarts de performance significatifs entre les langues à ressources élevées et celles à ressources limitées. Pour atténuer ce défi, nous présentons FuxiTranyu, un LLM multilingue open-source, conçu pour répondre aux besoins de la communauté de recherche en matière de capacités multilingues équilibrées et performantes. FuxiTranyu-8B, le modèle de base avec 8 milliards de paramètres, est entraîné à partir de zéro sur un référentiel de données multilingues soigneusement équilibré contenant 600 milliards de tokens couvrant 43 langues naturelles et 16 langages de programmation. En plus du modèle de base, nous développons également deux modèles ajustés par instruction : FuxiTranyu-8B-SFT, affiné sur un ensemble de données d'instructions multilingues diversifié, et FuxiTranyu-8B-DPO, encore amélioré avec DPO sur un ensemble de données de préférences pour une meilleure capacité d'alignement. Des expériences approfondies sur une large gamme de benchmarks multilingues démontrent la performance compétitive de FuxiTranyu par rapport aux LLMs multilingues existants, tels que BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B et Mistral-7B-Instruct. Les analyses d'interprétabilité au niveau des neurones et des représentations suggèrent que FuxiTranyu est capable d'apprendre des représentations multilingues cohérentes à travers différentes langues. Pour promouvoir davantage de recherches sur les LLMs multilingues et leurs mécanismes de fonctionnement, nous publions à la fois les modèles de base et ajustés par instruction de FuxiTranyu, ainsi que 58 points de contrôle de pré-entraînement sur HuggingFace et Github.

UniT : Représentation tactile unifiée pour l'apprentissage robotique
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT est une approche novatrice pour l'apprentissage de représentations tactiles, utilisant un VQVAE pour apprendre un espace latent compact et servir de représentation tactile. Il utilise des images tactiles obtenues à partir d'un objet simple unique pour entraîner la représentation avec transférabilité et généralisabilité. Cette représentation tactile peut être transférée en zero-shot à diverses tâches en aval, incluant des tâches de perception et l'apprentissage de politiques de manipulation. Notre évaluation sur une tâche d'estimation de pose 3D en main montre que UniT surpasse les méthodes existantes d'apprentissage de représentations visuelles et tactiles. De plus, l'efficacité d'UniT dans l'apprentissage de politiques est démontrée à travers trois tâches du monde réel impliquant des objets manipulés variés et des interactions complexes entre robot, objet et environnement. À travers des expérimentations approfondies, UniT se révèle être une méthode simple à entraîner, plug-and-play, mais largement efficace pour l'apprentissage de représentations tactiles. Pour plus de détails, veuillez consulter notre dépôt open-source https://github.com/ZhengtongXu/UniT et le site web du projet https://zhengtongxu.github.io/unifiedtactile.github.io/.

MovieSum : Un ensemble de données pour le résumé abstrait de scénarios de films
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

La synthétisation de scénarios de films représente un défi complexe, car elle nécessite une compréhension de contextes d'entrée longs et de divers éléments spécifiques au cinéma. Les grands modèles de langage ont montré des avancées significatives dans la synthétisation de documents, mais ils éprouvent souvent des difficultés à traiter des contextes d'entrée étendus. Par ailleurs, bien que les transcriptions de séries télévisées aient fait l'objet d'études récentes, la synthétisation de scénarios de films reste peu explorée. Pour stimuler la recherche dans ce domaine, nous présentons un nouveau jeu de données, MovieSum, dédié à la synthétisation abstraite de scénarios de films. Ce jeu de données comprend 2200 scénarios de films accompagnés de leurs résumés d'intrigue issus de Wikipédia. Nous avons formaté manuellement les scénarios pour représenter leurs éléments structurels. Par rapport aux jeux de données existants, MovieSum possède plusieurs caractéristiques distinctives : (1) Il inclut des scénarios de films, qui sont plus longs que ceux des épisodes de séries télévisées. (2) Il est deux fois plus volumineux que les précédents jeux de données de scénarios de films. (3) Il fournit des métadonnées avec des identifiants IMDb pour faciliter l'accès à des connaissances externes supplémentaires. Nous présentons également les résultats des grands modèles de langage récemment publiés appliqués à la synthétisation sur notre jeu de données, afin d'établir une base de référence détaillée.

Conception de protéines à l'aide de modèles de langage à grande échelle : Améliorations et analyses comparatives
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

Les modèles de langage pré-entraînés (LLM) ont démontré des capacités substantielles dans une gamme de tâches conventionnelles de traitement du langage naturel (NLP), telles que la synthèse et la reconnaissance d'entités. Dans cet article, nous explorons l'application des LLM à la génération de séquences protéiques de haute qualité. Plus précisément, nous adoptons une série de LLM pré-entraînés, incluant Mistral-7B1, Llama-2-7B2, Llama-3-8B3 et gemma-7B4, pour produire des séquences protéiques valides. Tous ces modèles sont accessibles au public. Contrairement aux travaux précédents dans ce domaine, notre approche utilise un ensemble de données relativement petit comprenant 42 000 séquences protéiques humaines distinctes. Nous réentraînons ces modèles pour traiter des données liées aux protéines, garantissant la génération de structures protéiques biologiquement réalisables. Nos résultats montrent que même avec des données limitées, les modèles adaptés présentent une efficacité comparable à celle des modèles établis axés sur les protéines, tels que les variantes de ProGen, ProtGPT2 et ProLLaMA, qui ont été entraînés sur des millions de séquences protéiques. Pour valider et quantifier la performance de nos modèles, nous menons des analyses comparatives en utilisant des métriques standard telles que pLDDT, RMSD, TM-score et REU. De plus, nous nous engageons à rendre publiques les versions entraînées des quatre modèles, favorisant ainsi une plus grande transparence et collaboration dans le domaine de la biologie computationnelle.

TacSL : Une bibliothèque pour la simulation et l'apprentissage de capteurs visuo-tactiles
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Pour les humains comme pour les robots, le sens du toucher, connu sous le nom de perception tactile, est essentiel pour accomplir des tâches de manipulation impliquant des contacts fréquents. Trois défis majeurs dans la perception tactile robotique sont : 1) l'interprétation des signaux des capteurs, 2) la génération de signaux dans des scénarios nouveaux, et 3) l'apprentissage de politiques basées sur les capteurs. Pour les capteurs visuo-tactiles, l'interprétation a été facilitée par leur relation étroite avec les capteurs visuels (par exemple, les caméras RGB). Cependant, la génération reste difficile, car les capteurs visuo-tactiles impliquent généralement des contacts, des déformations, un éclairage et une imagerie, tous coûteux à simuler ; par conséquent, l'apprentissage de politiques a été problématique, car la simulation ne peut pas être exploitée pour la collecte de données à grande échelle. Nous présentons TacSL (taxel), une bibliothèque pour la simulation et l'apprentissage de capteurs visuo-tactiles basée sur GPU. TacSL peut être utilisée pour simuler des images visuo-tactiles et extraire des distributions de forces de contact plus de 200 fois plus rapidement que l'état de l'art précédent, le tout au sein du simulateur largement utilisé Isaac Gym. De plus, TacSL fournit une boîte à outils d'apprentissage contenant plusieurs modèles de capteurs, des environnements d'entraînement intensifs en contacts, et des algorithmes en ligne/hors ligne qui peuvent faciliter l'apprentissage de politiques pour des applications de transfert simulation-réalité. Sur le plan algorithmique, nous introduisons un nouvel algorithme d'apprentissage par renforcement en ligne appelé distillation acteur-critique asymétrique (\sysName), conçu pour apprendre efficacement et de manière efficiente des politiques basées sur le toucher en simulation, qui peuvent être transférées dans le monde réel. Enfin, nous démontrons l'utilité de notre bibliothèque et de nos algorithmes en évaluant les avantages de la distillation et de la perception multimodale pour les tâches de manipulation riches en contacts, et surtout, en réalisant un transfert simulation-réalité. Les vidéos supplémentaires et les résultats sont disponibles à l'adresse https://iakinola23.github.io/tacsl/.

ZePo : Stylisation de portraits en Zero-Shot avec un échantillonnage accéléré
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

Les modèles de génération d'images à partir de texte basés sur la diffusion ont considérablement fait progresser le domaine de la synthèse de contenu artistique. Cependant, les méthodes actuelles de stylisation de portraits nécessitent généralement soit un ajustement fin du modèle basé sur des exemples, soit l'utilisation de l'inversion DDIM pour ramener les images à l'espace de bruit, deux approches qui ralentissent substantiellement le processus de génération d'images. Pour surmonter ces limitations, cet article présente un cadre de stylisation de portraits sans inversion basé sur des modèles de diffusion, qui réalise la fusion des caractéristiques de contenu et de style en seulement quatre étapes d'échantillonnage. Nous avons observé que les modèles de cohérence latente utilisant la distillation de cohérence peuvent extraire efficacement des caractéristiques de cohérence représentatives à partir d'images bruitées. Pour mélanger les caractéristiques de cohérence extraites des images de contenu et de style, nous introduisons une technique de contrôle d'attention d'amélioration de style qui fusionne minutieusement les caractéristiques de contenu et de style dans l'espace d'attention de l'image cible. De plus, nous proposons une stratégie de fusion de caractéristiques pour amalgamer les caractéristiques redondantes dans les caractéristiques de cohérence, réduisant ainsi la charge computationnelle du contrôle d'attention. Des expériences approfondies ont validé l'efficacité de notre cadre proposé pour améliorer l'efficacité et la fidélité de la stylisation. Le code est disponible à l'adresse https://github.com/liujin112/ZePo.

Adaptation de l'anonymisation des locuteurs basée sur le désentrelacement général pour une meilleure préservation des émotions
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Un système général d'anonymisation des locuteurs basé sur le désentrelacement sépare typiquement la parole en caractéristiques de contenu, de locuteur et de prosodie à l'aide d'encodeurs individuels. Cet article explore comment adapter un tel système lorsqu'un nouvel attribut de parole, par exemple l'émotion, doit être préservé de manière plus importante. Bien que les systèmes existants soient efficaces pour anonymiser les embeddings de locuteurs, ils ne sont pas conçus pour préserver l'émotion. Deux stratégies sont examinées pour cela. Premièrement, nous montrons que l'intégration d'embeddings d'émotion provenant d'un encodeur d'émotion pré-entraîné peut aider à préserver les indices émotionnels, bien que cette approche compromette légèrement la protection de la vie privée. Alternativement, nous proposons une stratégie de compensation de l'émotion comme étape de post-traitement appliquée aux embeddings de locuteurs anonymisés. Cela masque l'identité du locuteur d'origine et réintroduit les traits émotionnels perdus lors de l'anonymisation des embeddings de locuteurs. Plus précisément, nous modélisons l'attribut d'émotion en utilisant des machines à vecteurs de support pour apprendre des frontières distinctes pour chaque émotion. Lors de l'inférence, l'embedding du locuteur d'origine est traité de deux manières : premièrement, par un indicateur d'émotion pour prédire l'émotion et sélectionner avec précision la SVM correspondante à l'émotion ; deuxièmement, par un anonymiseur de locuteur pour masquer les caractéristiques du locuteur. L'embedding du locuteur anonymisé est ensuite modifié le long de la frontière SVM correspondante vers une direction émotionnelle améliorée pour sauvegarder les indices émotionnels. Les stratégies proposées sont également censées être utiles pour adapter un système général d'anonymisation des locuteurs basé sur le désentrelacement afin de préserver d'autres attributs paralinguistiques cibles, avec un potentiel pour une gamme de tâches en aval.

Imagen 3
Imagen 3

Aug 13