ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Le Troupeau de Modèles Llama 3
The Llama 3 Herd of Models

Jul 31
ByAbhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao
116
6

Les systèmes modernes d'intelligence artificielle (IA) sont alimentés par des modèles de base. Cet article présente un nouvel ensemble de modèles de base, appelé Llama 3. Il s'agit d'une famille de modèles de langage qui prennent nativement en charge le multilinguisme, le codage, le raisonnement et l'utilisation d'outils. Notre plus grand modèle est un Transformer dense avec 405 milliards de paramètres et une fenêtre contextuelle allant jusqu'à 128 000 tokens. Cet article présente une évaluation empirique approfondie de Llama 3. Nous constatons que Llama 3 offre une qualité comparable à celle des principaux modèles de langage tels que GPT-4 sur une multitude de tâches. Nous rendons Llama 3 accessible au public, y compris les versions pré-entraînées et post-entraînées du modèle de langage à 405 milliards de paramètres et notre modèle Llama Guard 3 pour la sécurité des entrées et sorties. L'article présente également les résultats d'expériences dans lesquelles nous intégrons des capacités de traitement d'images, de vidéos et de parole dans Llama 3 via une approche compositionnelle. Nous observons que cette approche rivalise avec l'état de l'art sur les tâches de reconnaissance d'images, de vidéos et de parole. Les modèles résultants ne sont pas encore largement diffusés car ils sont encore en cours de développement.

2

Tora : Transformateur de Diffusion Orienté Trajectoire pour la Génération de Vidéos
Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Jul 31
ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
27
2

Les récents progrès dans le domaine des Transformers de Diffusion (DiT) ont démontré une remarquable aptitude à produire des contenus vidéo de haute qualité. Cependant, le potentiel des modèles de diffusion basés sur les transformers pour générer efficacement des vidéos avec un mouvement contrôlable reste un domaine peu exploré. Cet article présente Tora, le premier cadre DiT orienté trajectoire qui intègre simultanément des conditions textuelles, visuelles et de trajectoire pour la génération de vidéos. Plus précisément, Tora se compose d'un Extracteur de Trajectoire (TE), d'un DiT Spatio-Temporel, et d'un Fuseur de Guidage de Mouvement (MGF). Le TE encode des trajectoires arbitraires en patches de mouvement spatio-temporels hiérarchiques à l'aide d'un réseau de compression vidéo 3D. Le MGF intègre ces patches de mouvement dans les blocs DiT pour générer des vidéos cohérentes suivant les trajectoires. Notre conception s'aligne parfaitement avec l'évolutivité des DiT, permettant un contrôle précis de la dynamique du contenu vidéo avec des durées, des ratios d'aspect et des résolutions variés. Des expériences approfondies démontrent l'excellence de Tora dans l'atteinte d'une fidélité de mouvement élevée, tout en simulant méticuleusement le mouvement du monde physique. La page peut être consultée à l'adresse https://ali-videoai.github.io/tora_video.

3

MoMa : Pré-entraînement efficace par fusion précoce avec un mélange d'experts conscients des modalités
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Jul 31
ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan
22
5

Nous présentons MoMa, une architecture novatrice de mélange d'experts (MoE) sensible aux modalités, conçue pour le pré-entraînement de modèles de langage à fusion précoce et multimodaux. MoMa traite les images et le texte dans des séquences arbitraires en divisant les modules experts en groupes spécifiques à chaque modalité. Ces groupes traitent exclusivement les tokens désignés tout en utilisant un routage appris au sein de chaque groupe pour maintenir une adaptabilité sémantiquement informée. Nos résultats empiriques révèlent des gains substantiels d'efficacité lors du pré-entraînement grâce à cette allocation de paramètres spécifique aux modalités. Avec un budget d'entraînement de 1 trillion de tokens, le modèle MoMa 1.4B, doté de 4 experts pour le texte et 4 experts pour les images, réalise des économies impressionnantes en termes de FLOPs : 3,7x globalement, avec 2,6x pour le texte et 5,2x pour le traitement des images par rapport à une base dense de calcul équivalent, mesuré par la perte lors du pré-entraînement. Cela surpasse le MoE standard avec choix d'experts utilisant 8 experts multimodaux, qui atteint des économies globales de FLOPs de 3x (3x pour le texte, 2,8x pour les images). La combinaison de MoMa avec le mélange de profondeurs (MoD) améliore encore les économies de FLOPs lors du pré-entraînement à 4,2x globalement (texte : 3,4x, images : 5,3x), bien que cette combinaison nuise aux performances en inférence causale en raison d'une sensibilité accrue à la précision du routeur. Ces résultats démontrent le potentiel de MoMa à faire progresser significativement l'efficacité du pré-entraînement des modèles de langage à fusion précoce et multimodaux, ouvrant la voie à des systèmes d'IA multimodaux plus efficaces en termes de ressources et plus performants.

4

Vers l'atteinte de la parité humaine dans la traduction simultanée de bout en bout de la parole via un agent de modèle de langage de grande taille
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31
ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang
18
8

Dans cet article, nous présentons Cross Language Agent -- Simultaneous Interpretation (CLASI), un système de traduction simultanée de la parole (SiST) de haute qualité et proche de l'humain. Inspiré par les interprètes professionnels humains, nous utilisons une nouvelle stratégie de lecture-écriture basée sur les données pour équilibrer la qualité de la traduction et la latence. Pour relever le défi de la traduction des terminologies spécifiques à un domaine, CLASI emploie un module de récupération multi-modal pour obtenir des informations pertinentes afin d'enrichir la traduction. Soutenu par des modèles de langage de grande taille (LLMs), notre approche peut générer une traduction tolérante aux erreurs en tenant compte de l'audio d'entrée, du contexte historique et des informations récupérées. Les résultats expérimentaux montrent que notre système surpasse les autres systèmes par des marges significatives. Aligné sur les interprètes professionnels humains, nous évaluons CLASI avec une meilleure métrique d'évaluation humaine, la proportion d'informations valides (VIP), qui mesure la quantité d'informations pouvant être transmises avec succès aux auditeurs. Dans les scénarios réels, où les discours sont souvent disfluents, informels et peu clairs, CLASI atteint un VIP de 81,3 % et 78,0 % pour les directions de traduction chinois-anglais et anglais-chinois, respectivement. En revanche, les systèmes commerciaux ou open-source de pointe n'atteignent que 35,4 % et 41,6 %. Sur le jeu de données extrêmement difficile, où les autres systèmes atteignent moins de 13 % de VIP, CLASI peut encore atteindre 70 % de VIP.

5

ShieldGemma : Modération de contenu par IA générative basée sur Gemma
ShieldGemma: Generative AI Content Moderation Based on Gemma

Jul 31
ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
14
3

Nous présentons ShieldGemma, une suite complète de modèles de modération de contenu basés sur des LLM (modèles de langage de grande taille), construits sur Gemma2. Ces modèles offrent des prédictions robustes et de pointe en matière de risques de sécurité pour les principaux types de contenus nuisibles (contenu sexuellement explicite, contenu dangereux, harcèlement, discours haineux) dans les entrées utilisateur et les sorties générées par les LLM. En évaluant à la fois sur des benchmarks publics et internes, nous démontrons une performance supérieure par rapport aux modèles existants, tels que Llama Guard (+10,8\% AU-PRC sur les benchmarks publics) et WildCard (+4,3\%). De plus, nous présentons un pipeline novateur de curation de données basé sur les LLM, adaptable à une variété de tâches liées à la sécurité et au-delà. Nous avons montré une forte performance de généralisation pour les modèles principalement entraînés sur des données synthétiques. En publiant ShieldGemma, nous offrons une ressource précieuse à la communauté de recherche, faisant progresser la sécurité des LLM et permettant la création de solutions de modération de contenu plus efficaces pour les développeurs.

6

Rapport sur la contamination des données de la tâche partagée CONDA 2024
Data Contamination Report from the 2024 CONDA Shared Task

Jul 31
ByOscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
10
3

Le premier atelier sur la contamination des données (CONDA 2024) se concentre sur tous les aspects pertinents de la contamination des données en traitement automatique du langage naturel, où la contamination des données est définie comme des situations où les données d'évaluation sont incluses dans les corpus de pré-entraînement utilisés pour entraîner des modèles à grande échelle, compromettant ainsi les résultats d'évaluation. L'atelier a lancé une tâche partagée pour recueillir des preuves de contamination des données dans les ensembles de données et les modèles actuellement disponibles. L'objectif de cette tâche partagée et de la base de données associée est d'aider la communauté à comprendre l'étendue du problème et de permettre aux chercheurs d'éviter de rapporter des résultats d'évaluation sur des ressources connues comme étant contaminées. La tâche partagée fournit une base de données publique structurée et centralisée pour la collecte de preuves de contamination, ouverte aux contributions de la communauté via des demandes de pull sur GitHub. Ce premier article de compilation est basé sur 566 entrées signalées concernant 91 sources contaminées, provenant d'un total de 23 contributeurs. Les détails des événements individuels de contamination sont disponibles sur la plateforme. La plateforme reste en ligne et ouverte aux contributions de la communauté.

7

Segmentation sémantique audio-visuelle à vocabulaire ouvert
Open-Vocabulary Audio-Visual Semantic Segmentation

Jul 31
ByRuohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
9
2

La segmentation sémantique audio-visuelle (AVSS) vise à segmenter et classer les objets sonores dans les vidéos à l'aide d'indices acoustiques. Cependant, la plupart des approches opèrent sous l'hypothèse de catégories fermées et ne peuvent identifier que des catégories prédéfinies à partir des données d'entraînement, manquant ainsi de la capacité de généralisation nécessaire pour détecter des catégories nouvelles dans des applications pratiques. Dans cet article, nous introduisons une nouvelle tâche : la segmentation sémantique audio-visuelle à vocabulaire ouvert, étendant la tâche AVSS à des scénarios de monde ouvert au-delà de l'espace de labels annotés. Il s'agit d'une tâche plus complexe qui nécessite de reconnaître toutes les catégories, y compris celles qui n'ont jamais été vues ni entendues pendant l'entraînement. De plus, nous proposons le premier cadre AVSS à vocabulaire ouvert, OV-AVSS, qui se compose principalement de deux parties : 1) un module universel de localisation des sources sonores pour effectuer la fusion audio-visuelle et localiser tous les objets sonores potentiels, et 2) un module de classification à vocabulaire ouvert pour prédire les catégories en s'appuyant sur les connaissances préalables issues de modèles vision-langage pré-entraînés à grande échelle. Pour évaluer correctement l'AVSS à vocabulaire ouvert, nous avons divisé des sous-ensembles d'entraînement et de test zero-shot basés sur le benchmark AVSBench-semantic, nommé AVSBench-OV. Des expériences approfondies démontrent la forte capacité de segmentation et de généralisation zero-shot de notre modèle sur toutes les catégories. Sur le jeu de données AVSBench-OV, OV-AVSS atteint 55,43 % de mIoU sur les catégories de base et 29,14 % de mIoU sur les catégories nouvelles, surpassant la méthode zero-shot de pointe de 41,88 %/20,61 % et la méthode à vocabulaire ouvert de 10,2 %/11,6 %. Le code est disponible à l'adresse https://github.com/ruohaoguo/ovavss.

8

TAROT : Obfuscation d'Autorat Orientée Tâche par Optimisation de Politique
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods

Jul 31
ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
8
2

L'obfuscation de paternité vise à masquer l'identité d'un auteur dans un texte en modifiant le style d'écriture, le vocabulaire, la syntaxe et d'autres caractéristiques linguistiques associées à l'auteur du texte. Cette altération doit équilibrer confidentialité et utilité. Bien que des techniques d'obfuscation robustes puissent efficacement dissimuler l'identité de l'auteur, elles dégradent souvent la qualité et l'utilité du texte pour son objectif initial. Inversement, maintenir une utilité élevée tend à offrir une confidentialité insuffisante, facilitant la désanonymisation de l'auteur par un adversaire. Ainsi, parvenir à un compromis optimal entre ces deux objectifs conflictuels est crucial. Dans cet article, nous proposons TAROT : Obfuscation de Paternité Orientée Tâche Utilisant l'Optimisation de Politique, une nouvelle méthode non supervisée d'obfuscation de paternité dont le but est d'optimiser le compromis confidentialité-utilité en régénérant l'intégralité du texte en tenant compte de son utilité en aval. Notre approche exploite l'optimisation de politique comme paradigme de fine-tuning sur des modèles de langage de petite taille afin de réécrire les textes en préservant l'identité de l'auteur et l'utilité pour la tâche en aval. Nous montrons que notre approche réduit considérablement la précision des attaquants tout en préservant l'utilité. Nous mettons notre code et nos modèles à disposition du public.

9

Berkeley Humanoid : Une plateforme de recherche pour le contrôle basé sur l'apprentissage
Berkeley Humanoid: A Research Platform for Learning-based Control

Jul 31
ByQiayuan Liao, Bike Zhang, Xuanyu Huang, Xiaoyu Huang, Zhongyu Li, Koushil Sreenath
8
2

Nous présentons Berkeley Humanoid, une plateforme de recherche humanoïde fiable et à faible coût, conçue pour le contrôle basé sur l'apprentissage. Notre robot léger, construit en interne, est spécifiquement conçu pour les algorithmes d'apprentissage avec une faible complexité de simulation, un mouvement anthropomorphique et une grande résistance aux chutes. Le faible écart entre simulation et réalité du robot permet une locomotion agile et robuste sur divers terrains en extérieur, obtenue avec un simple contrôleur d'apprentissage par renforcement utilisant une légère randomisation de domaine. De plus, nous démontrons que le robot peut parcourir des centaines de mètres, marcher sur un sentier escarpé non pavé et sauter sur une ou deux jambes, témoignant ainsi de ses hautes performances en marche dynamique. Capable d'une locomotion omnidirectionnelle et de résister à de fortes perturbations avec une configuration compacte, notre système vise un déploiement évolutif et sim-to-real des systèmes humanoïdes basés sur l'apprentissage. Pour plus de détails, veuillez consulter http://berkeley-humanoid.com.

10

Avatar 3D Gaussien Expressif pour le Corps Entier
Expressive Whole-Body 3D Gaussian Avatar

Jul 31
ByGyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
8
2

Les expressions faciales et les mouvements des mains sont essentiels pour exprimer nos émotions et interagir avec le monde. Cependant, la plupart des avatars humains 3D modélisés à partir d'une vidéo capturée de manière informelle ne prennent en charge que les mouvements du corps, sans inclure les expressions faciales ni les mouvements des mains. Dans ce travail, nous présentons ExAvatar, un avatar humain 3D complet et expressif appris à partir d'une courte vidéo monoculaire. Nous concevons ExAvatar comme une combinaison du modèle de maillage paramétrique complet du corps (SMPL-X) et du lissage par Gaussiennes 3D (3DGS). Les principaux défis sont 1) une diversité limitée des expressions faciales et des poses dans la vidéo et 2) l'absence d'observations 3D, telles que des scans 3D et des images RGBD. La diversité limitée dans la vidéo rend les animations avec de nouvelles expressions faciales et poses non triviales. De plus, l'absence d'observations 3D pourrait entraîner une ambiguïté significative dans les parties du corps humain non observées dans la vidéo, ce qui peut provoquer des artefacts visibles sous de nouveaux mouvements. Pour y remédier, nous introduisons notre représentation hybride du maillage et des Gaussiennes 3D. Notre représentation hybride traite chaque Gaussienne 3D comme un sommet sur la surface avec des informations de connectivité prédéfinies (c'est-à-dire des faces triangulaires) entre elles, suivant la topologie de maillage de SMPL-X. Cela rend notre ExAvatar animable avec de nouvelles expressions faciales en étant piloté par l'espace des expressions faciales de SMPL-X. De plus, en utilisant des régularisateurs basés sur la connectivité, nous réduisons considérablement les artefacts dans les nouvelles expressions faciales et poses.

11

Amélioration des représentations de caractéristiques 2D par ajustement fin 3D-conscient
Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Jul 29
ByYuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
7
3

Les modèles de fondation visuels actuels sont entraînés exclusivement sur des données 2D non structurées, ce qui limite leur compréhension de la structure 3D des objets et des scènes. Dans ce travail, nous montrons que l'affinage sur des données conscientes de la 3D améliore la qualité des caractéristiques sémantiques émergentes. Nous concevons une méthode pour transformer les caractéristiques sémantiques 2D en une représentation 3D efficace basée sur des gaussiennes, ce qui nous permet de les re-rendre pour des vues arbitraires. En utilisant les caractéristiques rendues conscientes de la 3D, nous concevons une stratégie d'affinage pour transférer cette conscience 3D dans un modèle de fondation 2D. Nous démontrons que les modèles affinés de cette manière produisent des caractéristiques qui améliorent directement les performances des tâches en aval, telles que la segmentation sémantique et l'estimation de la profondeur, grâce à un simple sondage linéaire. Notamment, bien qu'affinés sur un seul ensemble de données intérieures, l'amélioration est transférable à une variété de jeux de données intérieurs et à des ensembles de données hors domaine. Nous espérons que notre étude encouragera la communauté à envisager d'injecter une conscience 3D lors de l'entraînement des modèles de fondation 2D. Page du projet : https://ywyue.github.io/FiT3D.

12

Échantillonnage vidéo zero-shot à granularité fine
Fine-gained Zero-shot Video Sampling

Jul 31
ByDengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
6
2

L'intégration d'une dimension temporelle dans les modèles de diffusion d'images pré-entraînés pour la génération de vidéos est une approche courante. Cependant, cette méthode est exigeante en termes de calcul et nécessite des ensembles de données vidéo à grande échelle. Plus crucial encore, l'hétérogénéité entre les ensembles de données d'images et de vidéos entraîne souvent un oubli catastrophique de l'expertise en images. Des tentatives récentes pour extraire directement des extraits vidéo à partir de modèles de diffusion d'images ont quelque peu atténué ces problèmes. Néanmoins, ces méthodes ne peuvent générer que de courts clips vidéo avec des mouvements simples et ne parviennent pas à capturer des mouvements fins ou des déformations non structurées. Dans cet article, nous proposons un nouvel algorithme d'échantillonnage vidéo Zero-Shot, dénommé ZS^2, capable de générer directement des clips vidéo de haute qualité à partir de méthodes de synthèse d'images existantes, telles que Stable Diffusion, sans aucun entraînement ou optimisation. Plus précisément, ZS^2 utilise le modèle de bruit de dépendance et l'attention à l'élan temporel pour assurer respectivement la cohérence du contenu et la fluidité de l'animation. Cette capacité lui permet d'exceller dans des tâches connexes, telles que la génération de vidéos conditionnelles et spécialisées dans un contexte, ainsi que l'édition de vidéos guidée par des instructions. Les résultats expérimentaux montrent que ZS^2 atteint des performances de pointe en génération de vidéos zero-shot, surpassant parfois les méthodes supervisées récentes. Page d'accueil : https://densechen.github.io/zss/.

13

NeRF-MAE : Autoencodeurs masqués pour l'apprentissage auto-supervisé de représentations 3D dans les champs de radiance neuronaux
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Apr 1
ByMuhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
4
2

Les champs neuronaux excellent en vision par ordinateur et en robotique grâce à leur capacité à comprendre le monde visuel en 3D, comme l'inférence de sémantique, de géométrie et de dynamique. Étant donné les capacités des champs neuronaux à représenter de manière dense une scène 3D à partir d'images 2D, nous posons la question suivante : pouvons-nous mettre à l'échelle leur pré-entraînement auto-supervisé, en utilisant spécifiquement des autoencodeurs masqués, pour générer des représentations 3D efficaces à partir d'images RGB posées ? Grâce au succès impressionnant de l'extension des transformers à de nouvelles modalités de données, nous utilisons des Vision Transformers 3D standard pour s'adapter à la formulation unique des NeRFs. Nous exploitons la grille volumétrique de NeRF comme entrée dense pour le transformer, en la contrastant avec d'autres représentations 3D telles que les nuages de points où la densité d'information peut être inégale et la représentation irrégulière. En raison de la difficulté d'appliquer des autoencodeurs masqués à une représentation implicite, comme NeRF, nous optons pour l'extraction d'une représentation explicite qui canonise les scènes à travers les domaines en utilisant la trajectoire de la caméra pour l'échantillonnage. Notre objectif est rendu possible en masquant des patches aléatoires de la grille de radiance et de densité de NeRF et en utilisant un Swin Transformer 3D standard pour reconstruire les patches masqués. Ce faisant, le modèle peut apprendre la structure sémantique et spatiale de scènes complètes. Nous pré-entraînons cette représentation à grande échelle sur notre ensemble de données proposé d'images RGB posées, totalisant plus de 1,8 million d'images. Une fois pré-entraîné, l'encodeur est utilisé pour un transfert d'apprentissage 3D efficace. Notre nouveau pré-entraînement auto-supervisé pour les NeRFs, NeRF-MAE, s'adapte remarquablement bien et améliore les performances sur diverses tâches 3D complexes. En utilisant des données 2D posées non étiquetées pour le pré-entraînement, NeRF-MAE surpasse significativement le pré-entraînement 3D auto-supervisé et les bases de compréhension de scènes NeRF sur les ensembles de données Front3D et ScanNet avec une amélioration absolue des performances de plus de 20% AP50 et 8% AP25 pour la détection d'objets 3D.

Jul 31
Aug 1
Aug 2