ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

El Rebaño de Modelos Llama 3
The Llama 3 Herd of Models

Jul 31
ByAbhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao
116
6

Los sistemas modernos de inteligencia artificial (IA) se basan en modelos fundamentales. Este documento presenta un nuevo conjunto de modelos fundamentales, llamado Llama 3. Se trata de una manada de modelos de lenguaje que admiten nativamente la multilingüidad, la codificación, el razonamiento y el uso de herramientas. Nuestro modelo más grande es un Transformer denso con 405 mil millones de parámetros y una ventana de contexto de hasta 128 mil tokens. Este documento presenta una extensa evaluación empírica de Llama 3. Descubrimos que Llama 3 ofrece una calidad comparable a los principales modelos de lenguaje como GPT-4 en una multitud de tareas. Publicamos de forma gratuita Llama 3, incluidas versiones pre-entrenadas y post-entrenadas del modelo de lenguaje de 405 mil millones de parámetros y nuestro modelo Llama Guard 3 para la seguridad de entrada y salida. El documento también presenta los resultados de experimentos en los que integramos capacidades de imagen, video y voz en Llama 3 a través de un enfoque composicional. Observamos que este enfoque compite con los mejores en tareas de reconocimiento de imagen, video y voz. Los modelos resultantes aún no se han lanzado ampliamente, ya que todavía están en desarrollo.

2

Tora: Transformador de Difusión Orientado a Trayectorias para la Generación de Video
Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Jul 31
ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
27
2

Los recientes avances en el Transformer de Difusión (DiT) han demostrado una notable eficacia en la producción de contenido de video de alta calidad. Sin embargo, el potencial de los modelos de difusión basados en transformers para generar videos con movimiento controlable sigue siendo un área de exploración limitada. Este artículo presenta Tora, el primer marco de trabajo DiT orientado a trayectorias que integra condiciones textuales, visuales y de trayectoria de manera simultánea para la generación de videos. Específicamente, Tora consta de un Extractor de Trayectorias (TE), un DiT Espacio-Temporal y un Fusor de Guía de Movimiento (MGF). El TE codifica trayectorias arbitrarias en parches jerárquicos de movimiento espacio-temporales con una red de compresión de video 3D. El MGF integra los parches de movimiento en los bloques de DiT para generar videos consistentes siguiendo trayectorias. Nuestro diseño se alinea perfectamente con la escalabilidad de DiT, permitiendo un control preciso de la dinámica del contenido de video con diversas duraciones, relaciones de aspecto y resoluciones. Experimentos extensos demuestran la excelencia de Tora en lograr una alta fidelidad de movimiento, al mismo tiempo que simula meticulosamente el movimiento del mundo físico. La página se puede encontrar en https://ali-videoai.github.io/tora_video.

3

MoMa: Entrenamiento previo de fusión temprana eficiente con mezcla de expertos conscientes de la modalidad
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Jul 31
ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan
22
5

Presentamos MoMa, una arquitectura novedosa de mezcla de expertos (MoE) consciente de la modalidad, diseñada para el preentrenamiento de modelos de lenguaje de fusión temprana mixtos. MoMa procesa imágenes y texto en secuencias arbitrarias dividiendo los módulos expertos en grupos específicos de modalidad. Estos grupos procesan exclusivamente tokens designados, empleando enrutamiento aprendido dentro de cada grupo para mantener una adaptabilidad semánticamente informada. Nuestros resultados empíricos revelan ganancias sustanciales en eficiencia de preentrenamiento a través de esta asignación de parámetros específica de modalidad. Bajo un presupuesto de entrenamiento de 1 billón de tokens, el modelo MoMa 1.4B, con 4 expertos en texto y 4 expertos en imagen, logra impresionantes ahorros de FLOPs: en general, 3.7 veces, con 2.6 veces para texto y 5.2 veces para procesamiento de imagen en comparación con una línea base densa equivalente en cómputo, medido por la pérdida de preentrenamiento. Esto supera al estándar MoE de elección de expertos con 8 expertos mixtos modales, que logra ahorros de FLOPs en general de 3 veces (3 veces para texto, 2.8 veces para imagen). La combinación de MoMa con mezcla de profundidades (MoD) mejora aún más los ahorros de FLOPs en preentrenamiento a 4.2 veces en general (texto: 3.4 veces, imagen: 5.3 veces), aunque esta combinación afecta el rendimiento en inferencia causal debido a una mayor sensibilidad a la precisión del enrutador. Estos resultados demuestran el potencial de MoMa para avanzar significativamente en la eficiencia del preentrenamiento de modelos de lenguaje de fusión temprana mixtos, allanando el camino para sistemas de IA multimodales más eficientes en recursos y capaces.

4

Hacia la consecución de la paridad humana en la traducción de habla simultánea de extremo a extremo a través del Agente LLM.
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31
ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang
18
8

En este documento, presentamos Cross Language Agent - Simultaneous Interpretation, CLASI, un Sistema de Traducción de Habla Simultánea (SiST) de alta calidad y similar al humano. Inspirados por intérpretes humanos profesionales, utilizamos una estrategia novedosa de lectura-escritura basada en datos para equilibrar la calidad de la traducción y la latencia. Para abordar el desafío de traducir terminologías de dominio específico, CLASI emplea un módulo de recuperación multi-modal para obtener información relevante que mejore la traducción. Respaldado por LLMs, nuestro enfoque puede generar traducciones tolerantes a errores al considerar el audio de entrada, el contexto histórico y la información recuperada. Los resultados experimentales muestran que nuestro sistema supera significativamente a otros sistemas. En línea con intérpretes humanos profesionales, evaluamos CLASI con una métrica de evaluación humana mejorada, la proporción de información válida (VIP), que mide la cantidad de información que se puede transmitir con éxito a los oyentes. En escenarios del mundo real, donde los discursos suelen ser poco fluidos, informales e ininteligibles, CLASI logra un VIP del 81.3% y 78.0% para las direcciones de traducción de chino a inglés y de inglés a chino, respectivamente. En contraste, los sistemas comerciales o de código abierto de vanguardia solo logran un 35.4% y 41.6%. En el conjunto de datos extremadamente difícil, donde otros sistemas alcanzan un VIP inferior al 13%, CLASI aún puede lograr un 70% de VIP.

5

ShieldGemma: Moderación de contenido de IA generativa basada en Gemma
ShieldGemma: Generative AI Content Moderation Based on Gemma

Jul 31
ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
14
3

Presentamos ShieldGemma, una completa suite de modelos de moderación de contenido de seguridad basados en LLM construidos sobre Gemma2. Estos modelos ofrecen predicciones sólidas y de vanguardia sobre riesgos de seguridad en tipos clave de daño (contenido sexualmente explícito, peligroso, acoso, discurso de odio) tanto en la entrada de usuario como en la salida generada por LLM. Al evaluar en benchmarks públicos e internos, demostramos un rendimiento superior en comparación con modelos existentes, como Llama Guard (+10.8\% AU-PRC en benchmarks públicos) y WildCard (+4.3%). Además, presentamos un novedoso pipeline de curación de datos basado en LLM, adaptable a una variedad de tareas relacionadas con la seguridad y más allá. Hemos demostrado un sólido rendimiento de generalización para el modelo entrenado principalmente en datos sintéticos. Al liberar ShieldGemma, proporcionamos un recurso valioso para la comunidad de investigación, avanzando en la seguridad de LLM y permitiendo la creación de soluciones de moderación de contenido más efectivas para desarrolladores.

6

Informe de Contaminación de Datos de la Tarea Compartida CONDA 2024
Data Contamination Report from the 2024 CONDA Shared Task

Jul 31
ByOscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
10
3

El 1er Taller sobre Contaminación de Datos (CONDA 2024) se centra en todos los aspectos relevantes de la contaminación de datos en el procesamiento del lenguaje natural, donde la contaminación de datos se entiende como situaciones en las que los datos de evaluación están incluidos en corpus de pre-entrenamiento utilizados para entrenar modelos a gran escala, comprometiendo los resultados de evaluación. El taller promovió una tarea compartida para recopilar evidencia sobre la contaminación de datos en conjuntos de datos y modelos actualmente disponibles. El objetivo de la tarea compartida y la base de datos asociada es asistir a la comunidad en comprender la magnitud del problema y ayudar a los investigadores a evitar informar resultados de evaluación en recursos conocidos como contaminados. La tarea compartida proporciona una base de datos pública estructurada y centralizada para la recopilación de evidencia de contaminación, abierta a contribuciones de la comunidad a través de solicitudes de extracción en GitHub. Este primer documento recopilatorio se basa en 566 entradas informadas sobre 91 fuentes contaminadas de un total de 23 colaboradores. Los detalles de los eventos individuales de contaminación están disponibles en la plataforma. La plataforma sigue en línea, abierta a contribuciones de la comunidad.

7

Segmentación semántica audiovisual de vocabulario abierto
Open-Vocabulary Audio-Visual Semantic Segmentation

Jul 31
ByRuohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
9
2

La segmentación semántica audiovisual (AVSS) tiene como objetivo segmentar y clasificar objetos sonoros en videos con pistas acústicas. Sin embargo, la mayoría de los enfoques operan bajo la suposición de conjunto cerrado y solo identifican categorías predefinidas a partir de datos de entrenamiento, careciendo de la capacidad de generalización para detectar categorías novedosas en aplicaciones prácticas. En este artículo, presentamos una nueva tarea: la segmentación semántica audiovisual de vocabulario abierto, extendiendo la tarea de AVSS a escenarios de mundo abierto más allá del espacio de etiquetas anotadas. Esta es una tarea más desafiante que requiere reconocer todas las categorías, incluso aquellas que nunca han sido vistas ni escuchadas durante el entrenamiento. Además, proponemos el primer marco de trabajo de AVSS de vocabulario abierto, OV-AVSS, que consiste principalmente en dos partes: 1) un módulo de localización de fuente de sonido universal para realizar fusión audiovisual y localizar todos los objetos sonoros potenciales y 2) un módulo de clasificación de vocabulario abierto para predecir categorías con la ayuda del conocimiento previo de modelos de visión-lenguaje preentrenados a gran escala. Para evaluar adecuadamente la AVSS de vocabulario abierto, dividimos los subconjuntos de entrenamiento y prueba de cero disparos basados en el banco de pruebas semántico AVSBench, denominado AVSBench-OV. Experimentos extensos demuestran la sólida capacidad de segmentación y generalización de cero disparos de nuestro modelo en todas las categorías. En el conjunto de datos AVSBench-OV, OV-AVSS logra un mIoU del 55.43% en las categorías base y un mIoU del 29.14% en las categorías novedosas, superando al método de cero disparos de vanguardia en un 41.88%/20.61% y al método de vocabulario abierto en un 10.2%/11.6%. El código está disponible en https://github.com/ruohaoguo/ovavss.

8

TAROT: Ofuscación de Autoría Orientada a Tareas Utilizando Métodos de Optimización de Políticas
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods

Jul 31
ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
8
2

La obfuscación de autoría tiene como objetivo disfrazar la identidad de un autor dentro de un texto mediante la alteración del estilo de escritura, vocabulario, sintaxis y otras características lingüísticas asociadas con el autor del texto. Esta alteración debe equilibrar la privacidad y la utilidad. Si bien las técnicas de obfuscación sólidas pueden ocultar efectivamente la identidad del autor, a menudo degradan la calidad y utilidad del texto para su propósito previsto. Por otro lado, mantener una alta utilidad tiende a proporcionar una privacidad insuficiente, lo que facilita que un adversario desanonimize al autor. Por lo tanto, lograr un equilibrio óptimo entre estos dos objetivos conflictivos es crucial. En este documento, proponemos TAROT: Obfuscación de Autoría Orientada a Tareas Utilizando Optimización de Políticas, un nuevo método de obfuscación de autoría no supervisado cuyo objetivo es optimizar el equilibrio entre privacidad y utilidad al regenerar el texto completo considerando su utilidad descendente. Nuestro enfoque aprovecha la optimización de políticas como un paradigma de ajuste fino sobre pequeños modelos de lenguaje para reescribir textos preservando la identidad del autor y la utilidad de la tarea descendente. Mostramos que nuestro enfoque reduce en gran medida la precisión de los atacantes mientras se preserva la utilidad. Ponemos nuestro código y modelos a disposición del público.

9

Humanoide de Berkeley: Una Plataforma de Investigación para el Control Basado en el Aprendizaje
Berkeley Humanoid: A Research Platform for Learning-based Control

Jul 31
ByQiayuan Liao, Bike Zhang, Xuanyu Huang, Xiaoyu Huang, Zhongyu Li, Koushil Sreenath
8
2

Presentamos a Berkeley Humanoid, una plataforma de investigación de humanoides de mediana escala confiable y económica para el control basado en el aprendizaje. Nuestro robot ligero, construido internamente, está diseñado específicamente para algoritmos de aprendizaje con baja complejidad de simulación, movimiento antropomórfico y alta fiabilidad contra caídas. La estrecha brecha sim-a-real del robot permite una locomoción ágil y robusta en diversos terrenos en entornos exteriores, lograda con un controlador simple de aprendizaje por refuerzo utilizando aleatorización de dominio ligero. Además, demostramos que el robot atraviesa cientos de metros, camina por un empinado sendero sin pavimentar y salta con una y dos piernas como testimonio de su alto rendimiento en caminatas dinámicas. Capaz de locomoción omnidireccional y resistiendo grandes perturbaciones con una configuración compacta, nuestro sistema apunta a la implementación escalable sim-a-real de sistemas humanoides basados en el aprendizaje. Por favor, visite http://berkeley-humanoid.com para más detalles.

10

Avatar Gaussiano 3D de Cuerpo Completo Expresivo
Expressive Whole-Body 3D Gaussian Avatar

Jul 31
ByGyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
8
2

La expresión facial y los movimientos de las manos son necesarios para expresar nuestras emociones e interactuar con el mundo. Sin embargo, la mayoría de los avatares humanos en 3D modelados a partir de un video capturado de manera casual solo admiten movimientos corporales sin expresiones faciales y gestos de las manos. En este trabajo, presentamos ExAvatar, un avatar humano en 3D expresivo de cuerpo completo aprendido a partir de un breve video monocular. Diseñamos ExAvatar como una combinación del modelo de malla paramétrica de cuerpo completo (SMPL-X) y el esparcimiento gaussiano en 3D (3DGS). Los principales desafíos son 1) una diversidad limitada de expresiones faciales y poses en el video y 2) la ausencia de observaciones en 3D, como escaneos en 3D e imágenes RGBD. La limitada diversidad en el video dificulta la creación de animaciones con expresiones faciales y poses novedosas. Además, la falta de observaciones en 3D podría causar ambigüedad significativa en partes del cuerpo humano que no se observan en el video, lo que puede resultar en artefactos notables bajo movimientos novedosos. Para abordar estos problemas, presentamos nuestra representación híbrida de la malla y los gaussianos en 3D. Nuestra representación híbrida trata a cada gaussiano en 3D como un vértice en la superficie con información de conectividad predefinida (es decir, caras triangulares) entre ellos siguiendo la topología de la malla de SMPL-X. Esto permite que nuestro ExAvatar sea animable con expresiones faciales novedosas impulsadas por el espacio de expresiones faciales de SMPL-X. Además, mediante regularizadores basados en conectividad, reducimos significativamente los artefactos en expresiones faciales y poses novedosas.

11

Mejora de Representaciones de Características 2D mediante Ajuste Fino Consciente de 3D
Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Jul 29
ByYuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
7
3

Los modelos visuales actuales se entrenan únicamente con datos 2D no estructurados, lo que limita su comprensión de la estructura 3D de objetos y escenas. En este trabajo, demostramos que el ajuste fino con datos 3D mejora la calidad de las características semánticas emergentes. Diseñamos un método para transformar características semánticas 2D en una representación Gaussiana 3D eficiente, lo que nos permite volver a renderizarlas para vistas arbitrarias. Utilizando las características 3D renderizadas, diseñamos una estrategia de ajuste fino para transferir esta conciencia 3D a un modelo visual 2D. Demostramos que los modelos ajustados de esta manera producen características que mejoran fácilmente el rendimiento en tareas posteriores de segmentación semántica y estimación de profundidad a través de sondas lineales simples. Es notable que, aunque se ajustan con un solo conjunto de datos de interiores, la mejora es transferible a una variedad de conjuntos de datos de interiores y conjuntos de datos fuera del dominio. Esperamos que nuestro estudio anime a la comunidad a considerar la inyección de conciencia 3D al entrenar modelos visuales 2D. Página del proyecto: https://ywyue.github.io/FiT3D.

12

Muestreo de video de cero disparos de granularidad fina.
Fine-gained Zero-shot Video Sampling

Jul 31
ByDengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
6
2

Incorporar una dimensión temporal en modelos de difusión de imágenes preentrenados para la generación de videos es un enfoque prevalente. Sin embargo, este método es exigente computacionalmente y requiere conjuntos de datos de videos a gran escala. Más críticamente, la heterogeneidad entre conjuntos de datos de imágenes y videos a menudo resulta en un olvido catastrófico de la experiencia en imágenes. Los intentos recientes de extraer fragmentos de video directamente de modelos de difusión de imágenes han mitigado en cierta medida estos problemas. Sin embargo, estos métodos solo pueden generar breves clips de video con movimientos simples y no logran capturar movimientos detallados o deformaciones no en cuadrícula. En este documento, proponemos un algoritmo novedoso de Muestreo de Video sin Entrenamiento, denominado ZS^2, capaz de muestrear directamente clips de video de alta calidad de métodos existentes de síntesis de imágenes, como Difusión Estable, sin ningún entrenamiento u optimización. Específicamente, ZS^2 utiliza el modelo de ruido de dependencia y la atención temporal de momento para garantizar la consistencia de contenido y la coherencia de animación, respectivamente. Esta capacidad le permite destacarse en tareas relacionadas, como la generación de videos condicionales y especializados en contexto y la edición de videos guiada por instrucciones. Los resultados experimentales demuestran que ZS^2 logra un rendimiento de vanguardia en la generación de videos sin entrenamiento, superando ocasionalmente a métodos supervisados recientes. Página principal: https://densechen.github.io/zss/.

13

NeRF-MAE: Autoencoders Enmascarados para el Aprendizaje de Representaciones 3D Auto-supervisadas para Campos de Radiancia Neurales
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Apr 1
ByMuhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
4
2

Los campos neuronales destacan en visión por computadora y robótica debido a su capacidad para comprender el mundo visual en 3D, como inferir semántica, geometría y dinámica. Dadas las capacidades de los campos neuronales para representar de manera densa una escena en 3D a partir de imágenes en 2D, nos planteamos la pregunta: ¿Podemos escalar su preentrenamiento auto-supervisado, específicamente utilizando autoencoders enmascarados, para generar representaciones efectivas en 3D a partir de imágenes RGB posadas? Debido al asombroso éxito de extender los transformers a nuevas modalidades de datos, empleamos Transformers de Visión 3D estándar para adaptarse a la formulación única de NeRFs. Aprovechamos la rejilla volumétrica de NeRF como una entrada densa al transformer, contrastándola con otras representaciones en 3D como nubes de puntos donde la densidad de información puede ser desigual y la representación es irregular. Debido a la dificultad de aplicar autoencoders enmascarados a una representación implícita, como NeRF, optamos por extraer una representación explícita que canoniza escenas a través de dominios mediante el empleo de la trayectoria de la cámara para muestreo. Nuestro objetivo se logra al enmascarar parches aleatorios de la rejilla de radiancia y densidad de NeRF y emplear un Transformer 3D Swin estándar para reconstruir los parches enmascarados. De esta manera, el modelo puede aprender la estructura semántica y espacial de escenas completas. Preentrenamos esta representación a gran escala en nuestros datos propuestos de imágenes RGB posadas, totalizando más de 1.8 millones de imágenes. Una vez preentrenado, el codificador se utiliza para un aprendizaje de transferencia en 3D efectivo. Nuestro novedoso preentrenamiento auto-supervisado para NeRFs, NeRF-MAE, escala de manera notable y mejora el rendimiento en diversas tareas desafiantes en 3D. Utilizando datos 2D posados no etiquetados para preentrenamiento, NeRF-MAE supera significativamente a los baselines de preentrenamiento 3D auto-supervisado y de comprensión de escenas NeRF en los conjuntos de datos Front3D y ScanNet con una mejora de rendimiento absoluto de más del 20% AP50 y 8% AP25 para la detección de objetos en 3D.

Jul 31
Aug 1
Aug 2