ByAbhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao
116
6
Os sistemas modernos de inteligência artificial (IA) são impulsionados por modelos fundamentais.
Este artigo apresenta um novo conjunto de modelos fundamentais, chamado Llama 3. Trata-se de um rebanho de modelos de linguagem que suportam nativamente multilinguismo, codificação, raciocínio e uso de ferramentas. Nosso maior modelo é um Transformer denso com 405 bilhões de parâmetros e uma janela de contexto de até 128 mil tokens. Este artigo apresenta uma extensa avaliação empírica do Llama 3. Descobrimos que o Llama 3 oferece qualidade comparável aos principais modelos de linguagem, como o GPT-4, em uma infinidade de tarefas. Lançamos publicamente o Llama 3, incluindo versões pré-treinadas e pós-treinadas do modelo de linguagem de 405 bilhões de parâmetros e nosso modelo Llama Guard 3 para segurança de entrada e saída. O artigo também apresenta os resultados de experimentos nos quais integramos capacidades de imagem, vídeo e fala ao Llama 3 por meio de uma abordagem composicional. Observamos que essa abordagem tem desempenho competitivo com o estado-da-arte em tarefas de reconhecimento de imagem, vídeo e fala. Os modelos resultantes ainda não estão sendo amplamente divulgados, pois ainda estão em desenvolvimento.
ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
27
2
Avanços recentes no Transformer de Difusão (DiT) têm demonstrado uma notável eficiência na produção de conteúdo de vídeo de alta qualidade. No entanto, o potencial dos modelos de difusão baseados em transformers para gerar vídeos com movimento controlável ainda é uma área pouco explorada. Este artigo apresenta o Tora, o primeiro framework DiT orientado por trajetória que integra condições textuais, visuais e de trajetória simultaneamente para geração de vídeo. Especificamente, o Tora é composto por um Extrator de Trajetória (TE), um DiT Espaço-Temporal e um Fusor de Orientação de Movimento (MGF). O TE codifica trajetórias arbitrárias em patches de movimento espaço-temporais hierárquicos com uma rede de compressão de vídeo 3D. O MGF integra os patches de movimento nos blocos DiT para gerar vídeos consistentes seguindo trajetórias. Nosso design se alinha perfeitamente com a escalabilidade do DiT, permitindo o controle preciso da dinâmica do conteúdo de vídeo com diversas durações, proporções de aspecto e resoluções. Experimentos extensivos demonstram a excelência do Tora em alcançar alta fidelidade de movimento, enquanto também simula meticulosamente o movimento do mundo físico. A página pode ser encontrada em https://ali-videoai.github.io/tora_video.
ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan
22
5
Apresentamos o MoMa, uma arquitetura inovadora de mistura de especialistas (MoE) consciente de modalidade, projetada para pré-treinar modelos de linguagem de fusão precoce mistos-modais. O MoMa processa imagens e texto em sequências arbitrárias dividindo os módulos especialistas em grupos específicos de modalidade. Esses grupos processam exclusivamente tokens designados, empregando roteamento aprendido dentro de cada grupo para manter adaptabilidade semanticamente informada. Nossos resultados empíricos revelam ganhos substanciais de eficiência de pré-treinamento por meio dessa alocação de parâmetros específicos de modalidade. Sob um orçamento de treinamento de 1 trilhão de tokens, o modelo MoMa 1.4B, com 4 especialistas em texto e 4 especialistas em imagem, alcança economias impressionantes de FLOPs: 3,7x no geral, com 2,6x para texto e 5,2x para processamento de imagem em comparação com uma linha de base densa equivalente em computação, medida pela perda de pré-treinamento. Isso supera o MoE padrão de escolha de especialistas com 8 especialistas mistos-modais, que alcança economias de FLOPs de 3x no geral (3x para texto, 2,8x para imagem). Combinar o MoMa com mistura de profundidades (MoD) melhora ainda mais as economias de FLOPs de pré-treinamento para 4,2x no geral (texto: 3,4x, imagem: 5,3x), embora essa combinação prejudique o desempenho na inferência causal devido à sensibilidade aumentada à precisão do roteador. Esses resultados demonstram o potencial do MoMa para avançar significativamente a eficiência do pré-treinamento de modelos de linguagem de fusão precoce mistos-modais, abrindo caminho para sistemas de IA multimodais mais eficientes em recursos e capazes.
ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang
18
8
Neste artigo, apresentamos o Cross Language Agent - Simultaneous Interpretation, CLASI, um Sistema de Tradução de Fala Simultânea (SiST) de alta qualidade e semelhante ao humano. Inspirado por intérpretes humanos profissionais, utilizamos uma estratégia inovadora de leitura e escrita orientada por dados para equilibrar a qualidade da tradução e a latência. Para lidar com o desafio de traduzir terminologias específicas de um domínio, o CLASI emprega um módulo de recuperação multi-modal para obter informações relevantes que auxiliem na tradução. Com o suporte de LLMs, nossa abordagem pode gerar traduções tolerantes a erros considerando o áudio de entrada, contexto histórico e informações recuperadas. Resultados experimentais mostram que nosso sistema supera significativamente outros sistemas. Em conformidade com intérpretes humanos profissionais, avaliamos o CLASI com uma métrica de avaliação humana melhor, a proporção de informação válida (VIP), que mede a quantidade de informação que pode ser transmitida com sucesso aos ouvintes. Em cenários do mundo real, onde os discursos são frequentemente disfluentes, informais e pouco claros, o CLASI alcança VIP de 81,3% e 78,0% para as direções de tradução Chinês-Inglês e Inglês-Chinês, respectivamente. Em contraste, sistemas comerciais ou de código aberto de ponta alcançam apenas 35,4% e 41,6%. Em um conjunto de dados extremamente desafiador, onde outros sistemas alcançam menos de 13% de VIP, o CLASI ainda consegue atingir 70% de VIP.
ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
14
3
Apresentamos o ShieldGemma, um conjunto abrangente de modelos de moderação de conteúdo de segurança baseados em LLM construídos sobre o Gemma2. Esses modelos fornecem previsões robustas e de ponta de riscos de segurança em tipos-chave de danos (conteúdo sexualmente explícito, perigoso, assédio, discurso de ódio) tanto na entrada do usuário quanto na saída gerada pelo LLM. Ao avaliar em benchmarks públicos e internos, demonstramos desempenho superior em comparação com modelos existentes, como Llama Guard (+10,8\% AU-PRC em benchmarks públicos) e WildCard (+4,3\%). Além disso, apresentamos um novo pipeline de curadoria de dados baseado em LLM, adaptável a uma variedade de tarefas relacionadas à segurança e além. Demonstramos um forte desempenho de generalização para modelos treinados principalmente em dados sintéticos. Ao disponibilizar o ShieldGemma, oferecemos um recurso valioso para a comunidade de pesquisa, avançando a segurança do LLM e permitindo a criação de soluções de moderação de conteúdo mais eficazes para desenvolvedores.
O 1º Workshop sobre Contaminação de Dados (CONDA 2024) concentra-se em todos os aspectos relevantes da contaminação de dados no processamento de linguagem natural, onde a contaminação de dados é entendida como situações em que dados de avaliação estão incluídos em corpora de pré-treinamento usados para treinar modelos em larga escala, comprometendo os resultados de avaliação. O workshop promoveu uma tarefa compartilhada para coletar evidências sobre a contaminação de dados em conjuntos de dados e modelos disponíveis atualmente. O objetivo da tarefa compartilhada e do banco de dados associado é auxiliar a comunidade a compreender a extensão do problema e ajudar os pesquisadores a evitar relatar resultados de avaliação em recursos contaminados conhecidos. A tarefa compartilhada fornece um banco de dados público estruturado e centralizado para a coleta de evidências de contaminação, aberto a contribuições da comunidade por meio de solicitações no GitHub. Este primeiro artigo de compilação é baseado em 566 entradas relatadas sobre 91 fontes contaminadas de um total de 23 contribuidores. Os detalhes dos eventos individuais de contaminação estão disponíveis na plataforma. A plataforma continua online, aberta a contribuições da comunidade.
A segmentação semântica áudio-visual (AVSS) tem como objetivo segmentar e classificar objetos sonoros em vídeos com pistas acústicas. No entanto, a maioria das abordagens opera com a suposição de conjunto fechado e apenas identifica categorias pré-definidas a partir dos dados de treinamento, carecendo da capacidade de generalização para detectar categorias novas em aplicações práticas. Neste artigo, introduzimos uma nova tarefa: segmentação semântica áudio-visual de vocabulário aberto, estendendo a tarefa AVSS para cenários de mundo aberto além do espaço de rótulos anotados. Esta é uma tarefa mais desafiadora que requer o reconhecimento de todas as categorias, mesmo aquelas que nunca foram vistas ou ouvidas durante o treinamento. Além disso, propomos o primeiro framework de AVSS de vocabulário aberto, OV-AVSS, que consiste principalmente em duas partes: 1) um módulo de localização de fonte sonora universal para realizar a fusão áudio-visual e localizar todos os objetos sonoros potenciais e 2) um módulo de classificação de vocabulário aberto para prever categorias com a ajuda do conhecimento prévio de modelos visão-linguagem pré-treinados em grande escala. Para avaliar adequadamente o AVSS de vocabulário aberto, dividimos os subconjuntos de treinamento e teste de zero-shot com base no benchmark semântico AVSBench, nomeadamente AVSBench-OV. Experimentos extensivos demonstram a forte capacidade de segmentação e generalização de zero-shot do nosso modelo em todas as categorias. No conjunto de dados AVSBench-OV, o OV-AVSS alcança 55,43% de mIoU em categorias base e 29,14% de mIoU em categorias novas, superando o método de zero-shot de última geração em 41,88%/20,61% e o método de vocabulário aberto em 10,2%/11,6%. O código está disponível em https://github.com/ruohaoguo/ovavss.
ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
8
2
A obfuscação de autoria tem como objetivo disfarçar a identidade de um autor dentro de um texto, alterando o estilo de escrita, vocabulário, sintaxe e outras características linguísticas associadas ao autor do texto. Essa alteração precisa equilibrar privacidade e utilidade. Enquanto técnicas fortes de obfuscação podem efetivamente ocultar a identidade do autor, frequentemente degradam a qualidade e utilidade do texto para o seu propósito pretendido. Por outro lado, manter uma alta utilidade tende a fornecer privacidade insuficiente, tornando mais fácil para um adversário desanonimizar o autor. Assim, alcançar um equilíbrio ótimo entre esses dois objetivos conflitantes é crucial. Neste artigo, propomos TAROT: Obfuscação de Autoria Orientada por Tarefas Usando Otimização de Políticas, um novo método de obfuscação de autoria não supervisionado cujo objetivo é otimizar o equilíbrio entre privacidade e utilidade, regenerando o texto inteiro considerando sua utilidade downstream. Nossa abordagem aproveita a otimização de políticas como um paradigma de ajuste fino sobre pequenos modelos de linguagem para reescrever textos preservando a identidade do autor e a utilidade da tarefa downstream. Mostramos que nossa abordagem reduz significativamente a precisão dos atacantes enquanto preserva a utilidade. Disponibilizamos nosso código e modelos publicamente.
Apresentamos o Berkeley Humanoid, uma plataforma de pesquisa humanoides de médio porte confiável e de baixo custo para controle baseado em aprendizado. Nosso robô leve, construído internamente, é projetado especificamente para algoritmos de aprendizado com baixa complexidade de simulação, movimento antropomórfico e alta confiabilidade contra quedas. A estreita lacuna sim-real do robô permite locomoção ágil e robusta em vários terrenos em ambientes externos, alcançada com um controlador simples de aprendizado por reforço usando randomização leve de domínio. Além disso, demonstramos o robô percorrendo centenas de metros, andando em uma trilha íngreme não pavimentada e pulando com pernas simples e duplas como testemunho de seu alto desempenho em caminhada dinâmica. Capaz de locomoção omnidirecional e resistindo a grandes perturbações com uma configuração compacta, nosso sistema visa a implantação escalável e sim-real de sistemas humanoides baseados em aprendizado. Por favor, acesse http://berkeley-humanoid.com para mais detalhes.
A expressão facial e os movimentos das mãos são necessários para expressar nossas emoções e interagir com o mundo. No entanto, a maioria dos avatares humanos 3D modelados a partir de um vídeo casualmente capturado suportam apenas movimentos corporais sem expressões faciais e movimentos das mãos. Neste trabalho, apresentamos o ExAvatar, um avatar humano 3D expressivo de corpo inteiro aprendido a partir de um curto vídeo monocular. Projetamos o ExAvatar como uma combinação do modelo de malha paramétrica de corpo inteiro (SMPL-X) e do Splatting Gaussiano 3D (3DGS). Os principais desafios são 1) uma diversidade limitada de expressões faciais e poses no vídeo e 2) a ausência de observações 3D, como varreduras 3D e imagens RGBD. A limitada diversidade no vídeo torna as animações com novas expressões faciais e poses não triviais. Além disso, a ausência de observações 3D pode causar ambiguidade significativa em partes do corpo humano não observadas no vídeo, o que pode resultar em artefatos perceptíveis sob novos movimentos. Para abordá-los, introduzimos nossa representação híbrida da malha e dos Gaussianos 3D. Nossa representação híbrida trata cada Gaussiano 3D como um vértice na superfície com informações de conectividade predefinidas (ou seja, faces triangulares) entre eles, seguindo a topologia de malha do SMPL-X. Isso torna nosso ExAvatar animável com novas expressões faciais impulsionadas pelo espaço de expressão facial do SMPL-X. Além disso, ao usar regularizadores baseados em conectividade, reduzimos significativamente os artefatos em novas expressões faciais e poses.
ByYuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen
7
3
Os modelos visuais atuais são treinados exclusivamente em dados 2D não estruturados, limitando sua compreensão da estrutura 3D de objetos e cenas. Neste trabalho, demonstramos que o ajuste fino em dados 3D melhora a qualidade das características semânticas emergentes. Projetamos um método para elevar características semânticas 2D em uma representação Gaussiana 3D eficiente, o que nos permite renderizá-las para visualizações arbitrárias. Utilizando as características 3D renderizadas, projetamos uma estratégia de ajuste fino para transferir essa consciência 3D para um modelo de base 2D. Demonstramos que os modelos ajustados dessa maneira produzem características que prontamente melhoram o desempenho de tarefas subsequentes em segmentação semântica e estimativa de profundidade por meio de sondagem linear simples. Notavelmente, embora ajustados em um único conjunto de dados internos, a melhoria é transferível para uma variedade de conjuntos de dados internos e conjuntos de dados fora do domínio. Esperamos que nosso estudo encoraje a comunidade a considerar a injeção de consciência 3D ao treinar modelos de base 2D. Página do projeto: https://ywyue.github.io/FiT3D.
Incorporar uma dimensão temporal em modelos de difusão de imagens pré-treinados para geração de vídeos é uma abordagem prevalente. No entanto, esse método é computacionalmente exigente e requer grandes conjuntos de dados de vídeos. Mais criticamente, a heterogeneidade entre conjuntos de dados de imagens e vídeos frequentemente resulta em esquecimento catastrófico da expertise em imagens. Tentativas recentes de extrair trechos de vídeo diretamente de modelos de difusão de imagens têm mitigado em certa medida esses problemas. No entanto, esses métodos só conseguem gerar breves clipes de vídeo com movimentos simples e falham em capturar movimentos detalhados ou deformações não lineares. Neste artigo, propomos um novo algoritmo de Amostragem de Vídeo Sem Supervisão, denominado ZS^2, capaz de amostrar diretamente clipes de vídeo de alta qualidade a partir de métodos existentes de síntese de imagens, como Difusão Estável, sem necessidade de treinamento ou otimização. Especificamente, ZS^2 utiliza o modelo de ruído de dependência e a atenção de momento temporal para garantir consistência de conteúdo e coerência de animação, respectivamente. Essa capacidade permite que ele se destaque em tarefas relacionadas, como geração de vídeo condicional e especializada em contexto e edição de vídeo guiada por instruções. Resultados experimentais demonstram que ZS^2 alcança desempenho de ponta em geração de vídeo sem supervisão, ocasionalmente superando métodos supervisionados recentes.
Página inicial: https://densechen.github.io/zss/.
Os campos neurais destacam-se em visão computacional e robótica devido à sua capacidade de compreender o mundo visual 3D, como inferir semântica, geometria e dinâmica. Dadas as capacidades dos campos neurais em representar densamente uma cena 3D a partir de imagens 2D, fazemos a pergunta: Podemos escalar seu pré-treinamento auto-supervisionado, especificamente usando autoencoders mascarados, para gerar representações 3D eficazes a partir de imagens RGB posicionadas. Devido ao sucesso impressionante da extensão de transformers para novas modalidades de dados, empregamos Transformers de Visão 3D padrão para adequar à formulação única dos NeRFs. Utilizamos a grade volumétrica do NeRF como entrada densa para o transformer, contrastando com outras representações 3D, como nuvens de pontos, onde a densidade de informação pode ser desigual e a representação é irregular. Devido à dificuldade de aplicar autoencoders mascarados a uma representação implícita, como o NeRF, optamos por extrair uma representação explícita que canoniza cenas entre domínios empregando a trajetória da câmera para amostragem. Nosso objetivo é viabilizado mascarando patches aleatórios da grade de radiância e densidade do NeRF e empregando um Transformer 3D Swin padrão para reconstruir os patches mascarados. Dessa forma, o modelo pode aprender a estrutura semântica e espacial de cenas completas. Pré-treinamos essa representação em escala em nossos dados RGB posicionados propostos, totalizando mais de 1,8 milhão de imagens. Uma vez pré-treinado, o codificador é utilizado para aprendizado de transferência 3D eficaz. Nosso novo pré-treinamento auto-supervisionado para NeRFs, NeRF-MAE, escala de forma notável e melhora o desempenho em várias tarefas 3D desafiadoras. Utilizando dados 2D posicionados não rotulados para pré-treinamento, o NeRF-MAE supera significativamente os baselines de pré-treinamento 3D auto-supervisionado e de compreensão de cena NeRF em conjuntos de dados Front3D e ScanNet com uma melhoria de desempenho absoluto de mais de 20% AP50 e 8% AP25 para detecção de objetos 3D.