HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

17 papers found

TurboDiffusion: Acelerando Modelos de Difusão de Vídeo em 100 a 200 Vezes
TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

Dec 18

ByJintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

Apresentamos o TurboDiffusion, uma estrutura de aceleração de geração de vídeo que pode acelerar a geração por difusão de ponta a ponta em 100 a 200 vezes, mantendo a qualidade do vídeo. O TurboDiffusion baseia-se principalmente em vários componentes para a aceleração: (1) Aceleração de atenção: o TurboDiffusion utiliza SageAttention de baixo bit e Atenção Esparsa Linear (SLA) treinável para acelerar o cálculo de atenção. (2) Destilação de passos: o TurboDiffusion adota o rCM para uma destilação de passos eficiente. (3) Quantização W8A8: o TurboDiffusion quantiza os parâmetros do modelo e as ativações para 8 bits para acelerar as camadas lineares e comprimir o modelo. Além disso, o TurboDiffusion incorpora várias outras otimizações de engenharia. Realizamos experimentos nos modelos Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P e Wan2.1-T2V-14B-480P. Os resultados experimentais mostram que o TurboDiffusion alcança uma aceleração de 100 a 200 vezes na geração de vídeo, mesmo em uma única GPU RTX 5090, mantendo uma qualidade de vídeo comparável. O repositório GitHub, que inclui *checkpoints* do modelo e código de fácil utilização, está disponível em https://github.com/thu-ml/TurboDiffusion.

Aprendendo a Raciocinar em 4D: Compreensão Espacial Dinâmica para Modelos de Linguagem de Visão
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

Dec 23

ByShengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi

Os modelos visão-linguagem (VLM) destacam-se na compreensão geral, mas permanecem fracos no raciocínio espacial dinâmico (DSR), ou seja, no raciocínio sobre a evolução da geometria e das relações dos objetos no espaço 3D ao longo do tempo, em grande parte devido à escassez de recursos de treinamento escaláveis e conscientes da 4D. Para preencher esta lacuna nos aspetos de conjunto de dados, benchmark e modelo, apresentamos a DSR Suite. Primeiro, propomos um pipeline automatizado que gera pares de perguntas-respostas de múltipla escolha a partir de vídeos do mundo real para DSR. Ao alavancar modelos de base de visão modernos, o pipeline extrai informações ricas de geometria e movimento, incluindo poses de câmara, nuvens de pontos locais, máscaras de objetos, orientações e trajetórias 3D. Estas pistas geométricas permitem a construção do DSR-Train para aprendizagem e do DSR-Bench, refinado posteriormente por humanos, para avaliação. Em comparação com trabalhos anteriores, os nossos dados enfatizam (i) fontes de vídeo do mundo real, (ii) requisitos 3D a nível de objeto e de cena, (iii) transformações de ponto de vista, (iv) interações multiobjeto e (v) respostas processuais e de granularidade fina. Para além dos dados, propomos um módulo leve de Seleção de Geometria (GSM) para integrar perfeitamente conhecimentos prévios de geometria em VLMs, que condensa a semântica da pergunta e extrai conhecimentos relevantes para a pergunta a partir de conhecimentos prévios de reconstrução 4D pré-treinados num conjunto compacto de tokens de geometria. Esta extração direcionada evita sobrecarregar o modelo com conhecimento irrelevante. Experiências mostram que a integração do DSR-Train e do GSM no Qwen2.5-VL-7B melhora significativamente a sua capacidade de raciocínio espacial dinâmico, mantendo a precisão em benchmarks de compreensão geral de vídeo.

Nemotron 3 Nano: Um Modelo Híbrido Mamba-Transformer de Mistura de Especialistas Aberto e Eficiente para Raciocínio Agencial
Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Dec 23

ByNVIDIA, Aaron Blakeman, Aaron Grattafiori, Aarti Basant, Abhibha Gupta, Abhinav Khattar, Adi Renduchintala, Aditya Vavre, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Aleksandr Shaposhnikov, Alex Kondratenko, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alisa Liu, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Amy Shen, Anahita Bhiwandiwalla, Andrew Tao, Ann Guan, Anubhav Mandarwal, Arham Mehta, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asma Kuriparambil Thekkumpate, Ayush Dattagupta, Banghua Zhu, Bardiya Sadeghi, Barnaby Simkin, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bita Darvish Rouhani, Boris Ginsburg, Brandon Norick, Brandon Soubasis, Branislav Kisacanin, Brian Yu, Bryan Catanzaro, Carlo del Mundo, Chantal Hwang, Charles Wang, Cheng-Ping Hsieh, Chenghao Zhang, Chenhan Yu, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christopher Parisien, Collin Neale, Damon Mosk-Aoyama, Dan Su, Dane Corneil, Daniel Afrimi, Daniel Rohrer, Daniel Serebrenik, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, Deepak Narayanan, Dhruv Nathawani, Dima Rekesh, Dina Yared, Divyanshu Kakwani, Dong Ahn, Duncan Riach, Dusan Stosic, Edgar Minasyan, Edward Lin, Eileen Long, Eileen Peters Long, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Tramel, Erick Galinkin, Erik Pounds, Evan Briones, Evelina Bakhturina, Faisal Ladhak, Fay Wang, Fei Jia, Felipe Soares, Feng Chen, Ferenc Galko, Frankie Siino, Gal Hubara Agam, Ganesh Ajjanagadde, Gantavya Bhatt, Gargi Prasad, George Armstrong, Gerald Shen, Gorkem Batmaz, Grigor Nalbandyan, Haifeng Qian, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Himanshu Soni, Hiren Upadhyay, Huizi Mao, Huy C Nguyen, Huy Q Nguyen, Iain Cunningham, Ido Shahaf, Igor Gitman, Ilya Loshchilov, Ivan Moshkov, Izzy Putterman, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jian Zhang, Jiaqi Zeng, Jie Lou, Jimmy Zhang, Jining Huang, Joey Conway, Joey Guman, John Kamalu, Johnny Greco, Jonathan Cohen, Joseph Jennings, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kai Xu, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khushi Bhardwaj, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Li Ding, Lucas Liebenwein, Luis Vega, Maanu Grover, Maarten Van Segbroeck, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Manoj Kilaru, Maor Ashkenazi, Marc Romeijn, Mark Cai, Markus Kliegl, Maryam Moosaei, Matvei Novikov, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Meredith Price, Michael Boone, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Natalie Hereth, Nave Assaf, Negar Habibi, Neta Zmora, Netanel Haber, Nicola Sessions, Nidhi Bhatia, Nikhil Jukar, Nikki Pope, Nikolai Ludwig, Nima Tajbakhsh, Nirmal Juluru, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Ouye Xie, Parth Chadha, Pasha Shamis, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pinky Xu, Piotr Januszewski, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Qing Miao, Rabeeh Karimi Mahabadi, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Rich Harang, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Ritika Borkar, Ritu Gala, Riyad Islam, Roger Waleffe, Rohit Watve, Roi Koren, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Ryan Timbrook, Sadegh Mahdavi, Sahil Modi, Samuel Kriman, Sanjay Kariyappa, Sanjeev Satheesh, Saori Kaji, Satish Pasumarthi, Sean Narentharen, Sean Narenthiran, Seonmyeong Bak, Sergey Kashirsky, Seth Poulos, Shahar Mor, Shanmugam Ramasamy, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shiqing Fan, Shreya Gopal, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Simeng Sun, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Stephen Ge, Sugam Dipak Devare, Sumeet Kumar Barua, Suseella Panguluri, Suyog Gupta, Sweta Priyadarshi, Syeda Nahida Akter, Tan Bui, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tijmen Blankevoort, Tom Balough, Tomer Asida, Tomer Bar Natan, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Vahid Noroozi, Venkat Srinivasan, Venmugil Elango, Vijay Korthikanti, Vitaly Kurin, Vitaly Lavrukhin, Wanli Jiang, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenfei Zhou, Will Jennings, William Zhang, Wojciech Prazuch, Xiaowei Ren, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Ying Lin, Yonatan Geifman, Yonggan Fu, Yoshi Subara, Yoshi Suhara, Yubo Gao, Zach Moshe, Zhen Dong, Zihan Liu, Zijia Chen, Zijie Yan

Apresentamos o Nemotron 3 Nano 30B-A3B, um modelo de linguagem híbrido Mamba-Transformer do tipo Mistura de Especialistas. O Nemotron 3 Nano foi pré-treinado em 25 trilhões de tokens de texto, incluindo mais de 3 trilhões de tokens únicos novos em relação ao Nemotron 2, seguido por ajuste fino supervisionado e RL em larga escala em ambientes diversos. O Nemotron 3 Nano atinge uma precisão superior à nossa geração anterior, Nemotron 2 Nano, enquanto ativa menos da metade dos parâmetros por passagem forward. Ele alcança um throughput de inferência até 3,3 vezes maior do que modelos abertos de tamanho similar, como o GPT-OSS-20B e o Qwen3-30B-A3B-Thinking-2507, além de ser mais preciso em benchmarks populares. O Nemotron 3 Nano demonstra capacidades aprimoradas de agentes, raciocínio e conversação, e suporta contextos de até 1 milhão de tokens. Disponibilizamos tanto o checkpoint Base pré-treinado Nemotron 3 Nano 30B-A3B quanto o checkpoint pós-treinado Nemotron 3 Nano 30B-A3B no Hugging Face.

NVIDIA Nemotron 3: Inteligência Eficiente e Aberta
NVIDIA Nemotron 3: Efficient and Open Intelligence

Dec 24

ByNVIDIA, Aaron Blakeman, Aaron Grattafiori, Aarti Basant, Abhibha Gupta, Abhinav Khattar, Adi Renduchintala, Aditya Vavre, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Aleksandr Shaposhnikov, Alex Kondratenko, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alisa Liu, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Amy Shen, Anahita Bhiwandiwalla, Andrew Tao, Anjulie Agrusa, Ankur Verma, Ann Guan, Anubhav Mandarwal, Arham Mehta, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Ayush Dattagupta, Banghua Zhu, Bardiya Sadeghi, Barnaby Simkin, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bita Darvish Rouhani, Boris Ginsburg, Brandon Norick, Brandon Soubasis, Branislav Kisacanin, Brian Yu, Bryan Catanzaro, Carlo del Mundo, Chantal Hwang, Charles Wang, Cheng-Ping Hsieh, Chenghao Zhang, Chenhan Yu, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christopher Parisien, Collin Neale, Cyril Meurillon, Damon Mosk-Aoyama, Dan Su, Dane Corneil, Daniel Afrimi, Daniel Lo, Daniel Rohrer, Daniel Serebrenik, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, Deepak Narayanan, Dhruv Nathawani, Dima Rekesh, Dina Yared, Divyanshu Kakwani, Dong Ahn, Duncan Riach, Dusan Stosic, Edgar Minasyan, Edward Lin, Eileen Long, Eileen Peters Long, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Tramel, Erick Galinkin, Erik Pounds, Evan Briones, Evelina Bakhturina, Evgeny Tsykunov, Faisal Ladhak, Fay Wang, Fei Jia, Felipe Soares, Feng Chen, Ferenc Galko, Frank Sun, Frankie Siino, Gal Hubara Agam, Ganesh Ajjanagadde, Gantavya Bhatt, Gargi Prasad, George Armstrong, Gerald Shen, Gorkem Batmaz, Grigor Nalbandyan, Haifeng Qian, Harsh Sharma, Hayley Ross, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hiren Upadhyay, Huizi Mao, Huy C Nguyen, Huy Q Nguyen, Iain Cunningham, Ido Galil, Ido Shahaf, Igor Gitman, Ilya Loshchilov, Itamar Schen, Itay Levy, Ivan Moshkov, Izik Golan, Izzy Putterman, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jian Zhang, Jiaqi Zeng, Jie Lou, Jimmy Zhang, Jinhang Choi, Jining Huang, Joey Conway, Joey Guman, John Kamalu, Johnny Greco, Jonathan Cohen, Joseph Jennings, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kai Xu, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khushi Bhardwaj, Kirthi Shankar, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Li Ding, Lizzie Wei, Lucas Liebenwein, Luis Vega, Maanu Grover, Maarten Van Segbroeck, Maer Rodrigues de Melo, Mahdi Nazemi, Makesh Narsimhan Sreedhar, Manoj Kilaru, Maor Ashkenazi, Marc Romeijn, Marcin Chochowski, Mark Cai, Markus Kliegl, Maryam Moosaei, Matt Kulka, Matvei Novikov, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Meredith Price, Michael Andersch, Michael Boone, Michael Evans, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Minseok Lee, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Natalie Hereth, Nave Assaf, Negar Habibi, Neta Zmora, Netanel Haber, Nicola Sessions, Nidhi Bhatia, Nikhil Jukar, Nikki Pope, Nikolai Ludwig, Nima Tajbakhsh, Nir Ailon, Nirmal Juluru, Nishant Sharma, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Ouye Xie, Parth Chadha, Pasha Shamis, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pinky Xu, Piotr Januszewski, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Qing Miao, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachit Garg, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Rich Harang, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Hesse, Roger Waleffe, Rohit Watve, Roi Koren, Ruoxi Zhang, Russell Hewett, Russell J. Hewett, Ryan Prenger, Ryan Timbrook, Sadegh Mahdavi, Sahil Modi, Samuel Kriman, Sangkug Lim, Sanjay Kariyappa, Sanjeev Satheesh, Saori Kaji, Satish Pasumarthi, Saurav Muralidharan, Sean Narentharen, Sean Narenthiran, Seonmyeong Bak, Sergey Kashirsky, Seth Poulos, Shahar Mor, Shanmugam Ramasamy, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shiqing Fan, Shreya Gopal, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Simeng Sun, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Sugam Dipak Devare, Sumeet Kumar Barua, Suseella Panguluri, Suyog Gupta, Sweta Priyadarshi, Syeda Nahida Akter, Tan Bui, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tijmen Blankevoort, Tim Moon, Tom Balough, Tomer Asida, Tomer Bar Natan, Tomer Ronen, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Vahid Noroozi, Venkat Srinivasan, Venmugil Elango, Victor Cui, Vijay Korthikanti, Vinay Rao, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Wanli Jiang, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenfei Zhou, Will Jennings, William Zhang, Wojciech Prazuch, Xiaowei Ren, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Yigong Qin, Ying Lin, Yonatan Geifman, Yonggan Fu, Yoshi Subara, Yoshi Suhara, Yubo Gao, Zach Moshe, Zhen Dong, Zhongbo Zhu, Zihan Liu, Zijia Chen, Zijie Yan

Apresentamos a família de modelos Nemotron 3 - Nano, Super e Ultra. Estes modelos oferecem capacidades robustas de agência, raciocínio e conversação. A família Nemotron 3 utiliza uma arquitetura híbrida *Mixture-of-Experts* Mamba-Transformer para proporcionar um *throughput* de classe superior e contextos de até 1 milhão de *tokens*. Os modelos Super e Ultra são treinados com NVFP4 e incorporam o LatentMoE, uma abordagem inovadora que melhora a qualidade do modelo. Os dois modelos maiores também incluem camadas MTP para uma geração de texto mais rápida. Todos os modelos Nemotron 3 são pós-treinados usando aprendizagem por reforço multiambiente, permitindo raciocínio, uso de ferramentas em múltiplas etapas e suporte a um controlo granular do orçamento de raciocínio. O Nano, o modelo mais pequeno, supera modelos comparáveis em precisão, mantendo-se extremamente económico para inferência. O Super é otimizado para agentes colaborativos e cargas de trabalho de alto volume, como a automação de *tickets* de TI. O Ultra, o maior modelo, oferece precisão e desempenho de raciocínio de última geração. O Nano é lançado em conjunto com o seu relatório técnico e este *white paper*, enquanto o Super e o Ultra seguir-se-ão nos próximos meses. Disponibilizaremos abertamente os pesos dos modelos, o *software* de pré e pós-treinamento, as receitas e todos os dados para os quais detemos direitos de redistribuição.

DreaMontage: Geração de Vídeo em Um Único Passo Guiada por Quadros Arbitrários
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Dec 24

ByJiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu

A técnica "one-shot" representa uma estética distinta e sofisticada na realização cinematográfica. No entanto, a sua realização prática é frequentemente dificultada por custos proibitivos e complexas restrições do mundo real. Embora os modelos emergentes de geração de vídeo ofereçam uma alternativa virtual, as abordagens existentes normalmente dependem de uma concatenação ingénua de clipes, que frequentemente falha em manter a suavidade visual e a coerência temporal. Neste artigo, introduzimos o DreaMontage, um framework abrangente concebido para geração guiada por frames arbitrários, capaz de sintetizar vídeos "one-shot" contínuos, expressivos e de longa duração a partir de diversas entradas fornecidas pelo utilizador. Para alcançar este objetivo, abordamos o desafio através de três dimensões principais. (i) Integramos um mecanismo de condicionamento intermédio de baixo custo computacional na arquitetura DiT. Ao empregar uma estratégia de Sintonização Adaptativa que aproveita eficazmente os dados de treino base, desbloqueamos capacidades robustas de controlo por frames arbitrários. (ii) Para melhorar a fidelidade visual e a expressividade cinematográfica, reunimos um conjunto de dados de alta qualidade e implementámos uma fase de SFT de Expressão Visual. Ao abordar questões críticas como a racionalidade do movimento do sujeito e a suavidade das transições, aplicámos um esquema DPO Personalizado, que melhora significativamente a taxa de sucesso e a usabilidade do conteúdo gerado. (iii) Para facilitar a produção de sequências estendidas, concebemos uma estratégia de inferência Autorregressiva por Segmentos que opera de forma eficiente em termos de memória. Experiências extensivas demonstram que a nossa abordagem alcança efeitos "one-shot" visualmente impressionantes e perfeitamente coerentes, mantendo a eficiência computacional, capacitando os utilizadores a transformar materiais visuais fragmentados em experiências cinematográficas "one-shot" vívidas e coesas.

Além da Memorização: Um Benchmark de Regressão Ordinal Multimodal para Expor o Viés de Popularidade em Modelos de Visão e Linguagem
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Dec 24

ByLi-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu

Expomos um viés significativo de popularidade em modelos estado da arte de visão e linguagem (VLMs), que atingem até 34% maior precisão em edifícios famosos em comparação com edifícios comuns, indicando uma dependência de memorização em vez de compreensão generalizável. Para investigar isso sistematicamente, introduzimos o maior benchmark aberto para esta tarefa: o conjunto de dados YearGuessr, uma coleção de 55.546 imagens de edifícios com atributos multimodais de 157 países, anotadas com rótulos ordinais contínuos do seu ano de construção (1001-2024), dados GPS e contagens de visualização de página como um *proxy* para popularidade. Utilizando este conjunto de dados, enquadramos a tarefa de previsão do ano de construção como uma regressão ordinal e introduzimos métricas de precisão de intervalo sensíveis à popularidade para quantificar este viés. O nosso *benchmark* resultante de 30+ modelos, incluindo o nosso modelo YearCLIP, confirma que os VLMs se destacam em itens populares e memorizados, mas têm dificuldades significativas com sujeitos não reconhecidos, expondo uma falha crítica nas suas capacidades de raciocínio. Página do projeto: https://sytwu.github.io/BeyondMemo/

T2AV-Compass: Rumo a uma Avaliação Unificada para Geração de Áudio-Vídeo a Partir de Texto
T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Dec 24

ByZhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang, Yuanxing Zhang, Jialu Chen, Miao Deng, Jiahao Wang, Yubin Guo, Chenxi Liao, Yize Zhang, Zhaoxiang Zhang, Jiaheng Liu

A geração Texto-para-Áudio-Vídeo (T2AV) tem como objetivo sintetizar vídeo temporalmente coerente e áudio semanticamente sincronizado a partir de linguagem natural, mas a sua avaliação permanece fragmentada, frequentemente dependendo de métricas unimodais ou benchmarks de escopo restrito que não capturam o alinhamento cross-modal, a aderência a instruções e o realismo perceptual sob prompts complexos. Para enfrentar esta limitação, apresentamos o T2AV-Compass, um benchmark unificado para avaliação abrangente de sistemas T2AV, composto por 500 prompts diversos e complexos construídos através de um *pipeline* orientado por taxonomia para garantir riqueza semântica e plausibilidade física. Além disso, o T2AV-Compass introduz um quadro de avaliação de duplo nível que integra métricas objetivas de nível de sinal para qualidade de vídeo, qualidade de áudio e alinhamento cross-modal com um protocolo subjetivo MLLM-como-Juiz para avaliação da aderência a instruções e do realismo. Uma avaliação extensiva de 11 sistemas T2AV representativos revela que mesmo os modelos mais fortes ficam substancialmente aquém do realismo e da consistência cross-modal de nível humano, com falhas persistentes no realismo do áudio, sincronização de granularidade fina, aderência a instruções, etc. Estes resultados indicam um espaço significativo de melhoria para modelos futuros e destacam o valor do T2AV-Compass como um banco de testes desafiador e diagnóstico para o avanço da geração texto-para-áudio-vídeo.

HiStream: Geração Eficiente de Vídeos de Alta Resolução via Streaming com Eliminação de Redundâncias
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Dec 24

ByHaonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua

A geração de vídeo de alta resolução, embora crucial para a mídia digital e o cinema, enfrenta um estrangulamento computacional devido à complexidade quadrática dos modelos de difusão, tornando a inferência prática inviável. Para resolver isso, introduzimos o HiStream, uma estrutura autoregressiva eficiente que reduz sistematicamente a redundância em três eixos: i) Compressão Espacial: remoção de ruído em baixa resolução antes do refinamento em alta resolução com características em cache; ii) Compressão Temporal: uma estratégia de bloco a bloco com um cache de âncora de tamanho fixo, garantindo velocidade de inferência estável; e iii) Compressão de Passos Temporais: aplicação de menos etapas de remoção de ruído aos blocos subsequentes, condicionados pelo cache. Em benchmarks de 1080p, nosso modelo principal HiStream (i+ii) atinge qualidade visual de última geração enquanto demonstra uma remoção de ruído até 76,2x mais rápida em comparação com a linha de base Wan2.1 e uma perda de qualidade insignificante. Nossa variante mais rápida, HiStream+, aplica todas as três otimizações (i+ii+iii), alcançando uma aceleração de 107,5x sobre a linha de base, oferecendo uma relação convincente entre velocidade e qualidade, tornando assim a geração de vídeo de alta resolução prática e escalável.

TokSuite: Medindo o Impacto da Escolha do Tokenizador no Comportamento de Modelos de Linguagem
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Dec 23

ByGül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel

Os tokenizadores fornecem a base fundamental através da qual o texto é representado e processado por modelos de linguagem (ML). Apesar da importância da tokenização, seu papel no desempenho e comportamento dos ML é pouco compreendido devido ao desafio de medir o impacto da tokenização de forma isolada. Para suprir esta necessidade, apresentamos o TokSuite, uma coleção de modelos e um benchmark que apoia a investigação sobre a influência da tokenização nos ML. Especificamente, treinamos catorze modelos que utilizam diferentes tokenizadores, mas que são idênticos em todos os outros aspetos, usando a mesma arquitetura, conjunto de dados, orçamento de treino e inicialização. Adicionalmente, curamos e disponibilizamos um novo benchmark que mede especificamente o desempenho do modelo sujeito a perturbações do mundo real que provavelmente influenciam a tokenização. Em conjunto, o TokSuite permite uma dissociação robusta da influência do tokenizador de um modelo, apoiando uma série de descobertas novas que elucidam os benefícios e limitações respetivos de uma ampla gama de tokenizadores populares.

DramaBench: Um Framework de Avaliação Seis Dimensional para a Continuação de Roteiros de Drama
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation

Dec 22

ByShijian Ma, Yunqi Huang, Yan Lin

A continuação de roteiros dramáticos exige que os modelos mantenham a consistência dos personagens, avancem a trama de forma coerente e preservem a estrutura dramática - capacidades que os *benchmarks* existentes não avaliam de forma abrangente. Apresentamos o DramaBench, o primeiro *benchmark* em larga escala para avaliar a continuação de roteiros dramáticos em seis dimensões independentes: Padrões de Formatação, Eficiência Narrativa, Consistência de Personagens, Profundidade Emocional, Consistência Lógica e Manipulação de Conflitos. Nosso *framework* combina análise baseada em regras com rotulagem baseada em LLM e métricas estatísticas, garantindo uma avaliação objetiva e reproduzível. Realizamos uma avaliação abrangente de 8 modelos de linguagem state-of-the-art em 1.103 roteiros (8.824 avaliações no total), com testes rigorosos de significância estatística (252 comparações pareadas, 65,9% significativas) e validação humana (188 roteiros, concordância substancial em 3/5 dimensões). Nossos estudos de ablação confirmam que todas as seis dimensões capturam aspectos de qualidade independentes (média | r | = 0,020). O DramaBench fornece *feedback* acionável e específico por dimensão para o aprimoramento de modelos e estabelece um padrão rigoroso para a avaliação da escrita criativa.

Do Mundo das Palavras ao Mundo Real: Os Grandes Modelos de Linguagem Podem Ser Modelos de Mundo Implícitos Baseados em Texto?
From Word to World: Can Large Language Models be Implicit Text-based World Models?

Dec 21

ByYixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang

O aprendizado por reforço agentístico depende cada vez mais de escalonamento orientado por experiência, mas os ambientes do mundo real permanecem não adaptativos, limitados em cobertura e difíceis de escalar. Os modelos de mundo oferecem uma forma potencial de melhorar a eficiência de aprendizado por meio de experiência simulada, mas ainda não está claro se os modelos de linguagem de grande escala podem desempenhar esse papel de forma confiável e sob quais condições eles beneficiam significativamente os agentes. Estudamos essas questões em ambientes baseados em texto, que fornecem um ambiente controlado para reinterpretar a modelagem de linguagem como previsão de próximo estado sob interação. Introduzimos uma estrutura de três níveis para avaliar modelos de mundo baseados em LLM: (i) fidelidade e consistência, (ii) escalabilidade e robustez, e (iii) utilidade para o agente. Em cinco ambientes representativos, descobrimos que modelos de mundo suficientemente treinados mantêm estado latente coerente, escalam de forma previsível com dados e tamanho do modelo, e melhoram o desempenho do agente por meio de verificação de ação, geração de trajetória sintética e inicialização antecipada do aprendizado por reforço. Entretanto, esses ganhos dependem criticamente da cobertura comportamental e da complexidade do ambiente, delimitando um limite claro sobre quando a modelagem de mundo apoia efetivamente o aprendizado do agente.

Aprendizado com a Previsão do Próximo Quadro: A Modelagem Autoregressiva de Vídeo Codifica Representações Eficazes
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

Dec 24

ByJinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu

Os recentes avanços no pré-treinamento de modelos de base gerais melhoraram significativamente o desempenho em diversas tarefas subsequentes. Embora modelos generativos autorregressivos (AR) como o GPT tenham revolucionado o PLN, a maioria dos métodos de pré-treinamento generativo visual ainda depende da modelagem mascarada no estilo BERT, que frequentemente desconsidera a informação temporal essencial para a análise de vídeos. Os poucos métodos de pré-treinamento visual autorregressivo existentes sofrem de problemas como localização semântica imprecisa e baixa qualidade de geração, resultando em semântica deficiente. Neste trabalho, propomos o NExT-Vid, uma nova estrutura de pré-treinamento generativo visual autorregressivo que utiliza a previsão mascarada do quadro seguinte para modelar conjuntamente imagens e vídeos. O NExT-Vid introduz um preditor autorregressivo de contexto isolado para desacoplar a representação semântica da decodificação do alvo, e um decodificador de correspondência de fluxo condicionado para melhorar a qualidade e a diversidade da geração. Através do pré-treinamento de correspondência de fluxo com contexto isolado, nossa abordagem alcança representações robustas. Experimentos extensivos com modelos de grande escala pré-treinados demonstram que nosso método proposto supera consistentemente os métodos de pré-treinamento generativo anteriores para a aprendizagem de representação visual por meio de sondagem atenta na classificação de tarefas subsequentes.

SWE-EVO: Avaliação de Agentes de Codificação em Cenários de Evolução de Software de Longo Horizonte
SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Dec 20

ByMinh V. T. Thai, Tue Le, Dung Nguyen Manh, Huy Phan Nhat, Nghi D. Q. Bui

Os benchmarks existentes para agentes de IA de codificação concentram-se em tarefas isoladas e de problema único, como corrigir um bug ou implementar uma pequena funcionalidade. No entanto, a engenharia de software do mundo real é fundamentalmente uma atividade de longo prazo: os desenvolvedores devem interpretar requisitos de alto nível, planejar alterações coordenadas em muitos arquivos e evoluir bases de código ao longo de múltiplas iterações, preservando a funcionalidade existente. Apresentamos o SWE-EVO, um benchmark que avalia os agentes neste desafio de evolução de software de longo prazo. Construído a partir de notas de versão e históricos de versão de sete projetos Python de código aberto maduros, o SWE-EVO compreende 48 tarefas de evolução que exigem que os agentes implementem modificações de múltiplas etapas abrangendo uma média de 21 arquivos, validadas por conjuntos de testes abrangentes com uma média de 874 testes por instância. Experimentos com modelos state-of-the-art revelam uma lacuna de capacidade gritante: mesmo o GPT-4 com OpenHands atinge apenas uma taxa de resolução de 21% no SWE-EVO, em comparação com 65% no SWE-Bench Verified (de problema único). Isso demonstra que os agentes atuais lutam com o raciocínio sustentado e multiarquivo. Também propomos a Taxa de Correção (Fix Rate), uma métrica granular que captura o progresso parcial na resolução dessas tarefas complexas e de longo prazo.

Otimização de Instrução para Vídeo em Streaming
Streaming Video Instruction Tuning

Dec 24

ByJiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou

Apresentamos o Streamo, um modelo de linguagem de grande escala (LLM) para vídeo em tempo real que funciona como um assistente interativo de propósito geral. Diferente dos modelos de vídeo online existentes, que se concentram de forma restrita em resposta a perguntas ou legendagem, o Streamo executa uma ampla gama de tarefas de vídeo em fluxo contínuo, incluindo narração em tempo real, compreensão de ações, legendagem de eventos, localização temporal de eventos e resposta a perguntas sensíveis ao tempo. Para desenvolver essa versatilidade, construímos o Streamo-Instruct-465K, um conjunto de dados de larga escala de instruções personalizado para a compreensão de vídeo em streaming. O conjunto de dados abrange diversos contextos temporais e supervisão multitarefa, permitindo um treinamento unificado em tarefas heterogêneas de streaming. Após o treinamento de ponta a ponta no conjunto de dados de instruções por meio de um pipeline simplificado, o Streamo exibe forte raciocínio temporal, interação ágil e ampla generalização em uma variedade de benchmarks de streaming. Experimentos extensivos mostram que o Streamo preenche a lacuna entre modelos de percepção de vídeo offline e assistentes multimodais em tempo real, dando um passo em direção a uma compreensão de vídeo unificada e inteligente em fluxos de vídeo contínuos.

Raciocínio Multi-hop via Alinhamento Antecipado de Conhecimento
Multi-hop Reasoning via Early Knowledge Alignment

Dec 23

ByYuxin Wang, Shicheng Fang, Bo Wang, Qi Luo, Xuanjing Huang, Yining Zheng, Xipeng Qiu

A Geração Aumentada por Recuperação (RAG) emergiu como um paradigma poderoso para Modelos de Linguagem de Grande Porte (LLMs) abordarem consultas intensivas em conhecimento que requerem informações específicas de domínio ou atualizadas. Para lidar com questões complexas de múltiplos saltos, que são desafiadoras para a recuperação em etapa única, foram propostas abordagens RAG iterativas que incorporam aprendizagem por reforço. No entanto, os sistemas RAG iterativos existentes normalmente planejam decompor questões sem aproveitar informações sobre o corpus de recuperação disponível, levando a recuperações ineficientes e cadeias de raciocínio que se propagam em cascata para um desempenho subótimo. Neste artigo, introduzimos o Alinhamento Antecipado de Conhecimento (EKA), um módulo simples mas eficaz que alinha os LLMs com o conjunto de recuperação antes do planeamento em sistemas RAG iterativos, utilizando conhecimento recuperado contextualmente relevante. Extensos experimentos em seis conjuntos de dados RAG padrão demonstram que, ao estabelecer uma base de raciocínio mais sólida, o EKA melhora significativamente a precisão da recuperação, reduz erros em cascata e aumenta tanto o desempenho quanto a eficiência. A nossa análise a partir de uma perspetiva de entropia demonstra que a incorporação de conhecimento antecipado reduz a exploração desnecessária durante o processo de raciocínio, permitindo que o modelo se concentre de forma mais eficaz em subconjuntos de informação relevantes. Além disso, o EKA mostra-se eficaz como uma estratégia de inferência versátil e livre de treino, que escala perfeitamente para modelos grandes. Testes de generalização em diversos conjuntos de dados e corpora de recuperação confirmam a robustez da nossa abordagem. No geral, o EKA avança o estado da arte em sistemas RAG iterativos, ao mesmo tempo que ilumina a interação crítica entre o raciocínio estruturado e a exploração eficiente em frameworks aumentados por aprendizagem por reforço. O código está disponível em https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.

LLM Swiss Round: Agregação de Desempenho em Múltiplos Benchmarks por meio de Dinâmicas Competitivas de Sistema Suíço
LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

Dec 24

ByJiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong

A rápida proliferação de Modelos de Linguagem de Grande Porte (LLMs) e de diversos benchmarks especializados exige uma mudança de métricas fragmentadas e específicas por tarefa para um sistema de classificação competitivo e holístico que agregue eficazmente o desempenho em múltiplas dimensões de capacidade. Utilizando principalmente pontuação estática, os métodos atuais de avaliação são fundamentalmente limitados. Eles lutam para determinar a proporção de mistura adequada entre benchmarks diversos e, criticalmente, falham em capturar a aptidão competitiva dinâmica de um modelo ou sua vulnerabilidade quando confrontado com tarefas sequenciais de alto risco. Para resolver isso, introduzimos a nova estrutura de Dinâmica Competitiva do Sistema Suíço (CSD). A CSD simula uma competição sequencial de múltiplas rodadas onde os modelos são emparelhados dinamicamente através de uma sequência curada de benchmarks com base no seu histórico acumulado de vitórias e derrotas. E a Simulação de Monte Carlo (N=100.000 iterações) é usada para aproximar a Pontuação Esperada de Vitórias (E[S_m]) estatisticamente robusta, que elimina o ruído do emparelhamento aleatório e da sorte nas rodadas iniciais. Além disso, implementamos uma Análise de Sensibilidade à Falha parametrizando a quantidade de eliminação por rodada (T_k), o que nos permite traçar o perfil dos modelos com base no seu apetite ao risco - distinguindo entre generalistas robustos e especialistas agressivos. Demonstramos que a CSD fornece uma classificação mais matizada e consciente do contexto do que a pontuação agregada tradicional e os modelos de pares estáticos, representando um passo vital para a avaliação de próxima geração de LLMs baseada em risco.

PhononBench: Um Benchmark em Larga Escala Baseado em Fónons para Estabilidade Dinâmica na Geração de Cristais
PhononBench:A Large-Scale Phonon-Based Benchmark for Dynamical Stability in Crystal Generation

Dec 24

ByXiao-Qi Han, Ze-Feng Gao, Peng-Jie Guo, Zhong-Yi Lu

Neste trabalho, apresentamos o PhononBench, o primeiro benchmark em larga escala para estabilidade dinâmica em cristais gerados por IA. Utilizando o potencial interatômico MatterSim, recentemente desenvolvido, que alcança precisão ao nível do DFT em previsões de fónons para mais de 10.000 materiais, o PhononBench permite cálculos eficientes de fónons em larga escala e análise de estabilidade dinâmica para 108.843 estruturas cristalinas geradas por seis modelos líderes de geração de cristais. O PhononBench revela uma limitação generalizada dos modelos generativos atuais em garantir a estabilidade dinâmica: a taxa média de estabilidade dinâmica em todas as estruturas geradas é de apenas 25,83%, com o modelo de melhor desempenho, o MatterGen, atingindo apenas 41,0%. Estudos de caso adicionais mostram que, na geração direcionada por propriedades – ilustrada aqui pelo condicionamento do *band gap* com o MatterGen – a taxa de estabilidade dinâmica permanece tão baixa quanto 23,5%, mesmo na condição ótima de *band gap* de 0,5 eV. Na geração controlada por grupo espacial, cristais com simetria mais elevada exibem melhor estabilidade (por exemplo, sistemas cúbicos atingem taxas de até 49,2%), mas a estabilidade média em todas as gerações controladas é de apenas 34,4%. Um resultado adicional importante deste estudo é a identificação de 28.119 estruturas cristalinas que são fononicamente estáveis em toda a zona de Brillouin, fornecendo um conjunto substancial de candidatos confiáveis para futura exploração de materiais. Ao estabelecer o primeiro benchmark de estabilidade dinâmica em larga escala, este trabalho destaca sistematicamente as limitações atuais dos modelos de geração de cristais e oferece critérios de avaliação e orientação essenciais para o seu desenvolvimento futuro em direção ao projeto e descoberta de materiais fisicamente viáveis. Todas as estruturas cristalinas geradas pelos modelos, os resultados dos cálculos de fónons e os fluxos de trabalho de avaliação de alto rendimento desenvolvidos no PhononBench serão disponibilizados publicamente em https://github.com/xqh19970407/PhononBench.

NVIDIA Nemotron 3: Inteligência Eficiente e Aberta
NVIDIA Nemotron 3: Efficient and Open Intelligence

Dec 24

ByNVIDIA, Aaron Blakeman, Aaron Grattafiori, Aarti Basant, Abhibha Gupta, Abhinav Khattar, Adi Renduchintala, Aditya Vavre, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Aleksandr Shaposhnikov, Alex Kondratenko, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alisa Liu, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Amy Shen, Anahita Bhiwandiwalla, Andrew Tao, Anjulie Agrusa, Ankur Verma, Ann Guan, Anubhav Mandarwal, Arham Mehta, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Ayush Dattagupta, Banghua Zhu, Bardiya Sadeghi, Barnaby Simkin, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bita Darvish Rouhani, Boris Ginsburg, Brandon Norick, Brandon Soubasis, Branislav Kisacanin, Brian Yu, Bryan Catanzaro, Carlo del Mundo, Chantal Hwang, Charles Wang, Cheng-Ping Hsieh, Chenghao Zhang, Chenhan Yu, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christopher Parisien, Collin Neale, Cyril Meurillon, Damon Mosk-Aoyama, Dan Su, Dane Corneil, Daniel Afrimi, Daniel Lo, Daniel Rohrer, Daniel Serebrenik, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, Deepak Narayanan, Dhruv Nathawani, Dima Rekesh, Dina Yared, Divyanshu Kakwani, Dong Ahn, Duncan Riach, Dusan Stosic, Edgar Minasyan, Edward Lin, Eileen Long, Eileen Peters Long, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Tramel, Erick Galinkin, Erik Pounds, Evan Briones, Evelina Bakhturina, Evgeny Tsykunov, Faisal Ladhak, Fay Wang, Fei Jia, Felipe Soares, Feng Chen, Ferenc Galko, Frank Sun, Frankie Siino, Gal Hubara Agam, Ganesh Ajjanagadde, Gantavya Bhatt, Gargi Prasad, George Armstrong, Gerald Shen, Gorkem Batmaz, Grigor Nalbandyan, Haifeng Qian, Harsh Sharma, Hayley Ross, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hiren Upadhyay, Huizi Mao, Huy C Nguyen, Huy Q Nguyen, Iain Cunningham, Ido Galil, Ido Shahaf, Igor Gitman, Ilya Loshchilov, Itamar Schen, Itay Levy, Ivan Moshkov, Izik Golan, Izzy Putterman, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jian Zhang, Jiaqi Zeng, Jie Lou, Jimmy Zhang, Jinhang Choi, Jining Huang, Joey Conway, Joey Guman, John Kamalu, Johnny Greco, Jonathan Cohen, Joseph Jennings, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kai Xu, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khushi Bhardwaj, Kirthi Shankar, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Li Ding, Lizzie Wei, Lucas Liebenwein, Luis Vega, Maanu Grover, Maarten Van Segbroeck, Maer Rodrigues de Melo, Mahdi Nazemi, Makesh Narsimhan Sreedhar, Manoj Kilaru, Maor Ashkenazi, Marc Romeijn, Marcin Chochowski, Mark Cai, Markus Kliegl, Maryam Moosaei, Matt Kulka, Matvei Novikov, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Meredith Price, Michael Andersch, Michael Boone, Michael Evans, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Minseok Lee, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Natalie Hereth, Nave Assaf, Negar Habibi, Neta Zmora, Netanel Haber, Nicola Sessions, Nidhi Bhatia, Nikhil Jukar, Nikki Pope, Nikolai Ludwig, Nima Tajbakhsh, Nir Ailon, Nirmal Juluru, Nishant Sharma, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Ouye Xie, Parth Chadha, Pasha Shamis, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pinky Xu, Piotr Januszewski, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Qing Miao, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachit Garg, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Rich Harang, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Hesse, Roger Waleffe, Rohit Watve, Roi Koren, Ruoxi Zhang, Russell Hewett, Russell J. Hewett, Ryan Prenger, Ryan Timbrook, Sadegh Mahdavi, Sahil Modi, Samuel Kriman, Sangkug Lim, Sanjay Kariyappa, Sanjeev Satheesh, Saori Kaji, Satish Pasumarthi, Saurav Muralidharan, Sean Narentharen, Sean Narenthiran, Seonmyeong Bak, Sergey Kashirsky, Seth Poulos, Shahar Mor, Shanmugam Ramasamy, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shiqing Fan, Shreya Gopal, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Simeng Sun, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Sugam Dipak Devare, Sumeet Kumar Barua, Suseella Panguluri, Suyog Gupta, Sweta Priyadarshi, Syeda Nahida Akter, Tan Bui, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tijmen Blankevoort, Tim Moon, Tom Balough, Tomer Asida, Tomer Bar Natan, Tomer Ronen, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Vahid Noroozi, Venkat Srinivasan, Venmugil Elango, Victor Cui, Vijay Korthikanti, Vinay Rao, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Wanli Jiang, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenfei Zhou, Will Jennings, William Zhang, Wojciech Prazuch, Xiaowei Ren, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Yigong Qin, Ying Lin, Yonatan Geifman, Yonggan Fu, Yoshi Subara, Yoshi Suhara, Yubo Gao, Zach Moshe, Zhen Dong, Zhongbo Zhu, Zihan Liu, Zijia Chen, Zijie Yan