Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo
Test-Time Scaling with Reflective Generative Model

Jul 2, 2025

Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie

833

Presentamos nuestro primer modelo generativo reflexivo MetaStone-S1, que alcanza el rendimiento de OpenAI o3 mediante el modelo de recompensa de proceso autosupervisado (SPRM, por sus siglas en inglés). Al compartir la red principal y utilizar cabezales específicos para la predicción del siguiente token y la puntuación del proceso respectivamente, SPRM integra exitosamente el modelo de política y el modelo de recompensa de proceso (PRM) en una interfaz unificada sin necesidad de anotaciones adicionales del proceso, reduciendo más del 99% de los parámetros de PRM para un razonamiento eficiente. Equipado con SPRM, MetaStone-S1 es naturalmente adecuado para el escalado en tiempo de prueba (TTS), y ofrecemos tres modos de esfuerzo de razonamiento (bajo, medio y alto), basados en la longitud controlable del pensamiento. Además, establecemos empíricamente una ley de escalado que revela la relación entre el cómputo total del pensamiento y el rendimiento de TTS. Los experimentos demuestran que nuestro MetaStone-S1 logra un rendimiento comparable a la serie OpenAI-o3-mini con un tamaño de solo 32B parámetros. Para apoyar a la comunidad de investigación, hemos liberado el código de MetaStone-S1 en https://github.com/MetaStone-AI/MetaStone-S1.

Open Vision Reasoner: Transferencia del Comportamiento Cognitivo Lingüístico para el Razonamiento Visual
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Jul 7, 2025

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel

661

La notable capacidad de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) surge de comportamientos cognitivos que emergen mediante el refuerzo con recompensas verificables. Este trabajo investiga cómo transferir este principio a los Modelos de Lenguaje Multimodales (MLLMs) para desbloquear un razonamiento visual avanzado. Introducimos un paradigma de dos etapas basado en Qwen2.5-VL-7B: un ajuste fino masivo de arranque en frío lingüístico, seguido de un aprendizaje por refuerzo multimodal (RL) que abarca casi 1,000 pasos, superando todos los esfuerzos anteriores de código abierto en escala. Este trabajo pionero revela tres insights fundamentales: 1) La transferencia de comportamiento emerge sorprendentemente temprano en el arranque en frío debido a la imaginería mental lingüística. 2) El arranque en frío memoriza ampliamente comportamientos visuales, mientras que el RL distingue críticamente y escala patrones efectivos. 3) La transferencia favorece estratégicamente comportamientos de alta utilidad, como la reflexión visual. Nuestro modelo resultante, Open-Vision-Reasoner (OVR), logra un rendimiento de vanguardia en un conjunto de benchmarks de razonamiento, incluyendo un 95.3% en MATH500, un 51.8% en MathVision y un 54.6% en MathVerse. Publicamos nuestro modelo, datos y dinámicas de entrenamiento para catalizar el desarrollo de razonadores multimodales más capaces y alineados en comportamiento.

NeuralOS: Hacia la Simulación de Sistemas Operativos mediante Modelos Generativos Neuronales
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

Jul 11, 2025

Luke Rivard, Sun Sun, Hongyu Guo, Wenhu Chen, Yuntian Deng

585

Presentamos NeuralOS, un marco neuronal que simula interfaces gráficas de usuario (GUI) de sistemas operativos al predecir directamente los fotogramas de pantalla en respuesta a entradas del usuario, como movimientos del ratón, clics y eventos de teclado. NeuralOS combina una red neuronal recurrente (RNN), que rastrea el estado de la computadora, con un renderizador neuronal basado en difusión que genera imágenes de pantalla. El modelo se entrena con un conjunto de datos a gran escala de grabaciones de Ubuntu XFCE, que incluyen tanto interacciones generadas aleatoriamente como interacciones realistas producidas por agentes de IA. Los experimentos muestran que NeuralOS renderiza con éxito secuencias de GUI realistas, captura con precisión las interacciones del ratón y predice de manera confiable transiciones de estado, como el lanzamiento de aplicaciones. Aunque modelar con precisión interacciones detalladas del teclado sigue siendo un desafío, NeuralOS ofrece un paso hacia la creación de interfaces neuronales generativas y completamente adaptativas para futuros sistemas de interacción humano-computadora.

Modelos de Fundación de Visión como Tokenizadores Visuales Efectivos para la Generación Autoregresiva de Imágenes
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

Jul 11, 2025

Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi

541

Aprovechando las potentes representaciones de los modelos fundamentales de visión preentrenados —tradicionalmente utilizados para la comprensión visual—, exploramos una dirección novedosa: la construcción de un tokenizador de imágenes directamente sobre dichos modelos, un área en gran medida poco explorada. Específicamente, empleamos un modelo fundamental de visión congelado como el codificador de nuestro tokenizador. Para mejorar su eficacia, introducimos dos componentes clave: (1) un marco de cuantización adaptativa por regiones que reduce la redundancia en las características preentrenadas en cuadrículas 2D regulares, y (2) un objetivo de reconstrucción semántica que alinea las salidas del tokenizador con las representaciones del modelo fundamental para preservar la fidelidad semántica. Basándonos en estos diseños, nuestro tokenizador de imágenes propuesto, VFMTok, logra mejoras sustanciales en la calidad de la reconstrucción y generación de imágenes, al mismo tiempo que aumenta la eficiencia de los tokens. Además, impulsa la generación autoregresiva (AR) —alcanzando un gFID de 2.07 en los puntos de referencia de ImageNet—, acelera la convergencia del modelo en tres veces y permite la síntesis condicionada por clases de alta fidelidad sin necesidad de guía libre de clasificador (CFG). El código se lanzará públicamente para beneficiar a la comunidad.

CLiFT: Tokens Compresivos de Campo de Luz para Renderizado Neural Eficiente en Cómputo y Adaptativo
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Jul 11, 2025

Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa

481

Este artículo propone un enfoque de renderizado neuronal que representa una escena como "tokens de campo de luz comprimidos (CLiFTs)", conservando información rica de apariencia y geometría de la escena. CLiFT permite un renderizado eficiente en términos de cómputo mediante tokens comprimidos, al mismo tiempo que es capaz de cambiar el número de tokens para representar una escena o renderizar una nueva vista con una red entrenada. Concretamente, dado un conjunto de imágenes, un codificador multivista tokeniza las imágenes junto con las poses de la cámara. Un K-means en el espacio latente selecciona un conjunto reducido de rayos como centroides de clúster utilizando los tokens. El "condensador" multivista comprime la información de todos los tokens en los tokens centroides para construir los CLiFTs. En el momento de prueba, dada una vista objetivo y un presupuesto de cómputo (es decir, el número de CLiFTs), el sistema recopila el número especificado de tokens cercanos y sintetiza una nueva vista utilizando un renderizador adaptativo al cómputo. Experimentos extensivos en los conjuntos de datos RealEstate10K y DL3DV validan cuantitativa y cualitativamente nuestro enfoque, logrando una reducción significativa de datos con una calidad de renderizado comparable y la puntuación general de renderizado más alta, al mismo tiempo que ofrece compensaciones entre el tamaño de los datos, la calidad del renderizado y la velocidad de renderizado.

Gemini 2.5: Avanzando la frontera con razonamiento avanzado, multimodalidad, contexto extenso y capacidades agentales de próxima generación
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Jul 7, 2025

Gheorghe Comanici, Eric Bieber, Mike Schaekermann, Ice Pasupat, Noveen Sachdeva, Inderjit Dhillon, Marcel Blistein, Ori Ram, Dan Zhang, Evan Rosen, Luke Marris, Sam Petulla, Colin Gaffney, Asaf Aharoni, Nathan Lintz, Tiago Cardal Pais, Henrik Jacobsson, Idan Szpektor, Nan-Jiang Jiang, Krishna Haridasan, Ahmed Omran, Nikunj Saunshi, Dara Bahri, Gaurav Mishra, Eric Chu, Toby Boyd, Brad Hekman, Aaron Parisi, Chaoyi Zhang, Kornraphop Kawintiranon, Tania Bedrax-Weiss, Oliver Wang, Ya Xu, Ollie Purkiss, Uri Mendlovic, Ilaï Deutel, Nam Nguyen, Adam Langley, Flip Korn, Lucia Rossazza, Alexandre Ramé, Sagar Waghmare, Helen Miller, Vaishakh Keshava, Ying Jian, Xiaofan Zhang, Raluca Ada Popa, Kedar Dhamdhere, Blaž Bratanič, Kyuyeun Kim, Terry Koo, Ferran Alet, Yi-ting Chen, Arsha Nagrani, Hannah Muckenhirn, Zhiyuan Zhang, Corbin Quick, Filip Pavetić, Duc Dung Nguyen, Joao Carreira, Michael Elabd, Haroon Qureshi, Fabian Mentzer, Yao-Yuan Yang, Danielle Eisenbud, Anmol Gulati, Ellie Talius, Eric Ni, Sahra Ghalebikesabi, Edouard Yvinec, Alaa Saade, Thatcher Ulrich, Lorenzo Blanco, Dan A. Calian, Muhuan Huang, Aäron van den Oord, Naman Goyal, Terry Chen, Praynaa Rawlani, Christian Schallhart, Swachhand Lokhande, Xianghong Luo, Jyn Shan, Ceslee Montgomery, Victoria Krakovna, Federico Piccinini, Omer Barak, Jingyu Cui, Yiling Jia, Mikhail Dektiarev, Alexey Kolganov, Shiyu Huang, Zhe Chen, Xingyu Wang, Jessica Austin, Peter de Boursac, Evgeny Sluzhaev, Frank Ding, Huijian Li, Surya Bhupatiraju, Mohit Agarwal, Sławek Kwasiborski, Paramjit Sandhu, Patrick Siegler, Ahmet Iscen, Eyal Ben-David, Shiraz Butt, Miltos Allamanis, Seth Benjamin, Robert Busa-Fekete, Felix Hernandez-Campos, Sasha Goldshtein, Matt Dibb, Weiyang Zhang, Annie Marsden, Carey Radebaugh, Stephen Roller, Abhishek Nayyar, Jacob Austin, Tayfun Terzi, Bhargav Kanagal Shamanna, Pete Shaw, Aayush Singh, Florian Luisier, Artur Mendonça, Vaibhav Aggarwal, Larisa Markeeva, Claudio Fantacci, Sergey Brin, HyunJeong Choe, Guanyu Wang, Hartwig Adam, Avigail Dabush, Tatsuya Kiyono, Eyal Marcus, Jeremy Cole, Theophane Weber, Hongrae Lee, Ronny Huang, Alex Muzio, Leandro Kieliger, Maigo Le, Courtney Biles, Long Le, Archit Sharma, Chengrun Yang, Avery Lamp, Dave Dopson, Nate Hurley, Katrina, Xu, Zhihao Shan, Shuang Song, Jiewen Tan, Alexandre Senges, George Zhang, Chong You, Yennie Jun, David Raposo, Susanna Ricco, Xuan Yang, Weijie Chen, Prakhar Gupta, Arthur Szlam, Kevin Villela, Chun-Sung Ferng, Daniel Kasenberg, Chen Liang, Rui Zhu, Arunachalam Narayanaswamy, Florence Perot, Paul Pucciarelli, Anna Shekhawat, Alexey Stern, Rishikesh Ingale, Stefani Karp, Sanaz Bahargam, Adrian Goedeckemeyer, Jie Han, Sicheng Li, Andrea Tacchetti, Dian Yu, Abhishek Chakladar, Zhiying Zhang, Mona El Mahdy, Xu Gao, Dale Johnson, Samrat Phatale, AJ Piergiovanni, Hyeontaek Lim, Clement Farabet, Carl Lebsack, Theo Guidroz, John Blitzer, Nico Duduta, David Madras, Steve Li, Daniel von Dincklage, Xin Li, Mahdis Mahdieh, George Tucker, Ganesh Jawahar, Owen Xiao, Danny Tarlow, Robert Geirhos, Noam Velan, Daniel Vlasic, Kalesha Bullard, SK Park, Nishesh Gupta, Kellie Webster, Ayal Hitron, Jieming Mao, Julian Eisenschlos, Laurel Prince, Nina D'Souza, Kelvin Zheng, Sara Nasso, Gabriela Botea, Carl Doersch, Caglar Unlu, Chris Alberti, Alexey Svyatkovskiy, Ankita Goel, Krzysztof Choromanski, Pan-Pan Jiang, Richard Nguyen, Four Flynn, Daria Ćurko, Peter Chen, Nicholas Roth, Kieran Milan, Caleb Habtegebriel, Shashi Narayan, Michael Moffitt, Jake Marcus, Thomas Anthony, Brendan McMahan, Gowoon Cheon, Ruibo Liu, Megan Barnes, Lukasz Lew, Rebeca Santamaria-Fernandez, Mayank Upadhyay, Arjun Akula, Arnar Mar Hrafnkelsson, Alvaro Caceres, Andrew Bunner, Michal Sokolik, Subha Puttagunta, Lawrence Moore, Berivan Isik, Weilun Chen, Jay Hartford, Lawrence Chan, Pradeep Shenoy, Dan Holtmann-Rice, Jane Park, Fabio Viola, Alex Salcianu, Sujeevan Rajayogam, Ian Stewart-Binks, Zelin Wu, Richard Everett, Xi Xiong, Pierre-Antoine Manzagol, Gary Leung, Carl Saroufim, Bo Pang, Dawid Wegner, George Papamakarios, Jennimaria Palomaki, Helena Pankov, Guangda Lai, Guilherme Tubone, Shubin Zhao, Theofilos Strinopoulos, Seth Neel, Mingqiu Wang, Joe Kelley, Li Li, Pingmei Xu, Anitha Vijayakumar, Andrea D'olimpio, Omer Levy, Massimo Nicosia, Grigory Rozhdestvenskiy, Ni Lao, Sirui Xie, Yash Katariya, Jon Simon, Sanjiv Kumar, Florian Hartmann, Michael Kilgore, Jinhyuk Lee, Aroma Mahendru, Roman Ring, Tom Hennigan, Fiona Lang, Colin Cherry, David Steiner, Dawsen Hwang, Ray Smith, Pidong Wang, Jeremy Chen, Ming-Hsuan Yang, Sam Kwei, Philippe Schlattner, Donnie Kim, Ganesh Poomal Girirajan, Nikola Momchev, Ayushi Agarwal, Xingyi Zhou, Ilkin Safarli, Zachary Garrett, AJ Pierigiovanni, Sarthak Jauhari, Alif Raditya Rochman, Shikhar Vashishth, Quan Yuan, Christof Angermueller, Jon Blanton, Xinying Song, Nitesh Bharadwaj Gundavarapu, Thi Avrahami, Maxine Deines, Subhrajit Roy, Manish Gupta, Christopher Semturs, Shobha Vasudevan, Aditya Srikanth Veerubhotla, Shriya Sharma, Josh Jacob, Zhen Yang, Andreas Terzis, Dan Karliner, Auriel Wright, Tania Rojas-Esponda, Ashley Brown, Abhijit Guha Roy, Pawan Dogra, Andrei Kapishnikov, Peter Young, Wendy Kan, Vinodh Kumar Rajendran, Maria Ivanova, Salil Deshmukh, Chia-Hua Ho, Mike Kwong, Stav Ginzburg, Annie Louis, KP Sawhney, Slav Petrov, Jing Xie, Yunfei Bai, Georgi Stoyanov, Alex Fabrikant, Rajesh Jayaram, Yuqi Li, Joe Heyward, Justin Gilmer, Yaqing Wang, Radu Soricut, Luyang Liu, Qingnan Duan, Jamie Hayes, Maura O'Brien, Gaurav Singh Tomar, Sivan Eiger, Bahar Fatemi, Jeffrey Hui, Catarina Barros, Adaeze Chukwuka, Alena Butryna, Saksham Thakur, Austin Huang, Zhufeng Pan, Haotian Tang, Serkan Cabi, Tulsee Doshi, Michiel Bakker, Sumit Bagri, Ruy Ley-Wild, Adam Lelkes, Jennie Lees, Patrick Kane, David Greene, Shimu Wu, Jörg Bornschein, Gabriela Surita, Sarah Hodkinson, Fangtao Li, Chris Hidey, Sébastien Pereira, Sean Ammirati, Phillip Lippe, Adam Kraft, Pu Han, Sebastian Gerlach, Zifeng Wang, Liviu Panait, Feng Han, Brian Farris, Yingying Bi, Hannah DeBalsi, Miaosen Wang, Gladys Tyen, James Cohan, Susan Zhang, Jarred Barber, Da-Woon Chung, Jaeyoun Kim, Markus Kunesch, Steven Pecht, Nami Akazawa, Abe Friesen, James Lyon, Ali Eslami, Junru Wu, Jie Tan, Yue Song, Ravi Kumar, Chris Welty, Ilia Akolzin, Gena Gibson, Sean Augenstein, Arjun Pillai, Nancy Yuen, Du Phan, Xin Wang, Iain Barr, Heiga Zen, Nan Hua, Casper Liu, Jilei, Wang, Tanuj Bhatia, Hao Xu, Oded Elyada, Pushmeet Kohli, Mirek Olšák, Ke Chen, Azalia Mirhoseini, Noam Shazeer, Shoshana Jakobovits, Maggie Tran, Nolan Ramsden, Tarun Bharti, Fred Alcober, Yunjie Li, Shilpa Shetty, Jing Chen, Dmitry Kalashnikov, Megha Nawhal, Sercan Arik, Hanwen Chen, Michiel Blokzijl, Shubham Gupta, James Rubin, Rigel Swavely, Sophie Bridgers, Ian Gemp, Chen Su, Arun Suggala, Juliette Pluto, Mary Cassin, Alain Vaucher, Kaiyang Ji, Jiahao Cai, Andrew Audibert, Animesh Sinha, David Tian, Efrat Farkash, Amy Hua, Jilin Chen, Duc-Hieu Tran, Edward Loper, Nicole Brichtova, Lara McConnaughey, Ballie Sandhu, Robert Leland, Doug DeCarlo, Andrew Over, James Huang, Xing Wu, Connie Fan, Eric Li, Yun Lei, Deepak Sharma, Cosmin Paduraru, Luo Yu, Matko Bošnjak, Phuong Dao, Min Choi, Sneha Kudugunta, Jakub Adamek, Carlos Guía, Ali Khodaei, Jie Feng, Wenjun Zeng, David Welling, Sandeep Tata, Christina Butterfield, Andrey Vlasov, Seliem El-Sayed, Swaroop Mishra, Tara Sainath, Shentao Yang, RJ Skerry-Ryan, Jeremy Shar, Robert Berry, Arunkumar Rajendran, Arun Kandoor, Andrea Burns, Deepali Jain, Tom Stone, Wonpyo Park, Shibo Wang, Albin Cassirer, Guohui Wang, Hayato Kobayashi, Sergey Rogulenko, Vineetha Govindaraj, Mikołaj Rybiński, Nadav Olmert, Colin Evans, Po-Sen Huang, Kelvin Xu, Premal Shah, Terry Thurk, Caitlin Sikora, Mu Cai, Jin Xie, Elahe Dabir, Saloni Shah, Norbert Kalb, Carrie Zhang, Shruthi Prabhakara, Amit Sabne, Artiom Myaskovsky, Vikas Raunak, Blanca Huergo, Behnam Neyshabur, Jon Clark, Ye Zhang, Shankar Krishnan, Eden Cohen, Dinesh Tewari, James Lottes, Yumeya Yamamori, Hui, Li, Mohamed Elhawaty, Ada Maksutaj Oflazer, Adrià Recasens, Sheryl Luo, Duy Nguyen, Taylor Bos, Kalyan Andra, Ana Salazar, Ed Chi, Jeongwoo Ko, Matt Ginsberg, Anders Andreassen, Anian Ruoss, Todor Davchev, Elnaz Davoodi, Chenxi Liu, Min Kim, Santiago Ontanon, Chi Ming To, Dawei Jia, Rosemary Ke, Jing Wang, Anna Korsun, Moran Ambar, Ilya Kornakov, Irene Giannoumis, Toni Creswell, Denny Zhou, Yi Su, Ishaan Watts, Aleksandr Zaks, Evgenii Eltyshev, Ziqiang Feng, Sidharth Mudgal, Alex Kaskasoli, Juliette Love, Kingshuk Dasgupta, Sam Shleifer, Richard Green, Sungyong Seo, Chansoo Lee, Dale Webster, Prakash Shroff, Ganna Raboshchuk, Isabel Leal, James Manyika, Sofia Erell, Daniel Murphy, Zhisheng Xiao, Anton Bulyenov, Julian Walker, Mark Collier, Matej Kastelic, Nelson George, Sushant Prakash, Sailesh Sidhwani, Alexey Frolov, Steven Hansen, Petko Georgiev, Tiberiu Sosea, Chris Apps, Aishwarya Kamath, David Reid, Emma Cooney, Charlotte Magister, Oriana Riva, Alec Go, Pu-Chin Chen, Sebastian Krause, Nir Levine, Marco Fornoni, Ilya Figotin, Nick Roy, Parsa Mahmoudieh, Vladimir Magay, Mukundan Madhavan, Jin Miao, Jianmo Ni, Yasuhisa Fujii, Ian Chou, George Scrivener, Zak Tsai, Siobhan Mcloughlin, Jeremy Selier, Sandra Lefdal, Jeffrey Zhao, Abhijit Karmarkar, Kushal Chauhan, Shivanker Goel, Zhaoyi Zhang, Vihan Jain, Parisa Haghani, Mostafa Dehghani, Jacob Scott, Erin Farnese, Anastasija Ilić, Steven Baker, Julia Pawar, Li Zhong, Josh Camp, Yoel Zeldes, Shravya Shetty, Anand Iyer, Vít Listík, Jiaxian Guo, Luming Tang, Mark Geller, Simon Bucher, Yifan Ding, Hongzhi Shi, Carrie Muir, Dominik Grewe, Ramy Eskander, Octavio Ponce, Boqing Gong, Derek Gasaway, Samira Khan, Umang Gupta, Angelos Filos, Weicheng Kuo, Klemen Kloboves, Jennifer Beattie, Christian Wright, Leon Li, Alicia Jin, Sandeep Mariserla, Miteyan Patel, Jens Heitkaemper, Dilip Krishnan, Vivek Sharma, David Bieber, Christian Frank, John Lambert, Paul Caron, Martin Polacek, Mai Giménez, Himadri Choudhury, Xing Yu, Sasan Tavakkol, Arun Ahuja, Franz Och, Rodolphe Jenatton, Wojtek Skut, Bryan Richter, David Gaddy, Andy Ly, Misha Bilenko, Megh Umekar, Ethan Liang, Martin Sevenich, Mandar Joshi, Hassan Mansoor, Rebecca Lin, Sumit Sanghai, Abhimanyu Singh, Xiaowei Li, Sudheendra Vijayanarasimhan, Zaheer Abbas, Yonatan Bitton, Hansa Srinivasan, Manish Reddy Vuyyuru, Alexander Frömmgen, Yanhua Sun, Ralph Leith, Alfonso Castaño, DJ Strouse, Le Yan, Austin Kyker, Satish Kambala, Mary Jasarevic, Thibault Sellam, Chao Jia, Alexander Pritzel, Raghavender R, Huizhong Chen, Natalie Clay, Sudeep Gandhe, Sean Kirmani, Sayna Ebrahimi, Hannah Kirkwood, Jonathan Mallinson, Chao Wang, Adnan Ozturel, Kuo Lin, Shyam Upadhyay, Vincent Cohen-Addad, Sean Purser-haskell, Yichong Xu, Ebrahim Songhori, Babi Seal, Alberto Magni, Almog Gueta, Tingting Zou, Guru Guruganesh, Thais Kagohara, Hung Nguyen, Khalid Salama, Alejandro Cruzado Ruiz, Justin Frye, Zhenkai Zhu, Matthias Lochbrunner, Simon Osindero, Wentao Yuan, Lisa Lee, Aman Prasad, Lam Nguyen Thiet, Daniele Calandriello, Victor Stone, Qixuan Feng, Han Ke, Maria Voitovich, Geta Sampemane, Lewis Chiang, Ling Wu, Alexander Bykovsky, Matt Young, Luke Vilnis, Ishita Dasgupta, Aditya Chawla, Qin Cao, Bowen Liang, Daniel Toyama, Szabolcs Payrits, Anca Stefanoiu, Dimitrios Vytiniotis, Ankesh Anand, Tianxiao Shen, Blagoj Mitrevski, Michael Tschannen, Sreenivas Gollapudi, Aishwarya P S, José Leal, Zhe Shen, Han Fu, Wei Wang, Arvind Kannan, Doron Kukliansky, Sergey Yaroshenko, Svetlana Grant, Umesh Telang, David Wood, Alexandra Chronopoulou, Alexandru Ţifrea, Tao Zhou, Tony, Nguy\~ên, Muge Ersoy, Anima Singh, Meiyan Xie, Emanuel Taropa, Woohyun Han, Eirikur Agustsson, Andrei Sozanschi, Hui Peng, Alex Chen, Yoel Drori, Efren Robles, Yang Gao, Xerxes Dotiwalla, Ying Chen, Anudhyan Boral, Alexei Bendebury, John Nham, Chris Tar, Luis Castro, Jiepu Jiang, Canoee Liu, Felix Halim, Jinoo Baek, Andy Wan, Jeremiah Liu, Yuan Cao, Shengyang Dai, Trilok Acharya, Ruoxi Sun, Fuzhao Xue, Saket Joshi, Morgane Lustman, Yongqin Xian, Rishabh Joshi, Deep Karkhanis, Nora Kassner, Jamie Hall, Xiangzhuo Ding, Gan Song, Gang Li, Chen Zhu, Yana Kulizhskaya, Bin Ni, Alexey Vlaskin, Solomon Demmessie, Lucio Dery, Salah Zaiem, Yanping Huang, Cindy Fan, Felix Gimeno, Ananth Balashankar, Koji Kojima, Hagai Taitelbaum, Maya Meng, Dero Gharibian, Sahil Singla, Wei Chen, Ambrose Slone, Guanjie Chen, Sujee Rajayogam, Max Schumacher, Suyog Kotecha, Rory Blevins, Qifei Wang, Mor Hazan Taege, Alex Morris, Xin Liu, Fayaz Jamil, Richard Zhang, Pratik Joshi, Ben Ingram, Tyler Liechty, Ahmed Eleryan, Scott Baird, Alex Grills, Gagan Bansal, Shan Han, Kiran Yalasangi, Shawn Xu, Majd Al Merey, Isabel Gao, Felix Weissenberger, Igor Karpov, Robert Riachi, Ankit Anand, Gautam Prasad, Kay Lamerigts, Reid Hayes, Jamie Rogers, Mandy Guo, Ashish Shenoy, Qiong, Hu, Kyle He, Yuchen Liu, Polina Zablotskaia, Sagar Gubbi, Yifan Chang, Jay Pavagadhi, Kristian Kjems, Archita Vadali, Diego Machado, Yeqing Li, Renshen Wang, Dipankar Ghosh, Aahil Mehta, Dana Alon, George Polovets, Alessio Tonioni, Nate Kushman, Joel D'sa, Lin Zhuo, Allen Wu, Rohin Shah, John Youssef, Jiayu Ye, Justin Snyder, Karel Lenc, Senaka Buthpitiya, Matthew Tung, Jichuan Chang, Tao Chen, David Saxton, Jenny Lee, Lydia Lihui Zhang, James Qin, Prabakar Radhakrishnan, Maxwell Chen, Piotr Ambroszczyk, Metin Toksoz-Exley, Yan Zhong, Nitzan Katz, Brendan O'Donoghue, Tamara von Glehn, Adi Gerzi Rosenthal, Aga Świetlik, Xiaokai Zhao, Nick Fernando, Jinliang Wei, Jieru Mei, Sergei Vassilvitskii, Diego Cedillo, Pranjal Awasthi, Hui Zheng, Koray Kavukcuoglu, Itay Laish, Joseph Pagadora, Marc Brockschmidt, Christopher A. Choquette-Choo, Arunkumar Byravan, Yifeng Lu, Xu Chen, Mia Chen, Kenton Lee, Rama Pasumarthi, Sijal Bhatnagar, Aditya Shah, Qiyin Wu, Zhuoyuan Chen, Zack Nado, Bartek Perz, Zixuan Jiang, David Kao, Ganesh Mallya, Nino Vieillard, Lantao Mei, Sertan Girgin, Mandy Jordan, Yeongil Ko, Alekh Agarwal, Yaxin Liu, Yasemin Altun, Raoul de Liedekerke, Anastasios Kementsietsidis, Daiyi Peng, Dangyi Liu, Utku Evci, Peter Humphreys, Austin Tarango, Xiang Deng, Yoad Lewenberg, Kevin Aydin, Chengda Wu, Bhavishya Mittal, Tsendsuren Munkhdalai, Kleopatra Chatziprimou, Rodrigo Benenson, Uri First, Xiao Ma, Jinning Li, Armand Joulin, Hamish Tomlinson, Tingnan Zhang, Milad Nasr, Zhi Hong, Michaël Sander, Lisa Anne Hendricks, Anuj Sharma, Andrew Bolt, Eszter Vértes, Jiri Simsa, Tomer Levinboim, Olcan Sercinoglu, Divyansh Shukla, Austin Wu, Craig Swanson, Danny Vainstein, Fan Bu, Bo Wang, Ryan Julian, Charles Yoon, Sergei Lebedev, Antonious Girgis, Bernd Bandemer, David Du, Todd Wang, Xi Chen, Ying Xiao, Peggy Lu, Natalie Ha, Vlad Ionescu, Simon Rowe, Josip Matak, Federico Lebron, Andreas Steiner, Lalit Jain, Manaal Faruqui, Nicolas Lacasse, Georgie Evans, Neesha Subramaniam, Dean Reich, Giulia Vezzani, Aditya Pandey, Joe Stanton, Tianhao Zhou, Liam McCafferty, Henry Griffiths, Verena Rieser, Soheil Hassas Yeganeh, Eleftheria Briakou, Lu Huang, Zichuan Wei, Liangchen Luo, Erik Jue, Gabby Wang, Victor Cotruta, Myriam Khan, Jongbin Park, Qiuchen Guo, Peiran Li, Rong Rong, Diego Antognini, Anastasia Petrushkina, Chetan Tekur, Eli Collins, Parul Bhatia, Chester Kwak, Wenhu Chen, Arvind Neelakantan, Immanuel Odisho, Sheng Peng, Vincent Nallatamby, Vaibhav Tulsyan, Fabian Pedregosa, Peng Xu, Raymond Lin, Yulong Wang, Emma Wang, Sholto Douglas, Reut Tsarfaty, Elena Gribovskaya, Renga Aravamudhan, Manu Agarwal, Mara Finkelstein, Qiao Zhang, Elizabeth Cole, Phil Crone, Sarmishta Velury, Anil Das, Chris Sauer, Luyao Xu, Danfeng Qin, Chenjie Gu, Dror Marcus, CJ Zheng, Wouter Van Gansbeke, Sobhan Miryoosefi, Haitian Sun, YaGuang Li, Charlie Chen, Jae Yoo, Pavel Dubov, Alex Tomala, Adams Yu, Paweł Wesołowski, Alok Gunjan, Eddie Cao, Jiaming Luo, Nikhil Sethi, Arkadiusz Socala, Laura Graesser, Tomas Kocisky, Arturo BC, Minmin Chen, Edward Lee, Sophie Wang, Weize Kong, Qiantong Xu, Nilesh Tripuraneni, Yiming Li, Xinxin Yu, Allen Porter, Paul Voigtlaender, Biao Zhang, Arpi Vezer, Sarah York, Qing Wei, Geoffrey Cideron, Mark Kurzeja, Seungyeon Kim, Benny Li, Angéline Pouget, Hyo Lee, Kaspar Daugaard, Yang Li, Dave Uthus, Aditya Siddhant, Paul Cavallaro, Sriram Ganapathy, Maulik Shah, Rolf Jagerman, Jeff Stanway, Piermaria Mendolicchio, Li Xiao, Kayi Lee, Tara Thompson, Shubham Milind Phal, Jason Chase, Sun Jae Lee, Adrian N Reyes, Disha Shrivastava, Zhen Qin, Roykrong Sukkerd, Seth Odoom, Lior Madmoni, John Aslanides, Jonathan Herzig, Elena Pochernina, Sheng Zhang, Parker Barnes, Daisuke Ikeda, Qiujia Li, Shuo-yiin Chang, Shakir Mohamed, Jim Sproch, Richard Powell, Bidisha Samanta, Domagoj Ćevid, Anton Kovsharov, Shrestha Basu Mallick, Srinivas Tadepalli, Anne Zheng, Kareem Ayoub, Andreas Noever, Christian Reisswig, Zhuo Xu, Junhyuk Oh, Martin Matysiak, Tim Blyth, Shereen Ashraf, Julien Amelot, Boone Severson, Michele Bevilacqua, Motoki Sano, Ethan Dyer, Ofir Roval, Anu Sinha, Yin Zhong, Sagi Perel, Tea Sabolić, Johannes Mauerer, Willi Gierke, Mauro Verzetti, Rodrigo Cabrera, Alvin Abdagic, Steven Hemingray, Austin Stone, Jong Lee, Farooq Ahmad, Karthik Raman, Lior Shani, Jonathan Lai, Orhan Firat, Nathan Waters, Eric Ge, Mo Shomrat, Himanshu Gupta, Rajeev Aggarwal, Tom Hudson, Bill Jia, Simon Baumgartner, Palak Jain, Joe Kovac, Junehyuk Jung, Ante Žužul, Will Truong, Morteza Zadimoghaddam, Songyou Peng, Marco Liang, Rachel Sterneck, Balaji Lakshminarayanan, Machel Reid, Oliver Woodman, Tong Zhou, Jianling Wang, Vincent Coriou, Arjun Narayanan, Jay Hoover, Yenai Ma, Apoorv Jindal, Clayton Sanford, Doug Reid, Swaroop Ramaswamy, Alex Kurakin, Roland Zimmermann, Yana Lunts, Dragos Dena, Zalán Borsos, Vered Cohen, Shujian Zhang, Will Grathwohl, Robert Dadashi, Morgan Redshaw, Joshua Kessinger, Julian Odell, Silvano Bonacina, Zihang Dai, Grace Chen, Ayush Dubey, Pablo Sprechmann, Mantas Pajarskas, Wenxuan Zhou, Niharika Ahuja, Tara Thomas, Martin Nikoltchev, Matija Kecman, Bharath Mankalale, Andrey Ryabtsev, Jennifer She, Christian Walder, Jiaming Shen, Lu Li, Carolina Parada, Sheena Panthaplackel, Okwan Kwon, Matt Lawlor, Utsav Prabhu, Yannick Schroecker, Marc'aurelio Ranzato, Pete Blois, Iurii Kemaev, Ting Yu, Dmitry, Lepikhin, Hao Xiong, Sahand Sharifzadeh, Oleaser Johnson, Jeremiah Willcock, Rui Yao, Greg Farquhar, Sujoy Basu, Hidetoshi Shimokawa, Nina Anderson, Haiguang Li, Khiem Pham, Yizhong Liang, Sebastian Borgeaud, Alexandre Moufarek, Hideto Kazawa, Blair Kutzman, Marcin Sieniek, Sara Smoot, Ruth Wang, Natalie Axelsson, Nova Fallen, Prasha Sundaram, Yuexiang Zhai, Varun Godbole, Petros Maniatis, Alek Wang, Ilia Shumailov, Santhosh Thangaraj, Remi Crocker, Nikita Gupta, Gang Wu, Phil Chen, Gellért Weisz, Celine Smith, Mojtaba Seyedhosseini, Boya Fang, Xiyang Luo, Roey Yogev, Zeynep Cankara, Andrew Hard, Helen Ran, Rahul Sukthankar, George Necula, Gaël Liu, Honglong Cai, Praseem Banzal, Daniel Keysers, Sanjay Ghemawat, Connie Tao, Emma Dunleavy, Aditi Chaudhary, Wei Li, Maciej Mikuła, Chen-Yu Lee, Tiziana Refice, Krishna Somandepalli, Alexandre Fréchette, Dan Bahir, John Karro, Keith Rush, Sarah Perrin, Bill Rosgen, Xiaomeng Yang, Clara Huiyi Hu, Mahmoud Alnahlawi, Justin Mao-Jones, Roopal Garg, Hoang Nguyen, Bat-Orgil Batsaikhan, Iñaki Iturrate, Anselm Levskaya, Avi Singh, Ashyana Kachra, Tony Lu, Denis Petek, Zheng Xu, Mark Graham, Lukas Zilka, Yael Karov, Marija Kostelac, Fangyu Liu, Yaohui Guo, Weiyue Wang, Bernd Bohnet, Emily Pitler, Tony Bruguier, Keisuke Kinoshita, Chrysovalantis Anastasiou, Nilpa Jha, Ting Liu, Jerome Connor, Phil Wallis, Philip Pham, Eric Bailey, Shixin Li, Heng-Tze Cheng, Sally Ma, Haiqiong Li, Akanksha Maurya, Kate Olszewska, Manfred Warmuth, Christy Koh, Dominik Paulus, Siddhartha Reddy Jonnalagadda, Enrique Piqueras, Ali Elqursh, Geoff Brown, Hadar Shemtov, Loren Maggiore, Fei Xia, Ryan Foley, Beka Westberg, George van den Driessche, Livio Baldini Soares, Arjun Kar, Michael Quinn, Siqi Zuo, Jialin Wu, Kyle Kastner, Anna Bortsova, Aijun Bai, Ales Mikhalap, Luowei Zhou, Jennifer Brennan, Vinay Ramasesh, Honglei Zhuang, John Maggs, Johan Schalkwyk, Yuntao Xu, Hui Huang, Andrew Howard, Sasha Brown, Linting Xue, Gloria Shen, Brian Albert, Neha Jha, Daniel Zheng, Varvara Krayvanova, Spurthi Amba Hombaiah, Olivier Lacombe, Gautam Vasudevan, Dan Graur, Tian Xie, Meet Gandhi, Bangju Wang, Dustin Zelle, Harman Singh, Dahun Kim, Sébastien Cevey, Victor Ungureanu, Natasha Noy, Fei Liu, Annie Xie, Fangxiaoyu Feng, Katerina Tsihlas, Daniel Formoso, Neera Vats, Quentin Wellens, Yinan Wang, Niket Kumar Bhumihar, Samrat Ghosh, Matt Hoffman, Tom Lieber, Oran Lang, Kush Bhatia, Tom Paine, Aroonalok Pyne, Ronny Votel, Madeleine Clare Elish, Benoit Schillings, Alex Panagopoulos, Haichuan Yang, Adam Raveret, Zohar Yahav, Shuang Liu, Warren Chen, Dalia El Badawy, Nishant Agrawal, Mohammed Badawi, Mahdi Mirzazadeh, Carla Bromberg, Fan Ye, Chang Liu, Tatiana Sholokhova, George-Cristian Muraru, Gargi Balasubramaniam, Jonathan Malmaud, Alen Carin, Danilo Martins, Irina Jurenka, Pankil Botadra, Dave Lacey, Richa Singh, Mariano Schain, Dan Zheng, Isabelle Guyon, Victor Lavrenko, Seungji Lee, Xiang Zhou, Demis Hassabis, Jeshwanth Challagundla, Derek Cheng, Nikhil Mehta, Matthew Mauger, Michela Paganini, Pushkar Mishra, Kate Lee, Zhang Li, Lexi Baugher, Ondrej Skopek, Max Chang, Amir Zait, Gaurav Menghani, Lizzetth Bellot, Guangxing Han, Jean-Michel Sarr, Sharat Chikkerur, Himanshu Sahni, Rohan Anil, Arun Narayanan, Chandu Thekkath, Daniele Pighin, Hana Strejček, Marko Velic, Fred Bertsch, Manuel Tragut, Keran Rong, Alicia Parrish, Kai Bailey, Jiho Park, Isabela Albuquerque, Abhishek Bapna, Rajesh Venkataraman, Alec Kosik, Johannes Griesser, Zhiwei Deng, Alek Andreev, Qingyun Dou, Kevin Hui, Fanny Wei, Xiaobin Yu, Lei Shu, Avia Aharon, David Barker, Badih Ghazi, Sebastian Flennerhag, Chris Breaux, Yuchuan Liu, Matthew Bilotti, Josh Woodward, Uri Alon, Stephanie Winkler, Tzu-Kuo Huang, Kostas Andriopoulos, João Gabriel Oliveira, Penporn Koanantakool, Berkin Akin, Michael Wunder, Cicero Nogueira dos Santos, Mohammad Hossein Bateni, Lin Yang, Dan Horgan, Beer Changpinyo, Keyvan Amiri, Min Ma, Dayeong Lee, Lihao Liang, Anirudh Baddepudi, Tejasi Latkar, Raia Hadsell, Jun Xu, Hairong Mu, Michael Han, Aedan Pope, Snchit Grover, Frank Kim, Ankit Bhagatwala, Guan Sun, Yamini Bansal, Amir Globerson, Alireza Nazari, Samira Daruki, Hagen Soltau, Jane Labanowski, Laurent El Shafey, Matt Harvey, Yanif Ahmad, Elan Rosenfeld, William Kong, Etienne Pot, Yi-Xuan Tan, Aurora Wei, Victoria Langston, Marcel Prasetya, Petar Veličković, Richard Killam, Robin Strudel, Darren Ni, Zhenhai Zhu, Aaron Archer, Kavya Kopparapu, Lynn Nguyen, Emilio Parisotto, Hussain Masoom, Sravanti Addepalli, Jordan Grimstad, Hexiang Hu, Joss Moore, Avinatan Hassidim, Le Hou, Mukund Raghavachari, Jared Lichtarge, Adam R. Brown, Hilal Dib, Natalia Ponomareva, Justin Fu, Yujing Zhang, Altaf Rahman, Joana Iljazi, Edouard Leurent, Gabriel Dulac-Arnold, Cosmo Du, Chulayuth Asawaroengchai, Larry Jin, Ela Gruzewska, Ziwei Ji, Benigno Uria, Daniel De Freitas, Paul Barham, Lauren Beltrone, Víctor Campos, Jun Yan, Neel Kovelamudi, Arthur Nguyen, Elinor Davies, Zhichun Wu, Zoltan Egyed, Kristina Toutanova, Nithya Attaluri, Hongliang Fei, Peter Stys, Siddhartha Brahma, Martin Izzard, Siva Velusamy, Scott Lundberg, Vincent Zhuang, Kevin Sequeira, Adam Santoro, Ehsan Amid, Ophir Aharoni, Shuai Ye, Mukund Sundararajan, Lijun Yu, Yu-Cheng Ling, Stephen Spencer, Hugo Song, Josip Djolonga, Christo Kirov, Sonal Gupta, Alessandro Bissacco, Clemens Meyer, Mukul Bhutani, Andrew Dai, Weiyi Wang, Siqi Liu, Ashwin Sreevatsa, Qijun Tan, Maria Wang, Lucy Kim, Yicheng Wang, Alex Irpan, Yang Xiao, Stanislav Fort, Yifan He, Alex Gurney, Bryan Gale, Yue Ma, Monica Roy, Viorica Patraucean, Taylan Bilal, Golnaz Ghiasi, Anahita Hosseini, Melvin Johnson, Zhuowan Li, Yi Tay, Benjamin Beyret, Katie Millican, Josef Broder, Mayank Lunayach, Danny Swisher, Eugen Vušak, David Parkinson, MH Tessler, Adi Mayrav Gilady, Richard Song, Allan Dafoe, Yves Raimond, Masa Yamaguchi, Itay Karo, Elizabeth Nielsen, Kevin Kilgour, Mike Dusenberry, Rajiv Mathews, Jiho Choi, Siyuan Qiao, Harsh Mehta, Sahitya Potluri, Chris Knutsen, Jialu Liu, Tat Tan, Kuntal Sengupta, Keerthana Gopalakrishnan, Abodunrinwa Toki, Mencher Chiang, Mike Burrows, Grace Vesom, Zafarali Ahmed, Ilia Labzovsky, Siddharth Vashishtha, Preeti Singh, Ankur Sharma, Ada Ma, Jinyu Xie, Pranav Talluri, Hannah Forbes-Pollard, Aarush Selvan, Joel Wee, Loic Matthey, Tom Funkhouser, Parthasarathy Gopavarapu, Lev Proleev, Cheng Li, Matt Thomas, Kashyap Kolipaka, Zhipeng Jia, Ashwin Kakarla, Srinivas Sunkara, Joan Puigcerver, Suraj Satishkumar Sheth, Emily Graves, Chen Wang, Sadh MNM Khan, Kai Kang, Shyamal Buch, Fred Zhang, Omkar Savant, David Soergel, Kevin Lee, Linda Friso, Xuanyi Dong, Rahul Arya, Shreyas Chandrakaladharan, Connor Schenck, Greg Billock, Tejas Iyer, Anton Bakalov, Leslie Baker, Alex Ruiz, Angad Chandorkar, Trieu Trinh, Matt Miecnikowski, Yanqi Zhou, Yangsibo Huang, Jiazhong Nie, Ali Shah, Ashish Thapliyal, Sam Haves, Lun Wang, Uri Shaham, Patrick Morris-Suzuki, Soroush Radpour, Leonard Berrada, Thomas Strohmann, Chaochao Yan, Jingwei Shen, Sonam Goenka, Tris Warkentin, Petar Dević, Dan Belov, Albert Webson, Madhavi Yenugula, Puranjay Datta, Jerry Chang, Nimesh Ghelani, Aviral Kumar, Vincent Perot, Jessica Lo, Yang Song, Herman Schmit, Jianmin Chen, Vasilisa Bashlovkina, Xiaoyue Pan, Diana Mincu, Paul Roit, Isabel Edkins, Andy Davis, Yujia Li, Ben Horn, Xinjian Li, Pradeep Kumar S, Eric Doi, Wanzheng Zhu, Sri Gayatri Sundara Padmanabhan, Siddharth Verma, Jasmine Liu, Heng Chen, Mihajlo Velimirović, Malcolm Reynolds, Priyanka Agrawal, Nick Sukhanov, Abhinit Modi, Siddharth Goyal, John Palowitch, Nima Khajehnouri, Wing Lowe, David Klinghoffer, Sharon Silver, Vinh Tran, Candice Schumann, Francesco Piccinno, Xi Liu, Mario Lučić, Xiaochen Yang, Sandeep Kumar, Ajay Kannan, Ragha Kotikalapudi, Mudit Bansal, Fabian Fuchs, Javad Hosseini, Abdelrahman Abdelhamed, Dawn Bloxwich, Tianhe Yu, Ruoxin Sang, Gregory Thornton, Karan Gill, Yuchi Liu, Virat Shejwalkar, Jason Lin, Zhipeng Yan, Kehang Han, Thomas Buschmann, Michael Pliskin, Zhi Xing, Susheel Tatineni, Junlin Zhang, Sissie Hsiao, Gavin Buttimore, Marcus Wu, Zefei Li, Geza Kovacs, Legg Yeung, Tao Huang, Aaron Cohen, Bethanie Brownfield, Averi Nowak, Mikel Rodriguez, Tianze Shi, Hado van Hasselt, Kevin Cen, Deepanway Ghoshal, Kushal Majmundar, Weiren Yu, Warren, Chen, Danila Sinopalnikov, Hao Zhang, Vlado Galić, Di Lu, Zeyu Zheng, Maggie Song, Gary Wang, Gui Citovsky, Swapnil Gawde, Isaac Galatzer-Levy, David Silver, Ivana Balazevic, Dipanjan Das, Kingshuk Majumder, Yale Cong, Praneet Dutta, Dustin Tran, Hui Wan, Junwei Yuan, Daniel Eppens, Alanna Walton, Been Kim, Harry Ragan, James Cobon-Kerr, Lu Liu, Weijun Wang, Bryce Petrini, Jack Rae, Rakesh Shivanna, Yan Xiong, Chace Lee, Pauline Coquinot, Yiming Gu, Lisa Patel, Blake Hechtman, Aviel Boag, Orion Jankowski, Alex Wertheim, Alex Lee, Paul Covington, Hila Noga, Sam Sobell, Shanthal Vasanth, William Bono, Chirag Nagpal, Wei Fan, Xavier Garcia, Kedar Soparkar, Aybuke Turker, Nathan Howard, Sachit Menon, Yuankai Chen, Vikas Verma, Vladimir Pchelin, Harish Rajamani, Valentin Dalibard, Ana Ramalho, Yang Guo, Kartikeya Badola, Seojin Bang, Nathalie Rauschmayr, Julia Proskurnia, Sudeep Dasari, Xinyun Chen, Mikhail Sushkov, Anja Hauth, Pauline Sho, Abhinav Singh, Bilva Chandra, Allie Culp, Max Dylla, Olivier Bachem, James Besley, Heri Zhao, Timothy Lillicrap, Wei Wei, Wael Al Jishi, Ning Niu, Alban Rrustemi, Raphaël Lopez Kaufman, Ryan Poplin, Jewel Zhao, Minh Truong, Shikhar Bharadwaj, Ester Hlavnova, Eli Stickgold, Cordelia Schmid, Georgi Stephanov, Zhaoqi Leng, Frederick Liu, Léonard Hussenot, Shenil Dodhia, Juliana Vicente Franco, Lesley Katzen, Abhanshu Sharma, Sarah Cogan, Zuguang Yang, Aniket Ray, Sergi Caelles, Shen Yan, Ravin Kumar, Daniel Gillick, Renee Wong, Joshua Ainslie, Jonathan Hoech, Séb Arnold, Dan Abolafia, Anca Dragan, Ben Hora, Grace Hu, Alexey Guseynov, Yang Lu, Chas Leichner, Jinmeng Rao, Abhimanyu Goyal, Nagabhushan Baddi, Daniel Hernandez Diaz, Tim McConnell, Max Bain, Jake Abernethy, Qiqi Yan, Rylan Schaeffer, Paul Vicol, Will Thompson, Montse Gonzalez Arenas, Mathias Bellaiche, Pablo Barrio, Stefan Zinke, Riccardo Patana, Pulkit Mehta, JK Kearns, Avraham Ruderman, Scott Pollom, David D'Ambrosio, Cath Hope, Yang Yu, Andrea Gesmundo, Kuang-Huei Lee, Aviv Rosenberg, Yiqian Zhou, Yaoyiran Li, Drew Garmon, Yonghui Wu, Safeen Huda, Gil Fidel, Martin Baeuml, Jian Li, Phoebe Kirk, Rhys May, Tao Tu, Sara Mc Carthy, Toshiyuki Fukuzawa, Miranda Aperghis, Chih-Kuan Yeh, Toshihiro Yoshino, Bo Li, Austin Myers, Kaisheng Yao, Ben Limonchik, Changwan Ryu, Rohun Saxena, Alex Goldin, Ruizhe Zhao, Rocky Rhodes, Tao Zhu, Divya Tyam, Heidi Howard, Nathan Byrd, Hongxu Ma, Yan Wu, Ryan Mullins, Qingze Wang, Aida Amini, Sebastien Baur, Yiran Mao, Subhashini Venugopalan, Will Song, Wen Ding, Paul Collins, Sashank Reddi, Megan Shum, Andrei Rusu, Luisa Zintgraf, Kelvin Chan, Sheela Goenka, Mathieu Blondel, Michael Collins, Renke Pan, Marissa Giustina, Nikolai Chinaev, Christian Schuler, Ce Zheng, Jonas Valfridsson, Alyssa Loo, Alex Yakubovich, Jamie Smith, Tao Jiang, Rich Munoz, Gabriel Barcik, Rishabh Bansal, Mingyao Yang, Yilun Du, Pablo Duque, Mary Phuong, Alexandra Belias, Kunal Lad, Zeyu Liu, Tal Schuster, Karthik Duddu, Jieru Hu, Paige Kunkle, Matthew Watson, Jackson Tolins, Josh Smith, Denis Teplyashin, Garrett Bingham, Marvin Ritter, Marco Andreetto, Divya Pitta, Mohak Patel, Shashank Viswanadha, Trevor Strohman, Catalin Ionescu, Jincheng Luo, Yogesh Kalley, Jeremy Wiesner, Dan Deutsch, Derek Lockhart, Peter Choy, Rumen Dangovski, Chawin Sitawarin, Cat Graves, Tanya Lando, Joost van Amersfoort, Ndidi Elue, Zhouyuan Huo, Pooya Moradi, Jean Tarbouriech, Henryk Michalewski, Wenting Ye, Eunyoung Kim, Alex Druinsky, Florent Altché, Xinyi Chen, Artur Dwornik, Da-Cheng Juan, Rivka Moroshko, Horia Toma, Jarrod Kahn, Hai Qian, Maximilian Sieb, Irene Cai, Roman Goldenberg, Praneeth Netrapalli, Sindhu Raghuram, Yuan Gong, Lijie Fan, Evan Palmer, Yossi Matias, Valentin Gabeur, Shreya Pathak, Tom Ouyang, Don Metzler, Geoff Bacon, Srinivasan Venkatachary, Sridhar Thiagarajan, Alex Cullum, Eran Ofek, Vytenis Sakenas, Mohamed Hammad, Cesar Magalhaes, Mayank Daswani, Oscar Chang, Ashok Popat, Ruichao Li, Komal Jalan, Yanhan Hou, Josh Lipschultz, Antoine He, Wenhao Jia, Pier Giuseppe Sessa, Prateek Kolhar, William Wong, Sumeet Singh, Lukas Haas, Jay Whang, Hanna Klimczak-Plucińska, Georges Rotival, Grace Chung, Yiqing Hua, Anfal Siddiqui, Nicolas Serrano, Dongkai Chen, Billy Porter, Libin Bai, Keshav Shivam, Sho Arora, Partha Talukdar, Tom Cobley, Sangnie Bhardwaj, Evgeny Gladchenko, Simon Green, Kelvin Guu, Felix Fischer, Xiao Wu, Eric Wang, Achintya Singhal, Tatiana Matejovicova, James Martens, Hongji Li, Roma Patel, Elizabeth Kemp, Jiaqi Pan, Lily Wang, Blake JianHang Chen, Jean-Baptiste Alayrac, Navneet Potti, Erika Gemzer, Eugene Ie, Kay McKinney, Takaaki Saeki, Edward Chou, Pascal Lamblin, SQ Mah, Zach Fisher, Martin Chadwick, Jon Stritar, Obaid Sarvana, Andrew Hogue, Artem Shtefan, Hadi Hashemi, Yang Xu, Jindong Gu, Sharad Vikram, Chung-Ching Chang, Sabela Ramos, Logan Kilpatrick, Weijuan Xi, Jenny Brennan, Yinghao Sun, Abhishek Jindal, Ionel Gog, Dawn Chen, Felix Wu, Jason Lee, Sudhindra Kopalle, Srinadh Bhojanapalli, Oriol Vinyals, Natan Potikha, Burcu Karagol Ayan, Yuan Yuan, Michael Riley, Piotr Stanczyk, Sergey Kishchenko, Bing Wang, Dan Garrette, Antoine Yang, Vlad Feinberg, CJ Carey, Javad Azizi, Viral Shah, Erica Moreira, Chongyang Shi, Josh Feldman, Elizabeth Salesky, Thomas Lampe, Aneesh Pappu, Duhyeon Kim, Jonas Adler, Avi Caciularu, Brian Walker, Yunhan Xu, Yochai Blau, Dylan Scandinaro, Terry Huang, Sam El-Husseini, Abhishek Sinha, Lijie Ren, Taylor Tobin, Patrik Sundberg, Tim Sohn, Vikas Yadav, Mimi Ly, Emily Xue, Jing Xiong, Afzal Shama Soudagar, Sneha Mondal, Nikhil Khadke, Qingchun Ren, Ben Vargas, Stan Bileschi, Sarah Chakera, Cindy Wang, Boyu Wang, Yoni Halpern, Joe Jiang, Vikas Sindhwani, Petre Petrov, Pranavaraj Ponnuramu, Sanket Vaibhav Mehta, Yu Watanabe, Betty Chan, Matheus Wisniewski, Trang Pham, Jingwei Zhang, Conglong Li, Dario de Cesare, Art Khurshudov, Alex Vasiloff, Melissa Tan, Zoe Ashwood, Bobak Shahriari, Maryam Majzoubi, Garrett Tanzer, Olga Kozlova, Robin Alazard, James Lee-Thorp, Nguyet Minh Phu, Isaac Tian, Junwhan Ahn, Andy Crawford, Lauren Lax, Yuan, Shangguan, Iftekhar Naim, David Ross, Oleksandr Ferludin, Tongfei Guo, Andrea Banino, Hubert Soyer, Xiaoen Ju, Dominika Rogozińska, Ishaan Malhi, Marcella Valentine, Daniel Balle, Apoorv Kulshreshtha, Maciej Kula, Yiwen Song, Sophia Austin, John Schultz, Roy Hirsch, Arthur Douillard, Apoorv Reddy, Michael Fink, Summer Yue, Khyatti Gupta, Adam Zhang, Norman Rink, Daniel McDuff, Lei Meng, András György, Yasaman Razeghi, Ricky Liang, Kazuki Osawa, Aviel Atias, Matan Eyal, Tyrone Hill, Nikolai Grigorev, Zhengdong Wang, Nitish Kulkarni, Rachel Soh, Ivan Lobov, Zachary Charles, Sid Lall, Kazuma Hashimoto, Ido Kessler, Victor Gomes, Zelda Mariet, Danny Driess, Alessandro Agostini, Canfer Akbulut, Jingcao Hu, Marissa Ikonomidis, Emily Caveness, Kartik Audhkhasi, Saurabh Agrawal, Ioana Bica, Evan Senter, Jayaram Mudigonda, Kelly Chen, Jingchen Ye, Xuanhui Wang, James Svensson, Philipp Fränken, Josh Newlan, Li Lao, Eva Schnider, Sami Alabed, Joseph Kready, Jesse Emond, Afief Halumi, Tim Zaman, Chengxi Ye, Naina Raisinghani, Vilobh Meshram, Bo Chang, Ankit Singh Rawat, Axel Stjerngren, Sergey Levi, Rui Wang, Xiangzhu Long, Mitchelle Rasquinha, Steven Hand, Aditi Mavalankar, Lauren Agubuzu, Sudeshna Roy, Junquan Chen, Jarek Wilkiewicz, Hao Zhou, Michal Jastrzebski, Qiong Hu, Agustin Dal Lago, Ramya Sree Boppana, Wei-Jen Ko, Jennifer Prendki, Yao Su, Zhi Li, Eliza Rutherford, Girish Ramchandra Rao, Ramona Comanescu, Adrià Puigdomènech, Qihang Chen, Dessie Petrova, Christine Chan, Vedrana Milutinovic, Felipe Tiengo Ferreira, Chin-Yi Cheng, Ming Zhang, Tapomay Dey, Sherry Yang, Ramesh Sampath, Quoc Le, Howard Zhou, Chu-Cheng Lin, Hoi Lam, Christine Kaeser-Chen, Kai Hui, Dean Hirsch, Tom Eccles, Basil Mustafa, Shruti Rijhwani, Morgane Rivière, Yuanzhong Xu, Junjie Wang, Xinyang Geng, Xiance Si, Arjun Khare, Cheolmin Kim, Vahab Mirrokni, Kamyu Lee, Khuslen Baatarsukh, Nathaniel Braun, Lisa Wang, Pallavi LV, Richard Tanburn, Yuvein, Zhu, Fangda Li, Setareh Ariafar, Dan Goldberg, Ken Burke, Daniil Mirylenka, Meiqi Guo, Olaf Ronneberger, Hadas Natalie Vogel, Liqun Cheng, Nishita Shetty, Johnson Jia, Thomas Jimma, Corey Fry, Ted Xiao, Martin Sundermeyer, Ryan Burnell, Yannis Assael, Mario Pinto, JD Chen, Rohit Sathyanarayana, Donghyun Cho, Jing Lu, Rishabh Agarwal, Sugato Basu, Lucas Gonzalez, Dhruv Shah, Meng Wei, Dre Mahaarachchi, Rohan Agrawal, Tero Rissa, Yani Donchev, Ramiro Leal-Cavazos, Adrian Hutter, Markus Mircea, Alon Jacovi, Faruk Ahmed, Jiageng Zhang, Shuguang Hu, Bo-Juen Chen, Jonni Kanerva, Guillaume Desjardins, Andrew Lee, Nikos Parotsidis, Asier Mujika, Tobias Weyand, Jasper Snoek, Jo Chick, Kai Chen, Paul Chang, Ethan Mahintorabi, Zi Wang, Tolly Powell, Orgad Keller, Abhirut Gupta, Claire Sha, Kanav Garg, Nicolas Heess, Ágoston Weisz, Cassidy Hardin, Bartek Wydrowski, Ben Coleman, Karina Zainullina, Pankaj Joshi, Alessandro Epasto, Terry Spitz, Binbin Xiong, Kai Zhao, Arseniy Klimovskiy, Ivy Zheng, Johan Ferret, Itay Yona, Waleed Khawaja, Jean-Baptiste Lespiau, Maxim Krikun, Siamak Shakeri, Timothee Cour, Bonnie Li, Igor Krivokon, Dan Suh, Alex Hofer, Jad Al Abdallah, Nikita Putikhin, Oscar Akerlund, Silvio Lattanzi, Anurag Kumar, Shane Settle, Himanshu Srivastava, Folawiyo Campbell-Ajala, Edouard Rosseel, Mihai Dorin Istin, Nishanth Dikkala, Anand Rao, Nick Young, Kate Lin, Dhruva Bhaswar, Yiming Wang, Jaume Sanchez Elias, Kritika Muralidharan, James Keeling, Dayou Du, Siddharth Gopal, Gregory Dibb, Charles Blundell, Manolis Delakis, Jacky Liang, Marco Tulio Ribeiro, Georgi Karadzhov, Guillermo Garrido, Ankur Bapna, Jiawei Cao, Adam Sadovsky, Pouya Tafti, Arthur Guez, Coline Devin, Yixian Di, Jinwei Xing, Chuqiao, Xu, Hanzhao Lin, Chun-Te Chu, Sameera Ponda, Wesley Helmholz, Fan Yang, Yue Gao, Sara Javanmardi, Wael Farhan, Alex Ramirez, Ricardo Figueira, Khe Chai Sim, Yuval Bahat, Ashwin Vaswani, Liangzhe Yuan, Gufeng Zhang, Leland Rechis, Hanjun Dai, Tayo Oguntebi, Alexandra Cordell, Eugénie Rives, Kaan Tekelioglu, Naveen Kumar, Bing Zhang, Aurick Zhou, Nikolay Savinov, Andrew Leach, Alex Tudor, Sanjay Ganapathy, Yanyan Zheng, Mirko Rossini, Vera Axelrod, Arnaud Autef, Yukun Zhu, Zheng Zheng, Mingda Zhang, Baochen Sun, Jie Ren, Nenad Tomasev, Nithish Kannan, Amer Sinha, Charles Chen, Louis O'Bryan, Alex Pak, Aditya Kusupati, Weel Yang, Deepak Ramachandran, Patrick Griffin, Seokhwan Kim, Philipp Neubeck, Craig Schiff, Tammo Spalink, Mingyang Ling, Arun Nair, Ga-Young Joung, Linda Deng, Avishkar Bhoopchand, Lora Aroyo, Tom Duerig, Jordan Griffith, Gabe Barth-Maron, Jake Ades, Alex Haig, Ankur Taly, Yunting Song, Paul Michel, Dave Orr, Dean Weesner, Corentin Tallec, Carrie Grimes Bostock, Paul Niemczyk, Andy Twigg, Mudit Verma, Rohith Vallu, Henry Wang, Marco Gelmi, Kiranbir Sodhia, Aleksandr Chuklin, Omer Goldman, Jasmine George, Liang Bai, Kelvin Zhang, Petar Sirkovic, Efrat Nehoran, Golan Pundak, Jiaqi Mu, Alice Chen, Alex Greve, Paulo Zacchello, David Amos, Heming Ge, Eric Noland, Colton Bishop, Jeffrey Dudek, Youhei Namiki, Elena Buchatskaya, Jing Li, Dorsa Sadigh, Masha Samsikova, Dan Malkin, Damien Vincent, Robert David, Rob Willoughby, Phoenix Meadowlark, Shawn Gao, Yan Li, Raj Apte, Amit Jhindal, Stein Xudong Lin, Alex Polozov, Zhicheng Wang, Tomas Mery, Anirudh GP, Varun Yerram, Sage Stevens, Tianqi Liu, Noah Fiedel, Charles Sutton, Matthew Johnson, Xiaodan Song, Kate Baumli, Nir Shabat, Muqthar Mohammad, Hao Liu, Marco Selvi, Yichao Zhou, Mehdi Hafezi Manshadi, Chu-ling Ko, Anthony Chen, Michael Bendersky, Jorge Gonzalez Mendez, Nisarg Kothari, Amir Zandieh, Yiling Huang, Daniel Andor, Ellie Pavlick, Idan Brusilovsky, Jitendra Harlalka, Sally Goldman, Andrew Lampinen, Guowang Li, Asahi Ushio, Somit Gupta, Lei Zhang, Chuyuan Kelly Fu, Madhavi Sewak, Timo Denk, Jed Borovik, Brendan Jou, Avital Zipori, Prateek Jain, Junwen Bai, Thang Luong, Jonathan Tompson, Alice Li, Li Liu, George Powell, Jiajun Shen, Alex Feng, Grishma Chole, Da Yu, Yinlam Chow, Tongxin Yin, Eric Malmi, Kefan Xiao, Yash Pande, Shachi Paul, Niccolò Dal Santo, Adil Dostmohamed, Sergio Guadarrama, Aaron Phillips, Thanumalayan Sankaranarayana Pillai, Gal Yona, Amin Ghafouri, Preethi Lahoti, Benjamin Lee, Dhruv Madeka, Eren Sezener, Simon Tokumine, Adrian Collister, Nicola De Cao, Richard Shin, Uday Kalra, Parker Beak, Emily Nottage, Ryo Nakashima, Ivan Jurin, Vikash Sehwag, Meenu Gaba, Junhao Zeng, Kevin R. McKee, Fernando Pereira, Tamar Yakar, Amayika Panda, Arka Dhar, Peilin Zhong, Daniel Sohn, Mark Brand, Lars Lowe Sjoesund, Viral Carpenter, Sharon Lin, Shantanu Thakoor, Marcus Wainwright, Ashwin Chaugule, Pranesh Srinivasan, Muye Zhu, Bernett Orlando, Jack Weber, Ayzaan Wahid, Gilles Baechler, Apurv Suman, Jovana Mitrović, Gabe Taubman, Honglin Yu, Helen King, Josh Dillon, Cathy Yip, Dhriti Varma, Tomas Izo, Levent Bolelli, Borja De Balle Pigem, Julia Di Trapani, Fotis Iliopoulos, Adam Paszke, Nishant Ranka, Joe Zou, Francesco Pongetti, Jed McGiffin, Alex Siegman, Rich Galt, Ross Hemsley, Goran Žužić, Victor Carbune, Tao Li, Myle Ott, Félix de Chaumont Quitry, David Vilar Torres, Yuri Chervonyi, Tomy Tsai, Prem Eruvbetine, Samuel Yang, Matthew Denton, Jake Walker, Slavica Andačić, Idan Heimlich Shtacher, Vittal Premachandran, Harshal Tushar Lehri, Cip Baetu, Damion Yates, Lampros Lamprou, Mariko Iinuma, Ioana Mihailescu, Ben Albrecht, Shachi Dave, Susie Sargsyan, Bryan Perozzi, Lucas Manning, Chiyuan Zhang, Denis Vnukov, Igor Mordatch, Raia Hadsell Wolfgang Macherey, Ryan Kappedal, Jim Stephan, Aditya Tripathi, Klaus Macherey, Jun Qian, Abhishek Bhowmick, Shekoofeh Azizi, Rémi Leblond, Shiva Mohan Reddy Garlapati, Timothy Knight, Matthew Wiethoff, Wei-Chih Hung, Anelia Angelova, Georgios Evangelopoulos, Pawel Janus, Dimitris Paparas, Matthew Rahtz, Ken Caluwaerts, Vivek Sampathkumar, Daniel Jarrett, Shadi Noghabi, Antoine Miech, Chak Yeung, Geoff Clark, Henry Prior, Fei Zheng, Jean Pouget-Abadie, Indro Bhattacharya, Kalpesh Krishna, Will Bishop, Zhe Yuan, Yunxiao Deng, Ashutosh Sathe, Kacper Krasowiak, Ciprian Chelba, Cho-Jui Hsieh, Kiran Vodrahalli, Buhuang Liu, Thomas Köppe, Amr Khalifa, Lubo Litchev, Pichi Charoenpanit, Reed Roberts, Sachin Yadav, Yasumasa Onoe, Desi Ivanov, Megha Mohabey, Vighnesh Birodkar, Nemanja Rakićević, Pierre Sermanet, Vaibhav Mehta, Krishan Subudhi, Travis Choma, Will Ng, Luheng He, Kathie Wang, Tasos Kementsietsidis, Shane Gu, Mansi Gupta, Andrew Nystrom, Mehran Kazemi, Timothy Chung, Nacho Cano, Nikhil Dhawan, Yufei Wang, Jiawei Xia, Trevor Yacovone, Eric Jia, Mingqing Chen, Simeon Ivanov, Ashrith Sheshan, Sid Dalmia, Paweł Stradomski, Pengcheng Yin, Salem Haykal, Congchao Wang, Dennis Duan, Neslihan Bulut, Greg Kochanski, Liam MacDermed, Namrata Godbole, Shitao Weng, Jingjing Chen, Rachana Fellinger, Ramin Mehran, Daniel Suo, Hisham Husain, Tong He, Kaushal Patel, Joshua Howland, Randall Parker, Kelvin Nguyen, Sharath Maddineni, Chris Rawles, Mina Khan, Shlomi Cohen-Ganor, Amol Mandhane, Xinyi Wu, Chenkai Kuang, Iulia Comşa, Ramya Ganeshan, Hanie Sedghi, Adam Bloniarz, Nuo Wang Pierse, Anton Briukhov, Petr Mitrichev, Anita Gergely, Serena Zhan, Allan Zhou, Nikita Saxena, Eva Lu, Josef Dean, Ashish Gupta, Nicolas Perez-Nieves, Renjie Wu, Cory McLean, Wei Liang, Disha Jindal, Anton Tsitsulin, Wenhao Yu, Kaiz Alarakyia, Tom Schaul, Piyush Patil, Peter Sung, Elijah Peake, Hongkun Yu, Feryal Behbahani, JD Co-Reyes, Alan Ansell, Sean Sun, Clara Barbu, Jonathan Lee, Seb Noury, James Allingham, Bilal Piot, Mohit Sharma, Christopher Yew, Ivan Korotkov, Bibo Xu, Demetra Brady, Goran Petrovic, Shibl Mourad, Claire Cui, Aditya Gupta, Parker Schuh, Saarthak Khanna, Anna Goldie, Abhinav Arora, Vadim Zubov, Amy Stuart, Mark Epstein, Yun Zhu, Jianqiao Liu, Yury Stuken, Ziyue Wang, Karolis Misiunas, Dee Guo, Ashleah Gill, Ale Hartman, Zaid Nabulsi, Aurko Roy, Aleksandra Faust, Jason Riesa, Ben Withbroe, Mengchao Wang, Marco Tagliasacchi, Andreea Marzoca, James Noraky, Serge Toropov, Malika Mehrotra, Bahram Raad, Sanja Deur, Steve Xu, Marianne Monteiro, Zhongru Wu, Yi Luan, Sam Ritter, Nick Li, Håvard Garnes, Yanzhang He, Martin Zlocha, Jifan Zhu, Matteo Hessel, Will Wu, Spandana Raj Babbula, Chizu Kawamoto, Yuanzhen Li, Mehadi Hassen, Yan Wang, Brian Wieder, James Freedman, Yin Zhang, Xinyi Bai, Tianli Yu, David Reitter, XiangHai Sheng, Mateo Wirth, Aditya Kini, Dima Damen, Mingcen Gao, Rachel Hornung, Michael Voznesensky, Brian Roark, Adhi Kuncoro, Yuxiang Zhou, Rushin Shah, Anthony Brohan, Kuangyuan Chen, James Wendt, David Rim, Paul Kishan Rubenstein, Jonathan Halcrow, Michelle Liu, Ty Geri, Yunhsuan Sung, Jane Shapiro, Shaan Bijwadia, Chris Duvarney, Christina Sorokin, Paul Natsev, Reeve Ingle, Pramod Gupta, Young Maeng, Ndaba Ndebele, Kexin Zhu, Valentin Anklin, Katherine Lee, Yuan Liu, Yaroslav Akulov, Shaleen Gupta, Guolong Su, Flavien Prost, Tianlin Liu, Vitaly Kovalev, Pol Moreno, Martin Scholz, Sam Redmond, Zongwei Zhou, Alex Castro-Ros, André Susano Pinto, Dia Kharrat, Michal Yarom, Rachel Saputro, Jannis Bulian, Ben Caine, Ji Liu, Abbas Abdolmaleki, Shariq Iqbal, Tautvydas Misiunas, Mikhail Sirotenko, Shefali Garg, Guy Bensky, Huan Gui, Xuezhi Wang, Raphael Koster, Mike Bernico, Da Huang, Romal Thoppilan, Trevor Cohn, Ben Golan, Wenlei Zhou, Andrew Rosenberg, Markus Freitag, Tynan Gangwani, Vincent Tsang, Anand Shukla, Xiaoqi Ren, Minh Giang, Chi Zou, Andre Elisseeff, Charline Le Lan, Dheeru Dua, Shuba Lall, Pranav Shyam, Frankie Garcia, Sarah Nguyen, Michael Guzman, AJ Maschinot, Marcello Maggioni, Ming-Wei Chang, Karol Gregor, Lotte Weerts, Kumaran Venkatesan, Bogdan Damoc, Leon Liu, Jan Wassenberg, Lewis Ho, Becca Roelofs, Majid Hadian, François-Xavier Aubet, Yu Liang, Sami Lachgar, Danny Karmon, Yong Cheng, Amelio Vázquez-Reina, Angie Chen, Zhuyun Dai, Andy Brock, Shubham Agrawal, Chenxi Pang, Peter Garst, Mariella Sanchez-Vargas, Ivor Rendulic, Aditya Ayyar, Andrija Ražnatović, Olivia Ma, Roopali Vij, Neha Sharma, Ashwin Balakrishna, Bingyuan Liu, Ian Mackinnon, Sorin Baltateanu, Petra Poklukar, Gabriel Ibagon, Colin Ji, Hongyang Jiao, Isaac Noble, Wojciech Stokowiec, Zhihao Li, Jeff Dean, David Lindner, Mark Omernick, Kristen Chiafullo, Mason Dimarco, Vitor Rodrigues, Vittorio Selo, Garrett Honke, Xintian, Wu, Wei He, Adam Hillier, Anhad Mohananey, Vihari Piratla, Chang Ye, Chase Malik, Sebastian Riedel, Samuel Albanie, Zi Yang, Kenny Vassigh, Maria Bauza, Sheng Li, Yiqing Tao, Nevan Wichers, Andrii Maksai, Abe Ittycheriah, Ross Mcilroy, Bryan Seybold, Noah Goodman, Romina Datta, Steven M. Hernandez, Tian Shi, Yony Kochinski, Anna Bulanova, Ken Franko, Mikita Sazanovich, Nicholas FitzGerald, Praneeth Kacham, Shubha Srinivas Raghvendra, Vincent Hellendoorn, Alexander Grushetsky, Julian Salazar, Angeliki Lazaridou, Jason Chang, Jan-Thorsten Peter, Sushant Kafle, Yann Dauphin, Abhishek Rao, Filippo Graziano, Izhak Shafran, Yuguo Liao, Tianli Ding, Geng Yan, Grace Chu, Zhao Fu, Vincent Roulet, Gabriel Rasskin, Duncan Williams, Shahar Drath, Alex Mossin, Raphael Hoffmann, Jordi Orbay, Francesco Bertolini, Hila Sheftel, Justin Chiu, Siyang Xue, Yuheng Kuang, Ferjad Naeem, Swaroop Nath, Nana Nti, Phil Culliton, Kashyap Krishnakumar, Michael Isard, Pei Sun, Ayan Chakrabarti, Nathan Clement, Regev Cohen, Arissa Wongpanich, GS Oh, Ashwin Murthy, Hao Zheng, Jessica Hamrick, Oskar Bunyan, Suhas Ganesh, Nitish Gupta, Roy Frostig, John Wieting, Yury Malkov, Pierre Marcenac, Zhixin, Lai, Xiaodan Tang, Mohammad Saleh, Fedir Zubach, Chinmay Kulkarni, Huanjie Zhou, Vicky Zayats, Nan Ding, Anshuman Tripathi, Arijit Pramanik, Patrik Zochbauer, Harish Ganapathy, Vedant Misra, Zach Behrman, Hugo Vallet, Mingyang Zhang, Mukund Sridhar, Ye Jin, Mohammad Babaeizadeh, Siim Põder, Megha Goel, Divya Jain, Tajwar Nasir, Shubham Mittal, Tim Dozat, Diego Ardila, Aliaksei Severyn, Fabio Pardo, Sammy Jerome, Siyang Qin, Louis Rouillard, Amir Yazdanbakhsh, Zizhao Zhang, Shivani Agrawal, Kaushik Shivakumar, Caden Lu, Praveen Kallakuri, Rachita Chhaparia, Kanishka Rao, Charles Kwong, Asya Fadeeva, Shitij Nigam, Yan Virin, Yuan Zhang, Balaji Venkatraman, Beliz Gunel, Marc Wilson, Huiyu Wang, Abhinav Gupta, Xiaowei Xu, Adrien Ali Taïga, Kareem Mohamed, Doug Fritz, Daniel Rodriguez, Zoubin Ghahramani, Harry Askham, Lior Belenki, James Zhao, Rahul Gupta, Krzysztof Jastrzębski, Takahiro Kosakai, Kaan Katircioglu, Jon Schneider, Rina Panigrahy, Konstantinos Bousmalis, Peter Grabowski, Prajit Ramachandran, Chaitra Hegde, Mihaela Rosca, Angelo Scorza Scarpati, Kyriakos Axiotis, Ying Xu, Zach Gleicher, Assaf Hurwitz Michaely, Mandar Sharma, Sanil Jain, Christoph Hirnschall, Tal Marian, Xuhui Jia, Kevin Mather, Kilol Gupta, Linhai Qiu, Nigamaa Nayakanti, Lucian Ionita, Steven Zheng, Lucia Loher, Kurt Shuster, Igor Petrovski, Roshan Sharma, Rahma Chaabouni, Angel Yeh, James An, Arushi Gupta, Steven Schwarcz, Seher Ellis, Sam Conway-Rahman, Javier Snaider, Alex Zhai, James Atwood, Daniel Golovin, Liqian Peng, Te I, Vivian Xia, Salvatore Scellato, Mahan Malihi, Arthur Bražinskas, Vlad-Doru Ion, Younghoon Jun, James Swirhun, Soroosh Mariooryad, Jiao Sun, Steve Chien, Rey Coaguila, Ariel Brand, Yi Gao, Tom Kwiatkowski, Roee Aharoni, Cheng-Chun Lee, Mislav Žanić, Yichi Zhang, Dan Ethier, Vitaly Nikolaev, Pranav Nair, Yoav Ben Shalom, Hen Fitoussi, Jai Gupta, Hongbin Liu, Dee Cattle, Tolga Bolukbasi, Ben Murdoch, Fantine Huot, Yin Li, Chris Hahn

424

En este informe, presentamos la familia de modelos Gemini 2.X: Gemini 2.5 Pro y Gemini 2.5 Flash, así como nuestros modelos anteriores Gemini 2.0 Flash y Flash-Lite. Gemini 2.5 Pro es nuestro modelo más avanzado hasta la fecha, logrando un rendimiento de vanguardia (SoTA) en benchmarks de codificación y razonamiento. Además de sus increíbles habilidades de codificación y razonamiento, Gemini 2.5 Pro es un modelo de pensamiento que sobresale en la comprensión multimodal y ahora es capaz de procesar hasta 3 horas de contenido de video. Su combinación única de contexto extenso, capacidades multimodales y de razonamiento puede integrarse para desbloquear nuevos flujos de trabajo agentivos. Gemini 2.5 Flash ofrece excelentes habilidades de razonamiento con una fracción de los requisitos de cómputo y latencia, mientras que Gemini 2.0 Flash y Flash-Lite proporcionan un alto rendimiento con baja latencia y costo. En conjunto, la generación de modelos Gemini 2.X abarca toda la frontera de Pareto de capacidad del modelo frente al costo, permitiendo a los usuarios explorar los límites de lo posible en la resolución de problemas agentivos complejos.

Direccionamiento de la Caché KV para Inducir Razonamiento en Modelos de Lenguaje Pequeños
KV Cache Steering for Inducing Reasoning in Small Language Models

Jul 11, 2025

Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano

333

Proponemos la dirección de caché, un método ligero para la dirección implícita de modelos de lenguaje mediante una intervención de un solo paso aplicada directamente a la caché de clave-valor. Para validar su efectividad, aplicamos la dirección de caché para inducir razonamiento en cadena en modelos de lenguaje pequeños. Nuestro enfoque aprovecha trazas de razonamiento generadas por GPT-4o para construir vectores de dirección que modifican el comportamiento del modelo hacia un razonamiento más explícito y de múltiples pasos, sin necesidad de ajustes finos o modificaciones en las indicaciones. Las evaluaciones experimentales en diversos puntos de referencia de razonamiento demuestran que la dirección de caché mejora tanto la estructura cualitativa del razonamiento del modelo como el rendimiento cuantitativo en las tareas. En comparación con técnicas previas de dirección de activación que requieren intervenciones continuas, nuestra dirección de caché de un solo paso ofrece ventajas sustanciales en términos de estabilidad de hiperparámetros, eficiencia en tiempo de inferencia y facilidad de integración, convirtiéndola en una solución más robusta y práctica para la generación controlada.

Lumos-1: Sobre la generación autoregresiva de vídeo desde una perspectiva de modelo unificado
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Jul 11, 2025

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang

252

Los modelos de lenguaje autoregresivos de gran escala (LLMs, por sus siglas en inglés) han unificado una amplia gama de tareas de lenguaje, inspirando esfuerzos preliminares en la generación autoregresiva de videos. Los generadores de video autoregresivos existentes o bien se desvían de las arquitecturas estándar de LLMs, dependen de codificadores de texto externos voluminosos, o incurren en una latencia prohibitiva debido a la decodificación de tokens siguientes. En este artículo, presentamos Lumos-1, un generador de video autoregresivo que conserva la arquitectura de los LLMs con modificaciones arquitectónicas mínimas. Para inyectar correlaciones espacio-temporales en los LLMs, identificamos la eficacia de incorporar 3D RoPE y diagnosticamos sus rangos desequilibrados del espectro de frecuencias. Por lo tanto, proponemos MM-RoPE, un esquema de RoPE que preserva el RoPE textual original mientras proporciona espectros de frecuencias completos y posiciones 3D escaladas para modelar datos espacio-temporales multimodales. Además, Lumos-1 recurre a una estrategia de dependencia de tokens que obedece a la bidireccionalidad intra-cuadro y a la causalidad temporal inter-cuadro. Basándonos en esta estrategia de dependencia, identificamos el problema del desequilibrio de pérdida por cuadro causado por la redundancia de información espacial y lo resolvemos proponiendo Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduce enmascaramiento de tubos temporales durante el entrenamiento con una política de enmascaramiento compatible en tiempo de inferencia para evitar la degradación de la calidad. Utilizando técnicas de entrenamiento eficientes en memoria, preentrenamos Lumos-1 en solo 48 GPUs, logrando un rendimiento comparable a EMU3 en GenEval, COSMOS-Video2World en VBench-I2V y OpenSoraPlan en VBench-T2V. El código y los modelos están disponibles en https://github.com/alibaba-damo-academy/Lumos.

Un solo token para engañar a LLM-como-juez
One Token to Fool LLM-as-a-Judge

Jul 11, 2025

Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu

253

Los modelos generativos de recompensa (también conocidos como LLMs-como-jueces), que utilizan modelos de lenguaje de gran escala (LLMs) para evaluar la calidad de las respuestas, están siendo adoptados cada vez más en el aprendizaje por refuerzo con recompensas verificables (RLVR). A menudo se prefieren sobre métricas rígidas basadas en reglas, especialmente para tareas de razonamiento complejo que involucran salidas de formato libre. En este paradigma, típicamente se solicita a un LLM que compare una respuesta candidata con una referencia de verdad fundamental y asigne una recompensa binaria que indique su corrección. A pesar de la aparente simplicidad de esta tarea de comparación, encontramos que los modelos generativos de recompensa exhiben vulnerabilidades sorprendentes a manipulaciones superficiales: símbolos que no son palabras (por ejemplo, ":" o ".") o frases introductorias de razonamiento como "Proceso de pensamiento:" y "Resolvamos este problema paso a paso" a menudo pueden llevar a recompensas falsas positivas. Demostramos que esta debilidad está ampliamente presente en LLMs, conjuntos de datos y formatos de instrucción, lo que representa una seria amenaza para paradigmas algorítmicos centrales que dependen de modelos generativos de recompensa, como el muestreo por rechazo, la optimización de preferencias y RLVR. Para mitigar este problema, introducimos una estrategia de aumento de datos simple pero efectiva y entrenamos un nuevo modelo generativo de recompensa con una robustez sustancialmente mejorada. Nuestros hallazgos resaltan la necesidad urgente de métodos de evaluación basados en LLMs más confiables. Publicamos nuestro modelo de recompensa robusto y de dominio general, junto con sus datos de entrenamiento sintéticos, en https://huggingface.co/sarosavo/Master-RM y https://huggingface.co/datasets/sarosavo/Master-RM.

Edición de Imágenes Basada en Redes Neuronales
Neural-Driven Image Editing

Jul 7, 2025

Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You

231

La edición tradicional de imágenes generalmente depende de indicaciones manuales, lo que la hace laboriosa e inaccesible para personas con control motor o habilidades lingüísticas limitadas. Aprovechando los avances recientes en interfaces cerebro-computadora (BCI) y modelos generativos, proponemos LoongX, un enfoque de edición de imágenes sin manos impulsado por señales neurofisiológicas multimodales. LoongX utiliza modelos de difusión de última generación entrenados en un conjunto de datos exhaustivo de 23,928 pares de edición de imágenes, cada uno emparejado con señales sincronizadas de electroencefalografía (EEG), espectroscopia funcional de infrarrojo cercano (fNIRS), fotopletismografía (PPG) y movimiento de la cabeza que capturan la intención del usuario. Para abordar eficazmente la heterogeneidad de estas señales, LoongX integra dos módulos clave. El módulo de espacio de estado de escala cruzada (CS3) codifica características informativas específicas de cada modalidad. El módulo de fusión dinámica con compuerta (DGF) agrega estas características en un espacio latente unificado, que luego se alinea con la semántica de la edición mediante ajuste fino en un transformador de difusión (DiT). Además, preentrenamos los codificadores utilizando aprendizaje contrastivo para alinear los estados cognitivos con las intenciones semánticas del lenguaje natural incrustado. Experimentos extensos demuestran que LoongX logra un rendimiento comparable a los métodos basados en texto (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) y los supera cuando las señales neurales se combinan con el habla (CLIP-T: 0.2588 vs. 0.2549). Estos resultados resaltan el potencial de los modelos generativos impulsados por señales neurales para permitir una edición de imágenes accesible e intuitiva, y abren nuevas direcciones para las tecnologías creativas impulsadas por la cognición. Los conjuntos de datos y el código se liberarán para apoyar trabajos futuros y fomentar el progreso en esta área emergente.

De Uno a Varios: Latentes Contextuales de Partes para la Generación 3D
From One to More: Contextual Part Latents for 3D Generation

Jul 11, 2025

Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu

162

Los recientes avances en generación 3D han evolucionado desde enfoques de renderizado 2D multi-vista hacia marcos de difusión latente nativos en 3D que aprovechan los priors geométricos en datos de referencia. A pesar del progreso, persisten tres limitaciones clave: (1) Las representaciones de latente único no logran capturar geometrías complejas de múltiples partes, causando degradación de detalles; (2) La codificación latente holística descuida la independencia y las interrelaciones entre partes, cruciales para el diseño compositivo; (3) Los mecanismos de condicionamiento global carecen de controlabilidad de grano fino. Inspirados por los flujos de trabajo de diseño 3D humano, proponemos CoPart: un marco de difusión consciente de partes que descompone objetos 3D en latentes de partes contextuales para la generación coherente de múltiples partes. Este paradigma ofrece tres ventajas: i) Reduce la complejidad de codificación mediante la descomposición en partes; ii) Permite el modelado explícito de relaciones entre partes; iii) Soporta condicionamiento a nivel de parte. Además, desarrollamos una estrategia de guía mutua para ajustar modelos de difusión preentrenados en la eliminación de ruido conjunta de latentes de partes, asegurando tanto coherencia geométrica como priors de modelos base. Para permitir entrenamiento a gran escala, construimos Partverse: un novedoso conjunto de datos de partes 3D derivado de Objaverse mediante segmentación automática de mallas y anotaciones verificadas por humanos. Experimentos extensivos demuestran las capacidades superiores de CoPart en edición a nivel de parte, generación de objetos articulados y composición de escenas con una controlabilidad sin precedentes.

BlockFFN: Hacia una Mezcla de Expertos Amigable con la Aceleración en el Lado del Extremo mediante Esparcidad de Activación a Nivel de Fragmentos
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Jul 11, 2025

Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Yuxuan Li, Zhiyuan Liu, Maosong Sun

Para aliviar la carga computacional de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), las arquitecturas con esparcidad de activación, representadas por la mezcla de expertos (MoE, por sus siglas en inglés), han atraído una atención creciente. Sin embargo, el enrutamiento no diferenciable e inflexible del MoE básico perjudica el rendimiento del modelo. Además, aunque cada token activa solo unos pocos parámetros, estas arquitecturas de activación dispersa exhiben una baja esparcidad a nivel de fragmento, lo que indica que la unión de múltiples tokens consecutivos activa una gran proporción de parámetros. Este patrón de esparcidad no es favorable para la aceleración en condiciones de recursos limitados (por ejemplo, dispositivos del lado del usuario) y es incompatible con las técnicas de aceleración más comunes (por ejemplo, decodificación especulativa). Para abordar estos desafíos, presentamos una nueva arquitectura MoE, BlockFFN, junto con sus técnicas eficientes de entrenamiento y despliegue. Específicamente, utilizamos un enrutador que integra la activación ReLU y RMSNorm para un enrutamiento diferenciable y flexible. A continuación, para promover tanto la esparcidad a nivel de token (TLS, por sus siglas en inglés) como la esparcidad a nivel de fragmento (CLS, por sus siglas en inglés), se diseñan objetivos de entrenamiento conscientes de CLS, haciendo que BlockFFN sea más amigable para la aceleración. Finalmente, implementamos núcleos de aceleración eficientes, combinando por primera vez la esparcidad de activación y la decodificación especulativa. Los resultados experimentales demuestran el rendimiento superior de BlockFFN sobre otras líneas base de MoE, logrando más del 80% de TLS y 70% de CLS para 8 tokens. Nuestros núcleos alcanzan una aceleración de hasta 3.67 veces en dispositivos reales del lado del usuario en comparación con modelos densos. Todos los códigos y puntos de control están disponibles públicamente (https://github.com/thunlp/BlockFFN).

Audio Flamingo 3: Avanzando en la Inteligencia Auditiva con Modelos de Lenguaje de Audio Grandes y Completamente Abiertos
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

Jul 10, 2025

Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro

Presentamos Audio Flamingo 3 (AF3), un modelo de lenguaje-audio grande de última generación (SOTA) completamente abierto que avanza en el razonamiento y la comprensión a través del habla, el sonido y la música. AF3 introduce: (i) AF-Whisper, un codificador de audio unificado entrenado mediante una estrategia novedosa para el aprendizaje de representaciones conjuntas en las 3 modalidades de habla, sonido y música; (ii) pensamiento flexible bajo demanda, permitiendo que el modelo realice razonamientos tipo cadena de pensamiento antes de responder; (iii) chat multi-turn y multi-audio; (iv) comprensión y razonamiento de audio largo (incluyendo habla) de hasta 10 minutos; y (v) interacción de voz a voz. Para habilitar estas capacidades, proponemos varios conjuntos de datos de entrenamiento a gran escala curados mediante estrategias novedosas, incluyendo AudioSkills-XL, LongAudio-XL, AF-Think y AF-Chat, y entrenamos AF3 con una estrategia de entrenamiento basada en un currículum de cinco etapas. Entrenado únicamente con datos de audio de código abierto, AF3 logra nuevos resultados SOTA en más de 20 benchmarks de comprensión y razonamiento de audio (largo), superando tanto a modelos de pesos abiertos como a modelos cerrados entrenados con conjuntos de datos mucho más grandes.

¿Qué ha descubierto un modelo fundacional? Uso del sesgo inductivo para explorar modelos del mundo
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models

Jul 9, 2025

Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan

Los modelos fundamentales se basan en la idea de que la predicción de secuencias puede revelar una comprensión más profunda del dominio, de manera similar a cómo las predicciones de Kepler sobre el movimiento planetario llevaron posteriormente al descubrimiento de la mecánica newtoniana. Sin embargo, evaluar si estos modelos realmente capturan una estructura más profunda sigue siendo un desafío. Desarrollamos una técnica para evaluar modelos fundamentales que examina cómo se adaptan a conjuntos de datos sintéticos generados a partir de un modelo de mundo postulado. Nuestra técnica mide si el sesgo inductivo del modelo fundamental se alinea con el modelo de mundo, por lo que la denominamos como una sonda de sesgo inductivo. En múltiples dominios, encontramos que los modelos fundamentales pueden sobresalir en sus tareas de entrenamiento, pero no logran desarrollar sesgos inductivos hacia el modelo de mundo subyacente cuando se adaptan a nuevas tareas. En particular, observamos que los modelos fundamentales entrenados en trayectorias orbitales consistentemente fallan en aplicar la mecánica newtoniana cuando se adaptan a nuevas tareas de física. Un análisis más detallado revela que estos modelos se comportan como si desarrollaran heurísticas específicas para cada tarea que no logran generalizarse.

Modelos de Lenguaje Multimodales Robustos frente a Conflictos de Modalidad
Robust Multimodal Large Language Models Against Modality Conflict

Jul 9, 2025

Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li

A pesar de las impresionantes capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) en tareas de visión y lenguaje, son propensos a alucinaciones en escenarios del mundo real. Este artículo investiga el fenómeno de la alucinación en MLLMs desde la perspectiva del conflicto de modalidades. A diferencia de trabajos existentes que se centran en los conflictos entre las respuestas del modelo y las entradas, estudiamos los conflictos inherentes en las entradas de diferentes modalidades que colocan a los MLLMs en un dilema y conducen directamente a alucinaciones. Definimos formalmente el conflicto de modalidades y construimos un conjunto de datos llamado Conflicto de Modalidades Multimodal (MMMC) para simular este fenómeno en tareas de visión y lenguaje. Se proponen tres métodos basados en ingeniería de prompts, ajuste fino supervisado y aprendizaje por refuerzo para mitigar la alucinación causada por el conflicto de modalidades. Se realizan experimentos exhaustivos en el conjunto de datos MMMC para analizar los méritos y deméritos de estos métodos. Nuestros resultados muestran que el método de aprendizaje por refuerzo logra el mejor rendimiento en la mitigación de la alucinación bajo conflicto de modalidades, mientras que el método de ajuste fino supervisado muestra un rendimiento prometedor y estable. Nuestro trabajo arroja luz sobre el conflicto de modalidades inadvertido que conduce a alucinaciones y proporciona más información sobre la robustez de los MLLMs.

Dibuja tus puntos clave: Detección de puntos clave basada en bocetos con pocos ejemplos
Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

Jul 10, 2025

Subhajit Maity, Ayan Kumar Bhunia, Subhadeep Koley, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song

La detección de puntos clave, fundamental para la percepción moderna en aprendizaje automático, enfrenta desafíos en el aprendizaje con pocos ejemplos, especialmente cuando no se dispone de datos de origen provenientes de la misma distribución que la consulta. Esta brecha se aborda aprovechando los bocetos, una forma popular de expresión humana, que ofrecen una alternativa sin necesidad de datos de origen. Sin embargo, surgen desafíos al dominar los embeddings multimodales y al manejar estilos de boceto específicos del usuario. Nuestro marco propuesto supera estos obstáculos con una configuración prototípica, combinada con un localizador basado en cuadrícula y una adaptación de dominio prototípica. También demostramos éxito en la convergencia con pocos ejemplos a través de nuevos puntos clave y clases mediante experimentos exhaustivos.

DOTResize: Reducción del ancho de LLM mediante fusión de neuronas basada en transporte óptimo discreto
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging

Jul 6, 2025

Neha Verma, Kenton Murray, Kevin Duh

La compresión de modelos ofrece una vía prometedora para reducir el costo y la inaccesibilidad de los modelos preentrenados de gran tamaño, sin comprometer significativamente su impresionante rendimiento. Los grandes modelos Transformer, incluidos los modelos de lenguaje extensos (LLMs, por sus siglas en inglés), suelen contener redundancias computacionales, las cuales pueden ser un objetivo para nuevos métodos de compresión de modelos. En este trabajo, nos enfocamos específicamente en las redundancias a nivel de neuronas en las capas del modelo, combinando grupos de neuronas similares en un menor número de neuronas. Enmarcamos esta reducción de ancho como un problema de Transporte Óptimo Discreto y proponemos DOTResize, un novedoso método de compresión de Transformers que utiliza la teoría del transporte óptimo para transformar y comprimir los pesos del modelo. Para garantizar la aplicabilidad dentro de la arquitectura Transformer, integramos y justificamos la regularización entrópica y la factorización de matrices en los mapas de transporte generados por nuestro método. A diferencia de los enfoques basados en poda, que descartan neuronas según medidas de importancia, DOTResize reproyecta todo el ancho de las neuronas, permitiendo la retención y redistribución de señales útiles a través de la capa reducida. Los resultados empíricos muestran que, en comparación con técnicas simples o de vanguardia de poda de ancho de neuronas, DOTResize puede superar estos métodos en múltiples familias y tamaños de LLMs, logrando reducciones medibles en el costo computacional en escenarios reales.

Gemini 2.5: Avanzando la frontera con razonamiento avanzado, multimodalidad, contexto extenso y capacidades agentales de próxima generación
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Jul 7, 2025

424

Papers Diarios

Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo
Test-Time Scaling with Reflective Generative Model

Open Vision Reasoner: Transferencia del Comportamiento Cognitivo Lingüístico para el Razonamiento Visual
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

NeuralOS: Hacia la Simulación de Sistemas Operativos mediante Modelos Generativos Neuronales
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

Modelos de Fundación de Visión como Tokenizadores Visuales Efectivos para la Generación Autoregresiva de Imágenes
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

CLiFT: Tokens Compresivos de Campo de Luz para Renderizado Neural Eficiente en Cómputo y Adaptativo
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Gemini 2.5: Avanzando la frontera con razonamiento avanzado, multimodalidad, contexto extenso y capacidades agentales de próxima generación
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Direccionamiento de la Caché KV para Inducir Razonamiento en Modelos de Lenguaje Pequeños
KV Cache Steering for Inducing Reasoning in Small Language Models

Lumos-1: Sobre la generación autoregresiva de vídeo desde una perspectiva de modelo unificado
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Un solo token para engañar a LLM-como-juez
One Token to Fool LLM-as-a-Judge

Edición de Imágenes Basada en Redes Neuronales
Neural-Driven Image Editing

De Uno a Varios: Latentes Contextuales de Partes para la Generación 3D
From One to More: Contextual Part Latents for 3D Generation

BlockFFN: Hacia una Mezcla de Expertos Amigable con la Aceleración en el Lado del Extremo mediante Esparcidad de Activación a Nivel de Fragmentos
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Audio Flamingo 3: Avanzando en la Inteligencia Auditiva con Modelos de Lenguaje de Audio Grandes y Completamente Abiertos
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

¿Qué ha descubierto un modelo fundacional? Uso del sesgo inductivo para explorar modelos del mundo
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models

Modelos de Lenguaje Multimodales Robustos frente a Conflictos de Modalidad
Robust Multimodal Large Language Models Against Modality Conflict

Dibuja tus puntos clave: Detección de puntos clave basada en bocetos con pocos ejemplos
Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

DOTResize: Reducción del ancho de LLM mediante fusión de neuronas basada en transporte óptimo discreto
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging

Support

Support

Papers Diarios

Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo
Test-Time Scaling with Reflective Generative Model

Open Vision Reasoner: Transferencia del Comportamiento Cognitivo Lingüístico para el Razonamiento Visual
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

NeuralOS: Hacia la Simulación de Sistemas Operativos mediante Modelos Generativos Neuronales
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

Modelos de Fundación de Visión como Tokenizadores Visuales Efectivos para la Generación Autoregresiva de Imágenes
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

CLiFT: Tokens Compresivos de Campo de Luz para Renderizado Neural Eficiente en Cómputo y Adaptativo
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Gemini 2.5: Avanzando la frontera con razonamiento avanzado, multimodalidad, contexto extenso y capacidades agentales de próxima generación
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Direccionamiento de la Caché KV para Inducir Razonamiento en Modelos de Lenguaje Pequeños
KV Cache Steering for Inducing Reasoning in Small Language Models

Lumos-1: Sobre la generación autoregresiva de vídeo desde una perspectiva de modelo unificado
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Un solo token para engañar a LLM-como-juez
One Token to Fool LLM-as-a-Judge

Edición de Imágenes Basada en Redes Neuronales
Neural-Driven Image Editing

De Uno a Varios: Latentes Contextuales de Partes para la Generación 3D
From One to More: Contextual Part Latents for 3D Generation

BlockFFN: Hacia una Mezcla de Expertos Amigable con la Aceleración en el Lado del Extremo mediante Esparcidad de Activación a Nivel de Fragmentos
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Audio Flamingo 3: Avanzando en la Inteligencia Auditiva con Modelos de Lenguaje de Audio Grandes y Completamente Abiertos
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

¿Qué ha descubierto un modelo fundacional? Uso del sesgo inductivo para explorar modelos del mundo
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models

Modelos de Lenguaje Multimodales Robustos frente a Conflictos de Modalidad
Robust Multimodal Large Language Models Against Modality Conflict

Dibuja tus puntos clave: Detección de puntos clave basada en bocetos con pocos ejemplos
Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

DOTResize: Reducción del ancho de LLM mediante fusión de neuronas basada en transporte óptimo discreto
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging