HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

20 papers found

Gemini: Una Famiglia di Modelli Multimodali Altamente Capacitati
Gemini: A Family of Highly Capable Multimodal Models

Dec 19

ByGemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David Silver, Slav Petrov, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Firat, James Molloy, Michael Isard, Paul R. Barham, Tom Hennigan, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, Ryan Doherty, Eli Collins, Clemens Meyer, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, George Tucker, Enrique Piqueras, Maxim Krikun, Iain Barr, Nikolay Savinov, Ivo Danihelka, Becca Roelofs, Anaïs White, Anders Andreassen, Tamara von Glehn, Lakshman Yagati, Mehran Kazemi, Lucas Gonzalez, Misha Khalman, Jakub Sygnowski, Alexandre Frechette, Charlotte Smith, Laura Culp, Lev Proleev, Yi Luan, Xi Chen, James Lottes, Nathan Schucher, Federico Lebron, Alban Rrustemi, Natalie Clay, Phil Crone, Tomas Kocisky, Jeffrey Zhao, Bartek Perz, Dian Yu, Heidi Howard, Adam Bloniarz, Jack W. Rae, Han Lu, Laurent Sifre, Marcello Maggioni, Fred Alcober, Dan Garrette, Megan Barnes, Shantanu Thakoor, Jacob Austin, Gabriel Barth-Maron, William Wong, Rishabh Joshi, Rahma Chaabouni, Deeni Fatiha, Arun Ahuja, Ruibo Liu, Yunxuan Li, Sarah Cogan, Jeremy Chen, Chao Jia, Chenjie Gu, Qiao Zhang, Jordan Grimstad, Ale Jakse Hartman, Martin Chadwick, Gaurav Singh Tomar, Xavier Garcia, Evan Senter, Emanuel Taropa, Thanumalayan Sankaranarayana Pillai, Jacob Devlin, Michael Laskin, Diego de Las Casas, Dasha Valter, Connie Tao, Lorenzo Blanco, Adrià Puigdomènech Badia, David Reitter, Mianna Chen, Jenny Brennan, Clara Rivera, Sergey Brin, Shariq Iqbal, Gabriela Surita, Jane Labanowski, Abhi Rao, Stephanie Winkler, Emilio Parisotto, Yiming Gu, Kate Olszewska, Yujing Zhang, Ravi Addanki, Antoine Miech, Annie Louis, Laurent El Shafey, Denis Teplyashin, Geoff Brown, Elliot Catt, Nithya Attaluri, Jan Balaguer, Jackie Xiang, Pidong Wang, Zoe Ashwood, Anton Briukhov, Albert Webson, Sanjay Ganapathy, Smit Sanghavi, Ajay Kannan, Ming-Wei Chang, Axel Stjerngren, Josip Djolonga, Yuting Sun, Ankur Bapna, Matthew Aitchison, Pedram Pejman, Henryk Michalewski, Tianhe Yu, Cindy Wang, Juliette Love, Junwhan Ahn, Dawn Bloxwich, Kehang Han, Peter Humphreys, Thibault Sellam, James Bradbury, Varun Godbole, Sina Samangooei, Bogdan Damoc, Alex Kaskasoli, Sébastien M. R. Arnold, Vijay Vasudevan, Shubham Agrawal, Jason Riesa, Dmitry Lepikhin, Richard Tanburn, Srivatsan Srinivasan, Hyeontaek Lim, Sarah Hodkinson, Pranav Shyam, Johan Ferret, Steven Hand, Ankush Garg, Tom Le Paine, Jian Li, Yujia Li, Minh Giang, Alexander Neitz, Zaheer Abbas, Sarah York, Machel Reid, Elizabeth Cole, Aakanksha Chowdhery, Dipanjan Das, Dominika Rogozińska, Vitaly Nikolaev, Pablo Sprechmann, Zachary Nado, Lukas Zilka, Flavien Prost, Luheng He, Marianne Monteiro, Gaurav Mishra, Chris Welty, Josh Newlan, Dawei Jia, Miltiadis Allamanis, Clara Huiyi Hu, Raoul de Liedekerke, Justin Gilmer, Carl Saroufim, Shruti Rijhwani, Shaobo Hou, Disha Shrivastava, Anirudh Baddepudi, Alex Goldin, Adnan Ozturel, Albin Cassirer, Yunhan Xu, Daniel Sohn, Devendra Sachan, Reinald Kim Amplayo, Craig Swanson, Dessie Petrova, Shashi Narayan, Arthur Guez, Siddhartha Brahma, Jessica Landon, Miteyan Patel, Ruizhe Zhao, Kevin Villela, Luyu Wang, Wenhao Jia, Matthew Rahtz, Mai Giménez, Legg Yeung, Hanzhao Lin, James Keeling, Petko Georgiev, Diana Mincu, Boxi Wu, Salem Haykal, Rachel Saputro, Kiran Vodrahalli, James Qin, Zeynep Cankara, Abhanshu Sharma, Nick Fernando, Will Hawkins, Behnam Neyshabur, Solomon Kim, Adrian Hutter, Priyanka Agrawal, Alex Castro-Ros, George van den Driessche, Tao Wang, Fan Yang, Shuo-yiin Chang, Paul Komarek, Ross McIlroy, Mario Lučić, Guodong Zhang, Wael Farhan, Michael Sharman, Paul Natsev, Paul Michel, Yong Cheng, Yamini Bansal, Siyuan Qiao, Kris Cao, Siamak Shakeri, Christina Butterfield, Justin Chung, Paul Kishan Rubenstein, Shivani Agrawal, Arthur Mensch, Kedar Soparkar, Karel Lenc, Timothy Chung, Aedan Pope, Loren Maggiore, Jackie Kay, Priya Jhakra, Shibo Wang, Joshua Maynez, Mary Phuong, Taylor Tobin, Andrea Tacchetti, Maja Trebacz, Kevin Robinson, Yash Katariya, Sebastian Riedel, Paige Bailey, Kefan Xiao, Nimesh Ghelani, Lora Aroyo, Ambrose Slone, Neil Houlsby, Xuehan Xiong, Zhen Yang, Elena Gribovskaya, Jonas Adler, Mateo Wirth, Lisa Lee, Music Li, Thais Kagohara, Jay Pavagadhi, Sophie Bridgers, Anna Bortsova, Sanjay Ghemawat, Zafarali Ahmed, Tianqi Liu, Richard Powell, Vijay Bolina, Mariko Iinuma, Polina Zablotskaia, James Besley, Da-Woon Chung, Timothy Dozat, Ramona Comanescu, Xiance Si, Jeremy Greer, Guolong Su, Martin Polacek, Raphaël Lopez Kaufman, Simon Tokumine, Hexiang Hu, Elena Buchatskaya, Yingjie Miao, Mohamed Elhawaty, Aditya Siddhant, Nenad Tomasev, Jinwei Xing, Christina Greer, Helen Miller, Shereen Ashraf, Aurko Roy, Zizhao Zhang, Ada Ma, Angelos Filos, Milos Besta, Rory Blevins, Ted Klimenko, Chih-Kuan Yeh, Soravit Changpinyo, Jiaqi Mu, Oscar Chang, Mantas Pajarskas, Carrie Muir, Vered Cohen, Charline Le Lan, Krishna Haridasan, Amit Marathe, Steven Hansen, Sholto Douglas, Rajkumar Samuel, Mingqiu Wang, Sophia Austin, Chang Lan, Jiepu Jiang, Justin Chiu, Jaime Alonso Lorenzo, Lars Lowe Sjösund, Sébastien Cevey, Zach Gleicher, Thi Avrahami, Anudhyan Boral, Hansa Srinivasan, Vittorio Selo, Rhys May, Konstantinos Aisopos, Léonard Hussenot, Livio Baldini Soares, Kate Baumli, Michael B. Chang, Adrià Recasens, Ben Caine, Alexander Pritzel, Filip Pavetic, Fabio Pardo, Anita Gergely, Justin Frye, Vinay Ramasesh, Dan Horgan, Kartikeya Badola, Nora Kassner, Subhrajit Roy, Ethan Dyer, Víctor Campos, Alex Tomala, Yunhao Tang, Dalia El Badawy, Elspeth White, Basil Mustafa, Oran Lang, Abhishek Jindal, Sharad Vikram, Zhitao Gong, Sergi Caelles, Ross Hemsley, Gregory Thornton, Fangxiaoyu Feng, Wojciech Stokowiec, Ce Zheng, Phoebe Thacker, Çağlar Ünlü, Zhishuai Zhang, Mohammad Saleh, James Svensson, Max Bileschi, Piyush Patil, Ankesh Anand, Roman Ring, Katerina Tsihlas, Arpi Vezer, Marco Selvi, Toby Shevlane, Mikel Rodriguez, Tom Kwiatkowski, Samira Daruki, Keran Rong, Allan Dafoe, Nicholas FitzGerald, Keren Gu-Lemberg, Mina Khan, Lisa Anne Hendricks, Marie Pellat, Vladimir Feinberg, James Cobon-Kerr, Tara Sainath, Maribeth Rauh, Sayed Hadi Hashemi, Richard Ives, Yana Hasson, YaGuang Li, Eric Noland, Yuan Cao, Nathan Byrd, Le Hou, Qingze Wang, Thibault Sottiaux, Michela Paganini, Jean-Baptiste Lespiau, Alexandre Moufarek, Samer Hassan, Kaushik Shivakumar, Joost van Amersfoort, Amol Mandhane, Pratik Joshi, Anirudh Goyal, Matthew Tung, Andrew Brock, Hannah Sheahan, Vedant Misra, Cheng Li, Nemanja Rakićević, Mostafa Dehghani, Fangyu Liu, Sid Mittal, Junhyuk Oh, Seb Noury, Eren Sezener, Fantine Huot, Matthew Lamm, Nicola De Cao, Charlie Chen, Gamaleldin Elsayed, Ed Chi, Mahdis Mahdieh, Ian Tenney, Nan Hua, Ivan Petrychenko, Patrick Kane, Dylan Scandinaro, Rishub Jain, Jonathan Uesato, Romina Datta, Adam Sadovsky, Oskar Bunyan, Dominik Rabiej, Shimu Wu, John Zhang, Gautam Vasudevan, Edouard Leurent, Mahmoud Alnahlawi, Ionut Georgescu, Nan Wei, Ivy Zheng, Betty Chan, Pam G Rabinovitch, Piotr Stanczyk, Ye Zhang, David Steiner, Subhajit Naskar, Michael Azzam, Matthew Johnson, Adam Paszke, Chung-Cheng Chiu, Jaume Sanchez Elias, Afroz Mohiuddin, Faizan Muhammad, Jin Miao, Andrew Lee, Nino Vieillard, Sahitya Potluri, Jane Park, Elnaz Davoodi, Jiageng Zhang, Jeff Stanway, Drew Garmon, Abhijit Karmarkar, Zhe Dong, Jong Lee, Aviral Kumar, Luowei Zhou, Jonathan Evens, William Isaac, Zhe Chen, Johnson Jia, Anselm Levskaya, Zhenkai Zhu, Chris Gorgolewski, Peter Grabowski, Yu Mao, Alberto Magni, Kaisheng Yao, Javier Snaider, Norman Casagrande, Paul Suganthan, Evan Palmer, Geoffrey Irving, Edward Loper, Manaal Faruqui, Isha Arkatkar, Nanxin Chen, Izhak Shafran, Michael Fink, Alfonso Castaño, Irene Giannoumis, Wooyeol Kim, Mikołaj Rybiński, Ashwin Sreevatsa, Jennifer Prendki, David Soergel, Adrian Goedeckemeyer, Willi Gierke, Mohsen Jafari, Meenu Gaba, Jeremy Wiesner, Diana Gage Wright, Yawen Wei, Harsha Vashisht, Yana Kulizhskaya, Jay Hoover, Maigo Le, Lu Li, Chimezie Iwuanyanwu, Lu Liu, Kevin Ramirez, Andrey Khorlin, Albert Cui, Tian LIN, Marin Georgiev, Marcus Wu, Ricardo Aguilar, Keith Pallo, Abhishek Chakladar, Alena Repina, Xihui Wu, Tom van der Weide, Priya Ponnapalli, Caroline Kaplan, Jiri Simsa, Shuangfeng Li, Olivier Dousse, Fan Yang, Jeff Piper, Nathan Ie, Minnie Lui, Rama Pasumarthi, Nathan Lintz, Anitha Vijayakumar, Lam Nguyen Thiet, Daniel Andor, Pedro Valenzuela, Cosmin Paduraru, Daiyi Peng, Katherine Lee, Shuyuan Zhang, Somer Greene, Duc Dung Nguyen, Paula Kurylowicz, Sarmishta Velury, Sebastian Krause, Cassidy Hardin, Lucas Dixon, Lili Janzer, Kiam Choo, Ziqiang Feng, Biao Zhang, Achintya Singhal, Tejasi Latkar, Mingyang Zhang, Quoc Le, Elena Allica Abellan, Dayou Du, Dan McKinnon, Natasha Antropova, Tolga Bolukbasi, Orgad Keller, David Reid, Daniel Finchelstein, Maria Abi Raad, Remi Crocker, Peter Hawkins, Robert Dadashi, Colin Gaffney, Sid Lall, Ken Franko, Egor Filonov, Anna Bulanova, Rémi Leblond, Vikas Yadav, Shirley Chung, Harry Askham, Luis C. Cobo, Kelvin Xu, Felix Fischer, Jun Xu, Christina Sorokin, Chris Alberti, Chu-Cheng Lin, Colin Evans, Hao Zhou, Alek Dimitriev, Hannah Forbes, Dylan Banarse, Zora Tung, Jeremiah Liu, Mark Omernick, Colton Bishop, Chintu Kumar, Rachel Sterneck, Ryan Foley, Rohan Jain, Swaroop Mishra, Jiawei Xia, Taylor Bos, Geoffrey Cideron, Ehsan Amid, Francesco Piccinno, Xingyu Wang, Praseem Banzal, Petru Gurita, Hila Noga, Premal Shah, Daniel J. Mankowitz, Alex Polozov, Nate Kushman, Victoria Krakovna, Sasha Brown, MohammadHossein Bateni, Dennis Duan, Vlad Firoiu, Meghana Thotakuri, Tom Natan, Anhad Mohananey, Matthieu Geist, Sidharth Mudgal, Sertan Girgin, Hui Li, Jiayu Ye, Ofir Roval, Reiko Tojo, Michael Kwong, James Lee-Thorp, Christopher Yew, Quan Yuan, Sumit Bagri, Danila Sinopalnikov, Sabela Ramos, John Mellor, Abhishek Sharma, Aliaksei Severyn, Jonathan Lai, Kathy Wu, Heng-Tze Cheng, David Miller, Nicolas Sonnerat, Denis Vnukov, Rory Greig, Jennifer Beattie, Emily Caveness, Libin Bai, Julian Eisenschlos, Alex Korchemniy, Tomy Tsai, Mimi Jasarevic, Weize Kong, Phuong Dao, Zeyu Zheng, Frederick Liu, Fan Yang, Rui Zhu, Mark Geller, Tian Huey Teh, Jason Sanmiya, Evgeny Gladchenko, Nejc Trdin, Andrei Sozanschi, Daniel Toyama, Evan Rosen, Sasan Tavakkol, Linting Xue, Chen Elkind, Oliver Woodman, John Carpenter, George Papamakarios, Rupert Kemp, Sushant Kafle, Tanya Grunina, Rishika Sinha, Alice Talbert, Abhimanyu Goyal, Diane Wu, Denese Owusu-Afriyie, Cosmo Du, Chloe Thornton, Jordi Pont-Tuset, Pradyumna Narayana, Jing Li, Sabaer Fatehi, John Wieting, Omar Ajmeri, Benigno Uria, Tao Zhu, Yeongil Ko, Laura Knight, Amélie Héliou, Ning Niu, Shane Gu, Chenxi Pang, Dustin Tran, Yeqing Li, Nir Levine, Ariel Stolovich, Norbert Kalb, Rebeca Santamaria-Fernandez, Sonam Goenka, Wenny Yustalim, Robin Strudel, Ali Elqursh, Balaji Lakshminarayanan, Charlie Deck, Shyam Upadhyay, Hyo Lee, Mike Dusenberry, Zonglin Li, Xuezhi Wang, Kyle Levin, Raphael Hoffmann, Dan Holtmann-Rice, Olivier Bachem, Summer Yue, Sho Arora, Eric Malmi, Daniil Mirylenka, Qijun Tan, Christy Koh, Soheil Hassas Yeganeh, Siim Põder, Steven Zheng, Francesco Pongetti, Mukarram Tariq, Yanhua Sun, Lucian Ionita, Mojtaba Seyedhosseini, Pouya Tafti, Ragha Kotikalapudi, Zhiyu Liu, Anmol Gulati, Jasmine Liu, Xinyu Ye, Bart Chrzaszcz, Lily Wang, Nikhil Sethi, Tianrun Li, Ben Brown, Shreya Singh, Wei Fan, Aaron Parisi, Joe Stanton, Chenkai Kuang, Vinod Koverkathu, Christopher A. Choquette-Choo, Yunjie Li, TJ Lu, Abe Ittycheriah, Prakash Shroff, Pei Sun, Mani Varadarajan, Sanaz Bahargam, Rob Willoughby, David Gaddy, Ishita Dasgupta, Guillaume Desjardins, Marco Cornero, Brona Robenek, Bhavishya Mittal, Ben Albrecht, Ashish Shenoy, Fedor Moiseev, Henrik Jacobsson, Alireza Ghaffarkhah, Morgane Rivière, Alanna Walton, Clément Crepy, Alicia Parrish, Yuan Liu, Zongwei Zhou, Clement Farabet, Carey Radebaugh, Praveen Srinivasan, Claudia van der Salm, Andreas Fidjeland, Salvatore Scellato, Eri Latorre-Chimoto, Hanna Klimczak-Plucińska, David Bridson, Dario de Cesare, Tom Hudson, Piermaria Mendolicchio, Lexi Walker, Alex Morris, Ivo Penchev, Matthew Mauger, Alexey Guseynov, Alison Reid, Seth Odoom, Lucia Loher, Victor Cotruta, Madhavi Yenugula, Dominik Grewe, Anastasia Petrushkina, Tom Duerig, Antonio Sanchez, Steve Yadlowsky, Amy Shen, Amir Globerson, Adam Kurzrok, Lynette Webb, Sahil Dua, Dong Li, Preethi Lahoti, Surya Bhupatiraju, Dan Hurt, Haroon Qureshi, Ananth Agarwal, Tomer Shani, Matan Eyal, Anuj Khare, Shreyas Rammohan Belle, Lei Wang, Chetan Tekur, Mihir Sanjay Kale, Jinliang Wei, Ruoxin Sang, Brennan Saeta, Tyler Liechty, Yi Sun, Yao Zhao, Stephan Lee, Pandu Nayak, Doug Fritz, Manish Reddy Vuyyuru, John Aslanides, Nidhi Vyas, Martin Wicke, Xiao Ma, Taylan Bilal, Evgenii Eltyshev, Daniel Balle, Nina Martin, Hardie Cate, James Manyika, Keyvan Amiri, Yelin Kim, Xi Xiong, Kai Kang, Florian Luisier, Nilesh Tripuraneni, David Madras, Mandy Guo, Austin Waters, Oliver Wang, Joshua Ainslie, Jason Baldridge, Han Zhang, Garima Pruthi, Jakob Bauer, Feng Yang, Riham Mansour, Jason Gelman, Yang Xu, George Polovets, Ji Liu, Honglong Cai, Warren Chen, XiangHai Sheng, Emily Xue, Sherjil Ozair, Adams Yu, Christof Angermueller, Xiaowei Li, Weiren Wang, Julia Wiesinger, Emmanouil Koukoumidis, Yuan Tian, Anand Iyer, Madhu Gurumurthy, Mark Goldenson, Parashar Shah, MK Blake, Hongkun Yu, Anthony Urbanowicz, Jennimaria Palomaki, Chrisantha Fernando, Kevin Brooks, Ken Durden, Harsh Mehta, Nikola Momchev, Elahe Rahimtoroghi, Maria Georgaki, Amit Raul, Sebastian Ruder, Morgan Redshaw, Jinhyuk Lee, Komal Jalan, Dinghua Li, Ginger Perng, Blake Hechtman, Parker Schuh, Milad Nasr, Mia Chen, Kieran Milan, Vladimir Mikulik, Trevor Strohman, Juliana Franco, Tim Green, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals

Questo rapporto introduce una nuova famiglia di modelli multimodali, Gemini, che dimostrano capacità straordinarie nella comprensione di immagini, audio, video e testo. La famiglia Gemini è composta dalle versioni Ultra, Pro e Nano, adatte a un'ampia gamma di applicazioni, dai compiti di ragionamento complesso ai casi d'uso con vincoli di memoria su dispositivi. La valutazione su un'ampia gamma di benchmark mostra che il nostro modello più potente, Gemini Ultra, avanza lo stato dell'arte in 30 dei 32 benchmark analizzati, diventando in particolare il primo modello a raggiungere prestazioni pari a quelle di un esperto umano nel benchmark MMLU, ampiamente studiato, e migliorando lo stato dell'arte in ognuno dei 20 benchmark multimodali esaminati. Riteniamo che le nuove capacità dei modelli Gemini nel ragionamento cross-modale e nella comprensione del linguaggio abiliteranno una vasta gamma di casi d'uso e discutiamo il nostro approccio per un loro utilizzo responsabile verso gli utenti.

VecFusion: Generazione di Font Vettoriali con Diffusione
VecFusion: Vector Font Generation with Diffusion

Dec 16

ByVikas Thamizharasan, Difan Liu, Shantanu Agarwal, Matthew Fisher, Michael Gharbi, Oliver Wang, Alec Jacobson, Evangelos Kalogerakis

Presentiamo VecFusion, una nuova architettura neurale in grado di generare font vettoriali con strutture topologiche variabili e posizioni precise dei punti di controllo. Il nostro approccio è un modello di diffusione a cascata composto da un modello di diffusione raster seguito da un modello di diffusione vettoriale. Il modello raster genera font rasterizzati a bassa risoluzione con informazioni ausiliarie sui punti di controllo, catturando lo stile globale e la forma del font, mentre il modello vettoriale sintetizza font vettoriali condizionati dai font raster a bassa risoluzione della prima fase. Per sintetizzare curve lunghe e complesse, il nostro modello di diffusione vettoriale utilizza un'architettura transformer e una nuova rappresentazione vettoriale che consente la modellazione di geometrie vettoriali diverse e la previsione precisa dei punti di controllo. I nostri esperimenti dimostrano che, a differenza dei precedenti modelli generativi per la grafica vettoriale, il nostro nuovo modello di diffusione vettoriale a cascata genera font vettoriali di qualità superiore, con strutture complesse e stili diversificati.

G-LLaVA: Risoluzione di Problemi Geometrici con Modelli Linguistici Multimodali di Grande Scala
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

Dec 18

ByJiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong

I grandi modelli linguistici (LLM) hanno dimostrato una notevole competenza nelle capacità di ragionamento e generazione a livello umano, incoraggiando un'ampia ricerca sulla loro applicazione nella risoluzione di problemi matematici. Tuttavia, il lavoro attuale si è concentrato principalmente su problemi matematici basati su testo, con un'indagine limitata sui problemi che coinvolgono informazioni geometriche. Per colmare questa lacuna, miriamo a consentire agli LLM di risolvere problemi geometrici comprendendo input di immagini. Iniziamo analizzando i limiti degli attuali Modelli Linguistici Multimodali (MLLM) in questo ambito: faticano a comprendere accuratamente gli elementi geometrici di base e le loro relazioni. Per superare queste sfide, sfruttiamo le caratteristiche uniche dei problemi geometrici (come la forma logica geometrica unica e la scalabilità geometrica) e la capacità degli LLM testuali per costruire un dataset multimodale arricchito basato su dati esistenti. Il dataset ampliato, Geo170K, contiene oltre 170K coppie immagine-didascalia e domanda-risposta geometriche. Utilizzando il nostro dataset Geo170K, sviluppiamo G-LLaVA, che dimostra prestazioni eccezionali nella risoluzione di problemi geometrici, superando significativamente GPT-4-V sul benchmark MathVista con soli 7B parametri.

SCEdit: Generazione Efficiente e Controllabile di Immagini Diffuse tramite Modifica delle Connessioni Saltate
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

Dec 18

ByZeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang

I modelli di diffusione di immagini sono stati utilizzati in vari compiti, come la generazione di immagini da testo e la sintesi controllata di immagini. Ricerche recenti hanno introdotto metodi di tuning che apportano aggiustamenti sottili ai modelli originali, ottenendo risultati promettenti in specifici adattamenti di modelli generativi di diffusione di base. Piuttosto che modificare la struttura principale del modello di diffusione, approfondiamo il ruolo delle connessioni skip nella U-Net e riveliamo che le caratteristiche gerarchiche che aggregano informazioni a lunga distanza tra encoder e decoder hanno un impatto significativo sul contenuto e sulla qualità della generazione di immagini. Sulla base di questa osservazione, proponiamo un framework efficiente di tuning generativo, denominato SCEdit, che integra e modifica le connessioni skip utilizzando un modulo di tuning leggero chiamato SC-Tuner. Inoltre, il framework proposto consente un'estensione diretta alla sintesi controllata di immagini iniettando diverse condizioni con il Controllable SC-Tuner, semplificando e unificando la progettazione della rete per input multi-condizione. Il nostro SCEdit riduce sostanzialmente i parametri di addestramento, l'uso della memoria e il costo computazionale grazie ai suoi tuner leggeri, con la propagazione all'indietro che passa solo ai blocchi del decoder. Esperimenti estensivi condotti su compiti di generazione di immagini da testo e sintesi controllata di immagini dimostrano la superiorità del nostro metodo in termini di efficienza e prestazioni. Pagina del progetto: https://scedit.github.io/

Feedback Umano Arricchito per la Generazione di Immagini da Testo
Rich Human Feedback for Text-to-Image Generation

Dec 15

ByYouwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

I recenti modelli di generazione da testo a immagine (Text-to-Image, T2I) come Stable Diffusion e Imagen hanno compiuto progressi significativi nella creazione di immagini ad alta risoluzione basate su descrizioni testuali. Tuttavia, molte immagini generate presentano ancora problemi come artefatti/implausibilità, disallineamento con le descrizioni testuali e bassa qualità estetica. Ispirati dal successo del Reinforcement Learning con Feedback Umano (RLHF) per i grandi modelli linguistici, lavori precedenti hanno raccolto punteggi forniti da esseri umani come feedback sulle immagini generate e hanno addestrato un modello di ricompensa per migliorare la generazione T2I. In questo articolo, arricchiamo il segnale di feedback (i) evidenziando le regioni dell'immagine che sono implausibili o disallineate con il testo, e (ii) annotando quali parole nel prompt testuale sono mal rappresentate o assenti nell'immagine. Raccogliamo tale feedback umano dettagliato su 18.000 immagini generate e addestriamo un trasformatore multimodale per prevedere automaticamente il feedback arricchito. Dimostriamo che il feedback umano arricchito previsto può essere sfruttato per migliorare la generazione delle immagini, ad esempio selezionando dati di addestramento di alta qualità per affinare e migliorare i modelli generativi, o creando maschere con mappe di calore previste per riempire le regioni problematiche. È degno di nota che i miglioramenti si generalizzano a modelli (Muse) oltre a quelli utilizzati per generare le immagini su cui sono stati raccolti i dati di feedback umano (varianti di Stable Diffusion).

GAvatar: Avatar 3D Animabili con Apprendimento di Mesh Implicita
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

Dec 18

ByYe Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal

Lo splatting gaussiano è emerso come una potente rappresentazione 3D che sfrutta i vantaggi sia delle rappresentazioni 3D esplicite (mesh) che implicite (NeRF). In questo articolo, cerchiamo di utilizzare lo splatting gaussiano per generare avatar animabili realistici a partire da descrizioni testuali, affrontando le limitazioni (ad esempio, flessibilità ed efficienza) imposte dalle rappresentazioni basate su mesh o NeRF. Tuttavia, un'applicazione ingenua dello splatting gaussiano non può generare avatar animabili di alta qualità e soffre di instabilità nell'apprendimento; inoltre, non è in grado di catturare geometrie fini degli avatar e spesso porta a parti del corpo degenerate. Per affrontare questi problemi, proponiamo innanzitutto una rappresentazione 3D gaussiana basata su primitive, in cui le gaussiane sono definite all'interno di primitive guidate dalla posa per facilitare l'animazione. In secondo luogo, per stabilizzare e ammortizzare l'apprendimento di milioni di gaussiane, proponiamo di utilizzare campi impliciti neurali per prevedere gli attributi delle gaussiane (ad esempio, i colori). Infine, per catturare geometrie fini degli avatar ed estrarre mesh dettagliate, proponiamo un nuovo approccio di apprendimento implicito di mesh basato su SDF per le gaussiane 3D che regolarizza le geometrie sottostanti ed estrae mesh testurizzate altamente dettagliate. Il nostro metodo proposto, GAvatar, consente la generazione su larga scala di avatar animabili diversi utilizzando solo prompt testuali. GAvatar supera significativamente i metodi esistenti in termini di qualità sia dell'aspetto che della geometria e raggiunge un rendering estremamente veloce (100 fps) a risoluzione 1K.

M3DBench: Istruiamo i modelli di grandi dimensioni con prompt multi-modali 3D
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts

Dec 17

ByMingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen

Recentemente, la comprensione 3D è diventata popolare per facilitare gli agenti autonomi nel prendere decisioni ulteriori. Tuttavia, i dataset e i metodi 3D esistenti sono spesso limitati a compiti specifici. D'altra parte, i recenti progressi nei Large Language Models (LLM) e nei Multimodal Language Models (MLM) hanno dimostrato prestazioni eccezionali in compiti linguistici e di elaborazione delle immagini di carattere generale. Pertanto, è interessante sbloccare il potenziale degli MLM per diventare generalisti 3D in compiti più ampi. Tuttavia, la ricerca attuale sugli MLM si è concentrata meno sui compiti 3D a causa della mancanza di dataset su larga scala che seguono istruzioni in 3D. In questo lavoro, introduciamo un dataset completo di istruzioni 3D chiamato M3DBench, che possiede le seguenti caratteristiche: 1) Supporta istruzioni multimodali generali intervallate da testo, immagini, oggetti 3D e altri prompt visivi. 2) Unifica compiti 3D diversificati a livello di regione e di scena, coprendo una varietà di abilità fondamentali in ambienti 3D del mondo reale. 3) È un dataset su larga scala di istruzioni 3D con oltre 320k coppie istruzione-risposta. Inoltre, stabiliamo un nuovo benchmark per valutare le prestazioni dei modelli di grandi dimensioni nella comprensione di prompt multimodali 3D. Esperimenti estesi dimostrano l'efficacia del nostro dataset e della linea di base, supportando compiti generali centrati sul 3D, che possono ispirare future ricerche.

Un concorrente per GPT-4V? Prime esplorazioni di Gemini nell'esperienza visiva
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

Dec 19

ByChaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji

Il crescente interesse verso i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), come GPT-4V(ision) di OpenAI, ha segnato una tendenza significativa sia in ambito accademico che industriale. Questi modelli dotano i Modelli Linguistici di Grandi Dimensioni (LLM) di potenti capacità di comprensione visiva, consentendo loro di affrontare una vasta gamma di compiti multimodali. Recentemente, Google ha rilasciato Gemini, il suo MLLM più recente e avanzato, progettato da zero per la multimodalità. Alla luce delle superiori capacità di ragionamento, Gemini può sfidare la posizione di leadership di GPT-4V nell'apprendimento multimodale? In questo articolo, presentiamo un'esplorazione preliminare della competenza di comprensione visiva di Gemini Pro, che copre in modo esaustivo quattro domini: percezione di base, cognizione avanzata, compiti visivi complessi e varie capacità specialistiche. Confrontiamo Gemini Pro con lo stato dell'arte GPT-4V per valutarne i limiti superiori, insieme al più recente MLLM open-source, Sphinx, che rivela il divario tra gli sforzi manuali e i sistemi a scatola chiusa. I campioni qualitativi indicano che, sebbene GPT-4V e Gemini mostrino stili e preferenze di risposta diversi, possono esibire capacità di ragionamento visivo comparabili, mentre Sphinx rimane ancora indietro rispetto a loro per quanto riguarda la generalizzabilità di dominio. In particolare, GPT-4V tende a elaborare spiegazioni dettagliate e passaggi intermedi, mentre Gemini preferisce fornire una risposta diretta e concisa. La valutazione quantitativa sul popolare benchmark MME dimostra anche il potenziale di Gemini di essere un forte sfidante per GPT-4V. La nostra indagine preliminare su Gemini osserva anche alcuni problemi comuni degli MLLM, indicando che rimane ancora una distanza considerevole verso l'intelligenza artificiale generale. Il nostro progetto per monitorare i progressi degli MLLM è disponibile all'indirizzo https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

MagicScroll: Generazione di Immagini con Rapporti d'Aspetto Non Convenzionali per il Racconto Visivo tramite Denoising Semantico Multi-Livello
MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising

Dec 18

ByBingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang

La narrazione visiva spesso utilizza immagini con rapporti d'aspetto non convenzionali come dipinti a rotolo, strisce di fumetti e panorami per creare una narrazione espressiva e coinvolgente. Sebbene l'IA generativa abbia ottenuto un grande successo e dimostrato il potenziale di trasformare l'industria creativa, rimane una sfida generare contenuti coerenti e coinvolgenti con dimensioni arbitrarie e uno stile, un concetto e un layout controllabili, tutti elementi essenziali per la narrazione visiva. Per superare le carenze dei metodi precedenti, tra cui contenuti ripetitivi, incoerenza stilistica e mancanza di controllabilità, proponiamo MagicScroll, un framework di generazione di immagini basato su diffusione progressiva a più livelli con un nuovo processo di denoising semantico. Il modello consente un controllo fine sull'immagine generata a livello di oggetti, scene e sfondi con condizioni di testo, immagine e layout. Abbiamo inoltre stabilito il primo benchmark per la generazione di immagini con rapporti d'aspetto non convenzionali per la narrazione visiva, includendo mezzi come dipinti, fumetti e panorami cinematografici, con metriche personalizzate per una valutazione sistematica. Attraverso studi comparativi e di ablazione, MagicScroll mostra risultati promettenti nell'allineamento con il testo narrativo, nel migliorare la coerenza visiva e nel coinvolgere il pubblico. Prevediamo di rilasciare il codice e il benchmark nella speranza di una migliore collaborazione tra ricercatori di IA e professionisti creativi coinvolti nella narrazione visiva.

Paloma: Un Benchmark per Valutare l'Adattamento dei Modelli Linguistici
Paloma: A Benchmark for Evaluating Language Model Fit

Dec 16

ByIan Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge

I modelli linguistici (LM) comunemente riportano la perplessità su dati monolitici esclusi dall'addestramento. Implicitamente o esplicitamente, questi dati sono composti da domini – distribuzioni variabili del linguaggio. Piuttosto che assumere che la perplessità su una distribuzione si estrapoli ad altre, Perplexity Analysis for Language Model Assessment (Paloma) misura l'adattamento del modello linguistico a 585 domini di testo, che vanno da nytimes.com a r/depression su Reddit. Invitiamo a presentare contributi al nostro benchmark e organizziamo i risultati in base alla comparabilità, considerando il rispetto di linee guida come la rimozione della contaminazione del benchmark dal pre-addestramento. I contributi possono anche registrare il numero di parametri e di token di addestramento per consentire confronti di efficienza di Pareto in termini di prestazioni in funzione di queste misure di costo. Popoliamo il nostro benchmark con i risultati di 6 baseline pre-addestrate su corpora popolari. In casi di studio, dimostriamo analisi possibili con Paloma, come scoprire che il pre-addestramento senza dati oltre Common Crawl porta a un adattamento incoerente a molti domini.

Silkie: Distillazione delle Preferenze per Modelli Linguistici Visivi di Grandi Dimensioni
Silkie: Preference Distillation for Large Visual Language Models

Dec 17

ByLei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong

Questo articolo esplora la distillazione delle preferenze per i grandi modelli linguistico-visivi (LVLM), migliorando la loro capacità di generare risposte utili e fedeli ancorate al contesto visivo. Inizialmente, costruiamo un dataset di feedback visivo-linguistico (VLFeedback) utilizzando annotazioni AI. Nello specifico, le risposte sono generate da modelli campionati da 12 LVLM, condizionati da istruzioni multimodali provenienti da vari dataset. Adottiamo GPT-4V per valutare gli output generati in termini di utilità, fedeltà visiva e considerazioni etiche. Inoltre, la supervisione delle preferenze viene distillata in Qwen-VL-Chat attraverso il metodo di ottimizzazione diretta delle preferenze (DPO). Il modello risultante, Silkie, ottiene un miglioramento relativo del 6,9% e del 9,5% sul benchmark MME per quanto riguarda le capacità di percezione e cognizione, rispettivamente. Silkie dimostra anche una riduzione delle allucinazioni stabilendo un nuovo punteggio state-of-the-art di 3,02 sul benchmark MMHal-Bench. Un'ulteriore analisi mostra che il DPO con il nostro dataset VLFeedback migliora principalmente la percezione fine e le capacità cognitive complesse dei LVLM, portando a miglioramenti più completi rispetto ai dataset di preferenze annotati manualmente.

VidToMe: Fusione di Token Video per l'Editing Video Zero-Shot
VidToMe: Video Token Merging for Zero-Shot Video Editing

Dec 17

ByXirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang

I modelli di diffusione hanno compiuto progressi significativi nella generazione di immagini di alta qualità, ma la loro applicazione alla generazione di video è rimasta impegnativa a causa della complessità del movimento temporale. L'editing video zero-shot offre una soluzione sfruttando modelli di diffusione di immagini pre-addestrati per tradurre video sorgente in nuovi video. Tuttavia, i metodi esistenti faticano a mantenere una rigorosa coerenza temporale e un consumo efficiente della memoria. In questo lavoro, proponiamo un approccio innovativo per migliorare la coerenza temporale nei video generati unendo i token di self-attention tra i frame. Allineando e comprimendo i token temporalmente ridondanti tra i frame, il nostro metodo migliora la coerenza temporale e riduce il consumo di memoria nei calcoli di self-attention. La strategia di unione abbina e allinea i token in base alla corrispondenza temporale tra i frame, facilitando una coerenza temporale naturale nei frame video generati. Per gestire la complessità dell'elaborazione video, dividiamo i video in segmenti e sviluppiamo un'unione locale dei token all'interno dei segmenti e un'unione globale dei token tra i segmenti, garantendo sia la continuità video a breve termine che la coerenza del contenuto a lungo termine. Il nostro approccio all'editing video estende senza soluzione di continuità i progressi nell'editing delle immagini all'editing video, ottenendo risultati favorevoli in termini di coerenza temporale rispetto ai metodi all'avanguardia.

MAG-Edit: Modifica Localizzata delle Immagini in Scenari Complessi tramite Guida Regolata su Maschere e Attenzione
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance

Dec 18

ByQi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou

I recenti approcci di editing basati su modelli di diffusione hanno dimostrato capacità impressionanti nel modificare immagini con composizioni semplici. Tuttavia, l'editing localizzato in scenari complessi non è stato ampiamente studiato in letteratura, nonostante la crescente domanda nel mondo reale. I metodi esistenti di inpainting basati su maschere non riescono a preservare la struttura sottostante all'interno della regione da modificare. Nel frattempo, i metodi basati sull'attenzione senza maschera spesso mostrano perdite di editing e disallineamenti in composizioni più complesse. In questo lavoro, sviluppiamo MAG-Edit, un metodo di ottimizzazione in fase di inferenza che non richiede addestramento, che consente l'editing localizzato di immagini in scenari complessi. In particolare, MAG-Edit ottimizza la caratteristica latente del rumore nei modelli di diffusione massimizzando due vincoli di cross-attention basati su maschera del token di editing, migliorando gradualmente l'allineamento locale con il prompt desiderato. Esperimenti quantitativi e qualitativi estesi dimostrano l'efficacia del nostro metodo nel raggiungere sia l'allineamento testuale che la preservazione della struttura per l'editing localizzato in scenari complessi.

Drafting Speculativo a Cascata per un'Inferenza Ancora Più Veloce nei Modelli Linguistici di Grande Dimensione
Cascade Speculative Drafting for Even Faster LLM Inference

Dec 18

ByZiyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang

Il decoding speculativo migliora l'efficienza dei grandi modelli linguistici (LLM) sfruttando un modello di bozza per generare proposte che un modello target più grande può poi revisionare. Tuttavia, la generazione di bozze nel decoding speculativo comporta una lenta generazione autoregressiva e l'allocazione dello stesso tempo per token di diversa importanza. Queste due inefficienze portano a prestazioni subottimali. Per affrontare questo problema, introduciamo il Cascade Speculative Drafting (CS. Drafting), un approccio innovativo che utilizza due tipi di cascate. La Cascata Verticale elimina la generazione autoregressiva dai modelli neurali. La Cascata Orizzontale garantisce un'allocazione efficiente del tempo nella generazione di bozze, con la sua ottimalità supportata dalla nostra analisi teorica. Combinando entrambe le cascate, il nostro algoritmo CS. Drafting ha ottenuto un incremento di velocità fino al 72% rispetto al decoding speculativo nei nostri esperimenti, mantenendo la stessa distribuzione di output.

ProTIP: Il Recupero Progressivo degli Strumenti Migliora la Pianificazione
ProTIP: Progressive Tool Retrieval Improves Planning

Dec 16

ByRaviteja Anantha, Bortik Bandyopadhyay, Anirudh Kashi, Sayantan Mahinder, Andrew W Hill, Srinivas Chappidi

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati per compiti di pianificazione complessi e multi-step, in cui il passaggio di recupero degli strumenti (TR) è cruciale per ottenere risultati di successo. Due approcci prevalenti per il TR sono il recupero a singolo step, che utilizza la query completa, e il recupero sequenziale basato sulla scomposizione del task (TD), in cui una query completa viene segmentata in sottotask atomici discreti. Mentre il recupero a singolo step manca della flessibilità necessaria per gestire la "dipendenza inter-strumenti", l'approccio TD richiede di mantenere l'"allineamento atomicità sottotask-strumenti", poiché la toolbox può evolversi dinamicamente. Per affrontare queste limitazioni, introduciamo il framework Progressive Tool retrieval to Improve Planning (ProTIP). ProTIP è un framework leggero basato sull'apprendimento contrastivo che esegue implicitamente la TD senza la necessità esplicita di etichette per i sottotask, mantenendo contemporaneamente l'atomicità sottotask-strumenti. Sul dataset ToolBench, ProTIP supera l'approccio basato sulla scomposizione del task di ChatGPT con un margine significativo, ottenendo un miglioramento del 24% nel Recall@K=10 per il TR e un incremento del 41% nell'accuratezza degli strumenti per la generazione del piano.

Catwalk: Un Framework Unificato per la Valutazione di Modelli Linguistici su Molti Dataset
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

Dec 15

ByDirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia, Ian Magnusson, Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge

Il successo dei grandi modelli linguistici ha modificato i paradigmi di valutazione nel campo dell'elaborazione del linguaggio naturale (NLP). L'interesse della comunità si è spostato verso il confronto dei modelli NLP su molteplici task, domini e dataset, spesso su scala estremamente ampia. Ciò impone nuove sfide ingegneristiche: gli sforzi nella costruzione di dataset e modelli sono stati frammentati, e i loro formati e interfacce sono incompatibili. Di conseguenza, spesso sono necessari sforzi significativi di (ri)implementazione per effettuare confronti equi e controllati su larga scala. Catwalk mira a risolvere questi problemi. Catwalk fornisce un'interfaccia unificata per una vasta gamma di dataset e modelli NLP esistenti, che vanno dal classico addestramento supervisionato e fine-tuning, a paradigmi più moderni come l'apprendimento in-context. Le sue astrazioni progettate con cura consentono facili estensioni a molti altri. Catwalk riduce sostanzialmente le barriere per condurre esperimenti controllati su larga scala. Ad esempio, abbiamo eseguito il fine-tuning e valutato oltre 64 modelli su più di 86 dataset con un singolo comando, senza scrivere alcun codice. Mantenuto dal team AllenNLP presso l'Allen Institute for Artificial Intelligence (AI2), Catwalk è uno sforzo open-source in corso: https://github.com/allenai/catwalk.

Il Tuo Studente è Meglio del Previsto: Collaborazione Adattiva tra Insegnante e Studente per Modelli di Diffusione Condizionati al Testo
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models

Dec 17

ByNikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk

I metodi di distillazione della conoscenza hanno recentemente dimostrato di essere una direzione promettente per accelerare la sintesi di modelli di diffusione su larga scala, richiedendo solo pochi passaggi di inferenza. Sebbene siano stati proposti recentemente diversi metodi di distillazione potenti, la qualità complessiva dei campioni dello studente è tipicamente inferiore rispetto a quelli del docente, il che ne ostacola l'uso pratico. In questo lavoro, indaghiamo la qualità relativa dei campioni prodotti dal modello di diffusione testo-immagine docente e dalla sua versione distillata dello studente. Come principale risultato empirico, scopriamo che una porzione significativa dei campioni dello studente mostra una fedeltà superiore rispetto a quelli del docente, nonostante la natura "approssimata" dello studente. Sulla base di questa scoperta, proponiamo una collaborazione adattiva tra modelli di diffusione studente e docente per una sintesi efficace di testo-immagine. Nello specifico, il modello distillato produce il campione iniziale, e poi un oracolo decide se necessita di ulteriori miglioramenti con un modello docente lento. Esperimenti estesi dimostrano che la pipeline progettata supera le alternative state-of-the-art per la sintesi testo-immagine per vari budget di inferenza in termini di preferenza umana. Inoltre, l'approccio proposto può essere naturalmente utilizzato in applicazioni popolari come l'editing di immagini guidato da testo e la generazione controllata.

Verso un Campionamento Preciso nella Diffusione Guidata attraverso il Metodo Adjoint Simplettico
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method

Dec 19

ByJiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan

Il campionamento guidato senza addestramento nei modelli di diffusione sfrutta reti pre-addestrate già disponibili, come un modello di valutazione estetica, per guidare il processo di generazione. Gli attuali algoritmi di campionamento guidato senza addestramento ottengono la funzione di energia di guida basandosi su una stima a un passo dell'immagine pulita. Tuttavia, poiché le reti pre-addestrate disponibili sono state addestrate su immagini pulite, la procedura di stima a un passo dell'immagine pulita potrebbe essere imprecisa, specialmente nelle fasi iniziali del processo di generazione nei modelli di diffusione. Ciò rende la guida nei primi passi temporali inaccurata. Per superare questo problema, proponiamo la Symplectic Adjoint Guidance (SAG), che calcola il gradiente di guida in due fasi interne. In primo luogo, la SAG stima l'immagine pulita tramite n chiamate di funzione, dove n funge da iperparametro flessibile che può essere adattato per soddisfare specifici requisiti di qualità dell'immagine. In secondo luogo, la SAG utilizza il metodo aggiunto simplettico per ottenere i gradienti in modo accurato ed efficiente in termini di requisiti di memoria. Esperimenti estensivi dimostrano che la SAG genera immagini di qualità superiore rispetto ai metodi di riferimento sia nei compiti di generazione guidata di immagini che di video.

VolumeDiffusion: Generazione flessibile da testo a 3D con un codificatore volumetrico efficiente
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder

Dec 18

ByZhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao, Dong Chen, Baining Guo

Questo articolo introduce un innovativo codificatore volumetrico 3D progettato per la generazione di modelli 3D da testo. Per ampliare i dati di addestramento del modello di diffusione, è stata sviluppata una rete leggera per acquisire in modo efficiente volumi di feature da immagini multi-vista. I volumi 3D vengono poi addestrati su un modello di diffusione per la generazione di modelli 3D da testo utilizzando una 3D U-Net. La ricerca affronta inoltre le sfide legate alle descrizioni imprecise degli oggetti e ai volumi di feature ad alta dimensionalità. Il modello proposto, addestrato sul dataset pubblico Objaverse, dimostra risultati promettenti nella produzione di campioni diversificati e riconoscibili a partire da prompt testuali. In particolare, consente un controllo più fine sulle caratteristiche delle parti degli oggetti attraverso suggerimenti testuali, favorendo la creatività del modello mediante la combinazione fluida di più concetti all'interno di un singolo oggetto. Questa ricerca contribuisce significativamente al progresso della generazione 3D introducendo una metodologia di rappresentazione efficiente, flessibile e scalabile. Il codice è disponibile all'indirizzo https://github.com/tzco/VolumeDiffusion.

GauFRe: Campi di Deformazione Gaussiana per la Sintesi Dinamica in Tempo Reale di Nuove Visualizzazioni
GauFRe: Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis

Dec 18

ByYiqing Liang, Numair Khan, Zhengqin Li, Thu Nguyen-Phuoc, Douglas Lanman, James Tompkin, Lei Xiao

Proponiamo un metodo per la ricostruzione dinamica di scene utilizzando Gaussiane 3D deformabili, specificamente progettato per video monoculari. Basandoci sull'efficienza dello splatting Gaussiano, il nostro approccio estende la rappresentazione per includere elementi dinamici attraverso un insieme deformabile di Gaussiane situate in uno spazio canonico, e un campo di deformazione dipendente dal tempo definito da un perceptron multistrato (MLP). Inoltre, partendo dall'assunzione che la maggior parte delle scene naturali presenti ampie regioni statiche, permettiamo all'MLP di concentrare la sua capacità rappresentativa includendo anche una nuvola di punti Gaussiana statica. Le nuvole di punti dinamiche e statiche concatenate formano l'input per il rasterizzatore di Gaussian Splatting, consentendo il rendering in tempo reale. La pipeline differenziabile viene ottimizzata end-to-end con una funzione di perdita di rendering auto-supervisionata. Il nostro metodo ottiene risultati comparabili ai metodi all'avanguardia basati su campi di radianza neurali dinamici, consentendo al contempo un'ottimizzazione e un rendering molto più rapidi. Sito web del progetto: https://lynl7130.github.io/gaufre/index.html

Gemini: Una Famiglia di Modelli Multimodali Altamente Capacitati
Gemini: A Family of Highly Capable Multimodal Models

Dec 19