HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

7 papers found

Gemini 1.5: Sbloccare la comprensione multimodale attraverso milioni di token di contesto
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8

ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals

In questo rapporto presentiamo l'ultimo modello della famiglia Gemini, Gemini 1.5 Pro, un modello multimodale mixture-of-experts altamente efficiente dal punto di vista computazionale, in grado di richiamare e ragionare su informazioni dettagliate provenienti da milioni di token di contesto, inclusi documenti lunghi e ore di video e audio. Gemini 1.5 Pro raggiunge un richiamo quasi perfetto in compiti di recupero a lungo contesto attraverso diverse modalità, migliora lo stato dell'arte nel QA su documenti lunghi, QA su video lunghi e ASR a lungo contesto, eguaglia o supera le prestazioni all'avanguardia di Gemini 1.0 Ultra su un ampio set di benchmark. Studiando i limiti della capacità di lungo contesto di Gemini 1.5 Pro, osserviamo un miglioramento continuo nella previsione del token successivo e un richiamo quasi perfetto (>99%) fino ad almeno 10 milioni di token, un salto generazionale rispetto ai modelli esistenti come Claude 2.1 (200k) e GPT-4 Turbo (128k). Infine, evidenziamo nuove sorprendenti capacità dei modelli linguistici di grandi dimensioni all'avanguardia; quando viene fornito un manuale di grammatica per il Kalamang, una lingua parlata da meno di 200 persone in tutto il mondo, il modello impara a tradurre dall'inglese al Kalamang a un livello simile a quello di una persona che ha appreso dagli stessi contenuti.

DeepSeek-VL: Verso una Comprensione Visione-Linguaggio nel Mondo Reale
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8

ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

Presentiamo DeepSeek-VL, un modello Vision-Language (VL) open-source progettato per applicazioni reali di comprensione visiva e linguistica. Il nostro approccio si struttura attorno a tre dimensioni chiave: Ci impegniamo a garantire che i nostri dati siano diversificati, scalabili e coprano ampiamente scenari reali, inclusi screenshot web, PDF, OCR, grafici e contenuti basati su conoscenza, mirando a una rappresentazione completa di contesti pratici. Inoltre, creiamo una tassonomia dei casi d'uso basata su scenari reali degli utenti e costruiamo un dataset di instruction tuning di conseguenza. Il fine-tuning con questo dataset migliora significativamente l'esperienza utente del modello nelle applicazioni pratiche. Considerando l'efficienza e le esigenze della maggior parte degli scenari reali, DeepSeek-VL incorpora un encoder visivo ibrido che elabora in modo efficiente immagini ad alta risoluzione (1024 x 1024), mantenendo un overhead computazionale relativamente basso. Questa scelta progettuale garantisce la capacità del modello di catturare informazioni semantiche critiche e dettagliate in vari compiti visivi. Sosteniamo che un modello Vision-Language competente debba, innanzitutto, possedere forti capacità linguistiche. Per garantire la preservazione delle capacità LLM durante il pretraining, investigiamo una strategia efficace di pretraining VL integrando l'addestramento LLM fin dall'inizio e gestendo attentamente le dinamiche competitive osservate tra le modalità visiva e linguistica. La famiglia DeepSeek-VL (sia i modelli da 1.3B che da 7B) dimostra esperienze utente superiori come chatbot vision-language in applicazioni reali, raggiungendo prestazioni all'avanguardia o competitive su un'ampia gamma di benchmark visivo-linguistici per la stessa dimensione del modello, mantenendo al contempo prestazioni robuste su benchmark centrati sul linguaggio. Abbiamo reso pubblicamente accessibili sia i modelli da 1.3B che da 7B per favorire innovazioni basate su questo modello di base.

ELLA: Potenziare i Modelli di Diffusione con LLM per un Miglior Allineamento Semantico
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8

ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu

I modelli di diffusione hanno dimostrato prestazioni notevoli nel dominio della generazione di immagini da testo. Tuttavia, la maggior parte dei modelli ampiamente utilizzati impiega ancora CLIP come codificatore di testo, il che limita la loro capacità di comprendere prompt densi, che includono più oggetti, attributi dettagliati, relazioni complesse, allineamento di testi lunghi, ecc. In questo articolo, introduciamo un adattatore efficiente per modelli linguistici di grandi dimensioni, denominato ELLA, che equipaggia i modelli di diffusione per la generazione di immagini da testo con potenti modelli linguistici di grandi dimensioni (LLM) per migliorare l'allineamento del testo senza addestrare né la U-Net né l'LLM. Per collegare in modo fluido due modelli pre-addestrati, esploriamo una gamma di progetti di connettori di allineamento semantico e proponiamo un modulo innovativo, il Connettore Semantico Consapevole del Timestep (TSC), che estrae dinamicamente condizioni dipendenti dal timestep dall'LLM. Il nostro approccio adatta le caratteristiche semantiche in diverse fasi del processo di denoising, assistendo i modelli di diffusione nell'interpretazione di prompt lunghi e complessi durante i timestep di campionamento. Inoltre, ELLA può essere facilmente integrato con modelli e strumenti della comunità per migliorare le loro capacità di seguire i prompt. Per valutare i modelli di generazione di immagini da testo nel seguire prompt densi, introduciamo il benchmark Dense Prompt Graph Benchmark (DPG-Bench), un benchmark impegnativo composto da 1K prompt densi. Esperimenti estensivi dimostrano la superiorità di ELLA nel seguire prompt densi rispetto ai metodi all'avanguardia, in particolare nelle composizioni di più oggetti che coinvolgono attributi e relazioni diversificati.

Raccomandazioni Personalizzate di Audiolibri su Spotify Attraverso Reti Neurali a Grafo
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8

ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou

Nel panorama digitale in continua evoluzione dell'audio, Spotify, noto per i suoi contenuti musicali e di intrattenimento, ha recentemente introdotto gli audiolibri alla sua vasta base di utenti. Sebbene promettente, questa mossa presenta sfide significative per le raccomandazioni personalizzate. A differenza della musica e dei podcast, gli audiolibri, inizialmente disponibili a pagamento, non possono essere facilmente sfogliati prima dell'acquisto, ponendo una maggiore importanza sulla pertinenza delle raccomandazioni. Inoltre, l'introduzione di un nuovo tipo di contenuto in una piattaforma esistente si scontra con un'estrema scarsità di dati, poiché la maggior parte degli utenti non ha familiarità con questo nuovo formato. Infine, raccomandare contenuti a milioni di utenti richiede che il modello reagisca rapidamente e sia scalabile. Per affrontare queste sfide, sfruttiamo le preferenze degli utenti per podcast e musica e introduciamo 2T-HGNN, un sistema di raccomandazione scalabile composto da Reti Neurali su Grafi Eterogenei (HGNN) e un modello Two Tower (2T). Questo approccio innovativo scopre relazioni sfumate tra gli elementi garantendo al contempo bassa latenza e complessità. Separiamo gli utenti dal grafo HGNN e proponiamo un innovativo campionatore di vicini multi-link. Queste scelte, insieme al componente 2T, riducono significativamente la complessità del modello HGNN. Valutazioni empiriche che coinvolgono milioni di utenti mostrano un miglioramento significativo nella qualità delle raccomandazioni personalizzate, con un aumento del +46% nel tasso di inizio di nuovi audiolibri e un incremento del +23% nei tassi di streaming. Curiosamente, l'impatto del nostro modello si estende oltre gli audiolibri, beneficiando prodotti consolidati come i podcast.

CogView3: Generazione di immagini da testo più precisa e veloce tramite diffusione a relè
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8

ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

I recenti progressi nei sistemi generativi testo-immagine sono stati in gran parte guidati dai modelli di diffusione. Tuttavia, i modelli di diffusione testo-immagine a stadio singolo continuano a presentare sfide, in termini di efficienza computazionale e di perfezionamento dei dettagli dell'immagine. Per affrontare il problema, proponiamo CogView3, un innovativo framework a cascata che migliora le prestazioni della diffusione testo-immagine. CogView3 è il primo modello a implementare la diffusione a relè nel campo della generazione testo-immagine, eseguendo il compito creando prima immagini a bassa risoluzione e applicando successivamente una super-risoluzione basata su relè. Questa metodologia non solo produce risultati competitivi nella generazione testo-immagine, ma riduce notevolmente sia i costi di addestramento che di inferenza. I nostri risultati sperimentali dimostrano che CogView3 supera SDXL, l'attuale modello open-source all'avanguardia per la diffusione testo-immagine, del 77,0% nelle valutazioni umane, richiedendo solo circa la metà del tempo di inferenza. La variante distillata di CogView3 raggiunge prestazioni comparabili utilizzando solo 1/10 del tempo di inferenza richiesto da SDXL.

CRM: Da Immagine Singola a Mesh 3D Testurizzata con Modello di Ricostruzione Convoluzionale
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8

ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu

I modelli generativi feed-forward 3D come il Large Reconstruction Model (LRM) hanno dimostrato una velocità di generazione eccezionale. Tuttavia, i metodi basati su transformer non sfruttano i prior geometrici del componente triplane nella loro architettura, portando spesso a una qualità subottimale a causa delle dimensioni limitate dei dati 3D e dell'addestramento lento. In questo lavoro, presentiamo il Convolutional Reconstruction Model (CRM), un modello generativo feed-forward single image-to-3D ad alta fedeltà. Riconoscendo i limiti imposti dai dati 3D sparsi, evidenziamo la necessità di integrare i prior geometrici nella progettazione della rete. CRM si basa sull'osservazione chiave che la visualizzazione del triplane mostra una corrispondenza spaziale di sei immagini ortografiche. Innanzitutto, genera sei immagini in vista ortografica da una singola immagine di input, quindi alimenta queste immagini in una U-Net convoluzionale, sfruttando le sue forti capacità di allineamento a livello di pixel e una significativa larghezza di banda per creare un triplane ad alta risoluzione. CRM utilizza inoltre Flexicubes come rappresentazione geometrica, facilitando un'ottimizzazione diretta end-to-end su mesh texturizzate. Nel complesso, il nostro modello produce una mesh texturizzata ad alta fedeltà da un'immagine in soli 10 secondi, senza alcuna ottimizzazione al momento del test.

VideoElevator: Elevare la Qualità della Generazione Video con Modelli di Diffusione Versatili da Testo a Immagine
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo

I modelli di diffusione testo-immagine (T2I) hanno dimostrato capacità senza precedenti nella creazione di immagini realistiche ed esteticamente gradevoli. Al contrario, i modelli di diffusione testo-video (T2V) sono ancora molto indietro in termini di qualità dei fotogrammi e allineamento con il testo, a causa della qualità e quantità insufficienti dei video di addestramento. In questo articolo, introduciamo VideoElevator, un metodo plug-and-play e senza necessità di addestramento, che migliora le prestazioni dei T2V sfruttando le capacità superiori dei T2I. A differenza del campionamento convenzionale dei T2V (cioè, modellazione temporale e spaziale), VideoElevator scompone esplicitamente ogni passo di campionamento in raffinamento del movimento temporale e elevazione della qualità spaziale. Nello specifico, il raffinamento del movimento temporale utilizza un T2V incapsulato per migliorare la coerenza temporale, seguito da un'inversione alla distribuzione di rumore richiesta dal T2I. Successivamente, l'elevazione della qualità spaziale sfrutta un T2I espanso per prevedere direttamente un latente meno rumoroso, aggiungendo dettagli più fotorealistici. Abbiamo condotto esperimenti su un'ampia gamma di prompt combinando vari T2V e T2I. I risultati mostrano che VideoElevator non solo migliora le prestazioni delle baseline T2V con T2I di base, ma facilita anche la sintesi di video stilistici con T2I personalizzati. Il nostro codice è disponibile all'indirizzo https://github.com/YBYBZhang/VideoElevator.

Gemini 1.5: Sbloccare la comprensione multimodale attraverso milioni di token di contesto
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8