HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

9 papers found

StarCoder: che il codice sorgente sia con te!
StarCoder: may the source be with you!

May 9

ByRaymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

La comunità BigCode, una collaborazione scientifica aperta che lavora sullo sviluppo responsabile di Large Language Models per il codice (Code LLMs), presenta StarCoder e StarCoderBase: modelli da 15,5 miliardi di parametri con una lunghezza contestuale di 8K, capacità di completamento e inferenza rapida su grandi batch abilitata dall'attenzione multi-query. StarCoderBase è stato addestrato su 1 trilione di token provenienti da The Stack, una vasta raccolta di repository GitHub con licenze permissive, dotata di strumenti di ispezione e un processo di opt-out. Abbiamo perfezionato StarCoderBase su 35 miliardi di token Python, dando vita a StarCoder. Abbiamo condotto la valutazione più completa fino ad oggi dei Code LLMs, dimostrando che StarCoderBase supera ogni Code LLM open che supporta più linguaggi di programmazione e eguaglia o supera il modello OpenAI code-cushman-001. Inoltre, StarCoder supera ogni modello perfezionato su Python, può essere sollecitato per raggiungere il 40\% di pass@1 su HumanEval, mantenendo comunque le sue prestazioni su altri linguaggi di programmazione. Abbiamo compiuto diversi passi importanti verso un rilascio sicuro e ad accesso aperto del modello, inclusa una pipeline migliorata per la redazione dei dati personali (PII) e un nuovo strumento di tracciamento dell'attribuzione, rendendo i modelli StarCoder disponibili pubblicamente sotto una versione più commercialmente valida della licenza Open Responsible AI Model.

VideoChat: Comprensione Video Centrata sulla Chat
VideoChat: Chat-Centric Video Understanding

May 10

ByKunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao

In questo studio, iniziamo un'esplorazione della comprensione video introducendo VideoChat, un sistema di comprensione video end-to-end incentrato sulla chat. Esso integra modelli di base per il video e modelli linguistici di grandi dimensioni attraverso un'interfaccia neurale apprendibile, eccellendo nel ragionamento spaziotemporale, nella localizzazione degli eventi e nell'inferenza delle relazioni causali. Per ottimizzare in modo istruttivo questo sistema, proponiamo un dataset di istruzioni incentrato sui video, composto da migliaia di video abbinati a descrizioni dettagliate e conversazioni. Questo dataset enfatizza il ragionamento spaziotemporale e le relazioni causali, fornendo una risorsa preziosa per l'addestramento di sistemi di comprensione video incentrati sulla chat. Esperimenti qualitativi preliminari rivelano il potenziale del nostro sistema in un'ampia gamma di applicazioni video e stabiliscono uno standard per la ricerca futura. Accedi al nostro codice e ai dati su https://github.com/OpenGVLab/Ask-Anything.

L'IA generativa incontra il 3D: Una rassegna sul testo-a-3D nell'era dell'AIGC
Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

May 10

ByChenghao Li, Chaoning Zhang, Atish Waghwase, Lik-Hang Lee, Francois Rameau, Yang Yang, Sung-Ho Bae, Choong Seon Hong

L'intelligenza artificiale generativa (AIGC, ovvero contenuto generato da AI) ha compiuto progressi significativi negli ultimi anni, tra cui la generazione di contenuti guidata da testo rappresenta l'applicazione più pratica, poiché consente l'interazione tra le istruzioni umane e l'AIGC. Grazie allo sviluppo delle tecnologie di testo-immagine e di modellazione 3D (come NeRF), il campo di ricerca del testo-3D è emerso recentemente come un'area altamente attiva. Il nostro lavoro presenta la prima e più completa rassegna sul testo-3D, con l'obiettivo di aiutare i lettori interessati a questo ambito a tenersi aggiornati sul suo rapido sviluppo. In primo luogo, introduciamo le rappresentazioni dei dati 3D, inclusi sia i dati euclidei che quelli non euclidei. Successivamente, presentiamo varie tecnologie di base e riassumiamo come i lavori recenti combinano queste tecnologie per realizzare risultati soddisfacenti nel testo-3D. Inoltre, sintetizziamo come la tecnologia testo-3D viene utilizzata in diverse applicazioni, tra cui la generazione di avatar, la generazione di texture, la trasformazione di forme e la generazione di scene.

Ricostruzione di Categorie Animabili da Video
Reconstructing Animatable Categories from Videos

May 10

ByGengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan

La creazione di modelli 3D animabili è una sfida a causa della necessità di scansioni 3D, di una laboriosa registrazione e di un rigging manuale, processi difficili da scalare a categorie arbitrarie. Recentemente, il rendering differenziabile ha fornito un percorso per ottenere modelli 3D di alta qualità da video monoculari, ma questi sono limitati a categorie rigide o a singole istanze. Presentiamo RAC, che costruisce modelli 3D di categoria da video monoculari, separando le variazioni tra istanze e il movimento nel tempo. Tre idee chiave vengono introdotte per risolvere questo problema: (1) la specializzazione di uno scheletro per istanze tramite ottimizzazione, (2) un metodo per la regolarizzazione dello spazio latente che incoraggia una struttura condivisa attraverso una categoria mantenendo i dettagli specifici delle istanze, e (3) l'uso di modelli 3D di sfondo per separare gli oggetti dallo sfondo. Dimostriamo che è possibile apprendere modelli 3D di esseri umani, gatti e cani da 50-100 video provenienti da internet.

Discesa del Gradiente Alternata e Mistura di Esperti per la Percezione Multimodale Integrata
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

May 10

ByHassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam

Presentiamo Integrated Multimodal Perception (IMP), un approccio semplice e scalabile per l'addestramento e la modellazione multimodale multi-task. IMP integra input multimodali, tra cui immagini, video, testo e audio, in un singolo encoder Transformer con un numero minimo di componenti specifici per modalità. IMP utilizza una progettazione innovativa che combina Alternating Gradient Descent (AGD) e Mixture-of-Experts (MoE) per un'efficiente scalabilità del modello e dei task. Abbiamo condotto ampi studi empirici su IMP, rivelando le seguenti intuizioni chiave: 1) eseguire aggiornamenti del gradient descent alternando su diverse modalità eterogenee, funzioni di perdita e task, variando anche le risoluzioni di input, migliora efficacemente la comprensione multimodale. 2) la sparsificazione del modello con MoE su un singolo encoder agnostico rispetto alla modalità migliora significativamente le prestazioni, superando i modelli densi che utilizzano encoder specifici per modalità o ulteriori livelli di fusione e mitigando notevolmente i conflitti tra le modalità. IMP raggiunge prestazioni competitive su un'ampia gamma di task downstream, tra cui classificazione di immagini, classificazione di video, retrieval immagine-testo e video-testo. In particolare, abbiamo addestrato un modello sparso IMP-MoE-L focalizzato sui task video che stabilisce un nuovo stato dell'arte nella classificazione zero-shot di video. Il nostro modello raggiunge il 77,0% su Kinetics-400, il 76,8% su Kinetics-600 e il 76,8% su Kinetics-700 in termini di accuratezza zero-shot, migliorando il precedente stato dell'arte rispettivamente di +5%, +6,7% e +5,8%, utilizzando solo il 15% del costo computazionale totale di addestramento.

Sistemi di Raccomandazione con Preservazione della Privacy tramite Generazione Sintetica di Query utilizzando Modelli Linguistici di Grande Dimensione con Differenziale Privacy
Privacy-Preserving Recommender Systems with Synthetic Query Generation using Differentially Private Large Language Models

May 10

ByAldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr

Proponiamo un approccio innovativo per lo sviluppo di sistemi di raccomandazione su larga scala che preservano la privacy, utilizzando modelli linguistici di grandi dimensioni (LLM) con privacy differenziale (DP), superando alcune sfide e limitazioni nell'addestramento DP di questi sistemi complessi. Il nostro metodo è particolarmente adatto per l'area emergente dei sistemi di raccomandazione basati su LLM, ma può essere facilmente impiegato per qualsiasi sistema di raccomandazione che elabora rappresentazioni di input in linguaggio naturale. Il nostro approccio prevede l'utilizzo di metodi di addestramento DP per affinare un LLM pre-addestrato pubblicamente su un'attività di generazione di query. Il modello risultante può generare query sintetiche private rappresentative delle query originali, che possono essere condivise liberamente per qualsiasi procedura di addestramento di raccomandazione non privata a valle, senza incorrere in ulteriori costi di privacy. Valutiamo il nostro metodo sulla sua capacità di addestrare in modo sicuro modelli di recupero profondo efficaci, e osserviamo miglioramenti significativi nella qualità del recupero senza compromettere le garanzie di privacy a livello di query rispetto ai metodi in cui i modelli di recupero sono addestrati direttamente con DP.

DexArt: Benchmark per la Manipolazione Abile Generalizzabile con Oggetti Articolati
DexArt: Benchmarking Generalizable Dexterous Manipulation with Articulated Objects

May 9

ByChen Bao, Helin Xu, Yuzhe Qin, Xiaolong Wang

Per abilitare robot a scopo generale, sarà necessario che il robot operi quotidianamente su oggetti articolati come fanno gli esseri umani. Attualmente, la manipolazione robotica si è basata pesantemente sull'uso di una pinza parallela, che limita il robot a un insieme ristretto di oggetti. D'altro canto, operare con una mano robotica multi-dito consentirà una migliore approssimazione al comportamento umano e permetterà al robot di operare su una varietà di oggetti articolati. A tal fine, proponiamo un nuovo benchmark chiamato DexArt, che prevede la manipolazione dexterous di oggetti articolati in un simulatore fisico. Nel nostro benchmark, definiamo molteplici compiti di manipolazione complessi, e la mano robotica dovrà manipolare diversi oggetti articolati all'interno di ciascun compito. Il nostro obiettivo principale è valutare la generalizzabilità della politica appresa su oggetti articolati non visti in precedenza. Questo è molto impegnativo dati gli elevati gradi di libertà sia delle mani che degli oggetti. Utilizziamo il Reinforcement Learning con apprendimento di rappresentazione 3D per raggiungere la generalizzazione. Attraverso studi approfonditi, forniamo nuove intuizioni su come l'apprendimento di rappresentazione 3D influenzi il processo decisionale nel RL con input di nuvole di punti 3D. Ulteriori dettagli sono disponibili all'indirizzo https://www.chenbao.tech/dexart/.

L'Addestramento End-to-End Multi-Task Migliora la Raccomandazione Conversazionale
Multi-Task End-to-End Training Improves Conversational Recommendation

May 8

ByNaveen Ram, Dima Kuzmin, Ellie Ka In Chio, Moustafa Farid Alzantot, Santiago Ontanon, Ambarish Jash, Judith Yue Li

In questo articolo, analizziamo le prestazioni di un modello transformer end-to-end multitask nel compito di raccomandazioni conversazionali, che mirano a fornire suggerimenti basati sulle preferenze esplicite di un utente espresse in un dialogo. Mentre i lavori precedenti in questo ambito adottano approcci multi-componente complessi in cui la gestione del dialogo e il compito di raccomandazione di entità sono gestiti da componenti separati, dimostriamo che un modello transformer unificato, basato sul modello transformer text-to-text T5, può competere sia nel raccomandare elementi rilevanti che nel generare dialoghi conversazionali. Ottimizziamo il nostro modello sul dataset di raccomandazione conversazionale di film ReDIAL e creiamo ulteriori compiti di addestramento derivati da MovieLens (come la previsione di attributi dei film e di film correlati basati su un film di input), in un contesto di apprendimento multitask. Utilizzando una serie di studi di indagine, dimostriamo che la conoscenza appresa nei compiti aggiuntivi viene trasferita al contesto conversazionale, dove ogni compito porta a un aumento del 9%-52% nel punteggio della relativa indagine.

HumanRF: Campi di Radianza Neurale ad Alta Fedeltà per Umani in Movimento
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

May 10

ByMustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner

Rappresentare le prestazioni umane con alta fedeltà è un elemento essenziale in diverse applicazioni, come la produzione cinematografica, i videogiochi o le videoconferenze. Per colmare il divario rispetto alla qualità di livello produttivo, introduciamo HumanRF, una rappresentazione neurale dinamica 4D di scene che cattura l'aspetto del corpo intero in movimento a partire da input video multi-vista e consente la riproduzione da punti di vista nuovi e non visti in precedenza. La nostra innovativa rappresentazione funziona come una codifica video dinamica che cattura dettagli fini con alti tassi di compressione, fattorizzando lo spazio-tempo in una decomposizione matriciale-vettoriale temporale. Ciò ci permette di ottenere ricostruzioni temporalmente coerenti di attori umani per sequenze lunghe, rappresentando dettagli ad alta risoluzione anche in contesti di movimento complesso. Mentre la maggior parte della ricerca si concentra sulla sintesi a risoluzioni di 4MP o inferiori, affrontiamo la sfida di operare a 12MP. A tal fine, introduciamo ActorsHQ, un nuovo dataset multi-vista che fornisce filmati a 12MP da 160 telecamere per 16 sequenze con ricostruzioni mesh ad alta fedeltà per ogni fotogramma. Dimostriamo le sfide che emergono dall'uso di dati ad altissima risoluzione e mostriamo che il nostro HumanRF sfrutta efficacemente questi dati, compiendo un passo significativo verso la sintesi di nuove viste di qualità produttiva.

StarCoder: che il codice sorgente sia con te!
StarCoder: may the source be with you!

May 9