Articoli di ricerca IA selezionati quotidianamente con traduzioni
La comunità BigCode, una collaborazione scientifica aperta che lavora sullo sviluppo responsabile di Large Language Models per il codice (Code LLMs), presenta StarCoder e StarCoderBase: modelli da 15,5 miliardi di parametri con una lunghezza contestuale di 8K, capacità di completamento e inferenza rapida su grandi batch abilitata dall'attenzione multi-query. StarCoderBase è stato addestrato su 1 trilione di token provenienti da The Stack, una vasta raccolta di repository GitHub con licenze permissive, dotata di strumenti di ispezione e un processo di opt-out. Abbiamo perfezionato StarCoderBase su 35 miliardi di token Python, dando vita a StarCoder. Abbiamo condotto la valutazione più completa fino ad oggi dei Code LLMs, dimostrando che StarCoderBase supera ogni Code LLM open che supporta più linguaggi di programmazione e eguaglia o supera il modello OpenAI code-cushman-001. Inoltre, StarCoder supera ogni modello perfezionato su Python, può essere sollecitato per raggiungere il 40\% di pass@1 su HumanEval, mantenendo comunque le sue prestazioni su altri linguaggi di programmazione. Abbiamo compiuto diversi passi importanti verso un rilascio sicuro e ad accesso aperto del modello, inclusa una pipeline migliorata per la redazione dei dati personali (PII) e un nuovo strumento di tracciamento dell'attribuzione, rendendo i modelli StarCoder disponibili pubblicamente sotto una versione più commercialmente valida della licenza Open Responsible AI Model.
In questo studio, iniziamo un'esplorazione della comprensione video introducendo VideoChat, un sistema di comprensione video end-to-end incentrato sulla chat. Esso integra modelli di base per il video e modelli linguistici di grandi dimensioni attraverso un'interfaccia neurale apprendibile, eccellendo nel ragionamento spaziotemporale, nella localizzazione degli eventi e nell'inferenza delle relazioni causali. Per ottimizzare in modo istruttivo questo sistema, proponiamo un dataset di istruzioni incentrato sui video, composto da migliaia di video abbinati a descrizioni dettagliate e conversazioni. Questo dataset enfatizza il ragionamento spaziotemporale e le relazioni causali, fornendo una risorsa preziosa per l'addestramento di sistemi di comprensione video incentrati sulla chat. Esperimenti qualitativi preliminari rivelano il potenziale del nostro sistema in un'ampia gamma di applicazioni video e stabiliscono uno standard per la ricerca futura. Accedi al nostro codice e ai dati su https://github.com/OpenGVLab/Ask-Anything.
L'intelligenza artificiale generativa (AIGC, ovvero contenuto generato da AI) ha compiuto progressi significativi negli ultimi anni, tra cui la generazione di contenuti guidata da testo rappresenta l'applicazione più pratica, poiché consente l'interazione tra le istruzioni umane e l'AIGC. Grazie allo sviluppo delle tecnologie di testo-immagine e di modellazione 3D (come NeRF), il campo di ricerca del testo-3D è emerso recentemente come un'area altamente attiva. Il nostro lavoro presenta la prima e più completa rassegna sul testo-3D, con l'obiettivo di aiutare i lettori interessati a questo ambito a tenersi aggiornati sul suo rapido sviluppo. In primo luogo, introduciamo le rappresentazioni dei dati 3D, inclusi sia i dati euclidei che quelli non euclidei. Successivamente, presentiamo varie tecnologie di base e riassumiamo come i lavori recenti combinano queste tecnologie per realizzare risultati soddisfacenti nel testo-3D. Inoltre, sintetizziamo come la tecnologia testo-3D viene utilizzata in diverse applicazioni, tra cui la generazione di avatar, la generazione di texture, la trasformazione di forme e la generazione di scene.
La creazione di modelli 3D animabili è una sfida a causa della necessità di scansioni 3D, di una laboriosa registrazione e di un rigging manuale, processi difficili da scalare a categorie arbitrarie. Recentemente, il rendering differenziabile ha fornito un percorso per ottenere modelli 3D di alta qualità da video monoculari, ma questi sono limitati a categorie rigide o a singole istanze. Presentiamo RAC, che costruisce modelli 3D di categoria da video monoculari, separando le variazioni tra istanze e il movimento nel tempo. Tre idee chiave vengono introdotte per risolvere questo problema: (1) la specializzazione di uno scheletro per istanze tramite ottimizzazione, (2) un metodo per la regolarizzazione dello spazio latente che incoraggia una struttura condivisa attraverso una categoria mantenendo i dettagli specifici delle istanze, e (3) l'uso di modelli 3D di sfondo per separare gli oggetti dallo sfondo. Dimostriamo che è possibile apprendere modelli 3D di esseri umani, gatti e cani da 50-100 video provenienti da internet.
Presentiamo Integrated Multimodal Perception (IMP), un approccio semplice e scalabile per l'addestramento e la modellazione multimodale multi-task. IMP integra input multimodali, tra cui immagini, video, testo e audio, in un singolo encoder Transformer con un numero minimo di componenti specifici per modalità. IMP utilizza una progettazione innovativa che combina Alternating Gradient Descent (AGD) e Mixture-of-Experts (MoE) per un'efficiente scalabilità del modello e dei task. Abbiamo condotto ampi studi empirici su IMP, rivelando le seguenti intuizioni chiave: 1) eseguire aggiornamenti del gradient descent alternando su diverse modalità eterogenee, funzioni di perdita e task, variando anche le risoluzioni di input, migliora efficacemente la comprensione multimodale. 2) la sparsificazione del modello con MoE su un singolo encoder agnostico rispetto alla modalità migliora significativamente le prestazioni, superando i modelli densi che utilizzano encoder specifici per modalità o ulteriori livelli di fusione e mitigando notevolmente i conflitti tra le modalità. IMP raggiunge prestazioni competitive su un'ampia gamma di task downstream, tra cui classificazione di immagini, classificazione di video, retrieval immagine-testo e video-testo. In particolare, abbiamo addestrato un modello sparso IMP-MoE-L focalizzato sui task video che stabilisce un nuovo stato dell'arte nella classificazione zero-shot di video. Il nostro modello raggiunge il 77,0% su Kinetics-400, il 76,8% su Kinetics-600 e il 76,8% su Kinetics-700 in termini di accuratezza zero-shot, migliorando il precedente stato dell'arte rispettivamente di +5%, +6,7% e +5,8%, utilizzando solo il 15% del costo computazionale totale di addestramento.
Proponiamo un approccio innovativo per lo sviluppo di sistemi di raccomandazione su larga scala che preservano la privacy, utilizzando modelli linguistici di grandi dimensioni (LLM) con privacy differenziale (DP), superando alcune sfide e limitazioni nell'addestramento DP di questi sistemi complessi. Il nostro metodo è particolarmente adatto per l'area emergente dei sistemi di raccomandazione basati su LLM, ma può essere facilmente impiegato per qualsiasi sistema di raccomandazione che elabora rappresentazioni di input in linguaggio naturale. Il nostro approccio prevede l'utilizzo di metodi di addestramento DP per affinare un LLM pre-addestrato pubblicamente su un'attività di generazione di query. Il modello risultante può generare query sintetiche private rappresentative delle query originali, che possono essere condivise liberamente per qualsiasi procedura di addestramento di raccomandazione non privata a valle, senza incorrere in ulteriori costi di privacy. Valutiamo il nostro metodo sulla sua capacità di addestrare in modo sicuro modelli di recupero profondo efficaci, e osserviamo miglioramenti significativi nella qualità del recupero senza compromettere le garanzie di privacy a livello di query rispetto ai metodi in cui i modelli di recupero sono addestrati direttamente con DP.
Per abilitare robot a scopo generale, sarà necessario che il robot operi quotidianamente su oggetti articolati come fanno gli esseri umani. Attualmente, la manipolazione robotica si è basata pesantemente sull'uso di una pinza parallela, che limita il robot a un insieme ristretto di oggetti. D'altro canto, operare con una mano robotica multi-dito consentirà una migliore approssimazione al comportamento umano e permetterà al robot di operare su una varietà di oggetti articolati. A tal fine, proponiamo un nuovo benchmark chiamato DexArt, che prevede la manipolazione dexterous di oggetti articolati in un simulatore fisico. Nel nostro benchmark, definiamo molteplici compiti di manipolazione complessi, e la mano robotica dovrà manipolare diversi oggetti articolati all'interno di ciascun compito. Il nostro obiettivo principale è valutare la generalizzabilità della politica appresa su oggetti articolati non visti in precedenza. Questo è molto impegnativo dati gli elevati gradi di libertà sia delle mani che degli oggetti. Utilizziamo il Reinforcement Learning con apprendimento di rappresentazione 3D per raggiungere la generalizzazione. Attraverso studi approfonditi, forniamo nuove intuizioni su come l'apprendimento di rappresentazione 3D influenzi il processo decisionale nel RL con input di nuvole di punti 3D. Ulteriori dettagli sono disponibili all'indirizzo https://www.chenbao.tech/dexart/.
In questo articolo, analizziamo le prestazioni di un modello transformer end-to-end multitask nel compito di raccomandazioni conversazionali, che mirano a fornire suggerimenti basati sulle preferenze esplicite di un utente espresse in un dialogo. Mentre i lavori precedenti in questo ambito adottano approcci multi-componente complessi in cui la gestione del dialogo e il compito di raccomandazione di entità sono gestiti da componenti separati, dimostriamo che un modello transformer unificato, basato sul modello transformer text-to-text T5, può competere sia nel raccomandare elementi rilevanti che nel generare dialoghi conversazionali. Ottimizziamo il nostro modello sul dataset di raccomandazione conversazionale di film ReDIAL e creiamo ulteriori compiti di addestramento derivati da MovieLens (come la previsione di attributi dei film e di film correlati basati su un film di input), in un contesto di apprendimento multitask. Utilizzando una serie di studi di indagine, dimostriamo che la conoscenza appresa nei compiti aggiuntivi viene trasferita al contesto conversazionale, dove ogni compito porta a un aumento del 9%-52% nel punteggio della relativa indagine.
Rappresentare le prestazioni umane con alta fedeltà è un elemento essenziale in diverse applicazioni, come la produzione cinematografica, i videogiochi o le videoconferenze. Per colmare il divario rispetto alla qualità di livello produttivo, introduciamo HumanRF, una rappresentazione neurale dinamica 4D di scene che cattura l'aspetto del corpo intero in movimento a partire da input video multi-vista e consente la riproduzione da punti di vista nuovi e non visti in precedenza. La nostra innovativa rappresentazione funziona come una codifica video dinamica che cattura dettagli fini con alti tassi di compressione, fattorizzando lo spazio-tempo in una decomposizione matriciale-vettoriale temporale. Ciò ci permette di ottenere ricostruzioni temporalmente coerenti di attori umani per sequenze lunghe, rappresentando dettagli ad alta risoluzione anche in contesti di movimento complesso. Mentre la maggior parte della ricerca si concentra sulla sintesi a risoluzioni di 4MP o inferiori, affrontiamo la sfida di operare a 12MP. A tal fine, introduciamo ActorsHQ, un nuovo dataset multi-vista che fornisce filmati a 12MP da 160 telecamere per 16 sequenze con ricostruzioni mesh ad alta fedeltà per ogni fotogramma. Dimostriamo le sfide che emergono dall'uso di dati ad altissima risoluzione e mostriamo che il nostro HumanRF sfrutta efficacemente questi dati, compiendo un passo significativo verso la sintesi di nuove viste di qualità produttiva.