Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model per il Codice (Code LLM) stanno conoscendo un periodo di grande sviluppo. Nuovi e potenti modelli vengono rilasciati settimanalmente, dimostrando prestazioni notevoli nel compito di generazione del codice. Sono stati proposti vari approcci per migliorare le prestazioni di generazione del codice dei Code LLM pre-addestrati, come il fine-tuning supervisionato, l'instruction tuning, il reinforcement learning, ecc. In questo articolo, proponiamo un nuovo framework RRTF (Rank Responses to align Test&Teacher Feedback), che può potenziare in modo efficace ed efficiente i grandi language model pre-addestrati per la generazione del codice. All'interno di questo framework, presentiamo PanGu-Coder2, che raggiunge il 62,20% di pass@1 sul benchmark OpenAI HumanEval. Inoltre, attraverso una valutazione estensiva sui benchmark CoderEval e LeetCode, dimostriamo che PanGu-Coder2 supera costantemente tutti i precedenti Code LLM.
Presentiamo TransNormerLLM, il primo Large Language Model (LLM) basato su attenzione lineare che supera i modelli convenzionali basati su attenzione softmax sia in termini di accuratezza che di efficienza. TransNormerLLM si evolve dall'architettura di attenzione lineare precedente, TransNormer, apportando modifiche avanzate che includono l'embedding posizionale, l'accelerazione dell'attenzione lineare, un meccanismo di gating, la normalizzazione tensoriale, l'accelerazione e la stabilizzazione dell'inferenza. Nello specifico, utilizziamo LRPE insieme a un decadimento esponenziale per evitare problemi di diluizione dell'attenzione, consentendo al modello di mantenere interazioni globali tra i token. Inoltre, proponiamo Lightning Attention, una tecnica all'avanguardia che accelera l'attenzione lineare più del doppio in termini di runtime e riduce l'uso della memoria di ben quattro volte. Per migliorare ulteriormente le prestazioni di TransNormer, sfruttiamo un meccanismo di gating per rendere più fluido l'addestramento e un nuovo schema di normalizzazione tensoriale per accelerare il modello, ottenendo un'impressionante accelerazione superiore al 20%. Inoltre, abbiamo sviluppato un robusto algoritmo di inferenza che garantisce stabilità numerica e velocità di inferenza costante, indipendentemente dalla lunghezza della sequenza, dimostrando un'efficienza superiore sia durante l'addestramento che durante l'inferenza. La scalabilità è al centro del design del nostro modello, consentendo un'implementazione senza soluzione di continuità su cluster di grandi dimensioni e facilitando l'espansione verso modelli ancora più estesi, mantenendo al contempo metriche di prestazioni eccezionali. La validazione rigorosa del design del nostro modello è stata ottenuta attraverso una serie di esperimenti completi sul nostro corpus auto-raccolto, che vanta una dimensione superiore a 6TB e contiene oltre 2 trilioni di token. Per garantire la qualità e la rilevanza dei dati, implementiamo una nuova strategia di auto-pulizia per filtrare i dati raccolti. I nostri modelli pre-addestrati verranno rilasciati per favorire i progressi della comunità nell'ambito degli LLM efficienti.
Presentiamo un framework per l'acquisizione di competenze robotiche, che 1) scala in modo efficiente la generazione di dati etichettati linguisticamente per i robot e 2) distilla efficacemente questi dati in una politica visuo-motoria condizionata al linguaggio e robusta per compiti multipli. Per (1), utilizziamo un modello linguistico di grandi dimensioni (LLM) per guidare la pianificazione di alto livello e pianificatori robotici basati su campionamento (ad esempio, campionatori di movimento o presa) per generare traiettorie di manipolazione diverse e ricche. Per rendere robusto questo processo di raccolta dati, l'LLM inferisce anche un frammento di codice per la condizione di successo di ciascun compito, consentendo contemporaneamente al processo di raccolta dati di rilevare gli errori e riprovare, nonché l'etichettatura automatica delle traiettorie con successo/fallimento. Per (2), estendiamo l'approccio di clonazione del comportamento a singolo compito della politica di diffusione a contesti multi-compito con condizionamento linguistico. Infine, proponiamo un nuovo benchmark multi-compito con 18 compiti in cinque domini per testare comportamenti a lungo termine, ragionamento di senso comune, uso di strumenti e fisica intuitiva. Rileviamo che la nostra politica distillata ha appreso con successo il comportamento robusto di riprova presente nella politica di raccolta dati, migliorando i tassi di successo assoluti in media del 34,8% su cinque domini. Il benchmark, il codice e i risultati qualitativi sono disponibili sul nostro sito web https://www.cs.columbia.edu/~huy/scalingup/.
Il tracciamento visivo di oggetti è un compito video fondamentale nel campo della visione artificiale. Recentemente, il notevole aumento della potenza degli algoritmi di percezione consente l'unificazione del tracciamento di singoli/multipli oggetti e basato su box/maschere. Tra questi, il Segment Anything Model (SAM) attira molta attenzione. In questo rapporto, proponiamo HQTrack, un framework per il tracciamento di alta qualità di qualsiasi elemento nei video. HQTrack è composto principalmente da un segmentatore video multi-oggetto (VMOS) e da un raffinatore di maschere (MR). Dato l'oggetto da tracciare nel frame iniziale di un video, VMOS propaga le maschere dell'oggetto al frame corrente. I risultati delle maschere in questa fase non sono sufficientemente accurati poiché VMOS è addestrato su diversi dataset di segmentazione video di oggetti (VOS) chiusi, che hanno una capacità limitata di generalizzare a scene complesse e di angolo. Per migliorare ulteriormente la qualità delle maschere di tracciamento, viene impiegato un modello MR pre-addestrato per affinare i risultati del tracciamento. Come una testimonianza convincente dell'efficacia del nostro paradigma, senza utilizzare trucchi come aumentazioni dei dati al momento del test e ensemble di modelli, HQTrack si classifica al 2° posto nella sfida di Visual Object Tracking and Segmentation (VOTS2023). Il codice e i modelli sono disponibili all'indirizzo https://github.com/jiawen-zhu/HQTrack.
La medicina è intrinsecamente multimodale, con ricche modalità di dati che spaziano da testi, immagini, genomica e altro ancora. I sistemi di intelligenza artificiale (AI) biomedica generalisti che codificano, integrano e interpretano in modo flessibile questi dati su larga scala possono potenzialmente abilitare applicazioni di impatto che vanno dalla scoperta scientifica alla fornitura di cure. Per favorire lo sviluppo di questi modelli, abbiamo prima curato MultiMedBench, un nuovo benchmark biomedico multimodale. MultiMedBench comprende 14 task diversi come risposte a domande mediche, interpretazione di immagini mammografiche e dermatologiche, generazione e riassunto di referti radiologici e chiamata di varianti genomiche. Introduciamo poi Med-PaLM Multimodale (Med-PaLM M), la nostra prova di concetto per un sistema di AI biomedica generalista. Med-PaLM M è un grande modello generativo multimodale che codifica e interpreta in modo flessibile dati biomedici, tra cui linguaggio clinico, immagini e genomica, utilizzando lo stesso set di pesi del modello. Med-PaLM M raggiunge prestazioni competitive o superiori allo stato dell'arte in tutti i task di MultiMedBench, spesso superando ampiamente i modelli specialistici. Riportiamo anche esempi di generalizzazione zero-shot a nuovi concetti e task medici, trasferimento positivo di apprendimento tra task e ragionamento medico emergente zero-shot. Per approfondire le capacità e i limiti di Med-PaLM M, abbiamo condotto una valutazione radiologica di referti generati dal modello (e umani) per radiografie del torace, osservando prestazioni incoraggianti su diverse scale del modello. In una classifica comparativa su 246 radiografie del torace retrospettive, i clinici hanno espresso una preferenza a coppie per i referti di Med-PaLM M rispetto a quelli prodotti dai radiologi in fino al 40,50% dei casi, suggerendo una potenziale utilità clinica. Sebbene sia necessario un lavoro considerevole per validare questi modelli in casi d'uso reali, i nostri risultati rappresentano una pietra miliare verso lo sviluppo di sistemi di AI biomedica generalisti.
La generazione di modelli 3D da testo ha recentemente attirato notevole attenzione, grazie ai modelli di diffusione 2D addestrati su miliardi di coppie immagine-testo. I metodi esistenti si basano principalmente sulla distillazione del punteggio per sfruttare i precedenti di diffusione 2D e supervisionare la generazione di modelli 3D, come ad esempio NeRF. Tuttavia, la distillazione del punteggio è incline a soffrire del problema dell'inconsistenza delle viste, e la modellazione implicita di NeRF può anche portare a forme arbitrarie, risultando in una generazione 3D meno realistica e incontrollabile. In questo lavoro, proponiamo un framework flessibile chiamato Points-to-3D per colmare il divario tra punti 3D sparsi ma liberamente disponibili e una generazione 3D realistica e controllabile nella forma, distillando la conoscenza sia da modelli di diffusione 2D che 3D. L'idea centrale di Points-to-3D è introdurre punti 3D sparsi controllabili per guidare la generazione di modelli 3D da testo. Nello specifico, utilizziamo la nuvola di punti sparsa generata dal modello di diffusione 3D, Point-E, come precedente geometrico, condizionato da una singola immagine di riferimento. Per sfruttare al meglio i punti 3D sparsi, proponiamo una perdita di guida efficiente per la nuvola di punti che adattivamente spinge la geometria di NeRF ad allinearsi con la forma dei punti 3D sparsi. Oltre a controllare la geometria, proponiamo di ottimizzare NeRF per un aspetto più coerente tra le viste. Nello specifico, eseguiamo la distillazione del punteggio sul modello di diffusione di immagini 2D pubblicamente disponibile ControlNet, condizionato sia dal testo che dalla mappa di profondità della geometria compatta appresa. Confronti qualitativi e quantitativi dimostrano che Points-to-3D migliora la coerenza delle viste e raggiunge una buona controllabilità della forma nella generazione di modelli 3D da testo. Points-to-3D offre agli utenti un nuovo modo per migliorare e controllare la generazione di modelli 3D da testo.
Per un artista o un graphic designer, il layout spaziale di una scena è una scelta progettuale cruciale. Tuttavia, i modelli di diffusione testo-immagine esistenti offrono un supporto limitato per l'incorporazione di informazioni spaziali. Questo articolo introduce la Diffusione Composita come mezzo per gli artisti di generare immagini di alta qualità componendo da sotto-scene. Gli artisti possono specificare la disposizione di queste sotto-scene attraverso un layout a segmenti libero e flessibile. Possono descrivere il contenuto di ciascuna sotto-scena principalmente utilizzando testo naturale e, in aggiunta, sfruttando immagini di riferimento o input di controllo come linee, schizzi, pose umane, bordi Canny e altro. Forniamo un metodo completo e modulare per la Diffusione Composita che consente modalità alternative di generazione, composizione e armonizzazione delle sotto-scene. Inoltre, desideriamo valutare l'immagine composita per l'efficacia sia nella qualità dell'immagine che nel raggiungimento dell'intento dell'artista. Sosteniamo che le metriche esistenti per la qualità dell'immagine mancano di una valutazione olistica delle immagini composite. Per affrontare questo problema, proponiamo nuovi criteri di qualità particolarmente rilevanti per la generazione composita. Crediamo che il nostro approccio fornisca un metodo intuitivo di creazione artistica. Attraverso ampi sondaggi utente, analisi quantitative e qualitative, dimostriamo come esso raggiunga un maggiore controllo spaziale, semantico e creativo sulla generazione delle immagini. Inoltre, i nostri metodi non necessitano di riaddestrare o modificare l'architettura dei modelli di diffusione di base e possono funzionare in modalità plug-and-play con i modelli fine-tunati.
Studiamo il miglioramento degli agenti conversazionali sociali apprendendo da dialoghi naturali tra utenti e un modello già implementato, senza annotazioni aggiuntive. Per misurare implicitamente la qualità di un'espressione generata dalla macchina, sfruttiamo segnali come la lunghezza della risposta dell'utente, il sentimento e la reazione delle future espressioni umane negli episodi di dialogo raccolti. I nostri esperimenti utilizzano i dati di implementazione pubblicamente disponibili di BlenderBot (Xu et al., 2023). Le valutazioni umane indicano miglioramenti nei nostri nuovi modelli rispetto alle risposte di base; tuttavia, scopriamo che alcuni segnali proxy possono portare anche a generazioni con proprietà indesiderate. Ad esempio, ottimizzare per la lunghezza della conversazione può portare a generazioni più controverse o poco amichevoli rispetto al modello di base, mentre ottimizzare per un sentimento o una reazione positiva può ridurre questi comportamenti.
I recenti vision transformer, CNN con kernel di grandi dimensioni e MLP hanno ottenuto successi notevoli in un'ampia gamma di compiti visivi grazie alla loro efficace fusione di informazioni su scala globale. Tuttavia, il loro dispiegamento efficiente, specialmente su dispositivi mobili, continua a incontrare sfide significative a causa degli elevati costi computazionali dei meccanismi di self-attention, dei kernel di grandi dimensioni o degli strati completamente connessi. In questo lavoro, applichiamo il teorema di convoluzione tradizionale al deep learning per affrontare questo problema e dimostriamo che i filtri di frequenza adattivi possono fungere da efficienti miscelatori di token globali. Con questa intuizione, proponiamo il miscelatore di token Adaptive Frequency Filtering (AFF). Questo operatore neurale trasferisce una rappresentazione latente nel dominio della frequenza tramite una trasformata di Fourier ed esegue un filtraggio di frequenza semantico-adattivo tramite una moltiplicazione elemento per elemento, che matematicamente equivale a un'operazione di miscelazione di token nello spazio latente originale con un kernel di convoluzione dinamico grande quanto la risoluzione spaziale di questa rappresentazione latente. Utilizziamo i miscelatori di token AFF come operatori neurali primari per costruire una rete neurale leggera, denominata AFFNet. Esperimenti estensivi dimostrano l'efficacia del nostro miscelatore di token AFF proposto e mostrano che AFFNet raggiunge un equilibrio superiore tra accuratezza ed efficienza rispetto ad altri progetti di reti leggere in un'ampia gamma di compiti visivi, inclusi il riconoscimento visivo e i compiti di predizione densa.
Il campo della previsione delle traiettorie è cresciuto significativamente negli ultimi anni, in parte grazie al rilascio di numerosi dataset su larga scala e reali di traiettorie umane per veicoli autonomi (AV) e il tracciamento del movimento dei pedoni. Sebbene tali dataset siano stati una risorsa preziosa per la comunità, ciascuno di essi utilizza formati di dati e API personalizzati e unici, rendendo complesso per i ricercatori addestrare e valutare metodi su più dataset. Per rimediare a ciò, presentiamo trajdata: un'interfaccia unificata per più dataset di traiettorie umane. Al suo interno, trajdata fornisce una rappresentazione e un'API semplici, uniformi ed efficienti per i dati di traiettoria e mappa. Come dimostrazione delle sue capacità, in questo lavoro conduciamo una valutazione empirica completa dei dataset di traiettorie esistenti, offrendo agli utenti una comprensione approfondita dei dati alla base di gran parte della ricerca attuale sulla previsione del movimento dei pedoni e dei veicoli autonomi, e proponendo suggerimenti per futuri dataset sulla base di queste intuizioni. trajdata è rilasciato con licenza permissiva (Apache 2.0) ed è accessibile online all'indirizzo https://github.com/NVlabs/trajdata.