Articoli di ricerca IA selezionati quotidianamente con traduzioni
Recentemente c'è stato un crescente interesse nello studio di come costruire dati di sintonizzazione delle istruzioni di codice migliori. Tuttavia, osserviamo che i modelli di codice addestrati con questi set di dati mostrano elevate prestazioni su HumanEval ma ottengono risultati peggiori su altri benchmark come LiveCodeBench. Dopo un'ulteriore indagine, scopriamo che molti set di dati soffrono di gravi perdite di dati. Dopo aver eliminato la maggior parte dei dati fuoriusciti, alcuni noti set di dati di alta qualità ottengono prestazioni scadenti. Questa scoperta rivela una nuova sfida: identificare quali set di dati si qualificano effettivamente come dati di istruzioni di codice di alta qualità. Per affrontare questo problema, proponiamo una strategia efficiente di potatura dei dati di codice per la selezione di campioni validi. Il nostro approccio si basa su tre dimensioni: complessità dell'istruzione, qualità della risposta e diversità dell'istruzione. Sulla base dei nostri dati selezionati, presentiamo XCoder, una famiglia di modelli ottimizzati da LLaMA3. I nostri esperimenti mostrano che XCoder raggiunge nuove prestazioni di primo piano utilizzando meno dati di addestramento, confermando l'efficacia della nostra strategia sui dati. Inoltre, conduciamo un'analisi esaustiva sulla composizione dei dati e scopriamo che i set di dati di codice esistenti hanno caratteristiche diverse in base ai loro metodi di costruzione, offrendo nuove prospettive per i futuri LLM di codice. I nostri modelli e set di dati sono disponibili su https://github.com/banksy23/XCoder
I progressi nei LLM hanno recentemente rivelato sfide legate all'efficienza computazionale e alla scalabilità continua a causa dei loro requisiti di enormi parametri, rendendo sempre più complicata l'applicazione e l'evoluzione di questi modelli su dispositivi con risorse di calcolo limitate e in scenari che richiedono varie abilità. Ispirati alla modularità nel cervello umano, c'è una crescente tendenza a decomporre i LLM in numerosi moduli funzionali, consentendo inferenze con parte dei moduli e l'assemblaggio dinamico dei moduli per affrontare compiti complessi, come il mixture-of-experts. Per evidenziare l'efficienza intrinseca e la componibilità dell'approccio modulare, coniamo il termine mattoncino per rappresentare ciascun modulo funzionale, designando la struttura modularizzata come modelli fondamentali configurabili. In questo articolo, offriamo una panoramica completa e un'indagine sulla costruzione, l'utilizzo e i limiti dei modelli fondamentali configurabili. Formalizziamo prima i moduli in mattoncini emergenti - partizioni funzionali dei neuroni che emergono durante la fase di pre-training, e mattoncini personalizzati - mattoncini costruiti tramite ulteriore post-training per migliorare le capacità e le conoscenze dei LLM. Sulla base di diversi mattoncini funzionali, presentiamo inoltre quattro operazioni orientate ai mattoncini: recupero e instradamento, fusione, aggiornamento e crescita. Queste operazioni consentono la configurazione dinamica dei LLM basata su istruzioni per gestire compiti complessi. Per verificare la nostra prospettiva, conduciamo un'analisi empirica su LLM ampiamente utilizzati. Troviamo che gli strati FFN seguono schemi modulari con specializzazione funzionale dei neuroni e partizioni funzionali dei neuroni. Infine, evidenziamo diverse questioni aperte e direzioni per la ricerca futura. In generale, questo articolo mira a offrire una prospettiva modulare fresca sulla ricerca esistente sui LLM e a ispirare la creazione futura di modelli fondamentali più efficienti e scalabili.
Presentiamo Open-MAGVIT2, una famiglia di modelli di generazione di immagini auto-regressivi che vanno da 300M a 1.5B. Il progetto Open-MAGVIT2 produce una replica open-source del tokenizer MAGVIT-v2 di Google, un tokenizer con un codice super-grande (cioè, 2^{18} codici), e raggiunge le prestazioni di ricostruzione all'avanguardia (1.17 rFID) su ImageNet 256 per 256. Inoltre, esploriamo la sua applicazione in modelli auto-regressivi semplici e convalidiamo le proprietà di scalabilità. Per assistere i modelli auto-regressivi nella previsione con un vocabolario super-grande, lo suddividiamo in due sub-vocabolari di dimensioni diverse mediante una fattorizzazione asimmetrica dei token, e introduciamo inoltre la "previsione del prossimo sub-token" per potenziare l'interazione tra i sub-token per una migliore qualità di generazione. Rilasciamo tutti i modelli e i codici per promuovere l'innovazione e la creatività nel campo della generazione visiva auto-regressiva.
Il meccanismo di autoattenzione globale nei trasformatori a diffusione comporta una computazione ridondante a causa della natura sparsa e ridondante delle informazioni visive, e la mappa di attenzione dei token all'interno di una finestra spaziale mostra una significativa similarità. Per affrontare questa ridondanza, proponiamo il Proxy Token Diffusion Transformer (PT-DiT), che utilizza un'attenzione sparsa sui token rappresentativi (dove il numero di token rappresentativi è molto più piccolo rispetto al numero totale di token) per modellare efficientemente le informazioni visive globali. Nello specifico, in ogni blocco del trasformatore, campioniamo casualmente un token da ogni finestra spazio-temporale per fungere da token proxy per quella regione. Le semantica globali sono catturate attraverso l'autoattenzione di questi token proxy e poi iniettate in tutti i token latenti tramite l'attenzione incrociata. Allo stesso tempo, introduciamo l'attenzione alla finestra e l'attenzione allo spostamento della finestra per affrontare le limitazioni nella modellazione dettagliata causate dal meccanismo di attenzione sparsa. Basandoci sul ben progettato PT-DiT, sviluppiamo ulteriormente la famiglia Qihoo-T2X, che include una varietà di modelli per compiti T2I, T2V e T2MV. I risultati sperimentali mostrano che PT-DiT raggiunge prestazioni competitive riducendo la complessità computazionale sia nei compiti di generazione di immagini che di video (ad esempio, una riduzione del 48% rispetto a DiT e una riduzione del 35% rispetto a Pixart-alpha). Il nostro codice sorgente è disponibile su https://github.com/360CVGroup/Qihoo-T2X.
La ricostruzione di modelli umani 3D realistici da immagini monoculari ha significative applicazioni nelle industrie creative, nelle interfacce uomo-computer e nell'assistenza sanitaria. Basiamo il nostro lavoro su Splatting Gaussiano 3D (3DGS), una rappresentazione della scena composta da una miscela di Gaussiane. Prevedere tali miscele per un essere umano da un'unica immagine di input è una sfida, poiché si tratta di una densità non uniforme (con una relazione molti-a-uno con i pixel di input) con rigide restrizioni fisiche. Allo stesso tempo, deve essere flessibile per adattarsi a una varietà di abiti e pose. La nostra osservazione chiave è che i vertici delle mesh umane standardizzate (come SMPL) possono fornire una densità adeguata e una posizione iniziale approssimativa per le Gaussiane. Possiamo quindi addestrare un modello trasformatore per prevedere congiuntamente aggiustamenti relativamente piccoli a queste posizioni, nonché gli attributi delle altre Gaussiane e i parametri SMPL. Dimostriamo empiricamente che questa combinazione (utilizzando solo supervisione multi-vista) può ottenere un'infusione rapida di modelli umani 3D da un'unica immagine senza ottimizzazione al momento del test, modelli di diffusione costosi o supervisione di punti 3D. Mostriamo inoltre che può migliorare la stima della posa 3D adattando meglio modelli umani che tengono conto di abiti e altre variazioni. Il codice è disponibile sul sito web del progetto https://abdullahamdi.com/gst/.
Le capacità dei modelli linguistici a lungo contesto (LM) vengono spesso valutate utilizzando il test "Ago in un pagliaio" (Needle-in-a-Haystack, NIAH), che comprende compiti progettati per valutare la capacità di un modello di identificare informazioni specifiche ("ago") all'interno di lunghe sequenze di testo ("pagliaio"). Mentre questi benchmark misurano quanto bene i modelli comprendono sequenze di input a lungo contesto, non valutano efficacemente la qualità della generazione di testo a lungo formato, un aspetto critico per applicazioni come proposte di design e scrittura creativa. Per affrontare questa lacuna, abbiamo introdotto un nuovo benchmark di valutazione del testo a lungo formato, Spinning the Golden Thread (SGT), che mette alla prova la capacità dei modelli di identificare eventi specifici all'interno di lunghe sequenze di testo generate. In questo benchmark, chiediamo ai LM a lungo contesto di creare testo a lungo formato che deve includere eventi o vincoli specifici e valutare la loro capacità di incorporare questi elementi. Abbiamo valutato dieci LM a lungo contesto in quattro scenari distinti, tre tipi di istruzioni di prompt e due diverse impostazioni di lunghezza di generazione (16K e 32K). Anche se questi modelli ottengono buoni risultati nei benchmark NIAH, nessuno ha dimostrato una performance soddisfacente nel test Spinning the Golden Thread, sollevando preoccupazioni sulla loro capacità di generare testo a lungo formato coerente che segua le istruzioni. Inoltre, all'aumentare della lunghezza del testo generato, tutti i modelli mostrano un significativo calo delle prestazioni.