Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studiamo empiricamente una semplice strategia di potatura dei livelli per famiglie popolari di LLM pre-addestrati a peso aperto, riscontrando un degrado minimo delle prestazioni su diversi benchmark di risposta alle domande fino a quando non viene rimossa una grande frazione (fino alla metà) dei livelli. Per potare questi modelli, identifichiamo il blocco ottimale di livelli da rimuovere considerando la similarità tra i livelli; quindi, per "riparare" il danno, eseguiamo una piccola quantità di fine-tuning. In particolare, utilizziamo metodi di fine-tuning efficiente in termini di parametri (PEFT), specificamente quantizzazione e Low Rank Adapters (QLoRA), in modo che ciascuno dei nostri esperimenti possa essere eseguito su una singola GPU A100. Da un punto di vista pratico, questi risultati suggeriscono che i metodi di potatura dei livelli possono complementare altre strategie PEFT per ridurre ulteriormente le risorse computazionali del fine-tuning da un lato e migliorare la memoria e la latenza dell'inferenza dall'altro. Da un punto di vista scientifico, la robustezza di questi LLMs alla rimozione dei livelli implica che i metodi di pre-addestramento attuali non stanno sfruttando adeguatamente i parametri negli strati più profondi della rete o che gli strati superficiali svolgono un ruolo critico nella memorizzazione della conoscenza.
L'evoluzione dei Large Language Models (LLM) come ChatGPT e GPT-4 ha stimolato discussioni sull'avvento dell'Intelligenza Artificiale Generale (AGI). Tuttavia, replicare tali progressi in modelli open-source si è rivelato impegnativo. Questo articolo introduce InternLM2, un LLM open-source che supera i suoi predecessori in valutazioni complete su 6 dimensioni e 30 benchmark, nella modellazione di contesti lunghi e in valutazioni soggettive aperte, grazie a innovative tecniche di pre-training e ottimizzazione. Il processo di pre-training di InternLM2 è descritto in dettaglio, evidenziando la preparazione di diversi tipi di dati, inclusi testo, codice e dati a contesto lungo. InternLM2 cattura in modo efficiente le dipendenze a lungo termine, inizialmente addestrato su 4k token prima di progredire a 32k token nelle fasi di pre-training e fine-tuning, dimostrando prestazioni notevoli nel test "Needle-in-a-Haystack" da 200k token. InternLM2 è ulteriormente allineato utilizzando il Supervised Fine-Tuning (SFT) e una nuova strategia di Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) che affronta preferenze umane conflittuali e il fenomeno del reward hacking. Rilasciando modelli InternLM2 in diverse fasi di addestramento e dimensioni, forniamo alla comunità approfondimenti sull'evoluzione del modello.
Il 3D Gaussian Splatting (3DGS) ha recentemente rivoluzionato la ricostruzione dei campi di radianza, raggiungendo una sintesi di nuove viste di alta qualità e una velocità di rendering rapida senza necessità di baking. Tuttavia, il 3DGS non riesce a rappresentare accuratamente le superfici a causa della natura multivista incoerente dei Gaussian 3D. Presentiamo il 2D Gaussian Splatting (2DGS), un approccio innovativo per modellare e ricostruire campi di radianza geometricamente accurati a partire da immagini multivista. La nostra idea chiave è collassare il volume 3D in un insieme di dischi Gaussian 2D orientati. A differenza dei Gaussian 3D, i Gaussian 2D forniscono una geometria coerente rispetto alla vista, modellando intrinsecamente le superfici. Per recuperare accuratamente superfici sottili e ottenere un'ottimizzazione stabile, introduciamo un processo di splatting 2D accurato dal punto di vista prospettico, utilizzando l'intersezione raggio-splat e la rasterizzazione. Inoltre, incorporiamo termini di distorsione della profondità e di coerenza delle normali per migliorare ulteriormente la qualità delle ricostruzioni. Dimostriamo che il nostro renderer differenziabile consente una ricostruzione della geometria priva di rumore e dettagliata, mantenendo una qualità dell'aspetto competitiva, una velocità di addestramento rapida e un rendering in tempo reale. Il nostro codice sarà reso pubblicamente disponibile.
Gli impressionanti progressi nei modelli generativi testo-immagine (T2I) hanno portato a una pletora di modelli ad alte prestazioni in grado di generare immagini esteticamente gradevoli e fotorealistiche. Nonostante i progressi, questi modelli continuano a lottare per produrre immagini coerenti con il prompt di input, spesso non riuscendo a catturare correttamente quantità, relazioni e attributi degli oggetti. Le soluzioni esistenti per migliorare la coerenza tra prompt e immagine affrontano le seguenti sfide: (1) spesso richiedono un fine-tuning del modello, (2) si concentrano solo su campioni di prompt vicini e (3) sono influenzate da compromessi sfavorevoli tra qualità dell'immagine, diversità della rappresentazione e coerenza tra prompt e immagine. In questo articolo, affrontiamo queste sfide e introduciamo un framework di ottimizzazione tramite prompt per i modelli T2I, chiamato OPT2I, che sfrutta un modello linguistico di grandi dimensioni (LLM) per migliorare la coerenza tra prompt e immagine nei modelli T2I. Il nostro framework parte da un prompt dell'utente e genera iterativamente prompt rivisti con l'obiettivo di massimizzare un punteggio di coerenza. La nostra ampia validazione su due dataset, MSCOCO e PartiPrompts, dimostra che OPT2I può aumentare il punteggio di coerenza iniziale fino al 24,9% in termini di punteggio DSG, preservando l'FID e aumentando il richiamo tra i dati generati e quelli reali. Il nostro lavoro apre la strada verso la costruzione di sistemi T2I più affidabili e robusti sfruttando la potenza degli LLM.
Le tecniche recenti per la generazione di testo-a-4D sintetizzano scene 3D dinamiche utilizzando la supervisione di modelli pre-addestrati di testo-a-video. Tuttavia, le rappresentazioni esistenti per il movimento, come i modelli di deformazione o le rappresentazioni neurali dipendenti dal tempo, sono limitate nella quantità di movimento che possono generare: non sono in grado di sintetizzare movimenti che si estendono ben oltre il bounding box utilizzato per il rendering volumetrico. La mancanza di un modello di movimento più flessibile contribuisce al divario nel realismo tra i metodi di generazione 4D e i recenti modelli di generazione video quasi fotorealistici. Qui proponiamo TC4D: generazione testo-a-4D condizionata alla traiettoria, che scompone il movimento in componenti globali e locali. Rappresentiamo il movimento globale del bounding box di una scena utilizzando trasformazioni rigide lungo una traiettoria parametrizzata da una spline. Apprendiamo deformazioni locali che si conformano alla traiettoria globale utilizzando la supervisione di un modello testo-a-video. Il nostro approccio consente la sintesi di scene animate lungo traiettorie arbitrarie, la generazione composizionale di scene e significativi miglioramenti nel realismo e nella quantità di movimento generato, che valutiamo qualitativamente e attraverso uno studio con utenti. I risultati video possono essere visualizzati sul nostro sito web: https://sherwinbahmani.github.io/tc4d.
Il recente metodo di 3D Gaussian splatting (3D-GS) ha dimostrato una notevole fedeltà ed efficienza di rendering rispetto alle rappresentazioni neurali di scene basate su NeRF. Pur mostrando un potenziale per il rendering in tempo reale, il 3D-GS incontra colli di bottiglia nel rendering di scene ampie con dettagli complessi a causa di un numero eccessivo di primitive gaussiane situate all'interno del frustum visivo. Questa limitazione è particolarmente evidente nelle viste zoomate e può portare a velocità di rendering inconsistenti in scene con dettagli variabili. Inoltre, spesso fatica a catturare il corrispondente livello di dettaglio a diverse scale con la sua operazione euristica di controllo della densità. Ispirati dalle tecniche di Level-of-Detail (LOD), introduciamo Octree-GS, che presenta un approccio a 3D Gaussian strutturato con LOD, supportando la scomposizione del livello di dettaglio per la rappresentazione della scene che contribuisce ai risultati finali del rendering. Il nostro modello seleziona dinamicamente il livello appropriato da un insieme di punti di ancoraggio multi-risoluzione, garantendo prestazioni di rendering consistenti con adattamenti LOD adattativi, mantenendo al contempo risultati di rendering ad alta fedeltà.
In questo studio, proponiamo AniPortrait, un nuovo framework per la generazione di animazioni di alta qualità guidate da audio e un'immagine ritratto di riferimento. La nostra metodologia è suddivisa in due fasi. Inizialmente, estraiamo rappresentazioni intermedie 3D dall'audio e le proiettiamo in una sequenza di landmark facciali 2D. Successivamente, utilizziamo un robusto modello di diffusione, accoppiato con un modulo di movimento, per convertire la sequenza di landmark in un'animazione ritratto fotorealistica e temporalmente coerente. I risultati sperimentali dimostrano la superiorità di AniPortrait in termini di naturalezza facciale, diversità delle pose e qualità visiva, offrendo così un'esperienza percettiva migliorata. Inoltre, la nostra metodologia mostra un potenziale considerevole in termini di flessibilità e controllabilità, che può essere efficacemente applicata in aree come l'editing del movimento facciale o il reenactment facciale. Rilasciamo il codice e i pesi del modello all'indirizzo https://github.com/scutzzj/AniPortrait.
Presentiamo DreamPolisher, un metodo innovativo basato su Gaussian Splatting con guida geometrica, progettato per apprendere la coerenza tra diverse viste e dettagli intricati a partire da descrizioni testuali. Sebbene i recenti progressi nei metodi di generazione da testo a 3D siano promettenti, le tecniche prevalenti spesso non riescono a garantire coerenza tra le viste e ricchezza testurale. Questo problema è particolarmente evidente nei metodi che lavorano esclusivamente con input testuali. Per affrontare questa sfida, proponiamo un approccio in due fasi basato su Gaussian Splatting che impone coerenza geometrica tra le viste. Inizialmente, una generazione 3D approssimativa viene raffinata attraverso un'ottimizzazione geometrica. Successivamente, utilizziamo un perfezionatore guidato da ControlNet accoppiato con un termine di coerenza geometrica per migliorare sia la fedeltà delle texture che la coerenza complessiva dell'asset 3D generato. Valutazioni empiriche su una varietà di prompt testuali che coprono diverse categorie di oggetti dimostrano l'efficacia di DreamPolisher nel generare oggetti 3D coerenti e realistici, allineandosi strettamente con la semantica delle istruzioni testuali.
Questo articolo presenta un'implementazione SYCL di Multi-Layer Perceptron (MLP), ottimizzata e specificamente progettata per la GPU Intel Data Center GPU Max 1550. Per aumentare le prestazioni, la nostra implementazione minimizza gli accessi lenti alla memoria globale massimizzando il riutilizzo dei dati all'interno del registro generale e della memoria locale condivisa, fondendo le operazioni in ciascun livello dell'MLP. Dimostriamo, attraverso un semplice modello roofline, che ciò comporta un significativo aumento dell'intensità aritmetica, portando a miglioramenti nelle prestazioni, specialmente per l'inferenza. Confrontiamo il nostro approccio con un'implementazione CUDA simile per MLP e mostriamo che la nostra implementazione sulla GPU Intel supera l'implementazione CUDA sulla GPU Nvidia H100 di un fattore fino a 2,84 nell'inferenza e 1,75 nell'addestramento. L'articolo evidenzia inoltre l'efficienza della nostra implementazione SYCL in tre aree significative: Compressione delle Immagini, Campi di Radianza Neurale e Machine Learning con Fisica Integrata. In tutti i casi, la nostra implementazione supera l'implementazione predefinita di Intel Extension for PyTorch (IPEX) sulla stessa GPU Intel di un fattore fino a 30 e la versione CUDA di PyTorch sulla GPU Nvidia H100 di un fattore fino a 19. Il codice è disponibile all'indirizzo https://github.com/intel/tiny-dpcpp-nn.