Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il modello di consistenza (CM) ha recentemente compiuto progressi significativi nell'accelerazione della generazione di modelli di diffusione. Tuttavia, la sua applicazione alla generazione di immagini ad alta risoluzione condizionate da testo nello spazio latente (noto come LCM) rimane insoddisfacente. In questo articolo, identifichiamo tre principali difetti nell'attuale progettazione dell'LCM. Investigiamo le ragioni alla base di queste limitazioni e proponiamo il Modello di Consistenza Faseggiata (PCM), che generalizza lo spazio di progettazione e affronta tutte le limitazioni identificate. Le nostre valutazioni dimostrano che il PCM supera significativamente l'LCM in contesti di generazione da 1 a 16 passi. Sebbene il PCM sia specificamente progettato per il raffinamento multi-passo, ottiene risultati di generazione a 1 passo superiori o comparabili ai metodi a 1 passo precedentemente all'avanguardia. Inoltre, mostriamo che la metodologia del PCM è versatile e applicabile alla generazione di video, consentendoci di addestrare il generatore testo-video a pochi passi più avanzato. Ulteriori dettagli sono disponibili su https://g-u-n.github.io/projects/pcm/.
Man mano che le Reti Neurali Profonde (DNN) crescono in dimensioni e complessità, spesso superano la capacità di memoria di un singolo acceleratore, rendendo necessario lo sharding dei parametri del modello su più acceleratori. Il parallelismo pipeline è una strategia di sharding comunemente utilizzata per l'addestramento di grandi DNN. Tuttavia, le attuali implementazioni del parallelismo pipeline sono involontariamente limitate dagli strumenti di differenziazione automatica forniti dai framework di machine learning. Questo articolo introduce la retropropagazione a 2 stadi (2BP). Suddividendo il passo di propagazione all'indietro in due fasi separate, è possibile ridurre il tempo di inattività del calcolo. Abbiamo testato 2BP su varie architetture di modelli e schedulazioni di pipeline, ottenendo aumenti di throughput in tutti i casi. Utilizzando 2BP, siamo riusciti a ottenere un aumento di 1,70x nel throughput rispetto ai metodi tradizionali durante l'addestramento di un trasformatore simile a LLaMa con 7 miliardi di parametri su 4 GPU.
I recenti progressi nell'editing testo-musica, che utilizzano query testuali per modificare la musica (ad esempio, cambiandone lo stile o aggiustando i componenti strumentali), presentano sfide e opportunità uniche per la creazione musicale assistita dall'IA. Gli approcci precedenti in questo ambito sono stati limitati dalla necessità di addestrare modelli di editing specifici da zero, un processo che è sia dispendioso in termini di risorse che inefficiente; altre ricerche utilizzano modelli linguistici di grandi dimensioni per prevedere la musica modificata, ottenendo una ricostruzione audio imprecisa. Per combinare i punti di forza e affrontare queste limitazioni, introduciamo Instruct-MusicGen, un approccio innovativo che ottimizza un modello MusicGen preaddestrato per seguire in modo efficiente istruzioni di editing come l'aggiunta, la rimozione o la separazione di tracce. Il nostro approccio prevede una modifica dell'architettura originale di MusicGen attraverso l'incorporazione di un modulo di fusione testuale e un modulo di fusione audio, che consentono al modello di elaborare contemporaneamente testi di istruzione e input audio, producendo la musica modificata desiderata. Notevolmente, Instruct-MusicGen introduce solo l'8% di nuovi parametri rispetto al modello MusicGen originale e viene addestrato per soli 5K passi, ottenendo comunque prestazioni superiori in tutti i compiti rispetto ai baselines esistenti e dimostrando prestazioni paragonabili ai modelli addestrati per compiti specifici. Questo avanzamento non solo migliora l'efficienza dell'editing testo-musica, ma amplia anche l'applicabilità dei modelli linguistici musicali in ambienti di produzione musicale dinamici.
Yuan 2.0-M32, con un'architettura di base simile a Yuan-2.0 2B, utilizza un'architettura mixture-of-experts con 32 esperti, di cui 2 sono attivi. È stato proposto e adottato un nuovo router network, Attention Router, per una selezione più efficiente degli esperti, che migliora l'accuratezza del 3,8% rispetto al modello con il classico router network. Yuan 2.0-M32 è stato addestrato da zero con 2000 miliardi di token, e il consumo computazionale dell'addestramento è solo il 9,25% di un modello denso alla stessa scala di parametri. Yuan 2.0-M32 dimostra capacità competitive in ambiti come la codifica, la matematica e vari domini di competenza, con solo 3,7 miliardi di parametri attivi su un totale di 40 miliardi, e 7,4 GFlops di computazione forward per token, entrambi solo 1/19 rispetto a Llama3-70B. Yuan 2.0-M32 supera Llama3-70B nei benchmark MATH e ARC-Challenge, con un'accuratezza rispettivamente del 55,89 e del 95,8. I modelli e i codici sorgente di Yuan 2.0-M32 sono rilasciati su Github.
Le capacità dei moderni modelli linguistici di grandi dimensioni (LLM) nel risolvere compiti di elaborazione del linguaggio naturale, ragionamento complesso, analisi del sentiment e altre attività sono state straordinarie, portando alla loro ampia adozione. Sfortunatamente, queste capacità comportano costi molto elevati in termini di memoria e computazione, che impediscono l'uso degli LLM sulla maggior parte delle piattaforme hardware. Per mitigare questo problema, proponiamo un metodo efficace per trovare architetture di rete Pareto-ottimali basate su LLaMA2-7B utilizzando il NAS one-shot. In particolare, ottimizziamo LLaMA2-7B una sola volta e poi applichiamo una ricerca basata su algoritmi genetici per trovare architetture di rete più piccole e meno complesse dal punto di vista computazionale. Dimostriamo che, per alcuni compiti di benchmark standard, la rete pre-addestrata LLaMA2-7B è inutilmente grande e complessa. Più specificamente, otteniamo una riduzione di 1,5 volte delle dimensioni del modello e un aumento di 1,3 volte della velocità di elaborazione per determinati compiti, con un calo trascurabile dell'accuratezza. Oltre a trovare architetture di rete più piccole e ad alte prestazioni, il nostro metodo lo fa in modo più efficace ed efficiente rispetto a certe tecniche di pruning o sparsificazione. Infine, dimostriamo come la quantizzazione sia complementare al nostro metodo e che le dimensioni e la complessità delle reti che troviamo possono essere ulteriormente ridotte utilizzando la quantizzazione. Crediamo che il nostro lavoro fornisca un modo per creare automaticamente LLM che possono essere utilizzati su piattaforme hardware meno costose e più facilmente disponibili.
Ricostruire scene 4D da input video è un compito cruciale ma impegnativo. I metodi convenzionali si basano solitamente su presupposti come input video multi-vista, parametri della camera noti o scene statiche, tutti elementi tipicamente assenti negli scenari reali. In questo articolo, rilassiamo tutti questi vincoli e affrontiamo un compito altamente ambizioso ma pratico, che abbiamo denominato AnyV4D: assumiamo che sia disponibile solo un video monoculare senza alcun parametro della camera come input, e miriamo a ricostruire il mondo dinamico 4D insieme alle pose della camera. A tal fine, introduciamo GFlow, un nuovo framework che utilizza solo prior 2D (profondità e flusso ottico) per elevare un video (3D) a una rappresentazione esplicita 4D, implicando un flusso di splatting Gaussiano attraverso lo spazio e il tempo. GFlow prima raggruppa la scena in parti statiche e in movimento, quindi applica un processo di ottimizzazione sequenziale che ottimizza le pose della camera e la dinamica dei punti Gaussiani 3D basandosi sui prior 2D e sul raggruppamento della scena, garantendo fedeltà tra punti vicini e movimento fluido tra i fotogrammi. Poiché le scene dinamiche introducono sempre nuovi contenuti, proponiamo anche una nuova strategia di densificazione pixel-wise per i punti Gaussiani per integrare nuovi contenuti visivi. Inoltre, GFlow trascende i confini della mera ricostruzione 4D; consente anche il tracciamento di qualsiasi punto tra i fotogrammi senza la necessità di un addestramento preliminare e segmenta gli oggetti in movimento dalla scena in modo non supervisionato. In aggiunta, le pose della camera di ogni fotogramma possono essere derivate da GFlow, permettendo di renderizzare nuove viste di una scena video attraverso il cambiamento della posa della camera. Utilizzando la rappresentazione esplicita, possiamo facilmente condurre modifiche a livello di scena o di oggetto come desiderato, sottolineando la sua versatilità e potenza. Visita il nostro sito del progetto all'indirizzo: https://littlepure2333.github.io/GFlow
I grandi modelli linguistici (LLM) sono recentemente emersi come strumenti potenti per affrontare molte attività di elaborazione del linguaggio. Nonostante il loro successo, l'addestramento e il fine-tuning di questi modelli rimangono ancora estremamente dispendiosi in termini di risorse computazionali e di memoria. In questo articolo, identifichiamo e caratterizziamo i componenti importanti necessari per una convergenza efficace del modello utilizzando la discesa del gradiente. Nel farlo, scopriamo che le attivazioni intermedie utilizzate per implementare la retropropagazione possono essere eccessivamente compresse senza causare alcun degrado delle prestazioni. Questo risultato ci porta a un algoritmo economico ed efficiente in termini di memoria sia per il fine-tuning che per il pre-training degli LLM. L'algoritmo proposto semplicemente divide i token in sottotoken più piccoli prima di proiettarli su un sottospazio unidimensionale fisso durante il passaggio in avanti. Queste caratteristiche vengono poi ricostruite in modo approssimativo durante il passaggio all'indietro per implementare le regole di aggiornamento. Confermiamo l'efficacia del nostro algoritmo come complemento a molti metodi PEFT all'avanguardia sul benchmark di fine-tuning VTAB-1k. Inoltre, superiamo QLoRA per il fine-tuning di LLaMA e mostriamo prestazioni competitive rispetto ad altri metodi di pre-training efficienti in termini di memoria sul dataset su larga scala C4.
La modifica delle immagini di scene è fondamentale per l'intrattenimento, la fotografia e il design pubblicitario. I metodi esistenti si concentrano esclusivamente sulla modifica di singoli oggetti 2D o su scene globali 3D. Ciò comporta una mancanza di un approccio unificato per controllare e manipolare efficacemente le scene a livello 3D con diversi livelli di granularità. In questo lavoro, proponiamo 3DitScene, un nuovo e unificato framework di modifica delle scene che sfrutta il Gaussian Splatting guidato dal linguaggio e disaccoppiato, consentendo una modifica senza soluzione di continuità dal 2D al 3D, permettendo un controllo preciso sulla composizione della scena e sui singoli oggetti. Inizialmente incorporiamo Gaussiane 3D che vengono perfezionate attraverso prior generativi e tecniche di ottimizzazione. Le caratteristiche linguistiche di CLIP introducono quindi la semantica nella geometria 3D per il disaccoppiamento degli oggetti. Con le Gaussiane disaccoppiate, 3DitScene consente la manipolazione sia a livello globale che individuale, rivoluzionando l'espressione creativa e potenziando il controllo sulle scene e sugli oggetti. I risultati sperimentali dimostrano l'efficacia e la versatilità di 3DitScene nella modifica delle immagini di scene. Il codice e una demo online sono disponibili sulla nostra homepage del progetto: https://zqh0253.github.io/3DitScene/.