Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici basati su Transformer distribuiscono i FLOP in modo uniforme lungo le sequenze di input. In questo lavoro dimostriamo che i transformer possono invece imparare ad allocare dinamicamente i FLOP (o il calcolo) a posizioni specifiche di una sequenza, ottimizzando l'allocazione lungo la sequenza per diversi strati in profondità nel modello. Il nostro metodo impone un budget totale di calcolo limitando il numero di token (k) che possono partecipare ai calcoli di self-attention e MLP in un determinato strato. I token da elaborare sono determinati dalla rete mediante un meccanismo di routing top-k. Poiché k è definito a priori, questa semplice procedura utilizza un grafo di calcolo statico con dimensioni tensoriali note, a differenza di altre tecniche di calcolo condizionale. Tuttavia, poiché l'identità dei k token è fluida, questo metodo può impiegare i FLOP in modo non uniforme lungo le dimensioni temporali e di profondità del modello. Pertanto, la spesa computazionale è interamente prevedibile in totale, ma dinamica e sensibile al contesto a livello di token. Non solo i modelli addestrati in questo modo imparano ad allocare dinamicamente il calcolo, ma lo fanno in modo efficiente. Questi modelli eguagliano le prestazioni di riferimento per FLOP e tempi di addestramento equivalenti, ma richiedono una frazione dei FLOP per ogni passaggio in avanti e possono essere fino al 50% più veloci durante il campionamento post-addestramento.
Presentiamo il Visual AutoRegressive modeling (VAR), un nuovo paradigma generativo che ridefinisce l'apprendimento autoregressivo sulle immagini come una "predizione a scala crescente" o "predizione a risoluzione crescente", divergendo dalla classica "predizione del token successivo" basata su scansione raster. Questa metodologia semplice e intuitiva consente ai trasformatori autoregressivi (AR) di apprendere rapidamente le distribuzioni visive e generalizzare efficacemente: VAR, per la prima volta, fa sì che i modelli AR superino i trasformatori diffusivi nella generazione di immagini. Sul benchmark ImageNet 256x256, VAR migliora significativamente la baseline AR, riducendo la distanza di Frechet Inception (FID) da 18.65 a 1.80 e aumentando l'Inception Score (IS) da 80.4 a 356.4, con una velocità di inferenza circa 20 volte più rapida. È stato inoltre verificato empiricamente che VAR supera il Diffusion Transformer (DiT) in molteplici dimensioni, tra cui qualità dell'immagine, velocità di inferenza, efficienza dei dati e scalabilità. Il ridimensionamento dei modelli VAR mostra chiare leggi di scala di tipo power-law, simili a quelle osservate nei LLM, con coefficienti di correlazione lineare vicini a -0.998 come solida evidenza. VAR dimostra inoltre capacità di generalizzazione zero-shot in task downstream come in-painting, out-painting e editing di immagini. Questi risultati suggeriscono che VAR ha inizialmente emulato due importanti proprietà dei LLM: le leggi di scala e la generalizzazione zero-shot su task. Abbiamo rilasciato tutti i modelli e i codici per promuovere l'esplorazione dei modelli AR/VAR per la generazione visiva e l'apprendimento unificato.
Il ragionamento algoritmico si riferisce alla capacità di comprendere i modelli complessi dietro un problema e di scomporli in una sequenza di passaggi logici verso la soluzione. Questa natura del ragionamento algoritmico lo rende una sfida per i grandi modelli linguistici (LLM), nonostante abbiano dimostrato prestazioni promettenti in altri compiti di ragionamento. In questo contesto, alcuni studi recenti utilizzano linguaggi di programmazione (ad esempio, Python) per esprimere la logica necessaria per risolvere un determinato problema (ad esempio, Program-of-Thought), ispirandosi alla loro sintassi rigorosa e precisa. Tuttavia, non è banale scrivere un codice eseguibile che esprima la logica corretta al volo all'interno di una singola chiamata di inferenza. Inoltre, il codice generato specificamente per un'istanza non può essere riutilizzato per altre, anche se appartengono allo stesso compito e potrebbero richiedere una logica identica per essere risolte. Questo articolo presenta Think-and-Execute, un nuovo framework che scompone il processo di ragionamento dei modelli linguistici in due passaggi. (1) In Think, scopriamo una logica a livello di compito condivisa da tutte le istanze per risolvere un determinato problema e la esprimiamo con pseudocodice; (2) In Execute, adattiamo ulteriormente lo pseudocodice generato a ciascuna istanza e simuliamo l'esecuzione del codice. Con esperimenti estesi su sette compiti di ragionamento algoritmico, dimostriamo l'efficacia di Think-and-Execute. Il nostro approccio migliora il ragionamento dei modelli linguistici rispetto a diverse baseline forti che eseguono ragionamenti specifici per istanza (ad esempio, CoT e PoT), suggerendo l'utilità di scoprire una logica a livello di compito. Inoltre, mostriamo che, rispetto al linguaggio naturale, lo pseudocodice può guidare meglio il ragionamento dei modelli linguistici, nonostante siano addestrati a seguire istruzioni in linguaggio naturale.
I grandi modelli linguistici (LLM) hanno dimostrato un'eccellente padronanza del linguaggio umano, ma continuano a incontrare difficoltà nelle applicazioni del mondo reale che richiedono la risoluzione di problemi matematici. Sebbene siano state sviluppate molte strategie e dataset per potenziare le capacità matematiche degli LLM, rimane una sfida mantenere e migliorare simultaneamente sia le capacità linguistiche che quelle matematiche nei sistemi LLM implementati. In questo lavoro, adattiamo la pipeline di Self-Critique, che affronta la sfida nella fase di apprendimento con feedback dell'allineamento degli LLM. Inizialmente, addestriamo un modello generale Math-Critique a partire dall'LLM stesso per fornire segnali di feedback. Successivamente, impieghiamo in sequenza il fine-tuning di tipo rejective e l'ottimizzazione diretta delle preferenze sulle generazioni dell'LLM stesso per la raccolta dei dati. Basandoci su ChatGLM3-32B, conduciamo una serie di esperimenti sia su dataset accademici che sul nostro nuovo dataset impegnativo, MathUserEval. I risultati mostrano che la nostra pipeline migliora significativamente la capacità di risoluzione di problemi matematici dell'LLM, continuando a potenziare anche le sue abilità linguistiche, superando LLM che potrebbero essere due volte più grandi. Le tecniche correlate sono state implementate in ChatGLM\url{https://chatglm.cn}, un LLM in servizio online. Il dataset di valutazione correlato e gli script sono rilasciati su https://github.com/THUDM/ChatGLM-Math.
I modelli basati su diffusione senza necessità di tuning hanno dimostrato un potenziale significativo nel campo della personalizzazione e customizzazione delle immagini. Tuttavia, nonostante questi progressi notevoli, i modelli attuali continuano a confrontarsi con diverse sfide complesse nella generazione di immagini con stile coerente. In primo luogo, il concetto di stile è intrinsecamente sottodeterminato, comprendendo una moltitudine di elementi come colore, materiale, atmosfera, design e struttura, tra gli altri. In secondo luogo, i metodi basati sull'inversione sono soggetti a degradazione dello stile, spesso con la perdita di dettagli fini. Infine, gli approcci basati su adattatori richiedono frequentemente un tuning meticoloso dei pesi per ogni immagine di riferimento per raggiungere un equilibrio tra intensità dello stile e controllabilità del testo. In questo articolo, iniziamo esaminando diverse osservazioni convincenti ma spesso trascurate. Procediamo poi introducendo InstantStyle, un framework progettato per affrontare questi problemi attraverso l'implementazione di due strategie chiave: 1) Un meccanismo semplice che separa stile e contenuto dalle immagini di riferimento nello spazio delle feature, basandosi sull'assunzione che le feature all'interno dello stesso spazio possano essere sommate o sottratte l'una dall'altra. 2) L'iniezione delle feature delle immagini di riferimento esclusivamente nei blocchi specifici per lo stile, prevenendo così la fuoriuscita dello stile ed evitando la necessità di un tuning complesso dei pesi, che spesso caratterizza design con un numero elevato di parametri. Il nostro lavoro dimostra risultati superiori nella stilizzazione visiva, raggiungendo un equilibrio ottimale tra intensità dello stile e controllabilità degli elementi testuali. I nostri codici saranno disponibili su https://github.com/InstantStyle/InstantStyle.
L'aumento delle dimensioni del modello e dei dati si è rivelato molto efficace per l'evoluzione dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, la legge di scala per i modelli di testo-immagine (T2I) basati su diffusione non è stata completamente esplorata. Inoltre, non è chiaro come scalare in modo efficiente il modello per ottenere prestazioni migliori a costi ridotti. Le diverse impostazioni di addestramento e gli elevati costi di formazione rendono estremamente difficile un confronto equo tra i modelli. In questo lavoro, studiamo empiricamente le proprietà di scala dei modelli T2I basati su diffusione eseguendo ampie e rigorose ablazioni sulla scala sia dei backbone di denoising che del set di addestramento, includendo l'addestramento di varianti scalate di UNet e Transformer con parametri che vanno da 0,4B a 4B su dataset fino a 600M di immagini. Per la scalabilità del modello, scopriamo che la posizione e la quantità di cross-attention distinguono le prestazioni dei design esistenti di UNet. Inoltre, aumentare i blocchi del transformer è più efficiente in termini di parametri per migliorare l'allineamento testo-immagine rispetto all'aumento del numero di canali. Identifichiamo quindi una variante efficiente di UNet, che è il 45% più piccola e il 28% più veloce rispetto all'UNet di SDXL. Per quanto riguarda la scalabilità dei dati, dimostriamo che la qualità e la diversità del set di addestramento contano più della semplice dimensione del dataset. Aumentare la densità e la diversità delle didascalie migliora le prestazioni di allineamento testo-immagine e l'efficienza di apprendimento. Infine, forniamo funzioni di scala per prevedere le prestazioni di allineamento testo-immagine in funzione della scala delle dimensioni del modello, del calcolo e della dimensione del dataset.
Questo studio esplora il ruolo della cross-attention durante l'inferenza nei modelli di diffusione condizionati al testo. Scopriamo che gli output della cross-attention convergono a un punto fisso dopo pochi passi di inferenza. Di conseguenza, il momento della convergenza divide naturalmente l'intero processo di inferenza in due fasi: una fase iniziale di pianificazione semantica, durante la quale il modello si affida alla cross-attention per pianificare la semantica visiva orientata al testo, e una fase successiva di miglioramento della fedeltà, durante la quale il modello cerca di generare immagini a partire dalla semantica precedentemente pianificata. Sorprendentemente, ignorare le condizioni testuali nella fase di miglioramento della fedeltà non solo riduce la complessità computazionale, ma mantiene anche le prestazioni del modello. Ciò porta a un metodo semplice e privo di addestramento chiamato TGATE per la generazione efficiente, che memorizza nella cache l'output della cross-attention una volta che converge e lo mantiene fisso durante i restanti passi di inferenza. Il nostro studio empirico sul set di validazione di MS-COCO ne conferma l'efficacia. Il codice sorgente di TGATE è disponibile all'indirizzo https://github.com/HaozheLiu-ST/T-GATE.
Questo articolo abilita l'editing ad alta fedeltà e trasferibile di NeRF attraverso la decomposizione in frequenza. Le recenti pipeline di editing NeRF trasferiscono i risultati di stilizzazione 2D a scene 3D, ma soffrono di risultati sfocati e non riescono a catturare strutture dettagliate a causa dell'incoerenza tra le modifiche 2D. La nostra intuizione fondamentale è che le componenti a bassa frequenza delle immagini sono più coerenti da più punti di vista dopo l'editing rispetto alle loro parti ad alta frequenza. Inoltre, lo stile dell'aspetto è principalmente esibito nelle componenti a bassa frequenza, mentre i dettagli del contenuto risiedono soprattutto nelle parti ad alta frequenza. Ciò ci motiva a eseguire l'editing sulle componenti a bassa frequenza, ottenendo scene modificate ad alta fedeltà. In aggiunta, l'editing viene eseguito nello spazio delle feature a bassa frequenza, consentendo un controllo stabile dell'intensità e il trasferimento a nuove scene. Esperimenti completi condotti su dataset fotorealistici dimostrano la performance superiore dell'editing NeRF ad alta fedeltà e trasferibile. La pagina del progetto è disponibile all'indirizzo https://aigc3d.github.io/freditor.