Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il fine-tuning efficiente è fondamentale per adattare i grandi modelli linguistici (LLM) a compiti specifici. Tuttavia, implementare questi metodi su modelli diversi richiede sforzi non banali. Presentiamo LlamaFactory, un framework unificato che integra una suite di metodi di addestramento efficienti all'avanguardia. Consente agli utenti di personalizzare flessibilmente il fine-tuning di oltre 100 LLM senza la necessità di scrivere codice, grazie all'interfaccia web integrata LlamaBoard. Validiamo empiricamente l'efficienza e l'efficacia del nostro framework su compiti di modellazione linguistica e generazione di testo. È stato rilasciato su https://github.com/hiyouga/LLaMA-Factory e ha già ricevuto oltre 13.000 stelle e 1.600 fork.
Sora è il primo modello su larga scala per la generazione di video generalista che ha attirato un'attenzione significativa a livello sociale. Dal suo lancio da parte di OpenAI nel febbraio 2024, nessun altro modello di generazione video ha eguagliato le prestazioni di Sora o la sua capacità di supportare un'ampia gamma di compiti di generazione video. Inoltre, esistono solo pochi modelli di generazione video completamente pubblicati, con la maggior parte di essi essendo closed-source. Per colmare questa lacuna, questo articolo propone un nuovo framework multi-agente chiamato Mora, che incorpora diversi agenti di intelligenza artificiale visiva avanzati per replicare la generazione di video generalista dimostrata da Sora. In particolare, Mora può utilizzare più agenti visivi e imitare con successo le capacità di generazione video di Sora in vari compiti, come (1) generazione di video da testo, (2) generazione di video condizionata da testo a partire da immagini, (3) estensione di video generati, (4) modifica di video, (5) connessione di video e (6) simulazione di mondi digitali. I nostri estesi risultati sperimentali mostrano che Mora raggiunge prestazioni prossime a quelle di Sora in vari compiti. Tuttavia, esiste un evidente divario prestazionale tra il nostro lavoro e Sora quando valutato in modo olistico. In sintesi, speriamo che questo progetto possa guidare il futuro percorso della generazione video attraverso la collaborazione di agenti di intelligenza artificiale.
Presentiamo una nuova applicazione degli algoritmi evolutivi per automatizzare la creazione di potenti modelli di base. Sebbene il merging di modelli sia emerso come un approccio promettente per lo sviluppo di LLM grazie alla sua economicità, attualmente si basa sull'intuizione umana e sulla conoscenza del dominio, limitandone il potenziale. Qui proponiamo un approccio evolutivo che supera questa limitazione scoprendo automaticamente combinazioni efficaci di diversi modelli open-source, sfruttando la loro intelligenza collettiva senza richiedere dati di addestramento aggiuntivi o risorse computazionali estese. Il nostro approccio opera sia nello spazio dei parametri che nello spazio del flusso di dati, consentendo un'ottimizzazione che va oltre i semplici pesi dei singoli modelli. Questo approccio facilita persino il merging tra domini diversi, generando modelli come un LLM giapponese con capacità di ragionamento matematico. Sorprendentemente, il nostro LLM giapponese per la matematica ha raggiunto prestazioni all'avanguardia su una varietà di benchmark consolidati per LLM giapponesi, superando persino modelli con un numero significativamente maggiore di parametri, nonostante non sia stato esplicitamente addestrato per tali compiti. Inoltre, un VLM giapponese culturalmente consapevole generato attraverso il nostro approccio dimostra la sua efficacia nel descrivere contenuti specifici della cultura giapponese, superando i precedenti VLM giapponesi. Questo lavoro non solo contribuisce con nuovi modelli all'avanguardia alla comunità open-source, ma introduce anche un nuovo paradigma per la composizione automatizzata di modelli, aprendo la strada all'esplorazione di approcci alternativi ed efficienti per lo sviluppo di modelli di base.
Presentiamo SceneScript, un metodo che produce direttamente modelli completi di scene come una sequenza di comandi strutturati in linguaggio naturale utilizzando un approccio autoregressivo basato su token. La nostra rappresentazione di scene è ispirata dai recenti successi dei transformer e dei modelli linguistici di grandi dimensioni (LLM), e si discosta dai metodi più tradizionali che descrivono comunemente le scene come mesh, griglie di voxel, nuvole di punti o campi di radianza. Il nostro metodo inferisce l'insieme di comandi strutturati in linguaggio naturale direttamente da dati visivi codificati utilizzando un'architettura encoder-decoder per il linguaggio delle scene. Per addestrare SceneScript, abbiamo generato e rilasciato un ampio dataset sintetico chiamato Aria Synthetic Environments, composto da 100k scene interne di alta qualità, con rendering fotorealistici e annotati con verità di base di percorsi egocentrici nelle scene. Il nostro metodo ottiene risultati all'avanguardia nella stima del layout architettonico e risultati competitivi nel rilevamento di oggetti 3D. Infine, esploriamo un vantaggio di SceneScript, ovvero la capacità di adattarsi facilmente a nuovi comandi tramite semplici aggiunte al linguaggio strutturato, che illustriamo per compiti come la ricostruzione approssimativa di parti di oggetti 3D.
Aumentare le dimensioni dei modelli visivi è stato lo standard de facto per ottenere rappresentazioni visive più potenti. In questo lavoro, discutiamo il punto oltre il quale modelli visivi più grandi non sono necessari. Innanzitutto, dimostriamo la potenza di Scaling on Scales (S^2), per cui un modello visivo più piccolo pre-addestrato e congelato (ad esempio, ViT-B o ViT-L), eseguito su più scale di immagine, può superare modelli più grandi (ad esempio, ViT-H o ViT-G) in classificazione, segmentazione, stima della profondità, benchmark di MLLM (Multimodal Large Language Model) e manipolazione robotica. In particolare, S^2 raggiunge prestazioni all'avanguardia nella comprensione dettagliata di MLLM sul benchmark V*, superando modelli come GPT-4V. Esaminiamo le condizioni in cui S^2 è un approccio di scalabilità preferito rispetto all'aumento delle dimensioni del modello. Sebbene i modelli più grandi abbiano il vantaggio di una migliore generalizzazione su esempi difficili, mostriamo che le caratteristiche dei modelli visivi più grandi possono essere ben approssimate da quelle di modelli più piccoli multi-scala. Ciò suggerisce che la maggior parte, se non tutte, delle rappresentazioni apprese dagli attuali modelli pre-addestrati di grandi dimensioni possono essere ottenute anche da modelli più piccoli multi-scala. I nostri risultati mostrano che un modello più piccolo multi-scala ha una capacità di apprendimento comparabile a quella di un modello più grande, e il pre-addestramento di modelli più piccoli con S^2 può eguagliare o addirittura superare il vantaggio dei modelli più grandi. Rilasciamo un pacchetto Python che può applicare S^2 su qualsiasi modello visivo con una sola riga di codice: https://github.com/bfshi/scaling_on_scales.
L'utilizzo di Stable Diffusion per la generazione di ritratti personalizzati è emerso come uno strumento potente e degno di nota, consentendo agli utenti di creare avatar di personaggi personalizzati ad alta fedeltà basati su prompt specifici. Tuttavia, i metodi di personalizzazione esistenti affrontano diverse sfide, tra cui la messa a punto in fase di test, la necessità di più immagini di input, la scarsa conservazione dell'identità e una limitata diversità nei risultati generati. Per superare queste sfide, introduciamo IDAdapter, un approccio senza messa a punto che migliora la diversità e la conservazione dell'identità nella generazione di immagini personalizzate a partire da una singola immagine facciale. IDAdapter integra un concetto personalizzato nel processo di generazione attraverso una combinazione di iniezioni testuali e visive e una perdita di identità facciale. Durante la fase di addestramento, incorporiamo caratteristiche miste da più immagini di riferimento di una specifica identità per arricchire i dettagli relativi al contenuto dell'identità, guidando il modello a generare immagini con stili, espressioni e angolazioni più diversificati rispetto ai lavori precedenti. Valutazioni estensive dimostrano l'efficacia del nostro metodo, raggiungendo sia la diversità che la fedeltà dell'identità nelle immagini generate.
I modelli di ricompensa (RMs) sono al centro del successo del RLHF (Reinforcement Learning from Human Feedback) per allineare i modelli pre-addestrati alle preferenze umane, eppure ci sono stati relativamente pochi studi che si concentrano sulla valutazione di questi modelli di ricompensa. Valutare i modelli di ricompensa rappresenta un'opportunità per comprendere le tecnologie opache utilizzate per l'allineamento dei modelli linguistici e quali valori sono incorporati in essi. Ad oggi, esistono pochissimi descrittori delle capacità, dei metodi di addestramento o dei modelli di ricompensa open-source. In questo articolo, presentiamo RewardBench, un dataset di benchmark e una base di codice per la valutazione, per migliorare la comprensione scientifica dei modelli di ricompensa. Il dataset RewardBench è una raccolta di triadi prompt-vittoria-sconfitta che coprono chat, ragionamento e sicurezza, per valutare come i modelli di ricompensa si comportano su query complesse, strutturate e fuori distribuzione. Abbiamo creato specifici dataset di confronto per RMs che hanno ragioni sottili, ma verificabili (ad esempio, bug, fatti errati) per cui una risposta dovrebbe essere preferita rispetto a un'altra. Nella classifica di RewardBench, valutiamo modelli di ricompensa addestrati con una varietà di metodi, come l'addestramento diretto MLE di classificatori e la modellazione implicita della ricompensa di Direct Preference Optimization (DPO), e su uno spettro di dataset. Presentiamo numerosi risultati sulla propensione ai rifiuti, le limitazioni nel ragionamento e le carenze nel seguire le istruzioni di vari modelli di ricompensa, verso una migliore comprensione del processo RLHF.
I recenti progressi indicano che il ridimensionamento dei Modelli Linguistici Multimodali di Grande Scala (MLLM) migliora efficacemente le prestazioni su compiti multimodali downstream. Il paradigma MLLM prevalente, ad esempio LLaVA, trasforma le caratteristiche visive in token simili a testo utilizzando un mapper visione-linguaggio statico, consentendo così ai modelli linguistici statici di sviluppare la capacità di comprendere informazioni visive attraverso l'ottimizzazione tramite istruzioni visive. Sebbene promettente, la strategia di ottimizzazione statica~L'ottimizzazione statica si riferisce al modello addestrato con parametri statici. che condivide gli stessi parametri potrebbe limitare le prestazioni su diversi compiti multimodali downstream. Alla luce di ciò, introduciamo HyperLLaVA, che prevede l'ottimizzazione adattativa dei parametri del proiettore e del modello linguistico, in combinazione con un esperto visivo dinamico e un esperto linguistico, rispettivamente. Questi esperti sono derivati da HyperNetworks, che generano spostamenti di parametri adattativi attraverso la guida visiva e linguistica, consentendo una modellizzazione dinamica del proiettore e del modello linguistico in un addestramento a due fasi. I nostri esperimenti dimostrano che la nostra soluzione supera significativamente LLaVA sui benchmark MLLM esistenti, inclusi MME, MMBench, SEED-Bench e LLaVA-Bench. ~Il nostro progetto è disponibile al link https://github.com/DCDmllm/HyperLLaVA.
La stima della profondità monoculare è cruciale per numerosi compiti e applicazioni nel campo della visione artificiale. Gli approcci discriminativi attuali a questo problema sono limitati a causa di artefatti sfocati, mentre i metodi generativi all'avanguardia soffrono di un campionamento lento dovuto alla loro natura basata su equazioni differenziali stocastiche (SDE). Piuttosto che partire dal rumore, cerchiamo una mappatura diretta dall'immagine di input alla mappa di profondità. Osserviamo che questo può essere efficacemente inquadrato utilizzando il flusso di corrispondenza (flow matching), poiché le sue traiettorie rettilinee attraverso lo spazio delle soluzioni offrono efficienza e alta qualità. Il nostro studio dimostra che un modello di diffusione di immagini pre-addestrato può servire come un adeguato precedente per un modello di profondità basato su flow matching, consentendo un addestramento efficiente su soli dati sintetici per generalizzare a immagini reali. Troviamo che una perdita ausiliaria basata sulle normali di superficie migliora ulteriormente le stime di profondità. Grazie alla natura generativa del nostro approccio, il nostro modello prevede in modo affidabile la confidenza delle sue stime di profondità. Su benchmark standard di scene naturali complesse, il nostro approccio leggero mostra prestazioni all'avanguardia con un costo computazionale favorevolmente basso, nonostante sia stato addestrato su pochi dati sintetici.
I recenti progressi nella sintesi di viste e nel rendering in tempo reale hanno raggiunto una qualità fotorealistica con velocità di rendering impressionanti. Mentre i metodi basati su Radiance Fields ottengono una qualità all'avanguardia in scenari complessi come acquisizioni in ambienti naturali e scene su larga scala, spesso soffrono di requisiti computazionali eccessivamente elevati legati al rendering volumetrico. I metodi basati su Gaussian Splatting, d'altra parte, si affidano alla rasterizzazione e raggiungono naturalmente il rendering in tempo reale, ma presentano euristiche di ottimizzazione fragili che si rivelano inefficaci in scene più complesse. In questo lavoro, presentiamo RadSplat, un metodo leggero per il rendering robusto in tempo reale di scene complesse. I nostri principali contributi sono tre. Innanzitutto, utilizziamo i radiance fields come prior e segnale di supervisione per ottimizzare rappresentazioni di scene basate su punti, ottenendo una qualità migliorata e un'ottimizzazione più robusta. Successivamente, sviluppiamo una nuova tecnica di pruning che riduce il numero complessivo di punti mantenendo un'elevata qualità, portando a rappresentazioni di scene più piccole e compatte con velocità di inferenza più rapide. Infine, proponiamo un nuovo approccio di filtraggio al momento del test che accelera ulteriormente il rendering e consente di scalare a scene più grandi, delle dimensioni di una casa. Riteniamo che il nostro metodo consenta una sintesi all'avanguardia di acquisizioni complesse a oltre 900 FPS.
Il modello di diffusione è stato a lungo afflitto da problemi di scalabilità e complessità quadratica, specialmente all'interno di strutture basate su transformer. In questo studio, ci proponiamo di sfruttare la capacità di modellazione di sequenze lunghe di un modello State-Space chiamato Mamba per estenderne l'applicabilità alla generazione di dati visivi. In primo luogo, identifichiamo una critica lacuna nella maggior parte degli attuali metodi visivi basati su Mamba, ovvero la mancanza di considerazione per la continuità spaziale nello schema di scansione di Mamba. In secondo luogo, basandoci su questa intuizione, introduciamo un metodo semplice, plug-and-play e a zero parametri denominato Zigzag Mamba, che supera le baseline basate su Mamba e dimostra un miglioramento nella velocità e nell'utilizzo della memoria rispetto alle baseline basate su transformer. Infine, integriamo Zigzag Mamba con il framework Stochastic Interpolant per investigare la scalabilità del modello su dataset visivi ad alta risoluzione, come FacesHQ 1024x1024, UCF101, MultiModal-CelebA-HQ e MS COCO 256x256. Il codice sarà rilasciato all'indirizzo https://taohu.me/zigma/.
Proponiamo un modello generativo che, data un'immagine modificata in modo approssimativo, sintetizza un output fotorealistico che segue il layout prescritto. Il nostro metodo trasferisce i dettagli fini dall'immagine originale e preserva l'identità delle sue parti. Tuttavia, la adatta all'illuminazione e al contesto definiti dal nuovo layout. La nostra intuizione chiave è che i video rappresentano una potente fonte di supervisione per questo compito: oggetti e movimenti della telecamera forniscono molte osservazioni su come il mondo cambia con il punto di vista, l'illuminazione e le interazioni fisiche. Costruiamo un dataset di immagini in cui ogni campione è una coppia di frame sorgente e target estratti dallo stesso video a intervalli di tempo scelti casualmente. Deformiamo il frame sorgente verso il target utilizzando due modelli di movimento che imitano le modifiche attese dall'utente durante il test. Supervisioniamo il nostro modello per tradurre l'immagine deformata nella verità di riferimento, partendo da un modello di diffusione pre-addestrato. Il design del nostro modello consente esplicitamente il trasferimento di dettagli fini dal frame sorgente all'immagine generata, seguendo da vicino il layout specificato dall'utente. Dimostriamo che, utilizzando semplici segmentazioni e manipolazioni 2D approssimative, possiamo sintetizzare una modifica fotorealistica fedele all'input dell'utente, affrontando effetti di secondo ordine come l'armonizzazione dell'illuminazione e le interazioni fisiche tra gli oggetti modificati.
I grandi modelli linguistici (LLM) presentano un fallimento sorprendente: quando vengono addestrati su "A ha una caratteristica B", non generalizzano a "B è una caratteristica di A", un fenomeno denominato Maledizione dell'Inversione. Anche con un addestramento su trilioni di token, questo problema persiste a causa della legge di Zipf, il che significa che si verifica anche se addestriamo il modello sull'intero internet. Questo lavoro propone uno schema di addestramento alternativo, chiamato addestramento inverso, in cui tutte le parole vengono utilizzate due volte, raddoppiando la quantità di token disponibili. L'LLM viene addestrato sia in direzione normale che inversa invertendo le stringhe di addestramento ma preservando (cioè non invertendo) sottostringhe specifiche, come le entità. Dimostriamo che i modelli addestrati in modo inverso con dati corrispondenti offrono prestazioni superiori rispetto ai modelli standard su compiti standard, mentre i modelli addestrati in modo inverso con un calcolo corrispondente forniscono prestazioni di gran lunga superiori sui compiti di inversione, contribuendo a risolvere il problema della maledizione dell'inversione.
Il video outpainting è un compito impegnativo che mira a generare contenuti video al di fuori del viewport del video di input, mantenendo al contempo la coerenza inter-fotogramma e intra-fotogramma. I metodi esistenti risultano carenti sia in termini di qualità di generazione che di flessibilità. Introduciamo MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), una pipeline basata su modelli di diffusione che sfrutta sia i modelli intrinseci specifici dei dati del video sorgente, sia il prior generativo di immagini/video per un outpainting efficace. MOTIA si compone di due fasi principali: adattamento specifico all'input e outpainting consapevole dei modelli. La fase di adattamento specifico all'input prevede l'apprendimento efficiente ed efficace di pseudo outpainting sul video sorgente a singolo scatto. Questo processo incoraggia il modello a identificare e apprendere i modelli all'interno del video sorgente, oltre a colmare il divario tra i processi generativi standard e l'outpainting. La fase successiva, l'outpainting consapevole dei modelli, è dedicata alla generalizzazione di questi modelli appresi per generare risultati di outpainting. Sono proposte ulteriori strategie, tra cui l'inserimento spaziale consapevole e il viaggio del rumore, per sfruttare al meglio il prior generativo del modello di diffusione e i modelli video acquisiti dai video sorgenti. Valutazioni estensive evidenziano la superiorità di MOTIA, superando i metodi all'avanguardia esistenti in benchmark ampiamente riconosciuti. È importante sottolineare che questi progressi sono stati raggiunti senza necessitare di un'ampia ottimizzazione specifica per il compito.
Nonostante i significativi progressi nel campo della sintesi testo-video (T2V), i modelli di diffusione T2V open-source faticano a generare video più lunghi con contenuti dinamici e in evoluzione. Tendono a sintetizzare video quasi statici, ignorando i necessari cambiamenti visivi nel tempo impliciti nel prompt testuale. Allo stesso tempo, il ridimensionamento di questi modelli per consentire la sintesi di video più lunghi e dinamici spesso rimane computazionalmente intrattabile. Per affrontare questa sfida, introduciamo il concetto di Generative Temporal Nursing (GTN), in cui miriamo a modificare il processo generativo al volo durante l'inferenza per migliorare il controllo sulla dinamica temporale e consentire la generazione di video più lunghi. Proponiamo un metodo per GTN, denominato VSTAR, che consiste in due componenti chiave: 1) Video Synopsis Prompting (VSP) - la generazione automatica di una sinossi video basata sul prompt singolo originale sfruttando LLM, che fornisce una guida testuale accurata ai diversi stati visivi di video più lunghi, e 2) Temporal Attention Regularization (TAR) - una tecnica di regolarizzazione per affinare le unità di attenzione temporale dei modelli di diffusione T2V pre-addestrati, che consente il controllo sulla dinamica del video. Sperimentalmente dimostriamo la superiorità dell'approccio proposto nella generazione di video più lunghi e visivamente accattivanti rispetto ai modelli T2V open-source esistenti. Inoltre, analizziamo le mappe di attenzione temporale realizzate con e senza VSTAR, dimostrando l'importanza di applicare il nostro metodo per mitigare la trascuratezza del cambiamento visivo desiderato nel tempo.
I modelli linguistici (LM) hanno influenzato notevolmente diversi domini. Tuttavia, la loro intrinseca limitazione nel comprendere le strutture molecolari 3D ha considerevolmente limitato il loro potenziale nel dominio biomolecolare. Per colmare questa lacuna, ci concentriamo sull'interpretazione testo-molecola 3D e proponiamo 3D-MoLM: 3D-Molecular Language Modeling. Nello specifico, 3D-MoLM consente a un LM di interpretare e analizzare molecole 3D dotando il LM di un codificatore molecolare 3D. Questa integrazione è ottenuta tramite un proiettore testo-molecola 3D, che collega lo spazio di rappresentazione del codificatore molecolare 3D e lo spazio di input del LM. Inoltre, per potenziare la capacità di 3D-MoLM nella comprensione molecolare cross-modale e nel seguire istruzioni, abbiamo curato meticolosamente un dataset di sintonizzazione delle istruzioni centrato su molecole 3D -- 3D-MoIT. Attraverso l'allineamento testo-molecola 3D e la sintonizzazione delle istruzioni centrata su molecole 3D, 3D-MoLM stabilisce un'integrazione tra codificatore molecolare 3D e LM. Supera significativamente i baseline esistenti nei task downstream, inclusi il recupero molecola-testo, la descrizione molecolare e i più impegnativi task di QA molecolare a testo aperto, con particolare attenzione alle proprietà dipendenti dalla struttura 3D.
La generazione 3D ha registrato progressi significativi, ma produrre in modo efficiente asset 3D di alta qualità a partire da una singola immagine rimane una sfida. In questo articolo, presentiamo un autoencoder triplanare, che codifica modelli 3D in uno spazio latente triplanare compatto per comprimere efficacemente sia la geometria 3D che le informazioni di texture. All'interno del framework dell'autoencoder, introduciamo un meccanismo di cross-attention 3D-aware, che utilizza rappresentazioni latenti a bassa risoluzione per interrogare le caratteristiche da un volume di feature 3D ad alta risoluzione, migliorando così la capacità rappresentativa dello spazio latente. Successivamente, addestriamo un modello di diffusione su questo spazio latente raffinato. A differenza di un approccio che si basa esclusivamente sull'embedding di immagini per la generazione 3D, il nostro metodo propone l'utilizzo simultaneo sia dell'embedding di immagini che dell'embedding di forme come condizioni. Nello specifico, l'embedding di forma viene stimato tramite un modello di diffusione prior condizionato sull'embedding dell'immagine. Attraverso esperimenti completi, dimostriamo che il nostro metodo supera gli algoritmi all'avanguardia, ottenendo prestazioni superiori pur richiedendo meno dati e tempi di addestramento. Il nostro approccio consente la generazione di asset 3D di alta qualità in soli 7 secondi su una singola GPU A100.
Per comprendere i rischi posti da un nuovo sistema di IA, dobbiamo capire cosa può e non può fare. Basandoci su lavori precedenti, introduciamo un programma di nuove valutazioni sulle "capacità pericolose" e le testiamo sui modelli Gemini 1.0. Le nostre valutazioni coprono quattro aree: (1) persuasione e inganno; (2) sicurezza informatica; (3) auto-proliferazione; e (4) auto-ragionamento. Non troviamo evidenza di forti capacità pericolose nei modelli valutati, ma segnaliamo alcuni primi segnali di allarme. Il nostro obiettivo è contribuire a far progredire una scienza rigorosa della valutazione delle capacità pericolose, in preparazione per i modelli futuri.