Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il campo della generazione di video ha fatto progressi notevoli, tuttavia c'è ancora un urgente bisogno di una ricetta chiara e sistematica che possa guidare lo sviluppo di modelli robusti e scalabili. In questo lavoro, presentiamo uno studio esaustivo che esplora sistematicamente l'interazione delle architetture dei modelli, delle ricette di addestramento e delle strategie di cura dei dati, culminando in un metodo di generazione di video condizionato da testo e immagine semplice e scalabile, chiamato STIV. Il nostro framework integra la condizione dell'immagine in un Diffusion Transformer (DiT) attraverso la sostituzione dei frame, incorporando contemporaneamente la condizione del testo tramite una guida gratuita di un classificatore condizionato immagine-testo congiunto. Questo design consente a STIV di eseguire contemporaneamente compiti di testo-a-video (T2V) e testo-immagine-a-video (TI2V). Inoltre, STIV può essere facilmente esteso a varie applicazioni, come la previsione video, l'interpolazione dei frame, la generazione multi-vista e la generazione di video lunghi, ecc. Con studi esaustivi sull'ablativo di T2I, T2V e TI2V, STIV dimostra prestazioni solide, nonostante il suo design semplice. Un modello di 8,7 miliardi con risoluzione 512 raggiunge 83,1 su VBench T2V, superando sia i modelli leader open source che closed source come CogVideoX-5B, Pika, Kling e Gen-3. Lo stesso modello di dimensioni simili raggiunge anche un risultato all'avanguardia del 90,1 sul compito I2V di VBench a 512 risoluzione. Fornendo una ricetta trasparente ed estensibile per la costruzione di modelli di generazione video all'avanguardia, miriamo a potenziare la ricerca futura e ad accelerare il progresso verso soluzioni di generazione video più versatili e affidabili.
I grandi modelli linguistici per il codice (codeLLMs) hanno compiuto progressi significativi nella generazione di codice. La maggior parte dei benchmark precedenti relativi al codice, che consistono in vari esercizi di programmazione insieme ai casi di test corrispondenti, vengono utilizzati come misura comune per valutare le prestazioni e le capacità dei code LLMs. Tuttavia, i attuali code LLMs si concentrano sulla sintesi del frammento di codice corretto, ignorando l'allineamento con le preferenze umane, dove la query dovrebbe essere campionata dagli scenari di applicazione pratici e le risposte generate dal modello dovrebbero soddisfare le preferenze umane. Per colmare il divario tra la risposta generata dal modello e le preferenze umane, presentiamo un rigoroso benchmark curato dall'umanità, CodeArena, per emulare la complessità e la diversità dei compiti di codifica del mondo reale, dove sono presenti 397 campioni di alta qualità che coprono 40 categorie e 44 linguaggi di programmazione, accuratamente selezionati dalle query degli utenti. Inoltre, proponiamo un corpus di istruzioni sintetiche diverse, SynCode-Instruct (quasi 20 miliardi di token), scalando le istruzioni dal sito web per verificare l'efficacia del raffinamento delle istruzioni sintetiche su larga scala, dove Qwen2.5-SynCoder completamente addestrato sui dati di istruzioni sintetiche può raggiungere prestazioni di alto livello dei code LLMs open-source. I risultati evidenziano differenze di prestazioni tra i benchmark basati sull'esecuzione e CodeArena. I nostri esperimenti sistematici su CodeArena su oltre 40 LLMs rivelano un notevole divario di prestazioni tra i code LLMs open-source all'avanguardia (ad es. Qwen2.5-Coder) e i code LLMs proprietari (ad es., OpenAI o1), sottolineando l'importanza dell'allineamento con le preferenze umane.
La visualizzazione di storie, il compito di creare narrazioni visive da descrizioni testuali, ha visto progressi con i modelli di generazione testo-immagine. Tuttavia, questi modelli spesso mancano di un controllo efficace sulle apparenze e sulle interazioni dei personaggi, in particolare nelle scene con più personaggi. Per affrontare queste limitazioni, proponiamo un nuovo compito: la generazione personalizzata di manga e presentiamo DiffSensei, un innovativo framework appositamente progettato per generare manga con un controllo dinamico multi-personaggio. DiffSensei integra un generatore di immagini basato sulla diffusione con un modello di linguaggio multimodale (MLLM) che funge da adattatore di identità compatibile con il testo. Il nostro approccio utilizza l'attenzione incrociata mascherata per incorporare senza soluzione di continuità le caratteristiche dei personaggi, consentendo un controllo preciso del layout senza trasferimento diretto dei pixel. Inoltre, l'adattatore basato su MLLM regola le caratteristiche dei personaggi per allinearle con gli indizi testuali specifici del pannello, consentendo regolazioni flessibili nelle espressioni, pose e azioni dei personaggi. Introduciamo anche MangaZero, un dataset su larga scala adattato a questo compito, contenente 43.264 pagine di manga e 427.147 pannelli annotati, supportando la visualizzazione di varie interazioni e movimenti dei personaggi attraverso frame sequenziali. Estesi esperimenti dimostrano che DiffSensei supera i modelli esistenti, segnando un significativo avanzamento nella generazione di manga consentendo la personalizzazione dei personaggi adattabile al testo. La pagina del progetto è https://jianzongwu.github.io/projects/diffsensei/.
L'attuale aumento di interesse nei modelli multimodali completi ha reso necessaria l'unificazione delle diverse modalità. Tuttavia, l'unificazione soffre di metodologie disparate. La generazione visiva continua richiede l'approccio basato sulla diffusione a sequenza completa, nonostante la sua divergenza dalla modellazione autoregressiva nel dominio del testo. Sosteniamo che la modellazione autoregressiva, cioè prevedere il futuro basandosi sull'esperienza deterministica passata, rimanga cruciale nello sviluppo sia di un modello di generazione visiva che di un potenziale modello multimodale unificato. In questo articolo, esploriamo un'interpolazione tra la modellazione autoregressiva e la diffusione a parametri completi per modellare le informazioni visive. Al suo nucleo, presentiamo ACDiT, un Trasformatore di Diffusione Condizionale a blocchi Autoregressivi, in cui la dimensione del blocco di diffusione, cioè la dimensione delle unità autoregressive, può essere regolata in modo flessibile per interpolare tra l'autoregressione a livello di token e la diffusione a sequenza completa. ACDiT è facile da implementare, semplice quanto creare una Maschera di Attenzione Causale a Salto (SCAM) durante l'addestramento. Durante l'inferenza, il processo itera tra il denoising della diffusione e la decodifica autoregressiva che può sfruttare appieno la KV-Cache. Verifichiamo l'efficacia di ACDiT nei compiti di generazione di immagini e video. Dimostriamo inoltre che, beneficiando della modellazione autoregressiva, ACDiT può essere utilizzato senza soluzione di continuità nei compiti di comprensione visiva nonostante sia stato addestrato sull'obiettivo della diffusione. L'analisi del compromesso tra la modellazione autoregressiva e la diffusione dimostra il potenziale di ACDiT nell'essere utilizzato nei compiti di generazione visiva a lungo termine. Questi punti di forza lo rendono promettente come base per i futuri modelli unificati.
Con il miglioramento della qualità dei generatori di immagini, i deepfake diventano un argomento di considerevole dibattito sociale. Il watermarking delle immagini consente ai proprietari responsabili dei modelli di rilevare e contrassegnare i contenuti generati dall'IA, il che può attenuare il danno. Tuttavia, i metodi attuali allo stato dell'arte nel watermarking delle immagini rimangono vulnerabili agli attacchi di falsificazione e rimozione. Questa vulnerabilità si verifica in parte perché i watermark distortono la distribuzione delle immagini generate, rivelando involontariamente informazioni sulle tecniche di watermarking. In questo lavoro, dimostriamo innanzitutto un metodo di watermarking per immagini privo di distorsioni, basato sul rumore iniziale di un modello di diffusione. Tuttavia, rilevare il watermark richiede il confronto del rumore iniziale ricostruito per un'immagine con tutti i rumori iniziali precedentemente utilizzati. Per attenuare questi problemi, proponiamo un framework di watermarking a due fasi per una rilevazione efficiente. Durante la generazione, aumentiamo il rumore iniziale con modelli di Fourier generati per incorporare informazioni sul gruppo di rumori iniziali che abbiamo utilizzato. Per la rilevazione, (i) recuperiamo il gruppo rilevante di rumori e (ii) cerchiamo all'interno del gruppo dato un rumore iniziale che potrebbe corrispondere alla nostra immagine. Questo approccio di watermarking raggiunge una robustezza allo stato dell'arte contro la falsificazione e la rimozione in una vasta gamma di attacchi.
Introduciamo UniReal, un framework unificato progettato per affrontare varie attività di generazione e modifica di immagini. Le soluzioni esistenti spesso variano a seconda delle attività, ma condividono principi fondamentali: preservare la coerenza tra input e output catturando variazioni visive. Ispirandoci ai recenti modelli di generazione video che bilanciano efficacemente coerenza e variazione tra frame, proponiamo un approccio unificante che tratta le attività a livello di immagine come generazione discontinua di video. In particolare, trattiamo numeri variabili di immagini di input e output come frame, consentendo un supporto fluido per attività come generazione di immagini, modifica, personalizzazione, composizione, ecc. Anche se progettato per attività a livello di immagine, sfruttiamo i video come fonte scalabile per la supervisione universale. UniReal apprende dinamiche del mondo da video su larga scala, dimostrando capacità avanzate nel gestire ombre, riflessi, variazioni di posa e interazioni degli oggetti, mostrando anche capacità emergenti per nuove applicazioni.
I recenti progressi nella generazione di testo in immagini hanno reso possibile la creazione di immagini di alta qualità con diverse applicazioni. Tuttavia, descrivere accuratamente attributi visivi desiderati può essere sfidante, specialmente per non esperti di arte e fotografia. Una soluzione intuitiva coinvolge l'adozione di attributi favorevoli dalle immagini di origine. I metodi attuali cercano di estrarre identità e stile dalle immagini di origine. Tuttavia, "stile" è un concetto ampio che include texture, colore ed elementi artistici, ma non copre altri attributi importanti come illuminazione e dinamiche. Inoltre, un'adattamento semplificato dello "stile" impedisce di combinare attributi multipli da diverse fonti in un'unica immagine generata. In questo lavoro, formuliamo un approccio più efficace per decomporre l'estetica di un'immagine in attributi visivi specifici, consentendo agli utenti di applicare caratteristiche come illuminazione, texture e dinamiche da diverse immagini. Per raggiungere questo obiettivo, abbiamo costruito il primo dataset di attributi visivi dettagliati (FiVA) a nostra conoscenza. Questo dataset FiVA presenta una tassonomia ben organizzata per gli attributi visivi e include circa 1 milione di immagini generate di alta qualità con annotazioni sugli attributi visivi. Sfruttando questo dataset, proponiamo un framework di adattamento di attributi visivi dettagliati (FiVA-Adapter), che decoppia e adatta attributi visivi da una o più immagini di origine in una generata. Questo approccio migliora la personalizzazione user-friendly, consentendo agli utenti di applicare selettivamente attributi desiderati per creare immagini che soddisfino le loro preferenze uniche e requisiti di contenuto specifici.
I modelli di diffusione video hanno raggiunto un'impressionante realismo e controllabilità, ma sono limitati da elevate richieste computazionali, che ne limitano l'utilizzo sui dispositivi mobili. Questo articolo introduce il primo modello di diffusione video ottimizzato per dispositivi mobili. Partendo da un UNet spazio-temporale derivato da Stable Video Diffusion (SVD), riduciamo la memoria e il costo computazionale riducendo la risoluzione dei frame, incorporando rappresentazioni temporali multi-scala e introducendo due nuovi schemi di potatura per ridurre il numero di canali e blocchi temporali. Inoltre, impieghiamo il fine-tuning avversario per ridurre il denoising a un singolo passaggio. Il nostro modello, denominato MobileVD, è 523 volte più efficiente (1817,2 vs. 4,34 TFLOPs) con una leggera diminuzione della qualità (FVD 149 vs. 171), generando latenti per un clip di dimensioni 14x512x256 px in 1,7 secondi su un Xiaomi-14 Pro. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Questo articolo mira a manipolare i movimenti 3D multi-entità nella generazione di video. I metodi precedenti sulla generazione di video controllabili sfruttano principalmente segnali di controllo 2D per manipolare i movimenti degli oggetti e hanno ottenuto risultati di sintesi notevoli. Tuttavia, i segnali di controllo 2D sono intrinsecamente limitati nell'esprimere la natura 3D dei movimenti degli oggetti. Per superare questo problema, introduciamo 3DTrajMaster, un controller robusto che regola la dinamica multi-entità nello spazio 3D, dati sequenze di posa a 6 gradi di libertà (posizione e rotazione) desiderate dall'utente delle entità. Al centro del nostro approccio c'è un iniettore di oggetti basato su movimenti 3D che fonde molteplici entità di input con le rispettive traiettorie 3D attraverso un meccanismo di autoattenzione a porte. Inoltre, sfruttiamo un'architettura di iniettori per preservare la precedente diffusione video, che è cruciale per la capacità di generalizzazione. Per mitigare il degrado della qualità video, introduciamo un adattatore di dominio durante l'addestramento e utilizziamo una strategia di campionamento annerita durante l'inferenza. Per affrontare la mancanza di dati di addestramento appropriati, costruiamo un Dataset di Movimento a 360 gradi, che correla inizialmente asset umani e animali 3D raccolti con traiettorie generate da GPT e quindi cattura il loro movimento con 12 telecamere circolari su piattaforme 3D UE diverse. Estesi esperimenti mostrano che 3DTrajMaster stabilisce un nuovo stato dell'arte sia in termini di accuratezza che di generalizzazione per il controllo dei movimenti 3D multi-entità. Pagina del progetto: http://fuxiao0719.github.io/projects/3dtrajmaster
Introduciamo i modelli Granite Guardian, una serie di salvaguardie progettate per fornire rilevamento del rischio per prompt e risposte, consentendo un utilizzo sicuro e responsabile in combinazione con qualsiasi grande modello di linguaggio (LLM). Questi modelli offrono una copertura completa su molteplici dimensioni di rischio, tra cui bias sociale, volgarità, violenza, contenuti sessuali, comportamenti non etici, jailbreaking e rischi correlati all'allucinazione come rilevanza del contesto, solidità e rilevanza della risposta per la generazione potenziata da recupero (RAG). Addestrati su un dataset unico che combina annotazioni umane da fonti diverse e dati sintetici, i modelli Granite Guardian affrontano rischi spesso trascurati dai modelli tradizionali di rilevamento del rischio, come i jailbreak e le problematiche specifiche di RAG. Con punteggi AUC di 0,871 e 0,854 rispettivamente sui benchmark dei contenuti dannosi e delle allucinazioni correlate a RAG, Granite Guardian è il modello più generalizzabile e competitivo disponibile nello spazio. Rilasciato come open-source, Granite Guardian mira a promuovere lo sviluppo responsabile dell'IA all'interno della comunità. https://github.com/ibm-granite/granite-guardian
I recenti progressi nell'editing video basato sulla diffusione hanno mostrato un notevole potenziale per applicazioni pratiche. Tuttavia, questi metodi rimangono proibitivamente costosi e difficili da implementare su dispositivi mobili. In questo studio, introduciamo una serie di ottimizzazioni che rendono fattibile l'editing video su dispositivi mobili. Partendo dal modello esistente di editing delle immagini, ottimizziamo innanzitutto la sua architettura e incorporiamo un autoencoder leggero. Successivamente, estendiamo la distillazione della guida senza classificatore a più modalità, ottenendo un triplo aumento della velocità sul dispositivo. Infine, riduciamo il numero di passaggi di campionamento a uno introducendo un nuovo schema di distillazione avversaria che preserva la controllabilità del processo di editing. Complessivamente, queste ottimizzazioni consentono l'editing video a 12 fotogrammi al secondo su dispositivi mobili, mantenendo un'alta qualità. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/mobile-video-editing/
Proponiamo DiTFlow, un metodo per trasferire il movimento di un video di riferimento a uno appena sintetizzato, progettato specificamente per i Trasformatori a Diffusione (DiT). Prima elaboriamo il video di riferimento con un DiT pre-addestrato per analizzare le mappe di attenzione tra frame ed estrarre un segnale di movimento a livello di patch chiamato Flusso di Movimento di Attenzione (AMF). Guidiamo il processo di denoising latente in modo basato sull'ottimizzazione, senza necessità di addestramento, ottimizzando i latenti con la nostra perdita AMF per generare video che riproducono il movimento di quello di riferimento. Applichiamo inoltre la nostra strategia di ottimizzazione agli embedding posizionali del trasformatore, garantendoci un miglioramento nelle capacità di trasferimento di movimento senza bisogno di addestramento. Valutiamo DiTFlow rispetto a metodi recentemente pubblicati, superando tutti su molteplici metriche ed valutazioni umane.
L'interpretabilità è una sfida chiave nel favorire la fiducia nei Large Language Models (LLM), che deriva dalla complessità dell'estrazione del ragionamento dai parametri del modello. Presentiamo l'Ipotesi della Rappresentazione a Cornice, un quadro teoricamente robusto basato sull'Ipotesi della Rappresentazione Lineare (LRH) per interpretare e controllare i LLM modellando parole multi-token. Ricerche precedenti hanno esplorato la LRH per collegare le rappresentazioni dei LLM a concetti linguistici, ma erano limitate all'analisi di singoli token. Poiché la maggior parte delle parole è composta da diversi token, estendiamo la LRH a parole multi-token, consentendo così l'uso su qualsiasi dato testuale con migliaia di concetti. A tal fine, proponiamo che le parole possano essere interpretate come cornici, sequenze ordinate di vettori che catturano meglio le relazioni tra token e parole. Successivamente, i concetti possono essere rappresentati come la media delle cornici delle parole che condividono un concetto comune. Mostriamo questi strumenti attraverso la Decodifica Guidata da Concetto Top-k, che può guidare in modo intuitivo la generazione di testo utilizzando i concetti scelti. Verifichiamo tali idee sui modelli Llama 3.1, Gemma 2 e Phi 3, dimostrando pregiudizi di genere e linguistici, esponendo contenuti dannosi, ma anche il potenziale per rimediare ad essi, portando a LLM più sicuri e trasparenti. Il codice è disponibile su https://github.com/phvv-me/frame-representation-hypothesis.git
I modelli linguistici multimodali (MLM) affrontano ancora sfide nelle fondamentali attività di percezione visiva in cui eccellono i modelli specializzati. Le attività che richiedono ragionamento su strutture 3D beneficiano della stima della profondità, mentre il ragionamento su istanze di oggetti 2D beneficia della rilevazione degli oggetti. Tuttavia, i MLM non possono produrre profondità o box intermedi su cui ragionare. Il raffinamento dei MLM su dati rilevanti non generalizza bene e l'esternalizzazione del calcolo a strumenti di visione specializzati è troppo intensiva in termini di calcolo e inefficiente in termini di memoria. Per affrontare questo problema, introduciamo i Token di Percezione, rappresentazioni intrinseche delle immagini progettate per assistere nelle attività di ragionamento dove il linguaggio è insufficiente. I token di percezione agiscono come token di ragionamento ausiliari, simili a prompt di catena di pensiero nei modelli linguistici. Ad esempio, in un compito legato alla profondità, un MLM potenziato con token di percezione può ragionare generando una mappa di profondità come token, consentendogli di risolvere efficacemente il problema. Proponiamo AURORA, un metodo di addestramento che potenzia i MLM con token di percezione per un miglioramento del ragionamento su input visivi. AURORA sfrutta un VQVAE per trasformare rappresentazioni di immagini intermedie, come mappe di profondità, in un formato tokenizzato e token di box delimitanti, che viene poi utilizzato in un framework di addestramento multi-task. AURORA ottiene notevoli miglioramenti su benchmark di conteggio: +10,8% su BLINK, +11,3% su CVBench e +8,3% su SEED-Bench, superando gli approcci di raffinamento generale nella generalizzazione tra i dataset. Migliora anche la profondità relativa: oltre +6% su BLINK. Con i token di percezione, AURORA espande il campo di applicazione dei MLM oltre il ragionamento basato sul linguaggio, aprendo la strada a capacità di ragionamento visivo più efficaci.
Questo lavoro si concentra sullo sviluppo di modelli leggeri ed efficienti nei parametri per previsioni dense, bilanciando i parametri, le FLOPs e le prestazioni. Il nostro obiettivo è stabilire la nuova frontiera del modello leggero di magnitudine 5M su vari compiti successivi. Il Blocco Residuale Invertito (IRB) funge da infrastruttura per le CNN leggere, ma nessun controparte è stata riconosciuta dal design basato sull'attenzione. Il nostro lavoro ripensa l'infrastruttura leggera dell'efficiente IRB e dei componenti pratici nel Transformer da una prospettiva unificata, estendendo l'IRB basato su CNN ai modelli basati sull'attenzione e astrae un Blocco Meta Mobile a un residuo (MMBlock) per il design di modelli leggeri. Seguendo criteri di design puliti ma efficaci, deduciamo un moderno Blocco Mobile Residuo Invertito Migliorato (i2RMB) e miglioriamo un Modello Efficientemente Gerarchico (EMOv2) senza strutture complesse elaborate. Considerando la latenza impercettibile per gli utenti mobili durante il download di modelli con larghezza di banda 4G/5G e garantendo le prestazioni del modello, esaminiamo il limite superiore delle prestazioni dei modelli leggeri con una magnitudine di 5M. Esperimenti approfonditi su vari compiti di riconoscimento visivo, previsione densa e generazione di immagini dimostrano la superiorità del nostro EMOv2 rispetto ai metodi all'avanguardia, ad esempio, EMOv2-1M/2M/5M raggiungono il 72,3, 75,8 e 79,4 Top-1 che superano significativamente i modelli di pari ordine basati su CNN/Attenzione. Allo stesso tempo, EMOv2-5M dotato di RetinaNet raggiunge il 41,5 mAP per i compiti di rilevamento oggetti che supera il precedente EMO-5M di +2,6. Utilizzando una ricetta di addestramento più robusta, il nostro EMOv2-5M raggiunge infine un'accuratezza Top-1 del 82,9, che eleva le prestazioni dei modelli di magnitudine 5M a un nuovo livello. Il codice è disponibile su https://github.com/zhangzjn/EMOv2.
I recenti progressi nei modelli di generazione di immagini hanno reso possibile la creazione di immagini personalizzate con soggetti (contenuti) e stili definiti dall'utente. Lavori precedenti hanno ottenuto la personalizzazione unendo i corrispondenti parametri di adattamento a basso rango (LoRA) attraverso metodi basati sull'ottimizzazione, che sono computazionalmente impegnativi e non adatti all'uso in tempo reale su dispositivi con risorse limitate come gli smartphone. Per affrontare questo problema, presentiamo LoRA.rar, un metodo che non solo migliora la qualità delle immagini ma ottiene anche un notevole aumento di oltre 4000 volte nel processo di fusione. LoRA.rar pre-allena un iper-rete su un insieme diversificato di coppie LoRA di contenuto-stile, apprendendo una strategia di fusione efficiente che generalizza a nuove coppie di contenuto-stile non viste, consentendo una personalizzazione rapida e di alta qualità. Inoltre, identifichiamo limitazioni nelle metriche di valutazione esistenti per la qualità del contenuto e dello stile e proponiamo un nuovo protocollo che utilizza modelli di linguaggio multimodali di grandi dimensioni (MLLM) per una valutazione più accurata. Il nostro metodo supera significativamente lo stato dell'arte attuale sia nella fedeltà al contenuto che allo stile, come confermato dalle valutazioni MLLM e dalle valutazioni umane.
In questo articolo, presentiamo ILLUME, un modello linguistico multimodale di grandi dimensioni (MLLM) che integra in modo fluido capacità di comprensione e generazione multimodale all'interno di un singolo grande modello linguistico attraverso una formulazione unificata di previsione del token successivo. Per affrontare le grandi dimensioni del dataset tipicamente richieste per l'allineamento immagine-testo, proponiamo di migliorare l'efficienza dei dati attraverso la progettazione di un tokenizzatore visivo che incorpora informazioni semantiche e una procedura di addestramento multi-stadio progressiva. Questo approccio riduce le dimensioni del dataset a soli 15M per il preaddestramento - oltre quattro volte meno rispetto a quanto tipicamente necessario - ottenendo prestazioni competitive o addirittura superiori rispetto ai MLLM unificati esistenti, come Janus. Inoltre, per promuovere un potenziamento sinergico tra le capacità di comprensione e generazione, poco esplorato nei lavori precedenti, introduciamo un nuovo schema di allineamento multimodale auto-migliorante. Questo schema supervisiona il MLLM per auto-valutare la coerenza tra le descrizioni testuali e le immagini autogenerate, facilitando il modello nell'interpretare le immagini in modo più accurato ed evitare previsioni irrealistiche e scorrette causate da un disallineamento nella generazione delle immagini. Sulla base di ampi esperimenti, il nostro ILLUME proposto si distingue e compete con i MLLM unificati e modelli specializzati all'avanguardia su vari benchmark per la comprensione, generazione e modifica multimodale.
Recentemente, i Large Language Models (LLM) hanno subito una significativa trasformazione, contraddistinta da un rapido aumento sia della loro popolarità che delle capacità. A guidare questa evoluzione sono LLM proprietari come GPT-4 e GPT-o1, che hanno catturato ampia attenzione nella comunità di intelligenza artificiale grazie alle loro prestazioni e versatilità straordinarie. Allo stesso tempo, i LLM open-source, come LLaMA e Mistral, hanno apportato grandi contributi alla crescente popolarità dei LLM grazie alla facilità di personalizzazione e distribuzione dei modelli in diverse applicazioni. Sebbene i LLM open-source offrano opportunità senza precedenti per l'innovazione e la ricerca, la commercializzazione dei LLM ha sollevato preoccupazioni riguardo alla trasparenza, riproducibilità e sicurezza. Molti LLM open-source non soddisfano i requisiti fondamentali di trasparenza trattenendo componenti essenziali come codice di addestramento e dati, e alcuni utilizzano licenze restrittive pur dichiarandosi "open-source", il che potrebbe ostacolare ulteriori innovazioni sui LLM. Per mitigare questo problema, presentiamo Moxin 7B, un LLM completamente open-source sviluppato in conformità con il Model Openness Framework (MOF), un sistema di classificazione graduato che valuta i modelli di intelligenza artificiale in base alla completezza e apertura del modello, attenendosi ai principi di scienza aperta, open source, open data e open access. Il nostro modello raggiunge il più alto livello di classificazione MOF di "scienza aperta" attraverso il rilascio completo del codice e delle configurazioni di pre-addestramento, dei dataset di addestramento e raffinamento, e dei checkpoint intermedi e finali. Gli esperimenti mostrano che il nostro modello ottiene prestazioni superiori nella valutazione zero-shot rispetto ai modelli 7B popolari e si comporta in modo competitivo nella valutazione few-shot.
Gli sviluppi recenti nei Large Multi-modal Models (LMMs) sottolineano l'importanza dello scaling mediante l'aumento dei dati accoppiati immagine-testo, ottenendo prestazioni impressionanti su compiti generali. Nonostante la loro efficacia in varie applicazioni, i modelli generalisti sono principalmente addestrati su dataset di scala web dominati da immagini naturali, con il risultato del sacrificio delle capacità specializzate per compiti specifici di dominio che richiedono una conoscenza preliminare estesa del dominio. Inoltre, l'integrazione diretta di modelli esperti personalizzati per specifici domini è impegnativa a causa del divario rappresentativo e dell'ottimizzazione sbilanciata tra il modello generalista e gli esperti. Per affrontare queste sfide, presentiamo Chimera, un pipeline multi-modale scalabile e a basso costo progettato per potenziare la capacità dei LMMs esistenti con esperti specifici del dominio. In particolare, progettiamo una strategia di addestramento progressiva per integrare le caratteristiche dei modelli esperti nell'input di un LMM generalista. Per affrontare l'ottimizzazione sbilanciata causata dall'encoder visivo generale ben allineato, introduciamo un meccanismo di Mascheramento di Collaborazione Generalista-Specialista (GSCM) innovativo. Ciò porta a un modello versatile che eccelle nei domini di grafico, tabella, matematica e documento, ottenendo prestazioni all'avanguardia su compiti di ragionamento multi-modale ed estrazione di contenuti visivi, entrambi compiti impegnativi per valutare i LMMs esistenti.
Questo studio mira a ottenere un controllo degli oggetti più preciso e versatile nella generazione immagine-video (I2V). I metodi attuali rappresentano tipicamente il movimento spaziale degli oggetti di destinazione con traiettorie 2D, che spesso non riescono a catturare l'intenzione dell'utente e producono frequentemente risultati innaturali. Per migliorare il controllo, presentiamo ObjCtrl-2.5D, un approccio di controllo degli oggetti senza addestramento che utilizza una traiettoria 3D, estesa da una traiettoria 2D con informazioni sulla profondità, come segnale di controllo. Modellando il movimento dell'oggetto come movimento della telecamera, ObjCtrl-2.5D rappresenta la traiettoria 3D come una sequenza di pose della telecamera, consentendo il controllo del movimento dell'oggetto utilizzando un modello di generazione immagine-video con controllo del movimento della telecamera esistente (CMC-I2V) senza addestramento. Per adattare il modello CMC-I2V originariamente progettato per il controllo del movimento globale per gestire il movimento locale dell'oggetto, introduciamo un modulo per isolare l'oggetto di destinazione dallo sfondo, consentendo un controllo locale indipendente. Inoltre, progettiamo un modo efficace per ottenere un controllo degli oggetti più accurato condividendo latenti distorti a bassa frequenza all'interno della regione dell'oggetto tra i frame. Estesi esperimenti dimostrano che ObjCtrl-2.5D migliora significativamente l'accuratezza del controllo degli oggetti rispetto ai metodi senza addestramento e offre capacità di controllo più diverse rispetto agli approcci basati sull'addestramento utilizzando traiettorie 2D, consentendo effetti complessi come la rotazione degli oggetti. Il codice e i risultati sono disponibili su https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
Questo articolo mira a migliorare le prestazioni dei grandi modelli linguistici affrontando le variabili esigenze computazionali nei passaggi di inferenza, in cui alcuni token richiedono più risorse computazionali di altri. Presentiamo HARP, una semplice modifica al passaggio in avanti del Transformer "pronto all'uso". Attingendo dall'incertezza e dall'effetto di inquadratura nella presa di decisioni, HARP applica selettivamente ulteriori calcoli quando il modello incontra incertezza durante la generazione del token. Il nostro metodo imita i processi cognitivi umani mettendo in pausa nei punti decisionali difficili e riformulando gli input per una prospettiva diversa. A differenza di altri approcci, HARP è agnostico rispetto al modello, non richiede addestramento ed è facile da implementare. Valutiamo approfonditamente il nostro metodo su vari compiti successivi e dimensioni del modello, dimostrando miglioramenti delle prestazioni fino al +5,16%. In particolare, HARP raggiunge questi guadagni mantenendo tempi di inferenza due volte più veloci rispetto alla ricerca a fascio. Semplice eppure con guadagni significativi, HARP offre una soluzione pratica per migliorare le prestazioni dei modelli linguistici basati su Transformer con un impatto computazionale minimo.
La generazione di immagini da testo (T2I) ha visto significativi progressi con i modelli di diffusione, consentendo la generazione di immagini fotorealistiche da prompt di testo. Nonostante questo progresso, i metodi esistenti continuano ad affrontare sfide nel seguire prompt di testo complessi, specialmente quelli che richiedono ragionamento compositivo e multi-step. Date istruzioni così complesse, i modelli SOTA spesso commettono errori nel modellare fedelmente gli attributi degli oggetti e le relazioni tra di essi. In questo lavoro, presentiamo un paradigma alternativo per la sintesi T2I, decomponendo il compito di generazione complessa multi-step in tre fasi: (a) Generazione: generiamo innanzitutto un'immagine utilizzando i modelli di diffusione esistenti; (b) Pianificazione: facciamo uso di Modelli LLM Multi-Modal (MLLM) per identificare gli errori nell'immagine generata espressi in termini di singoli oggetti e delle loro proprietà, e produciamo una sequenza di passaggi correttivi necessari sotto forma di un piano di modifica; (c) Modifica: facciamo uso di modelli di modifica di immagini guidati da testo esistenti per eseguire sequenzialmente il nostro piano di modifica sull'immagine generata per ottenere l'immagine desiderata che sia fedele all'istruzione originale. Il nostro approccio trae forza dal fatto che è modulare per natura, non richiede addestramento e può essere applicato su qualsiasi combinazione di modelli di generazione e modifica di immagini. Come contributo aggiuntivo, sviluppiamo anche un modello in grado di modifiche compositive, che aiuta ulteriormente a migliorare la precisione complessiva del nostro approccio proposto. Il nostro metodo scambia flessibilmente il tempo di inferenza con le prestazioni sui prompt di testo compositivi. Effettuiamo una valutazione sperimentale approfondita su 3 benchmark e 10 modelli T2I, inclusi DALLE-3 e il più recente - SD-3.5-Large. Il nostro approccio non solo migliora le prestazioni dei modelli SOTA, fino a 3 punti percentuali, ma riduce anche il divario di prestazioni tra modelli più deboli e più forti.
Il Federated Learning (FL) mira a proteggere la privacy dei dati consentendo ai clienti di addestrare collettivamente modelli di machine learning senza condividere i dati grezzi. Tuttavia, recenti studi dimostrano che le informazioni scambiate durante il FL sono soggette agli Attacchi di Inversione del Gradiente (GIA) e, di conseguenza, una varietà di metodi per la protezione della privacy sono stati integrati nel FL per contrastare tali attacchi, come il Calcolo Sicuro tra Parti Multiple (SMC), la Crittografia Omomorfica (HE) e la Privacy Differenziale (DP). Nonostante la loro capacità di proteggere la privacy dei dati, questi approcci comportano intrinsecamente notevoli compromessi tra privacy e utilità. Rivedendo la chiave dell'esposizione della privacy nel FL sotto GIA, che risiede nella condivisione frequente dei gradienti del modello che contengono dati privati, adottiamo una nuova prospettiva progettando un nuovo framework FL per la preservazione della privacy che efficacemente "interrompe la connessione diretta" tra i parametri condivisi e i dati privati locali per difendersi dai GIA. In particolare, proponiamo un framework di Federated Learning con Hypernetwork (HyperFL) che utilizza iperreti per generare i parametri del modello locale e solo i parametri dell'iperrete vengono caricati sul server per l'aggregazione. Analisi teoriche dimostrano il tasso di convergenza del proposto HyperFL, mentre risultati sperimentali estesi mostrano la capacità di preservare la privacy e le prestazioni comparabili di HyperFL. Il codice è disponibile su https://github.com/Pengxin-Guo/HyperFL.
Il controdiscorso generato dall'IA offre una strategia promettente e scalabile per contrastare la tossicità online attraverso risposte dirette che promuovono il dialogo civile. Tuttavia, attualmente il controdiscorso è standardizzato, mancando di adattamento al contesto di moderazione e agli utenti coinvolti. Proponiamo e valutiamo diverse strategie per generare un controdiscorso personalizzato adattato al contesto di moderazione e personalizzato per l'utente moderato. Istruiamo un modello LLaMA2-13B per generare controdiscorsi, sperimentando con varie configurazioni basate su diverse informazioni contestuali e strategie di ottimizzazione. Identifichiamo le configurazioni che generano un controdiscorso persuasivo attraverso una combinazione di indicatori quantitativi e valutazioni umane raccolte tramite un esperimento di crowdsourcing con un design misto pre-registrato. I risultati mostrano che il controdiscorso contestualizzato può superare significativamente il controdiscorso generico all'avanguardia in termini di adeguatezza e persuasività, senza compromettere le altre caratteristiche. Le nostre conclusioni rivelano anche una scarsa correlazione tra gli indicatori quantitativi e le valutazioni umane, suggerendo che questi metodi valutino aspetti diversi e sottolineando la necessità di metodologie di valutazione sfumate. L'efficacia del controdiscorso generato dall'IA contestualizzato e la divergenza tra valutazioni umane e algoritmiche sottolineano l'importanza di un aumento della collaborazione tra umani e IA nella moderazione dei contenuti.
Le politiche dei robot visuomotori, sempre più pre-addestrate su dataset di grandi dimensioni, promettono significativi progressi in vari ambiti della robotica. Tuttavia, allineare tali politiche con le preferenze degli utenti finali rimane una sfida, specialmente quando le preferenze sono difficili da specificare. Mentre il reinforcement learning basato sul feedback umano (RLHF) è diventato il meccanismo predominante per l'allineamento in domini non incorporati come i grandi modelli linguistici, non ha ottenuto lo stesso successo nell'allineare le politiche visuomotorie a causa della quantità proibitiva di feedback umano necessaria per imparare le funzioni di ricompensa visiva. Per affrontare questa limitazione, proponiamo il Learning basato su Preferenze Allineate alla Rappresentazione (RAPL), un metodo basato solo sull'osservazione per imparare ricompense visive da un feedback umano significativamente inferiore. A differenza del tradizionale RLHF, RAPL concentra il feedback umano sul raffinamento degli encoder di visione pre-addestrati per allinearli con la rappresentazione visiva dell'utente finale e quindi costruisce una ricompensa visiva densa tramite il matching delle caratteristiche in questo spazio di rappresentazione allineato. Validiamo inizialmente RAPL attraverso esperimenti di simulazione nel benchmark X-Magical e nella manipolazione robotica di Franka Panda, dimostrando che può imparare ricompense allineate con le preferenze umane, utilizza in modo più efficiente i dati di preferenza e generalizza tra le incarnazioni del robot. Infine, i nostri esperimenti hardware allineano le Politiche di Diffusione pre-addestrate per tre compiti di manipolazione degli oggetti. Scopriamo che RAPL può raffinare queste politiche con un 5x meno dati reali di preferenza umana, compiendo il primo passo verso la minimizzazione del feedback umano e il massimo allineamento delle politiche dei robot visuomotori.