Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Reinforcement Learning from Human Feedback (RLHF) è emerso come un approccio critico per allineare i grandi modelli linguistici con le preferenze umane, assistendo a una rapida evoluzione algoritmica attraverso metodi come l'ottimizzazione della politica prossimale (PPO), l'ottimizzazione diretta delle preferenze (DPO), REINFORCE Leave One-Out (RLOO), ReMax e l'ottimizzazione della politica relativa di gruppo (GRPO). Presentiamo REINFORCE++, una variante potenziata dell'algoritmo classico REINFORCE che incorpora tecniche chiave di ottimizzazione da PPO eliminando la necessità di una rete critica. REINFORCE++ raggiunge tre obiettivi principali: (1) semplicità, (2) maggiore stabilità durante l'addestramento e (3) riduzione del carico computazionale. Attraverso un'ampia valutazione empirica, dimostriamo che REINFORCE++ mostra una stabilità superiore rispetto a GRPO e raggiunge una maggiore efficienza computazionale rispetto a PPO pur mantenendo prestazioni comparabili. L'implementazione è disponibile su https://github.com/OpenRLHF/OpenRLHF.
L'IA fisica deve essere prima addestrata digitalmente. Ha bisogno di un gemello digitale di sé stesso, il modello di politica, e di un gemello digitale del mondo, il modello del mondo. In questo articolo, presentiamo la Piattaforma del Modello della Fondazione del Mondo Cosmos per aiutare gli sviluppatori a costruire modelli del mondo personalizzati per le loro configurazioni di IA fisica. Posizioniamo un modello di fondazione del mondo come un modello del mondo ad uso generale che può essere ottimizzato per diventare modelli del mondo personalizzati per applicazioni successive. La nostra piattaforma copre un flusso di lavoro di selezione video, modelli di fondazione del mondo pre-addestrati, esempi di post-addestramento di modelli di fondazione del mondo pre-addestrati e tokenizzatori video. Per aiutare i costruttori di IA fisica a risolvere i problemi più critici della nostra società, rendiamo la nostra piattaforma open-source e i nostri modelli open-weight con licenze permissive disponibili tramite https://github.com/NVIDIA/Cosmos.
L'avvento dei modelli multimodali in tempo reale di grandi dimensioni (LMM) come il GPT-4o ha suscitato un notevole interesse per i LMM efficienti. I framework LMM di solito codificano gli input visivi in token visivi (rappresentazioni continue) e li integrano con istruzioni testuali nel contesto dei grandi modelli linguistici (LLM), dove i parametri su larga scala e numerosi token di contesto (prevalentemente token visivi) comportano un notevole sovraccarico computazionale. Gli sforzi precedenti per rendere i LMM efficienti si sono sempre concentrati sulla sostituzione del nucleo del LLM con modelli più piccoli, trascurando però la questione cruciale della quantità di token. In questo articolo, presentiamo LLaVA-Mini, un LMM efficiente con un numero minimo di token visivi. Per ottenere un alto rapporto di compressione dei token visivi pur preservando le informazioni visive, analizziamo innanzitutto come i LMM comprendono i token visivi e scopriamo che la maggior parte dei token visivi svolge un ruolo cruciale solo nei primi strati del nucleo del LLM, dove principalmente fondono le informazioni visive nei token di testo. Basandoci su questa scoperta, LLaVA-Mini introduce la prefusione di modalità per fondere le informazioni visive nei token di testo in anticipo, agevolando così la compressione estrema dei token visivi alimentati al nucleo del LLM in un unico token. LLaVA-Mini è un modello multimodale unificato di grandi dimensioni che può supportare la comprensione di immagini, immagini ad alta risoluzione e video in modo efficiente. Gli esperimenti su 11 benchmark basati su immagini e 7 basati su video dimostrano che LLaVA-Mini supera LLaVA-v1.5 con soli 1 token visivo anziché 576. Le analisi di efficienza rivelano che LLaVA-Mini può ridurre le operazioni in virgola mobile (FLOPs) del 77%, fornire risposte a bassa latenza entro 40 millisecondi e elaborare oltre 10.000 frame di video sull'hardware GPU con 24GB di memoria.
Questo lavoro presenta Sa2VA, il primo modello unificato per una comprensione densa e basata su contesto sia di immagini che di video. A differenza dei modelli linguistici multi-modalità esistenti, che spesso sono limitati a modalità e compiti specifici, Sa2VA supporta una vasta gamma di compiti per immagini e video, inclusi segmentazione di riferimento e conversazione, con un minimo sintonizzazione istantanea. Sa2VA combina SAM-2, un modello di segmentazione video di base, con LLaVA, un modello avanzato di visione-linguaggio, e unifica testo, immagine e video in uno spazio di token LLM condiviso. Utilizzando il LLM, Sa2VA genera token di istruzione che guidano SAM-2 nella produzione di maschere precise, consentendo una comprensione basata su contesto e multi-modalità sia dei contenuti visivi statici che dinamici. Inoltre, introduciamo Ref-SAV, un dataset auto-etichettato contenente oltre 72k espressioni di oggetti in scene video complesse, progettato per migliorare le prestazioni del modello. Validiamo anche manualmente 2k oggetti video nei dataset Ref-SAV per valutare la segmentazione di oggetti video di riferimento in ambienti complessi. Gli esperimenti mostrano che Sa2VA raggiunge lo stato dell'arte su diversi compiti, in particolare nella segmentazione di oggetti video di riferimento, evidenziando il suo potenziale per applicazioni reali complesse.
Negli ultimi anni, i modelli di visione del linguaggio (VLM) hanno compiuto progressi significativi nella comprensione dei video. Tuttavia, una capacità cruciale - la comprensione dettagliata del movimento - rimane poco esplorata nei benchmark attuali. Per affrontare questa lacuna, proponiamo MotionBench, un benchmark di valutazione completo progettato per valutare la comprensione dettagliata del movimento dei modelli di comprensione video. MotionBench valuta la percezione a livello di movimento dei modelli attraverso sei categorie principali di tipi di domande orientate al movimento e include dati raccolti da fonti diverse, garantendo una rappresentazione ampia dei contenuti video del mondo reale. I risultati sperimentali rivelano che i VLM esistenti hanno prestazioni scadenti nella comprensione dei movimenti dettagliati. Per migliorare la capacità dei VLM di percepire il movimento dettagliato all'interno di una lunghezza di sequenza limitata di LLM, conduciamo ampi esperimenti che esaminano le architetture dei VLM ottimizzate per la compressione delle caratteristiche video e proponiamo un metodo di Fusione Through-Encoder (TE) innovativo ed efficiente. Gli esperimenti mostrano che input a frame rate più elevato e la Fusione TE portano a miglioramenti nella comprensione del movimento, ma c'è ancora ampio margine per l'ottimizzazione. Il nostro benchmark mira a guidare e motivare lo sviluppo di modelli di comprensione video più capaci, sottolineando l'importanza della comprensione dettagliata del movimento. Pagina del progetto: https://motion-bench.github.io.
I modelli di diffusione hanno dimostrato un'impressionante performance nella generazione di video di alta qualità da prompt di testo o immagini. Tuttavia, il controllo preciso sul processo di generazione video, come la manipolazione della telecamera o l'editing del contenuto, rimane una sfida significativa. I metodi esistenti per la generazione video controllata sono tipicamente limitati a un singolo tipo di controllo, mancando della flessibilità necessaria per gestire diverse esigenze di controllo. In questo articolo, presentiamo Diffusion as Shader (DaS), un nuovo approccio che supporta molteplici compiti di controllo video all'interno di un'architettura unificata. La nostra intuizione chiave è che ottenere un controllo video versatile richiede di sfruttare segnali di controllo 3D, poiché i video sono fondamentalmente rappresentazioni 2D di contenuti dinamici 3D. A differenza dei metodi precedenti limitati a segnali di controllo 2D, DaS sfrutta video di tracciamento 3D come input di controllo, rendendo il processo di diffusione video intrinsecamente consapevole del 3D. Questa innovazione consente a DaS di ottenere una vasta gamma di controlli video semplicemente manipolando i video di tracciamento 3D. Un ulteriore vantaggio nell'utilizzo di video di tracciamento 3D è la loro capacità di collegare efficacemente i frame, migliorando significativamente la coerenza temporale dei video generati. Con soli 3 giorni di raffinamento su 8 GPU H800 utilizzando meno di 10k video, DaS dimostra forti capacità di controllo su diverse attività, inclusa la generazione di video da mesh, il controllo della telecamera, il trasferimento di movimento e la manipolazione degli oggetti.
Generare automaticamente presentazioni da documenti è un compito impegnativo che richiede di bilanciare la qualità del contenuto, il design visivo e la coerenza strutturale. I metodi esistenti si concentrano principalmente sul miglioramento e sulla valutazione della qualità del contenuto in modo isolato, spesso trascurando il design visivo e la coerenza strutturale, il che limita la loro applicabilità pratica. Per affrontare queste limitazioni, proponiamo PPTAgent, che migliora in modo esaustivo la generazione di presentazioni attraverso un approccio in due fasi basato sulla modifica ispirato ai flussi di lavoro umani. PPTAgent analizza innanzitutto presentazioni di riferimento per comprendere i loro schemi strutturali e contenutistici, quindi redige schemi e genera diapositive attraverso azioni di codice per garantire coerenza e allineamento. Per valutare in modo esaustivo la qualità delle presentazioni generate, introduciamo inoltre PPTEval, un framework di valutazione che valuta le presentazioni su tre dimensioni: Contenuto, Design e Coerenza. Gli esperimenti mostrano che PPTAgent supera significativamente i tradizionali metodi di generazione automatica di presentazioni su tutte e tre le dimensioni. Il codice e i dati sono disponibili su https://github.com/icip-cas/PPTAgent.
Recenti progressi nell'apprendimento omnimodale sono stati raggiunti nella comprensione e generazione attraverso immagini, testo e speech, sebbene principalmente all'interno di modelli proprietari. Dati omnimodali limitati e le sfide intrinseche associate alla generazione di speech emotivo in tempo reale hanno ostacolato il progresso open-source. Per affrontare questi problemi, proponiamo openomni, un metodo di addestramento a due fasi che combina allineamento omnimodale e generazione di speech per sviluppare un modello di linguaggio omnimodale di grandi dimensioni all'avanguardia. Nella fase di allineamento, un modello di speech pre-addestrato viene ulteriormente addestrato su compiti testo-immagine per generalizzare dalla visione allo speech in modo (quasi) zero-shot, superando i modelli addestrati su dataset tri-modali. Nella fase di generazione di speech, un decoder leggero facilita la generazione di speech emotivo in tempo reale attraverso l'addestramento su compiti di speech e apprendimento delle preferenze. Gli esperimenti dimostrano che openomni migliora costantemente nelle valutazioni omnimodali, visione-linguaggio e speech-linguaggio, consentendo dialoghi naturali e ricchi di emozioni e la generazione di speech emotivo in tempo reale.
Il paradigma della ricerca scientifica sta subendo una profonda trasformazione grazie allo sviluppo dell'Intelligenza Artificiale (IA). Lavori recenti dimostrano che vari metodi di ricerca assistiti dall'IA possono migliorare notevolmente l'efficienza della ricerca attraverso un miglioramento dell'analisi dei dati, un'accelerazione dei calcoli e la promozione della generazione di nuove idee. Per avanzare ulteriormente verso l'obiettivo ultimo (cioè la ricerca scientifica automatica), in questo articolo proponiamo Dolphin, il primo framework di ricerca automatica open-ended a ciclo chiuso per costruire ulteriormente l'intero processo della ricerca scientifica umana. Dolphin può generare idee di ricerca, condurre esperimenti e ricevere feedback dai risultati sperimentali per generare idee di maggiore qualità. Più specificamente, Dolphin genera inizialmente idee innovative basate su articoli pertinenti classificati per argomento e attributi di compito. Successivamente, i codici vengono generati automaticamente e debuggati con una struttura di codice locale guidata da eccezioni e traceback. Infine, Dolphin analizza automaticamente i risultati di ciascuna idea e li restituisce per la generazione di idee del round successivo. Sono stati condotti esperimenti su dataset di benchmark di diversi argomenti e i risultati mostrano che Dolphin può generare idee innovative in modo continuo e completare l'esperimento in un ciclo. Sottolineiamo che Dolphin può proporre automaticamente metodi comparabili allo stato dell'arte in alcuni compiti come la classificazione di immagini 2D e la classificazione di punti 3D.
Presentiamo Magic Mirror, un framework per generare video preservando l'identità con qualità di livello cinematografico e movimento dinamico. Mentre i recenti progressi nei modelli di diffusione video hanno dimostrato capacità impressionanti nella generazione di video da testo, mantenere un'identità coerente producendo un movimento naturale rimane una sfida. I metodi precedenti richiedono o un adattamento fine specifico della persona o faticano a bilanciare la preservazione dell'identità con la diversità del movimento. Basato sui Video Diffusion Transformers, il nostro metodo introduce tre componenti chiave: (1) un estrattore di caratteristiche facciali a doppio ramo che cattura sia l'identità che le caratteristiche strutturali, (2) un adattatore cross-modale leggero con Normalizzazione Adattiva Condizionata per un'integrazione efficiente dell'identità e (3) una strategia di addestramento a due fasi che combina coppie di identità sintetiche con dati video. Gli esperimenti estesi dimostrano che Magic Mirror bilancia efficacemente la coerenza dell'identità con il movimento naturale, superando i metodi esistenti su più metriche con l'aggiunta minima di parametri. Il codice e il modello saranno resi pubblicamente disponibili su: https://github.com/dvlab-research/MagicMirror/
Il Splatting Gaussiano in 3D (3DGS) ha compiuto significativi progressi nella rappresentazione della scena e nel rendering neurale, con intensi sforzi concentrati sull'adattamento per scene dinamiche. Nonostante offra una notevole qualità e velocità di rendering, i metodi esistenti faticano con le richieste di archiviazione e la rappresentazione dei complessi movimenti del mondo reale. Per affrontare questi problemi, proponiamo MoDecGS, un framework di splatting gaussiano efficiente in termini di memoria progettato per ricostruire nuove visuali in scenari sfidanti con movimenti complessi. Introduciamo la Decomposizione del Movimento Globale in Locale (GLMD) per catturare efficacemente i movimenti dinamici in modo grossolano fino a fine. Questo approccio sfrutta i Ponteggi Canonici Globali (Global CS) e i Ponteggi Canonici Locali (Local CS), estendendo la rappresentazione statica del Ponteggio alla ricostruzione video dinamica. Per il Global CS, proponiamo la Deformazione dell'Ancoraggio Globale (GAD) per rappresentare efficacemente le dinamiche globali lungo movimenti complessi, deformando direttamente gli attributi impliciti del Ponteggio che sono posizione dell'ancoraggio, offset e caratteristiche del contesto locale. Successivamente, regoliamo finemente i movimenti locali tramite la Deformazione Gaussiana Locale (LGD) del Local CS in modo esplicito. Inoltre, introduciamo l'Adattamento dell'Intervallo Temporale (TIA) per controllare automaticamente la copertura temporale di ciascun Local CS durante l'addestramento, consentendo a MoDecGS di trovare assegnazioni di intervallo ottimali in base al numero specificato di segmenti temporali. Valutazioni approfondite dimostrano che MoDecGS raggiunge una riduzione media del 70% delle dimensioni del modello rispetto ai metodi all'avanguardia per i Gaussiani 3D dinamici dai video dinamici del mondo reale, mantenendo o addirittura migliorando la qualità del rendering.
L'apprendimento per rinforzo da feedback umano (RLHF) è stato ampiamente adottato per allineare i modelli linguistici (LMs) con le preferenze umane. I lavori precedenti su RLHF solitamente adottano una formulazione a bandito, che, sebbene intuitiva, ignora la natura sequenziale della generazione di LM e può soffrire del problema del premio sparso. Mentre i lavori recenti propongono RLHF a livello di token denso, trattare ogni token come un'azione potrebbe essere troppo sottile per una corretta assegnazione del premio. In questo articolo, cerchiamo di ottenere il meglio di entrambi addestrando e utilizzando un modello di premio a livello di segmento, che assegna un premio a ciascun segmento di testo semanticamente completo che si estende su una breve sequenza di token. Per l'apprendimento del premio, il nostro metodo consente la segmentazione dinamica del testo e la compatibilità con set di dati standard di preferenza di sequenza. Per un addestramento efficace di LM basato su RL contro il premio del segmento, generalizziamo i normalizzatori di premio bandito scalari classici in funzioni di normalizzazione consapevoli della posizione e interpoliamo il premio del segmento per una maggiore densificazione. Con questi design, il nostro metodo si comporta in modo competitivo su tre popolari benchmark RLHF per la politica di LM: AlpacaEval 2.0, Arena-Hard e MT-Bench. Sono stati condotti studi di ablation per dimostrare ulteriormente il nostro metodo.
Presentiamo un approccio per modificare le architetture dei Transformer integrando il ragionamento relazionale consapevole dei grafi nel meccanismo di attenzione, unendo concetti delle reti neurali a grafo e della modellazione del linguaggio. Basandoci sulla connessione intrinseca tra l'attenzione e la teoria dei grafi, riformuliamo il meccanismo di attenzione del Transformer come un'operazione a grafo e proponiamo l'Attenzione Isomorfa Consapevole del Grafo. Questo metodo sfrutta strategie avanzate di modellazione dei grafi, inclusi i Graph Isomorphism Networks (GIN) e il Principal Neighborhood Aggregation (PNA), per arricchire la rappresentazione delle strutture relazionali. Il nostro approccio cattura dipendenze complesse e generalizza tra compiti, come dimostrato da un ridotto divario di generalizzazione e un miglioramento delle prestazioni di apprendimento. Inoltre, espandiamo il concetto di attenzione consapevole del grafo per introdurre la GIN-Attenzione Sparsa, un approccio di messa a punto fine che utilizza GIN sparsi. Interpretando le matrici di attenzione come grafi di adiacenza sparsi, questa tecnica migliora l'adattabilità dei modelli fondamentali preaddestrati con un minimo dispendio computazionale, dotandoli di capacità consapevoli del grafo. La messa a punto fine della GIN-Attenzione Sparsa ottiene una dinamica di addestramento migliorata e una migliore generalizzazione rispetto a metodi alternativi come l'adattamento a basso rango (LoRA). Discutiamo delle strutture latenti simili a grafi all'interno dei meccanismi di attenzione tradizionali, offrendo un nuovo punto di vista attraverso il quale i Transformer possono essere compresi. Evolvendo i Transformer come modelli GIN gerarchici per il ragionamento relazionale. Questa prospettiva suggerisce implicazioni profonde per lo sviluppo di modelli fondamentali, consentendo la progettazione di architetture che si adattano dinamicamente alle dipendenze locali e globali. Applicazioni in bioinformatica, scienza dei materiali, modellazione del linguaggio e oltre potrebbero beneficiare di questa sintesi tra modellazione dati relazionali e sequenziali, aprendo la strada a strategie di modellazione interpretabili e generalizzabili.
Affrontiamo il problema della modifica delle espressioni facciali controllando la variazione relativa dell'unità d'azione facciale (AU) della stessa persona. Ciò ci consente di modificare l'espressione di questa persona in modo dettagliato, continuo e interpretabile, preservando nel contempo la sua identità, posa, sfondo e dettagliati attributi facciali. Fondamentale per il nostro modello, che abbiamo chiamato MagicFace, è un modello di diffusione condizionato alle variazioni delle AU e un codificatore di ID per preservare dettagli facciali di alta coerenza. In particolare, per preservare i dettagli facciali con l'identità di input, sfruttiamo la potenza dei modelli Stable-Diffusion preaddestrati e progettiamo un codificatore di ID per fondere le caratteristiche dell'aspetto attraverso l'autorappresentazione. Per mantenere la coerenza dello sfondo e della posa, introduciamo un Controller di Attributi efficiente informando esplicitamente il modello dello sfondo e della posa attuali dell'obiettivo. Iniettando variazioni delle AU in un UNet di denoising, il nostro modello può animare identità arbitrarie con varie combinazioni di AU, producendo risultati superiori nella modifica ad alta fedeltà delle espressioni rispetto ad altri lavori di modifica delle espressioni facciali. Il codice è disponibile pubblicamente su https://github.com/weimengting/MagicFace.
I modelli di diffusione immagine-immagine guidati dal testo eccellono nella traduzione di immagini basata su prompt testuali, consentendo modifiche visive precise e creative. Tuttavia, una tecnica così potente può essere abusata per diffondere disinformazione, violare i diritti d'autore e eludere il tracciamento dei contenuti. Questo ci motiva a introdurre il compito di Identificazione dell'Origine per i modelli di diffusione immagine-immagine guidati dal testo (ID^2), mirando a recuperare l'immagine originale di una determinata query tradotta. Una soluzione diretta per ID^2 coinvolge l'addestramento di un modello di embedding profondo specializzato per estrarre e confrontare le caratteristiche sia delle query che delle immagini di riferimento. Tuttavia, a causa delle discrepanze visive tra le generazioni prodotte da diversi modelli di diffusione, questo approccio basato sulla similarità fallisce quando addestrato su immagini da un modello e testato su quelle di un altro, limitandone l'efficacia nelle applicazioni reali. Per risolvere questa sfida del proposto compito ID^2, contribuiamo con il primo dataset e un metodo teoricamente garantito, entrambi enfatizzando la generalizzabilità. Il dataset curato, OriPID, contiene numerose Origini e Prompt guidati, che possono essere utilizzati per addestrare e testare potenziali modelli di Identificazione attraverso vari modelli di diffusione. Nella sezione relativa al metodo, dimostriamo innanzitutto l'esistenza di una trasformazione lineare che minimizza la distanza tra gli embedding pre-addestrati del Variational Autoencoder (VAE) dei campioni generati e le loro origini. Successivamente, viene dimostrato che una tale semplice trasformazione lineare può essere generalizzata tra diversi modelli di diffusione. I risultati sperimentali mostrano che il metodo proposto raggiunge una soddisfacente performance di generalizzazione, superando significativamente i metodi basati sulla similarità (+31,6% mAP), anche quelli con progetti di generalizzazione.