Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'architettura Transformer è composta da due principali componenti non di embedding: l'Attention e la Feed Forward Network (FFN). L'Attention cattura le interdipendenze tra le parole indipendentemente dalla loro posizione, mentre la FFN trasforma in modo non lineare ciascun token di input in maniera indipendente. In questo lavoro esploriamo il ruolo della FFN e scopriamo che, nonostante occupi una frazione significativa dei parametri del modello, è altamente ridondante. Nello specifico, siamo in grado di ridurre sostanzialmente il numero di parametri con solo un modesto calo di accuratezza rimuovendo la FFN dai livelli del decoder e condividendo una singola FFN attraverso l'encoder. Infine, ridimensioniamo questa architettura alla sua dimensione originale aumentando la dimensione nascosta della FFN condivisa, ottenendo miglioramenti sostanziali sia in termini di accuratezza che di latenza rispetto al Transformer Big originale.
I precedenti GAN 3D animabili per la generazione di esseri umani si sono principalmente concentrati sulla testa o sull'intero corpo. Tuttavia, i video che mostrano solo la testa sono relativamente rari nella vita reale, e la generazione dell'intero corpo tipicamente non gestisce il controllo delle espressioni facciali e presenta ancora sfide nel produrre risultati di alta qualità. Verso avatar video applicabili, presentiamo un GAN 3D animabile che genera immagini ritratto con controllo sulle espressioni facciali, la posa della testa e i movimenti delle spalle. Si tratta di un modello generativo addestrato su collezioni di immagini 2D non strutturate senza l'uso di dati 3D o video. Per il nuovo compito, basiamo il nostro metodo sulla rappresentazione del manifold di radianza generativa e lo dotiamo di deformazioni apprendibili per il viso e la testa-spalle. Viene proposto uno schema di rendering a doppia telecamera e apprendimento avversario per migliorare la qualità dei volti generati, aspetto critico per le immagini ritratto. Una rete di elaborazione delle deformazioni della posa è sviluppata per generare deformazioni plausibili per regioni complesse come i capelli lunghi. Gli esperimenti mostrano che il nostro metodo, addestrato su immagini 2D non strutturate, può generare ritratti 3D diversificati e di alta qualità con il controllo desiderato su diverse proprietà.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità straordinarie nel comprendere le intenzioni umane, impegnarsi in ragionamenti e progettare comportamenti simili alla pianificazione. Per sfruttare ulteriormente il potenziale degli LLM nel portare a termine compiti complessi, si sta diffondendo la tendenza a costruire framework di agenti che dotano gli LLM, come ChatGPT, di abilità di utilizzo di strumenti per connettersi a un vasto numero di API esterne. In questo lavoro, presentiamo ModelScope-Agent, un framework di agenti generale e personalizzabile per applicazioni nel mondo reale, basato su LLM open-source come controller. Offre una libreria di sistema user-friendly, con un design del motore personalizzabile per supportare l'addestramento di modelli su più LLM open-source, consentendo anche un'integrazione senza soluzione di continuità sia con le API dei modelli che con le API comuni in modo unificato. Per dotare gli LLM di abilità di utilizzo di strumenti, è stato proposto un framework completo che copre la raccolta di dati sull'uso degli strumenti, il recupero degli strumenti, la registrazione degli strumenti, il controllo della memoria, l'addestramento personalizzato dei modelli e la valutazione per applicazioni pratiche nel mondo reale. Infine, presentiamo ModelScopeGPT, un assistente intelligente del mondo reale per la comunità ModelScope basato sul framework ModelScope-Agent, in grado di connettere LLM open-source con più di 1000 modelli di IA pubblici e conoscenze localizzate della comunità in ModelScope. La libreria ModelScope-Agent https://github.com/modelscope/modelscope-agent e la demo online https://modelscope.cn/studios/damo/ModelScopeGPT/summary sono ora disponibili pubblicamente.
La ricostruzione di materiali da una fotografia è un componente chiave per la democratizzazione della creazione di contenuti 3D. Proponiamo di formulare questo problema mal posto come un problema di sintesi controllata, sfruttando i recenti progressi nelle reti neurali generative. Presentiamo ControlMat, un metodo che, data in input una singola fotografia con illuminazione non controllata, condiziona un modello di diffusione per generare materiali digitali fisicamente basati, plausibili, ripetibili e ad alta risoluzione. Analizziamo attentamente il comportamento dei modelli di diffusione per output multi-canale, adattiamo il processo di campionamento per fondere informazioni a più scale e introduciamo la diffusione arrotolata per abilitare sia la ripetibilità che la diffusione a patch per output ad alta risoluzione. Il nostro approccio generativo permette inoltre di esplorare una varietà di materiali che potrebbero corrispondere all'immagine di input, mitigando le condizioni di illuminazione sconosciute. Dimostriamo che il nostro approccio supera i recenti metodi di inferenza e ottimizzazione nello spazio latente e convalidiamo attentamente le scelte di progettazione del nostro processo di diffusione. Materiali supplementari e dettagli aggiuntivi sono disponibili all'indirizzo: https://gvecchio.com/controlmat/.
Il Reinforcement Learning con Feedback Umano (RLHF) ha rivoluzionato la modellazione del linguaggio allineando i modelli alle preferenze umane. Tuttavia, la fase di RL, l'ottimizzazione prossimale delle politiche (PPO), richiede oltre 3 volte la memoria del Fine-Tuning Supervisionato (SFT), rendendola impraticabile per la maggior parte dei professionisti. Per affrontare questo problema, presentiamo un'analisi completa dell'uso della memoria, delle prestazioni e del tempo di addestramento delle tecniche di risparmio di memoria per PPO. Introduciamo Hydra-RLHF integrando prima i modelli SFT e di ricompensa e poi disattivando dinamicamente LoRA durante l'addestramento. I nostri esperimenti dimostrano: 1. L'uso di LoRA durante PPO riduce il suo utilizzo di memoria a livelli inferiori rispetto a SFT, migliorando l'allineamento su quattro benchmark pubblici, e 2. Hydra-PPO riduce la latenza per campione di LoRA-PPO fino al 65% mantenendo le sue prestazioni. I nostri risultati dimostrano che Hydra-PPO è una soluzione semplice e promettente per favorire un utilizzo più diffuso di RLHF.
Il parlato trasmette più informazioni rispetto al semplice testo, poiché la stessa parola può essere pronunciata con diverse voci per comunicare informazioni variegate. Rispetto ai tradizionali metodi di sintesi vocale (TTS) che si basano su prompt vocali (discorso di riferimento) per la variabilità della voce, l'uso di prompt testuali (descrizioni) è più user-friendly, dato che i prompt vocali possono essere difficili da trovare o potrebbero non esistere affatto. Gli approcci TTS basati su prompt testuali affrontano due sfide principali: 1) il problema uno-a-molti, in cui non tutti i dettagli sulla variabilità della voce possono essere descritti nel prompt testuale, e 2) la disponibilità limitata di dataset di prompt testuali, che richiedono fornitori e un costo elevato per l'etichettatura dei dati per scrivere prompt testuali per il parlato. In questo lavoro, introduciamo PromptTTS 2 per affrontare queste sfide con una rete di variazione che fornisce informazioni sulla variabilità della voce non catturate dai prompt testuali, e una pipeline di generazione dei prompt che utilizza modelli linguistici di grandi dimensioni (LLM) per comporre prompt testuali di alta qualità. Nello specifico, la rete di variazione predice la rappresentazione estratta dal discorso di riferimento (che contiene informazioni complete sulla voce) basandosi sulla rappresentazione del prompt testuale. Per quanto riguarda la pipeline di generazione dei prompt, essa genera prompt testuali per il parlato utilizzando un modello di comprensione del parlato per riconoscere attributi vocali (ad esempio, genere, velocità) dal discorso e un modello linguistico di grandi dimensioni per formulare il prompt testuale basandosi sui risultati del riconoscimento. Esperimenti condotti su un dataset di parlato su larga scala (44K ore) dimostrano che, rispetto ai lavori precedenti, PromptTTS 2 genera voci più coerenti con i prompt testuali e supporta il campionamento di una varietà di voci, offrendo agli utenti più scelte nella generazione vocale. Inoltre, la pipeline di generazione dei prompt produce prompt di alta qualità, eliminando i costi elevati di etichettatura. La pagina demo di PromptTTS 2 è disponibile online all'indirizzo https://speechresearch.github.io/prompttts2.
Il video outpainting mira a completare adeguatamente le aree mancanti ai bordi dei fotogrammi video. Rispetto all'image outpainting, presenta una sfida aggiuntiva poiché il modello deve mantenere la coerenza temporale dell'area riempita. In questo articolo, introduciamo un modello di diffusione 3D mascherato per il video outpainting. Utilizziamo la tecnica del mask modeling per addestrare il modello di diffusione 3D. Questo ci permette di utilizzare più fotogrammi guida per collegare i risultati di più inferenze di clip video, garantendo così la coerenza temporale e riducendo il tremolio tra fotogrammi adiacenti. Nel frattempo, estraiamo i fotogrammi globali del video come prompt e guidiamo il modello a ottenere informazioni oltre al clip video corrente utilizzando il cross-attention. Introduciamo inoltre una pipeline di inferenza ibrida coarse-to-fine per alleviare il problema dell'accumulo di artefatti. La pipeline coarse-to-fine esistente utilizza solo la strategia di riempimento, che porta a un degrado perché l'intervallo di tempo dei fotogrammi sparsi è troppo ampio. La nostra pipeline beneficia dell'apprendimento bidirezionale del mask modeling e può quindi impiegare una strategia ibrida di riempimento e interpolazione durante la generazione di fotogrammi sparsi. Gli esperimenti dimostrano che il nostro metodo raggiunge risultati all'avanguardia nei compiti di video outpainting. Ulteriori risultati sono disponibili al nostro https://fanfanda.github.io/M3DDM/.
Questo articolo presenta un metodo senza LoRA per la generazione di immagini stilizzate che prende in input un prompt testuale e immagini di riferimento per lo stile, producendo un'immagine di output in un unico passaggio. A differenza dei metodi esistenti che si basano sull'addestramento di un LoRA separato per ogni stile, il nostro metodo può adattarsi a vari stili con un modello unificato. Tuttavia, ciò pone due sfide: 1) il prompt perde il controllo sul contenuto generato, e 2) l'immagine di output eredita sia le caratteristiche semantiche che stilistiche dell'immagine di riferimento, compromettendo la fedeltà del contenuto. Per affrontare queste sfide, introduciamo StyleAdapter, un modello che comprende due componenti: un modulo di cross-attention a due percorsi (TPCA) e tre strategie di disaccoppiamento. Questi componenti consentono al nostro modello di elaborare separatamente le caratteristiche del prompt e del riferimento stilistico e ridurre il forte accoppiamento tra le informazioni semantiche e stilistiche nei riferimenti di stile. StyleAdapter può generare immagini di alta qualità che corrispondono al contenuto dei prompt e adottano lo stile dei riferimenti (anche per stili non visti) in un unico passaggio, risultando più flessibile ed efficiente rispetto ai metodi precedenti. Sono stati condotti esperimenti per dimostrare la superiorità del nostro metodo rispetto ai lavori precedenti.
Consideriamo il compito di disambiguazione visiva che consiste nel determinare se una coppia di immagini visivamente simili rappresenta la stessa superficie 3D o superfici distinte (ad esempio, lo stesso lato o i lati opposti di un edificio simmetrico). Le corrispondenze illusorie tra immagini, in cui due immagini osservano superfici 3D distinte ma visivamente simili, possono essere difficili da distinguere per gli esseri umani e possono anche portare gli algoritmi di ricostruzione 3D a produrre risultati errati. Proponiamo un approccio basato sull'apprendimento per la disambiguazione visiva, formulandolo come un compito di classificazione binaria su coppie di immagini. A tal fine, introduciamo un nuovo dataset per questo problema, chiamato Doppelgangers, che include coppie di immagini di strutture simili con etichette di verità fondamentale. Progettiamo inoltre un'architettura di rete che prende in input la distribuzione spaziale dei punti chiave locali e delle corrispondenze, consentendo un ragionamento migliore sia sui segnali locali che su quelli globali. La nostra valutazione dimostra che il nostro metodo è in grado di distinguere corrispondenze illusorie in casi difficili e può essere integrato nelle pipeline SfM per produrre ricostruzioni 3D corrette e disambiguate. Visita la nostra pagina del progetto per il codice, i dataset e ulteriori risultati: http://doppelgangers-3d.github.io/.
Presentiamo Contrastive Feature Masking Vision Transformer (CFM-ViT), una metodologia di pre-addestramento immagine-testo che consente l'apprendimento simultaneo di rappresentazioni a livello di immagine e di regione per il rilevamento di oggetti a vocabolario aperto (OVD). Il nostro approccio combina l'obiettivo del masked autoencoder (MAE) con quello dell'apprendimento contrastivo per migliorare la rappresentazione per compiti di localizzazione. A differenza del MAE standard, eseguiamo la ricostruzione nello spazio di embedding congiunto immagine-testo, anziché nello spazio dei pixel come avviene nel metodo MAE classico, il che consente al modello di apprendere meglio la semantica a livello di regione. Inoltre, introduciamo il Positional Embedding Dropout (PED) per affrontare la variazione di scala tra il pre-addestramento immagine-testo e il fine-tuning per il rilevamento, eliminando casualmente gli embedding posizionali durante il pre-addestramento. Il PED migliora le prestazioni di rilevamento e consente l'uso di un backbone ViT congelato come classificatore di regione, prevenendo la perdita di conoscenza a vocabolario aperto durante il fine-tuning per il rilevamento. Sul benchmark LVIS per il rilevamento a vocabolario aperto, CFM-ViT raggiunge uno stato dell'arte di 33.9 APr, superando il miglior approccio di 7.6 punti e ottenendo un migliore trasferimento di rilevamento zero-shot. Infine, CFM-ViT acquisisce una forte rappresentazione a livello di immagine, superando lo stato dell'arte su 8 delle 12 metriche nei benchmark di recupero immagine-testo zero-shot.
I recenti sviluppi architetturali hanno permesso alle reti neurali ricorrenti (RNN) di raggiungere e persino superare le prestazioni dei Transformer in determinati compiti di modellazione di sequenze. Queste RNN moderne presentano un modello di progettazione distintivo: strati ricorrenti lineari interconnessi da percorsi feedforward con gating moltiplicativo. In questo lavoro, dimostriamo come le RNN dotate di questi due elementi di progettazione possano implementare esattamente l'auto-attenzione (lineare), il principale componente costitutivo dei Transformer. Analizzando un insieme di RNN addestrate, scopriamo che la discesa del gradiente in pratica riscopre la nostra costruzione. In particolare, esaminiamo RNN addestrate per risolvere semplici compiti di apprendimento in contesto, in cui i Transformer sono noti per eccellere, e troviamo che la discesa del gradiente instilla nelle nostre RNN lo stesso algoritmo di apprendimento in contesto basato sull'attenzione utilizzato dai Transformer. I nostri risultati evidenziano l'importanza delle interazioni moltiplicative nelle reti neurali e suggeriscono che alcune RNN potrebbero implementare inaspettatamente meccanismi di attenzione al loro interno.
Questo articolo affronta il problema della modifica dell'aspetto visivo dei video mantenendo inalterato il loro movimento. Viene proposto un nuovo framework, denominato MagicProp, che scompone il processo di editing video in due fasi: modifica dell'aspetto e propagazione dell'aspetto consapevole del movimento. Nella prima fase, MagicProp seleziona un singolo fotogramma dal video di input e applica tecniche di editing delle immagini per modificare il contenuto e/o lo stile del fotogramma. La flessibilità di queste tecniche consente la modifica di regioni arbitrarie all'interno del fotogramma. Nella seconda fase, MagicProp utilizza il fotogramma modificato come riferimento di aspetto e genera i fotogrammi rimanenti utilizzando un approccio di rendering autoregressivo. A tal fine, viene sviluppato un modello di generazione condizionale basato su diffusione, chiamato PropDPM, che sintetizza il fotogramma target condizionandolo sull'aspetto di riferimento, sul movimento target e sul suo aspetto precedente. L'approccio di editing autoregressivo garantisce la coerenza temporale nei video risultanti. In sintesi, MagicProp combina la flessibilità delle tecniche di editing delle immagini con la superiore coerenza temporale della modellazione autoregressiva, consentendo una modifica flessibile dei tipi di oggetti e degli stili estetici in regioni arbitrarie dei video di input, mantenendo una buona coerenza temporale tra i fotogrammi. Esperimenti estensivi in vari scenari di editing video dimostrano l'efficacia di MagicProp.
Questo articolo introduce un approccio per apprendere a risolvere problemi di soddisfazione di vincoli continui (CCSP) nel ragionamento e nella pianificazione robotica. I metodi precedenti si basano principalmente sulla progettazione manuale o sull'apprendimento di generatori per tipi specifici di vincoli, per poi rifiutare le assegnazioni di valori quando altri vincoli vengono violati. Al contrario, il nostro modello, il risolutore di vincoli continui a diffusione composizionale (Diffusion-CCSP), deriva soluzioni globali per i CCSP rappresentandoli come grafi fattoriali e combinando le energie di modelli di diffusione addestrati per campionare singoli tipi di vincoli. Diffusion-CCSP mostra una forte generalizzazione a nuove combinazioni di vincoli noti e può essere integrato in un pianificatore di compiti e movimenti per ideare piani a lungo termine che includono azioni con parametri sia discreti che continui. Sito del progetto: https://diffusion-ccsp.github.io/
La progettazione inversa si riferisce al problema di ottimizzare l'input di una funzione obiettivo per ottenere un risultato target. In molti problemi ingegneristici del mondo reale, la funzione obiettivo assume la forma di un simulatore che prevede come lo stato del sistema evolverà nel tempo, e la sfida progettuale consiste nell'ottimizzare le condizioni iniziali che portano a un risultato desiderato. Recenti sviluppi nella simulazione appresa hanno dimostrato che le reti neurali a grafo (GNN) possono essere utilizzate per una stima accurata, efficiente e differenziabile della dinamica del simulatore, supportando un'ottimizzazione progettuale di alta qualità con procedure di ottimizzazione basate su gradienti o campionamento. Tuttavia, ottimizzare i progetti da zero richiede molte costose interrogazioni del modello, e queste procedure mostrano fallimenti di base su problemi non convessi o ad alta dimensionalità. In questo lavoro, dimostriamo come i modelli di diffusione denoising (DDM) possano essere utilizzati per risolvere problemi di progettazione inversa in modo efficiente e proponiamo un algoritmo di campionamento particellare per migliorarne ulteriormente l'efficienza. Eseguiamo esperimenti su diverse sfide progettuali di fluidodinamica e scopriamo che il nostro approccio riduce sostanzialmente il numero di chiamate al simulatore rispetto alle tecniche standard.
Molte attività di manipolazione nel mondo reale consistono in una serie di sottocompiti significativamente diversi tra loro. Questi compiti complessi e a lungo termine evidenziano il potenziale delle mani robotiche, che possiedono adattabilità e versatilità, essendo in grado di passare senza soluzione di continuità tra diverse modalità funzionali senza la necessità di riafferrare oggetti o utilizzare strumenti esterni. Tuttavia, le sfide sorgono a causa dello spazio d'azione ad alta dimensionalità della mano robotica e delle dinamiche compositive complesse dei compiti a lungo termine. Presentiamo Sequential Dexterity, un sistema generale basato sull'apprendimento per rinforzo (RL) che collega più politiche di controllo per raggiungere obiettivi di compiti a lungo termine. Il cuore del sistema è una funzione di fattibilità di transizione che affina progressivamente le sottopolitiche per aumentare il tasso di successo nella concatenazione, consentendo anche il passaggio autonomo tra politiche per il recupero da errori e il superamento di fasi ridondanti. Nonostante sia stato addestrato solo in simulazione con pochi oggetti di compito, il nostro sistema dimostra capacità di generalizzazione a nuove forme di oggetti ed è in grado di trasferire in modalità zero-shot a un robot reale dotato di una mano robotica. Ulteriori dettagli e risultati video sono disponibili su https://sequential-dexterity.github.io.