Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Kandinsky 3.0, un modello su larga scala per la generazione di immagini da testo basato su diffusione latente, che continua la serie di modelli Kandinsky per la generazione di immagini da testo e riflette i nostri progressi nel raggiungere una qualità e un realismo superiori nella generazione di immagini. Rispetto alle versioni precedenti di Kandinsky 2.x, Kandinsky 3.0 utilizza una backbone U-Net due volte più grande, un encoder di testo dieci volte più grande e rimuove il mapping di diffusione. Descriviamo l'architettura del modello, la procedura di raccolta dei dati, la tecnica di addestramento e il sistema di produzione per l'interazione con l'utente. Ci concentriamo sui componenti chiave che, come abbiamo identificato in seguito a un ampio numero di esperimenti, hanno avuto l'impatto più significativo nel migliorare la qualità del nostro modello rispetto agli altri. Dai nostri confronti affiancati, Kandinsky diventa migliore nella comprensione del testo e funziona meglio in domini specifici. Pagina del progetto: https://ai-forever.github.io/Kandinsky-3
Nella sintesi testo-voce (TTS), i modelli di diffusione hanno raggiunto una qualità di generazione promettente. Tuttavia, a causa del processo di diffusione da dati a rumore predefinito, la loro distribuzione a priori è limitata a una rappresentazione rumorosa, che fornisce poche informazioni sul target di generazione. In questo lavoro, presentiamo un nuovo sistema TTS, Bridge-TTS, che rappresenta il primo tentativo di sostituire la distribuzione a priori gaussiana rumorosa nei metodi TTS basati su diffusione con una distribuzione pulita e deterministica, che fornisce una forte informazione strutturale del target. Nello specifico, sfruttiamo la rappresentazione latente ottenuta dall'input testuale come nostra distribuzione a priori e costruiamo un ponte di Schrodinger completamente trattabile tra questa e il mel-spettrogramma di riferimento, portando a un processo da dati a dati. Inoltre, la trattabilità e la flessibilità della nostra formulazione ci permettono di studiare empiricamente gli spazi di progettazione come le schedulazioni del rumore, nonché di sviluppare campionatori stocastici e deterministici. I risultati sperimentali sul dataset LJ-Speech dimostrano l'efficacia del nostro metodo in termini sia di qualità di sintesi che di efficienza di campionamento, superando significativamente la nostra controparte basata su diffusione Grad-TTS nella sintesi a 50 passi/1000 passi e modelli TTS veloci e robusti in scenari con pochi passi. Pagina del progetto: https://bridge-tts.github.io/
Il Contrastive Language-Image Pre-training (CLIP) svolge un ruolo essenziale nell'estrazione di informazioni preziose dal contenuto delle immagini in una vasta gamma di attività. Allinea le modalità testuali e visive per comprendere l'intera immagine, inclusi tutti i dettagli, anche quelli irrilevanti per compiti specifici. Tuttavia, per una comprensione più raffinata e un editing controllato delle immagini, diventa cruciale concentrarsi su regioni di interesse specifiche, che possono essere indicate come punti, maschere o riquadri da esseri umani o modelli di percezione. Per soddisfare queste esigenze, introduciamo Alpha-CLIP, una versione avanzata di CLIP con un canale alfa ausiliario per suggerire regioni attente e fine-tuned con milioni di coppie regione-testo RGBA costruite. Alpha-CLIP non solo preserva la capacità di riconoscimento visivo di CLIP, ma consente anche un controllo preciso sull'enfasi dei contenuti dell'immagine. Dimostra efficacia in varie attività, tra cui ma non limitate a riconoscimento in mondi aperti, modelli linguistici multimodali di grandi dimensioni e generazione condizionale 2D/3D. Ha un forte potenziale per servire come strumento versatile per attività legate alle immagini.
Il codice fornisce una struttura sintattica generale per costruire programmi complessi e eseguire calcoli precisi quando abbinato a un interprete di codice. Noi ipotizziamo che i modelli linguistici (LM) possano sfruttare la scrittura di codice per migliorare il ragionamento a Catena di Pensiero (Chain of Thought, CoT) non solo per compiti di logica e aritmetica, ma anche per quelli linguistici (e in particolare, per quelli che sono un mix di entrambi). Ad esempio, consideriamo il caso in cui si chiede a un LM di scrivere un codice che conti il numero di volte in cui rileva sarcasmo in un saggio: il LM potrebbe avere difficoltà a scrivere un'implementazione per "detect_sarcasm(string)" che possa essere eseguita dall'interprete (gestire i casi limite sarebbe insormontabile). Tuttavia, i LM potrebbero comunque produrre una soluzione valida se vengono utilizzati non solo per scrivere il codice, ma anche per "emulare" selettivamente l'interprete generando l'output atteso di "detect_sarcasm(string)" e altre righe di codice (ad esempio, che l'interprete non potrebbe compilare). In questo lavoro, proponiamo Chain of Code (CoC), un'estensione semplice ma sorprendentemente efficace che migliora il ragionamento guidato dal codice nei LM. L'idea chiave è incoraggiare i LM a formattare i sotto-task linguistici in un programma come pseudocodice flessibile, in modo che il compilatore possa rilevare esplicitamente comportamenti non definiti e delegarli alla simulazione con un LM (come "LMulator"). Gli esperimenti dimostrano che Chain of Code supera Chain of Thought e altri baseline su una varietà di benchmark; su BIG-Bench Hard, Chain of Code raggiunge l'84%, un miglioramento del 12% rispetto a Chain of Thought. CoC scala bene sia con modelli grandi che piccoli e amplia la gamma di domande di ragionamento che i LM possono rispondere correttamente "pensando in codice". Pagina web del progetto: https://chain-of-code.github.io/.
La creazione di avatar 3D di teste ad alta fedeltà è sempre stata un'area di ricerca di grande interesse, ma rimane una sfida significativa in contesti con configurazioni sparse e leggere. In questo articolo, proponiamo Gaussian Head Avatar, rappresentato da Gaussiane 3D controllabili per la modellazione ad alta fedeltà di avatar di teste. Ottimizziamo le Gaussiane 3D neutre e un campo di deformazione basato su MLP completamente appreso per catturare espressioni complesse. Le due componenti si avvantaggiano reciprocamente, consentendo al nostro metodo di modellare dettagli dinamici finemente granulari garantendo al contempo l'accuratezza delle espressioni. Inoltre, progettiamo una strategia di inizializzazione guidata dalla geometria, basata su SDF implicito e Deep Marching Tetrahedra, per garantire stabilità e convergenza durante il processo di addestramento. Gli esperimenti dimostrano che il nostro approccio supera altri metodi all'avanguardia per visualizzazioni sparse, raggiungendo una qualità di rendering ultra alta a risoluzione 2K anche con espressioni esagerate.
I movimenti in un video consistono principalmente nel movimento della telecamera, indotto dallo spostamento della telecamera stessa, e nel movimento degli oggetti, risultante dallo spostamento degli oggetti. Un controllo accurato sia del movimento della telecamera che degli oggetti è essenziale per la generazione di video. Tuttavia, i lavori esistenti si concentrano principalmente su un tipo di movimento o non distinguono chiaramente tra i due, limitando le loro capacità di controllo e la diversità. Pertanto, questo articolo presenta MotionCtrl, un controller di movimento unificato e flessibile per la generazione di video, progettato per controllare in modo efficace e indipendente il movimento della telecamera e degli oggetti. L'architettura e la strategia di addestramento di MotionCtrl sono state accuratamente concepite, tenendo conto delle proprietà intrinseche del movimento della telecamera, del movimento degli oggetti e dei dati di addestramento imperfetti. Rispetto ai metodi precedenti, MotionCtrl offre tre principali vantaggi: 1) Controlla in modo efficace e indipendente il movimento della telecamera e degli oggetti, consentendo un controllo più fine del movimento e facilitando combinazioni flessibili e diversificate di entrambi i tipi di movimento. 2) Le sue condizioni di movimento sono determinate dalle pose e dalle traiettorie della telecamera, che sono prive di aspetto e hanno un impatto minimo sull'aspetto o sulla forma degli oggetti nei video generati. 3) È un modello relativamente generalizzabile che può adattarsi a una vasta gamma di pose e traiettorie della telecamera una volta addestrato. Sono stati condotti ampi esperimenti qualitativi e quantitativi per dimostrare la superiorità di MotionCtrl rispetto ai metodi esistenti.
Questo articolo presenta un'analisi approfondita dei Large Language Models (LLM), concentrandosi su LLaMA, un noto modello open-source di base nel campo dell'elaborazione del linguaggio naturale. Invece di valutare LLaMA attraverso il suo output generativo, progettiamo task a scelta multipla per sondare la sua comprensione intrinseca in compiti di alto livello come il ragionamento e il calcolo. Esaminiamo il modello sia orizzontalmente, confrontando diverse dimensioni, sia verticalmente, valutando i diversi strati. Riveliamo diversi risultati chiave e inusuali basati sui task di sondaggio progettati: (1) Orizzontalmente, l'aumento delle dimensioni del modello quasi non conferisce automaticamente conoscenze aggiuntive o abilità computazionali. Piuttosto, può migliorare le capacità di ragionamento, specialmente nella risoluzione di problemi matematici, e aiuta a ridurre le allucinazioni, ma solo oltre determinate soglie di dimensione; (2) Nell'analisi verticale, gli strati inferiori di LLaMA mancano di una sostanziale conoscenza aritmetica e fattuale, mostrando invece capacità di pensiero logico, multilingue e ricognitive, mentre gli strati superiori ospitano la maggior parte della potenza computazionale e della conoscenza del mondo reale.
Abbiamo recentemente assistito a progressi straordinari nella modellazione e nel rendering fotorealistico di esseri umani. Tuttavia, rendere in modo efficiente prestazioni umane realistiche e integrarle nel pipeline di rasterizzazione rimane una sfida. In questo articolo, presentiamo HiFi4G, un approccio esplicito e compatto basato su Gaussiane per il rendering ad alta fedeltà di prestazioni umane a partire da riprese dense. La nostra intuizione principale è quella di unire la rappresentazione 3D con Gaussiane al tracciamento non rigido, ottenendo una rappresentazione compatta e adatta alla compressione. Proponiamo innanzitutto un meccanismo a doppio grafo per ottenere prior di movimento, con un grafo di deformazione grossolano per un'inizializzazione efficace e un grafo di Gaussiane granulare per imporre vincoli successivi. Successivamente, utilizziamo uno schema di ottimizzazione 4D con Gaussiane e regolarizzatori spazio-temporali adattivi per bilanciare efficacemente il prior non rigido e l'aggiornamento delle Gaussiane. Presentiamo inoltre uno schema di compressione complementare con compensazione residua per esperienze immersive su varie piattaforme. Questo raggiunge un tasso di compressione sostanziale di circa 25 volte, con meno di 2MB di archiviazione per fotogramma. Esperimenti estensivi dimostrano l'efficacia del nostro approccio, che supera significativamente i metodi esistenti in termini di velocità di ottimizzazione, qualità del rendering e sovraccarico di archiviazione.
Proponiamo Context Diffusion, un framework basato sulla diffusione che consente ai modelli di generazione di immagini di apprendere da esempi visivi presentati in contesto. Recenti lavori affrontano tale apprendimento in contesto per la generazione di immagini, in cui un'immagine query viene fornita insieme a esempi contestuali e prompt testuali. Tuttavia, la qualità e la fedeltà delle immagini generate si deteriorano quando il prompt non è presente, dimostrando che questi modelli non sono in grado di apprendere veramente dal contesto visivo. Per risolvere questo problema, proponiamo un nuovo framework che separa la codifica del contesto visivo e la preservazione della struttura delle immagini query. Ciò si traduce nella capacità di apprendere sia dal contesto visivo che dai prompt testuali, ma anche da uno solo di essi. Inoltre, consentiamo al nostro modello di gestire impostazioni few-shot, per affrontare efficacemente diversi scenari di apprendimento in contesto. I nostri esperimenti e lo studio con utenti dimostrano che Context Diffusion eccelle sia in compiti in-dominio che out-of-dominio, portando a un miglioramento complessivo nella qualità e nella fedeltà delle immagini rispetto ai modelli concorrenti.
I modelli linguistici di grandi dimensioni (LLM, Large Language Models) come ChatGPT hanno suscitato un enorme interesse per la loro capacità di comprensione del linguaggio a scopo generale e, in particolare, per la loro abilità di generare testi o codice di alta qualità. Per molte professioni, gli LLM rappresentano uno strumento prezioso che può accelerare e migliorare la qualità del lavoro. In questa nota, discutiamo in che misura possano essere d'aiuto ai matematici professionisti. Iniziamo fornendo una descrizione matematica del modello Transformer utilizzato in tutti i moderni modelli linguistici. Sulla base di studi recenti, delineiamo poi le migliori pratiche e i potenziali problemi, e riportiamo le capacità matematiche dei modelli linguistici. Infine, esploriamo il potenziale degli LLM di cambiare il modo in cui lavorano i matematici.
L'editing video basato su testo ha recentemente attirato notevole interesse per la modifica dello stile o la sostituzione di oggetti con una struttura simile. Oltre a ciò, dimostriamo che proprietà come forma, dimensione, posizione, movimento, ecc., possono essere modificate anche nei video. La nostra intuizione chiave è che le trasformazioni dei fotogrammi chiave di specifiche caratteristiche interne (ad esempio, mappe dei bordi degli oggetti o pose umane) possono propagarsi facilmente ad altri fotogrammi per fornire una guida alla generazione. Proponiamo quindi MagicStick, un metodo di editing video controllabile che modifica le proprietà del video utilizzando la trasformazione sui segnali di controllo interni estratti. Nel dettaglio, per mantenere l'aspetto, espandiamo sia il modello di diffusione di immagini pre-addestrato che ControlNet alla dimensione temporale e addestriamo strati di adattamento a basso rango (LORA) per adattarli a scene specifiche. Successivamente, durante l'editing, implementiamo un framework di inversione e modifica. Diversamente, un ControlNet fine-tuned viene introdotto sia nell'inversione che nella generazione per la guida dell'attenzione con la proposta di un remix dell'attenzione tra le mappe di attenzione spaziale dell'inversione e della modifica. Sebbene sintetico, il nostro metodo è il primo a dimostrare la capacità di editing delle proprietà video a partire da un modello pre-addestrato di testo-immagine. Presentiamo esperimenti su numerosi esempi all'interno del nostro framework unificato. Confrontiamo inoltre l'editing basato su testo con consapevolezza della forma e la generazione video con movimento artigianale, dimostrando la nostra superiore coerenza temporale e capacità di editing rispetto ai lavori precedenti. Il codice e i modelli saranno resi pubblicamente disponibili.
Questo articolo presenta il framework di generazione di immagini Representation-Conditioned (RCG), un approccio semplice ma efficace che stabilisce un nuovo benchmark nella generazione di immagini senza condizionamento di classe. RCG non si basa su annotazioni umane. Invece, si condiziona su una distribuzione di rappresentazioni auto-supervisionate, mappata dalla distribuzione di immagini utilizzando un encoder pre-addestrato. Durante la generazione, RCG campiona da tale distribuzione di rappresentazioni utilizzando un modello di diffusione delle rappresentazioni (RDM) e impiega un generatore di pixel per creare i pixel dell'immagine condizionati sulla rappresentazione campionata. Questo design fornisce una guida sostanziale durante il processo generativo, portando a una generazione di immagini di alta qualità. Testato su ImageNet 256x256, RCG raggiunge un Frechet Inception Distance (FID) di 3.31 e un Inception Score (IS) di 253.4. Questi risultati non solo migliorano significativamente lo stato dell'arte nella generazione di immagini senza condizionamento di classe, ma rivaleggiano anche con i metodi leader attuali nella generazione di immagini con condizionamento di classe, colmando il divario di prestazioni di lunga data tra queste due attività. Il codice è disponibile all'indirizzo https://github.com/LTH14/rcg.
Utilizzando modelli generativi 2D su larga scala pre-addestrati, i lavori recenti sono in grado di generare nuove viste di alta qualità a partire da una singola immagine in contesti reali. Tuttavia, a causa della mancanza di informazioni provenienti da più viste, questi approcci incontrano difficoltà nel generare nuove viste controllabili. In questo articolo, presentiamo DreamComposer, un framework flessibile e scalabile in grado di migliorare i modelli di diffusione esistenti consapevoli della vista, iniettando condizioni multi-vista. Nello specifico, DreamComposer utilizza inizialmente un modulo di sollevamento 3D consapevole della vista per ottenere rappresentazioni 3D di un oggetto da più viste. Successivamente, rende le caratteristiche latenti della vista target dalle rappresentazioni 3D attraverso un modulo di fusione delle caratteristiche multi-vista. Infine, le caratteristiche della vista target estratte dagli input multi-vista vengono iniettate in un modello di diffusione pre-addestrato. Gli esperimenti dimostrano che DreamComposer è compatibile con i modelli di diffusione all'avanguardia per la sintesi zero-shot di nuove viste, migliorandoli ulteriormente per generare immagini di nuove viste ad alta fedeltà con condizioni multi-vista, pronte per la ricostruzione controllabile di oggetti 3D e varie altre applicazioni.
Introduciamo il nuovo compito di generare Istruzioni Illustrate, ovvero istruzioni visive personalizzate in base alle esigenze dell'utente. Identifichiamo i requisiti unici di questo compito e lo formalizziamo attraverso una serie di metriche di valutazione automatiche e umane, progettate per misurare la validità, la coerenza e l'efficacia delle generazioni. Combiniamo la potenza dei grandi modelli linguistici (LLM) con robusti modelli di generazione di immagini da testo basati su diffusione per proporre un approccio semplice chiamato StackedDiffusion, che genera tali istruzioni illustrate a partire da un input testuale. Il modello risultante supera nettamente gli approcci di base e i migliori LLM multimodali; e nel 30% dei casi, gli utenti lo preferiscono persino agli articoli generati da esseri umani. Soprattutto, abilita varie nuove ed entusiasmanti applicazioni che vanno ben oltre ciò che gli articoli statici sul web possono offrire, come istruzioni personalizzate complete di passaggi intermedi e immagini in risposta alla situazione individuale dell'utente.
Presentiamo l'Efficient Monotonic Multihead Attention (EMMA), un modello all'avanguardia per la traduzione simultanea con stima dell'allineamento monotono numericamente stabile e imparziale. Inoltre, proponiamo strategie migliorate per l'addestramento e l'inferenza, tra cui il fine-tuning simultaneo a partire da un modello di traduzione offline e la riduzione della varianza nell'allineamento monotono. I risultati sperimentali dimostrano che il modello proposto raggiunge prestazioni all'avanguardia nella traduzione simultanea da voce a testo per il compito di traduzione tra spagnolo e inglese.
I campi di radianza neurale offrono una qualità di sintesi visiva all'avanguardia, ma tendono a essere lenti nel rendering. Una delle ragioni è che utilizzano il rendering volumetrico, richiedendo quindi molti campioni (e query al modello) per ogni raggio durante il rendering. Sebbene questa rappresentazione sia flessibile e facile da ottimizzare, la maggior parte degli oggetti del mondo reale può essere modellata in modo più efficiente con superfici anziché volumi, richiedendo un numero molto inferiore di campioni per raggio. Questa osservazione ha stimolato notevoli progressi nelle rappresentazioni superficiali come le funzioni di distanza con segno, ma queste possono avere difficoltà a modellare strutture semi-opache e sottili. Proponiamo un metodo, HybridNeRF, che sfrutta i punti di forza di entrambe le rappresentazioni, rendendo la maggior parte degli oggetti come superfici mentre modella volumetricamente la (tipicamente) piccola frazione di regioni complesse. Valutiamo HybridNeRF rispetto al complesso dataset Eyeful Tower insieme ad altri dataset comunemente utilizzati per la sintesi visiva. Confrontandoci con baseline all'avanguardia, inclusi approcci recenti basati sul rasterizzazione, riduciamo i tassi di errore del 15-30% raggiungendo frame rate in tempo reale (almeno 36 FPS) per risoluzioni di realtà virtuale (2Kx2K).
La generazione di immagini didattiche che rappresentano azioni quotidiane umane da un punto di vista egocentrico costituisce un passo fondamentale verso un trasferimento efficiente delle competenze. In questo articolo, introduciamo un nuovo problema: la generazione di frame d'azione egocentrici. L'obiettivo è sintetizzare il frame d'azione condizionato alla domanda dell'utente e a un'immagine egocentrica in ingresso che cattura l'ambiente dell'utente. È importante notare che i dataset egocentrici esistenti mancano di annotazioni dettagliate che descrivono l'esecuzione delle azioni. Inoltre, i modelli di manipolazione delle immagini basati su diffusione non riescono a controllare il cambiamento di stato di un'azione all'interno dello spazio dei pixel dell'immagine egocentrica corrispondente. A tal fine, ottimizziamo un modello linguistico visivo di grandi dimensioni (VLLM) tramite il tuning di istruzioni visive per curare descrizioni arricchite delle azioni e affrontare il problema proposto. Inoltre, proponiamo di apprendere la generazione di frame d'azione EGOcentrici (LEGO) utilizzando gli embedding di immagini e testo del VLLM come condizionamento aggiuntivo. Validiamo il nostro modello proposto su due dataset egocentrici: Ego4D ed Epic-Kitchens. I nostri esperimenti mostrano un miglioramento significativo rispetto ai precedenti modelli di manipolazione delle immagini sia nella valutazione quantitativa che qualitativa. Condividiamo anche studi di ablazione dettagliati e analisi per fornire approfondimenti sul nostro metodo.