Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione personalizzata di immagini da testo è emersa come uno strumento potente e ricercato, che consente agli utenti di creare immagini personalizzate basate sui loro concetti e prompt specifici. Tuttavia, gli approcci esistenti alla personalizzazione incontrano molteplici sfide, tra cui tempi di ottimizzazione prolungati, elevati requisiti di archiviazione, la necessità di più immagini di input per identità e limitazioni nel preservare l'identità e l'editabilità. Per affrontare questi ostacoli, presentiamo PhotoVerse, una metodologia innovativa che incorpora un meccanismo di condizionamento a doppio ramo sia nel dominio del testo che in quello delle immagini, fornendo un controllo efficace sul processo di generazione delle immagini. Inoltre, introduciamo una perdita di identità facciale come componente innovativa per migliorare la preservazione dell'identità durante l'addestramento. Notevolmente, il nostro PhotoVerse proposto elimina la necessità di ottimizzazione al momento del test e si basa esclusivamente su una singola foto facciale dell'identità target, riducendo significativamente il costo delle risorse associato alla generazione di immagini. Dopo una singola fase di addestramento, il nostro approccio consente di generare immagini di alta qualità in pochi secondi. Inoltre, il nostro metodo può produrre immagini diverse che abbracciano vari scenari e stili. La valutazione estensiva dimostra la prestazione superiore del nostro approccio, che raggiunge il duplice obiettivo di preservare l'identità e facilitare l'editabilità. Pagina del progetto: https://photoverse2d.github.io/
I modelli di diffusione hanno rivoluzionato la generazione di immagini da testo grazie alla loro qualità e creatività eccezionali. Tuttavia, il loro processo di campionamento multi-step è noto per essere lento, spesso richiedendo decine di passaggi di inferenza per ottenere risultati soddisfacenti. I precedenti tentativi di migliorare la velocità di campionamento e ridurre i costi computazionali attraverso la distillazione non sono riusciti a ottenere un modello funzionale a un solo passaggio. In questo articolo, esploriamo un metodo recente chiamato Rectified Flow, che finora è stato applicato solo a piccoli dataset. Il cuore di Rectified Flow risiede nella sua procedura di reflow, che raddrizza le traiettorie dei flussi di probabilità, affina l'accoppiamento tra rumori e immagini e facilita il processo di distillazione con modelli studente. Proponiamo una nuova pipeline condizionata al testo per trasformare Stable Diffusion (SD) in un modello ultra-veloce a un solo passaggio, in cui il reflow svolge un ruolo cruciale nel migliorare l'assegnazione tra rumore e immagini. Sfruttando la nostra nuova pipeline, creiamo, a nostra conoscenza, il primo generatore di immagini da testo basato su diffusione a un solo passaggio con qualità di immagine paragonabile a SD, raggiungendo un FID (Frechet Inception Distance) di 23.3 su MS COCO 2017-5k, superando di gran lunga la precedente tecnica all'avanguardia, la distillazione progressiva (37.2 → 23.3 in FID). Utilizzando una rete espansa con 1.7 miliardi di parametri, miglioriamo ulteriormente l'FID a 22.4. Chiamiamo i nostri modelli a un solo passaggio InstaFlow. Su MS COCO 2014-30k, InstaFlow produce un FID di 13.1 in soli 0.09 secondi, il migliore nel regime ≤ 0.1 secondi, superando il recente StyleGAN-T (13.9 in 0.1 secondo). È degno di nota che l'addestramento di InstaFlow richiede solo 199 giorni GPU A100. Pagina del progetto: https://github.com/gnobitab/InstaFlow.
Il servizio ad alta produttività di modelli linguistici di grandi dimensioni (LLM) richiede l'elaborazione in batch di un numero sufficiente di richieste contemporaneamente. Tuttavia, i sistemi esistenti incontrano difficoltà perché la memoria della cache chiave-valore (KV cache) per ogni richiesta è enorme e cresce e si riduce dinamicamente. Se gestita in modo inefficiente, questa memoria può essere significativamente sprecata a causa della frammentazione e della duplicazione ridondante, limitando le dimensioni del batch. Per affrontare questo problema, proponiamo PagedAttention, un algoritmo di attenzione ispirato alle classiche tecniche di memoria virtuale e paginazione dei sistemi operativi. Su di esso, costruiamo vLLM, un sistema di servizio LLM che raggiunge (1) uno spreco quasi nullo nella memoria della KV cache e (2) una condivisione flessibile della KV cache all'interno e tra le richieste per ridurre ulteriormente l'uso della memoria. Le nostre valutazioni mostrano che vLLM migliora la produttività di LLM popolari di 2-4 volte con lo stesso livello di latenza rispetto ai sistemi all'avanguardia, come FasterTransformer e Orca. Il miglioramento è più evidente con sequenze più lunghe, modelli più grandi e algoritmi di decodifica più complessi. Il codice sorgente di vLLM è disponibile pubblicamente all'indirizzo https://github.com/vllm-project/vllm.
I grandi modelli linguistici eccellono in molti compiti legati al linguaggio umano, ma spesso incontrano difficoltà in domini altamente specializzati come l'astronomia accademica. Per colmare questa lacuna, presentiamo AstroLLaMA, un modello da 7 miliardi di parametri ottimizzato a partire da LLaMA-2 utilizzando oltre 300.000 abstract di astronomia provenienti da arXiv. Ottimizzato per il tradizionale modeling linguistico causale, AstroLLaMA raggiunge una perplessità inferiore del 30% rispetto a LLaMA-2, dimostrando un marcato adattamento al dominio. Il nostro modello genera completamenti di testo più approfonditi e scientificamente rilevanti, nonché estrazioni di embedding, rispetto ai modelli di base all'avanguardia, nonostante abbia un numero significativamente inferiore di parametri. AstroLLaMA si configura come un modello robusto e specifico per il dominio, con ampio potenziale di fine-tuning. La sua release pubblica mira a stimolare la ricerca focalizzata sull'astronomia, inclusa la sintesi automatica di articoli e lo sviluppo di agenti conversazionali.
La manipolazione abile è stata una sfida di lunga data nella robotica. Sebbene le tecniche di apprendimento automatico abbiano mostrato qualche promettente risultato, i progressi sono stati finora limitati principalmente alla simulazione. Ciò può essere attribuito in gran parte alla mancanza di hardware adeguato. In questo articolo, presentiamo LEAP Hand, una mano antropomorfa e abile a basso costo per la ricerca nell’apprendimento automatico. A differenza delle mani precedenti, LEAP Hand presenta una struttura cinematica innovativa che consente una massima destrezza indipendentemente dalla posizione delle dita. LEAP Hand è a basso costo e può essere assemblata in 4 ore al costo di 2000 USD utilizzando componenti facilmente reperibili. È in grado di esercitare coppie elevate in modo costante per lunghi periodi di tempo. Dimostriamo che LEAP Hand può essere utilizzata per eseguire diverse attività di manipolazione nel mondo reale, dalla teleoperazione visiva all’apprendimento da dati video passivi e dal sim2real. LEAP Hand supera significativamente il suo più vicino concorrente, Allegro Hand, in tutti i nostri esperimenti, pur costando 1/8 rispetto a quest’ultimo. Rilasciamo istruzioni dettagliate per l’assemblaggio, la pipeline Sim2Real e una piattaforma di sviluppo con API utili sul nostro sito web all’indirizzo https://leap-hand.github.io/.
Sono stati compiuti sforzi considerevoli per apprendere avatar umani animabili e fotorealistici. A tal fine, sia le rappresentazioni 3D esplicite che quelle implicite sono state ampiamente studiate per una modellazione e cattura olistica dell'intero essere umano (ad esempio, corpo, abbigliamento, viso e capelli), ma nessuna delle due rappresentazioni costituisce una scelta ottimale in termini di efficacia rappresentativa, poiché diverse parti dell'avatar umano hanno esigenze di modellazione differenti. Ad esempio, le mesh generalmente non sono adatte per modellare abbigliamento e capelli. Motivati da ciò, presentiamo Disentangled Avatars (DELTA), che modella gli esseri umani con rappresentazioni 3D ibride esplicite-implicite. DELTA prende in input un video RGB monoculare e produce un avatar umano con strati separati per il corpo e per l'abbigliamento/capelli. Nello specifico, dimostriamo due importanti applicazioni per DELTA. Nella prima, consideriamo la separazione tra il corpo umano e l'abbigliamento, mentre nella seconda separiamo il viso dai capelli. Per fare ciò, DELTA rappresenta il corpo o il viso con un modello parametrico 3D esplicito basato su mesh, e l'abbigliamento o i capelli con un campo di radianza neurale implicito. Per rendere ciò possibile, progettiamo un renderer differenziabile end-to-end che integra le mesh nel rendering volumetrico, consentendo a DELTA di apprendere direttamente da video monoculari senza alcuna supervisione 3D. Infine, mostriamo come queste due applicazioni possano essere facilmente combinate per modellare avatar a corpo intero, in modo che capelli, viso, corpo e abbigliamento possano essere completamente separati ma renderizzati congiuntamente. Tale separazione consente il trasferimento di capelli e abbigliamento a forme corporee arbitrarie. Validiamo empiricamente l'efficacia della separazione di DELTA dimostrando le sue prestazioni promettenti nella ricostruzione separata, nel virtual try-on degli abiti e nel trasferimento di acconciature. Per facilitare la ricerca futura, rilasciamo anche una pipeline open-source per lo studio della modellazione ibrida di avatar umani.