Articoli di ricerca IA selezionati quotidianamente con traduzioni
Ci sono stati significativi progressi nella sintesi di immagini personalizzate con metodi come Textual Inversion, DreamBooth e LoRA. Tuttavia, la loro applicabilità nel mondo reale è limitata da elevate richieste di archiviazione, lunghi processi di fine-tuning e la necessità di più immagini di riferimento. Al contrario, i metodi esistenti basati su embedding ID, pur richiedendo solo una singola inferenza in avanti, affrontano diverse sfide: necessitano di un ampio fine-tuning su numerosi parametri del modello, mancano di compatibilità con modelli pre-addestrati dalla comunità o non riescono a mantenere un'elevata fedeltà del volto. Per affrontare queste limitazioni, introduciamo InstantID, una potente soluzione basata su modelli di diffusione. Il nostro modulo plug-and-play gestisce abilmente la personalizzazione delle immagini in vari stili utilizzando una sola immagine facciale, garantendo al contempo un'elevata fedeltà. Per raggiungere questo obiettivo, progettiamo un nuovo IdentityNet imponendo forti condizioni semantiche e deboli condizioni spaziali, integrando immagini facciali e landmark con prompt testuali per guidare la generazione delle immagini. InstantID dimostra prestazioni e efficienza eccezionali, risultando altamente vantaggioso nelle applicazioni reali in cui la conservazione dell'identità è fondamentale. Inoltre, il nostro lavoro si integra perfettamente con popolari modelli di diffusione testo-immagine pre-addestrati come SD1.5 e SDXL, fungendo da plugin adattabile. I nostri codici e checkpoint pre-addestrati saranno disponibili su https://github.com/InstantID/InstantID.
Questo articolo introduce AIM, una collezione di modelli visivi pre-addestrati con un obiettivo autoregressivo. Questi modelli sono ispirati alle loro controparti testuali, ovvero i Large Language Models (LLMs), e mostrano proprietà di scalabilità simili. In particolare, evidenziamo due risultati chiave: (1) le prestazioni delle caratteristiche visive scalano sia con la capacità del modello che con la quantità di dati, (2) il valore della funzione obiettivo è correlato alle prestazioni del modello su compiti downstream. Illustriamo l'implicazione pratica di questi risultati pre-addestrando un AIM da 7 miliardi di parametri su 2 miliardi di immagini, che raggiunge l'84.0% su ImageNet-1k con un tronco congelato. Interessante notare che, anche a questa scala, non osserviamo alcun segno di saturazione nelle prestazioni, suggerendo che AIM rappresenti potenzialmente una nuova frontiera per l'addestramento di modelli visivi su larga scala. Il pre-addestramento di AIM è simile a quello degli LLMs e non richiede alcuna strategia specifica per le immagini per stabilizzare l'addestramento su larga scala.
I modelli linguistici di medie dimensioni (LLM) - quelli con 7B o 13B parametri - mostrano prestazioni promettenti nella traduzione automatica (MT). Tuttavia, anche i migliori modelli di traduzione basati su LLM da 13B, come ALMA, non raggiungono le prestazioni dei modelli di traduzione encoder-decoder all'avanguardia o dei LLM su larga scala come GPT-4. In questo studio, colmiamo questo divario di prestazioni. Iniziamo valutando le carenze del fine-tuning supervisionato per i LLM nel compito di MT, evidenziando i problemi di qualità presenti nei dati di riferimento, nonostante siano generati da esseri umani. Poi, in contrasto con il SFT che imita le traduzioni di riferimento, introduciamo l'ottimizzazione delle preferenze contrastive (CPO), un approccio innovativo che addestra i modelli a evitare di generare traduzioni adeguate ma non perfette. Applicando il CPO ai modelli ALMA con solo 22K frasi parallele e 12M parametri, si ottengono miglioramenti significativi. Il modello risultante, chiamato ALMA-R, può eguagliare o superare le prestazioni dei vincitori della competizione WMT e di GPT-4 sui dataset di test WMT'21, WMT'22 e WMT'23.
Tipicamente, l'addestramento di LLM con dimensioni di contesto lunghe è computazionalmente costoso, richiedendo ore di addestramento estese e risorse GPU significative. I metodi esistenti per l'estensione del contesto lungo di solito necessitano di procedure di addestramento aggiuntive per supportare le corrispondenti finestre di contesto lungo, dove sono richiesti dati di addestramento con contesto lungo (ad esempio, 32k) e si presuppongono elevati costi di addestramento su GPU. Per affrontare i problemi sopra menzionati, proponiamo un metodo Efficiente e Estremo per l'estensione della lunghezza dei Large Language Models, chiamato E²-LLM, che richiede solo una procedura di addestramento e riduce drasticamente i costi computazionali, eliminando inoltre la necessità di raccogliere dati con contesto lungo. Nello specifico, in primo luogo, i dati di addestramento del nostro E²-LLM richiedono solo una lunghezza breve (ad esempio, 4k), riducendo notevolmente i costi di ottimizzazione. In secondo luogo, la procedura di addestramento sulla finestra di contesto breve viene eseguita una sola volta, e possiamo supportare diverse finestre di contesto di valutazione durante l'inferenza. In terzo luogo, in E²-LLM, basandoci sugli embedding di posizione RoPE, introduciamo due diversi metodi di aumentazione sui parametri di scala e indice di posizione per diversi campioni durante l'addestramento. L'obiettivo è rendere il modello più robusto alle diverse differenze relative quando si interpola direttamente una lunghezza di contesto arbitraria durante l'inferenza. I risultati sperimentali completi su più dataset di benchmark dimostrano l'efficacia del nostro E²-LLM su compiti impegnativi con contesto lungo.
Nonostante le capacità generali dei grandi modelli linguistici preaddestrati, essi traggono costantemente vantaggio da un ulteriore adattamento per ottenere meglio i comportamenti desiderati. Tuttavia, ottimizzare questi modelli è diventato sempre più dispendioso in termini di risorse, o impossibile quando i pesi del modello sono privati. Introduciamo il proxy-tuning, un algoritmo leggero in fase di decodifica che opera su modelli linguistici (LM) black-box per ottenere il risultato di un tuning diretto del modello, ma accedendo solo alle sue previsioni sul vocabolario di output. Il nostro metodo invece ottimizza un LM più piccolo, quindi applica la differenza tra le previsioni dei LM piccoli ottimizzati e non ottimizzati per spostare le previsioni originali del modello base nella direzione del tuning, mantenendo i vantaggi del preaddestramento su larga scala. Negli esperimenti, quando applichiamo il proxy-tuning a Llama2-70B utilizzando proxy di dimensioni pari a soli 7B, possiamo colmare l'88% del divario tra Llama2-70B e la sua versione chat realmente ottimizzata, valutata su benchmark di conoscenza, ragionamento e sicurezza. Curiosamente, quando testati su TruthfulQA, i modelli con proxy-tuning sono effettivamente più veritieri rispetto ai modelli ottimizzati direttamente, probabilmente perché la guida in fase di decodifica conserva meglio la conoscenza fattuale del modello. Dimostriamo poi la generalità del proxy-tuning applicandolo per l'adattamento al dominio sul codice e il fine-tuning specifico per attività su problemi di risposta alle domande e di matematica. Il nostro lavoro dimostra il potenziale di utilizzare piccoli LM ottimizzati per personalizzare in modo efficiente grandi LM, potenzialmente proprietari, attraverso la guida in fase di decodifica.
I modelli linguistici di grandi dimensioni (LLMs) sono noti per avere una capacità limitata di estrapolazione oltre la loro finestra di contesto pre-addestrata, il che ne limita l'applicazione in compiti downstream con input di lunga durata. Studi recenti hanno cercato di estendere la finestra di contesto degli LLMs modificando il rotary position embedding (RoPE), un popolare metodo di codifica delle posizioni adottato da noti LLMs come LLaMA, PaLM e GPT-NeoX. Tuttavia, lavori precedenti come Position Interpolation (PI) e YaRN sono dispendiosi in termini di risorse e mancano di esperimenti comparativi per valutarne l'applicabilità. In questo lavoro, identifichiamo la necessità intrinseca per l'entropia dell'attenzione degli LLMs (cioè l'entropia informativa dei punteggi di attenzione) di mantenere la stabilità e introduciamo una nuova estensione a RoPE che combina l'aggiustamento della frequenza base di RoPE e il ridimensionamento dei logit di attenzione per aiutare gli LLMs ad adattarsi in modo efficiente a una finestra di contesto più ampia. Validiamo la superiorità del nostro metodo sia nelle prestazioni di fine-tuning che nella robustezza su diverse dimensioni della finestra di contesto in vari compiti che richiedono un contesto esteso. In particolare, il nostro metodo estende la finestra di contesto di LLaMA-2-7B-Chat a 16.384 con soli 100 campioni e 6 passi di addestramento, dimostrando un'efficienza straordinaria. Infine, esploriamo anche come le composizioni dei dati e i curricula di addestramento influenzino l'estensione della finestra di contesto per specifici compiti downstream, suggerendo il fine-tuning degli LLMs con conversazioni lunghe come un buon punto di partenza. Rilasciamo il nostro codice e i dati SFT all'indirizzo https://github.com/GAIR-NLP/Entropy-ABF.
I modelli generativi hanno dimostrato una capacità straordinaria nella sintesi di testi, immagini e video di alta qualità. Per quanto riguarda la generazione di video, i modelli contemporanei di testo-a-video mostrano capacità impressionanti, creando video visivamente sorprendenti. Tuttavia, la valutazione di tali video presenta sfide significative. La ricerca attuale utilizza prevalentemente metriche automatizzate come FVD, IS e CLIP Score. Tuttavia, queste metriche forniscono un'analisi incompleta, in particolare nella valutazione temporale del contenuto video, rendendole indicatori inaffidabili della vera qualità del video. Inoltre, sebbene gli studi sugli utenti abbiano il potenziale di riflettere accuratamente la percezione umana, sono ostacolati dalla loro natura dispendiosa in termini di tempo e fatica, con risultati spesso influenzati da bias soggettivi. In questo articolo, esploriamo i limiti intrinseci delle metriche esistenti e introduciamo una nuova pipeline di valutazione, il Text-to-Video Score (T2VScore). Questa metrica integra due criteri fondamentali: (1) Allineamento Testo-Video, che esamina la fedeltà del video nel rappresentare la descrizione testuale fornita, e (2) Qualità del Video, che valuta il livello complessivo di produzione del video attraverso un panel di esperti. Inoltre, per valutare le metriche proposte e facilitare futuri miglioramenti, presentiamo il dataset TVGE, raccogliendo giudizi umani su 2.543 video generati da testo-a-video rispetto ai due criteri. Gli esperimenti sul dataset TVGE dimostrano la superiorità del T2VScore nel fornire una metrica migliore per la generazione di video da testo.
Negli ultimi anni, modelli di machine learning come DALL-E, Craiyon e Stable Diffusion hanno attirato notevole attenzione per la loro capacità di generare immagini ad alta risoluzione a partire da descrizioni concise. Parallelamente, il calcolo quantistico sta mostrando progressi promettenti, in particolare con il quantum machine learning, che sfrutta i principi della meccanica quantistica per soddisfare i crescenti requisiti computazionali degli algoritmi tradizionali di machine learning. Questo articolo esplora l'integrazione del quantum machine learning e dei circuiti quantistici variazionali per migliorare l'efficacia dei modelli di generazione di immagini basati sulla diffusione. Nello specifico, affrontiamo due sfide dei modelli di diffusione classici: la bassa velocità di campionamento e l'elevato numero di parametri richiesti. Introduciamo due modelli di diffusione quantistica e confrontiamo le loro capacità con le controparti classiche utilizzando i dataset MNIST, Fashion MNIST e CIFAR-10. I nostri modelli superano i modelli classici con un numero simile di parametri in termini di metriche di prestazione FID, SSIM e PSNR. Inoltre, introduciamo un'architettura di campionamento unitario a singolo passaggio basata su un modello di consistenza, che combina il processo di diffusione in un unico passaggio, consentendo una generazione rapida di immagini in un solo step.
Nonostante i recenti e notevoli progressi nella modellazione generativa, la generazione efficiente di asset 3D di alta qualità a partire da prompt testuali rimane un compito complesso. Una delle principali sfide risiede nella scarsità di dati: i dataset 3D più estesi comprendono appena milioni di asset, mentre le loro controparti 2D contengono miliardi di coppie testo-immagine. Per affrontare questo problema, proponiamo un approccio innovativo che sfrutta la potenza di grandi modelli di diffusione 2D preaddestrati. Più nello specifico, il nostro approccio, HexaGen3D, perfeziona un modello preaddestrato di testo-immagine per prevedere congiuntamente 6 proiezioni ortografiche e il corrispondente triplanare latente. Successivamente, decodifichiamo questi latenti per generare una mesh texturizzata. HexaGen3D non richiede ottimizzazione per ogni campione e può inferire oggetti di alta qualità e diversificati da prompt testuali in 7 secondi, offrendo un compromesso qualità-latenza significativamente migliore rispetto agli approcci esistenti. Inoltre, HexaGen3D dimostra una forte generalizzazione a nuovi oggetti o composizioni.