Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli di generazione testo-immagine hanno sbloccato un vasto potenziale per la creatività visiva. Tuttavia, questi modelli incontrano difficoltà nella generazione di personaggi consistenti, un aspetto cruciale per numerose applicazioni nel mondo reale come la visualizzazione di storie, la progettazione di asset per lo sviluppo di giochi, la pubblicità e altro ancora. I metodi attuali si basano tipicamente su più immagini preesistenti del personaggio target o implicano processi manuali laboriosi. In questo lavoro, proponiamo una soluzione completamente automatizzata per la generazione di personaggi consistenti, con l'unico input rappresentato da un prompt testuale. Introduciamo una procedura iterativa che, in ogni fase, identifica un insieme coerente di immagini che condividono un'identità simile ed estrae un'identità più consistente da questo insieme. La nostra analisi quantitativa dimostra che il nostro metodo raggiunge un migliore equilibrio tra allineamento al prompt e consistenza dell'identità rispetto ai metodi di base, e questi risultati sono rafforzati da uno studio condotto con utenti. Per concludere, mostriamo diverse applicazioni pratiche del nostro approccio. La pagina del progetto è disponibile all'indirizzo https://omriavrahami.com/the-chosen-one.
I modelli di diffusione text-to-image hanno dimostrato capacità straordinarie nel trasformare prompt testuali in immagini coerenti, tuttavia il costo computazionale della loro inferenza rimane una sfida persistente. Per affrontare questo problema, presentiamo UFOGen, un nuovo modello generativo progettato per la sintesi ultra-veloce e in un solo passaggio da testo a immagine. A differenza degli approcci convenzionali che si concentrano sul miglioramento dei campionatori o sull'impiego di tecniche di distillazione per i modelli di diffusione, UFOGen adotta una metodologia ibrida, integrando modelli di diffusione con un obiettivo GAN. Sfruttando un nuovo obiettivo diffusion-GAN introdotto e un'inizializzazione con modelli di diffusione pre-addestrati, UFOGen eccelle nella generazione efficiente di immagini di alta qualità condizionate da descrizioni testuali in un unico passaggio. Oltre alla tradizionale generazione da testo a immagine, UFOGen dimostra versatilità nelle applicazioni. In particolare, UFOGen si colloca tra i modelli pionieristici che abilitano la generazione da testo a immagine in un solo passaggio e diverse attività downstream, rappresentando un significativo avanzamento nel panorama dei modelli generativi efficienti. \blfootnote{*Lavoro svolto come ricercatore studentesco di Google, il simbolo † indica un contributo paritario.}
Nonostante il successo del ragionamento a catena nel potenziare il ragionamento dei modelli linguistici, il processo sottostante rimane meno compreso. Sebbene un ragionamento logicamente solido appaia intrinsecamente cruciale per il ragionamento a catena, studi precedenti rivelano sorprendentemente un impatto minimo quando si utilizzano dimostrazioni non valide. Inoltre, il convenzionale ragionamento a catena non informa i modelli linguistici su quali errori evitare, il che potenzialmente porta a un maggior numero di errori. Pertanto, ispirati da come gli esseri umani possono apprendere sia da esempi positivi che negativi, proponiamo il ragionamento a catena contrastivo per migliorare il ragionamento dei modelli linguistici. Rispetto al convenzionale ragionamento a catena, il nostro approccio fornisce sia dimostrazioni di ragionamento valide che non valide, per guidare il modello a ragionare passo dopo passo riducendo gli errori di ragionamento. Per migliorare la generalizzazione, introduciamo un metodo automatico per costruire dimostrazioni contrastive. I nostri esperimenti su benchmark di ragionamento dimostrano che il ragionamento a catena contrastivo può servire come un potenziamento generale del prompting a catena di pensiero.
I campi di radianza neurale raggiungono una qualità senza precedenti per la sintesi di nuove viste, ma la loro formulazione volumetrica rimane costosa, richiedendo un numero enorme di campioni per renderizzare immagini ad alta risoluzione. Le codifiche volumetriche sono essenziali per rappresentare geometrie sfumate come fogliame e capelli, e sono ben adatte per l'ottimizzazione stocastica. Tuttavia, molte scene consistono in gran parte di superfici solide che possono essere renderizzate accuratamente con un singolo campione per pixel. Basandoci su questa intuizione, proponiamo una formulazione di radianza neurale che transita dolcemente tra il rendering volumetrico e quello basato su superfici, accelerando notevolmente la velocità di rendering e migliorando persino la fedeltà visiva. Il nostro metodo costruisce un involucro mesh esplicito che delimita spazialmente una rappresentazione volumetrica neurale. Nelle regioni solide, l'involucro converge quasi a una superficie e può spesso essere renderizzato con un singolo campione. A tal fine, generalizziamo la formulazione NeuS con una dimensione del kernel variabile spazialmente appresa, che codifica la diffusione della densità, adattando un kernel ampio alle regioni simili a volumi e un kernel stretto alle regioni simili a superfici. Successivamente, estraiamo una mesh esplicita di una banda stretta attorno alla superficie, con larghezza determinata dalla dimensione del kernel, e perfezioniamo il campo di radianza all'interno di questa banda. Al momento dell'inferenza, lanciamo raggi contro la mesh e valutiamo il campo di radianza solo all'interno della regione racchiusa, riducendo notevolmente il numero di campioni richiesti. Gli esperimenti dimostrano che il nostro approccio consente un rendering efficiente con una fedeltà molto elevata. Dimostriamo inoltre che l'involucro estratto abilita applicazioni a valle come l'animazione e la simulazione.
Proponiamo Tied-LoRA, un paradigma semplice che utilizza il legame dei pesi e l'addestramento selettivo per aumentare ulteriormente l'efficienza dei parametri del metodo di adattamento a basso rango (LoRA). Le nostre indagini includono tutte le combinazioni fattibili di addestramento/congelamento dei parametri in congiunzione con il legame dei pesi per identificare il miglior equilibrio tra prestazioni e numero di parametri addestrabili. Attraverso esperimenti che coprono una varietà di task e due modelli linguistici di base, forniamo un'analisi che rivela i compromessi tra efficienza e prestazioni. I nostri esperimenti hanno rivelato una configurazione specifica di Tied-LoRA che si distingue per aver dimostrato prestazioni comparabili in diversi task utilizzando solo il 13~\% dei parametri impiegati dal metodo LoRA standard.
I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni promettenti nei benchmark di generazione di codice. Tuttavia, esiste un divario considerevole tra questi risultati nei benchmark e la loro applicabilità pratica, attribuibile principalmente alla dipendenza della programmazione reale da librerie preesistenti. Invece di valutare i modelli linguistici di grandi dimensioni (LLM) nella scrittura di codice da zero, questo lavoro mira a proporre una nuova configurazione di valutazione in cui gli LLM utilizzano librerie open-source per completare compiti di apprendimento automatico. Pertanto, proponiamo ML-Bench, un benchmark esteso sviluppato per valutare l'efficacia degli LLM nell'utilizzo di funzioni esistenti nelle librerie open-source. ML-Bench è composto da 10044 campioni che coprono 130 compiti su 14 notevoli repository GitHub di apprendimento automatico. In questo contesto, dato un'istruzione specifica per un compito di apprendimento automatico e il relativo README in una codebase, un LLM è incaricato di generare il codice per completare il compito. Ciò richiede la comprensione di documenti lunghi e intervallati da codice, nonché la comprensione di strutture di codice complesse e interconnesse tra file, introducendo nuove sfide. È interessante notare che, sebbene GPT-4 mostri un miglioramento significativo rispetto ad altri LLM, riesce a completare solo il 39,73% dei compiti, lasciando un ampio margine di miglioramento. Affrontiamo queste sfide proponendo ML-Agent, progettato per navigare efficacemente nella codebase, individuare la documentazione, recuperare il codice e generare codice eseguibile. I risultati empirici dimostrano che ML-Agent, basato su GPT-4, porta a ulteriori miglioramenti. Codice, dati e modelli sono disponibili all'indirizzo https://ml-bench.github.io/.
I benchmark svolgono un ruolo importante nello sviluppo degli algoritmi di machine learning. Ad esempio, la ricerca nel campo del reinforcement learning (RL) è stata fortemente influenzata dagli ambienti e dai benchmark disponibili. Tuttavia, gli ambienti RL sono tradizionalmente eseguiti sulla CPU, limitandone la scalabilità con le risorse computazionali tipiche del contesto accademico. I recenti progressi in JAX hanno permesso un uso più ampio dell'accelerazione hardware per superare questi ostacoli computazionali, abilitando pipeline di addestramento RL e ambienti massivamente paralleli. Ciò è particolarmente utile per la ricerca sul multi-agent reinforcement learning (MARL). Innanzitutto, è necessario considerare più agenti in ogni passo dell'ambiente, aumentando il carico computazionale, e in secondo luogo, la complessità del campionamento è incrementata a causa della non stazionarietà, dell'osservabilità parziale decentralizzata o di altre sfide tipiche del MARL. In questo articolo, presentiamo JaxMARL, la prima code base open-source che combina facilità d'uso con l'efficienza abilitata dalla GPU, supportando un ampio numero di ambienti MARL comunemente utilizzati e algoritmi baseline popolari. Considerando il tempo di esecuzione effettivo, i nostri esperimenti mostrano che la nostra pipeline di addestramento basata su JAX è fino a 12500 volte più veloce rispetto agli approcci esistenti. Ciò consente valutazioni efficienti e approfondite, con il potenziale di alleviare la crisi di valutazione del campo. Introduciamo inoltre e valutiamo SMAX, una versione vettorizzata e semplificata della popolare StarCraft Multi-Agent Challenge, che elimina la necessità di eseguire il motore di gioco StarCraft II. Ciò non solo abilita l'accelerazione GPU, ma fornisce anche un ambiente MARL più flessibile, sbloccando il potenziale per il self-play, il meta-learning e altre future applicazioni nel MARL. Forniamo il codice all'indirizzo https://github.com/flairox/jaxmarl.
Le recenti decisioni dei principali laboratori di intelligenza artificiale di rendere open-source i propri modelli o di limitarne l'accesso hanno acceso un dibattito su se, e come, i modelli di IA sempre più capaci dovrebbero essere condivisi. L'open-source in ambito AI si riferisce tipicamente alla possibilità di rendere liberamente e pubblicamente accessibili l'architettura e i pesi di un modello, consentendo a chiunque di modificarli, studiarli, costruirci sopra e utilizzarli. Questo offre vantaggi come la possibilità di supervisione esterna, l'accelerazione del progresso e la decentralizzazione del controllo sullo sviluppo e l'uso dell'IA. Tuttavia, presenta anche un potenziale crescente di abuso e conseguenze indesiderate. Questo articolo offre un'analisi dei rischi e dei benefici del rendere open-source modelli di base altamente capaci. Sebbene l'open-source abbia storicamente fornito benefici netti sostanziali per la maggior parte dei processi di sviluppo software e di IA, sosteniamo che per alcuni modelli di base altamente capaci che potrebbero essere sviluppati nel prossimo futuro, l'open-source potrebbe presentare rischi sufficientemente estremi da superare i benefici. In tal caso, i modelli di base altamente capaci non dovrebbero essere resi open-source, almeno non inizialmente. Vengono esplorate strategie alternative, tra cui opzioni di condivisione di modelli non open-source. L'articolo si conclude con raccomandazioni per gli sviluppatori, gli organismi di standardizzazione e i governi per stabilire pratiche di condivisione dei modelli sicure e responsabili e preservare i benefici dell'open-source laddove sia sicuro farlo.