Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'integrazione e il dispiegamento di agenti intelligenti basati su modelli linguistici di grandi dimensioni (LLM) sono stati caratterizzati da sfide che compromettono la loro efficienza ed efficacia. Tra questi problemi vi sono una pianificazione e un'allocazione delle risorse subottimali per le richieste degli agenti sull'LLM, le difficoltà nel mantenere il contesto durante le interazioni tra agente e LLM, e le complessità intrinseche nell'integrare agenti eterogenei con diverse capacità e specializzazioni. Il rapido aumento della quantità e della complessità degli agenti aggrava ulteriormente questi problemi, portando spesso a colli di bottiglia e a un utilizzo subottimale delle risorse. Ispirati da queste sfide, questo articolo presenta AIOS, un sistema operativo per agenti LLM, che integra il modello linguistico di grandi dimensioni nei sistemi operativi (OS). Nello specifico, AIOS è progettato per ottimizzare l'allocazione delle risorse, facilitare il cambio di contesto tra gli agenti, abilitare l'esecuzione concorrente degli agenti, fornire servizi di strumenti per gli agenti e mantenere il controllo degli accessi per gli agenti. Presentiamo l'architettura di un tale sistema operativo, delineiamo le principali sfide che mira a risolvere e forniamo il design e l'implementazione di base di AIOS. I nostri esperimenti sull'esecuzione concorrente di più agenti dimostrano l'affidabilità e l'efficienza dei nostri moduli AIOS. Attraverso ciò, miriamo non solo a migliorare le prestazioni e l'efficienza degli agenti LLM, ma anche a pionierizzare un migliore sviluppo e dispiegamento dell'ecosistema AIOS in futuro. Il progetto è open-source all'indirizzo https://github.com/agiresearch/AIOS.
I modelli di diffusione text-to-image possiedono una capacità senza precedenti di generare immagini diversificate e di alta qualità. Tuttavia, spesso faticano a catturare fedelmente la semantica intesa di prompt di input complessi che includono più soggetti. Recentemente, sono state introdotte numerose estensioni layout-to-image per migliorare il controllo dell'utente, con l'obiettivo di localizzare i soggetti rappresentati da token specifici. Tuttavia, questi metodi spesso producono immagini semanticamente inaccurate, specialmente quando si tratta di più soggetti semanticamente o visivamente simili. In questo lavoro, studiamo e analizziamo le cause di queste limitazioni. La nostra esplorazione rivela che il problema principale deriva da una fuoriuscita semantica involontaria tra i soggetti durante il processo di denoising. Questa fuoriuscita è attribuita agli strati di attenzione del modello di diffusione, che tendono a mescolare le caratteristiche visive di diversi soggetti. Per affrontare questi problemi, introduciamo Bounded Attention, un metodo senza addestramento che limita il flusso di informazioni durante il processo di campionamento. Bounded Attention previene la fuoriuscita dannosa tra i soggetti e consente di guidare la generazione per promuovere l'individualità di ciascun soggetto, anche con condizionamenti complessi multi-soggetto. Attraverso un'ampia sperimentazione, dimostriamo che il nostro metodo permette la generazione di più soggetti che si allineano meglio ai prompt e ai layout forniti.
Questo lavoro presenta FlashFace, uno strumento pratico con cui gli utenti possono personalizzare facilmente le proprie foto al volo fornendo una o poche immagini di riferimento del volto e un prompt testuale. Il nostro approccio si distingue dai metodi esistenti di personalizzazione delle foto umane grazie a una conservazione dell'identità a fedeltà più elevata e a un migliore rispetto delle istruzioni, beneficiando di due design sottili. In primo luogo, codifichiamo l'identità del volto in una serie di mappe di caratteristiche invece di un singolo token immagine come nelle tecniche precedenti, consentendo al modello di mantenere più dettagli dei volti di riferimento (ad esempio, cicatrici, tatuaggi e forma del viso). In secondo luogo, introduciamo una strategia di integrazione disaccoppiata per bilanciare la guida del testo e dell'immagine durante il processo di generazione da testo a immagine, alleviando il conflitto tra i volti di riferimento e i prompt testuali (ad esempio, personalizzare un adulto in un "bambino" o un "anziano"). I risultati sperimentali estesi dimostrano l'efficacia del nostro metodo in varie applicazioni, tra cui la personalizzazione delle immagini umane, lo scambio di volti sotto prompt linguistici, la trasformazione di personaggi virtuali in persone reali, ecc. Pagina del progetto: https://jshilong.github.io/flashface-page.
I recenti progressi nei modelli di diffusione li hanno posizionati all'avanguardia nella generazione di immagini. Nonostante le loro prestazioni superiori, i modelli di diffusione non sono privi di difetti; sono caratterizzati da architetture complesse e richieste computazionali sostanziali, che si traducono in una latenza significativa a causa del loro processo di campionamento iterativo. Per mitigare queste limitazioni, introduciamo un approccio duale che prevede la miniaturizzazione del modello e una riduzione dei passi di campionamento, mirato a diminuire significativamente la latenza del modello. La nostra metodologia sfrutta la distillazione della conoscenza per semplificare le architetture U-Net e del decodificatore di immagini, e introduce una tecnica innovativa di addestramento DM in un solo passo che utilizza il matching delle caratteristiche e la distillazione del punteggio. Presentiamo due modelli, SDXS-512 e SDXS-1024, che raggiungono velocità di inferenza di circa 100 FPS (30 volte più veloci di SD v1.5) e 30 FPS (60 volte più veloci di SDXL) su una singola GPU, rispettivamente. Inoltre, il nostro approccio di addestramento offre applicazioni promettenti nel controllo condizionato all'immagine, facilitando una traduzione efficiente da immagine a immagine.
La compressione di modelli linguistici di grandi dimensioni (LLM) ad alta capacità è emersa come una strategia privilegiata per inferenze efficienti in termini di risorse. Sebbene i metodi di compressione all'avanguardia (SoTA) vantino progressi impressionanti nel preservare le prestazioni su compiti benigni, i potenziali rischi della compressione in termini di sicurezza e affidabilità sono stati largamente trascurati. Questo studio conduce la prima valutazione approfondita di tre (3) principali LLM utilizzando cinque (5) tecniche di compressione SoTA attraverso otto (8) dimensioni di affidabilità. I nostri esperimenti evidenziano l'intricata interazione tra compressione e affidabilità, rivelando alcuni modelli interessanti. Scopriamo che la quantizzazione è attualmente un approccio più efficace rispetto alla potatura nel raggiungere simultaneamente efficienza e affidabilità. Ad esempio, un modello quantizzato a 4 bit mantiene l'affidabilità della sua controparte originale, mentre la potatura del modello degrada significativamente l'affidabilità, anche con una sparsità del 50%. Inoltre, l'utilizzo della quantizzazione all'interno di un intervallo moderato di bit potrebbe migliorare inaspettatamente alcune dimensioni dell'affidabilità, come l'etica e l'equità. Al contrario, una quantizzazione estrema a livelli di bit molto bassi (3 bit) tende a ridurre significativamente l'affidabilità. Questo rischio aumentato non può essere scoperto osservando solo le prestazioni su compiti benigni, rendendo quindi necessaria una valutazione completa dell'affidabilità nella pratica. Questi risultati culminano in raccomandazioni pratiche per raggiungere simultaneamente alta utilità, efficienza e affidabilità nei LLM. Modelli e codice sono disponibili su https://decoding-comp-trust.github.io/.
Presentiamo RakutenAI-7B, una suite di modelli linguistici di grandi dimensioni orientati al giapponese che raggiungono le migliori prestazioni sui benchmark Japanese LM Harness tra i modelli aperti da 7B. Insieme al modello di base, rilasciamo i modelli ottimizzati per istruzioni e chat, rispettivamente RakutenAI-7B-instruct e RakutenAI-7B-chat, sotto la licenza Apache 2.0.
I recenti progressi nella generazione di video da testo hanno dimostrato l'utilità di potenti modelli di diffusione. Tuttavia, il problema non è banale quando si tratta di modellare i processi di diffusione per animare immagini statiche (cioè, generazione di video da immagini). La difficoltà deriva dal fatto che il processo di diffusione dei fotogrammi animati successivi non deve solo preservare un allineamento fedele con l'immagine data, ma anche perseguire una coerenza temporale tra i fotogrammi adiacenti. Per mitigare questo problema, presentiamo TRIP, una nuova ricetta per il paradigma di diffusione da immagine a video che si basa su un precedente rumore dell'immagine derivato dall'immagine statica per attivare congiuntamente il ragionamento relazionale inter-fotogramma e facilitare la modellazione temporale coerente attraverso l'apprendimento residuo temporale. Tecnicamente, il precedente rumore dell'immagine viene prima ottenuto attraverso un processo di diffusione all'indietro in un singolo passaggio basato sia sull'immagine statica che sui codici latenti del video rumoroso. Successivamente, TRIP esegue uno schema dual-path di tipo residuo per la previsione del rumore: 1) un percorso diretto che prende direttamente il precedente rumore dell'immagine come rumore di riferimento per ogni fotogramma per amplificare l'allineamento tra il primo fotogramma e quelli successivi; 2) un percorso residuo che utilizza una 3D-UNet sui codici latenti del video rumoroso e dell'immagine statica per abilitare il ragionamento relazionale inter-fotogramma, facilitando così l'apprendimento del rumore residuo per ogni fotogramma. Inoltre, sia il rumore di riferimento che quello residuo di ogni fotogramma vengono dinamicamente fusi attraverso un meccanismo di attenzione per la generazione finale del video. Esperimenti estesi sui dataset WebVid-10M, DTDB e MSR-VTT dimostrano l'efficacia del nostro TRIP per la generazione di video da immagini. Si prega di visitare la nostra pagina del progetto all'indirizzo https://trip-i2v.github.io/TRIP/.
Le recenti innovazioni nella generazione da testo a 3D hanno introdotto il Campionamento per Distillazione del Punteggio (Score Distillation Sampling, SDS), che consente l'apprendimento zero-shot di modelli 3D impliciti (NeRF) distillando direttamente conoscenze pregresse da modelli di diffusione 2D. Tuttavia, i modelli basati su SDS attuali incontrano ancora difficoltà con prompt testuali complessi e spesso producono modelli 3D distorti con texture irrealistiche o problemi di incoerenza tra le viste. In questo lavoro, presentiamo un nuovo modello di diffusione da testo a 3D guidato da Prompt Visivo (VP3D), che sfrutta esplicitamente la conoscenza dell'aspetto visivo contenuta in un prompt visivo 2D per migliorare la generazione da testo a 3D. Invece di supervisionare SDS esclusivamente con un prompt testuale, VP3D utilizza prima un modello di diffusione 2D per generare un'immagine di alta qualità a partire dal testo in input, che funge poi da prompt visivo per rafforzare l'ottimizzazione SDS con un aspetto visivo esplicito. Contemporaneamente, accoppiamo l'ottimizzazione SDS con una funzione di ricompensa differenziabile aggiuntiva che incoraggia le immagini renderizzate dei modelli 3D ad allinearsi meglio visivamente con il prompt visivo 2D e a corrispondere semanticamente al prompt testuale. Attraverso esperimenti estesi, dimostriamo che il Prompt Visivo 2D nel nostro VP3D facilita significativamente l'apprendimento dell'aspetto visivo dei modelli 3D, portando così a una maggiore fedeltà visiva con texture più dettagliate. È inoltre interessante notare che, sostituendo il prompt visivo auto-generato con un'immagine di riferimento fornita, VP3D è in grado di attivare un nuovo compito di generazione da testo a 3D stilizzata. La nostra pagina del progetto è disponibile all'indirizzo https://vp3d-cvpr24.github.io.