HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

Sistema Operativo per Agenti LLM
LLM Agent Operating System

Mar 25

ByKai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang

L'integrazione e il dispiegamento di agenti intelligenti basati su modelli linguistici di grandi dimensioni (LLM) sono stati caratterizzati da sfide che compromettono la loro efficienza ed efficacia. Tra questi problemi vi sono una pianificazione e un'allocazione delle risorse subottimali per le richieste degli agenti sull'LLM, le difficoltà nel mantenere il contesto durante le interazioni tra agente e LLM, e le complessità intrinseche nell'integrare agenti eterogenei con diverse capacità e specializzazioni. Il rapido aumento della quantità e della complessità degli agenti aggrava ulteriormente questi problemi, portando spesso a colli di bottiglia e a un utilizzo subottimale delle risorse. Ispirati da queste sfide, questo articolo presenta AIOS, un sistema operativo per agenti LLM, che integra il modello linguistico di grandi dimensioni nei sistemi operativi (OS). Nello specifico, AIOS è progettato per ottimizzare l'allocazione delle risorse, facilitare il cambio di contesto tra gli agenti, abilitare l'esecuzione concorrente degli agenti, fornire servizi di strumenti per gli agenti e mantenere il controllo degli accessi per gli agenti. Presentiamo l'architettura di un tale sistema operativo, delineiamo le principali sfide che mira a risolvere e forniamo il design e l'implementazione di base di AIOS. I nostri esperimenti sull'esecuzione concorrente di più agenti dimostrano l'affidabilità e l'efficienza dei nostri moduli AIOS. Attraverso ciò, miriamo non solo a migliorare le prestazioni e l'efficienza degli agenti LLM, ma anche a pionierizzare un migliore sviluppo e dispiegamento dell'ecosistema AIOS in futuro. Il progetto è open-source all'indirizzo https://github.com/agiresearch/AIOS.

Sii Te Stesso: Attenzione Limitata per la Generazione di Immagini da Testo Multi-Soggetto
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Mar 25

ByOmer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or

I modelli di diffusione text-to-image possiedono una capacità senza precedenti di generare immagini diversificate e di alta qualità. Tuttavia, spesso faticano a catturare fedelmente la semantica intesa di prompt di input complessi che includono più soggetti. Recentemente, sono state introdotte numerose estensioni layout-to-image per migliorare il controllo dell'utente, con l'obiettivo di localizzare i soggetti rappresentati da token specifici. Tuttavia, questi metodi spesso producono immagini semanticamente inaccurate, specialmente quando si tratta di più soggetti semanticamente o visivamente simili. In questo lavoro, studiamo e analizziamo le cause di queste limitazioni. La nostra esplorazione rivela che il problema principale deriva da una fuoriuscita semantica involontaria tra i soggetti durante il processo di denoising. Questa fuoriuscita è attribuita agli strati di attenzione del modello di diffusione, che tendono a mescolare le caratteristiche visive di diversi soggetti. Per affrontare questi problemi, introduciamo Bounded Attention, un metodo senza addestramento che limita il flusso di informazioni durante il processo di campionamento. Bounded Attention previene la fuoriuscita dannosa tra i soggetti e consente di guidare la generazione per promuovere l'individualità di ciascun soggetto, anche con condizionamenti complessi multi-soggetto. Attraverso un'ampia sperimentazione, dimostriamo che il nostro metodo permette la generazione di più soggetti che si allineano meglio ai prompt e ai layout forniti.

FlashFace: Personalizzazione di immagini umane con preservazione ad alta fedeltà dell'identità
FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Mar 25

ByShilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo

Questo lavoro presenta FlashFace, uno strumento pratico con cui gli utenti possono personalizzare facilmente le proprie foto al volo fornendo una o poche immagini di riferimento del volto e un prompt testuale. Il nostro approccio si distingue dai metodi esistenti di personalizzazione delle foto umane grazie a una conservazione dell'identità a fedeltà più elevata e a un migliore rispetto delle istruzioni, beneficiando di due design sottili. In primo luogo, codifichiamo l'identità del volto in una serie di mappe di caratteristiche invece di un singolo token immagine come nelle tecniche precedenti, consentendo al modello di mantenere più dettagli dei volti di riferimento (ad esempio, cicatrici, tatuaggi e forma del viso). In secondo luogo, introduciamo una strategia di integrazione disaccoppiata per bilanciare la guida del testo e dell'immagine durante il processo di generazione da testo a immagine, alleviando il conflitto tra i volti di riferimento e i prompt testuali (ad esempio, personalizzare un adulto in un "bambino" o un "anziano"). I risultati sperimentali estesi dimostrano l'efficacia del nostro metodo in varie applicazioni, tra cui la personalizzazione delle immagini umane, lo scambio di volti sotto prompt linguistici, la trasformazione di personaggi virtuali in persone reali, ecc. Pagina del progetto: https://jshilong.github.io/flashface-page.

SDXS: Modelli di Diffusione Latente in Tempo Reale a Un Passo con Condizioni Immagine
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Mar 25

ByYuda Song, Zehao Sun, Xuanwu Yin

I recenti progressi nei modelli di diffusione li hanno posizionati all'avanguardia nella generazione di immagini. Nonostante le loro prestazioni superiori, i modelli di diffusione non sono privi di difetti; sono caratterizzati da architetture complesse e richieste computazionali sostanziali, che si traducono in una latenza significativa a causa del loro processo di campionamento iterativo. Per mitigare queste limitazioni, introduciamo un approccio duale che prevede la miniaturizzazione del modello e una riduzione dei passi di campionamento, mirato a diminuire significativamente la latenza del modello. La nostra metodologia sfrutta la distillazione della conoscenza per semplificare le architetture U-Net e del decodificatore di immagini, e introduce una tecnica innovativa di addestramento DM in un solo passo che utilizza il matching delle caratteristiche e la distillazione del punteggio. Presentiamo due modelli, SDXS-512 e SDXS-1024, che raggiungono velocità di inferenza di circa 100 FPS (30 volte più veloci di SD v1.5) e 30 FPS (60 volte più veloci di SDXL) su una singola GPU, rispettivamente. Inoltre, il nostro approccio di addestramento offre applicazioni promettenti nel controllo condizionato all'immagine, facilitando una traduzione efficiente da immagine a immagine.

Decodifica della Fiducia Compressa: Analisi dell'Affidabilità di Modelli Linguistici Efficienti Sottoposti a Compressione
Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

Mar 18

ByJunyuan Hong, Jinhao Duan, Chenhui Zhang, Zhangheng Li, Chulin Xie, Kelsey Lieberman, James Diffenderfer, Brian Bartoldson, Ajay Jaiswal, Kaidi Xu, Bhavya Kailkhura, Dan Hendrycks, Dawn Song, Zhangyang Wang, Bo Li

La compressione di modelli linguistici di grandi dimensioni (LLM) ad alta capacità è emersa come una strategia privilegiata per inferenze efficienti in termini di risorse. Sebbene i metodi di compressione all'avanguardia (SoTA) vantino progressi impressionanti nel preservare le prestazioni su compiti benigni, i potenziali rischi della compressione in termini di sicurezza e affidabilità sono stati largamente trascurati. Questo studio conduce la prima valutazione approfondita di tre (3) principali LLM utilizzando cinque (5) tecniche di compressione SoTA attraverso otto (8) dimensioni di affidabilità. I nostri esperimenti evidenziano l'intricata interazione tra compressione e affidabilità, rivelando alcuni modelli interessanti. Scopriamo che la quantizzazione è attualmente un approccio più efficace rispetto alla potatura nel raggiungere simultaneamente efficienza e affidabilità. Ad esempio, un modello quantizzato a 4 bit mantiene l'affidabilità della sua controparte originale, mentre la potatura del modello degrada significativamente l'affidabilità, anche con una sparsità del 50%. Inoltre, l'utilizzo della quantizzazione all'interno di un intervallo moderato di bit potrebbe migliorare inaspettatamente alcune dimensioni dell'affidabilità, come l'etica e l'equità. Al contrario, una quantizzazione estrema a livelli di bit molto bassi (3 bit) tende a ridurre significativamente l'affidabilità. Questo rischio aumentato non può essere scoperto osservando solo le prestazioni su compiti benigni, rendendo quindi necessaria una valutazione completa dell'affidabilità nella pratica. Questi risultati culminano in raccomandazioni pratiche per raggiungere simultaneamente alta utilità, efficienza e affidabilità nei LLM. Modelli e codice sono disponibili su https://decoding-comp-trust.github.io/.

RakutenAI-7B: Estensione dei Modelli Linguistici di Grande Scala per il Giapponese
RakutenAI-7B: Extending Large Language Models for Japanese

Mar 21

ByRakuten Group, Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama

Presentiamo RakutenAI-7B, una suite di modelli linguistici di grandi dimensioni orientati al giapponese che raggiungono le migliori prestazioni sui benchmark Japanese LM Harness tra i modelli aperti da 7B. Insieme al modello di base, rilasciamo i modelli ottimizzati per istruzioni e chat, rispettivamente RakutenAI-7B-instruct e RakutenAI-7B-chat, sotto la licenza Apache 2.0.

TRIP: Apprendimento Residuo Temporale con Prior sul Rumore delle Immagini per Modelli di Diffusione da Immagine a Video
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

Mar 25

ByZhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao, Yang Cao, Tao Mei

I recenti progressi nella generazione di video da testo hanno dimostrato l'utilità di potenti modelli di diffusione. Tuttavia, il problema non è banale quando si tratta di modellare i processi di diffusione per animare immagini statiche (cioè, generazione di video da immagini). La difficoltà deriva dal fatto che il processo di diffusione dei fotogrammi animati successivi non deve solo preservare un allineamento fedele con l'immagine data, ma anche perseguire una coerenza temporale tra i fotogrammi adiacenti. Per mitigare questo problema, presentiamo TRIP, una nuova ricetta per il paradigma di diffusione da immagine a video che si basa su un precedente rumore dell'immagine derivato dall'immagine statica per attivare congiuntamente il ragionamento relazionale inter-fotogramma e facilitare la modellazione temporale coerente attraverso l'apprendimento residuo temporale. Tecnicamente, il precedente rumore dell'immagine viene prima ottenuto attraverso un processo di diffusione all'indietro in un singolo passaggio basato sia sull'immagine statica che sui codici latenti del video rumoroso. Successivamente, TRIP esegue uno schema dual-path di tipo residuo per la previsione del rumore: 1) un percorso diretto che prende direttamente il precedente rumore dell'immagine come rumore di riferimento per ogni fotogramma per amplificare l'allineamento tra il primo fotogramma e quelli successivi; 2) un percorso residuo che utilizza una 3D-UNet sui codici latenti del video rumoroso e dell'immagine statica per abilitare il ragionamento relazionale inter-fotogramma, facilitando così l'apprendimento del rumore residuo per ogni fotogramma. Inoltre, sia il rumore di riferimento che quello residuo di ogni fotogramma vengono dinamicamente fusi attraverso un meccanismo di attenzione per la generazione finale del video. Esperimenti estesi sui dataset WebVid-10M, DTDB e MSR-VTT dimostrano l'efficacia del nostro TRIP per la generazione di video da immagini. Si prega di visitare la nostra pagina del progetto all'indirizzo https://trip-i2v.github.io/TRIP/.

VP3D: Sfruttare il Prompt Visivo 2D per la Generazione di Contenuti da Testo a 3D
VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

Mar 25

ByYang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei

Le recenti innovazioni nella generazione da testo a 3D hanno introdotto il Campionamento per Distillazione del Punteggio (Score Distillation Sampling, SDS), che consente l'apprendimento zero-shot di modelli 3D impliciti (NeRF) distillando direttamente conoscenze pregresse da modelli di diffusione 2D. Tuttavia, i modelli basati su SDS attuali incontrano ancora difficoltà con prompt testuali complessi e spesso producono modelli 3D distorti con texture irrealistiche o problemi di incoerenza tra le viste. In questo lavoro, presentiamo un nuovo modello di diffusione da testo a 3D guidato da Prompt Visivo (VP3D), che sfrutta esplicitamente la conoscenza dell'aspetto visivo contenuta in un prompt visivo 2D per migliorare la generazione da testo a 3D. Invece di supervisionare SDS esclusivamente con un prompt testuale, VP3D utilizza prima un modello di diffusione 2D per generare un'immagine di alta qualità a partire dal testo in input, che funge poi da prompt visivo per rafforzare l'ottimizzazione SDS con un aspetto visivo esplicito. Contemporaneamente, accoppiamo l'ottimizzazione SDS con una funzione di ricompensa differenziabile aggiuntiva che incoraggia le immagini renderizzate dei modelli 3D ad allinearsi meglio visivamente con il prompt visivo 2D e a corrispondere semanticamente al prompt testuale. Attraverso esperimenti estesi, dimostriamo che il Prompt Visivo 2D nel nostro VP3D facilita significativamente l'apprendimento dell'aspetto visivo dei modelli 3D, portando così a una maggiore fedeltà visiva con texture più dettagliate. È inoltre interessante notare che, sostituendo il prompt visivo auto-generato con un'immagine di riferimento fornita, VP3D è in grado di attivare un nuovo compito di generazione da testo a 3D stilizzata. La nostra pagina del progetto è disponibile all'indirizzo https://vp3d-cvpr24.github.io.

TRIP: Apprendimento Residuo Temporale con Prior sul Rumore delle Immagini per Modelli di Diffusione da Immagine a Video
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

Mar 25

ByZhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao, Yang Cao, Tao Mei