Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione hanno dimostrato una notevole efficacia in varie attività di immagine per immagine. In questa ricerca, presentiamo Imagine yourself, un modello all'avanguardia progettato per la generazione personalizzata di immagini. A differenza delle tecniche di personalizzazione basate sul tuning convenzionale, Imagine yourself funziona come un modello senza tuning, consentendo a tutti gli utenti di sfruttare un framework condiviso senza aggiustamenti individualizzati. Inoltre, il lavoro precedente ha affrontato sfide nel bilanciare la conservazione dell'identità, nel seguire prompt complessi e nel preservare una buona qualità visiva, che ha portato a modelli con un forte effetto copia-incolla delle immagini di riferimento. Di conseguenza, è difficile che generino immagini seguendo prompt che richiedono cambi significativi rispetto all'immagine di riferimento, ad esempio cambiamenti di espressione facciale, pose della testa e del corpo, e la diversità delle immagini generate è bassa. Per affrontare queste limitazioni, il nostro metodo proposto introduce 1) un nuovo meccanismo di generazione di dati sintetici accoppiati per incoraggiare la diversità delle immagini, 2) un'architettura di attenzione completamente parallela con tre encoder di testo e un vision encoder completamente addestrabile per migliorare la fedeltà al testo, e 3) una nuova metodologia di fine-tuning multi-stadio da grezzo a dettagliato che spinge gradualmente i confini della qualità visiva. Il nostro studio dimostra che Imagine yourself supera il modello di personalizzazione all'avanguardia, mostrando capacità superiori nella conservazione dell'identità, nella qualità visiva e nell'allineamento del testo. Questo modello stabilisce una solida base per varie applicazioni di personalizzazione. I risultati della valutazione umana convalidano la superiorità SOTA del modello su tutti gli aspetti (conservazione dell'identità, fedeltà al testo e attrattiva visiva) rispetto ai modelli di personalizzazione precedenti.
Comprendere la satira e l'umorismo è un compito impegnativo persino per i modelli attuali di Visione-Linguaggio. In questo articolo, proponiamo le sfide impegnative del Rilevamento di Immagini Satiriche (individuare se un'immagine è satirica), della Comprensione (generare il motivo per cui l'immagine è satirica) e del Completamento (dato un'immagine divisa a metà, selezionare l'altra metà tra 2 opzioni date, in modo che l'immagine completa sia satirica) e rilasciamo un dataset di alta qualità YesBut, composto da 2547 immagini, di cui 1084 satiriche e 1463 non satiriche, contenenti diversi stili artistici, per valutare tali compiti. Ogni immagine satirica nel dataset raffigura uno scenario normale, insieme a uno scenario conflittuale che è divertente o ironico. Nonostante il successo dei modelli attuali di Visione-Linguaggio su compiti multimodali come la QA Visiva e la Descrizione delle Immagini, i nostri esperimenti di benchmarking mostrano che tali modelli hanno prestazioni scadenti sui compiti proposti nel Dataset YesBut in impostazioni Zero-Shot sia in valutazioni automatizzate che umane. Inoltre, rilasciamo un dataset di 119 fotografie reali e satiriche per ulteriori ricerche. Il dataset e il codice sono disponibili su https://github.com/abhi1nandy2/yesbut_dataset.
Stimolati dalla consapevolezza che gli emulatori di intelligenza artificiale possono eguagliare le prestazioni dei tradizionali modelli di previsione meteorologica numerica eseguiti su sistemi HPC, ora vi è un numero crescente di grandi modelli di intelligenza artificiale che affrontano casi d'uso come la previsione, il downsampling o il nowcasting. Mentre gli sviluppi paralleli nella letteratura sull'intelligenza artificiale si concentrano sui modelli fondamentali - modelli che possono essere efficacemente regolati per affrontare molteplici casi d'uso diversi - gli sviluppi nel settore meteorologico e climatico si concentrano principalmente su casi d'uso singoli con particolare enfasi sulla previsione a medio termine. Colmiamo questa lacuna presentando Prithvi WxC, un modello fondamentale con 2,3 miliardi di parametri sviluppato utilizzando 160 variabili dalla Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2). Prithvi WxC utilizza un'architettura basata su encoder-decoder, incorporando concetti di vari modelli trasformer recenti per catturare efficacemente le dipendenze regionali e globali nei dati di input. Il modello è stato progettato per gestire un gran numero di token per modellare i fenomeni meteorologici in diverse topologie a risoluzioni dettagliate. Inoltre, è stato addestrato con un obiettivo misto che combina i paradigmi della ricostruzione mascherata con la previsione. Testiamo il modello su un insieme di impegnative attività downstream, ovvero: previsione di rollout autoregressiva, downsampling, parametrizzazione del flusso di onde gravitazionali ed estimazione degli eventi estremi. Il modello preaddestrato con 2,3 miliardi di parametri, insieme ai relativi flussi di lavoro di fine-tuning, è stato rilasciato pubblicamente come contributo open-source tramite Hugging Face.
I Large Language Models (LLM) hanno dimostrato significativi miglioramenti delle prestazioni in varie attività cognitive. Un'applicazione emergente è l'utilizzo di LLM per potenziare le capacità di generazione potenziate da recupero (RAG). Questi sistemi richiedono che i LLM comprendano le richieste degli utenti, recuperino informazioni rilevanti e sintetizzino risposte coerenti e accurate. Data la crescente implementazione di tali sistemi nel mondo reale, diventa cruciale una valutazione completa. A tal fine, proponiamo FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), un dataset di valutazione di alta qualità progettato per testare la capacità dei LLM di fornire risposte fattuali, valutare le capacità di recupero ed esaminare il ragionamento necessario per generare risposte finali. Sebbene lavori precedenti abbiano fornito dataset e benchmark per valutare queste capacità in modo isolato, FRAMES offre un quadro unificato che fornisce una visione più chiara delle prestazioni dei LLM in scenari di RAG end-to-end. Il nostro dataset comprende domande sfidanti multi-hop che richiedono l'integrazione di informazioni da più fonti. Presentiamo risultati di base che dimostrano che anche i LLM all'avanguardia faticano con questo compito, raggiungendo un'accuratezza del 0,40 senza recupero. L'accuratezza migliora significativamente con il nostro proposto sistema di recupero a più passaggi, raggiungendo un'accuratezza del 0,66 (>50% di miglioramento). Speriamo che il nostro lavoro contribuirà a colmare le lacune nella valutazione e ad aiutare nello sviluppo di sistemi RAG più robusti e capaci.
I codec musicali sono un aspetto vitale della ricerca sui codec audio, e la compressione a bassissimo bitrate riveste un'importanza significativa per la trasmissione e la generazione di musica. A causa della complessità degli sfondi musicali e della ricchezza delle voci, fare affidamento esclusivamente sulla modellazione delle informazioni semantiche o acustiche non può ricostruire efficacemente la musica con voci e sfondi. Per affrontare questo problema, proponiamo MuCodec, mirato specificamente alla compressione e alla ricostruzione musicale a bassissimi bitrate. MuCodec impiega MuEncoder per estrarre sia le caratteristiche acustiche che semantiche, le discretizza con RVQ e ottiene le caratteristiche Mel-VAE tramite il matching di flussi. La musica viene quindi ricostruita utilizzando un decoder MEL-VAE preaddestrato e HiFi-GAN. MuCodec può ricostruire musica ad alta fedeltà a bitrate ultra bassi (0,35 kbps) o a bitrate elevati (1,35 kbps), ottenendo i migliori risultati finora sia in termini soggettivi che oggettivi. Codice e Demo: https://xuyaoxun.github.io/MuCodec_demo/.
Introduciamo PortraitGen, un potente metodo di editing video ritratto che raggiunge una stilizzazione coerente ed espressiva con prompt multimodali. I metodi tradizionali di editing video ritratto spesso faticano con la coerenza 3D e temporale, e tipicamente mancano di qualità e efficienza di rendering. Per affrontare questi problemi, eleviamo i frame video ritratto in un campo gaussiano dinamico 3D unificato, che garantisce coerenza strutturale e temporale tra i frame. Inoltre, progettiamo un nuovo meccanismo di Texture Gaussiana Neurale che non solo consente un editing di stile sofisticato ma raggiunge anche una velocità di rendering superiore a 100FPS. Il nostro approccio incorpora input multimodali attraverso conoscenze distillate da modelli generativi 2D su larga scala. Il nostro sistema incorpora anche una guida di similarità espressiva e un modulo di editing ritratto consapevole del viso, mitigando efficacemente i problemi di degrado associati agli aggiornamenti iterativi dell'insieme di dati. Estesi esperimenti dimostrano la coerenza temporale, l'efficienza di editing e la qualità di rendering superiore del nostro metodo. L'ampia applicabilità dell'approccio proposto è dimostrata attraverso varie applicazioni, inclusi editing basati su testo, editing basato su immagini e relighting, evidenziando il suo grande potenziale per far progredire il campo dell'editing video. Video dimostrativi e codice rilasciato sono disponibili nella nostra pagina del progetto: https://ustc3dv.github.io/PortraitGen/
La decomposizione dell'immagine intrinseca mira a separare la riflettanza superficiale dagli effetti dell'illuminazione data una singola fotografia. A causa della complessità del problema, la maggior parte dei lavori precedenti assume un'illuminazione monocromatica e un mondo lambertiano, il che limita il loro utilizzo nelle applicazioni di editing delle immagini consapevoli dell'illuminazione. In questo lavoro, suddividiamo un'immagine di input nei suoi componenti di albedo diffusa, sfumature diffuse colorate e residui speculari. Otteniamo il nostro risultato rimuovendo gradualmente prima l'illuminazione monocromatica e poi le assunzioni sul mondo lambertiano. Dimostriamo che dividendo il problema in sotto-problemi più semplici, è possibile ottenere una stima delle sfumature diffuse colorate in ambienti reali nonostante i limitati dataset di ground-truth. Il nostro modello intrinseco esteso consente un'analisi consapevole dell'illuminazione delle fotografie e può essere utilizzato per applicazioni di editing delle immagini come la rimozione della specularità e il bilanciamento del bianco per pixel.
Sperimentare video volumetrici ad alta fedeltà in modo fluido come i video 2D è un sogno da tempo coltivato. Tuttavia, i metodi attuali di grafica 3D dinamica, nonostante la loro elevata qualità di rendering, affrontano sfide nello streaming su dispositivi mobili a causa di vincoli computazionali e di larghezza di banda. In questo articolo, presentiamo V3 (Visualizzazione Video Volumetrici), un nuovo approccio che consente un rendering mobile di alta qualità attraverso lo streaming di gaussiane dinamiche. La nostra innovazione chiave è considerare la grafica 3D dinamica come video 2D, facilitando l'uso dei codec video hardware. Inoltre, proponiamo una strategia di addestramento a due fasi per ridurre i requisiti di archiviazione con una rapida velocità di addestramento. La prima fase utilizza la codifica hash e un MLP superficiale per apprendere il movimento, riduce il numero di gaussiane tramite potatura per soddisfare i requisiti di streaming, mentre la seconda fase ottimizza altri attributi gaussiani utilizzando la perdita di entropia residua e la perdita temporale per migliorare la continuità temporale. Questa strategia, che separa il movimento dall'aspetto, mantiene un'alta qualità di rendering con requisiti di archiviazione compatti. Nel frattempo, abbiamo progettato un lettore multi-piattaforma per decodificare e renderizzare video gaussiani 2D. Estesi esperimenti dimostrano l'efficacia di V3, superando altri metodi consentendo un rendering e uno streaming di alta qualità su dispositivi comuni, cosa mai vista prima. Essendo i primi a streammare gaussiane dinamiche su dispositivi mobili, il nostro lettore compagno offre agli utenti un'esperienza di video volumetrici senza precedenti, inclusi lo scorrimento fluido e la condivisione istantanea. La nostra pagina del progetto con il codice sorgente è disponibile su https://authoritywang.github.io/v3/.
Gli LLM hanno dimostrato prestazioni lodevoli in diversi ambiti. Tuttavia, formulare prompt di alta qualità per aiutarli nel loro lavoro rappresenta una sfida per i non esperti di AI. La ricerca esistente sull'ingegneria dei prompt suggerisce principi di ottimizzazione e progettazioni un po' disperse, con ottimizzatori di prompt dipendenti empiricamente. Purtroppo, questi sforzi mancano di una progettazione strutturale, comportando costi di apprendimento elevati e non favorendo l'aggiornamento iterativo dei prompt, specialmente per i non esperti di AI. Ispirati dai linguaggi di programmazione strutturati e riutilizzabili, proponiamo LangGPT, un framework di progettazione strutturale dei prompt. Inoltre, introduciamo Minstrel, un sistema multi-generativo con riflessione per automatizzare la generazione di prompt strutturali. Gli esperimenti e lo studio di caso illustrano che i prompt strutturali generati da Minstrel o scritti manualmente migliorano significativamente le prestazioni degli LLM. Inoltre, analizziamo la facilità d'uso dei prompt strutturali attraverso un sondaggio tra gli utenti nella nostra comunità online.
I modelli linguistici di grandi dimensioni (LLM) hanno mostrato un notevole potenziale in vari settori, inclusa la cybersecurity. L'utilizzo di LLM basati su cloud commerciali potrebbe non essere auspicabile a causa di preoccupazioni legate alla privacy, costi e vincoli di connettività di rete. In questo articolo, presentiamo Hackphyr, un LLM localmente ottimizzato per essere impiegato come agente red-team all'interno di ambienti di sicurezza di rete. Il nostro modello con 7 miliardi di parametri ottimizzato in modo specifico può essere eseguito su una singola scheda GPU e raggiunge prestazioni paragonabili a modelli commerciali molto più grandi e potenti come il GPT-4. Hackphyr supera chiaramente altri modelli, inclusi GPT-3.5-turbo, e baselines come agenti Q-learning in scenari complessi e precedentemente non visti. Per ottenere queste prestazioni, abbiamo generato un nuovo dataset specifico per compiti di sicurezza informatica per potenziare le capacità del modello di base. Infine, abbiamo condotto un'analisi esaustiva dei comportamenti degli agenti che fornisce approfondimenti sulle capacità di pianificazione e sui potenziali difetti di tali agenti, contribuendo alla comprensione più ampia degli agenti basati su LLM in contesti di cybersecurity.
Introduciamo V-AURA, il primo modello autoregressivo a ottenere un'alta allineamento temporale e rilevanza nella generazione video-audio. V-AURA utilizza un estrattore di caratteristiche visive ad alta frequenza di frame e una strategia di fusione di caratteristiche audio-visive cross-modal per catturare eventi di movimento visivo dettagliati e garantire un preciso allineamento temporale. Inoltre, proponiamo VisualSound, un dataset di riferimento con alta rilevanza audio-visiva. VisualSound si basa su VGGSound, un dataset video composto da campioni in condizioni naturali estratti da YouTube. Durante la cura, rimuoviamo campioni in cui gli eventi uditivi non sono allineati con quelli visivi. V-AURA supera i modelli attuali all'avanguardia nell'allineamento temporale e nella rilevanza semantica mantenendo nel contempo una qualità audio comparabile. Codice, campioni, VisualSound e modelli sono disponibili su https://v-aura.notion.site
L'integrazione di strumenti negli agenti basati su LLM ha superato le difficoltà dei LLM autonomi e delle limitate capacità degli agenti tradizionali. Tuttavia, la combinazione di queste tecnologie e le migliorie proposte in diversi lavori all'avanguardia hanno seguito un'architettura software non unificata che ha portato a una mancanza di modularità. Infatti, si sono concentrati principalmente sulle funzionalità trascurando la definizione dei confini dei componenti all'interno dell'agente. Ciò ha causato ambiguità terminologiche e architettoniche tra i ricercatori, che abbiamo affrontato in questo articolo proponendo un framework unificato che stabilisce una base chiara per lo sviluppo degli agenti basati su LLM sia dal punto di vista funzionale che architetturale del software. Il nostro framework, LLM-Agent-UMF (LLM-based Agent Unified Modeling Framework), distingue chiaramente tra i diversi componenti di un agente, separando LLM e strumenti da un elemento di recente introduzione: il core-agente, che svolge il ruolo di coordinatore centrale dell'agente e comprende cinque moduli: pianificazione, memoria, profilo, azione e sicurezza, quest'ultima spesso trascurata nei lavori precedenti. Le differenze nella struttura interna dei core-agenti ci hanno portato a classificarli in una tassonomia di tipi passivi e attivi. Sulla base di ciò, abbiamo proposto diverse architetture di agenti multi-core che combinano le caratteristiche uniche di vari agenti individuali. A fini valutativi, abbiamo applicato questo framework a una selezione di agenti all'avanguardia, dimostrando così la sua coerenza con le loro funzionalità e chiarendo gli aspetti architettonici trascurati. Inoltre, abbiamo valutato approfonditamente quattro delle nostre architetture proposte integrando agenti distinti nei sistemi di core-agenti ibridi attivi/passivi. Questa analisi ha fornito chiari spunti per possibili miglioramenti e ha evidenziato le sfide legate alla combinazione di agenti specifici.