HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

SynCamMaster: Generazione di Video Multicamera Sincronizzati da Diversi Punti di Vista
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Dec 10

ByJianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang

I recenti progressi nei modelli di diffusione video hanno mostrato capacità eccezionali nella simulazione delle dinamiche del mondo reale e nel mantenimento della consistenza in 3D. Questo progresso ci ispira a investigare il potenziale di questi modelli per garantire una coerenza dinamica tra vari punti di vista, una caratteristica molto desiderabile per applicazioni come le riprese virtuali. A differenza dei metodi esistenti focalizzati sulla generazione multi-vista di singoli oggetti per la ricostruzione in 4D, il nostro interesse è nella generazione di video open-world da punti di vista arbitrari, incorporando pose di telecamera a 6 gradi di libertà. Per raggiungere questo obiettivo, proponiamo un modulo plug-and-play che potenzia un modello di testo-a-video pre-addestrato per la generazione di video multi-camera, garantendo coerenza di contenuto tra diversi punti di vista. In particolare, introduciamo un modulo di sincronizzazione multi-vista per mantenere la consistenza dell'aspetto e della geometria tra questi punti di vista. Date le limitate quantità di dati di addestramento di alta qualità, progettiamo un regime di addestramento ibrido che sfrutta immagini multi-camera e video monoculari per integrare video multi-camera renderizzati con Unreal Engine. Inoltre, il nostro metodo consente interessanti estensioni, come il ri-rendering di un video da nuovi punti di vista. Rilasciamo anche un dataset video sincronizzato multi-vista, chiamato SynCamVideo-Dataset. Pagina del progetto: https://jianhongbai.github.io/SynCamMaster/.

LAION-SG: Un dataset su larga scala potenziato per addestrare modelli complessi immagine-testo con annotazioni strutturali
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

Dec 11

ByZejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun

I recenti progressi nella generazione testo-immagine (T2I) hanno mostrato un notevole successo nella produzione di immagini di alta qualità da testo. Tuttavia, i modelli T2I esistenti mostrano una performance decaduta nella generazione di immagini compositive che coinvolgono oggetti multipli e relazioni intricate. Attribuiamo questo problema alle limitazioni nei dataset esistenti di coppie immagine-testo, che mancano di annotazioni precise sulle relazioni tra gli oggetti con soli prompt. Per affrontare questo problema, abbiamo costruito LAION-SG, un dataset su larga scala con annotazioni strutturali di grafi di scena (SG), che descrivono precisamente attributi e relazioni di oggetti multipli, rappresentando efficacemente la struttura semantica in scene complesse. Basandoci su LAION-SG, abbiamo addestrato un nuovo modello fondamentale SDXL-SG per incorporare informazioni di annotazione strutturale nel processo di generazione. Estesi esperimenti mostrano che i modelli avanzati addestrati sul nostro LAION-SG vantano significativi miglioramenti delle performance nella generazione di scene complesse rispetto ai modelli su dataset esistenti. Introduciamo inoltre CompSG-Bench, un benchmark che valuta i modelli nella generazione di immagini compositive, stabilendo uno nuovo standard per questo ambito.

PUNTI 1.5: Costruzione di un Modello Visione-Linguaggio per Applicazioni del Mondo Reale
POINTS1.5: Building a Vision-Language Model towards Real World Applications

Dec 11

ByYuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou

I modelli visione-linguaggio hanno compiuto progressi significativi di recente, dimostrando prestazioni superiori in una serie di compiti, come il riconoscimento ottico dei caratteri e l'analisi di diagrammi complessi. Costruendo su questa tendenza, presentiamo un nuovo modello visione-linguaggio, POINTS1.5, progettato per eccellere in varie applicazioni del mondo reale. POINTS1.5 è un potenziamento di POINTS1.0 e incorpora diverse innovazioni chiave: i) Sostituiamo il codificatore di visione CLIP originale, che aveva una risoluzione immagine fissa, con un codificatore di visione in stile NaViT che supporta una risoluzione dinamica nativa elevata. Ciò consente a POINTS1.5 di elaborare immagini di qualsiasi risoluzione senza doverle suddividere in piastrelle. ii) Aggiungiamo il supporto bilingue a POINTS1.5, potenziando significativamente la sua capacità in cinese. A causa della scarsità di set di dati cinesi open-source per i modelli visione-linguaggio, raccogliamo numerose immagini da Internet e le annotiamo utilizzando una combinazione di metodi manuali e automatici. iii) Proponiamo un insieme di metodi rigorosi di filtraggio per i set di dati di sintonizzazione delle istruzioni visive. Valutiamo in modo esaustivo tutti questi metodi di filtraggio e scegliamo quelli più efficaci per ottenere il set finale di sintonizzazione delle istruzioni visive. Grazie a queste innovazioni, POINTS1.5 supera significativamente POINTS1.0 e dimostra prestazioni solide in una serie di applicazioni del mondo reale. In particolare, POINTS1.5-7B è addestrato su meno di 4 miliardi di token e si posiziona al primo posto nella classifica di OpenCompass tra i modelli con meno di 10 miliardi di parametri.

Apprendimento dei campi di flusso nell'attenzione per la generazione controllabile di immagini di persone.
Learning Flow Fields in Attention for Controllable Person Image Generation

Dec 11

ByZijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He

La generazione controllabile di immagini di persone mira a generare un'immagine di persona condizionata a immagini di riferimento, consentendo un controllo preciso sull'aspetto o sulla posa della persona. Tuttavia, i metodi precedenti spesso distorcono dettagli testuali dettagliati dell'immagine di riferimento, nonostante raggiungano un'alta qualità complessiva dell'immagine. Attribuiamo tali distorsioni a una scarsa attenzione alle regioni corrispondenti nell'immagine di riferimento. Per affrontare questo problema, proponiamo pertanto di apprendere campi di flusso nell'attenzione (Leffa), che guidano esplicitamente la query di destinazione a prestare attenzione alla corretta chiave di riferimento nello strato di attenzione durante l'addestramento. In particolare, ciò è realizzato tramite una perdita di regolarizzazione in cima alla mappa di attenzione all'interno di un modello di base basato sulla diffusione. I nostri ampi esperimenti mostrano che Leffa raggiunge prestazioni all'avanguardia nel controllo dell'aspetto (prova virtuale) e della posa (trasferimento di posa), riducendo significativamente la distorsione dei dettagli dettagliati mentre mantiene un'alta qualità dell'immagine. Inoltre, dimostriamo che la nostra perdita è indipendente dal modello e può essere utilizzata per migliorare le prestazioni di altri modelli di diffusione.

L'Ecosistema BrowserGym per la Ricerca sugli Agenti Web
The BrowserGym Ecosystem for Web Agent Research

Dec 6

ByThibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste

L'ecosistema BrowserGym affronta la crescente necessità di valutare in modo efficiente e fare benchmark degli agenti web, in particolare di coloro che sfruttano l'automazione e i Grandi Modelli Linguistici (LLM) per compiti di interazione web. Molti benchmark esistenti soffrono di frammentazione e metodologie di valutazione inconsistenti, rendendo difficile ottenere confronti affidabili e risultati riproducibili. BrowserGym mira a risolvere questo problema fornendo un ambiente unificato simile a una palestra con spazi di osservazione e azione ben definiti, facilitando la valutazione standardizzata tra diversi benchmark. Combinato con AgentLab, un framework complementare che aiuta nella creazione, test e analisi degli agenti, BrowserGym offre flessibilità per integrare nuovi benchmark garantendo nel contempo una valutazione coerente e una gestione completa degli esperimenti. Questo approccio standardizzato mira a ridurre il tempo e la complessità nello sviluppo degli agenti web, supportando confronti più affidabili e agevolando un'analisi approfondita dei comportamenti degli agenti, potenzialmente portando a agenti più adattabili e capaci, accelerando così l'innovazione nell'automazione basata sui LLM. Come prova a supporto, conduciamo il primo esperimento su larga scala con agenti web multi-benchmark e confrontiamo le prestazioni di 6 LLM all'avanguardia su tutti i benchmark attualmente disponibili in BrowserGym. Tra le altre scoperte, i nostri risultati evidenziano una grande discrepanza tra i modelli più recenti di OpenAI e Anthropic, con Claude-3.5-Sonnet in testa su quasi tutti i benchmark, tranne che nei compiti legati alla visione dove GPT-4o è superiore. Nonostante questi progressi, i nostri risultati sottolineano che costruire agenti web robusti ed efficienti rimane una sfida significativa, a causa della complessità intrinseca degli ambienti web reali e dei limiti dei modelli attuali.

Track4Gen: Insegnare ai Modelli di Diffusione Video a Tracciare i Punti Migliora la Generazione Video
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Dec 8

ByHyeonho Jeong, Chun-Hao Paul Huang, Jong Chul Ye, Niloy Mitra, Duygu Ceylan

Mentre i generatori video fondamentali recenti producono output visivamente ricchi, faticano ancora con lo spostamento dell'aspetto, dove gli oggetti degradano gradualmente o cambiano in modo inconsistente tra i frame, rompendo la coerenza visiva. Ipotizziamo che ciò sia dovuto alla mancanza di supervisione esplicita in termini di tracciamento spaziale a livello di caratteristica. Proponiamo Track4Gen, un generatore video consapevole dello spazio che combina la perdita di diffusione video con il tracciamento dei punti tra i frame, fornendo una supervisione spaziale migliorata sulle caratteristiche di diffusione. Track4Gen fonde la generazione video e i compiti di tracciamento dei punti in una singola rete apportando modifiche minime alle architetture esistenti di generazione video. Utilizzando la Diffusione Video Stabile come base, Track4Gen dimostra che è possibile unificare la generazione video e il tracciamento dei punti, che vengono tipicamente gestiti come compiti separati. Le nostre valutazioni approfondite mostrano che Track4Gen riduce efficacemente lo spostamento dell'aspetto, producendo una generazione video temporalmente stabile e visivamente coerente. Pagina del progetto: hyeonho99.github.io/track4gen

StyleMaster: Stilizza il tuo video con generazione e traduzione artistiche
StyleMaster: Stylize Your Video with Artistic Generation and Translation

Dec 10

ByZixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo

Il controllo dello stile è stato popolare nei modelli di generazione video. I metodi esistenti spesso generano video lontani dallo stile fornito, causano perdite di contenuto e faticano nel trasferire un video allo stile desiderato. La nostra prima osservazione è che l'importanza della fase di estrazione dello stile, mentre i metodi esistenti enfatizzano lo stile globale ma ignorano le texture locali. Per portare le caratteristiche delle texture evitando perdite di contenuto, filtriamo le patch correlate al contenuto mantenendo quelle dello stile in base alla similarità tra le patch; per l'estrazione dello stile globale, generiamo un dataset di stile accoppiato attraverso l'illusione del modello per facilitare l'apprendimento contrastivo, che migliora notevolmente la coerenza assoluta dello stile. Inoltre, per colmare il divario tra immagine e video, addestriamo un adattatore di movimento leggero su video fermi, che potenzia implicitamente l'estensione della stilizzazione e consente al nostro modello addestrato sull'immagine di essere applicato in modo fluido ai video. Grazie a questi sforzi, il nostro approccio, StyleMaster, non solo ottiene un miglioramento significativo sia nella somiglianza dello stile che nella coerenza temporale, ma può anche generalizzare facilmente al trasferimento di stile video con un ControlNet grigio. Estesi esperimenti e visualizzazioni dimostrano che StyleMaster supera significativamente i concorrenti, generando efficacemente video stilizzati di alta qualità che si allineano al contenuto testuale e assomigliano da vicino allo stile delle immagini di riferimento. La nostra pagina del progetto si trova su https://zixuan-ye.github.io/stylemaster.

Densificazione generativa: Apprendimento per densificare le gaussiane per una ricostruzione 3D ad alta fedeltà e generalizzabile.
Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D Reconstruction

Dec 9

BySeungtae Nam, Xiangyu Sun, Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park

I modelli Gaussiani feed-forward generalizzati hanno ottenuto significativi progressi nella ricostruzione 3D a vista scarsa, sfruttando le conoscenze pregresse da ampi dataset multi-vista. Tuttavia, questi modelli spesso faticano a rappresentare dettagli ad alta frequenza a causa del numero limitato di Gaussiane. Mentre la strategia di densificazione utilizzata nell'ottimizzazione 3D-Gaussian splatting (3D-GS) per scena può essere adattata ai modelli feed-forward, potrebbe non essere idealmente adatta per scenari generalizzati. In questo articolo, proponiamo la Densificazione Generativa, un metodo efficiente e generalizzabile per densificare le Gaussiane generate dai modelli feed-forward. A differenza della strategia di densificazione 3D-GS, che suddivide e clona iterativamente i parametri Gaussiani grezzi, il nostro metodo campiona le rappresentazioni delle caratteristiche dai modelli feed-forward e genera le loro corrispondenti Gaussiane dettagliate in un singolo passaggio in avanti, sfruttando le conoscenze pregresse incorporate per una generalizzazione migliorata. I risultati sperimentali su compiti di ricostruzione a livello di oggetto e di scena dimostrano che il nostro metodo supera gli approcci all'avanguardia con dimensioni del modello comparabili o inferiori, ottenendo miglioramenti notevoli nella rappresentazione dei dettagli fini.

StreamChat: Chattare con Video in Streaming
StreamChat: Chatting with Streaming Video

Dec 11

ByJihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare

Questo articolo presenta StreamChat, un nuovo approccio che potenzia le capacità di interazione dei Grandi Modelli Multimodali (LMM) con contenuti video in streaming. Nei contesti di interazione in streaming, i metodi esistenti si basano esclusivamente sulle informazioni visive disponibili al momento in cui viene posta una domanda, con conseguenti ritardi significativi poiché il modello rimane inconsapevole dei cambiamenti successivi nel video in streaming. StreamChat affronta questa limitazione aggiornando in modo innovativo il contesto visivo ad ogni passaggio di decodifica, garantendo che il modello utilizzi contenuti video aggiornati durante l'intero processo di decodifica. Inoltre, introduciamo un'architettura flessibile ed efficiente basata su cross-attention per elaborare input dinamici in streaming mantenendo al contempo l'efficienza inferenziale per le interazioni in streaming. Inoltre, costruiamo un nuovo dataset di istruzioni denso per agevolare l'addestramento dei modelli di interazione in streaming, completato da un meccanismo parallelo 3D-RoPE che codifica le informazioni temporali relative dei token visivi e testuali. I risultati sperimentali dimostrano che StreamChat raggiunge prestazioni competitive su benchmark consolidati di immagini e video e mostra capacità superiori nei contesti di interazione in streaming rispetto ai migliori LMM video attuali.

FlowEdit: Modifica del testo senza inversione utilizzando modelli di flusso pre-addestrati
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

Dec 11

ByVladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

Modificare immagini reali utilizzando un modello di diffusione/flusso testo-immagine (T2I) pre-addestrato spesso comporta l'inversione dell'immagine nella relativa mappa di rumore corrispondente. Tuttavia, l'inversione di per sé è tipicamente insufficiente per ottenere risultati soddisfacenti, pertanto molti metodi intervengono ulteriormente nel processo di campionamento. Tali metodi raggiungono risultati migliorati ma non sono facilmente trasferibili tra architetture di modelli. Qui presentiamo FlowEdit, un metodo di modifica basato su testo per modelli di flusso T2I pre-addestrati, che è privo di inversione, ottimizzazione e indipendente dal modello. Il nostro metodo costruisce un ODE che mappa direttamente tra le distribuzioni di origine e di destinazione (corrispondenti alle istruzioni di testo di origine e di destinazione) e raggiunge un costo di trasporto inferiore rispetto all'approccio di inversione. Ciò porta a risultati all'avanguardia, come illustrato con Stable Diffusion 3 e FLUX. Il codice e gli esempi sono disponibili sulla pagina web del progetto.

3DSRBench: un benchmark completo per la ragionamento spaziale in 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

Dec 10

ByWufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen

Il ragionamento spaziale in 3D è la capacità di analizzare e interpretare le posizioni, orientamenti e relazioni spaziali degli oggetti all'interno dello spazio tridimensionale. Questo consente ai modelli di sviluppare una comprensione completa della scena in 3D, consentendo la loro applicabilità a una gamma più ampia di settori, come la navigazione autonoma, la robotica e la RA/RV. Sebbene i grandi modelli multimodali (LMMs) abbiano ottenuto progressi notevoli in una vasta gamma di compiti di comprensione di immagini e video, le loro capacità di eseguire il ragionamento spaziale in 3D su diverse immagini naturali sono meno studiate. In questo lavoro presentiamo il primo benchmark completo di ragionamento spaziale in 3D, 3DSRBench, con 2.772 coppie di domande-risposte visive annotate manualmente su 12 tipi di domande. Conduciamo una valutazione robusta e approfondita delle capacità di ragionamento spaziale in 3D bilanciando la distribuzione dei dati e adottando una nuova strategia di valutazione (FlipEval). Per studiare ulteriormente la robustezza del ragionamento spaziale in 3D rispetto ai punti di vista in 3D della fotocamera, il nostro 3DSRBench include due sottoinsiemi con domande di ragionamento spaziale in 3D su immagini accoppiate con punti di vista comuni e non comuni. Valutiamo una vasta gamma di LMMs open-source e proprietari, mettendo in luce i loro limiti in vari aspetti della consapevolezza in 3D, come altezza, orientamento, posizione e ragionamento multi-oggetto, nonché la loro performance degradata su immagini con punti di vista della fotocamera non comuni. Il nostro 3DSRBench fornisce risultati e approfondimenti preziosi sul futuro sviluppo di LMMs con forti capacità di ragionamento in 3D. La nostra pagina del progetto e il dataset sono disponibili su https://3dsrbench.github.io.

Mogo: RQ Hierarchical Causal Transformer per la generazione di movimenti umani 3D di alta qualità
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation

Dec 5

ByDongjie Fu

Nel campo della generazione testo-movimento, i modelli mascherati di tipo Bert (MoMask, MMM) attualmente producono output di qualità superiore rispetto ai modelli autoregressivi di tipo GPT (T2M-GPT). Tuttavia, questi modelli di tipo Bert spesso mancano della capacità di output in streaming richiesta per le applicazioni in videogiochi e ambienti multimediali, una caratteristica intrinseca ai modelli di tipo GPT. Inoltre, essi mostrano una performance più debole nella generazione al di fuori della distribuzione. Per superare la qualità dei modelli di tipo BERT sfruttando una struttura di tipo GPT, senza aggiungere modelli di raffinamento aggiuntivi che complicano la scalabilità dei dati, proponiamo un'architettura innovativa, Mogo (Motion Only Generate Once), che genera movimenti umani 3D realistici di alta qualità addestrando un singolo modello transformer. Mogo è composto solo da due componenti principali: 1) RVQ-VAE, un autoencoder variazionale a quantizzazione vettoriale residua gerarchica, che discretizza sequenze di movimento continue con alta precisione; 2) Hierarchical Causal Transformer, responsabile della generazione delle sequenze di movimento di base in modo autoregressivo mentre contemporaneamente inferisce i residui attraverso diversi livelli. I risultati sperimentali dimostrano che Mogo può generare sequenze di movimento continue e cicliche fino a 260 fotogrammi (13 secondi), superando il limite di lunghezza di 196 fotogrammi (10 secondi) dei dataset esistenti come HumanML3D. Sul set di test di HumanML3D, Mogo raggiunge uno score FID di 0.079, superando sia il modello di tipo GPT T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) che il modello di tipo BERT MMM (FID = 0.080). Inoltre, il nostro modello raggiunge la migliore performance quantitativa nella generazione al di fuori della distribuzione.

KaSA: Adattamento della Singular Value consapevole della conoscenza dei grandi modelli linguistici
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models

Dec 8

ByFan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang

Le dimensioni crescenti dei grandi modelli di linguaggio (LLM) comportano un notevole sovraccarico computazionale e utilizzo della memoria quando si adattano tali modelli a compiti o domini specifici. Diversi metodi efficienti dei parametri per il fine-tuning (PEFT) sono stati ideati per attenuare tali sfide, addestrando un piccolo insieme di parametri per gli aggiornamenti specifici del compito dei pesi del modello. Tra i metodi PEFT, LoRA si distingue per la sua semplicità ed efficienza, ispirando lo sviluppo di una serie di varianti. Tuttavia, LoRA e i suoi successori ignorano le conoscenze rumorose o non rilevanti per il compito mirato, danneggiando in modo significativo le prestazioni del modello e portando a sub-ottimalità. Per affrontare questa limitazione, presentiamo Knowledge-aware Singular-value Adaptation (KaSA), un metodo PEFT che sfrutta la decomposizione ai valori singolari (SVD) con valori singolari consapevoli della conoscenza per attivare dinamicamente la conoscenza in base alla sua rilevanza per il compito in questione. Conduciamo ampi esperimenti su una serie di LLM su compiti che spaziano dalla comprensione del linguaggio naturale (NLU), alla generazione (NLG), al seguire le istruzioni e al ragionamento del senso comune. I risultati sperimentali dimostrano che KaSA supera costantemente FFT e 14 baselines PEFT popolari su 16 benchmark e 4 set di dati sintetici, sottolineando l'efficacia e l'adattabilità del nostro metodo. Il codice sorgente del nostro metodo è disponibile su https://github.com/juyongjiang/KaSA.

Creazione di Video per Dimostrazione
Video Creation by Demonstration

Dec 12

ByYihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu

Esploriamo una nuova esperienza di creazione di video, chiamata Creazione di Video per Dimostrazione. Data un video di dimostrazione e un'immagine di contesto da una scena diversa, generiamo un video fisicamente plausibile che prosegue naturalmente dall'immagine di contesto e mette in atto i concetti d'azione della dimostrazione. Per abilitare questa capacità, presentiamo delta-Diffusion, un approccio di addestramento auto-supervisionato che apprende da video non etichettati attraverso la previsione condizionale di frame futuri. A differenza della maggior parte dei controlli di generazione video esistenti che si basano su segnali espliciti, adottiamo la forma di controllo latente implicito per massima flessibilità ed espressività richiesta dai video in generale. Sfruttando un modello di fondazione video con un design di bottleneck di aspetto in cima, estraiamo latenti d'azione dai video di dimostrazione per condizionare il processo di generazione con minima perdita di aspetto. Empiricamente, delta-Diffusion supera i baselines correlati sia in termini di preferenza umana che di valutazioni su larga scala da parte di macchine, e dimostra potenzialità verso la simulazione interattiva del mondo. Risultati di generazione video campionati sono disponibili su https://delta-diffusion.github.io/.

Non lo so: Modellazione esplicita dell'incertezza con un token [ND].
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token

Dec 9

ByRoi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo

I Large Language Models sono noti per catturare conoscenze del mondo reale, consentendo loro di eccellere in molte attività derivate. Nonostante i recenti progressi, questi modelli sono ancora inclini a ciò che sono comunemente conosciuti come allucinazioni, che li portano a emettere testi indesiderati e factualmente scorretti. In questo lavoro, proponiamo un nuovo metodo di calibrazione che può essere utilizzato per contrastare le allucinazioni. Aggiungiamo un token speciale [IDK] ("Non lo so") al vocabolario del modello e introduciamo una funzione obiettivo che sposta la massa di probabilità al token [IDK] per le previsioni errate. Questo approccio consente al modello di esprimere esplicitamente l'incertezza nel suo output. Valutiamo il nostro metodo proposto su diverse architetture di modelli e attività factuali derivate. Scopriamo che i modelli addestrati con il nostro metodo sono in grado di esprimere incertezza nei casi in cui in precedenza commettevano errori, subendo solo una piccola perdita di conoscenza codificata. Inoltre, conduciamo ampie analisi di ablazione su varie varianti del nostro approccio e forniamo un'analisi dettagliata del compromesso precisione-richiamo del nostro metodo.

StyleStudio: Trasferimento dello stile basato sul testo con controllo selettivo degli elementi dello stile
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

Dec 11

ByMingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang

Il trasferimento di stile guidato dal testo mira a fondere lo stile di un'immagine di riferimento con il contenuto descritto da un prompt di testo. Gli avanzamenti recenti nei modelli di testo-immagine hanno migliorato la sottigliezza delle trasformazioni di stile, tuttavia rimangono sfide significative, in particolare con l'adattamento eccessivo agli stili di riferimento, limitando il controllo stilistico e disallineandosi con il contenuto testuale. In questo articolo, proponiamo tre strategie complementari per affrontare questi problemi. In primo luogo, introduciamo un meccanismo di Normalizzazione dell'Istanza Adattiva (AdaIN) cross-modale per una migliore integrazione di stile e caratteristiche del testo, migliorando l'allineamento. In secondo luogo, sviluppiamo un approccio Guida basata sullo Stile senza Classificatore (SCFG) che consente un controllo selettivo sugli elementi stilistici, riducendo influenze non rilevanti. Infine, incorporiamo un modello di insegnante durante le fasi iniziali di generazione per stabilizzare i layout spaziali e mitigare artefatti. Le nostre valutazioni approfondite dimostrano miglioramenti significativi nella qualità del trasferimento di stile e nell'allineamento con i prompt testuali. Inoltre, il nostro approccio può essere integrato nei framework di trasferimento di stile esistenti senza sintonizzazione fine.

Avvio dell'apprendimento della navigazione guidata dal linguaggio con il meccanismo di auto-ottimizzazione del volano dei dati.
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

Dec 11

ByZun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang

Creare dati di alta qualità per addestrare agenti linguistici robusti è una sfida duratura nell'ambito dell'IA incorporata. In questo articolo, presentiamo un Ciclo di Feedback di Dati Auto-Perfezionante (SRDF) che genera coppie di istruzioni di navigazione-traiettoria di alta qualità e su larga scala attraverso il raffinamento iterativo del pool di dati tramite la collaborazione tra due modelli, il generatore di istruzioni e il navigatore, senza alcuna annotazione umana nel processo. In particolare, SRDF inizia utilizzando un generatore di base per creare un pool di dati iniziale per addestrare un navigatore di base, seguito dall'applicazione del navigatore addestrato per filtrare il pool di dati. Ciò porta a dati di maggiore fedeltà per addestrare un generatore migliore, che a sua volta può produrre dati di alta qualità per addestrare il navigatore del round successivo. Tale meccanismo crea un processo di auto-raffinamento dei dati, generando un dataset continuamente migliorato ed altamente efficace per l'apprendimento della navigazione guidata dal linguaggio su larga scala. I nostri esperimenti dimostrano che dopo diversi cicli del meccanismo, il navigatore aumenta il limite di prestazioni dal 70% al 78% SPL sul classico set di test R2R, superando per la prima volta le prestazioni umane (76%). Nel frattempo, questo processo porta a un generatore superiore, evidenziato da un aumento di SPICE da 23,5 a 26,2, migliore di tutti i metodi precedenti di generazione di istruzioni VLN. Infine, dimostriamo la scalabilità del nostro metodo attraverso l'aumento dell'ambiente e della diversità delle istruzioni, e la capacità di generalizzazione del nostro navigatore pre-addestrato su vari compiti di navigazione successivi, superando di gran lunga i metodi all'avanguardia in tutti i casi.

MIT-10M: un corpus parallelo su larga scala di traduzione di immagini multilingue
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

Dec 10

ByBo Li, Shaolin Zhu, Lijie Wen

La Traduzione di Immagini (IT) possiede un enorme potenziale in diversi ambiti, consentendo la traduzione dei contenuti testuali all'interno delle immagini in varie lingue. Tuttavia, i dataset esistenti spesso presentano limitazioni in termini di scala, diversità e qualità, ostacolando lo sviluppo e la valutazione dei modelli di IT. Per affrontare questo problema, presentiamo MIT-10M, un corpus parallelo su larga scala di traduzione di immagini multilingue con oltre 10 milioni di coppie immagine-testo derivate da dati del mondo reale, che sono stati sottoposti a un'ampia pulizia dei dati e validazione della traduzione multilingue. Esso contiene 840.000 immagini in tre dimensioni, 28 categorie, compiti con tre livelli di difficoltà e 14 coppie immagine-testo in diverse lingue, rappresentando un notevole miglioramento rispetto ai dataset esistenti. Conduciamo ampi esperimenti per valutare e addestrare i modelli su MIT-10M. I risultati sperimentali indicano chiaramente che il nostro dataset ha una maggiore adattabilità nella valutazione delle prestazioni dei modelli nel affrontare compiti di traduzione di immagini impegnativi e complessi nel mondo reale. Inoltre, le prestazioni del modello ottimizzato con MIT-10M sono triplicate rispetto al modello di base, confermandone ulteriormente la superiorità.

L'Ecosistema BrowserGym per la Ricerca sugli Agenti Web
The BrowserGym Ecosystem for Web Agent Research

Dec 6