ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

MostraUI: Un Modello Visione-Linguaggio-Azione per un Agente Visivo GUI
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26
ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
88
3

La creazione di assistenti con Interfaccia Utente Grafica (GUI) promette significativi miglioramenti nella produttività del flusso di lavoro umano. Mentre la maggior parte degli agenti si basa sul linguaggio, facendo affidamento su API closed-source con meta-informazioni ricche di testo (ad esempio, HTML o albero di accessibilità), mostrano limitazioni nella percezione delle interfacce utente come fanno gli esseri umani, evidenziando la necessità di agenti visivi GUI. In questo lavoro, sviluppiamo un modello visione-linguaggio-azione nel mondo digitale, chiamato ShowUI, che presenta le seguenti innovazioni: (i) Selezione di Token Visivi Guidata dall'UI per ridurre i costi computazionali formulando gli screenshot come un grafo connesso UI, identificando in modo adattivo le relazioni ridondanti e servendo come criterio per la selezione dei token durante i blocchi di autoattenzione; (ii) Streaming Intercalato di Visione-Linguaggio-Azione che unifica in modo flessibile diverse esigenze all'interno dei compiti GUI, consentendo una gestione efficace della storia visivo-azione nella navigazione o nell'abbinamento di sequenze di query-azione multi-turno per screenshot per migliorare l'efficienza dell'addestramento; (iii) Set di Dati di Istruzioni GUI di Alta Qualità su Piccola Scala mediante una cura attenta dei dati e l'impiego di una strategia di campionamento per affrontare significative disuguaglianze nei tipi di dati. Con i componenti sopra citati, ShowUI, un modello 2B leggero che utilizza 256K dati, raggiunge un'accuratezza del 75,1% nella localizzazione degli screenshot senza training. La selezione di token guidata dall'UI riduce ulteriormente del 33% i token visivi ridondanti durante l'addestramento e velocizza le prestazioni del 1,4x. Gli esperimenti di navigazione su web Mind2Web, mobile AITW e ambienti online MiniWob sottolineano ulteriormente l'efficacia e il potenziale del nostro modello nel far progredire gli agenti visivi GUI. I modelli sono disponibili su https://github.com/showlab/ShowUI.

2

Percorsi sulla varietà delle immagini: Modifica delle immagini tramite la generazione di video
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25
ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
37
2

I recenti progressi nell'editing di immagini, guidati dai modelli di diffusione delle immagini, hanno mostrato un notevole avanzamento. Tuttavia, rimangono significativi sfide, poiché questi modelli spesso faticano a seguire con precisione istruzioni di modifica complesse e compromettono frequentemente la fedeltà alterando elementi chiave dell'immagine originale. Allo stesso tempo, la generazione di video ha compiuto notevoli passi avanti, con modelli che funzionano efficacemente come simulatori di mondo coerenti e continui. In questo articolo, proponiamo di unire questi due campi utilizzando modelli di immagine-a-video per l'editing di immagini. Riformuliamo l'editing di immagini come un processo temporale, utilizzando modelli video preaddestrati per creare transizioni fluide dall'immagine originale alla modifica desiderata. Questo approccio attraversa continuamente il manifolds delle immagini, garantendo modifiche coerenti e preservando gli aspetti chiave dell'immagine originale. Il nostro approccio raggiunge risultati all'avanguardia nell'editing di immagini basato su testo, dimostrando miglioramenti significativi sia nell'accuratezza della modifica che nella conservazione dell'immagine.

3

Indagine MME: Un'indagine esaustiva sull'valutazione dei Modelli Linguaggio Multimodali.
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22
ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
21
2

Come una direzione prominente dell'Intelligenza Artificiale Generale (AGI), i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno attirato un'attenzione crescente sia dall'industria che dall'accademia. Basandosi sui LLM preaddestrati, questa famiglia di modelli sviluppa ulteriormente le capacità di percezione e ragionamento multimodali che sono impressionanti, come scrivere codice dato un diagramma di flusso o creare storie basate su un'immagine. Nel processo di sviluppo, la valutazione è critica poiché fornisce un feedback intuitivo e una guida per migliorare i modelli. Diversamente dal tradizionale paradigma di addestramento-valutazione-test che favorisce solo un singolo compito come la classificazione delle immagini, la versatilità dei MLLMs ha stimolato la nascita di vari nuovi benchmark e metodi di valutazione. In questo articolo, ci proponiamo di presentare un'indagine completa sulla valutazione dei MLLMs, discutendo quattro aspetti chiave: 1) i tipi di benchmark riassunti divisi per le capacità di valutazione, inclusi le capacità fondamentali, l'autoanalisi del modello e le applicazioni estese; 2) il tipico processo di costruzione del benchmark, composto dalla raccolta dati, annotazione e precauzioni; 3) il metodo di valutazione sistematica composto da giudici, metriche e strumenti; 4) le prospettive per il prossimo benchmark. Questo lavoro mira a offrire ai ricercatori una comprensione semplice su come valutare efficacemente i MLLMs secondo esigenze diverse e a ispirare migliori metodi di valutazione, spingendo così avanti la ricerca sui MLLMs.

4

Ripensando alla Riduzione dei Token nei Modelli di Linguaggio Basati su Trasformatori: Verso un Paradigma Unificato per l'Accelerazione Senza Addestramento
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26
ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang
20
2

Per accelerare l'elaborazione delle inferenze dei pesanti Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), questo studio riconsidera il panorama attuale della ricerca di riduzione dei token senza addestramento. Siamo spiacenti di constatare che i componenti critici dei metodi esistenti sono strettamente interconnessi, con le loro interazioni ed effetti che rimangono poco chiari per confronti, trasferimenti ed espansioni. Pertanto, proponiamo un paradigma unificato ''filtrare-correlare-comprimere'' che scompone la riduzione dei token in tre fasi distinte all'interno di un flusso di lavoro, mantenendo obiettivi e elementi di progettazione coerenti consentendo al contempo implementazioni uniche. Inoltre, demistifichiamo i lavori popolari e li includiamo nel nostro paradigma per mostrare la sua universalità. Infine, offriamo una serie di metodi basati sul paradigma, bilanciando velocità e accuratezza durante le diverse fasi dell'elaborazione delle inferenze. I risultati sperimentali su 10 benchmark indicano che i nostri metodi possono ottenere fino all'82,4% di riduzione delle FLOP con un impatto minimo sulle prestazioni, superando contemporaneamente i metodi senza addestramento all'avanguardia. La pagina del nostro progetto si trova su https://ficoco-accelerate.github.io/.

5

SketchAgent: Generazione Sequenziale di Bozzetti Guidata dal Linguaggio
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26
ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba
19
4

Lo schizzo si configura come uno strumento versatile per esternalizzare idee, consentendo un'esplorazione rapida e una comunicazione visiva che abbraccia varie discipline. Sebbene i sistemi artificiali abbiano portato a notevoli progressi nella creazione di contenuti e nell'interazione uomo-computer, catturare la natura dinamica e astratta dello schizzo umano rimane una sfida. In questo lavoro, presentiamo SketchAgent, un metodo di generazione sequenziale di schizzi guidato dal linguaggio che consente agli utenti di creare, modificare e perfezionare schizzi attraverso interazioni dinamiche e conversazionali. Il nostro approccio non richiede addestramento o raffinamento. Invece, sfruttiamo la natura sequenziale e la ricca conoscenza pregressa dei modelli di linguaggio multimodali di grandi dimensioni (LLM) disponibili sul mercato. Presentiamo un linguaggio intuitivo per lo schizzo, introdotto nel modello attraverso esempi contestuali, consentendogli di "disegnare" utilizzando azioni basate su stringhe. Queste azioni vengono elaborate in grafica vettoriale e quindi renderizzate per creare uno schizzo su una tela di pixel, che può essere nuovamente accessibile per ulteriori compiti. Disegnando tratto dopo tratto, il nostro agente cattura le qualità evolutive e dinamiche intrinseche allo schizzo. Dimostriamo che SketchAgent può generare schizzi da prompt diversi, intraprendere disegni guidati dal dialogo e collaborare in modo significativo con gli utenti umani.

6

SAR3D: Generazione autoregressiva di oggetti 3D e comprensione tramite VQVAE 3D multi-scala.
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25
ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
13
2

I modelli autoregressivi hanno dimostrato un notevole successo in vari campi, dai grandi modelli linguistici (LLM) ai grandi modelli multimodali (LMM) e alla generazione di contenuti 2D, avvicinandosi sempre di più all'intelligenza artificiale generale (AGI). Nonostante questi progressi, l'applicazione di approcci autoregressivi alla generazione e comprensione di oggetti 3D rimane in gran parte inesplorata. Questo articolo introduce Scale AutoRegressive 3D (SAR3D), un nuovo framework che sfrutta un autoencoder variazionale vettorializzato 3D multi-scala (VQVAE) per tokenizzare gli oggetti 3D per una generazione autoregressiva efficiente e una comprensione dettagliata. Prevedendo la prossima scala in una rappresentazione latente multi-scala anziché il prossimo singolo token, SAR3D riduce significativamente il tempo di generazione, raggiungendo una rapida generazione di oggetti 3D in soli 0,82 secondi su una GPU A6000. Inoltre, dato che i token sono arricchiti con informazioni gerarchiche consapevoli del 3D, ottimizziamo un LLM preaddestrato su di essi, consentendo la comprensione multimodale dei contenuti 3D. I nostri esperimenti mostrano che SAR3D supera i metodi attuali di generazione 3D sia in velocità che in qualità e consente ai LLM di interpretare e descrivere in modo esaustivo i modelli 3D.

7

La quantizzazione a basso bit favorisce i LLM sottallenati: leggi di scala per i LLM quantizzati con 100T token di addestramento.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26
ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
13
5

Riveliamo che la quantizzazione a bassi bit favorisce i grandi modelli linguistici (LLM) scarsamente addestrati osservando che i modelli di dimensioni maggiori o con meno token di addestramento subiscono una minore degradazione indotta dalla quantizzazione (QiD) quando si applica una quantizzazione a bassi bit, mentre i modelli più piccoli con un numero esteso di token di addestramento subiscono una significativa QiD. Per ottenere approfondimenti su questa tendenza, studiamo oltre 1500 checkpoint LLM quantizzati di varie dimensioni e a diversi livelli di addestramento (scarsamente addestrati o completamente addestrati) in un contesto controllato, derivando leggi di scala per comprendere la relazione tra QiD e fattori come il numero di token di addestramento, la dimensione del modello e la larghezza dei bit. Con le leggi di scala derivate, proponiamo una prospettiva innovativa che ci permette di utilizzare QiD per misurare i livelli di addestramento di un LLM e determinare il numero di token di addestramento necessari per addestrare completamente LLM di varie dimensioni. Inoltre, utilizziamo le leggi di scala per prevedere le prestazioni di quantizzazione di LLM di diverse dimensioni addestrati con 100 trilioni di token. La nostra proiezione mostra che le prestazioni di quantizzazione a bassi bit dei futuri modelli, che si prevede saranno addestrati con oltre 100 trilioni di token, potrebbero NON essere desiderabili. Ciò rappresenta una potenziale sfida per la quantizzazione a bassi bit in futuro e sottolinea la necessità di essere consapevoli del livello di addestramento di un modello durante la valutazione della ricerca sulla quantizzazione a bassi bit. Per agevolare la ricerca futura su questo problema, rilasciamo tutti i 1500+ checkpoint quantizzati utilizzati in questo lavoro su https://huggingface.co/Xu-Ouyang.

8

VLRewardBench: un benchmark sfidante per i modelli generativi visione-linguaggio di ricompensa.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26
ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
11
2

I modelli di ricompensa generativa visione-linguaggio (VL-GenRM) svolgono un ruolo cruciale nell'allineare e valutare i sistemi AI multimodali, tuttavia la loro valutazione rimane ancora poco esplorata. I metodi attuali di valutazione si basano principalmente su etichette di preferenza annotate da AI provenienti da tradizionali compiti visione-linguaggio, che possono introdurre dei bias e spesso non riescono a sfidare efficacemente i modelli all'avanguardia. Per affrontare queste limitazioni, presentiamo VL-RewardBench, un benchmark completo che copre query multimodali generali, rilevamento di allucinazioni visive e compiti di ragionamento complessi. Attraverso il nostro pipeline di annotazione assistita da AI che combina la selezione del campione con la verifica umana, curiamo 1.250 esempi di alta qualità appositamente progettati per sondare le limitazioni del modello. Una valutazione completa su 16 dei principali grandi modelli visione-linguaggio dimostra l'efficacia di VL-RewardBench come banco di prova impegnativo, dove persino GPT-4o raggiunge solo il 65,4% di accuratezza, e modelli open-source all'avanguardia come Qwen2-VL-72B faticano a superare il semplice indovinare. È importante notare che le prestazioni su VL-RewardBench correlano fortemente (r di Pearson > 0,9) con l'accuratezza di MMMU-Pro utilizzando il campionamento Best-of-N con VL-GenRM. Gli esperimenti di analisi rivelano tre intuizioni critiche per migliorare i VL-GenRM: (i) i modelli falliscono principalmente nei compiti di percezione visiva di base piuttosto che nei compiti di ragionamento; (ii) i benefici della scalabilità al momento dell'inferenza variano drasticamente in base alla capacità del modello; e (iii) addestrare i VL-GenRM a imparare a giudicare potenzia notevolmente la capacità di giudizio (+14,7% di accuratezza per un VL-GenRM da 7B). Crediamo che VL-RewardBench insieme alle intuizioni sperimentali diventeranno una risorsa preziosa per far progredire i VL-GenRM.

9

SALOVA: Assistente Video a Lungo Termine Potenziato da Segmenti per il Recupero Mirato e l'Instradamento nell'Analisi Video a Lungo Termine
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25
ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
10
2

Nonostante i progressi nei Grandi Modelli Multimodali, applicarli a contenuti video lunghi e non tagliati rimane sfidante a causa delle limitazioni nella lunghezza del contesto e del notevole overhead di memoria. Questi vincoli spesso portano a una significativa perdita di informazioni e a una ridotta rilevanza nelle risposte del modello. Con la crescita esponenziale dei dati video sui siti web, comprendere video di lunga durata è cruciale per avanzare nell'intelligenza generalizzata. In questo articolo, presentiamo SALOVA: Segment-Augmented LOng Video Assistant, un nuovo framework video-LLM progettato per migliorare la comprensione di contenuti video lunghi attraverso un processo di recupero mirato. Affrontiamo due principali sfide per raggiungerlo: (i) Presentiamo il dataset SceneWalk, una collezione di alta qualità di 87,8K video lunghi, ognuno densamente sottotitolato a livello di segmento per consentire ai modelli di catturare la continuità della scena e mantenere un contesto descrittivo ricco. (ii) Sviluppiamo robusti design architetturali integrando un meccanismo di routing dinamico e un proiettore spazio-temporale per recuperare ed elaborare efficientemente segmenti video rilevanti in base alle query dell'utente. Il nostro framework attenua le limitazioni dei correnti video-LMM consentendo l'identificazione precisa e il recupero di segmenti video rilevanti in risposta alle query, migliorando così la rilevanza contestuale delle risposte generate. Attraverso estesi esperimenti, SALOVA dimostra una capacità migliorata nel processare video complessi di lunga durata, mostrando una significativa capacità di mantenere l'integrità contestuale attraverso sequenze estese.

10

Apprendimento delle rappresentazioni 3D da programmi 3D procedurali
Learning 3D Representations from Procedural 3D Programs

Nov 25
ByXuweiyi Chen, Zezhou Cheng
9
2

L'apprendimento auto-supervisionato è emerso come un approccio promettente per acquisire rappresentazioni 3D trasferibili da nuvole di punti 3D non etichettate. A differenza delle immagini 2D, ampiamente accessibili, acquisire asset 3D richiede competenze specializzate o attrezzature professionali per la scansione 3D, rendendo difficile la scalabilità e sollevando preoccupazioni legate al copyright. Per affrontare queste sfide, proponiamo di apprendere rappresentazioni 3D da programmi 3D procedurali che generano automaticamente forme 3D utilizzando primitive semplici e aggiunte. Notevolmente, nonostante la mancanza di contenuto semantico, le rappresentazioni 3D apprese da questo dataset sintetizzato si comportano alla pari con le rappresentazioni all'avanguardia apprese da modelli 3D semanticamente riconoscibili (ad esempio, aeroplani) in vari compiti 3D successivi, tra cui classificazione delle forme, segmentazione delle parti e completamento di nuvole di punti mascherati. La nostra analisi suggerisce inoltre che i metodi attuali di apprendimento auto-supervisionato catturano principalmente strutture geometriche piuttosto che semantica di alto livello.

11

SOTTOTITOLO: Descrizione Compositiva delle Immagini Concentrandosi Ovunque Tu Desideri a Qualsiasi Livello di Granularità
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23
ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
8
2

L'avvento dei grandi Modelli Visione-Linguaggio (VLM) ha notevolmente avanzato le attività multimodali, consentendo un ragionamento più sofisticato e accurato attraverso varie applicazioni, tra cui la descrizione di immagini e video, la risposta a domande visive e il recupero cross-modale. Nonostante le loro capacità superiori, i VLM faticano con la percezione delle informazioni sulla composizione regionale dettagliata delle immagini. In particolare, hanno difficoltà nell'allineare con precisione le maschere di segmentazione con le semantica corrispondenti e nel descrivere con precisione gli aspetti compositivi delle regioni citate. Tuttavia, la composizionalità - la capacità di comprendere e generare nuove combinazioni di componenti visivi e testuali conosciuti - è fondamentale per facilitare un ragionamento coerente e la comprensione tra modalità da parte dei VLM. Per affrontare questo problema, proponiamo FINECAPTION, un nuovo VLM in grado di riconoscere maschere arbitrarie come input referenziali e elaborare immagini ad alta risoluzione per la descrizione compositiva delle immagini a diversi livelli di granularità. Per sostenere questo sforzo, introduciamo COMPOSITIONCAP, un nuovo dataset per la descrizione compositiva delle immagini a livello di regione multigranulare, che introduce il compito di descrizione compositiva consapevole degli attributi regionali. I risultati empirici dimostrano l'efficacia del nostro modello proposto rispetto ad altri VLM all'avanguardia. Inoltre, analizziamo le capacità dei VLM attuali nel riconoscere vari stimoli visivi per la descrizione compositiva delle regioni, evidenziando aree per il miglioramento nel design e nell'addestramento dei VLM.

12

EfficientViM: Vision Mamba Efficient con Mixer di Stato Nascosto basato sulla Dualità dello Spazio di Stato
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22
BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
7
2

Per il deployment delle reti neurali in ambienti con risorse limitate, lavori precedenti hanno costruito architetture leggere con convoluzione e attenzione per catturare rispettivamente dipendenze locali e globali. Recentemente, il modello dello spazio di stato è emerso come un'interazione di token globale efficace con il suo favorevole costo computazionale lineare nel numero di token. Tuttavia, sono state esplorate meno backbones vision efficienti costruiti con SSM. In questo articolo, presentiamo Efficient Vision Mamba (EfficientViM), una nuova architettura costruita sulla dualità dello spazio di stato basata sul mixer dello stato nascosto (HSM-SSD) che cattura efficientemente le dipendenze globali con un costo computazionale ulteriormente ridotto. Nel livello HSM-SSD, ridisegniamo il precedente livello SSD per abilitare l'operazione di mixing dei canali all'interno degli stati nascosti. Inoltre, proponiamo una fusione multi-stadio degli stati nascosti per rafforzare ulteriormente il potere di rappresentazione degli stati nascosti, e forniamo il design che allevia il collo di bottiglia causato dalle operazioni legate alla memoria. Di conseguenza, la famiglia EfficientViM raggiunge un nuovo compromesso velocità-accuratezza all'avanguardia su ImageNet-1k, offrendo fino a un miglioramento delle prestazioni del 0,7% rispetto al secondo miglior modello SHViT con una maggiore velocità. Inoltre, osserviamo significativi miglioramenti nella throughput e nell'accuratezza rispetto ai lavori precedenti, quando si ridimensionano le immagini o si utilizza il training di distillazione. Il codice è disponibile su https://github.com/mlvlab/EfficientViM.

13

AnchorCrafter: Anima gli ancoraggi cibernetici per la vendita dei tuoi prodotti tramite la generazione di video di interazione tra persone e oggetti.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26
ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang
7
2

La generazione automatica di video promozionali di prodotti in stile anchor offre opportunità promettenti nel commercio online, nella pubblicità e nell'coinvolgimento del consumatore. Tuttavia, ciò rimane un compito impegnativo nonostante significativi avanzamenti nella generazione di video umani guidati dalla postura. Affrontando questa sfida, identifichiamo l'integrazione delle interazioni umano-oggetto (HOI) nella generazione di video umani guidata dalla postura come questione centrale. A questo scopo, presentiamo AnchorCrafter, un nuovo sistema basato sulla diffusione progettato per generare video 2D che presentano un umano target e un oggetto personalizzato, raggiungendo un'elevata fedeltà visiva e interazioni controllabili. In particolare, proponiamo due innovazioni chiave: la percezione dell'aspetto HOI, che potenzia il riconoscimento dell'aspetto dell'oggetto da prospettive arbitrarie multi-view e disaccoppia l'aspetto dell'oggetto e dell'umano, e l'iniezione del movimento HOI, che consente interazioni umano-oggetto complesse superando sfide nella condizionamento della traiettoria dell'oggetto e nella gestione dell'inter-occlusione. Inoltre, introduciamo il loss di ripesatura della regione HOI, un obiettivo di addestramento che potenzia l'apprendimento dei dettagli dell'oggetto. Estesi esperimenti dimostrano che il nostro sistema proposto supera i metodi esistenti nel preservare l'aspetto e la consapevolezza della forma dell'oggetto, mantenendo contemporaneamente la coerenza nell'aspetto e nel movimento umano. Pagina del progetto: https://cangcz.github.io/Anchor-Crafter/

14

MolReFlect: Verso Allineamenti Dettagliati Contestualizzati tra Molecole e Testi
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22
ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
5
2

La scoperta di molecole è un campo di ricerca cruciale, che influisce su tutto, dalle medicine che assumiamo ai materiali che utilizziamo. Recentemente, i Grandi Modelli Linguistici (LLM) sono stati ampiamente adottati nella comprensione e generazione di molecole, tuttavia gli allineamenti tra le molecole e le rispettive didascalie rimangono una sfida significativa. Gli sforzi precedenti trattano spesso la molecola come una stringa SMILES generale o un grafo molecolare, trascurando gli allineamenti dettagliati tra le sottostrutture molecolari e le frasi descrittive testuali, che sono cruciali per previsioni accurate ed esplicative. In questo caso, presentiamo MolReFlect, un nuovo framework insegnante-studente progettato per eseguire contestualmente gli allineamenti molecola-didascalia in modo dettagliato. Il nostro approccio sfrutta inizialmente un insegnante LLM più grande per etichettare gli allineamenti dettagliati estrarre direttamente frasi critiche dalle didascalie delle molecole o dalle stringhe SMILES e implicarle alle rispettive sottostrutture o caratteristiche. Per perfezionare questi allineamenti, proponiamo il Riflesso Selettivo In-Contesto, che recupera i risultati di estrazione precedenti come esempi di contesto per l'insegnante LLM riflettere e permette a un LLM studente più piccolo di selezionare tra il riflesso in-contesto e i risultati di estrazione precedenti. Infine, potenziamo il processo di apprendimento del LLM studente attraverso l'Accordatura Molecolare In-Contesto a Catena di Pensiero, integrando gli allineamenti dettagliati e i processi di ragionamento nel formato a catena di pensiero. I nostri risultati sperimentali dimostrano che MolReFlect consente ai LLM come Mistral-7B di superare significativamente i baselines precedenti, raggiungendo prestazioni di stato dell'arte sul dataset ChEBI-20. Questo avanzamento non solo potenzia le capacità generative dei LLM nel compito di traduzione molecola-didascalia, ma contribuisce anche a un framework più esplicativo.

15

Generazione di immagini controllabili di persone con abbigliamento personalizzato multi-garments.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25
ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
4
2

Presentiamo BootComp, un nuovo framework basato su modelli di diffusione testo-immagine per la generazione controllata di immagini umane con più capi di abbigliamento di riferimento. Qui, il principale ostacolo è l'acquisizione dei dati per l'addestramento: raccogliere un dataset su larga scala di immagini di alta qualità di capi di abbigliamento di riferimento per soggetto umano è piuttosto impegnativo, ovvero idealmente, è necessario raccogliere manualmente ogni singola fotografia di capi indossati da ciascun individuo. Per affrontare questo problema, proponiamo un processo di generazione dati per costruire un ampio dataset sintetico, composto da coppie umane e multi-capi, introducendo un modello per estrarre qualsiasi immagine di capo di abbigliamento di riferimento da ciascuna immagine umana. Per garantire la qualità dei dati, proponiamo anche una strategia di filtraggio per rimuovere dati generati indesiderati basati sulla misurazione delle somiglianze percettive tra il capo presentato nell'immagine umana e il capo estratto. Infine, utilizzando il dataset sintetico costruito, addestriamo un modello di diffusione con due percorsi di denoising paralleli che utilizzano più immagini di capi come condizioni per generare immagini umane preservandone i dettagli più fini. Dimostriamo inoltre l'ampia applicabilità del nostro framework adattandolo a diversi tipi di generazione basata su riferimenti nel settore della moda, inclusi il virtual try-on e la generazione controllata di immagini umane con altre condizioni, come posa, viso, ecc.

16

Test di Turing del Contatore Visivo (VCT^2): Scoperta delle sfide per la Rilevazione di Immagini Generate da AI e Introduzione dell'Indice di AI Visiva (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24
ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
4
2

La proliferazione delle tecniche di intelligenza artificiale per la generazione di immagini, unite alla loro crescente accessibilità, ha sollevato significative preoccupazioni riguardo al potenziale abuso di queste immagini per diffondere disinformazione. I recenti metodi di rilevamento di immagini generate da intelligenza artificiale (AGID) includono CNNDetection, NPR, Rilevamento Immagine DM, Rilevamento Immagine Falsa, DIRE, LASTED, Rilevamento Immagine GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake e Rilevamento Deep Fake. Tuttavia, sosteniamo che le attuali tecniche AGID all'avanguardia siano inadeguate per rilevare efficacemente le immagini generate da intelligenza artificiale contemporanee e sosteniamo una riesaminazione completa di questi metodi. Introduciamo il Test di Turing Contro Visivo (VCT^2), un benchmark che comprende circa 130.000 immagini generate da modelli di testo-immagine contemporanei (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 e Midjourney 6). VCT^2 include due serie di stimoli provenienti da tweet dell'account Twitter del New York Times e didascalie dal dataset MS COCO. Valutiamo anche le prestazioni delle suddette tecniche AGID sul benchmark VCT^2, evidenziando la loro inefficacia nel rilevare immagini generate da intelligenza artificiale. Poiché i modelli di intelligenza artificiale generativi continuano a evolversi, diventa sempre più critica la necessità di un quadro quantificabile per valutare questi modelli. Per soddisfare questa esigenza, proponiamo l'Indice di Intelligenza Artificiale Visiva (V_AI), che valuta le immagini generate da varie prospettive visive, inclusa la complessità della texture e la coerenza degli oggetti, stabilendo un nuovo standard per valutare i modelli di intelligenza artificiale generativi di immagini. Per promuovere la ricerca in questo ambito, mettiamo a disposizione pubblica i nostri dataset https://huggingface.co/datasets/anonymous1233/COCO_AI e https://huggingface.co/datasets/anonymous1233/twitter_AI.

Nov 26
Nov 27
Nov 28