Articoli di ricerca IA selezionati quotidianamente con traduzioni
La creazione di assistenti con Interfaccia Utente Grafica (GUI) promette significativi miglioramenti nella produttività del flusso di lavoro umano. Mentre la maggior parte degli agenti si basa sul linguaggio, facendo affidamento su API closed-source con meta-informazioni ricche di testo (ad esempio, HTML o albero di accessibilità), mostrano limitazioni nella percezione delle interfacce utente come fanno gli esseri umani, evidenziando la necessità di agenti visivi GUI. In questo lavoro, sviluppiamo un modello visione-linguaggio-azione nel mondo digitale, chiamato ShowUI, che presenta le seguenti innovazioni: (i) Selezione di Token Visivi Guidata dall'UI per ridurre i costi computazionali formulando gli screenshot come un grafo connesso UI, identificando in modo adattivo le relazioni ridondanti e servendo come criterio per la selezione dei token durante i blocchi di autoattenzione; (ii) Streaming Intercalato di Visione-Linguaggio-Azione che unifica in modo flessibile diverse esigenze all'interno dei compiti GUI, consentendo una gestione efficace della storia visivo-azione nella navigazione o nell'abbinamento di sequenze di query-azione multi-turno per screenshot per migliorare l'efficienza dell'addestramento; (iii) Set di Dati di Istruzioni GUI di Alta Qualità su Piccola Scala mediante una cura attenta dei dati e l'impiego di una strategia di campionamento per affrontare significative disuguaglianze nei tipi di dati. Con i componenti sopra citati, ShowUI, un modello 2B leggero che utilizza 256K dati, raggiunge un'accuratezza del 75,1% nella localizzazione degli screenshot senza training. La selezione di token guidata dall'UI riduce ulteriormente del 33% i token visivi ridondanti durante l'addestramento e velocizza le prestazioni del 1,4x. Gli esperimenti di navigazione su web Mind2Web, mobile AITW e ambienti online MiniWob sottolineano ulteriormente l'efficacia e il potenziale del nostro modello nel far progredire gli agenti visivi GUI. I modelli sono disponibili su https://github.com/showlab/ShowUI.
L'inferenza con modelli linguistici di grandi dimensioni (LLM) basati su Transformer su sequenze lunghe è sia costosa che lenta a causa della complessità quadratica del meccanismo di autoattenzione. Introduciamo Star Attention, un'approximazione blocco-sparso a due fasi che migliora l'efficienza computazionale suddividendo l'attenzione su più host riducendo al minimo il costo della comunicazione. Nella prima fase, il contesto viene elaborato utilizzando un'attenzione locale a blocchi tra gli host, in parallelo. Nella seconda fase, i token di query e risposta si concentrano su tutti i token memorizzati in precedenza attraverso un'attenzione globale alla sequenza. Star Attention si integra perfettamente con la maggior parte dei LLM basati su Transformer addestrati con attenzione globale, riducendo i requisiti di memoria e il tempo di inferenza fino a 11 volte pur conservando il 95-100% di accuratezza.
I recenti progressi nell'editing di immagini, guidati dai modelli di diffusione delle immagini, hanno mostrato un notevole avanzamento. Tuttavia, rimangono significativi sfide, poiché questi modelli spesso faticano a seguire con precisione istruzioni di modifica complesse e compromettono frequentemente la fedeltà alterando elementi chiave dell'immagine originale. Allo stesso tempo, la generazione di video ha compiuto notevoli passi avanti, con modelli che funzionano efficacemente come simulatori di mondo coerenti e continui. In questo articolo, proponiamo di unire questi due campi utilizzando modelli di immagine-a-video per l'editing di immagini. Riformuliamo l'editing di immagini come un processo temporale, utilizzando modelli video preaddestrati per creare transizioni fluide dall'immagine originale alla modifica desiderata. Questo approccio attraversa continuamente il manifolds delle immagini, garantendo modifiche coerenti e preservando gli aspetti chiave dell'immagine originale. Il nostro approccio raggiunge risultati all'avanguardia nell'editing di immagini basato su testo, dimostrando miglioramenti significativi sia nell'accuratezza della modifica che nella conservazione dell'immagine.
Come una direzione prominente dell'Intelligenza Artificiale Generale (AGI), i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno attirato un'attenzione crescente sia dall'industria che dall'accademia. Basandosi sui LLM preaddestrati, questa famiglia di modelli sviluppa ulteriormente le capacità di percezione e ragionamento multimodali che sono impressionanti, come scrivere codice dato un diagramma di flusso o creare storie basate su un'immagine. Nel processo di sviluppo, la valutazione è critica poiché fornisce un feedback intuitivo e una guida per migliorare i modelli. Diversamente dal tradizionale paradigma di addestramento-valutazione-test che favorisce solo un singolo compito come la classificazione delle immagini, la versatilità dei MLLMs ha stimolato la nascita di vari nuovi benchmark e metodi di valutazione. In questo articolo, ci proponiamo di presentare un'indagine completa sulla valutazione dei MLLMs, discutendo quattro aspetti chiave: 1) i tipi di benchmark riassunti divisi per le capacità di valutazione, inclusi le capacità fondamentali, l'autoanalisi del modello e le applicazioni estese; 2) il tipico processo di costruzione del benchmark, composto dalla raccolta dati, annotazione e precauzioni; 3) il metodo di valutazione sistematica composto da giudici, metriche e strumenti; 4) le prospettive per il prossimo benchmark. Questo lavoro mira a offrire ai ricercatori una comprensione semplice su come valutare efficacemente i MLLMs secondo esigenze diverse e a ispirare migliori metodi di valutazione, spingendo così avanti la ricerca sui MLLMs.
Per accelerare l'elaborazione delle inferenze dei pesanti Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), questo studio riconsidera il panorama attuale della ricerca di riduzione dei token senza addestramento. Siamo spiacenti di constatare che i componenti critici dei metodi esistenti sono strettamente interconnessi, con le loro interazioni ed effetti che rimangono poco chiari per confronti, trasferimenti ed espansioni. Pertanto, proponiamo un paradigma unificato ''filtrare-correlare-comprimere'' che scompone la riduzione dei token in tre fasi distinte all'interno di un flusso di lavoro, mantenendo obiettivi e elementi di progettazione coerenti consentendo al contempo implementazioni uniche. Inoltre, demistifichiamo i lavori popolari e li includiamo nel nostro paradigma per mostrare la sua universalità. Infine, offriamo una serie di metodi basati sul paradigma, bilanciando velocità e accuratezza durante le diverse fasi dell'elaborazione delle inferenze. I risultati sperimentali su 10 benchmark indicano che i nostri metodi possono ottenere fino all'82,4% di riduzione delle FLOP con un impatto minimo sulle prestazioni, superando contemporaneamente i metodi senza addestramento all'avanguardia. La pagina del nostro progetto si trova su https://ficoco-accelerate.github.io/.
Lo schizzo si configura come uno strumento versatile per esternalizzare idee, consentendo un'esplorazione rapida e una comunicazione visiva che abbraccia varie discipline. Sebbene i sistemi artificiali abbiano portato a notevoli progressi nella creazione di contenuti e nell'interazione uomo-computer, catturare la natura dinamica e astratta dello schizzo umano rimane una sfida. In questo lavoro, presentiamo SketchAgent, un metodo di generazione sequenziale di schizzi guidato dal linguaggio che consente agli utenti di creare, modificare e perfezionare schizzi attraverso interazioni dinamiche e conversazionali. Il nostro approccio non richiede addestramento o raffinamento. Invece, sfruttiamo la natura sequenziale e la ricca conoscenza pregressa dei modelli di linguaggio multimodali di grandi dimensioni (LLM) disponibili sul mercato. Presentiamo un linguaggio intuitivo per lo schizzo, introdotto nel modello attraverso esempi contestuali, consentendogli di "disegnare" utilizzando azioni basate su stringhe. Queste azioni vengono elaborate in grafica vettoriale e quindi renderizzate per creare uno schizzo su una tela di pixel, che può essere nuovamente accessibile per ulteriori compiti. Disegnando tratto dopo tratto, il nostro agente cattura le qualità evolutive e dinamiche intrinseche allo schizzo. Dimostriamo che SketchAgent può generare schizzi da prompt diversi, intraprendere disegni guidati dal dialogo e collaborare in modo significativo con gli utenti umani.
Riveliamo che la quantizzazione a bassi bit favorisce i grandi modelli linguistici (LLM) scarsamente addestrati osservando che i modelli di dimensioni maggiori o con meno token di addestramento subiscono una minore degradazione indotta dalla quantizzazione (QiD) quando si applica una quantizzazione a bassi bit, mentre i modelli più piccoli con un numero esteso di token di addestramento subiscono una significativa QiD. Per ottenere approfondimenti su questa tendenza, studiamo oltre 1500 checkpoint LLM quantizzati di varie dimensioni e a diversi livelli di addestramento (scarsamente addestrati o completamente addestrati) in un contesto controllato, derivando leggi di scala per comprendere la relazione tra QiD e fattori come il numero di token di addestramento, la dimensione del modello e la larghezza dei bit. Con le leggi di scala derivate, proponiamo una prospettiva innovativa che ci permette di utilizzare QiD per misurare i livelli di addestramento di un LLM e determinare il numero di token di addestramento necessari per addestrare completamente LLM di varie dimensioni. Inoltre, utilizziamo le leggi di scala per prevedere le prestazioni di quantizzazione di LLM di diverse dimensioni addestrati con 100 trilioni di token. La nostra proiezione mostra che le prestazioni di quantizzazione a bassi bit dei futuri modelli, che si prevede saranno addestrati con oltre 100 trilioni di token, potrebbero NON essere desiderabili. Ciò rappresenta una potenziale sfida per la quantizzazione a bassi bit in futuro e sottolinea la necessità di essere consapevoli del livello di addestramento di un modello durante la valutazione della ricerca sulla quantizzazione a bassi bit. Per agevolare la ricerca futura su questo problema, rilasciamo tutti i 1500+ checkpoint quantizzati utilizzati in questo lavoro su https://huggingface.co/Xu-Ouyang.
I modelli autoregressivi hanno dimostrato un notevole successo in vari campi, dai grandi modelli linguistici (LLM) ai grandi modelli multimodali (LMM) e alla generazione di contenuti 2D, avvicinandosi sempre di più all'intelligenza artificiale generale (AGI). Nonostante questi progressi, l'applicazione di approcci autoregressivi alla generazione e comprensione di oggetti 3D rimane in gran parte inesplorata. Questo articolo introduce Scale AutoRegressive 3D (SAR3D), un nuovo framework che sfrutta un autoencoder variazionale vettorializzato 3D multi-scala (VQVAE) per tokenizzare gli oggetti 3D per una generazione autoregressiva efficiente e una comprensione dettagliata. Prevedendo la prossima scala in una rappresentazione latente multi-scala anziché il prossimo singolo token, SAR3D riduce significativamente il tempo di generazione, raggiungendo una rapida generazione di oggetti 3D in soli 0,82 secondi su una GPU A6000. Inoltre, dato che i token sono arricchiti con informazioni gerarchiche consapevoli del 3D, ottimizziamo un LLM preaddestrato su di essi, consentendo la comprensione multimodale dei contenuti 3D. I nostri esperimenti mostrano che SAR3D supera i metodi attuali di generazione 3D sia in velocità che in qualità e consente ai LLM di interpretare e descrivere in modo esaustivo i modelli 3D.
Sebbene le mappe di texture di alta qualità siano essenziali per la resa realistica degli asset 3D, pochi studi hanno esplorato l'apprendimento direttamente nello spazio delle texture, in particolare su set di dati su larga scala. In questo lavoro, ci discostiamo dall'approccio convenzionale che si basa su modelli di diffusione 2D preaddestrati per l'ottimizzazione delle texture 3D al momento del test. Invece, ci concentriamo sul problema fondamentale dell'apprendimento nello spazio delle texture UV stesso. Per la prima volta, addestriamo un ampio modello di diffusione in grado di generare direttamente mappe di texture ad alta risoluzione in modo feed-forward. Per facilitare un apprendimento efficiente negli spazi UV ad alta risoluzione, proponiamo un'architettura di rete scalabile che interseca convoluzioni sulle mappe UV con strati di attenzione sui cloud di punti. Sfruttando questo design architetturale, addestriamo un modello di diffusione con 700 milioni di parametri in grado di generare mappe di texture UV guidate da prompt di testo e immagini a singola vista. Una volta addestrato, il nostro modello supporta naturalmente varie applicazioni estese, tra cui il completamento di texture guidato dal testo, il completamento di texture a vista sparuta e la sintesi di texture guidata dal testo. La pagina del progetto si trova su http://cvmi-lab.github.io/TEXGen/.
I modelli di ricompensa generativa visione-linguaggio (VL-GenRM) svolgono un ruolo cruciale nell'allineare e valutare i sistemi AI multimodali, tuttavia la loro valutazione rimane ancora poco esplorata. I metodi attuali di valutazione si basano principalmente su etichette di preferenza annotate da AI provenienti da tradizionali compiti visione-linguaggio, che possono introdurre dei bias e spesso non riescono a sfidare efficacemente i modelli all'avanguardia. Per affrontare queste limitazioni, presentiamo VL-RewardBench, un benchmark completo che copre query multimodali generali, rilevamento di allucinazioni visive e compiti di ragionamento complessi. Attraverso il nostro pipeline di annotazione assistita da AI che combina la selezione del campione con la verifica umana, curiamo 1.250 esempi di alta qualità appositamente progettati per sondare le limitazioni del modello. Una valutazione completa su 16 dei principali grandi modelli visione-linguaggio dimostra l'efficacia di VL-RewardBench come banco di prova impegnativo, dove persino GPT-4o raggiunge solo il 65,4% di accuratezza, e modelli open-source all'avanguardia come Qwen2-VL-72B faticano a superare il semplice indovinare. È importante notare che le prestazioni su VL-RewardBench correlano fortemente (r di Pearson > 0,9) con l'accuratezza di MMMU-Pro utilizzando il campionamento Best-of-N con VL-GenRM. Gli esperimenti di analisi rivelano tre intuizioni critiche per migliorare i VL-GenRM: (i) i modelli falliscono principalmente nei compiti di percezione visiva di base piuttosto che nei compiti di ragionamento; (ii) i benefici della scalabilità al momento dell'inferenza variano drasticamente in base alla capacità del modello; e (iii) addestrare i VL-GenRM a imparare a giudicare potenzia notevolmente la capacità di giudizio (+14,7% di accuratezza per un VL-GenRM da 7B). Crediamo che VL-RewardBench insieme alle intuizioni sperimentali diventeranno una risorsa preziosa per far progredire i VL-GenRM.
Nonostante i progressi nei Grandi Modelli Multimodali, applicarli a contenuti video lunghi e non tagliati rimane sfidante a causa delle limitazioni nella lunghezza del contesto e del notevole overhead di memoria. Questi vincoli spesso portano a una significativa perdita di informazioni e a una ridotta rilevanza nelle risposte del modello. Con la crescita esponenziale dei dati video sui siti web, comprendere video di lunga durata è cruciale per avanzare nell'intelligenza generalizzata. In questo articolo, presentiamo SALOVA: Segment-Augmented LOng Video Assistant, un nuovo framework video-LLM progettato per migliorare la comprensione di contenuti video lunghi attraverso un processo di recupero mirato. Affrontiamo due principali sfide per raggiungerlo: (i) Presentiamo il dataset SceneWalk, una collezione di alta qualità di 87,8K video lunghi, ognuno densamente sottotitolato a livello di segmento per consentire ai modelli di catturare la continuità della scena e mantenere un contesto descrittivo ricco. (ii) Sviluppiamo robusti design architetturali integrando un meccanismo di routing dinamico e un proiettore spazio-temporale per recuperare ed elaborare efficientemente segmenti video rilevanti in base alle query dell'utente. Il nostro framework attenua le limitazioni dei correnti video-LMM consentendo l'identificazione precisa e il recupero di segmenti video rilevanti in risposta alle query, migliorando così la rilevanza contestuale delle risposte generate. Attraverso estesi esperimenti, SALOVA dimostra una capacità migliorata nel processare video complessi di lunga durata, mostrando una significativa capacità di mantenere l'integrità contestuale attraverso sequenze estese.
L'apprendimento auto-supervisionato è emerso come un approccio promettente per acquisire rappresentazioni 3D trasferibili da nuvole di punti 3D non etichettate. A differenza delle immagini 2D, ampiamente accessibili, acquisire asset 3D richiede competenze specializzate o attrezzature professionali per la scansione 3D, rendendo difficile la scalabilità e sollevando preoccupazioni legate al copyright. Per affrontare queste sfide, proponiamo di apprendere rappresentazioni 3D da programmi 3D procedurali che generano automaticamente forme 3D utilizzando primitive semplici e aggiunte. Notevolmente, nonostante la mancanza di contenuto semantico, le rappresentazioni 3D apprese da questo dataset sintetizzato si comportano alla pari con le rappresentazioni all'avanguardia apprese da modelli 3D semanticamente riconoscibili (ad esempio, aeroplani) in vari compiti 3D successivi, tra cui classificazione delle forme, segmentazione delle parti e completamento di nuvole di punti mascherati. La nostra analisi suggerisce inoltre che i metodi attuali di apprendimento auto-supervisionato catturano principalmente strutture geometriche piuttosto che semantica di alto livello.
L'avvento dei grandi Modelli Visione-Linguaggio (VLM) ha notevolmente avanzato le attività multimodali, consentendo un ragionamento più sofisticato e accurato attraverso varie applicazioni, tra cui la descrizione di immagini e video, la risposta a domande visive e il recupero cross-modale. Nonostante le loro capacità superiori, i VLM faticano con la percezione delle informazioni sulla composizione regionale dettagliata delle immagini. In particolare, hanno difficoltà nell'allineare con precisione le maschere di segmentazione con le semantica corrispondenti e nel descrivere con precisione gli aspetti compositivi delle regioni citate. Tuttavia, la composizionalità - la capacità di comprendere e generare nuove combinazioni di componenti visivi e testuali conosciuti - è fondamentale per facilitare un ragionamento coerente e la comprensione tra modalità da parte dei VLM. Per affrontare questo problema, proponiamo FINECAPTION, un nuovo VLM in grado di riconoscere maschere arbitrarie come input referenziali e elaborare immagini ad alta risoluzione per la descrizione compositiva delle immagini a diversi livelli di granularità. Per sostenere questo sforzo, introduciamo COMPOSITIONCAP, un nuovo dataset per la descrizione compositiva delle immagini a livello di regione multigranulare, che introduce il compito di descrizione compositiva consapevole degli attributi regionali. I risultati empirici dimostrano l'efficacia del nostro modello proposto rispetto ad altri VLM all'avanguardia. Inoltre, analizziamo le capacità dei VLM attuali nel riconoscere vari stimoli visivi per la descrizione compositiva delle regioni, evidenziando aree per il miglioramento nel design e nell'addestramento dei VLM.
La generazione automatica di video promozionali di prodotti in stile anchor offre opportunità promettenti nel commercio online, nella pubblicità e nell'coinvolgimento del consumatore. Tuttavia, ciò rimane un compito impegnativo nonostante significativi avanzamenti nella generazione di video umani guidati dalla postura. Affrontando questa sfida, identifichiamo l'integrazione delle interazioni umano-oggetto (HOI) nella generazione di video umani guidata dalla postura come questione centrale. A questo scopo, presentiamo AnchorCrafter, un nuovo sistema basato sulla diffusione progettato per generare video 2D che presentano un umano target e un oggetto personalizzato, raggiungendo un'elevata fedeltà visiva e interazioni controllabili. In particolare, proponiamo due innovazioni chiave: la percezione dell'aspetto HOI, che potenzia il riconoscimento dell'aspetto dell'oggetto da prospettive arbitrarie multi-view e disaccoppia l'aspetto dell'oggetto e dell'umano, e l'iniezione del movimento HOI, che consente interazioni umano-oggetto complesse superando sfide nella condizionamento della traiettoria dell'oggetto e nella gestione dell'inter-occlusione. Inoltre, introduciamo il loss di ripesatura della regione HOI, un obiettivo di addestramento che potenzia l'apprendimento dei dettagli dell'oggetto. Estesi esperimenti dimostrano che il nostro sistema proposto supera i metodi esistenti nel preservare l'aspetto e la consapevolezza della forma dell'oggetto, mantenendo contemporaneamente la coerenza nell'aspetto e nel movimento umano. Pagina del progetto: https://cangcz.github.io/Anchor-Crafter/
Per il deployment delle reti neurali in ambienti con risorse limitate, lavori precedenti hanno costruito architetture leggere con convoluzione e attenzione per catturare rispettivamente dipendenze locali e globali. Recentemente, il modello dello spazio di stato è emerso come un'interazione di token globale efficace con il suo favorevole costo computazionale lineare nel numero di token. Tuttavia, sono state esplorate meno backbones vision efficienti costruiti con SSM. In questo articolo, presentiamo Efficient Vision Mamba (EfficientViM), una nuova architettura costruita sulla dualità dello spazio di stato basata sul mixer dello stato nascosto (HSM-SSD) che cattura efficientemente le dipendenze globali con un costo computazionale ulteriormente ridotto. Nel livello HSM-SSD, ridisegniamo il precedente livello SSD per abilitare l'operazione di mixing dei canali all'interno degli stati nascosti. Inoltre, proponiamo una fusione multi-stadio degli stati nascosti per rafforzare ulteriormente il potere di rappresentazione degli stati nascosti, e forniamo il design che allevia il collo di bottiglia causato dalle operazioni legate alla memoria. Di conseguenza, la famiglia EfficientViM raggiunge un nuovo compromesso velocità-accuratezza all'avanguardia su ImageNet-1k, offrendo fino a un miglioramento delle prestazioni del 0,7% rispetto al secondo miglior modello SHViT con una maggiore velocità. Inoltre, osserviamo significativi miglioramenti nella throughput e nell'accuratezza rispetto ai lavori precedenti, quando si ridimensionano le immagini o si utilizza il training di distillazione. Il codice è disponibile su https://github.com/mlvlab/EfficientViM.
L'inpainting delle immagini guidato dal soggetto è emerso come un compito popolare nell'editing delle immagini insieme ai recenti progressi nei modelli di diffusione. I metodi precedenti si concentrano principalmente sulla conservazione dell'identità ma faticano a mantenere l'editabilità degli oggetti inseriti. In risposta, questo articolo introduce DreamMix, un modello generativo basato sulla diffusione capace di inserire oggetti target in scene date in posizioni specificate dall'utente consentendo contemporaneamente modifiche arbitrarie guidate dal testo ai loro attributi. In particolare, sfruttiamo modelli avanzati di inpainting fondamentali e introduciamo un framework di inpainting locale-globale disaccoppiato per bilanciare l'accurata inserzione locale degli oggetti con un'efficace coerenza visiva globale. Inoltre, proponiamo un Meccanismo di Decoupling degli Attributi (ADM) e un modulo di Sostituzione degli Attributi Testuali (TAS) per migliorare rispettivamente la diversità e la capacità discriminativa dell'orientamento degli attributi basato sul testo. Estesi esperimenti dimostrano che DreamMix bilancia efficacemente la conservazione dell'identità e l'editabilità degli attributi attraverso vari scenari di applicazione, inclusi l'inserimento di oggetti, l'editing degli attributi e l'inpainting di piccoli oggetti. Il nostro codice è pubblicamente disponibile su https://github.com/mycfhs/DreamMix.
La scoperta di molecole è un campo di ricerca cruciale, che influisce su tutto, dalle medicine che assumiamo ai materiali che utilizziamo. Recentemente, i Grandi Modelli Linguistici (LLM) sono stati ampiamente adottati nella comprensione e generazione di molecole, tuttavia gli allineamenti tra le molecole e le rispettive didascalie rimangono una sfida significativa. Gli sforzi precedenti trattano spesso la molecola come una stringa SMILES generale o un grafo molecolare, trascurando gli allineamenti dettagliati tra le sottostrutture molecolari e le frasi descrittive testuali, che sono cruciali per previsioni accurate ed esplicative. In questo caso, presentiamo MolReFlect, un nuovo framework insegnante-studente progettato per eseguire contestualmente gli allineamenti molecola-didascalia in modo dettagliato. Il nostro approccio sfrutta inizialmente un insegnante LLM più grande per etichettare gli allineamenti dettagliati estrarre direttamente frasi critiche dalle didascalie delle molecole o dalle stringhe SMILES e implicarle alle rispettive sottostrutture o caratteristiche. Per perfezionare questi allineamenti, proponiamo il Riflesso Selettivo In-Contesto, che recupera i risultati di estrazione precedenti come esempi di contesto per l'insegnante LLM riflettere e permette a un LLM studente più piccolo di selezionare tra il riflesso in-contesto e i risultati di estrazione precedenti. Infine, potenziamo il processo di apprendimento del LLM studente attraverso l'Accordatura Molecolare In-Contesto a Catena di Pensiero, integrando gli allineamenti dettagliati e i processi di ragionamento nel formato a catena di pensiero. I nostri risultati sperimentali dimostrano che MolReFlect consente ai LLM come Mistral-7B di superare significativamente i baselines precedenti, raggiungendo prestazioni di stato dell'arte sul dataset ChEBI-20. Questo avanzamento non solo potenzia le capacità generative dei LLM nel compito di traduzione molecola-didascalia, ma contribuisce anche a un framework più esplicativo.
Presentiamo BootComp, un nuovo framework basato su modelli di diffusione testo-immagine per la generazione controllata di immagini umane con più capi di abbigliamento di riferimento. Qui, il principale ostacolo è l'acquisizione dei dati per l'addestramento: raccogliere un dataset su larga scala di immagini di alta qualità di capi di abbigliamento di riferimento per soggetto umano è piuttosto impegnativo, ovvero idealmente, è necessario raccogliere manualmente ogni singola fotografia di capi indossati da ciascun individuo. Per affrontare questo problema, proponiamo un processo di generazione dati per costruire un ampio dataset sintetico, composto da coppie umane e multi-capi, introducendo un modello per estrarre qualsiasi immagine di capo di abbigliamento di riferimento da ciascuna immagine umana. Per garantire la qualità dei dati, proponiamo anche una strategia di filtraggio per rimuovere dati generati indesiderati basati sulla misurazione delle somiglianze percettive tra il capo presentato nell'immagine umana e il capo estratto. Infine, utilizzando il dataset sintetico costruito, addestriamo un modello di diffusione con due percorsi di denoising paralleli che utilizzano più immagini di capi come condizioni per generare immagini umane preservandone i dettagli più fini. Dimostriamo inoltre l'ampia applicabilità del nostro framework adattandolo a diversi tipi di generazione basata su riferimenti nel settore della moda, inclusi il virtual try-on e la generazione controllata di immagini umane con altre condizioni, come posa, viso, ecc.
La proliferazione delle tecniche di intelligenza artificiale per la generazione di immagini, unite alla loro crescente accessibilità, ha sollevato significative preoccupazioni riguardo al potenziale abuso di queste immagini per diffondere disinformazione. I recenti metodi di rilevamento di immagini generate da intelligenza artificiale (AGID) includono CNNDetection, NPR, Rilevamento Immagine DM, Rilevamento Immagine Falsa, DIRE, LASTED, Rilevamento Immagine GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake e Rilevamento Deep Fake. Tuttavia, sosteniamo che le attuali tecniche AGID all'avanguardia siano inadeguate per rilevare efficacemente le immagini generate da intelligenza artificiale contemporanee e sosteniamo una riesaminazione completa di questi metodi. Introduciamo il Test di Turing Contro Visivo (VCT^2), un benchmark che comprende circa 130.000 immagini generate da modelli di testo-immagine contemporanei (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 e Midjourney 6). VCT^2 include due serie di stimoli provenienti da tweet dell'account Twitter del New York Times e didascalie dal dataset MS COCO. Valutiamo anche le prestazioni delle suddette tecniche AGID sul benchmark VCT^2, evidenziando la loro inefficacia nel rilevare immagini generate da intelligenza artificiale. Poiché i modelli di intelligenza artificiale generativi continuano a evolversi, diventa sempre più critica la necessità di un quadro quantificabile per valutare questi modelli. Per soddisfare questa esigenza, proponiamo l'Indice di Intelligenza Artificiale Visiva (V_AI), che valuta le immagini generate da varie prospettive visive, inclusa la complessità della texture e la coerenza degli oggetti, stabilendo un nuovo standard per valutare i modelli di intelligenza artificiale generativi di immagini. Per promuovere la ricerca in questo ambito, mettiamo a disposizione pubblica i nostri dataset https://huggingface.co/datasets/anonymous1233/COCO_AI e https://huggingface.co/datasets/anonymous1233/twitter_AI.