Articoli di ricerca IA selezionati quotidianamente con traduzioni
Molte aziende di intelligenza artificiale stanno addestrando i loro grandi modelli linguistici (LLM) su dati senza il permesso dei proprietari dei diritti d'autore. La possibilità di farlo varia a seconda della giurisdizione: in paesi come l'UE e il Giappone, ciò è consentito sotto certe restrizioni, mentre negli Stati Uniti, il quadro legale è più ambiguo. Indipendentemente dallo stato legale, le preoccupazioni dei produttori creativi hanno portato a diversi ricorsi per violazione del copyright di alto profilo, e la minaccia di azioni legali è comunemente citata come motivo per il recente trend verso la minimizzazione delle informazioni condivise sui set di dati di addestramento sia da attori aziendali che di interesse pubblico. Questo trend nel limitare le informazioni sui dati causa danni ostacolando la trasparenza, la responsabilità e l'innovazione nell'ecosistema più ampio, negando ai ricercatori, agli ispettori e alle persone interessate l'accesso alle informazioni necessarie per comprendere i modelli di intelligenza artificiale. Sebbene ciò potrebbe essere mitigato addestrando i modelli linguistici su dati di accesso aperto e di pubblico dominio, al momento della stesura di questo testo, non esistono modelli del genere (addestrati su una scala significativa) a causa delle notevoli sfide tecniche e sociologiche nel comporre il corpus necessario. Queste sfide includono metadati incompleti e non affidabili, il costo e la complessità della digitalizzazione di documenti fisici e il variegato insieme di competenze legali e tecniche necessarie per garantire rilevanza e responsabilità in un panorama in rapida evoluzione. Costruire un futuro in cui i sistemi di intelligenza artificiale possano essere addestrati su dati con licenza aperta che siano curati e governati in modo responsabile richiede la collaborazione tra ambiti legali, tecnici e politici, insieme a investimenti in standard di metadati, digitalizzazione e alla promozione di una cultura dell'apertura.
Il recupero di documenti multimodali è progettato per identificare e recuperare varie forme di contenuti multimodali, come figure, tabelle, grafici e informazioni di layout da documenti estesi. Nonostante la sua importanza, manca notevolmente un robusto benchmark per valutare efficacemente le prestazioni dei sistemi nel recupero di documenti multimodali. Per affrontare questa lacuna, questo lavoro introduce un nuovo benchmark, chiamato MMDocIR, che comprende due compiti distinti: il recupero a livello di pagina e a livello di layout. Il primo si concentra sulla localizzazione delle pagine più rilevanti all'interno di un lungo documento, mentre il secondo mira alla rilevazione di layout specifici, offrendo una granularità più dettagliata rispetto all'analisi dell'intera pagina. Un layout può fare riferimento a una varietà di elementi come paragrafi di testo, equazioni, figure, tabelle o grafici. Il benchmark MMDocIR comprende un ricco dataset con etichette annotate da esperti per 1.685 domande e etichette bootstrap per 173.843 domande, rendendolo una risorsa fondamentale per far progredire il recupero di documenti multimodali sia per la formazione che per la valutazione. Attraverso esperimenti rigorosi, riveliamo che (i) i recuperatori visivi superano significativamente i loro corrispettivi testuali, (ii) il set di allenamento di MMDocIR può beneficiare efficacemente il processo di formazione del recupero di documenti multimodali e (iii) i recuperatori di testo che sfruttano il VLM-text si comportano molto meglio di quelli che utilizzano l'OCR-text. Queste scoperte sottolineano i potenziali vantaggi dell'integrazione di elementi visivi per il recupero di documenti multimodali.
La generazione di scene 3D ha attirato crescente attenzione negli ultimi anni e ha fatto significativi progressi. Generare città 4D è più impegnativo rispetto alle scene 3D a causa della presenza di oggetti strutturalmente complessi e visivamente diversi come edifici e veicoli, e dell'aumentata sensibilità umana alle distorsioni negli ambienti urbani. Per affrontare queste problematiche, proponiamo CityDreamer4D, un modello generativo composito appositamente progettato per generare città 4D illimitate. Le nostre principali intuizioni sono 1) la generazione di città 4D dovrebbe separare gli oggetti dinamici (ad esempio, veicoli) dalle scene statiche (ad esempio, edifici e strade), e 2) tutti gli oggetti nella scena 4D dovrebbero essere composti da diversi tipi di campi neurali per edifici, veicoli e sfondo. In particolare, proponiamo il Generatore di Scenari di Traffico e il Generatore di Layout Illimitato per produrre scenari di traffico dinamici e layout cittadini statici utilizzando una rappresentazione BEV altamente compatta. Gli oggetti nelle città 4D sono generati combinando campi neurali orientati agli oggetti e orientati alle istanze per lo sfondo, gli edifici e i veicoli. Per adattarsi alle caratteristiche distinte dello sfondo e delle istanze, i campi neurali impiegano griglie hash generative personalizzate e incorporamenti posizionali periodici come parametrizzazioni della scena. Inoltre, offriamo una vasta gamma di set di dati per la generazione di città, tra cui OSM, GoogleEarth e CityTopia. Il set di dati OSM fornisce una varietà di layout cittadini reali, mentre i set di dati di Google Earth e CityTopia offrono immagini cittadine di alta qualità su larga scala complete di annotazioni di istanze 3D. Sfruttando il suo design composito, CityDreamer4D supporta una serie di applicazioni derivate, come la modifica delle istanze, la stilizzazione cittadina e la simulazione urbana, offrendo nel contempo prestazioni all'avanguardia nella generazione di città 4D realistiche.
La generazione di video ha ottenuto progressi notevoli con l'introduzione dei modelli di diffusione, che hanno migliorato significativamente la qualità dei video generati. Tuttavia, le ricerche recenti si sono concentrate principalmente sull'incremento della formazione dei modelli, offrendo limitate informazioni sull'impatto diretto delle rappresentazioni sul processo di generazione dei video. In questo articolo, esaminiamo inizialmente le caratteristiche delle features nei livelli intermedi, riscontrando notevoli variazioni nelle mappe di attenzione tra i diversi livelli. Queste variazioni portano a rappresentazioni semantiche instabili e contribuiscono a differenze cumulative tra le features, che alla fine riducono la similarità tra i frame adiacenti e influiscono negativamente sulla coerenza temporale. Per affrontare questo problema, proponiamo RepVideo, un framework di rappresentazione potenziato per modelli di diffusione testo-video. Accumulando le features dai livelli adiacenti per formare rappresentazioni arricchite, questo approccio cattura informazioni semantiche più stabili. Queste rappresentazioni potenziate vengono poi utilizzate come input per il meccanismo di attenzione, migliorando così l'espressività semantica garantendo al contempo la coerenza delle features tra i frame adiacenti. Estesi esperimenti dimostrano che il nostro RepVideo non solo migliora significativamente la capacità di generare aspetti spaziali accurati, come catturare relazioni spaziali complesse tra oggetti multipli, ma migliora anche la coerenza temporale nella generazione di video.
La diffusione video first-in-first-out (FIFO), basata su un modello pre-addestrato di testo-video, è recentemente emersa come un approccio efficace per la generazione di video di lunga durata senza necessità di sintonizzazione. Questa tecnica mantiene una coda di frame video con rumore progressivamente crescente, producendo continuamente frame puliti in testa alla coda mentre il rumore gaussiano viene aggiunto in coda. Tuttavia, la FIFO-Diffusion spesso fatica a mantenere la coerenza temporale a lungo raggio nei video generati a causa della mancanza di modellizzazione della corrispondenza tra i frame. In questo articolo, proponiamo Ouroboros-Diffusion, un nuovo framework di denoising video progettato per migliorare la coerenza strutturale e di contenuto (soggetto), consentendo la generazione di video coerenti di lunghezza arbitraria. In particolare, introduciamo una nuova tecnica di campionamento latente in coda alla coda per migliorare la coerenza strutturale, garantendo transizioni percettivamente fluide tra i frame. Per migliorare la coerenza del soggetto, ideiamo un meccanismo di Attenzione Incrociata tra Frame Consapevole del Soggetto (SACFA), che allinea i soggetti tra i frame all'interno di segmenti brevi per ottenere una migliore coerenza visiva. Inoltre, introduciamo un'orientamento auto-ricorrente. Questa tecnica sfrutta le informazioni di tutti i frame più puliti precedenti in testa alla coda per guidare il denoising dei frame più rumorosi alla fine, favorire un'interazione ricca e contestuale delle informazioni globali. Estesi esperimenti di generazione di video di lunga durata sul benchmark VBench dimostrano la superiorità del nostro Ouroboros-Diffusion, in particolare in termini di coerenza del soggetto, fluidità del movimento e coerenza temporale.
Presentiamo il primo studio su come la capacità di ragionamento dei Modelli Linguaggio Multimodali (MLLMs) debba essere sollecitata per valutare l'estetica delle opere d'arte. Per agevolare questa indagine, costruiamo MM-StyleBench, un nuovo dataset di alta qualità per il benchmark dello stile artistico. Successivamente sviluppiamo un metodo basato su principi per la modellazione delle preferenze umane e conduciamo un'analisi sistematica della correlazione tra le risposte dei MLLMs e le preferenze umane. I nostri esperimenti rivelano un problema di allucinazione intrinseco dei MLLMs nella valutazione artistica, associato alla soggettività delle risposte. Viene proposto ArtCoT, dimostrando che la decomposizione delle attività specifiche dell'arte e l'uso di un linguaggio concreto potenziano la capacità di ragionamento dei MLLMs per l'estetica. Le nostre scoperte offrono preziose intuizioni sui MLLMs per l'arte e possono beneficiare una vasta gamma di applicazioni derivate, come il trasferimento di stile e la generazione di immagini artistiche. Codice disponibile su https://github.com/songrise/MLLM4Art.
Negli ultimi anni, sono stati raggiunti notevoli progressi nella generazione di contenuti tramite intelligenza artificiale (AIGC) nei campi della sintesi delle immagini e della generazione di testi, generando contenuti paragonabili a quelli prodotti dagli esseri umani. Tuttavia, la qualità della musica generata dall'IA non ha ancora raggiunto questo standard, principalmente a causa della sfida di controllare efficacemente le emozioni musicali e garantire output di alta qualità. Questo articolo presenta un framework generalizzato per la generazione di musica simbolica, XMusic, che supporta prompt flessibili (ad esempio immagini, video, testi, tag e canto) per generare musica simbolica emotivamente controllabile e di alta qualità. XMusic è composto da due componenti principali, XProjector e XComposer. XProjector analizza i prompt di varie modalità in elementi musicali simbolici (ad esempio emozioni, generi, ritmi e note) nello spazio di proiezione per generare musica corrispondente. XComposer contiene un Generatore e un Selettore. Il Generatore genera musica emotivamente controllabile e melodiosa basata sulla nostra innovativa rappresentazione della musica simbolica, mentre il Selettore identifica musica simbolica di alta qualità costruendo uno schema di apprendimento multi-task che coinvolge valutazioni di qualità, riconoscimento delle emozioni e riconoscimento dei generi. Inoltre, abbiamo creato XMIDI, un dataset di musica simbolica su larga scala che contiene 108.023 file MIDI annotati con precise etichette di emozioni e generi. Valutazioni oggettive e soggettive mostrano che XMusic supera significativamente i metodi attuali più avanzati con un'ottima qualità musicale. Il nostro XMusic è stato premiato come uno dei nove Highlights di Collectibles al WAIC 2023. La homepage del progetto XMusic è https://xmusic-project.github.io.
Le piramidi di immagini sono ampiamente adottate nei metodi più performanti per ottenere caratteristiche multi-scala per una percezione visiva e comprensione precise. Tuttavia, le attuali piramidi di immagini utilizzano lo stesso modello a larga scala per elaborare multiple risoluzioni di immagini, comportando un notevole costo computazionale. Per affrontare questa sfida, proponiamo una nuova architettura di rete, chiamata Reti Piramide di Immagini con Parametri Invertiti (PIIP). In particolare, PIIP utilizza modelli preaddestrati (ViTs o CNN) come rami per elaborare immagini multi-scala, dove le immagini ad alta risoluzione sono elaborate da rami di rete più piccoli per bilanciare costo computazionale e prestazioni. Per integrare informazioni da diverse scale spaziali, proponiamo inoltre un nuovo meccanismo di interazione delle caratteristiche tra rami. Per convalidare PIIP, lo applichiamo a vari modelli di percezione e a un rappresentativo grande modello di linguaggio multimodale chiamato LLaVA, e conduciamo ampi esperimenti su varie attività come rilevamento oggetti, segmentazione, classificazione immagini e comprensione multimodale. PIIP raggiunge prestazioni superiori rispetto a approcci a singolo ramo e multi-risoluzione esistenti con un costo computazionale inferiore. Applicato a InternViT-6B, un modello di base di visione su larga scala, PIIP può migliorare le prestazioni del 1%-2% nel rilevamento e segmentazione con solo il 40%-60% del calcolo originale, raggiungendo infine 60.0 box AP su MS COCO e 59.7 mIoU su ADE20K. Per la comprensione multimodale, il nostro PIIP-LLaVA raggiunge un'accuratezza del 73.0% su TextVQA e del 74.5% su MMBench con solo 2.8M dati di addestramento. Il nostro codice è disponibile su https://github.com/OpenGVLab/PIIP.
Spesso interagiamo con parti non fidate. La priorità della privacy può limitare l'efficacia di tali interazioni, poiché il raggiungimento di determinati obiettivi richiede la condivisione di dati privati. Tradizionalmente, affrontare questa sfida ha comportato la ricerca di intermediari fidati o la costruzione di protocolli crittografici che limitano la quantità di dati rivelati, come le computazioni multi-party o le dimostrazioni a conoscenza zero. Nonostante siano stati compiuti progressi significativi nel ridimensionamento degli approcci crittografici, rimangono limitati in termini di dimensioni e complessità delle applicazioni per cui possono essere utilizzati. In questo articolo, sosteniamo che modelli di machine learning capaci possano svolgere il ruolo di terza parte fidata, consentendo così computazioni sicure per applicazioni che in precedenza erano impraticabili. In particolare, descriviamo gli Ambienti di Modelli Capacità Affidabili (TCME) come un approccio alternativo per il ridimensionamento delle computazioni sicure, in cui uno o più modelli di machine learning capaci interagiscono sotto vincoli di input/output, con controllo esplicito del flusso di informazioni e stato di esplicita assenza. Questo approccio mira a trovare un equilibrio tra privacy ed efficienza computazionale, consentendo inferenze private dove le soluzioni crittografiche classiche sono attualmente impraticabili. Descriviamo diversi casi d'uso resi possibili da TCME e dimostriamo che anche alcuni semplici problemi crittografici classici possono già essere risolti con TCME. Infine, delineiamo le attuali limitazioni e discutiamo il percorso da seguire per implementarle.
Il matching delle immagini sia per la corrispondenza tra viste diverse che tra diverse modalità svolge un ruolo critico nella percezione multimodale. Nella pratica, il divario di modalità causato da diversi sistemi/stili di imaging pone grandi sfide al compito di matching. I lavori esistenti cercano di estrarre caratteristiche invarianti per specifiche modalità e addestrare su dataset limitati, mostrando una scarsa generalizzazione. In questo articolo, presentiamo MINIMA, un framework unificato per il matching di immagini per molteplici casi cross-modal. Senza perseguire moduli sofisticati, il nostro MINIMA mira a migliorare le prestazioni universali dal punto di vista della scalabilità dei dati. A tale scopo, proponiamo un motore dati semplice ma efficace che può generare liberamente un ampio dataset contenente molteplici modalità, scenari ricchi ed etichette di matching accurate. In particolare, scaliamo le modalità dai dati di matching economici ma ricchi solo di RGB, mediante modelli generativi. In questo contesto, le etichette di matching e la ricca diversità del dataset RGB sono ereditate con successo dai dati multimodali generati. Beneficiando di ciò, costruiamo MD-syn, un nuovo dataset esaustivo che colma il divario di dati per il matching di immagini multimodali generale. Con MD-syn, possiamo addestrare direttamente qualsiasi pipeline di matching avanzata su coppie di modalità selezionate casualmente per ottenere la capacità cross-modal. Estesi esperimenti su compiti di matching in-domain e zero-shot, inclusi 19 casi cross-modal, dimostrano che il nostro MINIMA può superare significativamente i baselines e persino superare i metodi specifici della modalità. Il dataset e il codice sono disponibili su https://github.com/LSXI7/MINIMA.
Interagire con il mondo è un'esperienza multisensoriale: per raggiungere un'interazione efficace di scopo generale è necessario sfruttare tutte le modalità disponibili - compresa la visione, il tatto e l'audio - per colmare le lacune derivanti dall'osservazione parziale. Ad esempio, quando la visione è oscurata mentre si infila la mano in una borsa, un robot dovrebbe fare affidamento sui suoi sensi del tatto e del suono. Tuttavia, le politiche robot generaliste all'avanguardia sono tipicamente addestrate su ampi set di dati per prevedere le azioni del robot esclusivamente da osservazioni visive e propriocettive. In questo lavoro, proponiamo FuSe, un nuovo approccio che consente di perfezionare le politiche generaliste visuomotorie su modalità sensoriali eterogenee per le quali ampi set di dati non sono prontamente disponibili, sfruttando il linguaggio naturale come base comune cross-modale. Combiniamo una perdita contrastiva multimodale con una perdita di generazione del linguaggio basata sui sensori per codificare semantica di alto livello. Nel contesto della manipolazione robotica, mostriamo che FuSe consente di eseguire compiti impegnativi che richiedono ragionamento congiunto su modalità come visione, tatto e suono in un contesto di zero-shot, come l'incoraggiamento multimodale, l'incoraggiamento composito cross-modale e le descrizioni degli oggetti con cui interagisce. Dimostriamo che la stessa ricetta è applicabile a politiche generaliste ampiamente diverse, inclusi sia le politiche generaliste basate sulla diffusione che i modelli VLA (visione-linguaggio-azione) di ampia portata. Estesi esperimenti nel mondo reale dimostrano che FuSe è in grado di aumentare i tassi di successo di oltre il 20% rispetto a tutti i baselines considerati.