Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo InternLM-XComposer2, un modello visione-linguistica all'avanguardia che eccelle nella composizione e comprensione libera di testo e immagini. Questo modello va oltre la tradizionale comprensione visione-linguistica, dimostrandosi abile nel creare contenuti intercalati di testo e immagini a partire da input diversificati come schemi, specifiche testuali dettagliate e immagini di riferimento, consentendo una creazione di contenuti altamente personalizzabile. InternLM-XComposer2 propone un approccio Partial LoRA (PLoRA) che applica parametri LoRA aggiuntivi esclusivamente ai token delle immagini, preservando l'integrità delle conoscenze linguistiche pre-addestrate e bilanciando una comprensione visiva precisa con una composizione testuale di qualità letteraria. I risultati sperimentali dimostrano la superiorità di InternLM-XComposer2, basato su InternLM2-7B, nella produzione di contenuti multimodali di testo lungo di alta qualità e nelle sue prestazioni eccezionali nella comprensione visione-linguistica su vari benchmark, dove non solo supera significativamente i modelli multimodali esistenti, ma eguaglia o addirittura supera GPT-4V e Gemini Pro in alcune valutazioni. Ciò evidenzia la sua notevole competenza nel campo della comprensione multimodale. La serie di modelli InternLM-XComposer2 con 7 miliardi di parametri è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.
Per i Large Vision-Language Models (LVLM), il ridimensionamento del modello può migliorare efficacemente le prestazioni. Tuttavia, l'espansione dei parametri del modello aumenta significativamente i costi di addestramento e inferenza, poiché tutti i parametri del modello vengono attivati per ogni token nel calcolo. In questo lavoro, proponiamo una nuova strategia di addestramento, MoE-tuning, per i LVLM, che consente di costruire un modello sparso con un numero straordinario di parametri ma con un costo computazionale costante, affrontando efficacemente il degrado delle prestazioni tipicamente associato all'apprendimento multimodale e alla sparsità del modello. Inoltre, presentiamo il framework MoE-LLaVA, un'architettura LVLM sparsa basata su MoE. Questo framework attiva in modo univoco solo i top-k esperti attraverso i router durante il deployment, mantenendo inattivi i restanti esperti. I nostri ampi esperimenti evidenziano le eccellenti capacità di MoE-LLaVA nella comprensione visiva e il suo potenziale nel ridurre le allucinazioni negli output del modello. Notevolmente, con soli 3 miliardi di parametri attivati in modo sparso, MoE-LLaVA dimostra prestazioni paragonabili a LLaVA-1.5-7B su vari dataset di comprensione visiva e supera persino LLaVA-1.5-13B nei benchmark di allucinazione degli oggetti. Attraverso MoE-LLaVA, miriamo a stabilire un baseline per i LVLM sparsi e fornire spunti preziosi per la ricerca futura nello sviluppo di sistemi di apprendimento multimodale più efficienti ed efficaci. Il codice è rilasciato su https://github.com/PKU-YuanGroup/MoE-LLaVA.
I grandi modelli linguistici vengono addestrati su enormi raccolte di dati provenienti dal web, che sono spesso non strutturati, rumorosi e formulati in modo approssimativo. Le attuali leggi di scalatura dimostrano che l'apprendimento da tali dati richiede un'abbondanza sia di risorse computazionali che di dati, che crescono con le dimensioni del modello in fase di addestramento. Ciò è impraticabile sia a causa degli elevati costi computazionali e della durata associata al pre-training, sia per l'imminente scarsità di dati di alta qualità sul web. In questo lavoro, proponiamo il Web Rephrase Augmented Pre-training (WRAP), che utilizza un modello pre-addestrato su istruzioni, già disponibile, per parafrasare documenti del web in stili specifici come "simile a Wikipedia" o in "formato domanda-risposta", al fine di pre-addestrare congiuntamente i modelli linguistici su parafrasi reali e sintetiche. In primo luogo, dimostriamo che l'uso di WRAP sul dataset C4, che è naturalmente rumoroso, accelera il pre-training di circa 3 volte. Con lo stesso budget computazionale per il pre-training, migliora la perplessità di oltre il 10% in media su diversi sottoinsiemi del Pile e aumenta l'accuratezza zero-shot nelle risposte a domande su 13 task di oltre il 2%. In secondo luogo, indaghiamo l'impatto dello stile di parafrasi sulle prestazioni del modello, offrendo intuizioni su come la composizione dei dati di addestramento possa influenzare le prestazioni dei modelli linguistici in contesti out-of-distribution (OOD). I nostri miglioramenti sono attribuiti al fatto che i dati sintetici parafrasati hanno un'utilità maggiore rispetto ai soli dati reali, poiché (i) incorporano una diversità di stili che riflette da vicino lo stile di valutazione downstream, e (ii) hanno una "qualità" superiore rispetto ai dati raccolti dal web.
Presentiamo Motion-I2V, un nuovo framework per la generazione coerente e controllabile di video da immagini (I2V). A differenza dei metodi precedenti che apprendono direttamente la complessa mappatura immagine-video, Motion-I2V scompone I2V in due fasi con una modellazione esplicita del movimento. Per la prima fase, proponiamo un predittore di campi di movimento basato su diffusione, che si concentra sul dedurre le traiettorie dei pixel dell'immagine di riferimento. Per la seconda fase, proponiamo un'attenzione temporale arricchita dal movimento per potenziare la limitata attenzione temporale unidimensionale nei modelli di diffusione latente per video. Questo modulo può propagare efficacemente le caratteristiche dell'immagine di riferimento ai fotogrammi sintetizzati con la guida delle traiettorie predette dalla prima fase. Rispetto ai metodi esistenti, Motion-I2V può generare video più coerenti anche in presenza di grandi variazioni di movimento e punto di vista. Addestrando un ControlNet per traiettorie sparse nella prima fase, Motion-I2V consente agli utenti di controllare con precisione le traiettorie e le regioni di movimento tramite annotazioni di traiettorie e regioni sparse. Ciò offre una maggiore controllabilità del processo I2V rispetto al fare affidamento esclusivo su istruzioni testuali. Inoltre, la seconda fase di Motion-I2V supporta naturalmente la traduzione video-video zero-shot. Confronti qualitativi e quantitativi dimostrano i vantaggi di Motion-I2V rispetto agli approcci precedenti nella generazione coerente e controllabile di video da immagini.
Negli ultimi anni, sono stati compiuti significativi progressi nel campo dell'apprendimento per rinforzo (RL) robotico, che hanno permesso lo sviluppo di metodi in grado di gestire osservazioni complesse basate su immagini, addestrare nel mondo reale e incorporare dati ausiliari, come dimostrazioni ed esperienze pregresse. Tuttavia, nonostante questi avanzamenti, l'RL robotico rimane difficile da utilizzare. È riconosciuto tra i praticanti che i dettagli implementativi specifici di questi algoritmi sono spesso altrettanto importanti (se non di più) per le prestazioni quanto la scelta dell'algoritmo stesso. Sosteniamo che una sfida significativa per l'adozione diffusa dell'RL robotico, così come per l'ulteriore sviluppo dei suoi metodi, sia la relativa inaccessibilità di tali metodi. Per affrontare questa sfida, abbiamo sviluppato una libreria accuratamente implementata che include un metodo di RL profondo off-policy ad alta efficienza campionaria, insieme a metodi per calcolare le ricompense e resettare l'ambiente, un controller di alta qualità per un robot ampiamente adottato e una serie di compiti di esempio impegnativi. Forniamo questa libreria come risorsa per la comunità, descriviamo le scelte progettuali e presentiamo i risultati sperimentali. Forse sorprendentemente, scopriamo che la nostra implementazione può raggiungere un apprendimento molto efficiente, acquisendo politiche per l'assemblaggio di schede PCB, il routing di cavi e il riposizionamento di oggetti in media tra 25 e 50 minuti di addestramento per politica, migliorando i risultati di stato dell'arte riportati per compiti simili nella letteratura. Queste politiche raggiungono tassi di successo perfetti o quasi perfetti, estrema robustezza anche in presenza di perturbazioni e mostrano comportamenti emergenti di recupero e correzione. Speriamo che questi risultati promettenti e la nostra implementazione open-source di alta qualità forniscano uno strumento alla comunità robotica per facilitare ulteriori sviluppi nell'RL robotico. Il nostro codice, la documentazione e i video sono disponibili all'indirizzo https://serl-robot.github.io/.
La sintesi di animazioni facciali 3D a partire dal parlato ha attirato notevole attenzione. A causa della scarsità di dati facciali 4D di alta qualità e di etichette multimodali abbondanti e ben annotate, i metodi precedenti spesso soffrono di un realismo limitato e di una mancanza di condizionamento flessibile. Affrontiamo questa sfida attraverso una trilogia. In primo luogo, introduciamo il Generalized Neural Parametric Facial Asset (GNPFA), un efficiente autoencoder variazionale che mappa la geometria facciale e le immagini in uno spazio latente delle espressioni altamente generalizzato, disaccoppiando espressioni e identità. Successivamente, utilizziamo GNPFA per estrarre espressioni di alta qualità e pose della testa accurate da una vasta gamma di video. Questo presenta il dataset M2F-D, un ampio, diversificato e di livello scan dataset di animazioni facciali 3D co-verbali con etichette emotive e di stile ben annotate. Infine, proponiamo Media2Face, un modello di diffusione nello spazio latente GNPFA per la generazione di animazioni facciali co-verbali, che accetta ricche guide multimodali da audio, testo e immagine. Esperimenti estensivi dimostrano che il nostro modello non solo raggiunge un'elevata fedeltà nella sintesi di animazioni facciali, ma amplia anche la gamma di espressività e adattabilità stilistica nelle animazioni facciali 3D.
L'agente per dispositivi mobili basato su Modelli Linguistici Multimodali di Grande Scala (MLLM) sta diventando un'applicazione sempre più popolare. In questo articolo, presentiamo Mobile-Agent, un agente autonomo multimodale per dispositivi mobili. Mobile-Agent utilizza inizialmente strumenti di percezione visiva per identificare e localizzare con precisione sia gli elementi visivi che testuali all'interno dell'interfaccia front-end dell'applicazione. Sulla base del contesto visivo percepito, pianifica e scompone autonomamente il compito operativo complesso, navigando attraverso le app mobili eseguendo operazioni passo dopo passo. A differenza delle soluzioni precedenti che si basano su file XML delle app o metadati del sistema mobile, Mobile-Agent consente una maggiore adattabilità in diversi ambienti operativi mobili in modo centrato sulla visione, eliminando così la necessità di personalizzazioni specifiche per il sistema. Per valutare le prestazioni di Mobile-Agent, abbiamo introdotto Mobile-Eval, un benchmark per la valutazione delle operazioni sui dispositivi mobili. Basandoci su Mobile-Eval, abbiamo condotto una valutazione completa di Mobile-Agent. I risultati sperimentali indicano che Mobile-Agent ha raggiunto livelli notevoli di accuratezza e tassi di completamento. Anche con istruzioni complesse, come operazioni multi-app, Mobile-Agent è comunque in grado di soddisfare i requisiti. Il codice e il modello saranno open-source su https://github.com/X-PLUG/MobileAgent.
I recenti progressi nei modelli di testo-immagine pre-addestrati su larga scala hanno dimostrato capacità senza precedenti per la generazione di alta qualità incentrata sull'uomo. Tuttavia, personalizzare l'identità del volto rimane un problema intrattabile. I metodi esistenti non possono garantire una preservazione stabile dell'identità e un'editabilità flessibile, anche con diverse immagini per ogni soggetto durante l'addestramento. In questo lavoro, proponiamo StableIdentity, che consente la ricontestualizzazione con identità coerente utilizzando una sola immagine del volto. Più specificamente, utilizziamo un codificatore di volti con un prior di identità per codificare il volto in ingresso, e poi proiettiamo la rappresentazione del volto in uno spazio con un prior di editabilità, costruito da nomi di celebrità. Incorporando il prior di identità e il prior di editabilità, l'identità appresa può essere iniettata ovunque con vari contesti. Inoltre, progettiamo una perdita di diffusione a due fasi mascherata per migliorare la percezione a livello di pixel del volto in ingresso e mantenere la diversità della generazione. Esperimenti estensivi dimostrano che il nostro metodo supera i precedenti metodi di personalizzazione. Inoltre, l'identità appresa può essere combinata flessibilmente con moduli pronti all'uso come ControlNet. È importante notare che, a nostra conoscenza, siamo i primi a iniettare direttamente l'identità appresa da una singola immagine nella generazione di video/3D senza fine-tuning. Crediamo che il proposto StableIdentity sia un passo importante per unificare i modelli di generazione personalizzata di immagini, video e 3D.
Poiché i modelli di generazione di immagini su larga scala da testo hanno compiuto progressi significativi nel campo della generazione di immagini da testo, sono stati proposti numerosi metodi di fine-tuning. Tuttavia, questi modelli spesso incontrano difficoltà con oggetti nuovi, specialmente in scenari one-shot. Il nostro metodo proposto mira a affrontare le sfide della generalizzabilità e della fedeltà in modo guidato dagli oggetti, utilizzando solo una singola immagine di input e le regioni di interesse specifiche per l'oggetto. Per migliorare la generalizzabilità e mitigare l'overfitting, nel nostro paradigma, un embedding prototipico viene inizializzato in base all'aspetto dell'oggetto e alla sua classe, prima di procedere al fine-tuning del modello di diffusione. Durante il fine-tuning, proponiamo una regolarizzazione caratterizzante della classe per preservare la conoscenza precedente delle classi di oggetti. Per migliorare ulteriormente la fedeltà, introduciamo una perdita specifica per l'oggetto, che può essere utilizzata anche per impiantare più oggetti. Nel complesso, il nostro metodo guidato dagli oggetti per l'impianto di nuovi oggetti può integrarsi perfettamente con concetti esistenti, garantendo alta fedeltà e generalizzazione. Il nostro metodo supera diversi lavori esistenti. Il codice verrà rilasciato.
Nonostante i significativi progressi nei modelli di generazione di immagini da testo per la creazione di immagini di alta qualità, questi metodi continuano a incontrare difficoltà nel garantire la controllabilità dei prompt testuali sulle immagini nel contesto di prompt complessi, specialmente quando si tratta di preservare attributi e relazioni tra oggetti. In questo articolo, proponiamo CompAgent, un approccio senza addestramento per la generazione composizionale di immagini da testo, con un agente basato su un modello linguistico di grandi dimensioni (LLM) come nucleo centrale. L'idea fondamentale alla base di CompAgent si basa su una metodologia divide et impera. Dato un prompt testuale complesso contenente più concetti, inclusi oggetti, attributi e relazioni, l'agente LLM lo scompone inizialmente, estraendo i singoli oggetti, i loro attributi associati e prevedendo una disposizione coerente della scena. Questi oggetti individuali possono quindi essere conquistati in modo indipendente. Successivamente, l'agente esegue un ragionamento analizzando il testo, pianifica e utilizza strumenti per comporre questi oggetti isolati. Infine, un meccanismo di verifica e feedback umano viene integrato nel nostro agente per correggere eventuali errori negli attributi e affinare le immagini generate. Guidato dall'agente LLM, proponiamo un modello di personalizzazione multi-concetto senza sintonizzazione e un modello di generazione di immagini da layout come strumenti per la composizione dei concetti, oltre a un metodo di editing locale delle immagini come strumento per interagire con l'agente per la verifica. La disposizione della scena controlla il processo di generazione delle immagini tra questi strumenti per prevenire confusione tra più oggetti. Esperimenti estensivi dimostrano la superiorità del nostro approccio per la generazione composizionale di immagini da testo: CompAgent ottiene un miglioramento superiore al 10% su T2I-CompBench, un benchmark completo per la generazione composizionale di immagini da testo in contesti aperti. L'estensione a varie attività correlate illustra inoltre la flessibilità del nostro CompAgent per potenziali applicazioni.
I modelli visione-linguaggio esistenti dimostrano una forte capacità di generalizzazione su una varietà di domini visivi e compiti. Tuttavia, tali modelli eseguono principalmente il riconoscimento zero-shot in modo closed-set, e quindi faticano a gestire concetti visivi open-domain per loro stessa progettazione. Esistono recenti metodi di fine-tuning, come il prompt learning, che non solo studiano la discriminazione tra campioni in-distribuzione (ID) e out-of-distribution (OOD), ma mostrano anche alcuni miglioramenti nelle accuratezze sia ID che OOD. In questo articolo, dimostriamo innanzitutto che i modelli visione-linguaggio, dopo un sufficiente fine-tuning ma senza un'adeguata regolarizzazione, tendono a sovradattare le classi note nel dataset fornito, con una performance degradata sulle classi sconosciute. Proponiamo quindi un nuovo approccio, OGEN, per affrontare questa criticità, concentrandoci principalmente sul miglioramento della generalizzazione OOD dei modelli fine-tuned. Nello specifico, viene introdotto un generatore di feature condizionato alla classe per sintetizzare feature OOD utilizzando solo il nome della classe di qualsiasi classe sconosciuta. Tali feature sintetizzate forniranno conoscenze utili sulle classi sconosciute e aiuteranno a regolarizzare il confine decisionale tra dati ID e OOD quando ottimizzati congiuntamente. Altrettanto importante è il nostro meccanismo di auto-distillazione adattativa per regolarizzare il nostro modello di generazione delle feature durante l'ottimizzazione congiunta, ovvero trasferire adattivamente la conoscenza tra gli stati del modello per prevenire ulteriormente il sovradattamento. Gli esperimenti convalidano che il nostro metodo produce miglioramenti convincenti nella performance di generalizzazione OOD in diverse configurazioni.