Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo InternVL 2.5, un avanzato modello di linguaggio multimodale di grandi dimensioni (MLLM) che si basa su InternVL 2.0, mantenendo la sua architettura modello di base e introducendo significativi miglioramenti nelle strategie di addestramento e test, nonché nella qualità dei dati. In questo lavoro, approfondiamo il rapporto tra la scalabilità del modello e le prestazioni, esplorando sistematicamente le tendenze delle prestazioni negli encoder di visione, nei modelli di linguaggio, nelle dimensioni dei dataset e nelle configurazioni di test. Attraverso valutazioni approfondite su una vasta gamma di benchmark, inclusi il ragionamento multidisciplinare, la comprensione dei documenti, la comprensione multi-immagine/video, la comprensione del mondo reale, la rilevazione dell'allucinazione multimodale, l'ancoraggio visivo, le capacità multilingue e il puro trattamento del linguaggio, InternVL 2.5 mostra prestazioni competitive, competendo con i principali modelli commerciali come GPT-4o e Claude-3.5-Sonnet. In particolare, il nostro modello è il primo MLLM open-source a superare il 70% nel benchmark MMMU, ottenendo un miglioramento di 3,7 punti attraverso il ragionamento Chain-of-Thought (CoT) e mostrando un forte potenziale per la scalabilità nel test. Speriamo che questo modello contribuisca alla comunità open-source stabilendo nuovi standard per lo sviluppo e l'applicazione di sistemi AI multimodali. Per una dimostrazione di HuggingFace, vedere https://huggingface.co/spaces/OpenGVLab/InternVL
Questo rapporto tecnico presenta i modelli linguistici EXAONE 3.5 ottimizzati per le istruzioni, sviluppati e rilasciati da LG AI Research. I modelli linguistici EXAONE 3.5 sono offerti in tre configurazioni: 32B, 7.8B e 2.4B. Questi modelli presentano diverse capacità eccezionali: 1) eccezionali capacità di seguire le istruzioni in scenari reali, raggiungendo i punteggi più alti in sette benchmark, 2) eccezionale comprensione del contesto a lungo termine, ottenendo le migliori prestazioni in quattro benchmark, e 3) risultati competitivi rispetto ai modelli aperti all'avanguardia di dimensioni simili in nove benchmark generali. I modelli linguistici EXAONE 3.5 sono aperti a tutti per scopi di ricerca e possono essere scaricati da https://huggingface.co/LGAI-EXAONE. Per utilizzi commerciali, si prega di contattare il punto di contatto ufficiale di LG AI Research: contact_us@lgresearch.ai.
I modelli linguistici multimodali su larga scala open-source (MLLMs) hanno mostrato un significativo potenziale in una vasta gamma di compiti multimodali. Tuttavia, le loro capacità di ragionamento rimangono vincolate dai dataset di addestramento esistenti, che sono principalmente adattati da dataset accademici come VQA, AI2D e ChartQA. Questi dataset si concentrano su compiti semplicistici e forniscono solo risposte a livello di frasi senza fornire ragionamenti intermedi. Per affrontare queste sfide, introduciamo un metodo scalabile ed economicamente vantaggioso per costruire un dataset di addestramento multimodale su larga scala con ricchi ragionamenti intermedi progettati per suscitare il ragionamento CoT. Utilizzando solo modelli open, creiamo un dataset contenente 12 milioni di coppie istruzione-risposta per coprire una varietà di compiti intensivi di ragionamento con ragionamenti dettagliati e fedeli. Gli esperimenti dimostrano che addestrare MLLMs su questo dataset migliora significativamente le capacità di ragionamento, raggiungendo prestazioni all'avanguardia su benchmark come MathVerse (+8,1%), MMMU-Pro (+7%) e MuirBench (+13,3%). Inoltre, il modello mostra miglioramenti significativi fino al 4% su benchmark non basati sul ragionamento. Studi di ablation evidenziano ulteriormente l'importanza di componenti chiave, come la riscrittura e l'autofiltraggio, nel processo di costruzione del dataset.
I recenti progressi nei modelli generativi di testo-a-video (T2V) hanno mostrato capacità impressionanti. Tuttavia, questi modelli sono ancora inadeguati nell'allineare i video sintetizzati con le preferenze umane (ad esempio, riflettere accuratamente le descrizioni di testo), il che risulta particolarmente difficile da affrontare, poiché le preferenze umane sono intrinsecamente soggettive e complesse da formalizzare come funzioni obiettive. Pertanto, questo articolo propone LiFT, un nuovo metodo di raffinamento sfruttando il feedback umano per l'allineamento del modello T2V. In particolare, costruiamo inizialmente un dataset di annotazioni di valutazione umana, LiFT-HRA, composto da circa 10k annotazioni umane, ciascuna includente un punteggio e la relativa motivazione. Sulla base di questo, addestriamo un modello di ricompensa LiFT-Critic per apprendere efficacemente la funzione di ricompensa, che funge da sostituto del giudizio umano, misurando l'allineamento tra i video forniti e le aspettative umane. Infine, sfruttiamo la funzione di ricompensa appresa per allineare il modello T2V massimizzando la probabilità pesata dalla ricompensa. Come studio di caso, applichiamo il nostro processo a CogVideoX-2B, dimostrando che il modello raffinato supera il CogVideoX-5B su tutti e 16 i metriche, evidenziando il potenziale del feedback umano nel migliorare l'allineamento e la qualità dei video sintetizzati.
I recenti progressi nell'editing delle immagini guidato dal testo consentono agli utenti di eseguire modifiche alle immagini attraverso semplici input di testo, sfruttando i vasti precedenti dei modelli di testo-immagine basati sulla diffusione a più passaggi. Tuttavia, questi metodi spesso non riescono a soddisfare le esigenze di velocità richieste per le applicazioni del mondo reale e su dispositivi a causa del costoso processo di inversione e campionamento a più passaggi coinvolti. In risposta a ciò, presentiamo SwiftEdit, uno strumento di editing semplice ma altamente efficiente che consente l'editing istantaneo guidato dal testo (in 0,23 secondi). Il progresso di SwiftEdit risiede nelle sue due nuove contribuzioni: un framework di inversione a un passaggio che consente la ricostruzione dell'immagine in un passaggio tramite inversione e una tecnica di editing guidata da maschera con il nostro proposto meccanismo di ridimensionamento dell'attenzione per eseguire l'editing localizzato delle immagini. Sono forniti ampi esperimenti per dimostrare l'efficacia e l'efficienza di SwiftEdit. In particolare, SwiftEdit consente l'editing istantaneo guidato dal testo, che è estremamente più veloce rispetto ai metodi a più passaggi precedenti (almeno 50 volte più veloce), pur mantenendo prestazioni competitive nei risultati di editing. La nostra pagina del progetto si trova su: https://swift-edit.github.io/
I grandi modelli linguistici (LLM) sono notoriamente intensivi in termini di memoria durante l'addestramento, specialmente con l'ottimizzatore AdamW popolare. Questo onere sulla memoria richiede l'uso di più o di GPU di fascia alta o la riduzione delle dimensioni dei batch, limitando la scalabilità e la capacità di addestramento. Per affrontare ciò, sono state proposte varie ottimizzazioni efficienti in termini di memoria per ridurre l'uso della memoria dell'ottimizzatore. Tuttavia, affrontano sfide critiche: (i) dipendenza da costose operazioni di SVD; (ii) significativi compromessi sulle prestazioni rispetto ad AdamW; e (iii) ancora un notevole sovraccarico di memoria dell'ottimizzatore per mantenere prestazioni competitive. In questo lavoro, identifichiamo che la regola di adattamento del tasso di apprendimento di AdamW può essere efficacemente approssimata come un aggiornamento strutturato del tasso di apprendimento. Basandoci su questa intuizione, proponiamo la Scalatura del Gradiente Approssimata per l'Ottimizzazione Efficientemente Memoria-Intensiva dei LLM (APOLLO), che approssima la scalatura del tasso di apprendimento utilizzando uno stato dell'ottimizzatore ausiliario a basso rango basato su una pura proiezione casuale. Questa regola di aggiornamento strutturato del tasso di apprendimento rende APOLLO altamente tollerante a ulteriori riduzioni di memoria pur offrendo prestazioni di pre-addestramento comparabili. Anche la sua variante di rango-1, APOLLO-Mini, raggiunge prestazioni di pre-addestramento superiori rispetto ad AdamW con costi di memoria a livello di SGD. Esperimenti estesi dimostrano che la serie APOLLO si comporta alla pari o meglio di AdamW, ottenendo nel contempo maggiori risparmi di memoria eliminando quasi completamente gli stati di ottimizzazione di AdamW. Questi risparmi forniscono significativi vantaggi a livello di sistema: (1) Maggiore Capacità: 3 volte la capacità su una configurazione 8xA100-80GB rispetto ad AdamW supportando dimensioni di batch 4 volte più grandi. (2) Miglior Scalabilità del Modello: Pre-addestramento di LLaMA-13B con DDP ingenuo su GPU A100-80GB senza ottimizzazioni a livello di sistema. (3) Pre-addestramento Amichevole per GPU di Fascia Bassa: Pre-addestramento di LLaMA-7B su una singola GPU utilizzando meno di 12 GB di memoria con quantizzazione dei pesi.
Gli sviluppi recenti nei Grandi Modelli Linguistici preaddestrati su corpora estesi hanno dimostrato un significativo successo in vari compiti di elaborazione del linguaggio naturale con una minima messa a punto. Questo successo offre una nuova promessa per la robotica, a lungo limitata dall'alto costo dei dati etichettati per le azioni. Ci chiediamo: dato l'abbondante materiale video contenente conoscenze legate all'interazione disponibili come un ricco "corpus", può un approccio simile di preaddestramento generativo essere applicato efficacemente per potenziare l'apprendimento robotico? La sfida chiave è identificare una rappresentazione efficace per il preaddestramento autoregressivo che beneficia dei compiti di manipolazione robotica. Ispirati al modo in cui gli esseri umani imparano nuove abilità osservando ambienti dinamici, proponiamo che l'apprendimento robotico efficace dovrebbe enfatizzare le conoscenze legate al movimento, strettamente legate alle azioni a basso livello e indipendenti dall'hardware, facilitando il trasferimento dei movimenti appresi alle azioni effettive del robot. A tal fine, presentiamo Moto, che converte il contenuto video in sequenze latenti di Token di Movimento tramite un Tokenizer di Movimento Latente, apprendendo un "linguaggio" di movimento di collegamento dai video in modo non supervisionato. Preaddestriamo Moto-GPT attraverso l'autoregressione dei token di movimento, consentendogli di catturare diverse conoscenze visive sul movimento. Dopo il preaddestramento, Moto-GPT dimostra la promettente capacità di produrre token di movimento semanticamente interpretabili, prevedere traiettorie di movimento plausibili e valutare la razionalità delle traiettorie attraverso la probabilità di output. Per trasferire i precedenti movimenti appresi alle azioni reali del robot, implementiamo una strategia di co-messa a punto che collega senza soluzione di continuità la previsione dei token di movimento latenti e il controllo reale del robot. Estesi esperimenti mostrano che il Moto-GPT messo a punto mostra una robustezza e un'efficienza superiori nei benchmark di manipolazione robotica, sottolineando la sua efficacia nel trasferire conoscenze dai dati video ai compiti di manipolazione visiva successivi.
I modelli di generazione testo-video hanno mostrato un significativo progresso negli ultimi anni. Tuttavia, continuano a lottare nella generazione di scene dinamiche complesse basate su prompt testuali compositi, come il legame degli attributi per oggetti multipli, la dinamica temporale associata a diversi oggetti e le interazioni tra gli oggetti. La nostra principale motivazione è che compiti complessi possono essere decomposti in compiti più semplici, ognuno gestito da un agente MLLM specializzato nel ruolo. Più agenti possono collaborare insieme per raggiungere un'intelligenza collettiva per obiettivi complessi. Proponiamo GenMAC, un framework iterativo multi-agente che consente la generazione composita testo-video. Il flusso di lavoro collaborativo include tre fasi: Progettazione, Generazione e Ridisegno, con un loop iterativo tra le fasi di Generazione e Ridisegno per verificare e perfezionare progressivamente i video generati. La fase di Ridisegno è la fase più impegnativa che mira a verificare i video generati, suggerire correzioni e ridisegnare i prompt testuali, i layout frame-wise e le scale di orientamento per la successiva iterazione di generazione. Per evitare l'illusione di un singolo agente MLLM, decomponiamo questa fase in quattro agenti basati su MLLM eseguiti in sequenza: agente di verifica, agente di suggerimento, agente di correzione e agente di strutturazione dell'output. Inoltre, per affrontare scenari diversi di generazione composita testo-video, progettiamo un meccanismo di autoinstradamento per selezionare in modo adattivo il corretto agente di correzione da una collezione di agenti di correzione, ognuno specializzato per uno scenario. Estesi esperimenti dimostrano l'efficacia di GenMAC, raggiungendo prestazioni all'avanguardia nella generazione composita testo-video.
In che misura i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) sono in grado di comprendere immagini composite? Le immagini composite (CIs) sono visivi sintetici creati unendo più elementi visivi, come grafici, poster o screenshot, anziché essere catturati direttamente da una fotocamera. Sebbene le CIs siano diffuse nelle applicazioni del mondo reale, gli sviluppi recenti dei MLLMs si sono concentrati principalmente sull'interpretazione di immagini naturali (NIs). La nostra ricerca rivela che i MLLMs attuali affrontano significativi ostacoli nel comprendere accuratamente le CIs, spesso faticando nell'estrazione di informazioni o nel compiere ragionamenti complessi basati su queste immagini. Abbiamo constatato che i dati di addestramento esistenti per le CIs sono principalmente formattati per compiti domanda-risposta (ad esempio, nei set di dati come ChartQA e ScienceQA), mentre set di dati di alta qualità immagine-didascalia, fondamentali per un allineamento robusto tra visione e linguaggio, sono disponibili solo per le NIs. Per colmare questa lacuna, presentiamo le Didascalie Composite (CompCap), un framework flessibile che sfrutta i Modelli Linguistici di Grandi Dimensioni (LLMs) e strumenti di automazione per sintetizzare CIs con didascalie accurate e dettagliate. Utilizzando CompCap, curiamo CompCap-118K, un set di dati contenente 118K coppie immagine-didascalia attraverso sei tipi di CI. Convalidiamo l'efficacia di CompCap-118K mediante il fine-tuning supervisionato dei MLLMs di tre dimensioni: xGen-MM-inst.-4B e LLaVA-NeXT-Vicuna-7B/13B. I risultati empirici mostrano che CompCap-118K migliora significativamente la comprensione delle CIs da parte dei MLLMs, generando guadagni medi del 1,7%, 2,0% e 2,9% rispettivamente su undici benchmark.
Lo Splatting Gaussiano 3D ha dimostrato un notevole successo nella ricostruzione di scene su larga scala, ma persistono sfide a causa dell'elevato consumo di memoria durante l'addestramento e dell'overhead di archiviazione. Le rappresentazioni ibride che integrano caratteristiche implicite ed esplicite offrono un modo per mitigare tali limitazioni. Tuttavia, quando applicate nell'addestramento a blocchi parallelizzati, sorgono due problemi critici poiché la precisione della ricostruzione peggiora a causa della ridotta diversità dei dati quando si addestra ciascun blocco indipendentemente, e l'addestramento parallelo limita il numero di blocchi divisi al numero di GPU disponibili. Per affrontare tali questioni, proponiamo Momentum-GS, un nuovo approccio che sfrutta l'autodistillazione basata sul momento per promuovere coerenza e precisione tra i blocchi, mentre separa il numero di blocchi dal conteggio fisico delle GPU. Il nostro metodo mantiene un decodificatore Gaussiano di riferimento aggiornato con il momento, garantendo una guida stabile durante l'addestramento. Questo decodificatore fornisce a ciascun blocco una guida globale in modo di autodistillazione, promuovendo la coerenza spaziale nella ricostruzione. Per garantire ulteriormente la coerenza tra i blocchi, incorporiamo un pesaggio dei blocchi, regolando dinamicamente il peso di ciascun blocco in base alla sua precisione di ricostruzione. Estesi esperimenti su scene su larga scala mostrano che il nostro metodo supera costantemente le tecniche esistenti, ottenendo un miglioramento del 12,8% in LPIPS rispetto a CityGaussian con un numero molto inferiore di blocchi divisi e stabilendo un nuovo stato dell'arte. Pagina del progetto: https://jixuan-fan.github.io/Momentum-GS_Page/
L'Intelligenza Artificiale Multimodale ha il potenziale per migliorare significativamente le attività di comprensione dei documenti, come l'elaborazione delle ricevute, la comprensione dei flussi di lavoro, l'estrazione dei dati dai documenti e la sintesi dei report. Anche le attività di generazione di codice che richiedono output strutturati lunghi possono beneficiare della multimodalità. Tuttavia, il loro utilizzo nelle applicazioni commerciali è spesso limitato a causa dell'accesso limitato ai dati di addestramento e delle restrittive licenze, che ostacolano l'accesso aperto. Per affrontare queste limitazioni, presentiamo BigDocs-7.5M, un dataset di alta qualità ad accesso aperto composto da 7,5 milioni di documenti multimodali su 30 compiti. Utilizziamo un efficiente processo di cura dei dati per garantire che i nostri dati siano di alta qualità e con licenza permissiva. Il nostro processo enfatizza l'accountability, la responsabilità e la trasparenza attraverso regole di filtraggio, metadati tracciabili e un'attenta analisi dei contenuti. Inoltre, presentiamo BigDocs-Bench, una suite di benchmark con 10 nuovi compiti in cui creiamo dataset che riflettono casi d'uso del mondo reale che coinvolgono il ragionamento sulle Interfacce Grafiche Utente (GUI) e la generazione di codice da immagini. I nostri esperimenti mostrano che l'addestramento con BigDocs-Bench migliora le prestazioni medie fino al 25,8% rispetto a GPT-4o sorgente chiusa nel ragionamento sui documenti e nei compiti di output strutturato come la generazione di Screenshot2HTML o Image2Latex. Infine, le valutazioni umane hanno mostrato una preferenza per gli output dai modelli addestrati su BigDocs rispetto a GPT-4o. Ciò suggerisce che BigDocs possa aiutare sia gli accademici che la comunità open-source a utilizzare e migliorare gli strumenti di Intelligenza Artificiale per potenziare le capacità multimodali e il ragionamento sui documenti. Il progetto è ospitato su https://bigdocs.github.io.
I video del mondo reale sono composti da sequenze di eventi. Generare tali sequenze con un controllo temporale preciso è impraticabile con i generatori video esistenti che si basano su un singolo paragrafo di testo in ingresso. Quando incaricati di generare più eventi descritti utilizzando un'unica istruzione, tali metodi spesso ignorano alcuni eventi o non riescono a disporli nell'ordine corretto. Per affrontare questa limitazione, presentiamo MinT, un generatore video multi-evento con controllo temporale. La nostra intuizione chiave è quella di legare ciascun evento a un periodo specifico nel video generato, il che consente al modello di concentrarsi su un evento alla volta. Per consentire interazioni consapevoli del tempo tra didascalie degli eventi e token video, progettiamo un metodo di codifica posizionale basato sul tempo, chiamato ReRoPE. Questa codifica aiuta a guidare l'operazione di cross-attenzione. Mediante il raffinamento di un trasformatore di diffusione video preaddestrato su dati temporalmente ancorati, il nostro approccio produce video coerenti con eventi collegati in modo fluido. Per la prima volta nella letteratura, il nostro modello offre controllo sul timing degli eventi nei video generati. Estesi esperimenti dimostrano che MinT supera di gran lunga i modelli open-source esistenti.
In questo articolo, presentiamo PanoDreamer, un nuovo metodo per produrre una scena coerente in 3D a 360° da un'unica immagine di input. A differenza dei metodi esistenti che generano la scena in modo sequenziale, formuliamo il problema come stima di panorama e profondità da singola immagine. Una volta ottenuta l'immagine panoramica coerente e la relativa profondità, la scena può essere ricostruita riempiendo le piccole regioni occulse e proiettandole nello spazio 3D. Il nostro contributo principale consiste nel formulare la stima di panorama e profondità da singola immagine come due compiti di ottimizzazione e nell'introdurre strategie di minimizzazione alternata per risolvere efficacemente i loro obiettivi. Dimostriamo che il nostro approccio supera le tecniche esistenti nella ricostruzione di scene a 360° da singola immagine in termini di coerenza e qualità complessiva.
La ricostruzione delle scene indoor rimane una sfida a causa della complessità intrinseca delle strutture spaziali e della presenza diffusa di regioni prive di texture. Gli avanzamenti recenti nello Splatting Gaussiano 3D hanno migliorato la sintesi di nuove visuali con un'elaborazione accelerata, ma devono ancora offrire prestazioni comparabili nella ricostruzione superficiale. In questo articolo, presentiamo 2DGS-Room, un nuovo metodo che sfrutta lo Splatting Gaussiano 2D per la ricostruzione ad alta fedeltà delle scene indoor. In particolare, impieghiamo un meccanismo guidato da seme per controllare la distribuzione dei Gaussiani 2D, con la densità dei punti seme ottimizzata dinamicamente attraverso meccanismi di crescita adattiva e potatura. Per migliorare ulteriormente l'accuratezza geometrica, incorporiamo profondità monoculare e vincoli normali per fornire dettagli e regioni prive di texture rispettivamente. Inoltre, vengono impiegati vincoli di coerenza multi-vista per mitigare artefatti e migliorare ulteriormente la qualità della ricostruzione. Esperimenti approfonditi sui dataset ScanNet e ScanNet++ dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella ricostruzione delle scene indoor.
I grandi modelli linguistici (LLM) hanno reso il dialogo uno dei principali modi di interazione uomo-macchina, portando all'accumulo di vaste quantità di registri di conversazioni e all'aumento della domanda di generazione di dialoghi. Un ciclo di vita conversazionale si estende dal Preludio attraverso l'Interloquio fino all'Epilogo, comprendendo vari elementi. Nonostante l'esistenza di numerosi studi relativi al dialogo, mancano dei punti di riferimento che includano elementi di dialogo completi, ostacolando la modellazione precisa e la valutazione sistematica. Per colmare questa lacuna, presentiamo un'innovativa attività di ricerca Modellazione degli Elementi del Dialogo, che include la Consapevolezza degli Elementi e l'Interazione dell'Agente di Dialogo, e proponiamo un nuovo punto di riferimento, DEMO, progettato per una modellazione e valutazione completa del dialogo. Ispirati dall'apprendimento per imitazione, costruiamo inoltre l'agente che possiede l'abile capacità di modellare gli elementi del dialogo basandosi sul punto di riferimento DEMO. Estesi esperimenti indicano che i LLM esistenti mostrano ancora un notevole potenziale di miglioramento e che il nostro agente DEMO ha prestazioni superiori sia nei compiti in-domain che out-of-domain.
Le ricompense rimangono un modo incomprensibile per specificare compiti per il Reinforcement Learning, poiché gli esseri umani spesso non sono in grado di prevedere il comportamento ottimale di una qualsiasi funzione di ricompensa, portando a una progettazione di ricompense scadente e a manipolazioni delle ricompense. Il linguaggio presenta un modo accattivante per comunicare l'intento agli agenti e bypassare la progettazione delle ricompense, ma gli sforzi precedenti in tal senso sono stati limitati da costosi e non scalabili sforzi di etichettatura. In questo lavoro, proponiamo un metodo per un'alternativa completamente non supervisionata per ancorare istruzioni linguistiche in modo zero-shot per ottenere politiche. Presentiamo una soluzione che prende la forma di immaginare, proiettare e imitare: l'agente immagina la sequenza di osservazioni corrispondente alla descrizione linguistica di un compito, proietta la sequenza immaginata nel nostro dominio target e la collega a una politica. I modelli video-linguaggio ci consentono di immaginare descrizioni di compiti che sfruttano la conoscenza dei compiti appresi da mapping video-testo su scala internet. La sfida rimane nell'ancorare queste generazioni a una politica. In questo lavoro, mostriamo che possiamo raggiungere una politica linguaggio-comportamento zero-shot ancorando prima le sequenze immaginate nelle osservazioni reali di un agente RL non supervisionato e utilizzando una soluzione in forma chiusa per l'apprendimento per imitazione che consente all'agente RL di imitare le osservazioni ancorate. Il nostro metodo, RLZero, è il primo a nostra conoscenza a mostrare abilità di generazione di comportamento da linguaggio a zero-shot senza alcuna supervisione su una varietà di compiti in domini simulati. Mostriamo inoltre che RLZero può generare politiche zero-shot anche da video con corpi incrociati come quelli estratti da YouTube.