Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti linguistici hanno dimostrato impressionanti capacità di risoluzione dei problemi in contesti definiti e tempi brevi. Tuttavia, con le complessità in continua evoluzione delle simulazioni in mondi aperti, c'è un urgente bisogno di agenti che possano adattarsi flessibilmente ad ambienti complessi e mantenere costantemente una memoria a lungo termine per garantire azioni coerenti. Per colmare il divario tra gli agenti linguistici e i giochi in mondi aperti, introduciamo Language Agent for Role-Playing (LARP), che include un'architettura cognitiva che comprende l'elaborazione della memoria e un assistente decisionale, un modulo di interazione con l'ambiente dotato di uno spazio d'azione apprendibile guidato dal feedback, e un metodo di post-elaborazione che promuove l'allineamento di varie personalità. Il framework LARP perfeziona le interazioni tra utenti e agenti, predefiniti con background e personalità unici, migliorando infine l'esperienza di gioco in contesti di mondi aperti. Inoltre, evidenzia gli usi diversificati dei modelli linguistici in una gamma di aree come intrattenimento, educazione e vari scenari di simulazione. La pagina del progetto è disponibile all'indirizzo https://miao-ai-lab.github.io/LARP/.
I modelli di diffusione hanno rivoluzionato la sintesi da immagine a immagine (I2I) e si stanno ora diffondendo nei video. Tuttavia, il progresso della sintesi da video a video (V2V) è stato ostacolato dalla sfida di mantenere la coerenza temporale tra i fotogrammi del video. Questo articolo propone un framework coerente per la sintesi V2V sfruttando congiuntamente le condizioni spaziali e gli indizi del flusso ottico temporale all'interno del video sorgente. Contrariamente ai metodi precedenti che aderiscono rigidamente al flusso ottico, il nostro approccio ne sfrutta i vantaggi gestendo al contempo le imperfezioni nella stima del flusso. Codifichiamo il flusso ottico tramite deformazione a partire dal primo fotogramma e lo utilizziamo come riferimento supplementare nel modello di diffusione. Ciò consente al nostro modello di sintetizzare video modificando il primo fotogramma con qualsiasi modello I2I prevalente e poi propagando le modifiche ai fotogrammi successivi. Il nostro modello V2V, FlowVid, dimostra proprietà notevoli: (1) Flessibilità: FlowVid funziona perfettamente con i modelli I2I esistenti, facilitando varie modifiche, tra cui stilizzazione, scambio di oggetti e modifiche locali. (2) Efficienza: La generazione di un video di 4 secondi con 30 FPS e risoluzione 512x512 richiede solo 1,5 minuti, il che è 3,1x, 7,2x e 10,5x più veloce rispetto a CoDeF, Rerender e TokenFlow, rispettivamente. (3) Alta qualità: Negli studi sugli utenti, il nostro FlowVid è preferito il 45,7% delle volte, superando CoDeF (3,5%), Rerender (10,2%) e TokenFlow (40,4%).
La recente tendenza dei grandi modelli linguistici (LLM) è quella di aumentare la scala sia delle dimensioni del modello (\aka il numero di parametri) che del dataset per ottenere una migliore capacità generativa, come dimostrato da numerosi lavori, tra cui i famosi GPT e Llama. Tuttavia, i modelli di grandi dimensioni spesso comportano costi computazionali elevati, e le applicazioni pratiche non possono sostenere prezzi così alti. Inoltre, il metodo per costruire un'architettura di modello robusta per gli LLM è raramente discusso. Iniziamo analizzando le architetture dei modelli linguistici all'avanguardia e osserviamo il problema del collasso delle caratteristiche. Sulla base dell'analisi teorica, proponiamo che la non linearità sia altrettanto importante per i modelli linguistici, un aspetto solitamente studiato nelle reti neurali convoluzionali per compiti di visione. Introduciamo quindi la funzione di attivazione informata in serie con calcoli minimi che possono essere ignorati, e utilizziamo un collegamento shortcut potenziato per migliorare la non linearità del modello. Dimostriamo poi che l'approccio proposto è significativamente efficace per migliorare la non linearità del modello attraverso ablazioni accuratamente progettate; presentiamo quindi una nuova architettura di modello efficiente per stabilire un modello moderno, denominato PanGu-pi. Gli esperimenti vengono condotti utilizzando lo stesso dataset e la stessa strategia di addestramento per confrontare PanGu-pi con gli LLM all'avanguardia. I risultati mostrano che PanGu-pi-7B può raggiungere una performance comparabile a quella dei benchmark con un aumento della velocità di inferenza di circa il 10%, e PanGu-pi-1B può raggiungere prestazioni all'avanguardia in termini di accuratezza ed efficienza. Inoltre, abbiamo implementato PanGu-pi-7B nei domini ad alto valore di finanza e diritto, sviluppando un LLM denominato YunShan per applicazioni pratiche. I risultati mostrano che YunShan può superare altri modelli di scala simile sui benchmark.
Presentiamo SynCLR, un approccio innovativo per l'apprendimento di rappresentazioni visive esclusivamente da immagini sintetiche e didascalie sintetiche, senza l'utilizzo di dati reali. Sintetizziamo un ampio dataset di didascalie per immagini utilizzando modelli linguistici di grandi dimensioni (LLM), per poi generare più immagini corrispondenti a ciascuna didascalia sintetica mediante un modello predefinito di testo-immagine. Eseguiamo l'apprendimento di rappresentazioni visive su queste immagini sintetiche attraverso l'apprendimento contrastivo, trattando le immagini che condividono la stessa didascalia come coppie positive. Le rappresentazioni risultanti si trasferiscono efficacemente a molte attività downstream, competendo favorevolmente con altri metodi general-purpose per l'apprendimento di rappresentazioni visive come CLIP e DINO v2 nelle attività di classificazione delle immagini. Inoltre, in attività di predizione densa come la segmentazione semantica, SynCLR supera significativamente i precedenti metodi auto-supervisionati, ad esempio migliorando di 6,2 e 4,3 mIoU rispetto a MAE e iBOT su ADE20k per ViT-B/16.
Il crescente interesse per i Modelli Linguistici Multimodali di Grande Scala (MLLMs), come GPT-4V(ision) di OpenAI, ha avuto un impatto significativo sia in ambito accademico che industriale. Questi modelli potenziano i Modelli Linguistici di Grande Scala (LLMs) con capacità avanzate di comprensione visiva, facilitando la loro applicazione in una varietà di compiti multimodali. Recentemente, Google ha introdotto Gemini, un MLLM all'avanguardia progettato specificamente per l'integrazione multimodale. Nonostante i suoi progressi, i benchmark preliminari indicano che Gemini è in ritardo rispetto ai modelli GPT nei compiti di ragionamento basato sul senso comune. Tuttavia, questa valutazione, basata su un dataset limitato (ad esempio, HellaSWAG), non cattura appieno il potenziale autentico di ragionamento basato sul senso comune di Gemini. Per colmare questa lacuna, il nostro studio intraprende una valutazione approfondita delle prestazioni di Gemini in compiti di ragionamento complesso che richiedono l'integrazione di conoscenza di senso comune attraverso le modalità. Eseguiamo un'analisi completa di 12 dataset di ragionamento basato sul senso comune, che spaziano da compiti generali a compiti specifici di dominio. Questo include 11 dataset focalizzati esclusivamente sul linguaggio, oltre a uno che incorpora elementi multimodali. I nostri esperimenti su quattro LLMs e due MLLMs dimostrano le capacità competitive di Gemini nel ragionamento basato sul senso comune. Inoltre, identifichiamo le sfide comuni affrontate dagli attuali LLMs e MLLMs nel risolvere problemi di senso comune, sottolineando la necessità di ulteriori progressi nel migliorare le capacità di ragionamento basato sul senso comune di questi modelli.