Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, presentiamo i risultati del nostro Progetto ALPINE, acronimo di "Autoregressive Learning for Planning In NEtworks". Il Progetto ALPINE avvia un'indagine teorica sullo sviluppo delle capacità di pianificazione nei modelli linguistici basati su Transformer attraverso i loro meccanismi di apprendimento autoregressivo, con l'obiettivo di identificare eventuali limitazioni nelle loro abilità di pianificazione. Astraiamo la pianificazione come un'attività di ricerca di percorsi in una rete, in cui l'obiettivo è generare un percorso valido da un nodo sorgente specificato a un nodo target designato. In termini di espressività, dimostriamo che il Transformer è in grado di eseguire la ricerca di percorsi incorporando le matrici di adiacenza e raggiungibilità all'interno dei suoi pesi. La nostra analisi teorica della dinamica di apprendimento basata sui gradienti del Transformer rivela che il Transformer è in grado di apprendere sia la matrice di adiacenza che una forma limitata della matrice di raggiungibilità. Queste intuizioni teoriche vengono poi validate attraverso esperimenti, che dimostrano che il Transformer apprende effettivamente la matrice di adiacenza e una matrice di raggiungibilità incompleta, in linea con le previsioni fatte nella nostra analisi teorica. Inoltre, applicando la nostra metodologia a un benchmark di pianificazione del mondo reale, chiamato Blocksworld, le nostre osservazioni rimangono coerenti. Le nostre analisi teoriche ed empiriche rivelano ulteriormente una potenziale limitazione del Transformer nella ricerca di percorsi: non è in grado di identificare relazioni di raggiungibilità attraverso la transitività e quindi fallirebbe quando è necessaria la concatenazione di percorsi per generare un percorso. In sintesi, i nostri risultati gettano nuova luce su come i meccanismi interni dell'apprendimento autoregressivo abilitano la pianificazione nelle reti. Questo studio può contribuire alla nostra comprensione delle capacità generali di pianificazione in altri domini correlati.
Presentiamo Xmodel-VLM, un modello linguistico visivo multimodale all'avanguardia. È progettato per un'implementazione efficiente su server GPU consumer. Il nostro lavoro affronta direttamente una questione cruciale del settore, contrastando i costi di servizio proibitivi che ostacolano l'adozione diffusa di sistemi multimodali su larga scala. Attraverso un addestramento rigoroso, abbiamo sviluppato un modello linguistico su scala 1B partendo da zero, utilizzando il paradigma LLaVA per l'allineamento modale. Il risultato, che abbiamo chiamato Xmodel-VLM, è un modello linguistico visivo multimodale leggero ma potente. Test approfonditi su numerosi benchmark multimodali classici hanno rivelato che, nonostante le dimensioni ridotte e l'esecuzione più veloce, Xmodel-VLM offre prestazioni paragonabili a quelle di modelli più grandi. I nostri checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/XiaoduoAILab/XmodelVLM.
In questo articolo, esploriamo il potenziale dell'utilizzo di modelli di diffusione latente, una famiglia di potenti modelli generativi, per il compito di ricostruire musica naturalistica a partire da registrazioni di elettroencefalogramma (EEG). A differenza di musica più semplice con timbri limitati, come brani generati da MIDI o pezzi monofonici, l'attenzione qui è rivolta a musica complessa che presenta una vasta gamma di strumenti, voci ed effetti, ricca di armoniche e timbri. Questo studio rappresenta un primo tentativo di ottenere una ricostruzione musicale generale di alta qualità utilizzando dati EEG non invasivi, impiegando un approccio di addestramento end-to-end direttamente sui dati grezzi senza la necessità di pre-elaborazione manuale e selezione dei canali. Addestriamo i nostri modelli sul dataset pubblico NMED-T e eseguiamo una valutazione quantitativa proponendo metriche basate su embedding neurali. Inoltre, eseguiamo una classificazione dei brani basata sulle tracce generate. Il nostro lavoro contribuisce alla ricerca in corso sul decoding neurale e sulle interfacce cervello-computer, offrendo approfondimenti sulla fattibilità dell'utilizzo di dati EEG per la ricostruzione di informazioni uditive complesse.
La valutazione sistematica e la comprensione dei modelli di visione artificiale in condizioni variabili richiedono grandi quantità di dati con etichette complete e personalizzate, un requisito che raramente viene soddisfatto dai dataset di visione del mondo reale. Sebbene i generatori di dati sintetici attuali offrano un'alternativa promettente, in particolare per i task di intelligenza artificiale incarnata, spesso risultano inadeguati per i task di visione artificiale a causa della bassa qualità degli asset e del rendering, della diversità limitata e delle proprietà fisiche irrealistiche. Introduciamo il BEHAVIOR Vision Suite (BVS), un insieme di strumenti e asset per generare dati sintetici completamente personalizzati per la valutazione sistematica dei modelli di visione artificiale, basato sul nuovo benchmark di intelligenza artificiale incarnata, BEHAVIOR-1K. BVS supporta un ampio numero di parametri regolabili a livello di scena (ad esempio, illuminazione, posizionamento degli oggetti), a livello di oggetto (ad esempio, configurazione dei giunti, attributi come "riempito" e "piegato") e a livello di camera (ad esempio, campo visivo, lunghezza focale). I ricercatori possono variare arbitrariamente questi parametri durante la generazione dei dati per condurre esperimenti controllati. Presentiamo tre scenari applicativi di esempio: valutare sistematicamente la robustezza dei modelli lungo diversi assi continui di cambiamento di dominio, valutare i modelli di comprensione della scena sullo stesso set di immagini, e addestrare e valutare il trasferimento da simulazione a realtà per un nuovo task di visione: la previsione di stati unari e binari. Sito web del progetto: https://behavior-vision-suite.github.io/