Articoli di ricerca IA selezionati quotidianamente con traduzioni
Estendere la lunghezza del contesto dei Modelli Linguistici (LM) migliorando l'Incorporamento della Posizione Rotativa (RoPE) è diventato una tendenza. Mentre i lavori esistenti affrontano principalmente le limitazioni di RoPE all'interno del meccanismo di attenzione, questo articolo fornisce un'analisi su quasi tutte le parti dei LM, scoprendo i loro effetti negativi sulla generalizzazione della lunghezza per l'attenzione basata su RoPE. Utilizzando la teoria del Trattamento del Segnale Discreto, mostriamo che RoPE consente un'attenzione periodica raggiungendo implicitamente la Trasformata di Fourier Discreta Non Uniforme. Tuttavia, questa periodicità è compromessa dal danno spettrale causato da: 1) strati lineari e funzioni di attivazione al di fuori dell'attenzione; 2) componenti di frequenza insufficientemente addestrate portate dalla troncatura nel dominio del tempo. Sulla base delle nostre osservazioni, proponiamo l'Incorporamento della Posizione di Fourier (FoPE), che potenzia le proprietà nel dominio delle frequenze dell'attenzione per migliorare sia la sua estensione periodica che la generalizzazione della lunghezza. FoPE costruisce la Serie di Fourier e annulla le componenti di frequenza distruttive, aumentando la robustezza del modello contro il danno spettrale. Gli esperimenti su varie scale di modelli mostrano che, all'interno di finestre di contesto variabili, FoPE può mantenere una perplessità più stabile e una precisione più coerente in un compito di ricerca dell'ago nel pagliaio rispetto a RoPE e ALiBi. Diverse analisi e ablati forniscono ulteriore supporto al nostro metodo e alla modellazione teorica.
Un grafo della scena 3D rappresenta un modello di scena compatto, memorizzando informazioni sugli oggetti e sulle relazioni semantiche tra di essi, rendendo il suo utilizzo promettente per compiti robotici. Quando interagisce con un utente, un agente intelligente incorporato dovrebbe essere in grado di rispondere a varie richieste sulla scena formulate in linguaggio naturale. I Grandi Modelli Linguistici (LLM) sono soluzioni vantaggiose per l'interazione utente-robot grazie alla loro comprensione del linguaggio naturale e alle capacità di ragionamento. I metodi recenti per la creazione di rappresentazioni apprendibili di scene 3D hanno dimostrato il potenziale di migliorare la qualità delle risposte dei LLM adattandosi al mondo 3D. Tuttavia, i metodi esistenti non utilizzano esplicitamente informazioni sulle relazioni semantiche tra gli oggetti, limitandosi alle informazioni sulle loro coordinate. In questo lavoro, proponiamo un metodo 3DGraphLLM per la costruzione di una rappresentazione apprendibile di un grafo della scena 3D. La rappresentazione apprendibile viene utilizzata come input per i LLM per eseguire compiti di visione-linguaggio 3D. Nei nostri esperimenti sui popolari dataset ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D e Scan2cap, dimostriamo il vantaggio di questo approccio rispetto ai metodi di base che non utilizzano informazioni sulle relazioni semantiche tra gli oggetti. Il codice è disponibile pubblicamente su https://github.com/CognitiveAISystems/3DGraphLLM.
I valori mancanti rimangono una sfida comune per i dati di profondità in una vasta gamma di applicazioni, derivanti da varie cause come l'acquisizione incompleta dei dati e l'alterazione della prospettiva. Questo lavoro colma questa lacuna con DepthLab, un modello di completamento della profondità di base alimentato da priorità di diffusione delle immagini. Il nostro modello presenta due punti di forza notevoli: (1) dimostra resilienza alle regioni con carenza di profondità, fornendo un completamento affidabile sia per aree continue che per punti isolati, e (2) conserva fedelmente la coerenza di scala con la profondità nota condizionata durante il riempimento dei valori mancanti. Sfruttando questi vantaggi, il nostro approccio dimostra il suo valore in vari compiti successivi, inclusi il completamento di scene 3D, la generazione di scene 3D da testo, la ricostruzione a vista sparata con DUST3R e il completamento della profondità LiDAR, superando le soluzioni attuali sia in termini di prestazioni numeriche che di qualità visiva. La pagina del nostro progetto con il codice sorgente è disponibile su https://johanan528.github.io/depthlab_web/.
I modelli di generazione video simili a Sora hanno ottenuto progressi notevoli con un'architettura Multi-Modal Diffusion Transformer (MM-DiT). Tuttavia, i modelli attuali di generazione video si concentrano principalmente su singole istruzioni, faticando a generare scene coerenti con più istruzioni sequenziali che riflettano meglio scenari dinamici del mondo reale. Mentre alcuni lavori pionieristici hanno esplorato la generazione di video con più istruzioni, si trovano di fronte a sfide significative, tra cui rigorosi requisiti di dati di addestramento, debole sequenza di istruzioni e transizioni non naturali. Per affrontare questi problemi, proponiamo DiTCtrl, un metodo di generazione video multi-istruzione senza addestramento sotto architetture MM-DiT per la prima volta. La nostra idea chiave è considerare il compito di generazione video multi-istruzione come un editing video temporale con transizioni fluide. Per raggiungere questo obiettivo, analizziamo prima il meccanismo di attenzione di MM-DiT, scoprendo che l'attenzione completa 3D si comporta in modo simile a quella dei blocchi di attenzione incrociata/auto-attenzione nei modelli di diffusione simili a UNet, consentendo un controllo semantico preciso guidato da maschere attraverso diverse istruzioni con condivisione di attenzione per la generazione di video multi-istruzione. Sulla base del nostro progetto attento, il video generato da DiTCtrl raggiunge transizioni fluide e movimento degli oggetti coerente date le diverse istruzioni sequenziali senza ulteriore addestramento. Inoltre, presentiamo anche MPVBench, un nuovo benchmark appositamente progettato per la generazione di video multi-istruzione per valutare le prestazioni della generazione multi-istruzione. Estesi esperimenti dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia senza ulteriore addestramento.
I generatori di testo o immagini in 3D e gli scanner 3D possono ora produrre asset in 3D con forme e texture di alta qualità. Questi asset consistono tipicamente in una singola rappresentazione fusa, come un campo neurale implicito, una miscela gaussiana o una mesh, senza alcuna struttura utile. Tuttavia, la maggior parte delle applicazioni e dei flussi di lavoro creativi richiedono che gli asset siano composti da diverse parti significative che possono essere manipulate indipendentemente. Per affrontare questa lacuna, presentiamo PartGen, un nuovo approccio che genera oggetti in 3D composti da parti significative a partire da testo, un'immagine o un oggetto 3D non strutturato. Innanzitutto, date varie viste di un oggetto 3D, generate o renderizzate, un modello di diffusione multi-vista estrae un insieme di segmentazioni di parti plausibili e coerenti con le viste, dividendo l'oggetto in parti. Successivamente, un secondo modello di diffusione multi-vista prende ciascuna parte separatamente, riempie le occlusioni e utilizza quelle viste completate per la ricostruzione 3D alimentandole a una rete di ricostruzione 3D. Questo processo di completamento tiene conto del contesto dell'intero oggetto per garantire che le parti si integrino in modo coeso. Il modello generativo di completamento può compensare le informazioni mancanti a causa delle occlusioni; nei casi estremi, può creare parti interamente invisibili basandosi sull'asset 3D di input. Valutiamo il nostro metodo su asset 3D generati e reali e mostriamo che supera di gran lunga i baselines di segmentazione ed estrazione delle parti. Mostriamo inoltre applicazioni successive come la modifica delle parti in 3D.
Nonostante i recenti progressi nei grandi modelli linguistici, i modelli open-source spesso faticano a ottenere risultati consistenti su complesse attività di ragionamento. I metodi di ensemble esistenti, sia applicati a livello di token che di output, non riescono a risolvere tali sfide. In risposta, presentiamo Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), un nuovo framework per l'ensemble a livello di processo dei modelli linguistici. LE-MCTS formula il ragionamento passo dopo passo con un ensemble di modelli linguistici come un processo decisionale di Markov. In questo framework, gli stati rappresentano percorsi intermedi di ragionamento, mentre le azioni consistono nella generazione del prossimo passo di ragionamento utilizzando uno dei modelli linguistici selezionati da un pool predefinito. Guidato da un modello di reward basato sul processo, LE-MCTS esegue una ricerca ad albero sui passaggi di ragionamento generati da diversi modelli linguistici, identificando la catena di ragionamento più accurata. I risultati sperimentali su cinque benchmark di ragionamento matematico dimostrano che il nostro approccio supera sia gli algoritmi di decodifica dei singoli modelli linguistici che i metodi di ensemble dei modelli linguistici. In particolare, LE-MCTS migliora le prestazioni del 3,6% e del 4,3% rispettivamente sui dataset MATH e MQA, evidenziando la sua efficacia nella risoluzione di complessi problemi di ragionamento.
La sfida ARC sembra essere più difficile della versione ARC Easy per i moderni LLM principalmente a causa di un setup di valutazione che impedisce il confronto diretto delle scelte di risposta piuttosto che per complessità intrinseca. Sebbene alcuni ricercatori abbiano silenziosamente adottato uno schema più appropriato nell'ultimo anno, le implicazioni di questo cambiamento devono ancora essere ampiamente riconosciute. Mettiamo in evidenza questo cambiamento trascurato, mostriamo come pratiche di valutazione simili implicano erroneamente deficit di ragionamento in altri benchmark e dimostriamo che metodi più equi riducono drasticamente i divari di prestazioni (ad es. su SIQA) e possono persino produrre risultati sovrumani (OpenBookQA). In tal modo, riveliamo come la valutazione plasmi la percezione della difficoltà e offriamo linee guida per garantire che le valutazioni a scelta multipla riflettano accuratamente le reali capacità del modello.
I modelli Mixture-of-Experts (MoE) attivati in modo sparso sono ampiamente adottati per aumentare la capacità del modello senza aumentare il budget computazionale. Tuttavia, i router TopK vanilla vengono addestrati in modo discontinuo e non differenziabile, limitando le loro prestazioni e scalabilità. Per affrontare questo problema, proponiamo ReMoE, un'architettura MoE completamente differenziabile che offre un semplice ma efficace sostituto per il routing convenzionale TopK+Softmax, utilizzando ReLU come router al suo posto. Proponiamo inoltre metodi per regolare la sparità del router bilanciando il carico tra gli esperti. La natura continua di ReMoE consente un'allocazione dinamica efficiente della computazione tra token e livelli, mostrando anche una specializzazione di dominio. I nostri esperimenti dimostrano che ReMoE supera costantemente i MoE con routing TopK vanilla su varie dimensioni del modello, conteggi di esperti e livelli di granularità. Inoltre, ReMoE mostra una scalabilità superiore rispetto al numero di esperti, superando le architetture MoE tradizionali. L'implementazione basata su Megatron-LM è disponibile su https://github.com/thu-ml/ReMoE.
I sistemi di Generazione potenziata da Recupero (RAG) sono diventati cruciali nel sfruttare vaste corpora per generare risposte informate e pertinenti dal punto di vista contestuale, riducendo notevolmente le allucinazioni nei Grandi Modelli Linguistici. Nonostante significativi progressi, questi sistemi faticano ad elaborare ed estrarre informazioni in modo efficiente da grandi set di dati, mantenendo al contempo una comprensione esaustiva del contesto. Questo articolo introduce SKETCH, una nuova metodologia che potenzia il processo di recupero RAG integrando il recupero semantico del testo con i grafi di conoscenza, unendo così dati strutturati e non strutturati per una comprensione più completa. SKETCH dimostra consistenti miglioramenti nelle prestazioni di recupero e mantiene un'integrità del contesto superiore rispetto ai metodi tradizionali. Valutato su quattro set di dati diversi: QuALITY, QASPER, NarrativeQA e Cucina Italiana, SKETCH supera costantemente le approcci di base su metriche chiave RAGAS come rilevanza_risposta, fedeltà, precisione_contesto e richiamo_contesto. In particolare, nel set di dati sulla Cucina Italiana, SKETCH ha raggiunto una rilevanza della risposta del 0,94 e una precisione del contesto del 0,99, rappresentando le prestazioni più elevate tra tutte le metriche valutate. Questi risultati evidenziano la capacità di SKETCH di fornire risposte più accurate e pertinenti dal punto di vista contestuale, stabilendo nuovi standard per i futuri sistemi di recupero.
I progressi nell'ambito dell'IA sono principalmente guidati dalla scala e dalla qualità dei dati di addestramento. Nonostante ciò, manca un'analisi empirica che esamini gli attributi dei dataset ben consolidati al di là del testo. In questo lavoro, conduciamo il più grande e primo audit longitudinale del suo genere attraverso diverse modalità - testo, voce e video - analizzando le tendenze dettagliate della loro origine e delle restrizioni d'uso, nonché la loro rappresentazione geografica e linguistica. La nostra analisi manuale copre quasi 4000 dataset pubblici tra il 1990 e il 2024, che includono 608 lingue, 798 fonti, 659 organizzazioni e 67 paesi. Scopriamo che le applicazioni di apprendimento automatico multimodale si sono rivolte in modo schiacciante a piattaforme web-crawled, sintetiche e di social media, come YouTube, per i loro set di addestramento, superando tutte le altre fonti dal 2019. In secondo luogo, tracciando la catena di derivazioni dei dataset, scopriamo che mentre meno del 33% dei dataset ha una licenza restrittiva, oltre l'80% dei contenuti sorgente nei dataset ampiamente utilizzati di testo, voce e video presenta restrizioni non commerciali. Infine, contrariamente al crescente numero di lingue e geografie rappresentate nei dataset pubblici di addestramento di IA, il nostro audit dimostra che le misure di rappresentazione geografica e multilingue relativa non sono riuscite a migliorare significativamente la loro copertura dal 2013. Riteniamo che l'ampiezza del nostro audit ci consenta di esaminare empiricamente le tendenze nell'origine dei dati, nelle restrizioni e nella centralità occidentale a livello di ecosistema, e che la visibilità su queste questioni sia essenziale per progredire in un'IA responsabile. Come contributo al miglioramento continuo della trasparenza dei dataset e all'uso responsabile, rilasciamo l'intero nostro audit multimodale, consentendo agli operatori di tracciare la provenienza dei dati tra testo, voce e video.
La generazione di Video da Testo-Immagine (TI2V) mira a generare un video da un'immagine seguendo una descrizione testuale, anche nota come animazione guidata dal testo. La maggior parte dei metodi esistenti fatica a generare video che si allineano bene con le indicazioni testuali, specialmente quando viene specificato il movimento. Per superare questa limitazione, presentiamo MotiF, un approccio semplice ma efficace che guida l'apprendimento del modello verso le regioni con maggiore movimento, migliorando così l'allineamento del testo e la generazione del movimento. Utilizziamo il flusso ottico per generare una mappa di movimento e ponderare la perdita in base all'intensità del movimento. Questo obiettivo modificato porta a miglioramenti significativi e integra i metodi esistenti che utilizzano i priori di movimento come input del modello. Inoltre, a causa della mancanza di un benchmark diversificato per valutare la generazione TI2V, proponiamo TI2V Bench, un dataset composto da 320 coppie immagine-testo per una valutazione robusta. Presentiamo un protocollo di valutazione umana che chiede agli annotatori di selezionare una preferenza complessiva tra due video seguita dalle loro giustificazioni. Attraverso una valutazione completa su TI2V Bench, MotiF supera nove modelli open-source, ottenendo una preferenza media del 72%. TI2V Bench è disponibile su https://wang-sj16.github.io/motif/.