Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studiamo una nuova architettura di modello linguistico in grado di scalare il calcolo al momento del test ragionando implicitemente nello spazio latente. Il nostro modello funziona iterando un blocco ricorrente, srotolando quindi a profondità arbitraria al momento del test. Questo si contrappone ai modelli di ragionamento tradizionali che aumentano il calcolo producendo più token. A differenza degli approcci basati sulla concatenazione di pensieri, il nostro metodo non richiede dati di addestramento specializzati, può lavorare con finestre di contesto ridotte e può catturare tipi di ragionamento non facilmente rappresentabili con le parole. Scaliamo un modello di prova a 3,5 miliardi di parametri e 800 miliardi di token. Dimostriamo che il modello risultante può migliorare le sue prestazioni su benchmark di ragionamento, a volte in modo significativo, fino a un carico computazionale equivalente a 50 miliardi di parametri.
Questo articolo introduce Goku, una famiglia all'avanguardia di modelli di generazione congiunta di immagini e video che sfruttano i Transformers a flusso rettificato per ottenere prestazioni leader nel settore. Dettagliamo gli elementi fondamentali che consentono una generazione visiva di alta qualità, tra cui il processo di cura dei dati, la progettazione dell'architettura del modello, la formulazione del flusso e l'infrastruttura avanzata per un addestramento efficiente e robusto su larga scala. I modelli Goku dimostrano prestazioni superiori sia nelle valutazioni qualitative che quantitative, stabilendo nuovi benchmark in importanti compiti. In particolare, Goku raggiunge 0.76 su GenEval e 83.65 su DPG-Bench per la generazione di testo in immagini, e 84.85 su VBench per i compiti di testo in video. Riteniamo che questo lavoro fornisca preziose intuizioni e progressi pratici per la comunità di ricerca nello sviluppo di modelli congiunti di generazione di immagini e video.
Mentre l'Incorporamento della Posizione Rotativa (RoPE) e le sue varianti sono ampiamente adottati per le loro capacità di lungo contesto, l'estensione del RoPE 1D ai video, con la loro complessa struttura spazio-temporale, rimane una sfida aperta. Questo lavoro introduce innanzitutto un'analisi esaustiva che identifica quattro caratteristiche chiave essenziali per l'adattamento efficace del RoPE ai video, che non sono state pienamente considerate nei lavori precedenti. Come parte della nostra analisi, introduciamo un complesso compito V-NIAH-D (Ago in un Pagliaio Visivo con Distrattori), che aggiunge distrattori periodici a V-NIAH. Il compito V-NIAH-D dimostra che le precedenti varianti di RoPE, prive di un'adeguata allocazione dimensionale temporale, sono facilmente fuorviate dai distrattori. Sulla base della nostra analisi, introduciamo VideoRoPE, con una struttura 3D progettata per preservare le relazioni spazio-temporali. VideoRoPE presenta un'allocazione temporale a bassa frequenza per mitigare le oscillazioni periodiche, un layout diagonale per mantenere la simmetria spaziale e uno spaziamento temporale regolabile per disaccoppiare l'indicizzazione temporale e spaziale. VideoRoPE supera costantemente le precedenti varianti di RoPE, in una varietà di compiti successivi come il recupero di video di lunga durata, la comprensione dei video e l'allucinazione dei video. Il nostro codice sarà disponibile su https://github.com/Wiselnn570/VideoRoPE.
I Transformer di diffusione (DiTs) con attenzione completa 3D rappresentano lo stato dell'arte nella generazione di video, ma soffrono di costi computazionali proibitivi: quando si genera un video di 720P di soli 5 secondi, l'attenzione da sola richiede 800 secondi su un totale di 945 secondi di tempo di inferenza. Questo articolo introduce l'attenzione a piastrelle scorrevoli (STA) per affrontare questa sfida. STA sfrutta l'osservazione che i punteggi di attenzione nei modelli di diffusione video preaddestrati si concentrano principalmente all'interno di finestre 3D localizzate. Scorrendo e prestando attenzione alla regione spazio-temporale locale, STA elimina la ridondanza dell'attenzione completa. A differenza dell'attenzione tradizionale a finestra scorrevole basata su token (SWA), STA opera piastrella per piastrella con un design di finestra scorrevole innovativo consapevole dell'hardware, preservando l'espressività pur essendo efficiente in termini di hardware. Con ottimizzazioni a livello di kernel oculate, STA offre la prima implementazione efficiente di attenzione a finestra scorrevole 2D/3D, raggiungendo il 58,79% di MFU. In particolare, STA accelera l'attenzione di 2,8-17 volte rispetto a FlashAttention-2 (FA2) e di 1,6-10 volte rispetto a FlashAttention-3 (FA3). Sul principale DiT video, HunyuanVideo, STA riduce la latenza end-to-end da 945 secondi (FA3) a 685 secondi senza degradazione della qualità, senza richiedere alcun addestramento. Abilitando il fine-tuning, si riduce ulteriormente la latenza a 268 secondi con solo una diminuzione dello 0,09% su VBench.
Un approccio per ridurre i costi massicci dei grandi modelli linguistici (LLM) è l'utilizzo di rappresentazioni quantizzate o sparse per l'addestramento o il deployment. Sebbene i metodi di compressione post-addestramento siano molto popolari, la questione di ottenere modelli compressi ancora più accurati addestrandoli direttamente su tali rappresentazioni, cioè l'Addestramento Consapevole della Quantizzazione (QAT), è ancora aperta: ad esempio, uno studio recente (arXiv:2411.04330v2) ha individuato la "migliore" larghezza di bit con cui i modelli possono essere addestrati utilizzando QAT, rimanendo competitivi in termini di accuratezza rispetto alla precisione standard FP16/BF16, a 8 bit per pesi e attivazioni. Avanziamo questo stato dell'arte attraverso un nuovo metodo chiamato QuEST, che è competitivo secondo il principio di Pareto con FP16, cioè fornisce una maggiore accuratezza con dimensioni di modello inferiori, addestrando modelli con pesi e attivazioni a 4 bit o meno. Inoltre, QuEST consente un addestramento stabile con pesi e attivazioni a 1 bit. QuEST raggiunge questo risultato migliorando due aspetti chiave dei metodi QAT: (1) quantizzazione accurata e veloce delle distribuzioni (continue) di pesi e attivazioni tramite normalizzazione di Hadamard e adattamento ottimale MSE; (2) un nuovo stimatore del gradiente di fiducia basato sull'idea di minimizzare esplicitamente l'errore tra il gradiente rumoroso calcolato su stati quantizzati e il gradiente "vero" (ma sconosciuto) a piena precisione. Gli esperimenti su architetture di tipo Llama mostrano che QuEST induce leggi di scaling stabili su tutta la gamma di precisioni supportate dall'hardware e può essere esteso a rappresentazioni sparse. Forniamo il supporto del kernel GPU mostrando che i modelli prodotti da QuEST possono essere eseguiti in modo efficiente. Il nostro codice è disponibile su https://github.com/IST-DASLab/QuEST.
Il ripristino di scene tridimensionali è cruciale per applicazioni dalla realtà virtuale alla visualizzazione architettonica, tuttavia i metodi esistenti faticano con la coerenza visiva e l'accuratezza geometrica nelle scene illimitate a 360°. Presentiamo AuraFusion360, un nuovo metodo basato su riferimenti che consente la rimozione di oggetti di alta qualità e il riempimento di buchi in scene 3D rappresentate tramite Gaussian Splatting. Il nostro approccio introduce (1) la generazione di maschere non viste consapevoli della profondità per un'identificazione accurata delle occlusioni, (2) la Diffusione della Profondità Guidata Adattiva, un metodo a zero scatti per un posizionamento iniziale accurato dei punti senza richiedere ulteriore addestramento, e (3) l'ottimizzazione dei dettagli basata su SDEdit per la coerenza multi-vista. Introduciamo anche 360-USID, il primo dataset completo per il ripristino di scene illimitate a 360° con verità sul campo. Estesi esperimenti dimostrano che AuraFusion360 supera significativamente i metodi esistenti, raggiungendo una qualità percettiva superiore pur mantenendo un'accuratezza geometrica attraverso cambiamenti drastici dei punti di vista. Consultare la nostra pagina del progetto per i risultati video e il dataset su https://kkennethwu.github.io/aurafusion360/.
I modelli di diffusione DiT hanno ottenuto un grande successo nella generazione di testo-video, sfruttando la loro scalabilità in capacità del modello e scala dei dati. L'alta fedeltà dei contenuti e del movimento allineata con i prompt di testo, tuttavia, spesso richiede grandi parametri del modello e un numero sostanziale di valutazioni di funzioni (NFEs). I dettagli realistici e visivamente accattivanti sono tipicamente riflessi in output ad alta risoluzione, amplificando ulteriormente le richieste computazionali soprattutto per i modelli DiT a singolo stadio. Per affrontare queste sfide, proponiamo un nuovo framework a due stadi, FlashVideo, che assegna strategicamente capacità del modello e NFEs tra i due stadi per bilanciare la fedeltà e la qualità della generazione. Nel primo stadio, la fedeltà del prompt è prioritaria attraverso un processo di generazione a bassa risoluzione utilizzando grandi parametri e NFEs sufficienti per migliorare l'efficienza computazionale. Il secondo stadio stabilisce il corrispondente flusso tra basse e alte risoluzioni, generando efficacemente dettagli raffinati con un numero minimo di NFEs. I risultati quantitativi e visivi dimostrano che FlashVideo raggiunge la generazione di video ad alta risoluzione all'avanguardia con una superiore efficienza computazionale. Inoltre, il design a due stadi consente agli utenti di visualizzare l'output iniziale prima di impegnarsi nella generazione a piena risoluzione, riducendo significativamente i costi computazionali e i tempi di attesa, nonché migliorando la commercialità.
L'integrazione di meccanismi di pensiero lento nei grandi modelli linguistici (LLM) offre un modo promettente per raggiungere i Reasoners AGI di Livello 2, come esemplificato da sistemi come l'o1 di OpenAI. Tuttavia, rimangono diverse sfide significative, tra cui un sovra-pensiero inefficiente e una eccessiva dipendenza da modelli di ricompensa ausiliari. Sottolineiamo che questi limiti derivano dall'incapacità dei LLM di interiorizzare il processo di ricerca, un componente chiave del ragionamento efficace. Un passo critico verso la risoluzione di questo problema è abilitare i LLM a determinare autonomamente quando e dove fare backtracking, un'operazione fondamentale negli algoritmi di ricerca tradizionali. A tal fine, proponiamo un meccanismo di auto-backtracking che dota i LLM della capacità di fare backtracking sia durante l'addestramento che durante l'inferenza. Questo meccanismo non solo potenzia la capacità di ragionamento, ma anche l'efficienza trasformando i processi di pensiero lento in processi di pensiero veloce attraverso l'auto-miglioramento. Valutazioni empiriche dimostrano che la nostra proposta migliora significativamente le capacità di ragionamento dei LLM, ottenendo un aumento delle prestazioni superiore al 40 percento rispetto al metodo di fine-tuning supervisionato del percorso ottimale. Riteniamo che questo studio introduca un percorso innovativo e promettente per lo sviluppo di Reasoners più avanzati e robusti.
L'agency è la capacità di un sistema di indirizzare gli esiti verso un obiettivo ed è un argomento centrale di studio in biologia, filosofia, scienze cognitive e intelligenza artificiale. Determinare se un sistema manifesti l'agency è una questione notoriamente difficile: Dennett (1989), ad esempio, sottolinea l'enigma nel determinare quali principi possano stabilire se una roccia, un termostato o un robot possiedano ciascuno l'agency. Qui affrontiamo questo enigma dal punto di vista del reinforcement learning sostenendo che l'agency è fondamentalmente dipendente dal frame: Qualsiasi misurazione dell'agency di un sistema deve essere fatta relativamente a un frame di riferimento. Supportiamo questa affermazione presentando un argomento filosofico che ciascuna delle proprietà essenziali dell'agency proposte da Barandiaran et al. (2009) e Moreno (2018) sono esse stesse dipendenti dal frame. Concludiamo che qualsiasi scienza di base dell'agency richiede dipendenza dal frame e discutiamo le implicazioni di questa affermazione per il reinforcement learning.
Il rapido avanzamento dei grandi modelli linguistici (LLM) ha aumentato la necessità di modelli di protezione per garantire un uso responsabile, in particolare nel rilevamento di contenuti non sicuri e illegali. Sebbene esistano dati significativi sulla sicurezza in lingua inglese, la modellazione multilingue di guardrail rimane poco esplorata a causa della scarsità di dati di sicurezza open-source in altre lingue. Per affrontare questa lacuna, proponiamo un nuovo framework di Apprendimento per Rinforzo (RL) a due giocatori, in cui un generatore e un modello di guardrail coevolvono in modo avversario per produrre dati sintetici di alta qualità per l'addestramento multilingue di guardrail. Formalizziamo teoricamente questa interazione come un gioco a due giocatori, dimostrando la convergenza verso un equilibrio di Nash. Valutazioni empiriche mostrano che il nostro modello \ours supera i modelli all'avanguardia, ottenendo un miglioramento di quasi il 10% rispetto a LlamaGuard3 (8B) sui benchmark in lingua inglese, pur essendo 4,5 volte più veloce nell'inferenza con un modello significativamente più piccolo (0,5B). Otteniamo progressi sostanziali nei compiti di sicurezza multilingue, in particolare nell'affrontare lo squilibrio per le lingue a risorse inferiori in un dataset reale raccolto. Gli studi di ablazione sottolineano il ruolo critico della generazione di dati sintetici nel colmare lo squilibrio nei dati open-source tra l'inglese e altre lingue. Queste scoperte stabiliscono un approccio scalabile ed efficiente alla generazione di dati sintetici, aprendo la strada a miglioramenti nei modelli multilingue di guardrail per migliorare la sicurezza dei LLM. Il codice, il modello e i dati saranno resi open-source su https://github.com/yihedeng9/DuoGuard.
Risolvere problemi di pianificazione complessi richiede che i Grandi Modelli Linguistici (LLM) modellino esplicitamente la transizione di stato per evitare violazioni di regole, rispettare vincoli e garantire l'ottimalità, un compito ostacolato dall'ambiguità intrinseca del linguaggio naturale. Per superare tale ambiguità, viene sfruttato il Linguaggio di Definizione del Dominio di Pianificazione (PDDL) come astrazione di pianificazione che consente descrizioni di stato precise e formali. Con PDDL, possiamo generare un modello di mondo simbolico in cui algoritmi di ricerca classici, come A*, possono essere applicati in modo fluido per trovare piani ottimali. Tuttavia, la generazione diretta di domini PDDL con attuali LLM rimane una sfida aperta a causa della mancanza di dati di addestramento PDDL. Per affrontare questa sfida, proponiamo di aumentare il calcolo a tempo di test dei LLM per potenziare le loro capacità di ragionamento PDDL, consentendo così la generazione di domini PDDL di alta qualità. In particolare, introduciamo un algoritmo semplice ma efficace, che utilizza inizialmente un approccio di campionamento Best-of-N per migliorare la qualità della soluzione iniziale e successivamente raffina la soluzione in modo dettagliato con apprendimento automatico verbalizzato. Il nostro metodo supera o1-mini di gran lunga nella generazione di domini PDDL, raggiungendo oltre il 50% di successo su due compiti (cioè, generando domini PDDL da descrizioni in linguaggio naturale o problemi PDDL). Ciò è realizzato senza richiedere ulteriore addestramento. Sfruttando PDDL come astrazione di stato, il nostro metodo è in grado di superare i metodi attuali all'avanguardia su quasi tutti i compiti di pianificazione di livello competitivo.
I modelli linguistici di grandi dimensioni (LLM) raggiungono prestazioni impressionanti scalando i parametri del modello, ma ciò comporta un notevole overhead inferenziale. Le reti feed-forward (FFN), che dominano i parametri del LLM, mostrano un'elevata sparso attivazione nei neuroni nascosti. Per sfruttare ciò, i ricercatori hanno proposto l'utilizzo di un'architettura a misto di esperti (MoE), in cui solo un sottoinsieme di parametri è attivato. Tuttavia, gli approcci esistenti richiedono spesso un'elevata quantità di dati di addestramento e risorse, limitandone la praticità. Proponiamo CMoE (Carved MoE), un nuovo framework per intagliare in modo efficiente modelli MoE da modelli densi. CMoE raggiunge prestazioni notevoli attraverso un raggruppamento efficiente degli esperti e un'adattamento leggero. In primo luogo, i neuroni vengono raggruppati in esperti condivisi e instradati in base ai tassi di attivazione. Successivamente, costruiamo un meccanismo di instradamento senza addestramento da zero, incorporando un processo di instradamento differenziabile e un bilanciamento del carico. Utilizzando dati modesti, CMoE produce un MoE ben progettato e utilizzabile da un modello denso da 7 miliardi di parametri in cinque minuti. Con un leggero sintonizzazione, raggiunge un ripristino delle prestazioni elevato in meno di un'ora. Mettiamo il nostro codice a disposizione pubblicamente su https://github.com/JarvisPei/CMoE.
Presentiamo On-device Sora, una prima soluzione pionieristica per la generazione di video da testo basata sulla diffusione che opera in modo efficiente su dispositivi di fascia smartphone. Basandosi su Open-Sora, On-device Sora applica tre tecniche innovative per affrontare le sfide della generazione di video da testo basata sulla diffusione su dispositivi mobili con limitazioni computazionali e di memoria. In primo luogo, il Salto Lineare Proporzionale (LPL) riduce i passaggi eccessivi di denoising richiesti nella diffusione video attraverso un approccio basato su salti efficiente. In secondo luogo, la Fusione di Token Dimensionale Temporale (TDTM) riduce al minimo il calcolo intensivo di elaborazione dei token nei livelli di attenzione fondendo i token consecutivi lungo la dimensione temporale. In terzo luogo, l'Inferenza Concorrente con Caricamento Dinamico (CI-DL) partiziona dinamicamente modelli di grandi dimensioni in blocchi più piccoli e li carica in memoria per l'inferenza del modello concorrente, affrontando efficacemente le sfide della memoria limitata del dispositivo. Implementiamo On-device Sora su iPhone 15 Pro e le valutazioni sperimentali dimostrano che è in grado di generare video di alta qualità sul dispositivo, paragonabili a quelli prodotti da Open-Sora in esecuzione su GPU di fascia alta. Questi risultati mostrano che On-device Sora consente la generazione efficiente e di alta qualità di video su dispositivi mobili con risorse limitate, ampliando l'accessibilità, garantendo la privacy dell'utente, riducendo la dipendenza dall'infrastruttura cloud e abbassando i costi associati. Immaginiamo il proposto On-device Sora come un significativo primo passo verso la democratizzazione delle tecnologie generative all'avanguardia, consentendo capacità di generazione video su dispositivi mobili ed embedded di uso comune. L'implementazione del codice è pubblicamente disponibile in un repository GitHub: https://github.com/eai-lab/On-device-Sora.
La fusione di modelli integra i pesi di più modelli specifici per compiti in un unico modello multi-task. Nonostante l'interesse recente nel problema, rimane un significativo divario di prestazioni tra i modelli combinati e quelli a singolo compito. In questo articolo, indaghiamo sulle caratteristiche chiave delle matrici di compiti - matrici di aggiornamento dei pesi applicate a un modello pre-addestrato - che consentono una fusione efficace. Dimostriamo che l'allineamento tra componenti singolari delle matrici specifiche per compiti e delle matrici fusi correla fortemente con il miglioramento delle prestazioni rispetto al modello pre-addestrato. Sulla base di ciò, proponiamo un quadro di fusione isotropico che appiattisce lo spettro dei valori singolari delle matrici di compiti, potenzia l'allineamento e riduce il divario di prestazioni. Inoltre, incorporiamo sia sottospazi comuni che specifici per compiti per migliorare ulteriormente l'allineamento e le prestazioni. Il nostro approccio proposto raggiunge prestazioni all'avanguardia in vari scenari, inclusi diversi insiemi di compiti e dimensioni dei modelli. Questo lavoro fa progredire la comprensione della dinamica della fusione dei modelli, offrendo una metodologia efficace per fondere i modelli senza richiedere ulteriore addestramento. Il codice è disponibile su https://github.com/danielm1405/iso-merging.
La generalizzazione dei modelli linguistici (LMs) è oggetto di vivaci dibattiti, contrapponendo il loro potenziale per l'intelligenza generale alle difficoltà riscontrate nella composizione delle conoscenze di base (ad esempio, la maledizione inversa/transizione). Questo articolo mette in luce il fenomeno delle correlazioni lineari nei LMs durante la composizione delle conoscenze. A titolo di spiegazione, esiste una trasformazione lineare tra determinate conoscenze correlate che mappa i logit di previsione del token successivo da un prompt all'altro, ad esempio, "X vive nella città di" → "X vive nel paese di" per ogni X dato. Questo riflette la linearità nella composizione delle conoscenze umane, come ad esempio Parigi → Francia. I nostri risultati indicano che la trasformazione lineare è resistente al fine-tuning su larga scala, generalizzando le conoscenze aggiornate quando allineate con le relazioni del mondo reale, ma causando allucinazioni quando si discosta. I risultati empirici suggeriscono che la correlazione lineare può fungere da potenziale identificatore della generalizzazione dei LM. Infine, dimostriamo che tali correlazioni lineari possono essere apprese con un singolo network feedforward e rappresentazioni lessicali pre-addestrate, indicando che la generalizzazione dei LM dipende pesantemente da quest'ultime.
Sin dall'introduzione del Vision Transformer (ViT), la patchificazione è stata a lungo considerata un approccio de facto per la tokenizzazione delle immagini per architetture visive semplici. Comprimendo le dimensioni spaziali delle immagini, questo approccio può accorciare efficacemente la sequenza di token e ridurre il costo computazionale delle architetture visive semplici simili a ViT. In questo lavoro, ci proponiamo di esaminare approfonditamente la perdita di informazioni causata da questo paradigma di codifica compressiva basato sulla patchificazione e come ciò influisce sulla comprensione visiva. Conduciamo ampie sperimentazioni sulla riduzione delle dimensioni delle patch e osserviamo con entusiasmo una legge di ridimensionamento intrigante nella patchificazione: i modelli possono trarre costantemente beneficio dalla diminuzione delle dimensioni delle patch e ottenere un miglioramento delle prestazioni predittive, fino a raggiungere la dimensione minima della patch di 1x1, cioè la tokenizzazione dei pixel. Questa conclusione è ampiamente applicabile a diversi compiti visivi, varie scale di input e diverse architetture come ViT e i recenti modelli Mamba. Inoltre, come risultato collaterale, scopriamo che con patch più piccole, le testate decoder specifiche del compito diventano meno critiche per la predizione densa. Negli esperimenti, riusciamo a scalare la sequenza visiva fino a una lunghezza eccezionale di 50.176 token, raggiungendo un'accuratezza di test competitiva dell'84,6% con un modello di dimensioni di base sul benchmark ImageNet-1k. Speriamo che questo studio possa fornire spunti e basi teoriche per futuri lavori sulla costruzione di modelli visivi non compressivi. Il codice è disponibile su https://github.com/wangf3014/Patch_Scaling.
I metodi esistenti non riescono a guidare in modo efficace i Large Language Models (LLM) tra il ragionamento testuale e la generazione di codice, lasciando sottoutilizzate le capacità di calcolo simbolico. Presentiamo CodeSteer, un metodo efficace per guidare la generazione di codice/testo dei LLM. Costruiamo un benchmark completo SymBench composto da 37 compiti simbolici con complessità regolabile e sintetizziamo anche dataset di 12k traiettorie di guida/generazione multi-round e 5.5k coppie di confronto di guida. Ottimizziamo il modello Llama-3-8B con un nuovo fine-tuning supervisionato multi-round (SFT) e ottimizzazione diretta delle preferenze (DPO). Il modello risultante, CodeSteerLLM, potenziato con i controllori simbolici e di auto-risposta proposti, guida in modo efficace la generazione di codice/testo dei modelli più grandi. L'aggiunta di CodeSteer a GPT-4o aumenta il suo punteggio medio di performance da 53.3 a 86.4, superando persino i migliori LLM esistenti OpenAI o1 (82.7), o1-preview (74.8) e DeepSeek R1 (76.8) su tutti i 37 compiti (28 visti, 9 non visti). Addestrato per GPT-4o, CodeSteer dimostra una generalizzabilità superiore, fornendo un aumento medio delle performance del 41.8 su Claude, Mistral e GPT-3.5. I LLM guidati da CodeSteer sfruttano appieno il calcolo simbolico per mantenere alte performance su compiti altamente complessi. Modelli, Dataset e Codici sono disponibili su https://github.com/yongchao98/CodeSteer-v1.0.
Introduciamo Quantized Language-Image Pretraining (QLIP), un metodo di tokenizzazione visiva che combina la qualità di ricostruzione all'avanguardia con la comprensione delle immagini senza supervisione all'avanguardia. QLIP addestra un autoencoder basato sulla quantizzazione binaria sferica con obiettivi di ricostruzione e allineamento lingua-immagine. Siamo i primi a mostrare che i due obiettivi non devono essere in contrasto. Bilanciamo dinamicamente i due termini di perdita durante l'addestramento e mostriamo che un processo di addestramento a due fasi mescola efficacemente i requisiti di grandi batch del pre-addestramento immagine-lingua con il collo di bottiglia di memoria imposto dall'obiettivo di ricostruzione. Confermiamo l'efficacia di QLIP per la comprensione multimodale e la generazione di immagini condizionate al testo con un unico modello. In particolare, QLIP funge da sostituto plug-and-play per l'encoder visivo per LLaVA e il tokenizzatore di immagini per LlamaGen con prestazioni comparabili o addirittura migliori. Infine, dimostriamo che QLIP consente un modello auto-regressivo misto unificato per la comprensione e la generazione.
Comprendere il concetto di tempo dalle rappresentazioni visive è una competenza cognitiva fondamentale, ma rimane una sfida per i grandi modelli di linguaggio multimodali (MLLMs). In questo lavoro, esaminiamo le capacità dei MLLMs nell'interpretare il tempo e la data attraverso orologi analogici e calendari annuali. Per agevolare ciò, abbiamo creato un dataset strutturato che comprende due sottoinsiemi: 1) ClockQA, che include vari tipi di stili di orologi - standard, quadrante nero, senza lancette dei secondi, numeri romani e lancette ad ago - abbinati a domande correlate al tempo; e 2) CalendarQA, che consiste in immagini di calendari annuali con domande che vanno da date comunemente note (ad esempio, Natale, Capodanno) a date derivate computazionalmente (ad esempio, il 100° o il 153° giorno dell'anno). Il nostro obiettivo è analizzare come i MLLMs possano eseguire il riconoscimento visivo, il ragionamento numerico e l'inferenza temporale quando presentati con dati visivi correlati al tempo. Le nostre valutazioni mostrano che nonostante i recenti progressi, comprendere in modo affidabile il concetto di tempo rimane una sfida significativa per i MLLMs.
I grandi modelli linguistici (LLM) raggiungono prestazioni notevoli su benchmark impegnativi spesso strutturati come compiti di domande-risposte a scelta multipla. La tecnica Zero-shot Chain-of-Thought (CoT) migliora il ragionamento nei LLM, ma fornisce solo indicazioni vaghe e generiche ("pensa passo dopo passo"). Questo articolo introduce ARR, un metodo intuitivo ed efficace di prompting zero-shot che incorpora esplicitamente tre fasi chiave nella risoluzione di domande-risposte: analisi dell'intento della domanda, recupero di informazioni rilevanti e ragionamento passo dopo passo. Esperimenti completi su compiti di domande-risposte diversi e impegnativi dimostrano che ARR migliora costantemente il Baseline (senza prompting ARR) e supera CoT. Gli esperimenti di ablation e i casi di studio convalidano ulteriormente i contributi positivi di ciascun componente: analisi, recupero e ragionamento. In particolare, l'analisi dell'intento svolge un ruolo vitale in ARR. Inoltre, valutazioni approfondite su varie dimensioni del modello, serie di LLM e impostazioni di generazione consolidano l'efficacia, la robustezza e la generalizzabilità di ARR.
Scalare dati e calcolo è fondamentale per il successo del machine learning. Tuttavia, la scalabilità richiede prevedibilità: desideriamo che i metodi non solo si comportino bene con più calcolo o dati, ma che anche le loro prestazioni siano prevedibili a partire da esperimenti su piccola scala, senza eseguire l'esperimento su larga scala. In questo articolo, dimostriamo che i metodi di apprendimento per rinforzo basati sul valore e fuori politica sono prevedibili nonostante le credenze diffuse nella comunità riguardo al loro comportamento patologico. In primo luogo, mostriamo che i requisiti di dati e calcolo per raggiungere un determinato livello di prestazioni si trovano su una frontiera di Pareto, controllata dal rapporto aggiornamenti-dati (UTD). Stimando questa frontiera, possiamo prevedere il requisito di dati quando si dispone di più calcolo e il requisito di calcolo quando si dispone di più dati. In secondo luogo, determiniamo l'allocazione ottimale di un budget di risorse totale tra dati e calcolo per un dato livello di prestazioni e lo utilizziamo per determinare gli iperparametri che massimizzano le prestazioni per un dato budget. In terzo luogo, questo comportamento di scalabilità è reso possibile stimando innanzitutto relazioni prevedibili tra gli iperparametri, che vengono utilizzate per gestire gli effetti dell'overfitting e della perdita di plasticità unici al RL. Convalidiamo il nostro approccio utilizzando tre algoritmi: SAC, BRO e PQL su DeepMind Control, OpenAI gym e IsaacGym, quando si effettua una previsione a livelli superiori di dati, calcolo, budget o prestazioni.
Un'allineamento preciso nei sistemi Testo-Immagine (T2I) è cruciale per garantire che le immagini generate non solo racchiudano accuratamente le intenzioni dell'utente, ma rispettino anche rigorosi criteri etici ed estetici. Incidenti come il fiasco di Google Gemini, in cui le uscite non allineate hanno scatenato una significativa reazione pubblica, sottolineano l'importante necessità di meccanismi di allineamento robusti. Al contrario, i Grandi Modelli Linguistici (LLM) hanno ottenuto notevoli successi nell'allineamento. Basandosi su questi progressi, i ricercatori sono desiderosi di applicare tecniche di allineamento simili, come l'ottimizzazione diretta delle preferenze (DPO), ai sistemi T2I per migliorare la fedeltà e l'affidabilità nella generazione di immagini. Presentiamo YinYangAlign, un avanzato framework di valutazione che quantifica sistematicamente la fedeltà all'allineamento dei sistemi T2I, affrontando sei obiettivi di progettazione fondamentali e intrinsecamente contraddittori. Ogni coppia rappresenta tensioni fondamentali nella generazione di immagini, come bilanciare l'aderenza alle indicazioni dell'utente con modifiche creative o mantenere la diversità insieme alla coerenza visiva. YinYangAlign include dettagliati dataset di assiomi con indicazioni umane, risposte allineate (scelte), uscite generate dall'IA non allineate (scartate) e spiegazioni delle contraddizioni sottostanti.
Presentiamo un framework unificato in grado di risolvere una vasta gamma di compiti in 3D. Il nostro approccio prevede un modello ricorrente con stato che si aggiorna continuamente con ogni nuova osservazione. Dato un flusso di immagini, questo stato in evoluzione può essere utilizzato per generare mappe di punti su scala metrica (punti 3D per pixel) per ciascun nuovo input in modo online. Queste mappe di punti risiedono all'interno di un sistema di coordinate comune e possono essere accumulate in una ricostruzione della scena coerente e densa che si aggiorna man mano che arrivano nuove immagini. Il nostro modello, chiamato CUT3R (Transformer di Aggiornamento Continuo per la Ricostruzione 3D), cattura ricche conoscenze a priori delle scene del mondo reale: non solo può predire mappe di punti accurate dalle osservazioni delle immagini, ma può anche inferire regioni non viste della scena esplorando viste virtuali non osservate. Il nostro metodo è semplice ma altamente flessibile, accettando naturalmente lunghezze variabili di immagini che possono essere sia flussi video che raccolte di foto non ordinate, contenenti contenuti statici e dinamici. Valutiamo il nostro metodo su vari compiti 3D/4D e dimostriamo prestazioni competitive o all'avanguardia in ciascuno di essi. Pagina del Progetto: https://cut3r.github.io/
Le cache delle prompt semantiche riducono la latenza e i costi dell'inferenza dei grandi modelli linguistici (LLM) riutilizzando le risposte generate dai LLM memorizzate per prompt semanticamente simili. Le metriche di similarità vettoriale assegnano un punteggio numerico per quantificare la similarità tra un prompt incorporato e il suo vicino più prossimo nella cache. I sistemi esistenti si basano su una soglia statica per classificare se il punteggio di similarità è sufficientemente alto da risultare in un colpo di cache. Mostriamo che questa soglia unica non è sufficiente tra prompt diversi. Proponiamo VectorQ, un framework per apprendere regioni di soglia specifiche per l'embedding che si adattano alla complessità e all'incertezza di un embedding. Attraverso valutazioni su una combinazione di quattro set di dati diversi, mostriamo che VectorQ supera costantemente i sistemi all'avanguardia su tutte le soglie statiche, raggiungendo aumenti fino a 12 volte nel tasso di colpi di cache e riduzioni del tasso di errore fino al 92%.
Nei luoghi di lavoro contemporanei, le riunioni sono essenziali per lo scambio di idee e per garantire l'allineamento del team, ma spesso si trovano ad affrontare sfide come il consumo di tempo, conflitti di programmazione e partecipazione inefficiente. I recenti progressi nei Grandi Modelli Linguistici (LLM) hanno dimostrato le loro forti capacità nella generazione e nel ragionamento del linguaggio naturale, sollevando la domanda: possono i LLM delegare efficacemente i partecipanti alle riunioni? Per esplorare questo aspetto, sviluppiamo un sistema prototipo di delega alle riunioni basato su LLM e creiamo un benchmark completo utilizzando veri trascritti di riunioni. La nostra valutazione rivela che GPT-4/4o mantengono un equilibrio nelle prestazioni tra strategie di coinvolgimento attivo e cauto. Al contrario, Gemini 1.5 Pro tende ad essere più cauto, mentre Gemini 1.5 Flash e Llama3-8B/70B mostrano tendenze più attive. Complessivamente, circa il 60\% delle risposte affronta almeno un punto chiave della verità di riferimento. Tuttavia, sono necessari miglioramenti per ridurre contenuti irrilevanti o ripetitivi e migliorare la tolleranza agli errori di trascrizione comunemente riscontrati in contesti reali. Inoltre, implementiamo il sistema in contesti pratici e raccogliamo feedback reali dalle dimostrazioni. Le nostre conclusioni sottolineano il potenziale e le sfide dell'utilizzo dei LLM come delegati alle riunioni, offrendo preziose intuizioni sulla loro applicazione pratica per alleviare il peso delle riunioni.
Proponiamo SPARC, un framework leggero per l'apprendimento continuo per grandi modelli linguistici (LLM) che consente un'adattamento efficiente ai compiti attraverso l'ottimizzazione dei prompt in uno spazio a dimensione inferiore. Sfruttando l'analisi delle componenti principali (PCA), identifichiamo un sottospazio compatto dei dati di addestramento. Ottimizzare i prompt in questo spazio a dimensione inferiore migliora l'efficienza dell'addestramento, concentrandosi sugli aggiornamenti delle caratteristiche più rilevanti e riducendo il carico computazionale. Inoltre, poiché la struttura interna del modello rimane invariata, la vasta conoscenza acquisita dalla preformazione è completamente preservata, garantendo che le informazioni apprese in precedenza non siano compromesse durante l'adattamento. Il nostro metodo raggiunge un'elevata conservazione della conoscenza sia nei setup di apprendimento continuo incrementale per compiti che per dominio, raffinando solo lo 0,04% dei parametri del modello. Inoltre, integrando LoRA, miglioriamo l'adattabilità ai vincoli computazionali, consentendo un compromesso tra accuratezza e costo di addestramento. Gli esperimenti sul benchmark SuperGLUE dimostrano che la nostra ottimizzazione dei prompt basata su PCA combinata con LoRA mantiene la piena conservazione della conoscenza migliorando l'accuratezza, utilizzando solo l'1% dei parametri del modello. Questi risultati confermano che il nostro approccio è una soluzione scalabile ed efficiente in termini di risorse per l'apprendimento continuo nei LLM.
Il calcolo autonomo sul bordo in robotica, città intelligenti e veicoli autonomi si basa sull'integrazione senza soluzione di continuità di sensori, elaborazione e attuazione per la presa di decisioni in tempo reale in ambienti dinamici. Al suo nucleo si trova il ciclo dal rilevamento all'azione, che allinea iterativamente gli input dei sensori con modelli computazionali per guidare strategie di controllo adattive. Questi cicli possono adattarsi alle condizioni iper-locali, migliorando l'efficienza delle risorse e la reattività, ma affrontano anche sfide come vincoli di risorse, ritardi di sincronizzazione nella fusione di dati multi-modali e il rischio di errori a cascata nei cicli di feedback. Questo articolo esplora come le adattazioni proattive e consapevoli del contesto dal rilevamento all'azione e dall'azione al rilevamento possano migliorare l'efficienza regolando dinamicamente il rilevamento e il calcolo in base alle esigenze del compito, come rilevare una parte molto limitata dell'ambiente e prevedere il resto. Guidando il rilevamento attraverso azioni di controllo, i percorsi dall'azione al rilevamento possono migliorare la pertinenza del compito e l'uso delle risorse, ma richiedono anche un monitoraggio robusto per prevenire errori a cascata e mantenere l'affidabilità. I cicli di azione-rilevamento multi-agente estendono ulteriormente queste capacità attraverso il rilevamento e le azioni coordinate tra agenti distribuiti, ottimizzando l'uso delle risorse tramite la collaborazione. Inoltre, il calcolo neuromorfico, ispirato ai sistemi biologici, fornisce un efficiente quadro per l'elaborazione basata su picchi ed eventi che conserva energia, riduce la latenza e supporta il controllo gerarchico, rendendolo ideale per l'ottimizzazione multi-agente. Questo articolo sottolinea l'importanza delle strategie di co-progettazione end-to-end che allineano i modelli algoritmici con l'hardware e le dinamiche ambientali e migliorano le interdipendenze tra i livelli per aumentare la capacità, la precisione e l'adattabilità per l'autonomia sul bordo efficiente dal punto di vista energetico in ambienti complessi.