Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo un framework full-stack che scala il ragionamento nei modelli visione-linguaggio (VLMs) per video lunghi, sfruttando il reinforcement learning. Affrontiamo le sfide uniche del ragionamento su video lunghi integrando tre componenti critiche: (1) un dataset su larga scala, LongVideo-Reason, composto da 52K coppie QA di video lunghi con annotazioni di ragionamento di alta qualità in diversi domini come sport, giochi e vlog; (2) una pipeline di addestramento in due fasi che estende i VLMs con fine-tuning supervisionato a catena di pensiero (CoT-SFT) e reinforcement learning (RL); e (3) un'infrastruttura di addestramento per RL su video lunghi, denominata Multi-modal Reinforcement Sequence Parallelism (MR-SP), che incorpora il parallelismo di sequenza e un motore basato su vLLM ottimizzato per video lunghi, utilizzando embedding video memorizzati per rollout e prefilling efficienti. Negli esperimenti, LongVILA-R1-7B ottiene prestazioni solide su benchmark QA di video lunghi come VideoMME. Supera inoltre Video-R1-7B e raggiunge persino i livelli di Gemini-1.5-Pro in ragionamento temporale, ragionamento su obiettivi e scopi, ragionamento spaziale e ragionamento sulla trama nel nostro benchmark LongVideo-Reason-eval. In particolare, il nostro sistema MR-SP raggiunge un'accelerazione fino a 2.1x nell'addestramento RL su video lunghi. LongVILA-R1 dimostra guadagni di prestazioni consistenti all'aumentare del numero di frame video in input. LongVILA-R1 rappresenta un passo significativo verso il ragionamento su video lunghi nei VLMs. Inoltre, rilasciamo il nostro sistema di addestramento per la disponibilità pubblica, che supporta l'addestramento RL su varie modalità (video, testo e audio), vari modelli (serie VILA e Qwen) e persino modelli di generazione di immagini e video. Su un singolo nodo A100 (8 GPU), supporta l'addestramento RL su video della durata di un'ora (ad esempio, 3.600 frame / circa 256k token).
Sebbene il fine-tuning dei modelli di diffusione offra un approccio potente per personalizzare modelli pre-addestrati nella generazione di oggetti specifici, spesso soffre di overfitting quando i campioni di addestramento sono limitati, compromettendo sia la capacità di generalizzazione che la diversità degli output. Questo articolo affronta il compito impegnativo ma di maggiore impatto di adattare un modello di diffusione utilizzando una sola immagine concettuale, poiché la personalizzazione basata su singola immagine detiene il maggiore potenziale pratico. Introduciamo T-LoRA, un framework di Adattamento a Basso Rango Dipendente dal Timestep, specificamente progettato per la personalizzazione dei modelli di diffusione. Nel nostro lavoro dimostriamo che i timestep più alti della diffusione sono più soggetti a overfitting rispetto a quelli più bassi, rendendo necessaria una strategia di fine-tuning sensibile al timestep. T-LoRA incorpora due innovazioni chiave: (1) una strategia di fine-tuning dinamica che regola gli aggiornamenti vincolati al rango in base ai timestep di diffusione, e (2) una tecnica di parametrizzazione dei pesi che garantisce l'indipendenza tra i componenti dell'adapter attraverso l'inizializzazione ortogonale. Esperimenti estensivi dimostrano che T-LoRA e i suoi singoli componenti superano il LoRA standard e altre tecniche di personalizzazione dei modelli di diffusione. Essi raggiungono un equilibrio superiore tra fedeltà al concetto e allineamento al testo, evidenziando il potenziale di T-LoRA in scenari con dati limitati e risorse vincolate. Il codice è disponibile all'indirizzo https://github.com/ControlGenAI/T-LoRA.
Modelli come OpenAI-o3 pionierizzano il ragionamento visivo fondato facendo riferimento dinamicamente a regioni visive, proprio come il "pensare con le immagini" umano. Tuttavia, non esiste un benchmark per valutare queste capacità in modo olistico. Per colmare questa lacuna, proponiamo TreeBench (Traceable Evidence Evaluation Benchmark), un benchmark diagnostico costruito su tre principi: (1) percezione visiva focalizzata su target sottili in scene complesse, (2) evidenza tracciabile tramite valutazione con bounding box, e (3) ragionamento di secondo ordine per testare le interazioni tra oggetti e le gerarchie spaziali oltre la semplice localizzazione di oggetti. Privilegiando immagini con oggetti densi, inizialmente campioniamo 1.000 immagini di alta qualità da SA-1B e coinvolgiamo otto esperti LMM per annotare manualmente domande, opzioni candidate e risposte per ciascuna immagine. Dopo tre fasi di controllo qualità, TreeBench consiste in 405 coppie impegnative di domande e risposte visive, con cui anche i modelli più avanzati faticano, dove nessuno di essi raggiunge il 60% di accuratezza, ad esempio OpenAI-o3 ottiene solo il 54,87%. Inoltre, introduciamo TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigma di addestramento per supervisionare congiuntamente la localizzazione e il ragionamento tramite apprendimento per rinforzo, consentendo localizzazioni accurate e percorsi di ragionamento spiegabili. Inizializzato da Qwen2.5-VL-7B, migliora V* Bench (+16,8), MME-RealWorld (+12,6) e TreeBench (+13,4), dimostrando che la tracciabilità è fondamentale per avanzare nel ragionamento fondato sulla visione. Il codice è disponibile su https://github.com/Haochen-Wang409/TreeVGR.
I modelli linguistici di grandi dimensioni per video (LLM) raggiungono una forte comprensione video sfruttando un numero elevato di token spazio-temporali, ma soffrono di una scala computazionale quadratica rispetto al numero di token. Per affrontare questo problema, proponiamo un metodo di fusione spazio-temporale dei token senza necessità di addestramento, denominato STTM. La nostra intuizione chiave è sfruttare la ridondanza locale spaziale e temporale nei dati video, aspetto trascurato nei lavori precedenti. STTM trasforma prima ogni fotogramma in token spaziali multi-granulari utilizzando una ricerca da grossolana a fine su una struttura a quadtree, quindi esegue una fusione diretta a coppie lungo la dimensione temporale. Questo approccio di fusione scomposto supera i metodi esistenti di riduzione dei token su sei benchmark di domande e risposte video. In particolare, STTM ottiene un'accelerazione di 2 volte con un calo di precisione dello 0,5% con un budget di token del 50%, e un'accelerazione di 3 volte con un calo di appena il 2% con un budget del 30%. Inoltre, STTM è indipendente dalla query, consentendo il riutilizzo della cache KV per diverse domande sullo stesso video. La pagina del progetto è disponibile all'indirizzo https://www.jshyun.me/projects/sttm.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato capacità straordinarie nell'integrare visione e linguaggio per ragionamenti complessi. Mentre la maggior parte dei benchmark esistenti valuta i modelli in contesti offline con un insieme fisso di input preregistrati, introduciamo OST-Bench, un benchmark progettato per valutare la comprensione Spazio-Temporale Online dal punto di vista di un agente che esplora attivamente una scena. L'aspetto Online enfatizza la necessità di elaborare e ragionare su osservazioni acquisite in modo incrementale, mentre il componente Spazio-Temporale richiede l'integrazione degli input visivi attuali con la memoria storica per supportare il ragionamento spaziale dinamico. OST-Bench riflette meglio le sfide della percezione incarnata nel mondo reale. Costruito su una pipeline efficiente di raccolta dati, OST-Bench è composto da 1.4k scene e 10k coppie domanda-risposta raccolte da ScanNet, Matterport3D e ARKitScenes. Valutiamo diversi MLLMs leader su OST-Bench e osserviamo che non riescono a svolgere compiti che richiedono un ragionamento spazio-temporale complesso. In contesti online, la loro accuratezza diminuisce man mano che l'orizzonte di esplorazione si estende e la memoria cresce. Attraverso ulteriori analisi sperimentali, identifichiamo modelli comuni di errore tra i modelli e scopriamo che sia le richieste di ragionamento spaziale basato su indizi complessi che i requisiti di recupero della memoria a lungo termine riducono significativamente le prestazioni lungo due assi separati, evidenziando le sfide fondamentali che devono essere affrontate per migliorare il ragionamento incarnato online. Per promuovere ulteriori ricerche e sviluppi nel campo, i nostri codici, dataset e benchmark sono disponibili. La nostra pagina del progetto è: https://rbler1234.github.io/OSTBench.github.io/
In questo articolo presentiamo LangSplatV2, che raggiunge lo splatting di feature ad alta dimensionalità a 476.2 FPS e il text querying 3D open-vocabulary a 384.6 FPS per immagini ad alta risoluzione, fornendo un'accelerazione di 42 volte e un miglioramento di 47 volte rispetto a LangSplat, insieme a una maggiore accuratezza nelle query. LangSplat utilizza il Gaussian Splatting per incorporare feature linguistiche 2D di CLIP in 3D, migliorando significativamente la velocità e apprendendo un campo linguistico 3D preciso con semantica SAM. Tali progressi nei campi linguistici 3D sono cruciali per applicazioni che richiedono interazione linguistica all'interno di scene complesse. Tuttavia, LangSplat non raggiunge ancora prestazioni di inferenza in tempo reale (8.2 FPS), anche con GPU A100 avanzate, limitando fortemente la sua applicazione su larga scala. In questo articolo, conduciamo prima un'analisi dettagliata del tempo di LangSplat, identificando il decoder pesante come il principale collo di bottiglia per la velocità. La nostra soluzione, LangSplatV2, assume che ogni Gaussiana agisca come un codice sparso all'interno di un dizionario globale, portando all'apprendimento di un campo di coefficienti sparsi 3D che elimina completamente la necessità di un decoder pesante. Sfruttando questa sparsità, proponiamo ulteriormente un metodo efficiente di splatting di coefficienti sparsi con ottimizzazione CUDA, rendendo mappe di feature ad alta dimensionalità con alta qualità mentre si sostiene solo il costo temporale dello splatting di una feature a dimensione ultra-bassa. I nostri risultati sperimentali dimostrano che LangSplatV2 non solo raggiunge un'accuratezza nelle query migliore o competitiva, ma è anche significativamente più veloce. Codici e demo sono disponibili sulla nostra pagina del progetto: https://langsplat-v2.github.io.
I video rappresentano intrinsecamente proiezioni 2D di un mondo 3D dinamico. Tuttavia, la nostra analisi suggerisce che i modelli di diffusione video addestrati esclusivamente su dati video grezzi spesso non riescono a catturare una struttura geometricamente consapevole nelle loro rappresentazioni apprese. Per colmare questo divario tra i modelli di diffusione video e la natura 3D sottostante del mondo fisico, proponiamo Geometry Forcing, un metodo semplice ma efficace che incoraggia i modelli di diffusione video a internalizzare rappresentazioni latenti 3D. La nostra intuizione chiave è guidare le rappresentazioni intermedie del modello verso una struttura geometricamente consapevole allineandole con le caratteristiche di un modello geometrico pre-addestrato. A tal fine, introduciamo due obiettivi di allineamento complementari: Angular Alignment, che impone la consistenza direzionale tramite la similarità del coseno, e Scale Alignment, che preserva le informazioni relative alla scala regredendo caratteristiche geometriche non normalizzate dalla rappresentazione di diffusione normalizzata. Valutiamo Geometry Forcing su compiti di generazione video condizionati dalla vista della telecamera e dall'azione. I risultati sperimentali dimostrano che il nostro metodo migliora sostanzialmente la qualità visiva e la coerenza 3D rispetto ai metodi di base. Pagina del progetto: https://GeometryForcing.github.io.
Una rete neurale preaddestrata può adattare la propria architettura a diversi input senza alcun fine-tuning? Abbiamo bisogno di tutti i livelli per compiti semplici, e sono adeguati per compiti complessi? Abbiamo scoperto che i livelli di un modello linguistico preaddestrato di grandi dimensioni (LLM) possono essere manipolati come moduli separati per costruire un modello migliore e persino più superficiale, personalizzato per ogni campione di test. In particolare, ogni livello del modello preaddestrato può essere saltato/prunato o ripetuto più volte come nelle reti neurali ricorrenti (RNN), e combinato con altri in ordini arbitrari, producendo una catena di livelli (CoLa) per ogni campione. Questo spazio compositivo amplia notevolmente l'ambito dei lavori esistenti sui moduli preaddestrati a ciclo/ricorrenti, sulla potatura dei livelli o sulle reti con uscita anticipata. Abbiamo sviluppato un protocollo di Monte Carlo Tree Search (MCTS) per esplorare e identificare la CoLa ottimale per ogni campione proveniente da benchmark di ragionamento matematico e di senso comune. Rispetto a un modello statico di profondità fissa, CoLa consente percorsi abbreviati (pensiero veloce), la ripetizione dello stesso livello/i (pensiero lento) e la combinazione di entrambi, offrendo architetture più flessibili e dinamiche per diversi input. Abbiamo condotto un'analisi approfondita della CoLa ottimizzata con MCTS, che ha portato a due risultati chiave: (1) Per oltre il 75% dei campioni con previsioni corrette da parte dell'LLM originale, possiamo trovare CoLa più brevi, suggerendo un ampio spazio per migliorare l'efficienza dell'inferenza; (2) Per oltre il 60% dei campioni con previsioni originariamente errate, possiamo identificare CoLa che raggiungono previsioni corrette, suggerendo un ampio spazio di miglioramento delle prestazioni. I nostri risultati evidenziano le carenze nell'utilizzo di un'architettura fissa di LLM preaddestrati per l'inferenza su diversi campioni e aprono la strada per sbloccare il potere di generalizzazione dell'adattamento della profondità al momento del test.
I LLM vengono sempre più impiegati come agenti, sistemi in grado di pianificare, ragionare e richiamare dinamicamente strumenti esterni. Tuttavia, nel ragionamento visivo, gli approcci precedenti rimangono in gran parte limitati da flussi di lavoro predefiniti e set di strumenti statici. In questo rapporto, presentiamo PyVision, un framework interattivo e multi-turn che consente agli MLLM di generare, eseguire e perfezionare autonomamente strumenti basati su Python, adattati al compito specifico, sbloccando così una risoluzione dei problemi flessibile e interpretabile. Sviluppiamo una tassonomia degli strumenti creati da PyVision e analizziamo il loro utilizzo su un insieme diversificato di benchmark. Quantitativamente, PyVision ottiene guadagni di prestazioni consistenti, migliorando GPT-4.1 del +7,8% su V* e Claude-4.0-Sonnet del +31,1% su VLMsAreBlind-mini. Questi risultati indicano un cambiamento più ampio: la strumentazione dinamica consente ai modelli non solo di utilizzare strumenti, ma di inventarli, avanzando verso un ragionamento visivo più agentico.
Nonostante i progressi incredibili nei modelli linguistici (LM) negli ultimi anni, dovuti in gran parte all'abbandono di modelli specializzati progettati per compiti specifici a favore di modelli generali basati su architetture potenti (ad esempio il Transformer) che apprendono tutto dai dati grezzi, passaggi di pre-elaborazione come la tokenizzazione rimangono un ostacolo per veri modelli di base end-to-end. Introduciamo una raccolta di nuove tecniche che abilitano un meccanismo di segmentazione dinamica che apprende automaticamente strategie di segmentazione dipendenti dal contenuto e dal contesto, apprese congiuntamente con il resto del modello. Incorporando ciò in una rete gerarchica esplicita (H-Net), è possibile sostituire la pipeline (implicitamente gerarchica) di tokenizzazione-LM-detokenizzazione con un unico modello appreso completamente end-to-end. Quando le risorse computazionali e i dati sono equivalenti, un H-Net con un livello di gerarchia operante a livello di byte supera un forte modello linguistico Transformer che opera su token BPE. Iterare la gerarchia su più livelli ne aumenta ulteriormente le prestazioni modellando più livelli di astrazione, dimostrando un miglioramento significativo nella scalabilità con i dati e raggiungendo le prestazioni di un Transformer basato su token di dimensioni doppie. Gli H-Net pre-addestrati sull'inglese mostrano una robustezza a livello di carattere significativamente maggiore e apprendono qualitativamente strategie di segmentazione dipendenti dai dati senza euristiche o supervisione esplicita. Infine, il miglioramento dell'H-Net rispetto alle pipeline tokenizzate è ulteriormente amplificato in lingue e modalità con euristiche di tokenizzazione meno efficaci, come il cinese, il codice o le sequenze di DNA (quasi 4 volte l'efficienza dei dati rispetto ai baseline), mostrando il potenziale dei veri modelli end-to-end che apprendono e scalano meglio da dati non elaborati.
Nonostante i significativi progressi compiuti nei modelli generativi di video, i metodi all'avanguardia esistenti possono produrre solo video della durata di 5-16 secondi, spesso etichettati come "video di lunga durata". Inoltre, i video che superano i 16 secondi faticano a mantenere un aspetto coerente dei personaggi e una disposizione delle scene uniforme nel corso della narrazione. In particolare, i video lunghi con più soggetti non riescono ancora a preservare la coerenza dei personaggi e la fluidità dei movimenti. Sebbene alcuni metodi siano in grado di generare video fino a 150 secondi, spesso presentano ridondanza nei fotogrammi e una bassa diversità temporale. Recenti lavori hanno tentato di produrre video di lunga durata con più personaggi, coerenza narrativa e dettagli ad alta fedeltà. Abbiamo studiato in modo approfondito 32 articoli sulla generazione di video per identificare i componenti architetturali chiave e le strategie di addestramento che consentono di ottenere sistematicamente queste qualità. Abbiamo inoltre costruito una tassonomia completa e innovativa dei metodi esistenti e presentato tabelle comparative che categorizzano gli articoli in base ai loro progetti architetturali e alle caratteristiche prestazionali.
Derivare rappresentazioni visive compatte e temporalmente consapevoli da scene dinamiche è essenziale per l'esecuzione efficace di compiti di comprensione sequenziale delle scene, come il tracciamento visivo e la manipolazione robotica. In questo articolo, introduciamo Token Bottleneck (ToBo), una pipeline di apprendimento auto-supervisionato semplice ma intuitiva che comprime una scena in un token di collo di bottiglia e predice la scena successiva utilizzando patch minime come suggerimenti. La pipeline ToBo facilita l'apprendimento di rappresentazioni sequenziali delle scene codificando in modo conservativo la scena di riferimento in un token di collo di bottiglia compatto durante la fase di compressione. Nella fase di espansione, guidiamo il modello a catturare le dinamiche temporali predicendo la scena target utilizzando il token di collo di bottiglia insieme a poche patch target come suggerimenti. Questo design incoraggia il backbone visivo a incorporare dipendenze temporali, consentendo così la comprensione delle transizioni dinamiche tra le scene. Esperimenti estesi in vari compiti sequenziali, inclusi la propagazione di etichette video e la manipolazione robotica in ambienti simulati, dimostrano la superiorità di ToBo rispetto ai baseline. Inoltre, il deployment del nostro modello pre-addestrato su robot fisici conferma la sua robustezza ed efficacia in ambienti reali. Validiamo ulteriormente la scalabilità di ToBo su diverse scale di modelli.
Il "bullshit", concettualizzato dal filosofo Harry Frankfurt, si riferisce a dichiarazioni formulate senza riguardo per il loro valore di verità. Mentre lavori precedenti hanno esplorato l'allucinazione e la sottomissione nei grandi modelli linguistici (LLM), noi proponiamo il "machine bullshit" come un quadro concettuale generale che consente ai ricercatori di caratterizzare il fenomeno più ampio della perdita emergente di veridicità negli LLM e di far luce sui suoi meccanismi sottostanti. Introduciamo il Bullshit Index, una nuova metrica che quantifica l'indifferenza degli LLM alla verità, e proponiamo una tassonomia complementare che analizza quattro forme qualitative di bullshit: retorica vuota, tergiversazione, parole ambigue e affermazioni non verificate. Conduciamo valutazioni empiriche sul dataset Marketplace, sul dataset Political Neutrality e sul nostro nuovo benchmark BullshitEval (2.400 scenari che coprono 100 assistenti AI) progettato esplicitamente per valutare il machine bullshit. I nostri risultati dimostrano che il fine-tuning del modello con l'apprendimento per rinforzo basato sul feedback umano (RLHF) aggrava significativamente il bullshit e che il prompting a catena di pensiero (CoT) durante l'inferenza amplifica notevolmente forme specifiche di bullshit, in particolare la retorica vuota e la tergiversazione. Osserviamo inoltre un bullshit diffuso nei contesti politici, con le parole ambigue come strategia dominante. Le nostre scoperte evidenziano sfide sistematiche nell'allineamento dell'IA e forniscono nuove intuizioni verso un comportamento più veritiero degli LLM.
La maggior parte dei modelli visivo-linguistici (VLM) all'avanguardia sembrano essere limitati dalla separabilità lineare dei loro embedding visivi nei compiti di ragionamento astratto. Questo lavoro indaga questo "collo di bottiglia del ragionamento lineare" introducendo il "Linear Separability Ceiling" (LSC), ovvero la performance di un semplice classificatore lineare sugli embedding visivi di un VLM. Scopriamo che questo collo di bottiglia è diffuso e non deriva da una percezione scadente, ma da fallimenti nei percorsi di ragionamento del modello linguistico. Dimostriamo che si tratta di un problema di allineamento risolvibile. L'intervento necessario, tuttavia, dipende dal compito: attivare percorsi esistenti è sufficiente per concetti semantici, mentre il ragionamento relazionale complesso richiede l'adattamento dei pesi principali del modello. Utilizzando il postfix tuning come controllo metodologico, troviamo forti prove dell'esistenza di potenti percorsi di ragionamento dormienti all'interno dei VLM. Tuttavia, per compiti relazionali complessi che richiedono un adattamento più profondo, migliorare esplicitamente la qualità della rappresentazione fa sì che il modello fallisca su nuovi formati di prompt nonostante i suoi embedding rimangano ben separati. In definitiva, questo lavoro fornisce una nuova prospettiva per l'analisi dei VLM, dimostrando che un ragionamento robusto è una questione di allineamento mirato, non semplicemente di miglioramento dell'apprendimento delle rappresentazioni.
I rapidi progressi degli agenti di intelligenza artificiale hanno riacceso l'ambizione di lungo corso di sfruttarli per accelerare la scoperta scientifica. Raggiungere questo obiettivo richiede una profonda comprensione delle frontiere della conoscenza umana. In questo contesto, l'Esame Finale dell'Umanità (HLE) rappresenta un punto di riferimento eccezionalmente impegnativo per valutare gli agenti scientifici di IA. In questo lavoro, ci proponiamo di costruire l'architettura di base per agenti a scopo generale e di validarne le capacità attraverso prestazioni leader su HLE. Per raggiungere questo obiettivo, introduciamo X-Master, un agente di ragionamento potenziato da strumenti progettato per emulare i ricercatori umani interagendo in modo flessibile con strumenti esterni durante il processo di ragionamento. Questo agente, guidato dalla concettualizzazione del codice come linguaggio di interazione, può sfruttare in modo flessibile le librerie Python integrate e i nostri strumenti personalizzati per potenziare il ragionamento. Scaliamo ulteriormente le sue capacità attraverso X-Masters, un flusso di lavoro agentico disperso e stratificato che migliora sistematicamente l'ampiezza e la profondità del ragionamento. La nostra soluzione open-source, X-Masters, stabilisce un nuovo record di stato dell'arte su HLE con un punteggio del 32,1%, superando OpenAI e Google Deep Research (26,6% e 26,9%) e diventando la prima a superare la soglia del 30%. Questo lavoro ci permette di acquisire una comprensione più profonda della risoluzione di compiti complessi e di accumulare un'esperienza preziosa che può informare i progressi futuri, guidando l'addestramento successivo dei modelli.
I codec neurali audio e gli autoencoder sono emersi come modelli versatili per la compressione audio, la trasmissione, l'estrazione di caratteristiche e la generazione di spazi latenti. Tuttavia, una limitazione chiave è che la maggior parte di essi viene addestrata per massimizzare la fedeltà di ricostruzione, spesso trascurando la struttura latente specifica necessaria per ottenere prestazioni ottimali in diverse applicazioni downstream. Proponiamo un semplice framework post-hoc per affrontare questo problema modificando il collo di bottiglia di un autoencoder pre-addestrato. Il nostro metodo introduce un "Re-Bottleneck", un collo di bottiglia interno addestrato esclusivamente attraverso perdite nello spazio latente per instillare una struttura definita dall'utente. Dimostriamo l'efficacia del framework in tre esperimenti. In primo luogo, imponiamo un ordinamento sui canali latenti senza sacrificare la qualità di ricostruzione. In secondo luogo, allineiamo i latenti con embedding semantici, analizzando l'impatto sulla modellazione diffusion downstream. In terzo luogo, introduciamo l'equivarianza, garantendo che un'operazione di filtraggio sulla forma d'onda in ingresso corrisponda direttamente a una specifica trasformazione nello spazio latente. In definitiva, il nostro framework Re-Bottleneck offre un modo flessibile ed efficiente per adattare le rappresentazioni dei modelli neurali audio, consentendo loro di soddisfare senza soluzione di continuità le varie esigenze di diverse applicazioni con un addestramento aggiuntivo minimo.
Il paradigma prevalente per il ridimensionamento dei grandi modelli linguistici (LLM) prevede un addestramento monolitico end-to-end, un processo ad alta intensità di risorse che manca di flessibilità. Questo articolo esplora un approccio alternativo e costruttivo allo sviluppo di modelli, basato su rappresentazioni di input deterministiche e non addestrabili. In precedenza [1], abbiamo dimostrato che il ragionamento semantico di alto livello può emergere nei Transformer utilizzando embedding congelati derivati dalla struttura visiva dei glifi Unicode. Qui, dimostriamo che questo substrato rappresentativo fisso funge da "porto di attracco" universale, abilitando due potenti ed efficienti paradigmi di ridimensionamento: la composizione modulare senza soluzione di continuità e la crescita progressiva strato per strato. In primo luogo, mostriamo che modelli specializzati addestrati su dataset diversi (ad esempio, testi in russo e cinese) possono essere fusi in un unico modello Mixture-of-Experts (MoE) più capace, dopo l'addestramento, senza alcuna modifica architetturale. Ciò è ottenuto semplicemente mediando i loro logit di output. Il modello MoE risultante mostra miglioramenti immediati nelle prestazioni su benchmark di ragionamento come MMLU, superando i suoi esperti costituenti senza dimenticanza catastrofica. In secondo luogo, introduciamo una metodologia di addestramento costruttivo strato per strato, in cui un Transformer profondo viene "cresciuto" aggiungendo e addestrando progressivamente uno strato alla volta. Questo metodo dimostra una convergenza stabile e una chiara correlazione tra la profondità del modello e l'emergere di abilità di ragionamento complesso, come quelle richieste per SQuAD. I nostri risultati suggeriscono un cambiamento di paradigma dall'ottimizzazione monolitica verso un modello di sviluppo dell'IA più biologico o costruttivo, in cui la complessità è costruita in modo incrementale e i moduli possono essere composti liberamente. Ciò apre nuove strade per un ridimensionamento efficiente delle risorse, l'apprendimento continuo e un ecosistema più democratizzato per la costruzione di potenti sistemi di IA. Rilasciamo tutto il codice e i modelli per facilitare ulteriori ricerche.
Comprendere il locus della rappresentazione semantica nei grandi modelli linguistici (LLM) è cruciale per l'interpretabilità e l'innovazione architetturale. Il paradigma dominante presuppone che gli embedding di input addestrabili fungano da "vettori di significato" fondamentali. Questo articolo mette in discussione tale visione. Costruiamo modelli Transformer in cui lo strato di embedding è completamente congelato, con vettori derivati non dai dati, ma dalla struttura visiva dei glifi Unicode. Questi embedding visivi precalcolati e non semantici rimangono fissi durante l'addestramento. Il nostro metodo è compatibile con qualsiasi tokenizer, incluso un nuovo tokenizer centrato su Unicode che introduciamo per garantire una copertura universale del testo. Nonostante l'assenza di embedding addestrabili e inizializzati semanticamente, i nostri modelli convergono, generano testo coerente e, soprattutto, superano modelli architettonicamente identici con embedding addestrabili nel benchmark di ragionamento MMLU. Attribuiamo ciò a un "interferenza rappresentazionale" nei modelli convenzionali, in cui lo strato di embedding è gravato dall'apprendimento sia di caratteristiche strutturali che semantiche. I nostri risultati indicano che la semantica di alto livello non è intrinseca agli embedding di input, ma è una proprietà emergente dell'architettura compositiva del Transformer e della scala dei dati. Ciò ridefinisce il ruolo degli embedding da contenitori di significato a primitive strutturali. Rilasciamo tutto il codice e i modelli per favorire ulteriori ricerche.