Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli esseri umani apprendono concetti astratti attraverso la sinergia multisensoriale e, una volta formate, tali rappresentazioni possono spesso essere richiamate da una singola modalità. Ispirati da questo principio, introduciamo Concerto, una simulazione minimalista dell'apprendimento concettuale umano per la cognizione spaziale, che combina l'auto-distillazione intramidale 3D con l'incorporamento congiunto cross-modale 2D-3D. Nonostante la sua semplicità, Concerto apprende caratteristiche spaziali più coerenti e informative, come dimostrato dalle visualizzazioni zero-shot. Supera rispettivamente del 14,2% e del 4,8% i modelli auto-supervisionati SOTA 2D e 3D standalone, nonché la loro concatenazione di feature, nel probing lineare per la percezione di scene 3D. Con il fine-tuning completo, Concerto stabilisce nuovi risultati SOTA su molteplici benchmark di comprensione delle scene (ad esempio, 80,7% mIoU su ScanNet). Presentiamo inoltre una variante di Concerto sviluppata per la comprensione spaziale di nuvole di punti estratte da video, e un traduttore che proietta linearmente le rappresentazioni di Concerto nello spazio linguistico di CLIP, abilitando la percezione in mondo aperto. Questi risultati evidenziano come Concerto generi rappresentazioni spaziali con una consistenza geometrica e semantica fine-grain superiore.
Le attività nel mondo reale richiedono decisioni a granularità variabile, e gli esseri umani eccellono in questo sfruttando una rappresentazione cognitiva unificata in cui la pianificazione è fondamentalmente intesa come una forma di azione di alto livello. Tuttavia, gli agenti attuali basati su Large Language Model (LLM) mancano di questa cruciale capacità di operare fluidamente attraverso le granularità decisionali. Questa limitazione deriva da paradigmi esistenti che impongono una rigida separazione tra pianificazione di alto livello e azione di basso livello, che compromette l'adattabilità dinamica e limita la generalizzazione. Proponiamo ReCode (Recursive Code Generation), un paradigma innovativo che affronta questa limitazione unificando pianificazione e azione all'interno di una singola rappresentazione in codice. In questa rappresentazione, ReCode tratta i piani di alto livello come funzioni segnaposto astratte, che l'agente poi scompone ricorsivamente in sotto-funzioni a granularità più fine fino a raggiungere azioni primitive. Questo approccio ricorsivo dissolve il confine rigido tra piano e azione, consentendo all'agente di controllare dinamicamente la granularità delle sue decisioni. Inoltre, la struttura ricorsiva genera intrinsecamente dati di addestramento ricchi e multi-granularità, permettendo ai modelli di apprendere processi decisionali gerarchici. Esperimenti estensivi mostrano che ReCode supera significativamente i baseline avanzati nelle prestazioni di inferenza e dimostra un'efficienza eccezionale nell'addestramento, convalidando la nostra intuizione fondamentale che unificare pianificazione e azione attraverso la generazione ricorsiva di codice sia un approccio potente ed efficace per ottenere un controllo universale della granularità. Il codice è disponibile all'indirizzo https://github.com/FoundationAgents/ReCode.
Il rapido progresso dei grandi modelli linguistici (LLM) ha favorito l'emergere di agenti di dati—sistemi autonomi progettati per orchestrare ecosistemi Dati + IA per affrontare compiti complessi legati ai dati. Tuttavia, il termine "agente di dati" soffre attualmente di ambiguità terminologica e di un'adozione incoerente, confondendo semplici risponditori a query con architetture autonome sofisticate. Questa ambiguità terminologica favorisce aspettative dell'utente disallineate, sfide di responsabilità e barriere alla crescita del settore. Ispirandosi allo standard SAE J3016 per l'automazione della guida, questo studio introduce la prima tassonomia gerarchica sistematica per gli agenti di dati, comprendente sei livelli che delineano e tracciano i cambiamenti progressivi nell'autonomia, dalle operazioni manuali (L0) a una visione di agenti di dati generativi e completamente autonomi (L5, chiarendo così i confini delle capacità e l'allocazione delle responsabilità. Attraverso questa lente, offriamo una revisione strutturata della ricerca esistente organizzata per autonomia crescente, che comprende agenti di dati specializzati per la gestione, preparazione e analisi dei dati, insieme a sforzi emergenti verso sistemi versatili e completi con autonomia potenziata. Analizziamo inoltre i salti evolutivi critici e le lacune tecniche per l'avanzamento degli agenti di dati, in particolare l'ongoing transizione da L2 a L3, dove gli agenti di dati evolvono dall'esecuzione procedurale all'orchestrazione autonoma. Infine, concludiamo con una roadmap prospettica, prefigurando l'avvento di agenti di dati proattivi e generativi.
La modellazione diretta della likelihood esplicita della distribuzione dei dati grezzi è un tema chiave nell'ambito del machine learning, che ha ottenuto successi su larga scala nei Large Language Model tramite la modellazione autoregressiva. Tuttavia, la modellazione AR continua sui dati di pixel visivi soffre di sequenze estremamente lunghe e spazi ad alta dimensionalità. In questo articolo presentiamo FARMER, un innovativo framework generativo end-to-end che unisce Normalizing Flows (NF) e modelli Autoregressivi (AR) per la stima trattabile della likelihood e la sintesi di immagini di alta qualità direttamente dai pixel grezzi. FARMER utilizza un flusso autoregressivo invertibile per trasformare le immagini in sequenze latenti, la cui distribuzione è modellata implicitamente da un modello autoregressivo. Per affrontare la ridondanza e la complessità nella modellazione a livello di pixel, proponiamo uno schema di riduzione dimensionale self-supervised che partiziona i canali latenti NF in gruppi informativi e ridondanti, consentendo una modellazione AR più efficace ed efficiente. Inoltre, progettiamo uno schema di distillazione one-step per accelerare significativamente la velocità di inferenza e introduciamo un algoritmo di guidance classifier-free basato sul resampling per migliorare la qualità della generazione di immagini. Esperimenti estensivi dimostrano che FARMER raggiunge prestazioni competitive rispetto agli esistenti modelli generativi basati su pixel, fornendo al contempo likelihood esatte e training scalabile.
Gli attuali modelli Visione-Linguaggio-Azione (VLA) sono spesso limitati da un paradigma di interazione rigido e statico, che non permette di vedere, ascoltare, parlare e agire in modo concorrente né di gestire dinamicamente le interruzioni dell'utente in tempo reale. Ciò ostacola una collaborazione incarnata senza soluzione di continuità, determinando un'esperienza utente inflessibile e poco reattiva. Per superare questi limiti, introduciamo VITA-E, un nuovo framework di interazione incarnata progettato per la concorrenza comportamentale e le interruzioni quasi in tempo reale. Il cuore del nostro approccio è un'architettura a doppio modello in cui due istanze VLA parallele operano come "Modello Attivo" e "Modello di Standby", consentendo all'agente incarnato di osservare l'ambiente, ascoltare il parlato dell'utente, fornire risposte verbali ed eseguire azioni, tutto in modo concorrente e interrompibile, imitando le capacità umane di multitasking. Proponiamo inoltre un paradigma "modello come controllore", in cui addestriamo il VLM per generare token speciali che fungono da comandi diretti a livello di sistema, accoppiando il ragionamento del modello con il comportamento del sistema. Esperimenti condotti su una piattaforma umanoide fisica dimostrano che VITA-E può gestire in modo affidabile scenari interattivi complessi. Il nostro framework è compatibile con vari modelli VLA a doppio sistema, raggiungendo un tasso di successo estremamente elevato nelle fermate di emergenza e nelle interruzioni vocali, oltre a eseguire con successo azioni e linguaggio in concorrenza. Questo rappresenta un passo significativo verso assistenti incarnati più naturali e capaci.
I modelli di animazione umana guidati dall'audio spesso soffrono di deriva d'identità durante la generazione autoregressiva temporale, dove i personaggi perdono gradualmente la loro identità nel tempo. Una soluzione è generare keyframe come ancore temporali intermedie che prevengano il degrado, ma questo richiede una fase aggiuntiva di generazione dei keyframe e può limitare la dinamica del movimento naturale. Per affrontare questo problema, proponiamo l'Ancoraggio Anticipato (Lookahead Anchoring), che utilizza keyframe da step temporali futuri antecedenti alla finestra di generazione corrente, piuttosto che al suo interno. Questo trasforma i keyframe da limiti fissi in fari direzionali: il modello persegue continuamente queste ancore future mentre risponde agli stimoli audio immediati, mantenendo un'identità coerente attraverso una guida persistente. Ciò consente anche l'auto-keyframing, dove l'immagine di riferimento funge da obiettivo anticipato, eliminando del tutto la necessità di generare keyframe. Troviamo che la distanza temporale di anticipo controlla naturalmente l'equilibrio tra espressività e coerenza: distanze maggiori consentono una maggiore libertà di movimento, mentre quelle più piccole rafforzano l'aderenza all'identità. Quando applicato a tre recenti modelli di animazione umana, l'Ancoraggio Anticipato raggiunge una sincronizzazione labiale, una preservazione dell'identità e una qualità visiva superiori, dimostrando un condizionamento temporale migliorato su diverse architetture. I risultati video sono disponibili al seguente link: https://lookahead-anchoring.github.io.
Gli esseri umani percepiscono naturalmente la struttura geometrica e il contenuto semantico di un mondo 3D come dimensioni interconnesse, consentendo una comprensione coerente e accurata di scene complesse. Tuttavia, la maggior parte degli approcci precedenti ha privilegiato l'addestramento di modelli geometrici di grandi dimensioni per la ricostruzione 3D di basso livello, trattando separatamente la comprensione spaziale di alto livello e trascurando la cruciale interazione tra questi due aspetti fondamentali dell'analisi di scene 3D, limitando così la generalizzazione e portando a scarse prestazioni nei compiti di comprensione 3D a valle. Tentativi recenti hanno mitigato questo problema allineando semplicemente modelli 3D con specifici modelli linguistici, restringendo però la percezione alla capacità del modello allineato e limitando l'adattabilità ai compiti downstream. In questo articolo, proponiamo InstanceGrounded Geometry Transformer (IGGT), un grande trasformatore unificato end-to-end per unificare la conoscenza sia per la ricostruzione spaziale che per la comprensione contestuale a livello di istanza. Nello specifico, progettiamo una strategia di Apprendimento Contrastivo 3D-Consistente che guida IGGT a codificare una rappresentazione unificata con strutture geometriche e clustering ancorato alle istanze, utilizzando solo input visivi 2D. Questa rappresentazione supporta il sollevamento coerente degli input visivi 2D in una scena 3D coerente con istanze oggetto esplicitamente distinte. Per facilitare questo compito, abbiamo inoltre costruito InsScene-15K, un dataset su larga scala con immagini RGB di alta qualità, pose, mappe di profondità e annotazioni di maschere a livello di istanza 3D-consistenti, utilizzando una nuova pipeline di curatela dei dati.
I modelli di diffusione e di flusso corrispondente sono emersi come potenti politiche robotiche, consentendo ai modelli Visione-Linguaggio-Azione (VLA) di generalizzare attraverso scenari e istruzioni diversi. Tuttavia, quando addestrati tramite apprendimento per imitazione, la loro elevata capacità generativa li rende sensibili al rumore presente nelle dimostrazioni umane: scatti, pause e tremolii che riducono la coerenza delle azioni. Una ridotta coerenza delle azioni causa instabilità e deriva della traiettoria durante l'implementazione, guasti che sono catastrofici nella manipolazione di precisione dove la precisione è cruciale. In questo articolo, presentiamo Action Coherence Guidance (ACG) per modelli VLA, un algoritmo di guida in fase di test che non richiede addestramento e che migliora la coerenza delle azioni, producendo così guadagni prestazionali. Valutato su RoboCasa, DexMimicGen e su compiti reali SO-101, ACG migliora costantemente la coerenza delle azioni e aumenta i tassi di successo in vari compiti di manipolazione. Il codice e la pagina del progetto sono disponibili rispettivamente su https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG.
I modelli di embedding testuale costituiscono un componente fondamentale nelle applicazioni di ricerca reali. Mappando query e documenti in uno spazio di embedding condiviso, forniscono prestazioni di retrieval competitive con alta efficienza. Tuttavia, la loro fedeltà di ranking rimane limitata rispetto ai reranker dedicati, in particolare ai recenti reranker listwise basati su LLM, che catturano interazioni granulari query-documento e documento-documento. In questo articolo, proponiamo un framework unificato semplice ma efficace chiamato E²Rank (che significa Efficient Embedding-based Ranking, ma anche Embedding-to-Rank), che estende un singolo modello di embedding testuale per eseguire sia retrieval di alta qualità che reranking listwise attraverso un addestramento continuato sotto un obiettivo di ranking listwise, raggiungendo così una forte efficacia con notevole efficienza. Utilizzando la similarità del coseno tra gli embedding della query e del documento come funzione di ranking unificata, il prompt di ranking listwise, costruito dalla query originale e dai suoi documenti candidati, funge da query arricchita con segnali provenienti dai top-K documenti, simile al feedback di pseudo-rilevanza (PRF) nei modelli di retrieval tradizionali. Questo design preserva l'efficienza e la qualità rappresentativa del modello di embedding base, migliorando significativamente le sue prestazioni di reranking. Empiricamente, E²Rank raggiunge risultati all'avanguardia sul benchmark di reranking BEIR e dimostra prestazioni competitive sul benchmark ad intenso ragionamento BRIGHT, con una latenza di reranking molto bassa. Mostriamo inoltre che il processo di addestramento al ranking migliora le prestazioni dell'embedding sul benchmark MTEB. I nostri risultati indicano che un singolo modello di embedding può unificare efficacemente retrieval e reranking, offrendo sia efficienza computazionale che accuratezza di ranking competitiva.
I Large Multimodal Model (LMM) hanno compiuto progressi notevoli nella generazione di immagini fotorealistiche e allineate al prompt, ma spesso producono risultati che contraddicono conoscenze verificabili, specialmente quando i prompt coinvolgono attributi di grana fine o eventi sensibili al tempo. I convenzionali approcci retrieval-augmented tentano di affrontare questo problema introducendo informazioni esterne, tuttavia sono intrinsecamente incapaci di ancorare la generazione a conoscenze accurate ed evolventi a causa della loro dipendenza da fonti statiche e da un'integrazione superficiale delle evidenze. Per colmare questa lacuna, introduciamo ORIG, un framework agentico open di retrieval-augmented multimodale per la Generazione di Immagini Factuali (FIG), un nuovo compito che richiede sia realismo visivo che ancoraggio fattuale. ORIG recupera e filtra iterativamente evidenze multimodali dal web e integra incrementalmente la conoscenza raffinata in prompt arricchiti per guidare la generazione. Per supportare una valutazione sistematica, costruiamo FIG-Eval, un benchmark che abbraccia dieci categorie attraverso dimensioni percettive, compositive e temporali. Gli esperimenti dimostrano che ORIG migliora sostanzialmente la consistenza fattuale e la qualità complessiva dell'immagine rispetto a baseline solide, evidenziando il potenziale del retrieval multimodale open per la generazione di immagini fattuali.
L'attenzione multi-testa (MHA) è diventata la pietra angolare dei moderni modelli linguistici di grandi dimensioni, potenziando la capacità rappresentativa attraverso teste di attenzione parallele. Tuttavia, l'aumento del numero di teste indebolisce intrinsecamente la capacità delle singole teste, e i meccanismi di attenzione esistenti - che si tratti della MHA standard o delle sue varianti come l'attenzione a query raggruppate (GQA) e l'attenzione a gruppi vincolati (GTA) - si limitano a concatenare gli output di teste isolate senza una forte interazione. Per affrontare questa limitazione, proponiamo l'attenzione a teste interagenti (KHA), che consente alle teste di attenzione di "bussarsi" reciprocamente - facilitando interazioni a livello di feature tra le teste prima dell'attenzione prodotto-scalare. Ciò è ottenuto applicando una matrice di proiezione condivisa, inizializzata diagonalmente, su tutte le teste. L'inizializzazione diagonale preserva la specializzazione specifica di ciascuna testa all'inizio dell'addestramento, consentendo al modello di apprendere progressivamente rappresentazioni integrate tra le teste. KHA aggiunge solo parametri e FLOPs minimi e può essere integrato senza soluzione di continuità in MHA, GQA, GTA e altre varianti di attenzione. Convalidiamo KHA addestrando un modello MoE da 6.1B di parametri (1.01B attivati) su 1T di token di alta qualità. Rispetto ai meccanismi di attenzione baseline, KHA offre dinamiche di addestramento superiori e più stabili, raggiungendo prestazioni migliori in tutti i task downstream.
I modelli di reward (RMs) svolgono un ruolo cruciale nell'allineare i comportamenti dell'IA con le preferenze umane, ma affrontano due sfide fondamentali: (1) Squilibrio di Modalità, dove la maggior parte degli RMs si concentra principalmente sulle modalità testo e immagine, offrendo un supporto limitato per video, audio e altre modalità; e (2) Rigidità delle Preferenze, dove l'addestramento su coppie fisse di preferenze binarie non riesce a catturare la complessità e la diversità delle preferenze personalizzate. Per affrontare le suddette sfide, proponiamo Omni-Reward, un passo verso la modellazione di reward generalista omni-modale con supporto per preferenze libere, costituito da: (1) Valutazione: Introduciamo Omni-RewardBench, il primo benchmark omni-modale per RMs con preferenze libere, che copre nove task attraverso cinque modalità incluse testo, immagine, video, audio e 3D; (2) Dati: Costruiamo Omni-RewardData, un dataset di preferenze multimodale comprendente 248K coppie di preferenze generali e 69K coppie per instruction-tuning per addestrare RMs generalisti omni-modali; (3) Modello: Proponiamo Omni-RewardModel, che include sia RMs discriminativi che generativi, e raggiunge prestazioni solide su Omni-RewardBench così come su altri benchmark di modellazione di reward ampiamente utilizzati.
La generazione video è un percorso cruciale verso i modelli mondiali, con l'inferenza efficiente di video lunghi come capacità chiave. A tal fine, presentiamo LongCat-Video, un modello generativo video fondamentale con 13,6 miliardi di parametri, che offre prestazioni solide in molteplici compiti di generazione video. Eccelle particolarmente nella generazione efficiente e di alta qualità di video lunghi, rappresentando il nostro primo passo verso i modelli mondiali. Le caratteristiche principali includono: Architettura unificata per molteplici compiti: Basato sul framework Diffusion Transformer (DiT), LongCat-Video supporta i compiti Text-to-Video, Image-to-Video e Video-Continuation con un unico modello; Generazione di video lunghi: Il pre-addestramento su compiti di Video-Continuation consente a LongCat-Video di mantenere alta qualità e coerenza temporale nella generazione di video della durata di minuti; Inferenza efficiente: LongCat-Video genera video 720p a 30fps in pochi minuti impiegando una strategia di generazione coarse-to-fine lungo sia l'asse temporale che spaziale. Il Block Sparse Attention migliora ulteriormente l'efficienza, specialmente ad alte risoluzioni; Prestazioni solide con RLHF multi-ricompensa: L'addestramento RLHF multi-ricompensa consente a LongCat-Video di raggiungere prestazioni pari ai più recenti modelli closed-source e ai principali modelli open-source. Il codice e i pesi del modello sono pubblicamente disponibili per accelerare i progressi nel campo.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato forti capacità generali nella comprensione visiva del mondo aperto. Tuttavia, la maggior parte degli MLLM esistenti si concentra principalmente su una comprensione olistica a livello di scena, trascurando spesso l'esigenza di un ragionamento fine e centrato sugli oggetti. In questo articolo, presentiamo PixelRefer, un framework MLLM unificato a livello di regione che abilita una comprensione fine e avanzata su regioni specificate dall'utente sia in immagini che in video. Motivati dall'osservazione che l'attenzione dei LLM si concentra prevalentemente su token a livello di oggetto, proponiamo un Tokenizzatore di Oggetti Adattivo alla Scala (SAOT) per generare rappresentazioni di oggetti compatte e semanticamente ricche a partire da regioni a forma libera. La nostra analisi rivela che i token visivi globali contribuiscono principalmente negli strati iniziali del LLM, ispirando la progettazione di PixelRefer-Lite, una variante efficiente che impiega un modulo di Infusione Centrato sugli Oggetti per pre-fondere il contesto globale nei token degli oggetti. Ciò produce un Framework Solo Oggetti leggero che riduce sostanzialmente il costo computazionale mantenendo un'alta fedeltà semantica. Per facilitare il fine-tuning instruito a grana fine, abbiamo curato PixelRefer-2.2M, un dataset di istruzioni di alta qualità centrato sugli oggetti. Esperimenti estesi su una serie di benchmark convalidano che PixelRefer raggiunge prestazioni leader con un minor numero di campioni di addestramento, mentre PixelRefer-Lite offre un'accuratezza competitiva con notevoli vantaggi in termini di efficienza.
L'applicazione del Reinforcement Learning con Ricompense Verificabili (RLVR) ai domini matematici e di programmazione ha dimostrato significativi miglioramenti nelle capacità di ragionamento e problem solving dei Large Language Model. Nonostante il suo successo nella risoluzione di problemi a generazione singola, il processo di fine-tuning con apprendimento per rinforzo può compromettere la capacità di esplorazione del modello, come evidenziato dalla ridotta diversità delle generazioni e dal conseguente deterioramento delle prestazioni durante il campionamento Best-of-N per valori elevati di N. In questo lavoro, ci concentriamo sull'ottimizzazione della metrica max@k, una generalizzazione continua di pass@k. Deriviamo una stima del gradiente on-policy non distorta per l'ottimizzazione diretta di questa metrica. Inoltre, estendiamo le nostre derivazioni agli aggiornamenti off-policy, un elemento comune negli algoritmi RLVR moderni, che consente una migliore efficienza campionaria. Empiricamente, dimostriamo che il nostro obiettivo ottimizza efficacemente la metrica max@k in scenari off-policy, allineando il modello con la strategia di inferenza Best-of-N.
I modelli multimodali unificati hanno recentemente mostrato progressi notevoli sia nelle capacità che nella versatilità, tuttavia la maggior parte dei sistemi all'avanguardia viene ancora addestrata da zero e richiede risorse computazionali sostanziali. In questo articolo, dimostriamo che prestazioni competitive possono essere ottenute in modo molto più efficiente fondendo strategicamente modelli pubblicamente disponibili specializzati per la generazione o la comprensione. Il nostro progetto chiave consiste nel conservare i blocchi originali aggiungendo contemporaneamente blocchi di self-attention multimodale intercalati nelle reti. Questo meccanismo di doppia fusione (1) abilita efficacemente una ricca fusione multimodale preservando in larga misura i punti di forza originali dei modelli base, e (2) catalizza una fusione sinergica delle rappresentazioni semantiche di alto livello dall'encoder di comprensione con i segnali spaziali di basso livello dall'encoder di generazione. Addestrando con soli ~35 miliardi di token, questo approccio ottiene risultati solidi su molteplici benchmark: 0.91 su GenEval per la generazione compositiva testo-immagine, 82.16 su DPG-Bench per la generazione complessa testo-immagine, 6.06 su GEditBench e 3.77 su ImgEdit-Bench per l'editing di immagini. Rilasciando integralmente l'intera suite di codice, pesi dei modelli e dataset, speriamo di supportare la ricerca futura sulla modellazione multimodale unificata.
L'allineamento visione-linguaggio nei modelli linguistici multimodali di grandi dimensioni (MLLM) si basa tipicamente sulla messa a punto supervisionata (SFT) o sull'apprendimento per rinforzo (RL). La SFT è stabile ed efficiente ma richiede annotazioni umane su larga scala e non può cogliere preferenze sottili, mentre il RL introduce un segnale di ricompensa per l'addestramento, ma soffre di sovraccarico computazionale e instabilità. Queste limitazioni evidenziano un compromesso tra scalabilità, robustezza e qualità dell'allineamento. Per affrontare ciò, proponiamo MergeMix, un paradigma di aumento dei dati durante l'addestramento che colma il divario tra SFT e RL. Esso applica prima un mixing di immagini basato sull'attenzione tramite la fusione di token con una maggiore rappresentazione cluster e contesto spaziale, e poi presenta un paradigma di addestramento guidato dalle preferenze per gli MLLM costruendo coppie di preferenza con immagini miste e immagini originali, e ottimizzando tramite la loss SimPO. Come tecnica di mixup, MergeMix migliora la consistenza e l'efficienza dell'attenzione, superando altri metodi euristici nella classificazione. Esperimenti estensivi dimostrano che MergeMix raggiunge un'accuratezza competitiva con un'efficienza migliorata, fornendo un approccio scalabile per l'allineamento delle preferenze nella classificazione e negli MLLM.
L’apprendimento per rinforzo (RL) ha dimostrato un potenziale significativo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, il successo del RL per gli LLM dipende fortemente da dataset curati da esseri umani e ricompense verificabili, fattori che ne limitano la scalabilità e la generalità. I recenti metodi di RL ad auto-gioco, ispirati dal successo di questo paradigma in giochi come il Go, mirano a potenziare le capacità di ragionamento degli LLM senza l’uso di dati annotati manualmente. Tuttavia, tali metodi dipendono principalmente da un ambiente fondato per il feedback (ad esempio, un interprete Python o un motore di gioco); estenderli a domini generali rimane una sfida. Per affrontare queste problematiche, proponiamo Multi-Agent Evolve (MAE), un framework che consente agli LLM di auto-evolversi nella risoluzione di compiti diversificati, inclusi matematica, ragionamento e domande a risposta aperta di cultura generale. Il design centrale di MAE si basa su una triade di agenti interagenti (Proponente, Risolutore, Giudice) istanziati a partire da un singolo LLM, e applica l’apprendimento per rinforzo per ottimizzarne i comportamenti. Il Proponente genera domande, il Risolutore tenta di fornire soluzioni e il Giudice valuta entrambi, co-evolvendosi. Esperimenti condotti su Qwen2.5-3B-Instruct dimostrano che MAE raggiunge un miglioramento medio del 4,54% su molteplici benchmark. Questi risultati evidenziano come MAE rappresenti un metodo scalabile ed efficiente dal punto di vista dei dati per potenziare le capacità di ragionamento generale degli LLM con un affidamento minimo sulla supervisione umana.
Gli approcci esistenti si basano tipicamente su una messa a punto su larga scala per adattare gli LLM ai compiti di riordinamento delle informazioni, il che è computazionalmente oneroso. In questo lavoro, dimostriamo che gli LLM moderni possono essere efficacemente adattati utilizzando esclusivamente una supervisione minima ma di alta qualità. Per renderlo possibile, progettiamo LIMRANK-SYNTHESIZER, una pipeline riutilizzabile e open-source per generare esempi di riordinamento diversificati, impegnativi e realistici. Utilizzando questi dati sintetici, addestriamo tramite messa a punto il nostro modello di riordinamento, LIMRANK. Valutiamo LIMRANK su due benchmark impegnativi, ovvero BRIGHT per il retrieval ad alta intensità di ragionamento e FollowIR per il retrieval che segue istruzioni. I nostri esperimenti dimostrano che LIMRANK raggiunge prestazioni competitive, pur essendo stato addestrato su meno del 5% dei dati tipicamente utilizzati nei lavori precedenti. Ulteriori studi di ablazione dimostrano l'efficacia di LIMRANK-SYNTHESIZER e le solide capacità di generalizzazione di LIMRANK attraverso compiti downstream, inclusa la ricerca nella letteratura scientifica e la generazione aumentata dal retrieval per la risoluzione di problemi ad alta intensità di conoscenza.
La ricerca di robot generalisti - agenti istruibili capaci di eseguire compiti diversificati in ambienti differenti - richiede una valutazione rigorosa e scalabile. Tuttavia, i test nel mondo reale delle policy robotiche rimangono fondamentalmente limitati: sono laboriosi, lenti, pericolosi su larga scala e difficili da riprodurre. I benchmark di simulazione esistenti sono similmente limitati, poiché addestrano e testano le policy all'interno degli stessi domini sintetici e non possono valutare modelli addestrati su dimostrazioni del mondo reale o ambienti simulativi alternativi. Man mano che le policy aumentano in portata e complessità, queste barriere si intensificano, poiché la definizione di "successo" in robotica spesso dipende da giudizi umani sfumati sulla qualità dell'esecuzione. In questo articolo, introduciamo un nuovo framework di benchmarking che supera queste sfide spostando la valutazione dei VLA (Vision-Language-Action) in ambienti simulati su larga scala potenziati con feedback umano in tempo reale. Sfruttando i progressi nei modelli visione-linguaggio, nella modellazione generativa 2D-3D e nel rendering differenziabile, il nostro approccio converte automaticamente dimostrazioni video da dataset robotici ampiamente utilizzati in controparti simulate. All'interno di questi gemelli digitali, valutiamo le policy VLA utilizzando sia sistemi di punteggio automatizzati guidati da VLM che giudizi di preferenza umana scalabili raccolti da lavoratori online, trasformando il coinvolgimento umano da noiosa configurazione scenica, reset e supervisione della sicurezza in leggeri confronti per preferenza. Per misurare la robustezza, perturbiamo sistematicamente gli ambienti simulati lungo molteplici assi, come texture e posizionamento degli oggetti, testando sotto stress la generalizzazione delle policy sotto variazione controllata. Il risultato è un benchmark in continua evoluzione, riproducibile e scalabile per policy di manipolazione robotica addestrate nel mondo reale, colmando una fondamentale lacuna capability nell'attuale panorama robotic
I modelli auto-regressivi (AR) per immagini sono emersi come un potente paradigma per i modelli generativi visivi. Nonostante le prestazioni promettenti, soffrono di una velocità di generazione lenta a causa del gran numero di passaggi di campionamento richiesti. Sebbene il Decodificatore Distillato 1 (DD1) sia stato recentemente proposto per consentire un campionamento in pochi passaggi per i modelli AR di immagini, comporta comunque un significativo degrado delle prestazioni nell'impostazione a singolo passaggio e si basa su una mappatura predefinita che ne limita la flessibilità. In questo lavoro, proponiamo un nuovo metodo, il Decodificatore Distillato 2 (DD2), per far progredire ulteriormente la fattibilità del campionamento a singolo passaggio per i modelli AR di immagini. A differenza di DD1, DD2 non si basa su una mappatura predefinita. Consideriamo il modello AR originale come un modello insegnante che fornisce il punteggio condizionale vero e proprio nello spazio latente di embedding per ogni posizione del token. Sulla base di ciò, proponiamo una nuova funzione di perdita per la distillazione del punteggio condizionale per addestrare un generatore a singolo passaggio. Nello specifico, addestriamo una rete separata per prevedere il punteggio condizionale della distribuzione generata e applichiamo la distillazione del punteggio ad ogni posizione del token condizionata ai token precedenti. I risultati sperimentali mostrano che DD2 consente un campionamento a singolo passaggio per i modelli AR di immagini con un aumento minimo dell'FID da 3.40 a 5.43 su ImageNet-256. Rispetto al baseline più forte, DD1, DD2 riduce il divario tra il campionamento a singolo passaggio e il modello AR originale del 67%, con un contemporaneo aumento della velocità di addestramento fino a 12.3 volte. DD2 rappresenta un passo significativo verso l'obiettivo della generazione AR a singolo passaggio, aprendo nuove possibilità per una modellazione AR rapida e di alta qualità. Il codice è disponibile all'indirizzo https://github.com/imagination-research/Distilled-Decoding-2.
I Large Language Model (LLM) sono diventati assistenti preziosi per gli sviluppatori in compiti relativi al codice. Sebbene gli LLM eccellano in compiti di programmazione tradizionali come la generazione di codice e la correzione di bug, faticano con compiti di codifica orientati all'aspetto visivo, producendo spesso un'estetica subottimale. In questo articolo, introduciamo una nuova pipeline per migliorare la qualità estetica del codice generato dagli LLM. In primo luogo, costruiamo AesCode-358K, un dataset su larga scala per l'instruction-tuning focalizzato sull'estetica del codice. Successivamente, proponiamo l'agentic reward feedback, un sistema multi-agente che valuta l'eseguibilità, l'estetica statica e l'estetica interattiva. Sulla base di ciò, sviluppiamo GRPO-AR, che integra questi segnali nell'algoritmo GRPO per l'ottimizzazione congiunta della funzionalità e dell'estetica del codice. Infine, sviluppiamo OpenDesign, un benchmark per valutare l'estetica del codice. I risultati sperimentali mostrano che combinare il supervised fine-tuning su AesCode-358K con il reinforcement learning utilizzando l'agentic reward feedback migliora significativamente le prestazioni su OpenDesign e migliora anche i risultati su benchmark esistenti come PandasPlotBench. Notevolmente, il nostro AesCoder-4B supera GPT-4o e GPT-4.1 e raggiunge prestazioni paragonabili a modelli open-source di grandi dimensioni con 480B-685B parametri, sottolineando l'efficacia del nostro approccio.
La simulazione fisica si basa su proprietà meccaniche variabili spazialmente, spesso realizzate laboriosamente a mano. VoMP è un metodo feed-forward addestrato per prevedere il modulo di Young (E), il coefficiente di Poisson (ν) e la densità (ρ) nell'intero volume di oggetti 3D, in qualsiasi rappresentazione che possa essere renderizzata e voxelizzata. VoMP aggrega caratteristiche multi-vista per voxel e le trasferisce al nostro Geometry Transformer addestrato per prevedere codici latenti materiale per voxel. Questi codici latenti risiedono su una varietà di materiali fisicamente plausibili, che apprendiamo da un dataset del mondo reale, garantendo la validità dei materiali per voxel decodificati. Per ottenere dati di addestramento a livello di oggetto, proponiamo una pipeline di annotazione che combina conoscenze da dataset 3D segmentati, banche dati di materiali e un modello visione-linguaggio, insieme a un nuovo benchmark. Gli esperimenti mostrano che VoMP stima proprietà volumetriche accurate, superando di gran lunga lo stato dell'arte in precisione e velocità.
Introduciamo PRISM-Bench, un benchmark di sfide visive basate su enigmi progettato per valutare non solo se i modelli sono in grado di risolvere i problemi, ma anche come si svolge il loro ragionamento. A differenza delle valutazioni precedenti che misurano solo l'accuratezza della risposta finale, PRISM-Bench introduce un compito diagnostico: dato un enigma visivo e una catena di pensiero (CoT) passo-passo che contiene esattamente un errore, i modelli devono identificare il primo passo errato. Questa impostazione consente una valutazione granulare della coerenza logica, del rilevamento degli errori e del ragionamento visivo. Gli enigmi in PRISM-Bench richiedono un ragionamento simbolico, geometrico e analogico multi-step, resistendo a scorciatoie basate su corrispondenze superficiali di pattern. Le valutazioni su MLLM all'avanguardia rivelano un divario persistente tra generazione fluente e ragionamento fedele: i modelli che producono CoT plausibili spesso non riescono a individuare semplici errori logici. Separando la generazione della risposta dalla verifica del ragionamento, PRISM-Bench offre una lente più nitida sulla competenza del ragionamento multimodale e sottolinea la necessità di protocolli di valutazione diagnostica nello sviluppo di MLLM affidabili.
I metodi attuali di generazione 3D/4D sono generalmente ottimizzati per il fotorealismo, l'efficienza e l'estetica. Tuttavia, spesso non riescono a preservare l'identità semantica del soggetto attraverso diversi punti di vista. L'adattamento dei metodi di generazione con una o poche immagini di un soggetto specifico (noto anche come Personalizzazione o Generazione guidata dal soggetto) consente di generare contenuti visivi che si allineano con l'identità del soggetto. Tuttavia, la generazione 3D/4D personalizzata è ancora in gran parte inesplorata. In questo lavoro, introduciamo TIRE (Track, Inpaint, REsplat), un nuovo metodo per la generazione 3D/4D guidata dal soggetto. Il metodo prende in input un asset 3D iniziale prodotto da un modello generativo 3D esistente e utilizza il tracciamento video per identificare le regioni che necessitano di modifica. Successivamente, adottiamo un modello di inpaint 2D guidato dal soggetto per riempire progressivamente le regioni identificate. Infine, risplattiamo le osservazioni 2D multi-vista modificate nuovamente in 3D mantenendo la coerenza. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente la preservazione dell'identità nella generazione 3D/4D rispetto ai metodi allo stato dell'arte. Il nostro sito web del progetto è disponibile all'indirizzo https://zsh2000.github.io/track-inpaint-resplat.github.io/.
I modelli linguistici di grandi dimensioni allucinano sistematicamente API e dislocano erroneamente le modifiche, mentre i language server calcolano fatti verificati di livello IDE sul codice reale. Presentiamo Lanser-CLI, un layer di orchestrazione CLI-first che ancorizza e media un server Language Server Protocol (LSP) per agenti di codifica e CI, esponendo flussi di lavoro deterministici e ripetibili. La nostra posizione è che i language server forniscano non solo informazioni strutturali (definizioni, riferimenti, tipi, diagnostiche) ma anche una ricompensa di processo azionabile: segnali step-by-step verificati dalla macchina che allineano il ciclo di pianificazione di un agente con la realtà del programma. In questo lavoro, Lanser-CLI contribuisce con: (i) uno schema di indirizzamento robusto che supera la fragilità del "file:riga:colonna" tramite un DSL Selettore (selettori simbolici, ad percorso AST e ancorati al contenuto) con un algoritmo di rilocazione principiato; (ii) Bundle di Analisi deterministici che normalizzano le risposte del Language Server e catturano metadati ambientali/di capacità con hash di contenuto stabili; (iii) un involucro di sicurezza per operazioni mutanti (rinomina, azioni di codice) con anteprima, workspace jail e applicazione transazionale consapevole di Git; e (iv) una funzione di ricompensa di processo derivata dai fatti del Language Server (deltas diagnostici, confidenza di disambiguazione e controlli di safe-apply) calcolabile online e ripetibile offline. Formalizziamo il determinismo sotto snapshot congelati e stabiliamo una proprietà di monotonicità per la ricompensa di processo, rendendola adatta per la supervisione del processo e l'analisi controfattuale. Pagina del Progetto: https://github.com/yifanzhang-pro/lanser-cli
La ricostruzione fotorealistica di corpi umani 3D completi a partire da una singola immagine è un compito cruciale ma impegnativo per applicazioni cinematografiche e videoludiche, a causa di ambiguità intrinseche e severi auto-occlusioni. Sebbene gli approcci recenti sfruttino la stima SMPL e modelli generativi di immagini condizionati da SMPL per generare nuove visuali, essi soffrono di inaccurate prior 3D stimate dalle mesh SMPL e incontrano difficoltà nella gestione di pose umane complesse e nella ricostruzione di dettagli fini. In questo articolo, proponiamo SyncHuman, un framework innovativo che combina per la prima volta un modello generativo multivista 2D e un modello generativo nativo 3D, consentendo la ricostruzione di mesh umani vestiti di alta qualità da immagini single-view, anche in pose umane impegnative. Il modello generativo multivista eccelle nella cattura di dettagli 2D fini ma fatica con la coerenza strutturale, mentre il modello generativo nativo 3D genera forme 3D grossolane ma strutturalmente coerenti. Integrando i punti di forza complementari di questi due approcci, sviluppiamo un framework di generazione più efficace. Nello specifico, ottimizziamo congiuntamente il modello generativo multivista e il modello generativo nativo 3D mediante una proposta attenzione di sincronizzazione 2D-3D allineata a pixel, per produrre forme 3D geometricamente allineate e immagini multivista 2D. Per migliorare ulteriormente i dettagli, introduciamo un meccanismo di iniezione di feature che trasferisce i dettagli fini dalle immagini multivista 2D sulle forme 3D allineate, abilitando una ricostruzione accurata e ad alta fedeltà. Esperimenti estensivi dimostrano che SyncHuman raggiunge una ricostruzione 3D umana robusta e fotorealistica, anche per immagini con pose complesse. Il nostro metodo supera i metodi baseline in accuratezza geometrica e fedeltà visiva, indicando una direzione promettente per i futuri modelli di generazione 3D.
Questo articolo presenta uno studio sistematico delle leggi di scala per il compito di rilevamento dei deepfake. Nello specifico, analizziamo le prestazioni del modello in relazione al numero di domini di immagini reali, ai metodi di generazione di deepfake e alle immagini di addestramento. Poiché nessun dataset esistente soddisfa i requisiti di scala per questa ricerca, abbiamo costruito ScaleDF, il più grande dataset ad oggi in questo campo, che contiene oltre 5,8 milioni di immagini reali provenienti da 51 dataset diversi (domini) e più di 8,8 milioni di immagini false generate da 102 metodi di deepfake. Utilizzando ScaleDF, osserviamo una scalabilità di legge di potenza simile a quella mostrata dai grandi modelli linguistici (LLM). In particolare, l'errore medio di rilevamento segue un decadimento prevedibile secondo una legge di potenza all'aumentare del numero di domini reali o del numero di metodi di deepfake. Questa osservazione chiave non solo ci permette di prevedere il numero di domini reali o metodi di deepfake aggiuntivi necessari per raggiungere una prestazione target, ma ci ispira anche a contrastare l'evoluzione della tecnologia deepfake in modo data-centrico. Oltre a ciò, esaminiamo il ruolo del pre-addestramento e dell'aumento dei dati nel rilevamento dei deepfake in condizioni di scalabilità, nonché i limiti della scalabilità stessa.
Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.
I modelli linguistici di grandi dimensioni (LLM) eccellono nell'inferenza zero-shot ma continuano ad avere difficoltà con ragionamenti complessi e multi-step. I metodi recenti che potenziano gli LLM con passaggi di ragionamento intermedi, come la Catena del Pensiero (CoT) e il Programma del Pensiero (PoT), migliorano le prestazioni ma spesso producono soluzioni indesiderate, specialmente in domini algoritmici. Introduciamo la Sintesi di Programmi per Istanza (PIPS), un metodo che genera e perfeziona programmi a livello di istanza utilizzando feedback strutturale senza fare affidamento su linee guida specifiche per il compito o casi di test espliciti. Per migliorare ulteriormente le prestazioni, PIPS incorpora una metrica di confidenza che sceglie dinamicamente tra l'inferenza diretta e la sintesi di programmi su base per-istanza. Esperimenti condotti su tre LLM all'avanguardia e 30 benchmark, inclusi tutti i task del Big Bench Extra Hard (BBEH), task di visual question answering, task di ragionamento relazionale e task di ragionamento matematico, mostrano che PIPS migliora la precisione media armonica assoluta fino all'8,6% e al 9,4% rispetto rispettivamente a PoT e CoT, e riduce le generazioni di programmi indesiderate del 65,1% sui task algoritmici rispetto a PoT con Gemini-2.0-Flash.
Presentiamo la modellazione linguistica basata su memoria come alternativa efficiente ed ecologicamente sostenibile alla modellazione linguistica basata su reti neurali profonde. Offre prestazioni scalabili in modo log-lineare per la previsione del token successivo e solide capacità di memorizzazione. Implementando approssimazioni veloci della classificazione k-nearest neighbor, la modellazione linguistica basata su memoria lascia un'impronta ecologica relativamente ridotta sia in fase di addestramento che di inferenza, poiché si basa interamente su CPU e raggiunge basse latenze per token. Il suo funzionamento interno è semplice e completamente trasparente. Confrontiamo la nostra implementazione di modellazione linguistica basata su memoria, OLIFANT, con GPT-2 e GPT-Neo in termini di accuratezza nella previsione del token successivo, emissioni stimate e velocità, e offriamo alcune analisi più approfondite del modello.
In questo articolo presentiamo un modello innovativo basato sulla diffusione per il rilevamento delle corsie, denominato DiffusionLane, che affronta il compito del rilevamento delle corsie come un processo di diffusione di denoising nello spazio parametrico della corsia. In primo luogo, aggiungiamo rumore gaussiano ai parametri (punto di partenza e angolo) delle corsie ground truth per ottenere ancore di corsia rumorose, e il modello apprende a raffinare queste ancore in modo progressivo per ottenere le corsie target. In secondo luogo, proponiamo una strategia di decodifica ibrida per affrontare la scarsa rappresentazione delle feature dell'encoder, causata dalle ancore di corsia rumorose. Nello specifico, progettiamo un decoder di diffusione ibrido che combina decoder a livello globale e a livello locale per generare ancore di corsia di alta qualità. Quindi, per migliorare la rappresentazione delle feature dell'encoder, impieghiamo una testa ausiliaria nella fase di addestramento per adottare ancore di corsia apprendibili, arricchendo così la supervisione sull'encoder. I risultati sperimentali su quattro benchmark, Carlane, Tusimple, CULane e LLAMAS, dimostrano che DiffusionLane possiede una forte capacità di generalizzazione e prestazioni di rilevamento promettenti rispetto ai precedenti metodi state-of-the-art. Ad esempio, DiffusionLane con ResNet18 supera i metodi esistenti di almeno l'1% in accuratezza sul dataset di adattamento di dominio Carlane. Inoltre, DiffusionLane con MobileNetV4 ottiene un punteggio F1 dell'81,32% su CULane, un'accuratezza del 96,89% su Tusimple con ResNet34, e un punteggio F1 del 97,59% su LLAMAS con ResNet101. Il codice sarà disponibile all'indirizzo https://github.com/zkyntu/UnLanedet.
Il notevole successo dei modelli di diffusione e di flusso corrispondente (flow-matching) ha innescato un'impennata di lavori che mirano ad adattarli in fase di test per compiti di generazione controllata. Gli esempi spaziano dall'editing di immagini al restauro, alla compressione e alla personalizzazione. Tuttavia, a causa della natura iterativa del processo di campionamento in questi modelli, è computazionalmente impraticabile utilizzare l'ottimizzazione basata sul gradiente per controllare direttamente l'immagine generata al termine del processo. Di conseguenza, i metodi esistenti ricorrono tipicamente alla manipolazione di ogni singolo passo temporale. In questo lavoro introduciamo FlowOpt, un framework di ottimizzazione di ordine zero (privo di gradienti) che tratta l'intero processo di flusso come una scatola nera, consentendo l'ottimizzazione attraverso l'intero percorso di campionamento senza retropropagazione attraverso il modello. Il nostro metodo è sia altamente efficiente, sia consente agli utenti di monitorare i risultati intermedi dell'ottimizzazione ed effettuare un arresto anticipato se desiderato. Dimostriamo una condizione sufficiente sulla dimensione del passo di FlowOpt, sotto la quale è garantita la convergenza verso l'ottimo globale. Mostriamo inoltre come stimare empiricamente questo limite superiore per scegliere una dimensione del passo appropriata. Dimostriamo come FlowOpt possa essere utilizzato per l'editing di immagini, presentando due opzioni: (i) inversione (determinare il rumore iniziale che genera una determinata immagine) e (ii) guidare direttamente l'immagine modificata in modo che sia simile all'immagine sorgente rispettando al contempo un prompt testuale di destinazione. In entrambi i casi, FlowOpt ottiene risultati all'avanguardia utilizzando approssimativamente lo stesso numero di valutazioni di funzioni neurali (NFE) dei metodi esistenti. Il codice e gli esempi sono disponibili sulla pagina web del progetto.
Gli ottimizzatori precondizionati basati su matrici, come Muon, hanno recentemente dimostrato di essere più efficienti degli ottimizzatori scalari per l'addestramento di reti neurali su larga scala, inclusi i grandi modelli linguistici (LLM). D'altro canto, recenti benchmark sugli ottimizzatori per il pre-addestramento di LLM hanno evidenziato che tecniche di riduzione della varianza come MARS possono ottenere accelerazioni sostanziali rispetto agli ottimizzatori standard che non impiegano tale riduzione. In questo articolo, per unire i vantaggi di entrambi gli approcci, introduciamo MARS-M, un nuovo ottimizzatore che integra la tecnica di riduzione della varianza di MARS con Muon. Sotto le consuete condizioni di regolarità, dimostriamo che Muon-M converge verso un punto stazionario del primo ordine con un tasso di \(\mathcal{O}(T^{-1/3})\), migliorando il tasso \(\mathcal{O}(T^{-1/4})\) raggiunto da Muon. I nostri risultati empirici su attività di modellazione linguistica e visione artificiale mostrano che MARS-M produce costantemente loss inferiori e prestazioni migliorate su vari benchmark downstream. L'implementazione di MARS-M è disponibile all'indirizzo https://github.com/AGI-Arena/MARS/MARS_M.
I Diffusion Transformer (DiT) offrono prestazioni generative all'avanguardia, ma il loro costo quadratico di addestramento rispetto alla lunghezza della sequenza rende estremamente costoso il pre-training su larga scala. L'eliminazione selettiva di token (token dropping) può ridurre i costi, tuttavia strategie naive degradano le rappresentazioni, e i metodi esistenti sono o parametrizzati in modo pesante o falliscono con alti rapporti di scarto. Presentiamo SPRINT, Sparse–Dense Residual Fusion for Efficient Diffusion Transformers, un metodo semplice che consente un'eliminazione aggressiva dei token (fino al 75%) preservando la qualità. SPRINT sfrutta i ruoli complementari degli strati superficiali e profondi: gli strati iniziali elaborano tutti i token per catturare i dettagli locali, gli strati più profondi operano su un sottoinsieme sparso per ridurre il calcolo, e i loro output vengono fusi attraverso connessioni residue. L'addestramento segue una pianificazione in due fasi: un lungo pre-training mascherato per l'efficienza, seguito da un breve fine-tuning con tutti i token per colmare il divario addestramento-inferenza. Su ImageNet-1K 256x256, SPRINT raggiunge un risparmio di addestramento di 9.8x con FID/FDD comparabili, e in inferenza, la sua Path-Drop Guidance (PDG) quasi dimezza i FLOPs migliorando al contempo la qualità. Questi risultati stabiliscono SPRINT come una soluzione semplice, efficace e generale per l'addestramento efficiente dei DiT.
I grandi modelli linguistici (LLM) hanno recentemente fatto progredire il riconoscimento vocale uditivo (ASR), il riconoscimento vocale visivo (VSR) e il riconoscimento vocale audiovisivo (AVSR). Tuttavia, la comprensione delle loro dinamiche interne durante il fine-tuning rimane limitata. Nell'elaborazione del linguaggio naturale, recenti lavori hanno rivelato l'esistenza di "attention sink", token che attirano un'attenzione sproporzionatamente alta, e delle relative attivazioni massive, in cui alcune caratteristiche dei token sink mostrano attivazioni enormi negli LLM. In questo lavoro, siamo i primi a studiare questi fenomeni nel riconoscimento vocale multimodale. Attraverso un'analisi dettagliata di LLM audiovisivi, identifichiamo attention sink e attivazioni massive non solo al token BOS, ma anche in token intermedi a basso contenuto semantico in ASR, VSR e AVSR. Dimostriamo che le attivazioni massive originano nei livelli MLP e corrispondono a indici di caratteristiche fissi per tutti i token sink. Mostriamo inoltre che i token sink intermedi presentano un'elevata similarità del coseno con il token BOS, amplificando così l'attenzione e l'attivazione. Basandoci su queste intuizioni, introduciamo una semplice funzione di perdita di decorrelazione che riduce la similarità del coseno tra il token BOS e gli altri token, mitigando efficacemente i sink intermedi e le attivazioni massive. Inoltre, il nostro metodo migliora il tasso di errore sulle parole (WER) in condizioni di elevato downsampling delle caratteristiche audiovisive, mantenendo al contempo stabilità a tassi di downsampling più bassi.