Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sfruttamento dei preconcetti dei modelli di diffusione 2D per l'editing 3D è emerso come un paradigma promettente. Tuttavia, mantenere la coerenza multi-vista nei risultati editati rimane una sfida, e l'estrema scarsità di dati accoppiati per l'editing 3D consistente rende impraticabile il fine-tuning supervisionato (SFT), la strategia di addestramento più efficace per i task di editing. In questo articolo, osserviamo che, sebbene la generazione di contenuti 3D multi-vista coerenti sia altamente complessa, la verifica della coerenza 3D è trattabile, posizionando naturalmente l'apprendimento per rinforzo (RL) come una soluzione fattibile. Motivati da ciò, proponiamo RL3DEdit, un framework a passaggio singolo guidato dall'ottimizzazione RL con ricompense derivate dal modello fondazionale 3D, VGGT. Nello specifico, sfruttiamo i robusti preconcetti appresi da VGGT tramite dati massicci del mondo reale, alimentiamo le immagini modificate e utilizziamo le mappe di confidenza in output e gli errori di stima della posa come segnali di ricompensa, ancorando efficacemente i preconcetti dell'editing 2D su una varietà 3D coerente tramite RL. Esperimenti estensivi dimostrano che RL3DEdit raggiunge una stabile coerenza multi-vista e supera i metodi allo stato dell'arte in qualità di editing con alta efficienza. Per promuovere lo sviluppo dell'editing 3D, rilasceremo il codice e il modello.
Mentre il ragionamento nei LLM svolge un ruolo naturale in ambito matematico, nella generazione di codice e nelle domande fattuali multi-hop, il suo effetto su domande fattuali semplici e single-hop rimane poco chiaro. Tali domande non richiedono una scomposizione logica passo-passo, rendendo controintuitiva l'utilità del ragionamento. Tuttavia, scopriamo che l'abilitazione del ragionamento espande sostanzialmente il confine delle capacità di richiamo della conoscenza parametrica del modello, sbloccando risposte corriere che altrimenti risulterebbero di fatto irraggiungibili. Perché il ragionamento aiuta il richiamo della conoscenza parametrica quando non ci sono passaggi complessi da svolgere? Per rispondere, progettiamo una serie di esperimenti controllati guidati da ipotesi e identifichiamo due meccanismi chiave: (1) un effetto tampone computazionale, dove il modello utilizza i token di ragionamento generati per eseguire calcoli latenti indipendenti dal loro contenuto semantico; e (2) il priming fattuale, dove la generazione di fatti topicamente correlati funge da ponte semantico che facilita il recupero della risposta corretta. È importante notare che quest'ultimo meccanismo di auto-recupero generativo comporta rischi intrinseci: dimostriamo che allucinare fatti intermedi durante il ragionamento aumenta la probabilità di allucinazioni nella risposta finale. Infine, mostriamo che le nostre intuizioni possono essere sfruttate per migliorare direttamente l'accuratezza del modello privilegiando traiettorie di ragionamento che contengono affermazioni fattuali prive di allucinazioni.
L'auto-evoluzione è emersa come paradigma chiave per migliorare i modelli fondazionali come i Large Language Model (LLM) e i Vision Language Model (VLM) con un intervento umano minimo. Sebbene approcci recenti abbiano dimostrato che agenti basati su LLM possono auto-evolversi da zero con dati scarsi o nulli, i VLM introducono una modalità visiva aggiuntiva che tipicamente richiede almeno alcuni dati iniziali, come immagini, per avviare il processo di auto-evoluzione. In questo lavoro, presentiamo Multi-model Multimodal Zero (MM-Zero), il primo framework basato su Reinforcement Learning (RL) in grado di raggiungere un'auto-evoluzione senza dati per il ragionamento VLM. Andando oltre le precedenti configurazioni a doppio ruolo (Proponente e Risolutore), MM-Zero introduce un framework di addestramento auto-evolutivo multi-ruolo che comprende tre ruoli specializzati: un Proponente che genera concetti visivi astratti e formula domande; un Programmatore che traduce questi concetti in codice eseguibile (ad esempio, Python, SVG) per generare immagini visive; e un Risolutore che esegue ragionamenti multimodali sul contenuto visivo generato. Tutti e tre i ruoli sono inizializzati dallo stesso modello base e addestrati utilizzando l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO), con meccanismi di ricompensa accuratamente progettati che integrano feedback di esecuzione, verifica visiva e bilanciamento della difficoltà. I nostri esperimenti mostrano che MM-Zero migliora le prestazioni di ragionamento VLM su un'ampia gamma di benchmark multimodali. MM-Zero stabilisce un percorso scalabile verso sistemi multi-modello auto-evolutivi per modelli multimodali, estendendo la frontiera dell'auto-miglioramento oltre il convenzionale paradigma a due modelli.
Sebbene i recenti modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano compiuto progressi impressionanti, essi impiegano prevalentemente un'architettura autoregressiva convenzionale come backbone, lasciando ampio spazio all'esplorazione di alternative efficaci ed efficienti nel design architetturale. Parallelamente, studi recenti hanno applicato con successo modelli di diffusione discreta a vari domini, come la comprensione visiva e la generazione di immagini, rivelando il loro notevole potenziale come backbone promettente per sistemi multimodali. Traendo ispirazione da queste ricerche pionieristiche, introduciamo Omni-Diffusion, il primo modello linguistico multimodale da-qualsiasi-a-qualsiasi costruito interamente su modelli di diffusione discreta basati su mascheramento, che unifica comprensione e generazione attraverso testo, parlato e immagini. Omni-Diffusion utilizza un modello unificato di diffusione discreta basato su mascheramento per catturare direttamente la distribuzione congiunta sui token multimodali discreti. Questo approccio supporta non solo task bimodali, ma anche scenari più complessi che coinvolgono multiple modalità. Su un insieme diversificato di benchmark, il nostro metodo supera o ottiene prestazioni equivalenti a sistemi multimodali esistenti che elaborano due o più modalità, evidenziando le significative potenzialità dei modelli di diffusione nell'alimentare la prossima generazione di modelli fondazionali multimodali. Pagina web del progetto: https://omni-diffusion.github.io.
I modelli multimodali unificati (UMM) che integrano comprensione, ragionamento, generazione e modifica affrontano compromessi intrinseci tra il mantenimento di una forte comprensione semantica e l'acquisizione di potenti capacità generative. In questo rapporto presentiamo InternVL-U, un UMM leggero da 4 miliardi di parametri che democratizza queste capacità all'interno di un framework unificato. Guidato dai principi della modellizzazione contestuale unificata e del design modulare specifico per modalità con rappresentazioni visive disaccoppiate, InternVL-U integra un modello linguistico multimodale (MLLM) all'avanguardia con una testa di generazione visiva specializzata basata su MMDiT. Per colmare ulteriormente il divario tra generazione estetica e intelligenza di alto livello, costruiamo una pipeline completa di sintesi dei dati mirata a compiti ad alta densità semantica, come il rendering del testo e il ragionamento scientifico, sotto un paradigma incentrato sul ragionamento che sfrutta la Catena del Pensiero (CoT) per allineare meglio l'intento astratto dell'utente con i dettagli di generazione visiva granulari. Esperimenti estesi dimostrano che InternVL-U raggiunge un equilibrio superiore tra prestazioni ed efficienza. Nonostante utilizzi solo 4 miliardi di parametri, supera costantemente i modelli di base unificati con dimensioni oltre 3 volte maggiori, come BAGEL (14B), in varie attività di generazione e modifica, mantenendo al contempo forti capacità di comprensione e ragionamento multimodali.
Introduciamo Fish Audio S2, un sistema text-to-speech open source che offre generazione multi-speaker e multi-turn e, aspetto fondamentale, un controllo basato sull'adesione a istruzioni tramite descrizioni in linguaggio naturale. Per scalare l'addestramento, abbiamo sviluppato una procedura di training multi-stadio insieme a una pipeline di dati articolata che comprende captioning video e captioning vocale, valutazione della qualità della voce e modellazione di reward. Per spingere oltre le frontiere del TTS open source, rilasciamo i pesi del nostro modello, il codice per il fine-tuning e un motore di inferenza basato su SGLang. Il motore di inferenza è pronto per la produzione in modalità streaming, raggiungendo un RTF di 0.195 e un tempo per il primo audio inferiore a 100 ms. Il nostro codice e i pesi sono disponibili su GitHub (https://github.com/fishaudio/fish-speech) e Hugging Face (https://huggingface.co/fishaudio/s2-pro). Incoraggiamo vivamente i lettori a visitare https://fish.audio per provare voci personalizzate.
I modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di elaborare testo presentato sotto forma di immagini, ma spesso ottengono prestazioni inferiori rispetto a quando lo stesso contenuto viene fornito come token testuali. Diagnosticiamo sistematicamente questo "divario modale" valutando sette MLLM su sette benchmark in cinque modalità di input, che spaziano da testo sinteticamente renderizzato a immagini realistiche di documenti, dai PDF di arXiv alle pagine di Wikipedia. Scopriamo che il divario modale è dipendente dal compito e dai dati. Ad esempio, i compiti matematici peggiorano di oltre 60 punti su rendering sintetici, mentre le immagini di documenti naturali spesso eguagliano o superano le prestazioni in modalità testo. Scelte di rendering come font e risoluzione sono fattori confondenti significativi, con il solo font che fa oscillare l'accuratezza fino a 47 punti percentuali. Per comprenderlo, conduciamo un'analisi degli errori basata sulla teoria fondata su oltre 4.000 esempi, rivelando che la modalità immagine amplifica selettivamente gli errori di lettura (errori di calcolo e formattazione) lasciando invece sostanzialmente invariati gli errori di conoscenza e ragionamento, e che alcuni modelli mostrano un collasso del ragionamento a catena del pensiero sotto input visivo. Motivati da questi risultati, proponiamo un metodo di auto-distillazione che addestra il modello sulle proprie tracce di ragionamento in puro testo abbinate a input immagine, aumentando l'accuratezza in modalità immagine su GSM8K dal 30,71% al 92,72% e trasferendo la capacità a benchmark non visti senza dimenticanza catastrofica. Nel complesso, il nostro studio fornisce una comprensione sistematica del divario modale e suggerisce una strada pratica per migliorare la comprensione del testo visivo nei modelli linguistici multimodali.
Lo sport ha da tempo attirato ampia attenzione poiché spinge ai limiti le capacità fisiche e cognitive umane. Nel crescente interesse per l'intelligenza spaziale nei modelli visione-linguaggio (VLM), lo sport fornisce un banco di prova naturale per comprendere il movimento umano ad alta intensità e le interazioni dinamiche tra oggetti. A tal fine, presentiamo CourtSI, il primo dataset su larga scala di intelligenza spaziale specifico per scenari sportivi. CourtSI contiene oltre 1 milione di coppie domanda-risposta, organizzate secondo una tassonomia olistica che copre sistematicamente il conteggio spaziale, la misurazione delle distanze, la localizzazione e il ragionamento relazionale, attraverso sport di rete rappresentativi come badminton, tennis e tennis da tavolo. Sfruttando la geometria ben definita del campo come ancoraggio metrico, abbiamo sviluppato un motore di dati semi-automatico per ricostruire scene sportive, consentendo la creazione scalabile di CourtSI. Inoltre, introduciamo CourtSI-Bench, un benchmark di valutazione di alta qualità composto da 3.686 coppie domanda-risposta con verifica umana rigorosa. Abbiamo valutato 25 VLM proprietari e open-source su CourtSI-Bench, rivelando un persistente divario prestazionale uomo-IA e una limitata generalizzazione dai benchmark esistenti di intelligenza spaziale. Questi risultati indicano che gli scenari sportivi mettono in luce limitazioni nelle capacità di intelligenza spaziale catturate dai benchmark attuali. Inoltre, il fine-tuning di Qwen3-VL-8B su CourtSI migliora l'accuratezza su CourtSI-Bench di 23,5 punti percentuali. Il modello adattato generalizza efficacemente anche su CourtSI-Ext, un set di valutazione basato su uno sport simile ma non visto, e dimostra una generazione di commenti potenziata a livello spaziale. Nel complesso, questi risultati dimostrano che CourtSI fornisce un percorso scalabile per far avanzare l'intelligenza spaziale dei VLM nello sport.
Con il rapido avanzamento dei Large Language Model (LLM) nella generazione di codice, l'interazione uomo-IA si sta evolvendo da semplici risposte testuali statiche verso applicazioni dinamiche e interattive basate su HTML, che definiamo MiniApp. Queste applicazioni richiedono ai modelli non solo di generare interfacce visive, ma anche di costruire logiche interattive personalizzate che aderiscano a principi del mondo reale. Tuttavia, i benchmark esistenti si concentrano principalmente sulla correttezza algoritmica o sulla ricostruzione statica dei layout, non riuscendo a cogliere le capacità richieste da questo nuovo paradigma. Per colmare questa lacuna, introduciamo MiniAppBench, il primo benchmark completo progettato per valutare la generazione di applicazioni interattive guidata da principi. Derivato da un'applicazione reale con oltre 10 milioni di generazioni, MiniAppBench seleziona 500 task in sei domini (ad esempio, Giochi, Scienza e Strumenti). Inoltre, per affrontare la sfida della valutazione di interazioni aperte per le quali non esiste una singola verità di riferimento, proponiamo MiniAppEval, un framework di valutazione agente. Sfruttando l'automazione browser, esso esegue test esplorativi simili a quelli umani per valutare sistematicamente le applicazioni lungo tre dimensioni: Intenzione, Statico e Dinamico. I nostri esperimenti rivelano che gli attuali LLM incontrano ancora sfide significative nella generazione di MiniApp di alta qualità, mentre MiniAppEval dimostra un elevato allineamento con il giudizio umano, stabilendo uno standard affidabile per la ricerca futura. Il nostro codice è disponibile su github.com/MiniAppBench.
I modelli linguistici multimodali di grandi dimensioni possono manifestare una dominanza testuale, affidandosi eccessivamente a conoscenze pregresse linguistiche invece di ancorare le previsioni agli input non testuali. Un esempio sono i grandi modelli audio-linguistici (LALM), in cui le prove audio decisive possono essere sottoutilizzate anche quando contengono informazioni importanti. Per affrontare questo problema, utilizziamo l'interpretabilità meccanicistica per identificare un piccolo insieme di testine di attenzione specializzate nell'audio, la cui attenzione audio produce un segnale di "ascolto". Dimostriamo che questo segnale aumenta quando le prove audio influenzano l'output del modello, fornendo un indicatore dell'engagement audio sotto prompt standard. Sfruttando questa localizzazione, costruiamo una direzione di steering audio-silenzio e applichiamo un intervento sulle attivazioni al momento dell'inferenza alla rappresentazione finale, amplificando l'effetto audio del modello. Per dimostrare l'utilità di questo intervento, mostriamo su MMAU che ciò migliora l'accuratezza fino a +8,0 punti percentuali su due LALM basati su Qwen, senza alcun aggiornamento dei parametri.
La capacità di distinguere differenze sottili tra immagini visivamente simili è essenziale per ambiti diversificati come il rilevamento di anomalie industriali, l'imaging medico e la sorveglianza aerea. Sebbene recentemente siano emersi benchmark di ragionamento comparativo per modelli visione-linguaggio (VLM), questi si concentrano principalmente su immagini con differenze ampie e salienti e non riescono a catturare il ragionamento sfumato richiesto per applicazioni nel mondo reale. In questo lavoro, introduciamo VLM-SubtleBench, un benchmark progettato per valutare i VLM sul ragionamento comparativo sottile. Il nostro benchmark copre dieci tipi di differenza - Attributo, Stato, Emozione, Temporale, Spaziale, Esistenza, Quantità, Qualità, Punto di vista e Azione - e cura set di domande-immagini accoppiati che riflettono queste variazioni granulari. A differenza dei benchmark precedenti limitati a dataset di immagini naturali, il nostro benchmark abbraccia domini diversificati, incluse immagini industriali, aeree e mediche. Attraverso una valutazione estensiva sia di VLM proprietari che open-source, riveliamo lacune sistematiche tra le prestazioni dei modelli e quelle umane attraverso i tipi di differenza e i domini, e forniamo analisi controllate che evidenziano dove il ragionamento dei VLM si deteriora bruscamente. Insieme, il nostro benchmark e i risultati stabiliscono una base per far progredire i VLM verso un ragionamento comparativo di livello umano.
I modelli linguistici di grandi dimensioni per il parlato (Speech Large Language Models, SLLM) si sono rapidamente diffusi, supportando un'ampia gamma di compiti. Questi modelli vengono tipicamente valutati utilizzando prompt testuali, approccio che potrebbe non riflettere scenari reali in cui gli utenti interagiscono tramite voce. Per colmare questa lacuna, presentiamo DoWhatISay (DOWIS), un dataset multilingue di prompt parlati (registrati da esseri umani) e scritti, progettato per essere accoppiato con qualsiasi benchmark esistente al fine di una valutazione realistica degli SLLM in condizioni di istruzione vocale. Coprendo 9 compiti e 11 lingue, fornisce 10 varianti di prompt per ogni coppia compito-lingua, distribuite in cinque stili. Utilizzando DOWIS, valutiamo modelli SLLM all'avanguardia, analizzando l'interazione tra modalità del prompt, stile, lingua e tipo di compito. I risultati mostrano che i prompt testuali superano costantemente quelli parlati, specialmente in contesti con risorse linguistiche limitate e cross-linguali. Solo per i compiti con output vocale, i prompt parlati riescono a colmare il divario, sottolineando la necessità di prompt basati sul parlato nella valutazione degli SLLM.
Il Reinforcement Learning da Ricompense Verificabili (RLVR) migliora significativamente il ragionamento dei grandi modelli linguistici (LLM), ma soffre gravemente di degenerazione della calibrazione, in cui i modelli diventano eccessivamente sovra-confidenti in risposte errate. Studi precedenti si sono concentrati sull'incorporare direttamente l'obiettivo di calibrazione nella funzione di ottimizzazione esistente. Tuttavia, la nostra analisi teorica dimostra che esiste un conflitto fondamentale a livello di gradiente tra l'ottimizzazione per massimizzare l'accuratezza della policy e quella per minimizzare l'errore di calibrazione. Basandoci su questa intuizione, proponiamo DCPO, un framework semplice ma efficace che disaccoppia sistematicamente gli obiettivi di ragionamento e calibrazione. Esperimenti estesi dimostrano che il nostro DCPO non solo preserva un'accuratezza pari a quella del GRPO, ma raggiunge anche le migliori prestazioni di calibrazione e mitiga sostanzialmente il problema della sovra-confidenza. Il nostro studio fornisce spunti preziosi e una soluzione pratica per un impiego più affidabile degli LLM.
Presentiamo la Test-Driven AI Agent Definition (TDAD), una metodologia che tratta i prompt degli agenti come artefatti compilati: gli ingegneri forniscono specifiche comportamentali, un agente di codifica le converte in test eseguibili e un secondo agente di codifica perfeziona iterativamente il prompt fino al superamento dei test. Il deployment di agenti LLM che utilizzano strumenti in produzione richiede una conformità comportamentale misurabile che le attuali pratiche di sviluppo non sono in grado di garantire. Piccole modifiche ai prompt causano regressioni silenti, l'uso improprio degli strumenti passa inosservato e le violazioni delle policy emergono solo dopo il deployment. Per mitigare l'elusione delle specifiche, la TDAD introduce tre meccanismi: (1) suddivisione dei test in visibili/nascosti, che trattengono i test di valutazione durante la compilazione, (2) test di mutazione semantica tramite un agente post-compilazione che genera varianti di prompt plausibilmente difettose, con il sistema di test che misura se la suite le rileva, e (3) scenari di evoluzione delle specifiche che quantificano la sicurezza dalle regressioni quando i requisiti cambiano. Valutiamo la TDAD su SpecSuite-Core, un benchmark di quattro agenti altamente specificati che coprono conformità alle policy, analisi fondate, aderenza alle procedure operative e applicazione deterministica. In 24 trial indipendenti, la TDAD raggiunge un successo di compilazione v1 del 92% con una percentuale media di superamento dei test nascosti del 97%; le specifiche evolute vengono compilate al 58%, con la maggior parte delle esecuzioni fallite che superano tutti i test visivi tranne 1-2, e mostrano punteggi di mutazione dell'86-100%, una percentuale di superamento dei test nascosti v2 del 78% e punteggi di sicurezza dalle regressioni del 97%. L'implementazione è disponibile come benchmark open all'indirizzo https://github.com/f-labs-io/tdad-paper-code.
L'addestramento di grandi modelli linguistici (LLM) su tracce di esecuzione Python li ancora all'esecuzione del codice e permette la previsione dell'esecuzione riga-per-riga di interi programmi Python, trasformandoli di fatto in interpreti neurali (FAIR CodeGen Team et al., 2025). Tuttavia, gli sviluppatori raramente eseguono i programmi passo dopo passo; piuttosto, utilizzano debugger per interrompere l'esecuzione a determinati breakpoint e scorrere solo le porzioni di codice rilevanti, ispezionando o modificando le variabili di programma. Gli approcci esistenti agli interpreti neurali mancano di questo controllo interattivo. Per affrontare questa limitazione, introduciamo i *debugger neurali*: modelli linguistici che emulano i debugger tradizionali, supportando operazioni come l'ingresso passo-passo (*step into*), il superamento passo-passo (*step over*) o l'uscita passo-passo (*step out*) da funzioni, nonché l'impostazione di breakpoint su righe di codice specifiche. Dimostriamo che i debugger neurali – ottenuti tramite *fine-tuning* di LLM di grandi dimensioni o *pre-training* da zero di modelli più piccoli – possono modellare in modo affidabile sia l'esecuzione in avanti (prevedendo stati e output futuri) che l'esecuzione inversa (inferendo stati o input precedenti), condizionati dalle azioni del debugger. Valutati su CruxEval, i nostri modelli raggiungono prestazioni elevate sia nei compiti di previsione dell'output che dell'input, dimostrando una modellazione robusta dell'esecuzione condizionale. Il nostro lavoro compie i primi passi verso futuri sistemi di codifica agentici, in cui i debugger neurali fungono da modello del mondo per ambienti di debug simulati, fornendo feedback sull'esecuzione o permettendo agli agenti di interagire con strumenti di debug reali. Questa capacità getta le basi per una generazione di codice, una comprensione dei programmi e un debug automatizzato più potenti.
La consapevolezza situazionale, ovvero la capacità di un sistema di IA di riconoscere la propria natura, comprendere il contesto del proprio addestramento e dispiegamento, e ragionare strategicamente sulle proprie circostanze, è ampiamente considerata una delle più pericolose capacità emergenti nei sistemi di IA avanzati. Parallelamente, un crescente sforzo di ricerca mira a migliorare le capacità di ragionamento logico dei grandi modelli linguistici (LLM) attraverso la deduzione, l'induzione e l'abduzione. In questo articolo, sosteniamo che questi due percorsi di ricerca sono destinati a collidere. Introduciamo il framework RAISE (Reasoning Advancing Into Self Examination), che identifica tre percorsi meccanicistici attraverso i quali i miglioramenti nel ragionamento logico abilitano livelli progressivamente più profondi di consapevolezza situazionale: l'autoinferenza deduttiva, il riconoscimento contestuale induttivo e l'automodellazione abduttiva. Formalizziamo ciascun percorso, costruiamo una scala di escalation che va dal semplice autoriconoscimento all'inganno strategico, e dimostriamo che ogni principale tema di ricerca nel ragionamento logico degli LLM si mappa direttamente su un amplificatore specifico della consapevolezza situazionale. Analizziamo inoltre perché le attuali misure di sicurezza siano insufficienti a prevenire questa escalation. Concludiamo proponendo salvaguardie concrete, inclusi un benchmark "Test dello Specchio" e un Principio di Parità della Sicurezza del Ragionamento, e poniamo una domanda scomoda ma necessaria alla comunità del ragionamento logico riguardo alla sua responsabilità in questo percorso.
I grandi modelli diffusion preaddestrati hanno notevolmente migliorato la qualità dei video generati, ma il loro utilizzo nello streaming in tempo reale rimane limitato. I modelli autoregressivi offrono una struttura naturale per la sintesi sequenziale dei fotogrammi, ma richiedono un calcolo intensivo per raggiungere un'alta fedeltà. La distillazione diffusion può comprimere questi modelli in varianti efficienti a pochi passi, ma gli approcci di distillazione video esistenti adattano in gran parte metodi specifici per immagini che trascurano le dipendenze temporali. Queste tecniche spesso eccellono nella generazione di immagini ma sottoperformano nella sintesi video, mostrando una coerenza del movimento ridotta, un accumulo di errori su sequenze lunghe e un compromesso tra latenza e qualità. Identifichiamo due fattori alla base di queste limitazioni: un utilizzo insufficiente del contesto temporale durante la riduzione dei passi e la previsione implicita dei livelli di rumore successivi nella previsione del chunk successivo (cioè, bias di esposizione). Per affrontare questi problemi, proponiamo la Distillazione Diagonale, che opera in modo ortogonale agli approcci esistenti e sfrutta meglio l'informazione temporale sia tra i chunk video che tra i passi di denoising. Elemento centrale del nostro approccio è una strategia di generazione asimmetrica: più passi all'inizio, meno passi dopo. Questo progetto consente ai chunk successivi di ereditare ricche informazioni d'aspetto dai chunk iniziali elaborati approfonditamente, utilizzando allo stesso tempo chunk parzialmente denoisati come input condizionali per la sintesi successiva. Allineando la previsione implicita dei livelli di rumore successivi durante la generazione del chunk con le condizioni di inferenza effettive, il nostro approccio mitiga la propagazione degli errori e riduce la sovrasaturazione in sequenze a lungo raggio. Incorporiamo inoltre una modellazione implicita del flusso ottico per preservare la qualità del movimento sotto stringenti vincoli di passi. Il nostro metodo genera un video di 5 secondi in 2,61 secondi (fino a 31 FPS), ottenendo un'accelerazione di 277,3x rispetto al modello non distillato.
Sebbene i Large Language Model (LLM) abbiano rivoluzionato la generazione di codice, i tradizionali approcci di "Sistema 1", che generano soluzioni in un unico passaggio in avanti, spesso raggiungono un limite di prestazioni quando affrontano compiti algoritmici complessi. Le strategie esistenti di raffinamento iterativo tentano di colmare questa lacuna al momento dell'inferenza, ma si basano prevalentemente su oracoli esterni, feedback di esecuzione o cicli prompt-risposta computazionalmente costosi. In questo lavoro, proponiamo ReflexiCoder, un nuovo framework di reinforcement learning (RL) che internalizza la traiettoria di ragionamento strutturato, comprendente la generazione iniziale, la riflessione consapevole di bug e ottimizzazioni e l'autocorrezione, direttamente nei pesi del modello. A differenza dei metodi precedenti, ReflexiCoder sposta il paradigma dal raffinamento dipendente da elementi esterni a capacità intrinseche, completamente autonome, di autoriflessione e autocorrezione al momento dell'inferenza. Utilizziamo un paradigma di addestramento RL-zero con funzioni di ricompensa granulari per ottimizzare l'intera traiettoria riflessione-correzione, insegnando al modello come eseguire il debug senza fare affidamento su feedback di ground-truth o motori di esecuzione durante l'inferenza. Esperimenti estesi su sette benchmark dimostrano che il nostro ReflexiCoder-8B stabilisce un nuovo stato dell'arte (SOTA) tra i principali modelli open-source nella gamma 1.5B-14B, raggiungendo il 94.51% (87.20%) su HumanEval (Plus), l'81.80% (78.57%) su MBPP (Plus), il 35.00% su BigCodeBench, il 52.21% su LiveCodeBench e il 37.34% su CodeForces in un'impostazione a singolo tentativo, rivaleggiando o superando modelli proprietari come GPT-5.1. È degno di nota che il nostro framework sia significativamente più efficiente in termini di token rispetto ai modelli base, riducendo l'overhead computazionale durante l'inferenza di circa il 40% grazie a pattern di ragionamento e riflessione ad alta velocità e disciplinati. Il codice sorgente è disponibile all'indirizzo https://github.com/juyongjiang/ReflexiCoder.
L'inferenza a contesto lungo nei grandi modelli linguistici è limitata dal caricamento della cache Chiave-Valore (KV) durante la fase di decodifica, dove la natura sequenziale della generazione richiede il trasferimento ripetuto della cache KV dalla memoria ad alta larghezza di banda (HBM) off-chip alla memoria statica ad accesso casuale (SRAM) on-chip a ogni passo. Sebbene l'attenzione latente multi-testa (MLA) riduca significativamente le dimensioni totali della cache KV, essa soffre di un collo di bottiglia dovuto allo sharding durante la decodifica distribuita tramite parallelismo tensoriale (TP). Poiché la sua singola testa latente non può essere partizionata, ogni dispositivo è costretto a caricare ridondantemente l'intera cache KV per ogni token, consumando un traffico di memoria eccessivo e diminuendo i vantaggi del TP come lo sharding dei pesi. In questo lavoro, proponiamo l'attenzione a basso rango multi-testa (MLRA), che abilita stati latenti partizionabili per una decodifica efficiente con TP a 4 vie. Esperimenti estensivi mostrano che MLRA raggiunge uno stato dell'arte in termini di perplexity e prestazioni su task downstream, offrendo anche un aumento di velocità di decodifica di 2,8 volte rispetto a MLA. Il codice è disponibile all'indirizzo https://github.com/SongtaoLiu0823/MLRA. I pesi pre-addestrati, insieme ai dati di addestramento e valutazione, sono disponibili su https://huggingface.co/Soughing/MLRA.
I rapidi progressi dei modelli text-to-video (T2V) hanno rivoluzionato la creazione di contenuti, ma il loro potenziale commerciale rimane in gran parte inesplorato. Introduciamo, per la prima volta, il compito dell'integrazione di marca senza soluzione di continuità nei T2V: incorporare automaticamente i brand degli inserzionisti in video generati da prompt, preservando al contempo la fedeltà semantica all'intento dell'utente. Questo compito affronta tre sfide fondamentali: mantenere la fedeltà al prompt, garantire la riconoscibilità del brand e ottenere un'integrazione contestualmente naturale. Per affrontarle, proponiamo BrandFusion, un innovativo framework multi-agente composto da due fasi sinergiche. Nella fase offline (rivolta agli inserzionisti), costruiamo una Base di Conoscenza del Brand analizzando i prior del modello e adattandoci a nuovi brand attraverso un fine-tuning leggero. Nella fase online (rivolta all'utente), cinque agenti perfezionano congiuntamente i prompt utente attraverso un raffinamento iterativo, sfruttando la base di conoscenza condivisa e il tracciamento contestuale in tempo reale per garantire visibilità del brand e allineamento semantico. Esperimenti condotti su 18 brand consolidati e 2 brand personalizzati, utilizzando molteplici modelli T2V all'avanguardia, dimostrano che BrandFusion supera significativamente i baseline nella preservazione semantica, nella riconoscibilità del brand e nella naturalezza dell'integrazione. Valutazioni umane confermano inoltre una maggiore soddisfazione dell'utente, stabilendo un percorso pratico per una monetizzazione sostenibile dei modelli T2V.
Gli agenti devono inferire gli esiti delle azioni e selezionare quelle che massimizzano un segnale di ricompensa che indica quanto si è vicini al raggiungimento dell'obiettivo. L'apprendimento supervisionato di modelli di ricompensa potrebbe introdurre distorsioni insite nei dati di addestramento, limitando la generalizzazione a nuovi obiettivi e ambienti. In questo articolo, indaghiamo se rappresentazioni ben definite dello stato del mondo possano da sole abilitare una previsione accurata della ricompensa attraverso diversi domini. A tal fine, introduciamo StateFactory, un metodo di rappresentazione fattorizzata che trasforma osservazioni non strutturate in una struttura gerarchica oggetto-attributo utilizzando modelli linguistici. Questa rappresentazione strutturata permette di stimare le ricompense in modo naturale come similarità semantica tra lo stato corrente e lo stato obiettivo sotto vincoli gerarchici. In sintesi, la struttura compatta di rappresentazione indotta da StateFactory abilita solide capacità di generalizzazione della ricompensa. Valutiamo il metodo su RewardPrediction, un nuovo dataset di benchmark che copre cinque domini diversi e comprende 2.454 traiettorie azione-osservazione uniche con ricompense reali passo-passo. Il nostro metodo mostra promettenti risultati zero-shot rispetto sia ai modelli di ricompensa VLWM-critic che LLM-as-a-Judge, raggiungendo rispettivamente una distanza EPIC inferiore del 60% e dell'8%. Inoltre, questa qualità superiore della ricompensa si traduce con successo in una migliore performance di pianificazione dell'agente, producento guadagni nel tasso di successo del +21,64% su AlfWorld e del +12,40% su ScienceWorld rispetto a politiche reattive di sistema-1 e potenziando la pianificazione degli agenti di sistema-2. Pagina del progetto: https://statefactory.github.io
I recenti progressi nei modelli visione-linguaggio (VLM) hanno dimostrato notevoli capacità zero-shot, ma l'adattamento di questi modelli a domini specializzati rimane una sfida significativa. Basandoci su recenti intuizioni teoriche che suggeriscono come VLM addestrati indipendentemente siano collegati da una trasformazione canonica, estendiamo questa comprensione al concetto di domini. Ipotesizziamo che le caratteristiche delle immagini tra domini disparati siano correlate da una trasformazione geometrica canonizzata che può essere recuperata utilizzando un piccolo insieme di ancore. La classificazione few-shot fornisce un contesto naturale per questo allineamento, poiché i campioni etichettati limitati fungono da ancore necessarie per stimare questa trasformazione. Motivati da questa ipotesi, introduciamo BiCLIP, un framework che applica una trasformazione mirata alle caratteristiche multimodali per migliorare l'allineamento cross-modale. Il nostro approccio è caratterizzato da estrema semplicità e basso impatto parametrico. Valutazioni estese su 11 benchmark standard, tra cui EuroSAT, DTD e FGVCAircraft, dimostrano che BiCLIP raggiunge costantemente risultati all'avanguardia. Inoltre, forniamo una verifica empirica dei risultati geometrici esistenti analizzando l'ortogonalità e la distribuzione angolare delle trasformazioni apprese, confermando che l'allineamento strutturato è la chiave per un robusto adattamento di dominio. Il codice è disponibile all'indirizzo https://github.com/QuantitativeImagingLaboratory/BilinearCLIP
Il miglioramento ricorsivo autonomo sta passando dalla teoria alla pratica: i sistemi moderni possono criticare, revisionare e valutare i propri output, ma l'automodifica iterativa rischia una deriva sottile dell'allineamento. Introduciamo SAHOO, un framework pratico per monitorare e controllare la deriva attraverso tre meccanismi di salvaguardia: (i) il Goal Drift Index (GDI), un rilevatore appreso multi-segnale che combina misure semantiche, lessicali, strutturali e distribuzionali; (ii) controlli di preservazione dei vincoli che impongono invarianti critici per la sicurezza, come la correttezza sintattica e la non-allucinazione; e (iii) la quantificazione del rischio di regressione per segnalare cicli di miglioramento che annullano progressi precedenti. Su 189 task di generazione di codice, ragionamento matematico e veridicità, SAHOO produce sostanziali guadagni qualitativi, incluso un miglioramento del 18,3% nei task di codice e del 16,8% nel ragionamento, preservando i vincoli in due domini e mantenendo basse violazioni nella veridicità. Le soglie sono calibrate su un piccolo set di validazione di 18 task attraverso tre cicli. Mappiamo inoltre la frontiera capacità-allineamento, mostrando cicli di miglioramento efficienti nelle fasi iniziali ma costi di allineamento crescenti in seguito, ed evidenziando tensioni specifiche per dominio, come fluidità versus accuratezza fattuale. SAHOO rende quindi misurabile, distribuibile e sistematicamente validabile su larga scala la preservazione dell'allineamento durante il miglioramento ricorsivo autonomo.
Presentiamo Midicoth, un sistema di compressione senza perdita che introduce uno strato di micro-diffusione per la rimozione del rumore, finalizzato a migliorare le stime probabilistiche prodotte da modelli statistici adattivi. Nei compressori come la Predizione per Corrispondenza Parziale (PPM), le stime di probabilità vengono smussate da un prior per gestire osservazioni sparse. Quando i contesti sono stati osservati solo poche volte, questo prior domina la predizione e produce distribuzioni significativamente più piatte della distribuzione reale della sorgente, portando a inefficienze nella compressione. Midicoth affronta questa limitazione trattando lo smussamento del prior come un processo di shrinkage e applicando un passo inverso di rimozione del rumore che corregge le probabilità predette utilizzando statistiche di calibrazione empiriche. Per rendere questa correzione efficiente dal punto di vista dei dati, il metodo scompone ogni predizione di byte in una gerarchia di decisioni binarie lungo un albero bitwise. Ciò converte un singolo problema di calibrazione a 256 vie in una sequenza di compiti di calibrazione binaria, consentendo una stima affidabile dei termini di correzione da un numero relativamente piccolo di osservazioni. Il processo di denoising viene applicato in più passi successivi, permettendo a ogni stadio di affinare gli errori di predizione residui lasciati dal precedente. Lo strato di micro-diffusione opera come uno stadio di calibrazione post-blend leggero applicato dopo che tutte le predizioni del modello sono state combinate, consentendogli di correggere i bias sistematici nella distribuzione di probabilità finale. Midicoth combina cinque componenti completamente online: un modello PPM adattivo, un modello di corrispondenza a lungo raggio, un modello di parole basato su trie, un modello di contesto di ordine elevato e il denoiser a micro-diffusione applicato come stadio finale.
I rilasci di modelli state-space sono tipicamente accoppiati a kernel CUDA e Triton fusi, ereditando una forte dipendenza dall'hardware NVIDIA. Dimostriamo che l'algoritmo di dualità state-space di Mamba-2 – struttura di stato diagonale, ricorrenza suddivisibile in blocchi e calcolo dominato da einsum con flusso di controllo statico – si adatta perfettamente a ciò che le passate di fusione e tiling di XLA ottimizzano effettivamente, rendendo i kernel personalizzati opzionali piuttosto che obbligatori. Implementiamo l'intero percorso di inferenza (prefill, decodifica autoregressiva in cache) come primitive standard conformate sotto XLA, senza kernel scritti a mano, e realizziamo la gestione dello stato teorica O(1) dell'architettura come una cache compilata sul dispositivo che non richiede sincronizzazione con l'host durante la generazione. L'implementazione viene eseguita senza modifiche su CPU, GPU NVIDIA e Google Cloud TPU da un'unica sorgente JAX. Su TPU v6e attraverso cinque scale del modello (130M–2.7B parametri), il codice generato da XLA raggiunge circa 140 TFLOPS su prefill a flusso singolo (15% MFU) e fino al 64% di utilizzo della banda su decode. La decodifica greedy corrisponde al riferimento PyTorch/CUDA token-per-token attraverso 64 passi, con accordo dello stato nascosto entro la tolleranza di arrotondamento float32. Lo schema si trasferisce a qualsiasi ricorrenza SSM che soddisfi le stesse condizioni strutturali, su qualsiasi piattaforma con un backend XLA maturo. L'implementazione è pubblicamente disponibile all'indirizzo https://github.com/CosmoNaught/mamba2-jax e integrata nella libreria di modelli Bonsai JAX.
Il kashmiri è parlato da circa 7 milioni di persone, ma rimane gravemente sottoservito nelle tecnologie vocali, nonostante il suo status ufficiale e il ricco patrimonio linguistico. La mancanza di sistemi robusti di sintesi vocale (Text-to-Speech, TTS) limita l'accessibilità digitale e l'interazione uomo-computer inclusiva per i parlanti nativi. In questo lavoro, presentiamo il primo sistema neurale TTS open-source dedicato al kashmiri. Dimostriamo che i baseline multilingue zero-shot addestrati per le lingue indiane non riescono a produrre una voce intelligibile, raggiungendo un Mean Opinion Score (MOS) di soli 1.86, principalmente a causa di una modellazione inadeguata dei segni diacritici perso-arabi e della fonotattica specifica della lingua. Per affrontare queste limitazioni, proponiamo Bolbosh, una strategia di adattamento cross-lingue supervisionata basata sull'Optimal Transport Conditional Flow Matching (OT-CFM) all'interno del framework Matcha-TTS. Ciò consente un allineamento stabile con dati accoppiati limitati. Introduciamo inoltre una pipeline di miglioramento acustico in tre fasi, composta da dereverberazione, rimozione dei silenzi e normalizzazione del volume, per unificare fonti vocali eterogenee e stabilizzare l'apprendimento dell'allineamento. Il vocabolario del modello è espanso per codificare esplicitamente i grafemi del kashmiri, preservando le distinzioni granulari tra vocali. Il nostro sistema raggiunge un MOS di 3.63 e un Mel-Cepstral Distortion (MCD) di 3.73, superando sostanzialmente i baseline multilingue e stabilendo un nuovo punto di riferimento per la sintesi vocale in kashmiri. I nostri risultati dimostrano che l'adattamento supervisionato basato su flussi e consapevole della scrittura è fondamentale per il TTS a risorse limitate nelle lingue sensibili ai diacritici. Il codice e i dati sono disponibili all'indirizzo: https://github.com/gaash-lab/Bolbosh.
Il decoding speculativo è emerso come un potente approccio per accelerare l'inferenza dei grandi modelli linguistici (LLM) impiegando modelli draft leggeri per proporre token candidati che vengono successivamente verificati dal modello target. L'efficacia di questo paradigma dipende criticamente dalla qualità del modello draft. Sebbene progressi recenti come la serie EAGLE raggiungano un'accelerazione allo stato dell'arte, i modelli draft esistenti rimangono limitati dall'accumulo di errori: essi si basano solo sul prefisso corrente, causando una deriva delle loro previsioni rispetto al modello target nel corso dei passaggi. In questo lavoro, proponiamo ConFu (Contemplate the Future), un nuovo framework di decoding speculativo che consente ai modelli draft di anticipare la direzione futura della generazione. ConFu introduce (i) token contemplativi e prompt soft che permettono al modello draft di sfruttare segnali orientati al futuro dal modello target a un costo trascurabile, (ii) un meccanismo dinamico di token contemplativi con MoE per abilitare previsioni future consapevoli del contesto, e (iii) un framework di addestramento con campionamento di token di ancoraggio e replicazione della previsione futura che apprende una previsione futura robusta. Gli esperimenti dimostrano che ConFu migliora i tassi di accettazione dei token e la velocità di generazione rispetto a EAGLE-3 dell'8–11% su varie attività downstream con i modelli Llama-3 da 3B e 8B. Riteniamo che il nostro lavoro sia il primo a collegare il decoding speculativo con i token di ragionamento continuo, offrendo una nuova direzione per accelerare l'inferenza degli LLM.
La scoperta di categorie in tempo reale (OCD) mira a riconoscere categorie note scoprendo simultaneamente quelle nuove da un flusso online non etichettato, utilizzando un modello addestrato solo su dati etichettati. Gli approcci esistenti congelano l'estrattore di caratteristiche addestrato offline e impiegano un framework basato su hash che quantizza le caratteristiche in codici binari come prototipi di classe. Tuttavia, scoprire nuove categorie con una base di conoscenza fissa è controintuitivo, poiché il potenziale di apprendimento dei dati in arrivo viene completamente trascurato. Inoltre, la quantizzazione delle caratteristiche introduce una perdita di informazioni, riduce l'espressività rappresentativa e amplifica la varianza intra-classe. Spesso risulta in un'esplosione di categorie, dove una singola classe viene frammentata in multiple pseudo-classi. Per superare queste limitazioni, proponiamo un framework di adattamento al test-time che consente l'apprendimento attraverso la scoperta. Esso incorpora due strategie complementari: un aggiornamento dinamico dei prototipi di classe consapevole della semantica e un aggiornamento stabile dell'encoder al test-time. La prima affina dinamicamente i prototipi di classe per migliorare la classificazione, mentre la seconda integra le nuove informazioni direttamente nello spazio dei parametri. Insieme, questi componenti permettono al modello di espandere continuamente la propria base di conoscenza con i campioni incontrati di recente. Inoltre, introduciamo una calibrazione dei logit consapevole del margine nella fase offline per ampliare i margini inter-classe e migliorare la compattezza intra-classe, riservando così spazio di embedding per la futura scoperta di classi. Esperimenti su benchmark OCD standard dimostrano che il nostro metodo supera sostanzialmente gli approcci all'avanguardia basati su hash, producendo miglioramenti significativi nell'accuratezza per le nuove classi e mitigando efficacemente l'esplosione di categorie. Il codice è pubblicamente disponibile all'indirizzo \url{https://github.com/ynanwu/TALON}.
La memoria associativa ha a lungo costituito la base per la progettazione di modelli sequenziali. Oltre al richiamo, gli esseri umani ragionano proiettando stati futuri e selezionando azioni orientate a uno scopo, una capacità che i moderni modelli linguistici richiedono sempre più ma non codificano nativamente. Mentre i lavori precedenti utilizzano l'apprendimento per rinforzo o l'addestramento al momento del test, la pianificazione rimane esterna all'architettura del modello. Noi formuliamo il ragionamento come un problema di controllo ottimo e introduciamo il layer Test-Time Control (TTC), che esegue una pianificazione LQR a orizzonte finito sugli stati latenti al momento dell'inferenza, rappresenta una funzione di valore all'interno delle architetture neurali e la utilizza come obiettivo annidato per abilitare la pianificazione prima della previsione. Per garantire la scalabilità, deriviamo un risolutore LQR efficiente in termini hardware basato su una formulazione simplettica e lo implementiamo come un kernel CUDA fuso, consentendo un'esecuzione parallela con overhead minimo. Integrati come adattatori in LLM preaddestrati, i layer TTC migliorano le prestazioni nel ragionamento matematico fino al +27,8% su MATH-500 e incrementi di 2-3x in Pass@8 su AMC e AIME, dimostrando che l'incorporamento del controllo ottimo come componente architetturale fornisce un meccanismo efficace e scalabile per il ragionamento che va oltre l'addestramento al momento del test.
Tutti possono scrivere le proprie storie in formato testo libero – è un'abilità che impariamo a scuola. Tuttavia, la narrazione tramite video richiede l'apprendimento di strumenti specializzati e complessi. In questo articolo presentiamo Doki, un'interfaccia nativa testuale per la creazione di video generativi, che allinea la produzione video con il processo naturale della scrittura testuale. In Doki, scrivere testo è l'interazione primaria: all'interno di un unico documento, gli utenti definiscono le risorse, strutturano le scene, creano le inquadrature, affinano il montaggio e aggiungono l'audio. Articoliamo i principi di progettazione di questo approccio text-first e dimostriamo le capacità di Doki attraverso una serie di esempi. Per valutarne l'utilizzo nel mondo reale, abbiamo condotto uno studio di deployment della durata di una settimana con partecipanti di diversa esperienza nella creazione video. Questo lavoro contribuisce con un cambiamento fondamentale nelle interfacce per video generativi, dimostrando un nuovo modo potente e accessibile di realizzare storie visive.