Articoli di ricerca IA selezionati quotidianamente con traduzioni
I video di presentazione accademici sono diventati un mezzo essenziale per la comunicazione della ricerca, ma la loro produzione rimane estremamente laboriosa, richiedendo spesso ore di progettazione di slide, registrazione e montaggio per un breve video di 2-10 minuti. A differenza dei video naturali, la generazione di video di presentazione comporta sfide distintive: input da articoli di ricerca, informazioni multimodali dense (testo, figure, tabelle) e la necessità di coordinare più canali allineati come slide, sottotitoli, discorso e relatore umano. Per affrontare queste sfide, introduciamo PaperTalker, il primo benchmark di 101 articoli di ricerca abbinati a video di presentazione creati dagli autori, slide e metadati del relatore. Abbiamo inoltre progettato quattro metriche di valutazione personalizzate—Meta Similarity, PresentArena, PresentQuiz e IP Memory—per misurare come i video trasmettono le informazioni dell'articolo al pubblico. Basandoci su queste fondamenta, proponiamo PaperTalker, il primo framework multi-agente per la generazione di video di presentazione accademici. Esso integra la generazione di slide con un efficace affinamento del layout attraverso una nuova scelta visiva basata su ricerca ad albero, ancoraggio del cursore, sottotitolazione, sintesi vocale e rendering del volto parlante, parallelizzando la generazione delle slide per efficienza. Gli esperimenti su Paper2Video dimostrano che i video di presentazione prodotti dal nostro approccio sono più fedeli e informativi rispetto alle baseline esistenti, rappresentando un passo pratico verso la generazione automatica e pronta all'uso di video accademici. Il nostro dataset, agente e codice sono disponibili su https://github.com/showlab/Paper2Video.
Le applicazioni dei grandi modelli linguistici (LLM), come gli agenti e il ragionamento specifico per dominio, si basano sempre più sull'adattamento contestuale -- modificando gli input con istruzioni, strategie o evidenze, piuttosto che aggiornando i pesi. Gli approcci precedenti migliorano l'usabilità ma spesso soffrono di bias di brevità, che sacrificano approfondimenti di dominio per riassunti concisi, e di collasso contestuale, dove riscritture iterative erodono i dettagli nel tempo. Basandosi sulla memoria adattiva introdotta da Dynamic Cheatsheet, presentiamo ACE (Agentic Context Engineering), un framework che tratta i contesti come playbook in evoluzione che accumulano, affinano e organizzano strategie attraverso un processo modulare di generazione, riflessione e cura. ACE previene il collasso con aggiornamenti strutturati e incrementali che preservano conoscenze dettagliate e si adattano a modelli con contesti lunghi. Su benchmark di agenti e specifici per dominio, ACE ottimizza i contesti sia offline (ad esempio, prompt di sistema) che online (ad esempio, memoria dell'agente), superando costantemente baseline robuste: +10,6% sugli agenti e +8,6% in ambito finanziario, riducendo significativamente la latenza di adattamento e i costi di rollout. In particolare, ACE è stato in grado di adattarsi efficacemente senza supervisione etichettata, sfruttando invece feedback naturale di esecuzione. Nella classifica di AppWorld, ACE eguaglia l'agente di livello produttivo al primo posto nella media complessiva e lo supera nella divisione più difficile del test-challenge, nonostante utilizzi un modello open-source più piccolo. Questi risultati dimostrano che contesti completi ed evolutivi abilitano sistemi LLM scalabili, efficienti e auto-miglioranti con un basso overhead.
La comprensione video rappresenta la frontiera più impegnativa nella visione artificiale, richiedendo ai modelli di ragionare su complesse relazioni spaziotemporali, dipendenze a lungo termine ed evidenze multimodali. La recente comparsa di Modelli Multimodali di Grande Scala per Video (Video-LMM), che integrano encoder visivi con potenti modelli linguistici basati su decoder, ha dimostrato capacità straordinarie nei compiti di comprensione video. Tuttavia, la fase cruciale che trasforma questi modelli da semplici sistemi di percezione in motori di ragionamento sofisticati, ovvero il post-training, rimane frammentata nella letteratura. Questa rassegna offre la prima analisi completa delle metodologie di post-training per i Video-LMM, abbracciando tre pilastri fondamentali: il fine-tuning supervisionato (SFT) con catena di pensiero, l'apprendimento per rinforzo (RL) da obiettivi verificabili, e il ridimensionamento al momento del test (TTS) attraverso un calcolo inferenziale potenziato. Presentiamo una tassonomia strutturata che chiarisce i ruoli, le interconnessioni e gli adattamenti specifici per il video di queste tecniche, affrontando sfide uniche come la localizzazione temporale, l'ancoraggio spaziotemporale, l'efficienza nei video lunghi e l'integrazione di evidenze multimodali. Attraverso un'analisi sistematica dei metodi rappresentativi, sintetizziamo principi di progettazione chiave, intuizioni e protocolli di valutazione, identificando al contempo sfide aperte cruciali nella progettazione delle ricompense, nella scalabilità e nell'ottimizzazione costo-prestazioni. Inoltre, curiamo benchmark, dataset e metriche essenziali per facilitare una valutazione rigorosa dell'efficacia del post-training. Questa rassegna mira a fornire ai ricercatori e ai professionisti un quadro unificato per avanzare le capacità dei Video-LMM. Risorse aggiuntive e aggiornamenti sono mantenuti all'indirizzo: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
La ricerca ad albero è emersa come un framework rappresentativo per il ragionamento al momento del test con modelli linguistici di grandi dimensioni (LLM), esemplificato da metodi come Tree-of-Thought e Monte Carlo Tree Search che esplorano percorsi di ragionamento multipli. Tuttavia, rimane difficile fornire valutazioni quantitative istantanee e affidabili della qualità dei passaggi intermedi di ragionamento, e l'esplorazione estensiva dei percorsi è computazionalmente costosa. Per affrontare questo problema, proponiamo Mutual Information Tree Search (MITS), un nuovo framework che guida il ragionamento con principi teorici dell'informazione. MITS introduce una funzione di punteggio efficace basata sulla mutua informazione puntuale (PMI), che consente una valutazione passo-passo dei percorsi di ragionamento e l'espansione dell'albero di ricerca tramite beam search senza costose simulazioni di previsione, ottenendo prestazioni di ragionamento superiori mantenendo l'efficienza computazionale. Il framework è integrato da una strategia di campionamento dinamico basata sull'entropia che adatta l'allocazione delle risorse computazionali ai passaggi di ragionamento incerti dove l'esplorazione è più vantaggiosa. Per la previsione finale, MITS utilizza uno schema di voto ponderato che combina i punteggi PMI con il consenso delle previsioni. Attraverso esperimenti completi su benchmark di ragionamento diversificati, MITS supera costantemente i metodi di base, stabilendo un framework principiato ed efficiente per il ragionamento con LLM.
I recenti progressi nei modelli linguistici di grandi dimensioni dimostrano che le architetture ibride—che combinano meccanismi di self-attention con modelli di spazio degli stati strutturati come Mamba—possono raggiungere un equilibrio convincente tra qualità di modellazione ed efficienza computazionale, specialmente per compiti con contesti lunghi. Sebbene questi modelli ibridi mostrino prestazioni promettenti, confronti sistematici delle strategie di ibridazione e analisi sui fattori chiave alla base della loro efficacia non sono stati chiaramente condivisi con la comunità. In questo lavoro, presentiamo una valutazione olistica delle architetture ibride basate su fusione inter-strato (sequenziale) o intra-strato (parallela). Valutiamo questi progetti da diverse prospettive: prestazioni nella modellazione del linguaggio, capacità di gestione di contesti lunghi, analisi di scalabilità ed efficienza durante l'addestramento e l'inferenza. Investigando le caratteristiche fondamentali del loro primitivo computazionale, identifichiamo gli elementi più critici per ciascuna strategia di ibridazione e proponiamo ulteriormente ricette di progettazione ottimali per entrambi i modelli ibridi. La nostra analisi completa fornisce indicazioni pratiche e intuizioni preziose per lo sviluppo di modelli linguistici ibridi, facilitando l'ottimizzazione delle configurazioni architetturali.
I recenti modelli di generazione video sono in grado di produrre clip fluide e visivamente accattivanti, ma spesso incontrano difficoltà nel sintetizzare dinamiche complesse con una catena coerente di conseguenze. Modellare accuratamente gli esiti visivi e le transizioni di stato nel tempo rimane una sfida fondamentale. Al contrario, i grandi modelli linguistici e multimodali (ad esempio, GPT-4o) dimostrano forti capacità di ragionamento sullo stato visivo e di previsione futura. Per unire questi punti di forza, introduciamo VChain, un innovativo framework di catena del pensiero visivo (chain-of-visual-thought) al momento dell'inferenza, che inietta segnali di ragionamento visivo da modelli multimodali nella generazione video. Nello specifico, VChain include una pipeline dedicata che sfrutta grandi modelli multimodali per generare un insieme sparso di fotogrammi chiave critici come istantanee, che vengono poi utilizzati per guidare la regolazione sparsa al momento dell'inferenza di un generatore video pre-addestrato solo in questi momenti chiave. Il nostro approccio è efficiente in termini di regolazione, introduce un sovraccarico minimo ed evita una supervisione densa. Esperimenti estesi su scenari complessi e multi-step dimostrano che VChain migliora significativamente la qualità dei video generati.
Gli attacchi di jailbreaking sulla modalità visiva si basano tipicamente su perturbazioni avversarie impercettibili, mentre gli attacchi sulla modalità testuale sono generalmente ritenuti richiedere modifiche visibili (ad esempio, suffissi non semantici). In questo articolo, introduciamo jailbreak impercettibili che sfruttano una classe di caratteri Unicode chiamati selettori di variazione. Aggiungendo selettori di variazione invisibili a domande malevole, i prompt di jailbreak appaiono visivamente identici alle domande malevole originali sullo schermo, mentre la loro tokenizzazione viene "segretamente" alterata. Proponiamo una pipeline di ricerca a catena per generare tali suffissi avversari al fine di indurre risposte dannose. I nostri esperimenti dimostrano che i nostri jailbreak impercettibili raggiungono alti tassi di successo nell'attacco contro quattro LLM allineati e si generalizzano ad attacchi di iniezione di prompt, tutto senza produrre alcuna modifica visibile nel prompt scritto. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/imperceptible-jailbreaks.
Nonostante i recenti progressi nel trasferimento ottimale degli iperparametri in contesti di scalabilità del modello e del dataset, non è stato ancora stabilito un principio esplicativo unificante. Utilizzando l'ottimizzatore Scion, scopriamo che la scalabilità ottimale congiunta tra dimensioni del modello e del dataset è governata da un singolo invariante: la norma dell'operatore dello strato di output. Attraverso modelli con fino a 1,3 miliardi di parametri addestrati su fino a 138 miliardi di token, la coppia ottimale di tasso di apprendimento/dimensione del batch (eta^{ast}, B^{ast}) mantiene costantemente lo stesso valore della norma dell'operatore - un fenomeno che definiamo trasferimento della norma. Questa condizione di norma costante è necessaria ma non sufficiente: mentre per ogni dimensione del dataset, multiple coppie (eta, B) raggiungono la norma ottimale, solo una singola (eta^{ast}, B^{ast}) ottiene la migliore perdita. Come condizione sufficiente, forniamo la prima misurazione della scalabilità di (eta^{ast}, B^{ast}) con la dimensione del dataset per Scion, e troviamo che le regole di scalabilità sono coerenti con quelle dell'ottimizzatore Adam. La regolazione dei tassi di apprendimento per gruppi di strati migliora anche le prestazioni del modello, con lo strato di output che risulta essere il più sensibile e gli strati nascosti che beneficiano di tassi di apprendimento più bassi. Forniamo approfondimenti pratici sulla scalabilità ottimale guidata dalla norma e rilasciamo la nostra implementazione di Scion Distribuito (Disco) con i log di oltre duemila esecuzioni per supportare la ricerca sulla dinamica dell'addestramento di LLM su larga scala.
L'architettura Transformer è diventata lo standard de facto per i Large Language Models (LLM), dimostrando capacità straordinarie nella comprensione e generazione del linguaggio. Tuttavia, la sua applicazione nell'ambito dell'AI conversazionale è fondamentalmente limitata dalla sua natura senza stato e dalla complessità computazionale quadratica (O(L^2)) rispetto alla lunghezza della sequenza L. I modelli attuali emulano la memoria rielaborando una cronologia della conversazione in continua espansione a ogni turno, portando a costi e latenze proibitivi nei dialoghi lunghi. Questo articolo introduce il Reactive Transformer (RxT), una nuova architettura progettata per superare queste limitazioni passando da un paradigma basato sui dati a uno basato sugli eventi. RxT elabora ogni turno conversazionale come un evento discreto in tempo reale, mantenendo il contesto in un sistema integrato di memoria a breve termine (STM) di dimensione fissa. L'architettura presenta un ciclo operativo distinto in cui un generatore-decodifica produce una risposta basata sulla query corrente e sullo stato di memoria precedente, dopodiché un codificatore di memoria e una rete dedicata di Memory Attention aggiornano in modo asincrono la STM con una rappresentazione dell'interazione completa. Questo design altera fondamentalmente le dinamiche di scalabilità, riducendo il costo totale percepito dall'utente di una conversazione da quadratico (O(N^2 cdot T)) a lineare (O(N cdot T)) rispetto al numero di interazioni N. Disaccoppiando la generazione delle risposte dagli aggiornamenti della memoria, RxT raggiunge una bassa latenza, consentendo conversazioni lunghe, con stato, in tempo reale e economicamente sostenibili. Abbiamo validato la nostra architettura con una serie di esperimenti proof-of-concept su dati sintetici, dimostrando prestazioni superiori e una latenza di inferenza costante rispetto a un modello senza stato di dimensioni comparabili.
Il paradigma prevalente per potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) ruota attorno al post-addestramento su dati di alta qualità e intensivi dal punto di vista del ragionamento. Sebbene la letteratura emergente suggerisca che i dati di ragionamento vengano sempre più incorporati anche durante la fase intermedia di addestramento – una pratica relativamente più proprietaria e meno caratterizzata apertamente – il ruolo di tali dati nel pre-addestramento rimane poco chiaro. In particolare, a causa dell'opacità dei corpora di pre-addestramento nella maggior parte dei modelli all'avanguardia, l'effetto dei dati di ragionamento introdotti in diverse fasi del pre- e/o post-addestramento è relativamente meno documentato nella letteratura scientifica. Ciò solleva diverse domande importanti: l'aggiunta di dati di ragionamento in una fase precedente del pre-addestramento è più efficace rispetto alla loro introduzione durante il post-addestramento? Un'inclusione precoce potrebbe rischiare l'overfitting e danneggiare la generalizzazione, oppure stabilire basi durature che il successivo fine-tuning non potrebbe recuperare? Abbiamo condotto il primo studio sistematico su come i dati di ragionamento – variabili in scala, diversità e qualità – influenzino le prestazioni degli LLM quando introdotti in diverse fasi dell'addestramento. Abbiamo scoperto che l'inserimento anticipato dei dati di ragionamento nel pre-addestramento è cruciale (un guadagno medio del 19%), stabilendo capacità fondamentali che non possono essere pienamente replicate dal fine-tuning successivo, anche con più dati. Abbiamo individuato un principio asimmetrico per l'allocazione ottimale dei dati: il pre-addestramento trae il massimo vantaggio da una vasta diversità di modelli di ragionamento (un guadagno medio dell'11%), mentre il fine-tuning è più sensibile alla qualità dei dati (un guadagno medio del 15%). Dimostriamo che i dati di pre-addestramento di alta qualità hanno effetti latenti, attivati solo dopo il fine-tuning, e che un aumento indiscriminato dei dati per il fine-tuning può essere dannoso, annullando i benefici dell'iniezione precoce di ragionamento. I nostri risultati sfidano la separazione convenzionale tra modellazione del linguaggio e ragionamento, fornendo una guida principiata per allocare strategicamente i dati lungo l'intera pipeline di addestramento per costruire modelli più capaci.
I sistemi di dialogo parlato spesso si basano su pipeline a cascata che trascrivono, elaborano e risintetizzano il parlato. Sebbene efficaci, questo design scarta i segnali paralinguistici e limita l'espressività. I recenti metodi end-to-end riducono la latenza e preservano meglio questi segnali, ma si affidano ancora a intermedi testuali, creando un collo di bottiglia fondamentale. Presentiamo MOSS-Speech, un vero modello linguistico di grandi dimensioni (LLM) da parlato a parlato che comprende e genera direttamente il parlato senza fare affidamento sulla guida testuale. Il nostro approccio combina un'architettura di suddivisione degli strati basata sulla modalità con una strategia di pre-addestramento congelato, preservando il ragionamento e la conoscenza dei LLM testuali pre-addestrati mentre aggiunge capacità native di elaborazione del parlato. Gli esperimenti dimostrano che il nostro modello raggiunge risultati all'avanguardia nel rispondere a domande parlate e offre prestazioni comparabili nel passaggio da parlato a parlato rispetto ai sistemi esistenti guidati da testo, mantenendo comunque prestazioni competitive nel testo. Riducendo il divario tra la generazione guidata da testo e quella diretta del parlato, il nostro lavoro stabilisce un nuovo paradigma per l'interazione vocale end-to-end espressiva ed efficiente.
Sebbene i moderni modelli di generazione visiva eccellano nella creazione di immagini naturali esteticamente piacevoli, faticano a produrre o modificare elementi visivi strutturati come grafici, diagrammi e figure matematiche, che richiedono pianificazione della composizione, rendering del testo e ragionamento multimodale per garantire la fedeltà fattuale. Per affrontare questa sfida, presentiamo la prima indagine completa e sistematica di questo dominio, che comprende la costruzione di dati, l'addestramento del modello e un benchmark di valutazione. In primo luogo, costruiamo un dataset su larga scala di 1,3 milioni di coppie di immagini strutturate di alta qualità, derivate da programmi di disegno eseguibili e arricchite con annotazioni di ragionamento a catena di pensiero. Su questa base, addestriamo un modello unificato che integra un VLM con FLUX.1 Kontext tramite un connettore leggero per una migliore comprensione multimodale. Un curriculum di addestramento in tre fasi consente un allineamento progressivo delle caratteristiche, un'infusione di conoscenza e una generazione potenziata dal ragionamento, ulteriormente migliorata da un ragionatore esterno al momento dell'inferenza. Infine, introduciamo StructBench, un nuovo benchmark per la generazione e la modifica con oltre 1.700 istanze complesse, e una metrica di valutazione associata, StructScore, che utilizza un protocollo Q&A a più round per valutare l'accuratezza fattuale a livello granulare. Le valutazioni di 15 modelli rivelano che anche i sistemi closed-source più avanzati rimangono lontani dall'essere soddisfacenti. Il nostro modello raggiunge prestazioni di modifica solide, e il ragionamento al momento dell'inferenza produce guadagni consistenti su diverse architetture. Rilasciando il dataset, il modello e il benchmark, miriamo a promuovere fondamenti multimodali unificati per i contenuti visivi strutturati.
L'instruction-tuning svolge un ruolo cruciale nel potenziare le capacità di risoluzione dei compiti dei grandi modelli linguistici (LLMs), migliorando la loro usabilità nella generazione di risposte utili per vari task. Tuttavia, lavori precedenti hanno dimostrato che questi modelli sono sensibili a piccole variazioni nella formulazione delle istruzioni. In questo articolo, esploriamo se l'introduzione di perturbazioni nei dati di instruction-tuning possa aumentare la resistenza degli LLMs a istruzioni rumorose. Ci concentriamo su come l'instruction-tuning con perturbazioni, come la rimozione di parole di stop o il rimescolamento delle parole, influisca sulle prestazioni degli LLMs nelle versioni originali e perturbate di benchmark ampiamente utilizzati (MMLU, BBH, GSM8K). Valutiamo inoltre le dinamiche di apprendimento e i potenziali cambiamenti nel comportamento del modello. Sorprendentemente, i nostri risultati suggeriscono che l'instruction-tuning su istruzioni perturbate può, in alcuni casi, migliorare le prestazioni downstream. Questi risultati evidenziano l'importanza di includere istruzioni perturbate nell'instruction-tuning, rendendo gli LLMs più resilienti agli input rumorosi degli utenti.
L'apprendimento per rinforzo applicato ai grandi modelli linguistici (LLM) per compiti di ragionamento è spesso limitato da stime instabili del gradiente dovute al campionamento fisso e uniforme delle risposte tra i prompt. Lavori precedenti come GVM-RAFT affrontano questo problema allocando dinamicamente il budget di inferenza per prompt per minimizzare la varianza stocastica del gradiente sotto un vincolo di budget. Ispirati da questa intuizione, proponiamo Reinforce-Ada, un framework di campionamento adattativo per il post-addestramento online con apprendimento per rinforzo di LLM che rialloca continuamente lo sforzo di campionamento ai prompt con la maggiore incertezza o potenziale di apprendimento. A differenza dei metodi convenzionali di allocazione in due fasi, Reinforce-Ada alterna stima e campionamento in un processo di eliminazione successiva online e interrompe automaticamente il campionamento per un prompt una volta raccolto un segnale sufficiente. Per stabilizzare gli aggiornamenti, formiamo gruppi di dimensione fissa con diversità di ricompensa imposta e calcoliamo baseline di vantaggio utilizzando statistiche globali aggregate durante la fase di campionamento adattativo. I risultati empirici su molteplici architetture di modelli e benchmark di ragionamento dimostrano che Reinforce-Ada accelera la convergenza e migliora le prestazioni finali rispetto a GRPO, specialmente quando si utilizza la variante di campionamento bilanciato. Il nostro lavoro sottolinea il ruolo centrale della cura adattativa dei dati, consapevole della varianza, nell'abilitare un apprendimento per rinforzo efficiente e affidabile per LLM capaci di ragionamento. Il codice è disponibile all'indirizzo https://github.com/RLHFlow/Reinforce-Ada.
L'allineamento dei grandi modelli linguistici (LLM) ai valori umani si basa sempre più sull'uso di altri LLM come giudici automatizzati, o "autorater". Tuttavia, la loro affidabilità è limitata da un problema fondamentale: vengono addestrati su etichette di preferenza discrete, imponendo una singola verità di base su compiti che sono spesso soggettivi, ambigui o sfumati. Sosteniamo che un autorater affidabile deve imparare a modellare l'intera distribuzione delle preferenze definite da una popolazione target. In questo articolo, proponiamo un framework generale per calibrare autorater probabilistici su qualsiasi distribuzione di preferenza data. Formalizziamo il problema e presentiamo due metodi di apprendimento adattati a diverse condizioni di dati: 1) un fine-tuning supervisionato diretto per etichette probabilistiche dense, e 2) un approccio di apprendimento per rinforzo per etichette binarie sparse. I nostri risultati empirici dimostrano che il fine-tuning degli autorater con un obiettivo di corrispondenza della distribuzione porta a previsioni di probabilità verbalizzate che sono meglio allineate con la distribuzione di preferenza target, con una migliore calibrazione e un bias posizionale significativamente inferiore, pur mantenendo le prestazioni su compiti oggettivi.
L'apprendimento per rinforzo è stato centrale nei recenti progressi nel ragionamento dei modelli linguistici di grandi dimensioni, ma la maggior parte degli algoritmi si basa su un addestramento on-policy che richiede nuove iterazioni ad ogni aggiornamento, limitando efficienza e scalabilità. I sistemi RL asincroni mitigano questo problema disaccoppiando la generazione delle iterazioni dall'addestramento, ma la loro efficacia dipende dalla tolleranza di un elevato grado di obsolescenza nei dati delle iterazioni, un contesto in cui i metodi esistenti o peggiorano in termini di prestazioni o collassano. Riconsideriamo questa sfida e scopriamo un fenomeno di prosperità-prima-del-collasso: i dati obsoleti possono essere altrettanto informativi di quelli on-policy se sfruttati correttamente. Basandoci su questa intuizione, introduciamo M2PO (Second-Moment Trust Policy Optimization), che vincola il secondo momento dei pesi di importanza per sopprimere solo gli outlier estremi preservando aggiornamenti informativi. In particolare, M2PO riduce drasticamente la frazione di token tagliati in condizioni di elevata obsolescenza (da 1,22% a 0,06% durante l'addestramento), mascherando con precisione i token ad alta varianza mantenendo un'ottimizzazione stabile. Una valutazione estesa su sei modelli (da 1,7B a 32B) e otto benchmark dimostra che M2PO garantisce un addestramento off-policy stabile anche con dati obsoleti da almeno 256 aggiornamenti del modello, eguagliando le prestazioni on-policy.
Recenti studi dimostrano che, oltre al ragionamento discreto attraverso passaggi espliciti di catena di pensiero, che sono limitati dai confini delle lingue naturali, i grandi modelli linguistici (LLM) possono anche ragionare in modo continuo nello spazio latente, permettendo una maggiore ricchezza di informazioni per ogni passo e migliorando così l'efficienza dei token. Nonostante questa promessa, il ragionamento latente affronta ancora due sfide, specialmente in contesti privi di addestramento: 1) il ragionamento puramente latente amplia la distribuzione di ricerca mantenendo percorsi impliciti multipli, il quale diffonde la massa di probabilità, introduce rumore e ostacola la convergenza verso una singola soluzione ad alta confidenza, danneggiando così l'accuratezza; e 2) il sovrapensiero persiste anche senza testo esplicito, sprecando token e degradando l'efficienza. Per affrontare questi problemi, introduciamo SwiReasoning, un framework privo di addestramento per il ragionamento degli LLM che presenta due innovazioni chiave: 1) SwiReasoning passa dinamicamente tra ragionamento esplicito e latente, guidato dalla confidenza a livello di blocco stimata dalle tendenze di entropia nelle distribuzioni dei token successivi, per bilanciare esplorazione e sfruttamento e promuovere una convergenza tempestiva. 2) Limitando il numero massimo di passaggi tra blocchi di pensiero, SwiReasoning riduce il sovrapensiero e migliora l'efficienza dei token su vari livelli di difficoltà dei problemi. Su benchmark ampiamente utilizzati in matematica e STEM, SwiReasoning migliora costantemente l'accuratezza media dell'1,5%-2,8% tra LLM di ragionamento di diverse famiglie e scale di modelli. Inoltre, con budget limitati, SwiReasoning migliora l'efficienza media dei token del 56%-79%, con guadagni maggiori man mano che i budget si restringono.
I recenti progressi nei modelli generativi di grandi dimensioni hanno significativamente avanzato l'editing di immagini e la generazione di immagini in contesto, ma rimane un divario critico nel garantire la coerenza fisica, dove gli oggetti modificati devono rimanere coerenti. Questa capacità è particolarmente vitale per le attività legate alla simulazione del mondo. In questo articolo, presentiamo ChronoEdit, un framework che riformula l'editing di immagini come un problema di generazione video. In primo luogo, ChronoEdit tratta le immagini di input e quelle modificate come il primo e l'ultimo fotogramma di un video, consentendogli di sfruttare grandi modelli generativi video pre-addestrati che catturano non solo l'aspetto degli oggetti ma anche la fisica implicita del movimento e dell'interazione attraverso la coerenza temporale appresa. In secondo luogo, ChronoEdit introduce una fase di ragionamento temporale che esegue esplicitamente l'editing al momento dell'inferenza. In questo contesto, il fotogramma target viene denoisato congiuntamente con token di ragionamento per immaginare una traiettoria di editing plausibile che vincola lo spazio delle soluzioni a trasformazioni fisicamente valide. I token di ragionamento vengono poi eliminati dopo pochi passi per evitare l'elevato costo computazionale del rendering di un video completo. Per validare ChronoEdit, introduciamo PBench-Edit, un nuovo benchmark di coppie immagine-prompt per contesti che richiedono coerenza fisica, e dimostriamo che ChronoEdit supera i baseline state-of-the-art sia nella fedeltà visiva che nella plausibilità fisica. Il codice e i modelli per entrambe le varianti da 14B e 2B di ChronoEdit saranno rilasciati sulla pagina del progetto: https://research.nvidia.com/labs/toronto-ai/chronoedit
Gli agenti di utilizzo del computer (CUAs) devono pianificare flussi di lavoro basati su applicazioni e ambienti diversi e in continua evoluzione, ma l'apprendimento è ostacolato dalla scarsità di dati di addestramento su larga scala e di alta qualità nell'applicazione target. I dataset esistenti sono specifici per dominio, statici e costosi da annotare, mentre i metodi attuali di generazione di dati sintetici spesso producono dimostrazioni di task semplicistiche o disallineate. Per affrontare queste limitazioni, introduciamo Watch & Learn (W&L), un framework che converte video di dimostrazione umana facilmente disponibili su Internet in traiettorie eseguibili dell'interfaccia utente (UI) su larga scala. Invece di generare direttamente traiettorie o fare affidamento su euristiche di ragionamento ad hoc, formuliamo il problema come un obiettivo di dinamica inversa: prevedere l'azione dell'utente da stati consecutivi dello schermo. Questa formulazione riduce l'ingegnerizzazione manuale, è più facile da apprendere e generalizza in modo più robusto tra le applicazioni. Nello specifico, sviluppiamo una pipeline di etichettatura a dinamica inversa con recupero video consapevole del task, generiamo oltre 53k traiettorie di alta qualità da video web grezzi e dimostriamo che queste traiettorie migliorano i CUAs sia come dimostrazioni in contesto che come dati di addestramento supervisionati. Sul benchmark impegnativo di OSWorld, le traiettorie UI estratte con W&L migliorano costantemente sia i framework generici che quelli all'avanguardia in contesto e offrono guadagni più significativi per i modelli open-source sotto addestramento supervisionato. Questi risultati evidenziano i video di dimostrazione umana su scala web come una base pratica e scalabile per far progredire i CUAs verso il dispiegamento nel mondo reale.
I grandi modelli linguistici (LLM) risolvono sempre più compiti di ragionamento complesso attraverso lunghe catene di pensiero, ma il loro processo di generazione autoregressivo in avanti è fragile; errori nei token iniziali possono propagarsi, creando una chiara necessità di meccanismi di autoriflessione. Tuttavia, le attuali tecniche di autoriflessione eseguono revisioni su bozze complete o apprendono l'autocorrezione attraverso un addestramento costoso, entrambe fondamentalmente reattive e inefficienti. Per affrontare questo problema, proponiamo la Generazione Autoriflessiva al Tempo di Test (SRGen), un framework leggero che riflette prima di generare nei punti incerti. Durante la generazione dei token, SRGen utilizza una soglia dinamica di entropia per identificare i token ad alta incertezza. Per ogni token identificato, addestra un vettore correttivo specifico, che sfrutta appieno il contesto già generato per una generazione autoriflessiva che corregge la distribuzione di probabilità del token. Analizzando retrospettivamente l'output parziale, questa autoriflessione consente decisioni più affidabili, riducendo significativamente la probabilità di errori nei punti altamente incerti. Valutato su benchmark impegnativi di ragionamento matematico e su un insieme diversificato di LLM, SRGen può rafforzare costantemente il ragionamento del modello: i miglioramenti nella qualità a singolo passaggio si traducono anche in un voto di autoconsistenza più forte. In particolare, su AIME2024 con DeepSeek-R1-Distill-Qwen-7B, SRGen produce miglioramenti assoluti di +12,0% su Pass@1 e +13,3% su Cons@5. Inoltre, i nostri risultati posizionano SRGen come un metodo plug-and-play che integra la riflessione nel processo di generazione per un ragionamento affidabile degli LLM, ottenendo guadagni consistenti con un sovraccarico limitato e una vasta componibilità con altre tecniche di addestramento (ad esempio, RLHF) e di test (ad esempio, SLOT).
L'adozione di strumenti di completamento del codice basati sull'intelligenza artificiale nello sviluppo software è aumentata in modo significativo, tuttavia i dati di interazione utente generati da questi sistemi rimangono proprietari all'interno di grandi aziende. Ciò rappresenta un ostacolo per la comunità accademica, poiché i ricercatori devono spesso sviluppare piattaforme dedicate per condurre studi sull'interazione uomo-AI, rendendo la ricerca riproducibile e l'analisi su larga scala impraticabili. In questo lavoro, presentiamo Code4MeV2, un plugin di completamento del codice open-source orientato alla ricerca per gli IDE JetBrains, come soluzione a questa limitazione. Code4MeV2 è progettato utilizzando un'architettura client-server e include funzionalità di completamento del codice in linea e un assistente chat consapevole del contesto. Il suo contributo principale è un framework di raccolta dati modulare e trasparente che offre ai ricercatori un controllo granulare sulla telemetria e sulla raccolta del contesto. Code4MeV2 raggiunge prestazioni comparabili a quelle industriali in termini di completamento del codice, con una latenza media di 200~ms. Valutiamo il nostro strumento attraverso una combinazione di una valutazione esperta e uno studio utente con otto partecipanti. Il feedback sia dei ricercatori che degli utenti quotidiani ne evidenzia l'informatività e l'utilità. Invitiamo la comunità ad adottare e contribuire a questo strumento. Ulteriori informazioni sullo strumento sono disponibili all'indirizzo https://app.code4me.me.
I Large Language Model (LLM) per il teorema dimostrativo formale hanno dimostrato un potenziale significativo, ma spesso mancano di generalizzabilità e sono fragili anche rispetto a trasformazioni minime degli enunciati dei problemi. Per affrontare questa limitazione, introduciamo una nuova pipeline di data augmentation progettata per migliorare la robustezza del modello da due prospettive: simmetria e difficoltà. Dal punto di vista della simmetria, proponiamo due metodi complementari: EvolAST, un approccio basato sugli Abstract Syntax Tree (AST) che mira alla simmetria sintattica per generare varianti semanticamente equivalenti dei problemi, e EvolDomain, che sfrutta i LLM per affrontare la simmetria semantica traducendo teoremi tra diversi domini matematici. Dal punto di vista della difficoltà, proponiamo EvolDifficulty, che utilizza istruzioni evolutive accuratamente progettate per guidare i LLM nella generazione di nuovi teoremi con un intervallo più ampio di difficoltà. Utilizziamo quindi i dati evoluti per addestrare EvolProver, un dimostratore di teoremi non basato sul ragionamento con 7 miliardi di parametri. EvolProver stabilisce un nuovo stato dell'arte (SOTA) su FormalMATH-Lite con un tasso pass@32 del 53,8%, superando tutti i modelli di dimensioni comparabili, inclusi quelli basati sul ragionamento. Stabilisce inoltre nuovi record SOTA per i modelli non basati sul ragionamento su MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) e Ineq-Comp-Transformed (34,0% pass@32). Studi di ablazione confermano ulteriormente l'efficacia della nostra pipeline di data augmentation su più benchmark.
L'impatto sociale del Natural Language Processing (NLP) sta diventando sempre più rilevante, con una crescente attenzione della comunità verso iniziative legate all'NLP per il Bene Sociale (NLP4SG). Negli ultimi anni, infatti, quasi il 20% di tutti i lavori presenti nella ACL Anthology affronta tematiche relative al bene sociale, così come definite dagli Obiettivi di Sviluppo Sostenibile delle Nazioni Unite (Adauto et al., 2023). In questo studio, adottiamo una prospettiva a livello di autori e di sedi di pubblicazione per mappare il panorama dell'NLP4SG, quantificando la proporzione di lavori che affrontano tematiche di bene sociale sia all'interno che al di fuori della comunità ACL, sia da parte di autori principali della ACL che di autori esterni. Con questo approccio scopriamo due fatti sorprendenti riguardo al panorama dell'NLP4SG. In primo luogo, gli autori della ACL hanno una probabilità significativamente maggiore di svolgere lavori che affrontano tematiche di bene sociale quando pubblicano in sedi esterne alla ACL. In secondo luogo, la stragrande maggioranza delle pubblicazioni che utilizzano tecniche di NLP per affrontare questioni di bene sociale è realizzata da autori non appartenenti alla ACL e pubblicata in sedi esterne alla ACL. Discutiamo le implicazioni di questi risultati sulle considerazioni relative alla definizione dell'agenda per la comunità ACL in relazione all'NLP4SG.
Immaginate Mr. Bean che entra nel mondo di Tom e Jerry—possiamo generare video in cui i personaggi interagiscono naturalmente attraverso mondi diversi? Studiamo l'interazione tra personaggi nella generazione di video da testo, dove la sfida principale è preservare l'identità e i comportamenti di ciascun personaggio mentre si abilita un'interazione coerente tra contesti diversi. Questo è difficile perché i personaggi potrebbero non essere mai coesistiti e perché la mescolanza di stili spesso causa una "delusione stilistica", in cui personaggi realistici appaiono cartoneschi o viceversa. Introduciamo un framework che affronta questi problemi con l'Embedding Cross-Character (CCE), che apprende l'identità e la logica comportamentale da fonti multimodali, e l'Augmentation Cross-Character (CCA), che arricchisce l'addestramento con dati sintetici di coesistenza e stili misti. Insieme, queste tecniche consentono interazioni naturali tra personaggi che in precedenza non coesistevano, senza perdere la fedeltà stilistica. Esperimenti su un benchmark curato di cartoni animati e serie live-action con 10 personaggi mostrano miglioramenti evidenti nella preservazione dell'identità, nella qualità dell'interazione e nella robustezza alla delusione stilistica, abilitando nuove forme di narrazione generativa. Risultati aggiuntivi e video sono disponibili sulla pagina del nostro progetto: https://tingtingliao.github.io/mimix/.
Rilasciamo Code World Model (CWM), un LLM open-weights da 32 miliardi di parametri, per avanzare la ricerca sulla generazione di codice con modelli di mondo. Per migliorare la comprensione del codice oltre quanto può essere appreso dall'addestramento su codice statico, abbiamo sottoposto CWM a un mid-training su una grande quantità di traiettorie osservazione-azione provenienti da interpreti Python e ambienti Docker agentici, e abbiamo eseguito un'estesa ragionamento multi-task RL in ambienti di codifica verificabile, matematica e ingegneria del software multi-turn. Con CWM, forniamo un solido banco di prova per i ricercatori per esplorare le opportunità che la modellazione del mondo offre per migliorare la generazione di codice con ragionamento e pianificazione in ambienti computazionali. Presentiamo i primi passi su come i modelli di mondo possano beneficiare la codifica agentica, abilitare la simulazione passo-passo dell'esecuzione di codice Python, e mostriamo risultati preliminari su come il ragionamento possa trarre vantaggio da quest'ultimo. CWM è un LLM denso, solo decoder, addestrato con una dimensione di contesto fino a 131k token. Indipendentemente dalle sue capacità di modellazione del mondo, CWM offre prestazioni solide su compiti generali di codifica e matematica: raggiunge punteggi pass@1 del 65,8% su SWE-bench Verified (con scalatura al momento del test), 68,6% su LiveCodeBench, 96,6% su Math-500 e 76,0% su AIME 2024. Per supportare ulteriori ricerche sulla modellazione del mondo del codice, rilasciamo checkpoint del modello dopo mid-training, SFT e RL.
Il 4D Gaussian Splatting è emerso come un nuovo paradigma per la rappresentazione di scene dinamiche, consentendo il rendering in tempo reale di scene con movimenti complessi. Tuttavia, affronta una sfida significativa legata all'overhead di memorizzazione, poiché sono necessari milioni di Gaussiane per una ricostruzione ad alta fedeltà. Sebbene diversi studi abbiano tentato di alleviare questo onere di memoria, si scontrano ancora con limitazioni nel rapporto di compressione o nella qualità visiva. In questo lavoro, presentiamo OMG4 (Optimized Minimal 4D Gaussian Splatting), un framework che costruisce un insieme compatto di Gaussiane salienti in grado di rappresentare fedelmente modelli 4D Gaussian. Il nostro metodo pota progressivamente le Gaussiane in tre fasi: (1) Campionamento Gaussiano per identificare le primitive critiche per la fedeltà della ricostruzione, (2) Potatura Gaussiana per rimuovere le ridondanze, e (3) Fusione Gaussiana per unire primitive con caratteristiche simili. Inoltre, integriamo la compressione implicita dell'aspetto e generalizziamo la Quantizzazione Sub-Vettoriale (SVQ) alle rappresentazioni 4D, riducendo ulteriormente lo spazio di memorizzazione preservando la qualità. Esperimenti estesi su dataset di benchmark standard dimostrano che OMG4 supera significativamente i metodi più recenti all'avanguardia, riducendo le dimensioni del modello di oltre il 60% mantenendo la qualità della ricostruzione. Questi risultati posizionano OMG4 come un passo significativo in avanti nella rappresentazione compatta di scene 4D, aprendo nuove possibilità per una vasta gamma di applicazioni. Il nostro codice sorgente è disponibile all'indirizzo https://minshirley.github.io/OMG4/.
I modelli di diffusione su larga scala per la generazione di immagini da testo sono diventati il fulcro dell'editing moderno delle immagini, tuttavia i prompt testuali da soli non offrono un controllo adeguato sul processo di modifica. Due proprietà sono particolarmente desiderabili: la disaccoppiamento, in cui la modifica di un attributo non altera involontariamente altri, e il controllo continuo, dove l'intensità di una modifica può essere regolata in modo fluido. Introduciamo un metodo per l'editing disaccoppiato e continuo attraverso la manipolazione a livello di token degli embedding testuali. Le modifiche vengono applicate manipolando gli embedding lungo direzioni accuratamente scelte, che controllano l'intensità dell'attributo target. Per identificare tali direzioni, utilizziamo un Autoencoder Sparso (SAE), il cui spazio latente sparso espone dimensioni semanticamente isolate. Il nostro metodo opera direttamente sugli embedding testuali senza modificare il processo di diffusione, rendendolo indipendente dal modello e ampiamente applicabile a vari backbone di sintesi di immagini. Gli esperimenti dimostrano che consente manipolazioni intuitive ed efficienti con controllo continuo su diversi attributi e domini.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono addestrati in modo flessibile per modellare dipendenze estreme nella distribuzione dei dati; tuttavia, come sfruttare al meglio queste informazioni durante l'inferenza rimane un problema aperto. In questo lavoro, scopriamo una proprietà interessante di questi modelli: i dLLM addestrati su dati testuali apprendono implicitamente una miscela di esperti semi-autoregressivi, dove diversi ordini di generazione rivelano comportamenti specializzati differenti. Dimostriamo che l'adozione di un singolo schema fisso durante l'inferenza, una pratica comune, compromette le prestazioni poiché non sfrutta questo insieme latente. Per affrontare questo problema, introduciamo HEX (Hidden semiautoregressive EXperts for test-time scaling), un metodo di inferenza senza addestramento che combina diversi schemi di blocchi eterogenei. Effettuando un voto a maggioranza su percorsi di generazione con dimensioni di blocco diverse, HEX evita in modo robusto i modi di fallimento associati a qualsiasi schema fisso. Su benchmark di ragionamento come GSM8K, aumenta l'accuratezza fino a 3,56 volte (dal 24,72% all'88,10%), superando l'inferenza con margine top-K e metodi specializzati come GRPO, senza ulteriore addestramento. HEX produce anche miglioramenti significativi sul benchmark MATH, passando dal 16,40% al 40,00%, sul ragionamento scientifico su ARC-C dal 54,18% all'87,80%, e su TruthfulQA dal 28,36% al 57,46%. I nostri risultati stabiliscono un nuovo paradigma per il ridimensionamento durante l'inferenza nei dLLM basati su diffusione, rivelando che la sequenza in cui viene eseguita la maschera gioca un ruolo cruciale nel determinare le prestazioni durante l'inferenza.
Un'interazione vocale fluida richiede un rilevamento affidabile e a bassa latenza del momento in cui un utente ha terminato di parlare. I tradizionali rilevatori di fine turno basati sul silenzio audio aggiungono centinaia di millisecondi di ritardo e falliscono in caso di esitazioni o fenomeni specifici della lingua. Presentiamo, a nostra conoscenza, il primo studio sistematico sul rilevamento della fine del turno (EOT) basato esclusivamente sul testo thailandese per agenti in tempo reale. Confrontiamo il prompting zero-shot e few-shot di modelli linguistici compatti con il fine-tuning supervisionato di trasformatori leggeri. Utilizzando sottotitoli trascritti dal corpus YODAS e segnali linguistici specifici del thailandese (ad esempio, particelle finali di frase), formuliamo l'EOT come una decisione binaria sui confini dei token. Riferiamo un chiaro compromesso tra accuratezza e latenza e forniamo un piano di implementazione pronto per il pubblico. Questo lavoro stabilisce una baseline per il thailandese e dimostra che piccoli modelli fine-tuned possono fornire decisioni EOT quasi istantanee, adatte per agenti su dispositivo.
I grandi modelli linguistici (LLM) hanno recentemente dimostrato un forte potenziale nel riconoscimento audio-visivo del parlato (AVSR), ma le loro elevate esigenze computazionali e la sensibilità alla granularità dei token ne limitano la praticità in contesti con risorse limitate. I metodi di compressione dei token possono ridurre i costi di inferenza, ma richiedono di fissare in anticipo un tasso di compressione e producono un output di lunghezza fissa, offrendo poca flessibilità nel bilanciare densità informativa ed efficienza durante l'inferenza. L'apprendimento delle rappresentazioni Matryoshka (MRL) affronta questo problema consentendo a un singolo modello di operare su più granularità di token, permettendo di regolare dinamicamente i tassi di compressione. Tuttavia, i metodi attuali basati su MRL trattano ogni scala in modo indipendente durante l'addestramento, limitando la generalizzazione tra scale, la robustezza ad alte compressioni e l'interpretabilità. Per superare questi limiti, proponiamo MoME (Mixture of Matryoshka Experts), un nuovo framework che integra il Mixture-of-Experts (MoE) sparso negli LLM basati su MRL per l'AVSR. MoME potenzia un LLM congelato con esperti condivisi e selezionati tramite top-k, consentendo un'allocazione dinamica della capacità tra scale e modalità. Un router condiviso promuove un'attivazione coerente degli esperti tra le granularità, permettendo alle sequenze compresse di beneficiare delle rappresentazioni apprese a compressioni inferiori. Gli esperimenti su LRS2 e LRS3 dimostrano che MoME raggiunge prestazioni all'avanguardia nei task di AVSR, ASR e VSR, richiedendo significativamente meno parametri e mantenendo la robustezza in presenza di rumore. MoME unisce l'adattabilità di MRL con l'efficienza di MoE, offrendo una soluzione scalabile e interpretabile per il riconoscimento del parlato consapevole delle risorse.
La conversione di domande in linguaggio naturale in query SQL (Text-to-SQL) consente agli utenti non esperti di interagire con database relazionali ed è da tempo un compito centrale per le interfacce in linguaggio naturale ai dati. Sebbene il dataset WikiSQL abbia svolto un ruolo chiave nelle prime ricerche su NL2SQL, il suo utilizzo è diminuito a causa di problemi strutturali e di annotazione, tra cui inconsistenze nella sensibilità alle maiuscole, discrepanze nei tipi di dati, errori di sintassi e domande senza risposta. Presentiamo LLMSQL, una revisione e trasformazione sistematica di WikiSQL progettata per l'era dei modelli linguistici di grandi dimensioni (LLM). Classifichiamo questi errori e implementiamo metodi automatizzati per la pulizia e la ri-annotazione. Per valutare l'impatto di questi miglioramenti, abbiamo testato diversi LLM, tra cui Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 e altri. Piuttosto che essere un aggiornamento, LLMSQL viene introdotto come benchmark pronto per gli LLM: a differenza del WikiSQL originale, progettato per modelli a rete di puntatori che selezionano token dall'input, LLMSQL fornisce domande in linguaggio naturale pulite e query SQL complete come testo semplice, consentendo una generazione e valutazione diretta per i moderni modelli di conversione da linguaggio naturale a SQL.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato centrale per migliorare il ragionamento nei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, algoritmi on-policy come l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO) spesso incontrano difficoltà nelle fasi iniziali dell'addestramento: gradienti rumorosi derivanti da rollout di bassa qualità portano a aggiornamenti instabili e a un'esplorazione inefficiente. Introduciamo l'ottimizzazione delle politiche lenta-veloce (Slow-Fast Policy Optimization, SFPO), un framework semplice ma efficiente per affrontare queste limitazioni, scomponendo ogni passo in tre fasi: una breve traiettoria veloce di passi interni sullo stesso batch, un meccanismo di riposizionamento per controllare la deriva off-policy e una correzione lenta finale. Questo design di riposizionamento prima dell'aggiornamento preserva l'obiettivo e il processo di rollout invariati, rendendo SFPO compatibile con le pipeline esistenti di gradienti delle politiche. Esperimenti estesi dimostrano che SFPO migliora costantemente la stabilità, riduce i rollout e accelera la convergenza dell'addestramento RL per il ragionamento. In particolare, supera GRPO fino a 2,80 punti in media nei benchmark di ragionamento matematico. Ottiene anche fino a 4,93 rollout in meno e una riduzione del 4,19 nel tempo di esecuzione per raggiungere la migliore accuratezza di GRPO.
Nonostante i progressi nel riconoscimento automatico del parlato multilingue (ASR), il code-switching (CS), ovvero la mescolanza di lingue all'interno di un enunciato comune nel parlato quotidiano, rimane una sfida ampiamente inesplorata. In questo articolo, presentiamo HiKE: il benchmark gerarchico per il code-switching coreano-inglese, il primo framework di valutazione accessibile a livello globale per il CS coreano-inglese, con l'obiettivo di fornire un mezzo per la valutazione precisa dei modelli ASR multilingue e di promuovere la ricerca in questo campo. Il framework proposto non solo include dati CS di alta qualità e naturali su vari argomenti, ma fornisce anche etichette meticolose per i prestiti linguistici e uno schema di etichettatura gerarchico del CS (a livello di parola, frase e frase) che insieme consentono una valutazione sistematica della capacità di un modello di gestire ciascun livello distinto di code-switching. Attraverso valutazioni di vari modelli ASR multilingue e esperimenti di fine-tuning, questo articolo dimostra che, sebbene la maggior parte dei modelli ASR multilingue inizialmente abbia difficoltà con il CS-ASR, questa capacità può essere abilitata attraverso il fine-tuning con dati CS. HiKE sarà disponibile all'indirizzo https://github.com/ThetaOne-AI/HiKE.
Man mano che gli agenti basati su Large Language Model (LLM) acquisiscono sempre più capacità di auto-evoluzione per adattare e affinare le proprie strategie attraverso l'interazione con il mondo reale, la loro affidabilità a lungo termine diventa una preoccupazione critica. Identifichiamo il processo di Sbilanciamento dell'Allineamento (Alignment Tipping Process, ATP), un rischio critico post-deployment unico per gli agenti LLM auto-evolutivi. A differenza dei fallimenti durante l'addestramento, l'ATP si verifica quando l'interazione continua spinge gli agenti ad abbandonare i vincoli di allineamento stabiliti durante l'addestramento in favore di strategie rinforzate e auto-interessate. Formalizziamo e analizziamo l'ATP attraverso due paradigmi complementari: l'Esplorazione Auto-Interessata, in cui ripetute deviazioni ad alto rendimento inducono una deriva comportamentale individuale, e la Diffusione di Strategie Imitative, in cui comportamenti devianti si diffondono attraverso sistemi multi-agente. Basandoci su questi paradigmi, costruiamo ambienti di test controllabili e valutiamo i modelli Qwen3-8B e Llama-3.1-8B-Instruct. I nostri esperimenti mostrano che i benefici dell'allineamento si erodono rapidamente sotto l'auto-evoluzione, con modelli inizialmente allineati che convergono verso stati non allineati. In contesti multi-agente, le violazioni di successo si diffondono rapidamente, portando a un disallineamento collettivo. Inoltre, gli attuali metodi di allineamento basati sul reinforcement learning offrono solo difese fragili contro il processo di sbilanciamento dell'allineamento. Insieme, questi risultati dimostrano che l'allineamento degli agenti LLM non è una proprietà statica, ma una proprietà fragile e dinamica, vulnerabile al decadimento guidato dal feedback durante il deployment. I nostri dati e il codice sono disponibili su https://github.com/aiming-lab/ATP.
Le architetture Mixture-of-Experts (MoE) sono diventate fondamentali per il ridimensionamento dei moderni LLM, eppure si sa poco su come le loro dinamiche di routing sparso rispondano ai dati multilingue. In questo lavoro, analizziamo i modelli di routing degli esperti utilizzando dataset multilingue paralleli e presentiamo fenomeni altamente interpretabili a livello di strato. Scopriamo che i modelli MoE instradano i token in modo specifico per la lingua negli strati iniziali e finali del decoder, ma mostrano un allineamento significativo del routing cross-linguale negli strati intermedi, riflettendo le tendenze di condivisione dei parametri osservate nei LLM densi. In particolare, riveliamo una chiara e forte correlazione tra le prestazioni del modello in una determinata lingua e quanto simili siano i suoi token instradati rispetto all'inglese in questi strati. Andando oltre la correlazione, esploriamo interventi al momento dell'inferenza che inducono un maggiore allineamento del routing cross-linguale. Introduciamo un metodo che guida il router promuovendo esperti di compiti negli strati intermedi frequentemente attivati in inglese, e questo aumenta con successo le prestazioni multilingue. Questi guadagni dell'1-2% sono notevolmente consistenti in due compiti di valutazione, tre modelli e oltre 15 lingue, soprattutto considerando che questi semplici interventi sovrascrivono i router di LLM all'avanguardia ampiamente addestrati. In confronto, interventi al di fuori degli strati intermedi o mirati a esperti specializzati nel multilingue portano solo a un degrado delle prestazioni. Nel complesso, presentiamo numerosi risultati che spiegano come i MoE elaborano il testo non in inglese e dimostriamo che la generalizzazione è limitata dalla capacità del modello di sfruttare esperti universali per tutte le lingue.
Presentiamo Paris, il primo modello di diffusione rilasciato pubblicamente e pre-addestrato interamente attraverso calcolo decentralizzato. Paris dimostra che è possibile ottenere una generazione di immagini da testo di alta qualità senza l'uso di infrastrutture centralizzate. Paris è disponibile per uso sia di ricerca che commerciale. Lo sviluppo di Paris ha richiesto l'implementazione da zero del nostro framework Distributed Diffusion Training. Il modello è composto da 8 modelli di diffusione esperti (ciascuno con 129M-605M parametri) addestrati in completo isolamento, senza sincronizzazione di gradienti, parametri o attivazioni intermedie. Invece di richiedere aggiornamenti sincronizzati dei gradienti su migliaia di GPU, abbiamo suddiviso i dati in cluster semanticamente coerenti, dove ciascun esperto ottimizza in modo indipendente il proprio sottoinsieme, approssimando collettivamente l'intera distribuzione. Un router transformer leggero seleziona dinamicamente gli esperti appropriati durante l'inferenza, raggiungendo una qualità di generazione paragonabile a quella dei modelli centralizzati. L'eliminazione della sincronizzazione consente l'addestramento su hardware eterogeneo senza interconnessioni specializzate. La validazione empirica conferma che l'addestramento decentralizzato di Paris mantiene la qualità della generazione, eliminando la necessità di cluster GPU dedicati per modelli di diffusione su larga scala. Paris raggiunge questo risultato utilizzando 14 volte meno dati di addestramento e 16 volte meno risorse computazionali rispetto al precedente baseline decentralizzato.
Man mano che i sistemi tendono verso la superintelligenza, un'ipotesi di modellazione naturale è che gli agenti possano auto-migliorarsi lungo ogni aspetto del loro stesso design. Formalizziamo questo concetto attraverso una scomposizione su cinque assi e un livello decisionale, separando gli incentivi dal comportamento di apprendimento e analizzando gli assi in isolamento. Il nostro risultato principale identifica e introduce una netta tensione tra utilità e apprendimento, il conflitto strutturale nei sistemi auto-modificanti in cui i cambiamenti guidati dall'utilità che migliorano le prestazioni immediate o attese possono anche erodere i prerequisiti statistici per un apprendimento e una generalizzazione affidabili. Le nostre scoperte dimostrano che le garanzie indipendenti dalla distribuzione sono preservate se e solo se la famiglia di modelli raggiungibili dalla politica è uniformemente limitata in capacità; quando la capacità può crescere senza limiti, i cambiamenti auto-indotti razionali rispetto all'utilità possono rendere non apprendibili compiti che altrimenti lo sarebbero. Sotto ipotesi standard comuni nella pratica, questi assi si riducono allo stesso criterio di capacità, producendo un unico confine per una auto-modificazione sicura. Esperimenti numerici su diversi assi convalidano la teoria confrontando politiche di utilità distruttive con le nostre politiche a due cancelli proposte, che preservano l'apprendibilità.
Gli esseri umani sono abili nell'apprendere sul campo: impariamo a risolvere i compiti che ci si presentano man mano che procediamo. Un modello può fare lo stesso? Proponiamo un agente che assembla un curriculum specifico per il compito, chiamato curriculum al momento del test (TTC-RL), e applica l'apprendimento per rinforzo per continuare ad addestrare il modello sul suo obiettivo specifico. Il curriculum al momento del test evita la laboriosa selezione manuale dei dataset selezionando automaticamente i dati più rilevanti per il compito da un ampio pool di dati di addestramento disponibili. I nostri esperimenti dimostrano che l'apprendimento per rinforzo su un curriculum al momento del test migliora costantemente le prestazioni del modello sui suoi compiti target, attraverso una varietà di valutazioni e modelli. In particolare, su benchmark impegnativi di matematica e programmazione, TTC-RL migliora il pass@1 di Qwen3-8B di circa 1,8x su AIME25 e 2,1x su CodeElo. Inoltre, scopriamo che TTC-RL aumenta significativamente il limite di prestazioni rispetto al modello iniziale, incrementando il pass@8 su AIME25 dal 40% al 62% e su CodeElo dal 28% al 43%. I nostri risultati dimostrano il potenziale dei curriculum al momento del test nell'estendere il paradigma di scalabilità al momento del test a un addestramento continuo su migliaia di esperienze rilevanti per il compito durante il test.
I sistemi multi-agente basati su LLM eccellono nella pianificazione, nell'uso di strumenti e nel coordinamento dei ruoli, ma la loro apertura e complessità di interazione li espongono anche a jailbreak, prompt-injection e collaborazione avversaria. Le difese esistenti si dividono in due approcci: (i) auto-verifica, che richiede a ciascun agente di filtrare preventivamente le istruzioni non sicure prima dell'esecuzione, e (ii) moduli guardia esterni che monitorano i comportamenti. Il primo approccio spesso non performa adeguatamente perché un singolo agente non ha sufficiente capacità di rilevare catene non sicure tra agenti e rischi indotti dalla delega; il secondo aumenta il sovraccarico del sistema e crea un singolo punto di fallimento: una volta compromesso, la sicurezza dell'intero sistema collassa, e l'aggiunta di più guardie peggiora costi e complessità. Per risolvere queste sfide, proponiamo AdvEvo-MARL, un framework di apprendimento per rinforzo multi-agente co-evolutivo che internalizza la sicurezza negli agenti di task. Piuttosto che affidarsi a guardie esterne, AdvEvo-MARL ottimizza congiuntamente gli attaccanti (che sintetizzano prompt di jailbreak in evoluzione) e i difensori (agenti di task addestrati sia a svolgere i loro compiti sia a resistere agli attacchi) in ambienti di apprendimento avversari. Per stabilizzare l'apprendimento e favorire la cooperazione, introduciamo una baseline pubblica per la stima del vantaggio: gli agenti all'interno dello stesso gruppo funzionale condividono una baseline di ritorno medio a livello di gruppo, consentendo aggiornamenti a varianza inferiore e una migliore coordinazione intra-gruppo. In scenari di attacco rappresentativi, AdvEvo-MARL mantiene costantemente il tasso di successo degli attacchi (ASR) al di sotto del 20%, mentre i baseline raggiungono fino al 38,33%, preservando e talvolta migliorando l'accuratezza dei task (fino a +3,67% nei task di ragionamento). Questi risultati dimostrano che sicurezza e utilità possono essere migliorate congiuntamente senza ricorrere a ulteriori agenti guardia o sovraccarichi di sistema aggiuntivi.
I grandi modelli linguistici (LLM) tendono a generare testi lessicalmente, semanticamente e stilisticamente omogenei. Ciò comporta il rischio di un collasso della conoscenza, in cui LLM omogenei mediano una riduzione della gamma di informazioni accessibili nel tempo. I lavori esistenti sull'omogeneizzazione sono limitati da un focus su configurazioni a scelta multipla a risposta chiusa o su caratteristiche semantiche vaghe, e non esaminano le tendenze nel tempo e nei contesti culturali. Per superare questo limite, presentiamo una nuova metodologia per misurare la diversità epistemica, ovvero la variazione nelle affermazioni sul mondo reale negli output degli LLM, che utilizziamo per condurre un ampio studio empirico sul collasso della conoscenza negli LLM. Testiamo 27 LLM, 155 argomenti che coprono 12 paesi e 200 variazioni di prompt provenienti da chat reali degli utenti. Per gli argomenti del nostro studio, dimostriamo che, sebbene i modelli più recenti tendano a generare affermazioni più diverse, quasi tutti i modelli sono meno diversificati epistemicamente rispetto a una semplice ricerca sul web. Troviamo che la dimensione del modello ha un impatto negativo sulla diversità epistemica, mentre la generazione aumentata dal recupero (RAG) ha un impatto positivo, sebbene il miglioramento dovuto alla RAG vari in base al contesto culturale. Infine, rispetto a una fonte di conoscenza tradizionale (Wikipedia), scopriamo che le affermazioni specifiche per paese riflettono più la lingua inglese che quella locale, evidenziando una lacuna nella rappresentazione epistemica.
Il dibattito sui rischi per la privacy nei Modelli Linguistici di Grande Scala (LLM) si è concentrato in modo sproporzionato sulla memorizzazione letterale dei dati di addestramento, mentre una costellazione di minacce alla privacy più immediate e scalabili rimane poco esplorata. Questo position paper sostiene che il panorama della privacy nei sistemi LLM si estende ben oltre l'estrazione dei dati di addestramento, comprendendo rischi derivanti dalle pratiche di raccolta dati, dalla fuoriuscita di contesto durante l'inferenza, dalle capacità degli agenti autonomi e dalla democratizzazione della sorveglianza attraverso attacchi di inferenza profonda. Presentiamo una tassonomia completa dei rischi per la privacy lungo l'intero ciclo di vita degli LLM -- dalla raccolta dei dati fino al dispiegamento -- e dimostriamo, attraverso casi di studio, come gli attuali framework per la privacy non riescano a affrontare queste minacce multifaccettate. Attraverso un'analisi longitudinale di 1.322 articoli sulla privacy nell'ambito dell'IA/ML pubblicati nelle principali conferenze nell'ultimo decennio (2016-2025), riveliamo che, sebbene la memorizzazione riceva un'attenzione eccessiva nella ricerca tecnica, i danni alla privacy più urgenti si trovano altrove, dove gli approcci tecnici attuali offrono poca presa e le vie percorribili rimangono poco chiare. Invitiamo a un cambiamento fondamentale nel modo in cui la comunità di ricerca affronta la privacy degli LLM, andando oltre il ristretto focus delle soluzioni tecniche attuali e abbracciando approcci interdisciplinari che affrontino la natura sociotecnica di queste minacce emergenti.
Man mano che gli agenti guidati da LLM multimodali continuano a progredire in autonomia e generalizzazione, la valutazione basata su dataset statici non è più in grado di valutare adeguatamente le loro vere capacità in ambienti dinamici e compiti diversificati. I metodi esistenti per la generazione di dati sintetici basati su LLM sono in gran parte progettati per l'addestramento e la valutazione degli LLM, e quindi non possono essere applicati direttamente ai compiti degli agenti che richiedono l'uso di strumenti e capacità interattive. Sebbene studi recenti abbiano esplorato la generazione automatica di compiti per agenti con LLM, la maggior parte degli sforzi rimane limitata all'analisi di testo o immagini, senza modellare sistematicamente interazioni multi-step in ambienti web. Per affrontare queste sfide, proponiamo Graph2Eval, un framework basato su grafi di conoscenza che genera automaticamente sia compiti di comprensione di documenti multimodali che compiti di interazione web, consentendo una valutazione completa delle capacità di ragionamento, collaborazione e interazione degli agenti. Nel nostro approccio, i grafi di conoscenza costruiti da dati esterni multi-sorgente fungono da spazio dei compiti, dove traduciamo le relazioni semantiche in compiti multimodali strutturati utilizzando campionamento di sottografi, modelli di compiti e meta-percorsi. Una pipeline di filtraggio multi-stadio basata su raggiungibilità dei nodi, punteggio LLM e analisi di similarità viene applicata per garantire la qualità e l'eseguibilità dei compiti generati. Inoltre, Graph2Eval supporta la valutazione end-to-end di più tipi di agenti (Agente Singolo, Multi-Agente, Agente Web) e misura le capacità di ragionamento, collaborazione e interazione. Istanziamo il framework con Graph2Eval-Bench, un dataset curato di 1.319 compiti che coprono scenari di comprensione di documenti e interazione web. Gli esperimenti mostrano che Graph2Eval genera in modo efficiente compiti che differenziano le prestazioni degli agenti e dei modelli, rivelando lacune nel ragionamento, nella collaborazione e nell'interazione web in diversi contesti e offrendo una nuova prospettiva per la valutazione degli agenti.
Le curve Receiver Operating Characteristic (ROC) e Precision-Recall (PR) sono strumenti fondamentali per valutare i classificatori di machine learning, offrendo approfondimenti dettagliati sui compromessi tra il tasso di veri positivi e il tasso di falsi positivi (ROC) o tra precisione e richiamo (PR). Tuttavia, negli scenari di Federated Learning (FL), dove i dati sono distribuiti su più clienti, il calcolo di queste curve è complesso a causa dei vincoli di privacy e comunicazione. Nello specifico, il server non può accedere ai punteggi di previsione grezzi e alle etichette delle classi, che vengono utilizzati per calcolare le curve ROC e PR in un contesto centralizzato. In questo articolo, proponiamo un metodo innovativo per approssimare le curve ROC e PR in un contesto federato, stimando i quantili della distribuzione dei punteggi di previsione sotto la privacy differenziale distribuita. Forniamo limiti teorici sull'Errore dell'Area (AE) tra le curve vere e quelle stimate, dimostrando i compromessi tra accuratezza dell'approssimazione, privacy e costo di comunicazione. I risultati empirici su dataset del mondo reale dimostrano che il nostro metodo raggiunge un'elevata accuratezza di approssimazione con una comunicazione minima e forti garanzie di privacy, rendendolo pratico per la valutazione di modelli preservanti la privacy nei sistemi federati.
Le trasformazioni di potenza sono tecniche parametriche popolari per rendere i dati più simili a una distribuzione Gaussiana e sono ampiamente utilizzate come passaggi di preelaborazione nell'analisi statistica e nel machine learning. Tuttavia, scopriamo che le implementazioni dirette delle trasformazioni di potenza soffrono di gravi instabilità numeriche, che possono portare a risultati errati o persino a crash. In questo articolo, forniamo un'analisi completa delle fonti di queste instabilità e proponiamo rimedi efficaci. Estendiamo inoltre le trasformazioni di potenza al contesto del federated learning, affrontando sia le sfide numeriche che quelle distributive che emergono in questo ambito. Esperimenti su dataset del mondo reale dimostrano che i nostri metodi sono sia efficaci che robusti, migliorando sostanzialmente la stabilità rispetto agli approcci esistenti.