Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nei modelli Diffusion Transformer (DiT), in particolare per la generazione di video, la latenza dell'attenzione rappresenta un collo di bottiglia significativo a causa della lunghezza delle sequenze e della complessità quadratica. Abbiamo osservato che i pesi dell'attenzione possono essere separati in due parti: una piccola frazione di pesi grandi con rango elevato e i restanti pesi con rango molto basso. Ciò suggerisce naturalmente di applicare un'accelerazione sparsa alla prima parte e un'accelerazione a basso rango alla seconda. Sulla base di questa scoperta, proponiamo SLA (Sparse-Linear Attention), un metodo di attenzione addestrabile che combina attenzione sparsa e lineare per accelerare i modelli di diffusione. SLA classifica i pesi dell'attenzione in categorie critiche, marginali e trascurabili, applicando un'attenzione O(N^2) ai pesi critici, O(N) ai pesi marginali e saltando quelli trascurabili. SLA unisce questi calcoli in un singolo kernel GPU e supporta sia il passaggio in avanti che quello all'indietro. Con pochi passi di fine-tuning utilizzando SLA, i modelli DiT ottengono una riduzione di 20x nel calcolo dell'attenzione, ottenendo un'accelerazione significativa senza perdita di qualità nella generazione. Gli esperimenti dimostrano che SLA riduce il calcolo dell'attenzione del 95% senza degradare la qualità della generazione end-to-end, superando i metodi di base. Inoltre, implementiamo un kernel GPU efficiente per SLA, che produce un'accelerazione di 13.7x nel calcolo dell'attenzione e un'accelerazione end-to-end di 2.2x nella generazione di video su Wan2.1-1.3B.
I tokenizzatori semantici del parlato prevalenti, progettati per catturare il contenuto linguistico, si rivelano sorprendentemente fragili. Abbiamo osservato che non sono robusti a perturbazioni acustiche irrilevanti per il significato; anche ad alti rapporti segnale-rumore (SNR) dove il parlato è perfettamente intelligibile, le sequenze di token in output possono cambiare drasticamente, aumentando il carico di apprendimento per i modelli linguistici di grandi dimensioni (LLM) a valle. Questa instabilità deriva da due difetti: un'architettura di quantizzazione a percorso singolo fragile e un segnale di allenamento distante indifferente alla stabilità dei token intermedi. Per affrontare questo problema, introduciamo StableToken, un tokenizzatore che raggiunge la stabilità attraverso un meccanismo basato sul consenso. La sua architettura multi-ramo elabora l'audio in parallelo, e queste rappresentazioni vengono fuse tramite un potente meccanismo di voto bit a bit per formare una singola sequenza di token stabile. StableToken stabilisce un nuovo stato dell'arte nella stabilità dei token, riducendo drasticamente la Distanza di Modifica Unitaria (UED) in diverse condizioni di rumore. Questa stabilità fondamentale si traduce direttamente in benefici a valle, migliorando significativamente la robustezza dei SpeechLLM su una varietà di compiti.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è emerso come il paradigma standard per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Tuttavia, i metodi basati su ricompense costruiti sull'assunzione di Bradley-Terry faticano a catturare la natura non transitiva ed eterogenea delle preferenze del mondo reale. Per affrontare questo problema, studi recenti hanno riformulato l'allineamento come un gioco di Nash a due giocatori, dando vita all'apprendimento di Nash basato sul feedback umano (NLHF). Sebbene questa prospettiva abbia ispirato algoritmi come INPO, ONPO e EGPO con solide garanzie teoriche ed empiriche, essi rimangono fondamentalmente limitati alle interazioni a due giocatori, creando un bias di singolo avversario che non riesce a catturare la piena complessità delle strutture di preferenza realistiche. In questo lavoro, introduciamo l'ottimizzazione delle preferenze di Nash multiplayer (MNPO), un nuovo framework che generalizza NLHF al regime multiplayer. Esso formula l'allineamento come un gioco a n giocatori, in cui ogni politica compete contro una popolazione di avversari mentre viene regolarizzata verso un modello di riferimento. Il nostro framework stabilisce equilibri di Nash ben definiti in contesti multiplayer ed estende il concetto di gap di dualità per quantificare la qualità dell'approssimazione. Dimostriamo che MNPO eredita le garanzie di equilibrio dei metodi a due giocatori, consentendo dinamiche competitive più ricche e una migliore copertura di strutture di preferenza diverse. Attraverso una valutazione empirica completa, mostriamo che MNPO supera costantemente i benchmark NLHF esistenti nei test di follow-up delle istruzioni, raggiungendo una qualità di allineamento superiore in condizioni di annotatori eterogenei e scenari di valutazione a politiche miste. Insieme, questi risultati stabiliscono MNPO come un framework principiato e scalabile per allineare i LLM a preferenze umane complesse e non transitive. Il codice è disponibile all'indirizzo https://github.com/smiles724/MNPO.
Le prestazioni dei modelli multimodali unificati per la generazione e la modifica di immagini sono fondamentalmente limitate dalla qualità e dalla completezza dei loro dati di addestramento. Sebbene i dataset esistenti abbiano coperto compiti di base come il trasferimento di stile e la manipolazione semplice di oggetti, spesso mancano della struttura sistematica e degli scenari complessi necessari per applicazioni nel mondo reale. Per affrontare questo collo di bottiglia, introduciamo OpenGPT-4o-Image, un dataset su larga scala costruito utilizzando una metodologia innovativa che combina una tassonomia gerarchica dei compiti con la generazione automatizzata dei dati. La nostra tassonomia non solo include capacità fondamentali come il rendering del testo e il controllo dello stile, ma introduce anche categorie altamente pratiche ma impegnative, come le immagini scientifiche per illustrazioni chimiche e la modifica di istruzioni complesse che richiedono l'esecuzione simultanea di più operazioni. Attraverso una pipeline automatizzata che sfrutta pool di risorse strutturate e GPT-4o, generiamo 80k coppie istruzione-immagine di alta qualità con una diversità controllata, coprendo 11 domini principali e 51 sottocompiti. Esperimenti estensivi dimostrano che il fine-tuning di modelli leader sul nostro dataset porta a significativi miglioramenti delle prestazioni su più benchmark, con incrementi fino al 18\% nei compiti di modifica (UniWorld-V1 su ImgEdit-Bench) e del 13% nei compiti di generazione (Harmon su GenEval). Il nostro lavoro dimostra che la costruzione sistematica dei dati è fondamentale per far progredire le capacità dell'IA multimodale.
Una visione prevalente nell'Apprendimento per Rinforzo per Ricompense Verificabili (RLVR) interpreta i recenti progressi attraverso la lente di un compromesso esplorazione-sfruttamento, una prospettiva in gran parte modellata da metriche a livello di token. Rivalutiamo questa prospettiva, proponendo che questo presunto compromesso potrebbe non essere un vincolo fondamentale, ma piuttosto un artefatto del livello di misurazione. Per indagare ciò, spostiamo l'analisi verso lo spazio degli stati nascosti semanticamente ricchi, adottando il Rango Efficace (ER) per quantificare l'esplorazione e proponendo le sue nuove derivate del primo e del secondo ordine, denominate Velocità del Rango Efficace (ERV) e Accelerazione del Rango Efficace (ERA), per catturare le dinamiche di sfruttamento. La nostra analisi rivela che a livello di stati nascosti, esplorazione e sfruttamento potrebbero essere disaccoppiati (Sez. 4). Questa scoperta rivela un'opportunità per migliorare entrambe le capacità simultaneamente. Questa intuizione motiva il nostro metodo, Apprendimento del Rango con Sfruttamento della Velocità (VERL), il primo a operazionalizzare il principio di miglioramento sinergico dell'esplorazione-sfruttamento modellando direttamente la funzione di vantaggio dell'RL. L'innovazione chiave è sfruttare l'ERA teoricamente stabile come meta-controllore predittivo per creare una struttura di incentivi sinergica a doppio canale. Invece di forzare un compromesso, VERL amplifica prospetticamente le ricompense per l'esplorazione per prevenire l'eccessiva sicurezza e rafforza i guadagni di sfruttamento per consolidare il ragionamento. Esperimenti su vari LLM e benchmark di ragionamento mostrano miglioramenti consistenti, inclusi fino al 21,4% di miglioramento assoluto in accuratezza sul complesso dataset Gaokao 2024.
L'integrazione della comprensione e generazione visiva in modelli multimodali unificati rappresenta un significativo passo avanti verso l'intelligenza artificiale a scopo generale. Tuttavia, una domanda fondamentale rimane senza risposta dai benchmark esistenti: questa unificazione architetturale consente effettivamente un'interazione sinergica tra le capacità costituenti? I paradigmi di valutazione attuali, che valutano principalmente la comprensione e la generazione in modo isolato, sono insufficienti per determinare se un modello unificato possa sfruttare la sua comprensione per migliorare la generazione, o utilizzare la simulazione generativa per facilitare una comprensione più profonda. Per colmare questa lacuna critica, introduciamo RealUnify, un benchmark progettato specificamente per valutare la sinergia bidirezionale delle capacità. RealUnify comprende 1.000 istanze meticolosamente annotate da esseri umani, che coprono 10 categorie e 32 sottotask. È strutturato attorno a due assi principali: 1) La Comprensione Migliora la Generazione, che richiede ragionamento (ad esempio, buonsenso, logica) per guidare la generazione di immagini, e 2) La Generazione Migliora la Comprensione, che necessita di simulazione mentale o ricostruzione (ad esempio, di input visivi trasformati o disordinati) per risolvere task di ragionamento. Un contributo chiave è il nostro protocollo di valutazione duale, che combina una valutazione end-to-end diretta con una valutazione diagnostica passo-passo che scompone i task in fasi distinte di comprensione e generazione. Questo protocollo ci permette di discernere con precisione se i colli di bottiglia delle prestazioni derivano da carenze nelle capacità fondamentali o da un fallimento nell'integrarle. Attraverso valutazioni su larga scala di 12 modelli unificati leader e 6 baseline specializzati, scopriamo che i modelli unificati attuali faticano ancora a raggiungere una sinergia efficace, indicando che la sola unificazione architetturale è insufficiente. Questi risultati evidenziano la necessità di nuove strategie di addestramento e bias induttivi per sbloccare appieno il potenziale della modellazione unificata.
Presentiamo SANA-Video, un piccolo modello di diffusione in grado di generare in modo efficiente video con risoluzione fino a 720x1280 e durata di un minuto. SANA-Video sintetizza video ad alta risoluzione, di alta qualità e di lunga durata con un forte allineamento testo-video a una velocità notevolmente rapida, distribuibile su GPU RTX 5090. Due design fondamentali garantiscono la nostra generazione di video efficiente, efficace e di lunga durata: (1) Linear DiT: Utilizziamo l'attenzione lineare come operazione principale, che è più efficiente rispetto all'attenzione standard dato il grande numero di token elaborati nella generazione di video. (2) Cache KV a memoria costante per l'attenzione lineare a blocchi: progettiamo un approccio autoregressivo a blocchi per la generazione di video lunghi impiegando uno stato a memoria costante, derivato dalle proprietà cumulative dell'attenzione lineare. Questa cache KV fornisce al Linear DiT un contesto globale a un costo di memoria fisso, eliminando la necessità di una tradizionale cache KV e consentendo una generazione efficiente di video della durata di un minuto. Inoltre, esploriamo filtri di dati efficaci e strategie di addestramento del modello, riducendo il costo di addestramento a 12 giorni su 64 GPU H100, che è solo l'1% del costo di MovieGen. Grazie al suo basso costo, SANA-Video raggiunge prestazioni competitive rispetto ai moderni modelli di diffusione di piccole dimensioni all'avanguardia (ad esempio, Wan 2.1-1.3B e SkyReel-V2-1.3B) mentre è 16 volte più veloce in termini di latenza misurata. Inoltre, SANA-Video può essere distribuito su GPU RTX 5090 con precisione NVFP4, accelerando la velocità di inferenza per la generazione di un video 720p di 5 secondi da 71s a 29s (un aumento di velocità di 2,4x). In sintesi, SANA-Video consente una generazione di video a basso costo e di alta qualità.
I modelli linguistici di diffusione (DLM) vantano una forte efficienza teorica, ma sono limitati dalla decodifica a lunghezza fissa e dall'incompatibilità con le cache chiave-valore (KV). La diffusione a blocchi mitiga questi problemi, ma impone comunque una dimensione fissa del blocco e richiede un addestramento costoso. Introduciamo la Predizione della Sequenza Successiva (NSP), che unisce la predizione del token successivo e del blocco successivo, consentendo al modello di determinare in modo adattivo la lunghezza della generazione ad ogni passo. Quando la lunghezza è fissata a 1, la NSP si riduce alla predizione standard del token successivo. Basandoci sulla NSP, proponiamo il Modello Linguistico di Diffusione Sequenziale (SDLM), che può adattare modelli linguistici autoregressivi (ALM) pre-addestrati a costi minimi. Nello specifico, l'SDLM esegue inferenza di diffusione all'interno di blocchi di maschera di dimensione fissa, ma decodifica dinamicamente sottosequenze consecutive in base alla confidenza del modello, preservando così la compatibilità con le cache KV e migliorando la robustezza rispetto a incertezze e semantica variabili lungo la sequenza. Gli esperimenti dimostrano che l'SDLM eguaglia o supera i solidi baseline autoregressivi utilizzando solo 3,5 milioni di campioni di addestramento, raggiungendo un throughput 2,1 volte superiore rispetto a Qwen-2.5. In particolare, il modello SDLM-32B mostra guadagni di efficienza ancora più marcati, dimostrando il forte potenziale di scalabilità del nostro paradigma di modellazione. Pagina del progetto e codici: https://github.com/OpenGVLab/SDLM
Gli scienziati AI stanno emergendo come sistemi computazionali che fungono da partner collaborativi nella scoperta. Questi sistemi rimangono difficili da costruire perché sono su misura, legati a flussi di lavoro rigidi e privi di ambienti condivisi che uniscono strumenti, dati e analisi in un ecosistema comune. Nel campo delle omiche, ecosistemi unificati hanno trasformato la ricerca consentendo interoperabilità, riutilizzo e sviluppo guidato dalla comunità; gli scienziati AI richiedono un'infrastruttura comparabile. Presentiamo ToolUniverse, un ecosistema per costruire scienziati AI da qualsiasi linguaggio o modello di ragionamento, sia aperto che chiuso. TOOLUNIVERSE standardizza il modo in cui gli scienziati AI identificano e chiamano gli strumenti, integrando oltre 600 modelli di machine learning, dataset, API e pacchetti scientifici per l'analisi dei dati, il recupero della conoscenza e la progettazione sperimentale. Affina automaticamente le interfacce degli strumenti per un uso corretto da parte degli scienziati AI, crea nuovi strumenti da descrizioni in linguaggio naturale, ottimizza iterativamente le specifiche degli strumenti e li compone in flussi di lavoro agentici. In uno studio di caso sull'ipercolesterolemia, ToolUniverse è stato utilizzato per creare uno scienziato AI in grado di identificare un analogo potente di un farmaco con proprietà predette favorevoli. ToolUniverse, open-source, è disponibile all'indirizzo https://aiscientist.tools.
I Modelli Linguistici di Grande Dimensione (LLM) con capacità di ragionamento hanno raggiunto prestazioni all'avanguardia in un'ampia gamma di compiti. Nonostante il loro successo empirico, i compiti e le scale di modello in cui il ragionamento diventa efficace, così come i costi di addestramento e inferenza, rimangono poco esplorati. In questo lavoro, ci affidiamo a un framework di distillazione di dati sintetici per condurre uno studio supervisionato su larga scala. Confrontiamo il Fine-Tuning su Istruzioni (IFT) e i modelli di ragionamento di dimensioni variabili, su un'ampia gamma di compiti centrati sulla matematica e di uso generale, valutando sia formati a scelta multipla che a risposta aperta. La nostra analisi rivela che il ragionamento migliora costantemente le prestazioni del modello, spesso eguagliando o superando sistemi IFT significativamente più grandi. In particolare, mentre l'IFT rimane Pareto-ottimale in termini di costi di addestramento e inferenza, i modelli di ragionamento diventano sempre più preziosi man mano che la dimensione del modello scala, superando i limiti di prestazione dell'IFT su compiti intensivi di ragionamento e a risposta aperta.
Il post-addestramento basato sul reinforcement learning è emerso recentemente come un paradigma potente per migliorare le capacità di allineamento e ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM). Sebbene il post-addestramento incentrato sulla visione sia cruciale per migliorare la comprensione intrinseca dei segnali visivi da parte degli MLLM, gli attuali paradigmi di post-addestramento sono prevalentemente incentrati sul testo, dove gli input visivi densi vengono sfruttati solo per estrarre indizi sparsi per il ragionamento basato su testo. Esistono alcuni approcci in questa direzione, tuttavia, spesso si basano ancora sul testo come mediatore intermedio o introducono ulteriori componenti generativi visivi. In questo lavoro, presentiamo Visual Jigsaw, un framework generico di post-addestramento auto-supervisionato progettato per rafforzare la comprensione visiva negli MLLM. Visual Jigsaw è formulato come un compito generale di ordinamento: gli input visivi vengono suddivisi, mescolati e il modello deve ricostruire le informazioni visive producendo la permutazione corretta in linguaggio naturale. Questo si allinea naturalmente con il reinforcement learning da ricompense verificabili (RLVR), non richiede componenti generativi visivi aggiuntivi e deriva il suo segnale di supervisione automaticamente senza alcuna annotazione. Istanziamo Visual Jigsaw su tre modalità visive, tra cui immagini, video e dati 3D. Esperimenti estensivi dimostrano miglioramenti sostanziali nella percezione fine, nel ragionamento temporale e nella comprensione spaziale 3D. I nostri risultati evidenziano il potenziale dei compiti auto-supervisionati incentrati sulla visione nel post-addestramento degli MLLM e mirano a ispirare ulteriori ricerche sui design di pre-testo incentrati sulla visione. Pagina del progetto: https://penghao-wu.github.io/visual_jigsaw/
Sebbene i modelli linguistici basati su diffusione (DLMs) rappresentino un'alternativa promettente ai modelli autoregressivi (ARs), gli attuali DLMs open-source soffrono di un'elevata latenza di inferenza. Questo collo di bottiglia è principalmente dovuto alla complessità quadratica dell'attenzione rispetto alla lunghezza del contesto nel calcolo di tutte le coppie query-key. Intuitivamente, per ridurre questa complessità, una strategia naturale è limitare l'attenzione a pattern sparsi che mantengono solo le connessioni più rilevanti. Tali approcci sono ben consolidati negli ARs, dove l'attenzione segue pattern sparsi fissi e chiaramente definiti. Tuttavia, nei DLMs osserviamo comportamenti di sparsità distinti: (1) i pattern di attenzione variano tra le diverse teste, (2) i pattern di attenzione in ciascuna testa rimangono altamente simili tra i passi di denoising, e (3) i primi passi di denoising sono critici per la generazione. Questi risultati rendono i metodi di attenzione sparsa progettati per gli ARs largamente incompatibili con i DLMs, poiché non riescono a catturare strutture specifiche per ciascuna testa e rischiano di degradare la generazione se applicati nei primi passi di denoising. Per affrontare queste sfide, proponiamo SparseD, un nuovo metodo di attenzione sparsa per DLMs. Sfruttando le osservazioni, SparseD richiede solo il pre-calcolo dei pattern sparsi specifici per ciascuna testa una volta, riutilizzandoli in tutti i passi. Ciò evita di ricalcolare i pattern sparsi a ogni passo di denoising. Nel frattempo, SparseD utilizza l'attenzione completa nei primi passi, per poi passare all'attenzione sparsa in seguito per mantenere la qualità della generazione. Insieme, questi aspetti rendono SparseD una soluzione pratica ed efficiente per l'implementazione di DLMs in applicazioni con contesti lunghi. I risultati sperimentali dimostrano che SparseD raggiunge un'accelerazione senza perdite, ottenendo un incremento di velocità fino a 1,50 volte rispetto a FlashAttention con una lunghezza del contesto di 64k e 1.024 passi di denoising.
I modelli linguistici visivi (VLMs) realizzano una modellizzazione unificata di immagini e testo, consentendo loro di affrontare complessi compiti del mondo reale attraverso percezione, pianificazione e ragionamento. Tra questi compiti, il ragionamento è particolarmente rappresentativo, con il ragionamento matematico che funge da esempio emblematico. Esso evidenzia l'elevata capacità dei VLMs di comprendere informazioni matematiche presenti nelle immagini e di eseguire ragionamenti sofisticati. Recentemente, sono stati proposti numerosi benchmark per il ragionamento matematico visivo, ma spesso si limitano alla geometria, mancano di copertura per i problemi matematici verbali e raramente valutano il ragionamento su più immagini. Per colmare queste lacune, introduciamo GSM8K-V, un benchmark puramente visivo per il ragionamento matematico su più immagini. GSM8K-V è costruito mappando sistematicamente ciascun campione del diffusissimo GSM8K basato su testo in forma visiva. Attraverso una pipeline automatizzata per la generazione di immagini progettata con cura e un'accurata annotazione umana, abbiamo curato 1.319 campioni di alta qualità. Valutiamo un'ampia gamma di modelli open-source e closed-source su GSM8K-V. I risultati mostrano che, sebbene i VLMs esistenti abbiano quasi saturato le prestazioni su GSM8K basato su testo, c'è ancora un ampio margine di miglioramento su GSM8K-V. Ad esempio, il modello con le migliori prestazioni, Gemini-2.5-Pro, raggiunge un'accuratezza del 95,22% su GSM8K ma solo del 46,93% su GSM8K-V. Conduciamo un'analisi completa di GSM8K-V, esaminando i limiti dei modelli attuali e le potenziali direzioni per il miglioramento. GSM8K-V offre una nuova prospettiva sul ragionamento matematico visivo e stabilisce un benchmark per guidare lo sviluppo di VLMs più robusti e generalizzabili.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). I metodi attuali si basano principalmente su framework di ottimizzazione delle politiche come PPO e GRPO, che seguono un'iterazione generalizzata delle politiche alternando la valutazione del valore della politica corrente e il miglioramento della politica basato sulla valutazione. Sebbene efficaci, spesso soffrono di instabilità durante l'addestramento e di collasso della diversità, richiedendo trucchi euristici complessi e una regolazione attenta. Osserviamo che l'RLVR standard nel ragionamento matematico può essere formalizzato come un Processo Decisionale di Markov a orizzonte finito specializzato, con transizioni di stato deterministiche, dinamiche strutturate ad albero e ricompense terminali binarie. Sebbene di grande scala, la struttura sottostante è più semplice rispetto ai contesti di controllo generici per i quali sono stati sviluppati popolari algoritmi di RL (ad esempio, PPO), suggerendo che diverse tecniche sofisticate nei metodi esistenti possano essere ridotte o addirittura omesse. Basandoci su questa intuizione, dimostriamo un risultato sorprendente: l'azione ottimale può essere recuperata dalla funzione Q di una politica fissa uniformemente casuale, bypassando così il ciclo di iterazione generalizzata delle politiche e le relative euristiche. Introduciamo la Valutazione della Politica Casuale per il Ragionamento Diversificato (ROVER) per tradurre questo principio in un algoritmo pratico e scalabile per il ragionamento matematico nei LLM, un metodo RL minimalista ma altamente efficace che campiona azioni da un softmax su questi valori Q della politica uniforme. ROVER preserva la diversità durante l'addestramento, consentendo un'esplorazione sostenuta di molteplici percorsi validi. Attraverso diversi modelli di base e benchmark standard di ragionamento matematico, ROVER dimostra prestazioni superiori sia in termini di qualità (+8,2 su pass@1, +16,8 su pass@256) che di diversità (+17,6%), nonostante la sua radicale semplificazione rispetto a metodi esistenti forti e complessi.
L'editing di immagini guidato da istruzioni ha compiuto progressi notevoli, tuttavia i modelli attuali continuano a confrontarsi con sfide legate a istruzioni complesse e spesso richiedono più campioni per ottenere un risultato desiderato. Il Reinforcement Learning (RL) offre una soluzione promettente, ma la sua adozione nell'editing di immagini è stata fortemente limitata dalla mancanza di un segnale di ricompensa ad alta fedeltà ed efficiente. In questo lavoro, presentiamo una metodologia completa per superare questa barriera, incentrata sullo sviluppo di un modello di ricompensa specializzato e all'avanguardia. Introduciamo innanzitutto EditReward-Bench, un benchmark completo per valutare sistematicamente i modelli di ricompensa sulla qualità dell'editing. Basandoci su questo benchmark, sviluppiamo EditScore, una serie di modelli di ricompensa (7B-72B) per valutare la qualità dell'editing di immagini guidato da istruzioni. Attraverso una curatela e un filtraggio meticolosi dei dati, EditScore eguaglia efficacemente le prestazioni dei modelli di apprendimento proprietari VLM. Inoltre, abbinato a una strategia di auto-ensemble efficace, progettata specificamente per la natura generativa di EditScore, la nostra variante più grande supera persino GPT-5 nel benchmark. Dimostriamo quindi che un modello di ricompensa ad alta fedeltà è la chiave per sbloccare il RL online nell'editing di immagini. I nostri esperimenti mostrano che, mentre persino i più grandi VLM open-source non riescono a fornire un segnale di apprendimento efficace, EditScore consente un'ottimizzazione delle politiche efficiente e robusta. Applicando il nostro framework a un modello base solido, OmniGen2, si ottiene un modello finale che mostra un miglioramento sostanziale e consistente delle prestazioni. Nel complesso, questo lavoro fornisce il primo percorso sistematico dal benchmarking alla modellazione delle ricompense fino all'addestramento RL nell'editing di immagini, dimostrando che un modello di ricompensa ad alta fedeltà e specializzato nel dominio è la chiave per sbloccare il pieno potenziale del RL in questo ambito.
Gli Agenti di Ricerca Profonda (Deep Research Agents, DRAs) possono condurre autonomamente indagini complesse e generare report completi, dimostrando un forte potenziale nel mondo reale. Tuttavia, le valutazioni esistenti si basano principalmente su benchmark a risposta chiusa, mentre i benchmark aperti per la ricerca profonda rimangono scarsi e tipicamente trascurano scenari personalizzati. Per colmare questa lacuna, introduciamo il Personalized Deep Research Bench, il primo benchmark per valutare la personalizzazione nei DRAs. Esso abbina 50 diverse attività di ricerca in 10 domini con 25 profili utente autentici che combinano attributi strutturati di personalità con contesti dinamici del mondo reale, producendo 250 query realistiche utente-compito. Per valutare le prestazioni del sistema, proponiamo il PQR Evaluation Framework, che misura congiuntamente (P) Allineamento alla Personalizzazione, (Q) Qualità del Contenuto e (R) Affidabilità Fattuale. I nostri esperimenti su una gamma di sistemi evidenziano le attuali capacità e limitazioni nella gestione della ricerca profonda personalizzata. Questo lavoro stabilisce una base rigorosa per lo sviluppo e la valutazione della prossima generazione di assistenti di ricerca AI veramente personalizzati.
Lo steering dei Large Language Model (LLM) è emerso come un paradigma promettente per controllare il comportamento dei modelli durante l'inferenza attraverso la manipolazione mirata degli stati nascosti, offrendo un'alternativa leggera rispetto al costoso retraining. Tuttavia, i framework di steering esistenti presentano limitazioni critiche: inefficienza computazionale, estensibilità limitata e funzionalità ristrette che ostacolano sia il progresso della ricerca che l'implementazione pratica. Presentiamo EasySteer, un framework unificato per lo steering ad alte prestazioni ed estensibile degli LLM, basato su vLLM. Il nostro sistema presenta un'architettura modulare con interfacce pluggabili per metodi sia basati sull'analisi che sull'apprendimento, controllo fine dei parametri, vettori di steering pre-calcolati per otto domini applicativi e un sistema dimostrativo interattivo. Grazie all'integrazione profonda con il motore di inferenza ottimizzato di vLLM, EasySteer raggiunge un'accelerazione di 5,5-11,4 volte rispetto ai framework esistenti. Esperimenti estensivi ne dimostrano l'efficacia nella mitigazione dell'overthinking, nella riduzione delle allucinazioni e in altre applicazioni chiave. EasySteer trasforma lo steering da tecnica di ricerca a capacità pronta per la produzione, stabilendo un'infrastruttura critica per modelli linguistici implementabili e controllabili.
I recenti progressi nella generazione di video da testo hanno prodotto contenuti sempre più realistici e diversificati, ma la valutazione di tali video rimane una sfida fondamentale a causa della loro natura multi-faccettata, che comprende qualità visiva, allineamento semantico e coerenza fisica. Gli attuali valutatori e modelli di ricompensa si limitano a punteggi singoli e opachi, mancano di interpretabilità o forniscono solo analisi grossolane, rendendoli insufficienti per catturare la natura completa della valutazione della qualità video. Presentiamo VideoScore2, un framework multi-dimensionale, interpretabile e allineato con gli esseri umani, che valuta esplicitamente la qualità visiva, l'allineamento testo-video e la coerenza fisica/di buon senso, producendo al contempo dettagliate catene di ragionamento. Il nostro modello è addestrato su un ampio dataset VideoFeedback2 contenente 27.168 video annotati da esseri umani con punteggi e tracce di ragionamento attraverso tre dimensioni, utilizzando una pipeline a due stadi di fine-tuning supervisionato seguita da apprendimento per rinforzo con Group Relative Policy Optimization (GRPO) per migliorare la robustezza analitica. Esperimenti estensivi dimostrano che VideoScore2 raggiunge prestazioni superiori con un'accuratezza del 44.35 (+5.94) sul nostro benchmark in dominio VideoScore-Bench-v2 e una performance media del 50.37 (+4.32) su quattro benchmark fuori dominio (VideoGenReward-Bench, VideoPhy2, ecc.), fornendo al contempo valutazioni interpretabili che colmano il divario tra valutazione e generazione controllata attraverso un efficace modellamento delle ricompense per il campionamento Best-of-N. Pagina del progetto: https://tiger-ai-lab.github.io/VideoScore2/
La generazione di video in streaming, come componente fondamentale nei modelli di mondo interattivi e nei motori di gioco neurali, mira a produrre flussi video lunghi di alta qualità, a bassa latenza e temporalmente coerenti. Tuttavia, la maggior parte del lavoro esistente soffre di un grave accumulo di errori che spesso degrada significativamente i video generati su orizzonti temporali lunghi. Progettiamo Rolling Forcing, una nuova tecnica di generazione video che consente la trasmissione in streaming di video lunghi con un accumulo di errori minimo. Rolling Forcing è caratterizzato da tre innovazioni. Innanzitutto, invece di campionare iterativamente singoli fotogrammi, il che accelera la propagazione degli errori, progettiamo uno schema di denoising congiunto che elimina il rumore da più fotogrammi simultaneamente con livelli di rumore progressivamente crescenti. Questo design rilassa la stretta causalità tra fotogrammi adiacenti, sopprimendo efficacemente la crescita degli errori. In secondo luogo, introduciamo il meccanismo di attenzione sink nel compito di generazione di video in streaming a lungo termine, che consente al modello di mantenere gli stati chiave dei fotogrammi iniziali come ancoraggio contestuale globale, migliorando così la coerenza globale a lungo termine. Terzo, progettiamo un algoritmo di addestramento efficiente che consente la distillazione in pochi passi su finestre di denoising estese. Questo algoritmo opera su finestre non sovrapposte e mitiga il bias di esposizione condizionato alle storie auto-generate. Esperimenti estesi dimostrano che Rolling Forcing consente la generazione in streaming in tempo reale di video della durata di diversi minuti su una singola GPU, con un accumulo di errori sostanzialmente ridotto.
Presentiamo HunyuanImage 3.0, un modello multimodale nativo che unisce comprensione e generazione multimodale all'interno di un framework autoregressivo, con il modulo di generazione di immagini reso pubblicamente disponibile. Il successo di HunyuanImage 3.0 si basa su diversi componenti chiave, tra cui una curatela meticolosa dei dati, un design avanzato dell'architettura, uno schema nativo di Chain-of-Thoughts, un pre-training progressivo del modello, un post-training aggressivo e un'infrastruttura efficiente che consente addestramento e inferenza su larga scala. Con questi progressi, abbiamo addestrato con successo un modello Mixture-of-Experts (MoE) composto da oltre 80 miliardi di parametri in totale, con 13 miliardi di parametri attivati per token durante l'inferenza, rendendolo il modello generativo di immagini open source più grande e potente fino ad oggi. Abbiamo condotto esperimenti estesi e i risultati delle valutazioni automatiche e umane sull'allineamento testo-immagine e sulla qualità visiva dimostrano che HunyuanImage 3.0 rivaleggia con i precedenti modelli all'avanguardia. Rilasciando il codice e i pesi di HunyuanImage 3.0, miriamo a consentire alla comunità di esplorare nuove idee con un modello di base all'avanguardia, favorendo un ecosistema multimodale dinamico e vivace. Tutte le risorse open source sono disponibili pubblicamente all'indirizzo https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
Il Reinforcement Learning (RL) è emerso come un paradigma di addestramento popolare, in particolare quando abbinato a modelli di ragionamento. Sebbene efficace, si concentra principalmente sulla generazione di risposte e manca di meccanismi per favorire esplicitamente la critica o la riflessione. Diversi studi recenti, come Critique-Fine-Tuning (CFT) e Critique-Guided-Distillation (CGD), hanno dimostrato i benefici di insegnare esplicitamente agli LLM come criticare. Motivati da questi risultati, proponiamo il Critique Reinforcement Learning (CRL), in cui il modello è incaricato di generare una critica per una coppia (domanda, soluzione). La ricompensa è determinata esclusivamente dal fatto che l'etichetta di giudizio finale c in {Vero, Falso} della critica generata sia allineata con il giudizio di riferimento c^*. Sulla base di questo, introduciamo Critique-Coder, che viene addestrato su un ibrido di RL e CRL sostituendo il 20\% dei dati standard RL con dati CRL. Addestriamo più modelli (Critique-Coder) e li valutiamo su diversi benchmark per dimostrare i loro vantaggi rispetto ai modelli esclusivamente RL. Mostriamo che Critique-Coder supera costantemente i baseline esclusivamente RL su tutti i benchmark valutati. In particolare, il nostro Critique-Coder-8B può raggiungere oltre il 60\% su LiveCodeBench (v5), superando altri modelli di ragionamento come DeepCoder-14B e GPT-o1. Oltre alla generazione di codice, Critique-Coder dimostra anche capacità di ragionamento generale migliorate, come evidenziato dalla sua migliore performance sui task di ragionamento logico del dataset BBEH. Ciò indica che l'applicazione del CRL su dataset di codifica migliora le capacità di ragionamento generale e di critica, che sono trasferibili su un'ampia gamma di task. Pertanto, riteniamo che il CRL rappresenti un ottimo complemento al RL standard per il ragionamento degli LLM.
Proponiamo che, per ottenere un miglioramento continuo del modello e un allineamento multifaccettato, i modelli futuri debbano apprendere dall'interazione naturale con gli esseri umani. I modelli conversazionali attuali vengono allineati utilizzando feedback umano pre-annotato e generato da esperti. In questo lavoro, introduciamo il Reinforcement Learning from Human Interaction (RLHI), un paradigma che apprende direttamente dalle conversazioni degli utenti in contesti reali. Sviluppiamo due metodi complementari: (1) RLHI con riscritture guidate dall'utente, che rivede gli output insoddisfacenti del modello basandosi sulle risposte di follow-up in linguaggio naturale degli utenti, (2) RLHI con ricompense basate sull'utente, che apprende tramite un modello di ricompensa condizionato alla conoscenza della cronologia di interazione a lungo termine dell'utente (denominata persona). Insieme, questi metodi collegano le persone a lungo termine alle preferenze a livello di turno attraverso l'ottimizzazione delle preferenze condizionata alla persona. Addestrati su conversazioni derivate da WildChat, entrambe le varianti di RLHI superano i forti baseline nella personalizzazione e nel seguire le istruzioni, e un feedback simile migliora le prestazioni sui benchmark di ragionamento. Questi risultati suggeriscono che l'interazione umana organica offre una supervisione scalabile ed efficace per l'allineamento personalizzato.
Studiamo il problema dell'applicazione dei Modelli Fondamentali 3D (3DFMs) alla sintesi densa di nuove viste (NVS). Nonostante i significativi progressi nella sintesi di nuove viste alimentata da NeRF e 3DGS, gli approcci attuali rimangono dipendenti da attributi 3D accurati (ad esempio, pose della fotocamera e nuvole di punti) acquisiti tramite Structure-from-Motion (SfM), che è spesso lento e fragile in catture con bassa texture o bassa sovrapposizione. I recenti 3DFMs dimostrano un'accelerazione di ordini di grandezza rispetto alla pipeline tradizionale e un grande potenziale per la NVS online. Tuttavia, la maggior parte delle validazioni e delle conclusioni è limitata a impostazioni con viste sparse. Il nostro studio rivela che scalare semplicemente i 3DFMs a viste dense incontra due barriere fondamentali: un carico di VRAM che aumenta drasticamente e output imperfetti che degradano l'addestramento 3D sensibile all'inizializzazione. Per affrontare queste barriere, introduciamo VGGT-X, che incorpora un'implementazione efficiente in termini di memoria di VGGT in grado di scalare a oltre 1.000 immagini, un allineamento globale adattivo per il miglioramento dell'output di VGGT e pratiche robuste di addestramento 3DGS. Esperimenti estesi dimostrano che queste misure riducono sostanzialmente il divario di fedeltà con le pipeline inizializzate da COLMAP, raggiungendo risultati all'avanguardia nella NVS densa senza COLMAP e nella stima della posa. Inoltre, analizziamo le cause dei divari rimanenti rispetto al rendering inizializzato da COLMAP, fornendo spunti per lo sviluppo futuro dei modelli fondamentali 3D e della NVS densa. La nostra pagina del progetto è disponibile all'indirizzo https://dekuliutesla.github.io/vggt-x.github.io/.
I grandi modelli linguistici (LLM) eccellono nel ragionamento matematico generale, ma falliscono in modo catastrofico sulla matematica tecnica specializzata. Nelle comunicazioni wireless, dove i problemi richiedono una manipolazione precisa di limiti teorici dell'informazione, vincoli di ottimizzazione e formulazioni di elaborazione del segnale, anche i modelli più avanzati faticano a raggiungere prestazioni competenti. Presentiamo WirelessMathLM, dimostrando che modelli compatti (0,5B-7B parametri) possono eguagliare o superare modelli molto più grandi attraverso l'apprendimento per rinforzo specifico per il dominio con ricompense verificabili. La nostra intuizione chiave è che i problemi di matematica wireless possiedono una proprietà unica—la correttezza verificabile—che consente un apprendimento per rinforzo efficace senza feedback umano. Costruiamo WirelessMathBench-XL, un benchmark completo di 4.027 problemi tratti da 970 articoli. Utilizzando l'ottimizzazione delle politiche relative al gruppo (GRPO) con ricompense di verifica binaria, addestriamo i modelli direttamente da checkpoint di base senza un avvio supervisionato. Il nostro modello da 7B raggiunge un'accuratezza del 39,5% su WirelessMathBench-XL, avvicinandosi a GPT-4o (40,4%) mentre utilizza circa 100 volte meno parametri rispetto a DeepSeek-R1 (671B, 57,4%). Notevolmente, l'addestramento con GRPO quasi raddoppia le prestazioni su tutte le scale di modelli (0,5B +11%, 3B +103%, 7B +81%), con un trasferimento positivo ai benchmark di matematica generale—i nostri modelli guadagnano +8,4 punti in media su MATH, Minerva-Math, OlympiadBench, AMC e AIME senza alcun addestramento su questi compiti.
L'RL insegna alle LLM abilità veramente nuove, o si limita ad attivare quelle esistenti? Questa domanda è al centro dei dibattiti in corso sul ruolo dell'RL nel post-addestramento delle LLM. Da un lato, si possono ottenere risultati empirici significativi con l'RL anche senza un precedente fine-tuning supervisionato; dall'altro, i critici sostengono che l'RL contribuisca poco oltre a riponderare le strategie di ragionamento esistenti. Questo lavoro fornisce prove concrete che le LLM possono acquisire abilità veramente nuove durante l'RL componendo quelle esistenti, riflettendo uno dei meccanismi centrali con cui gli esseri umani acquisiscono nuove abilità cognitive. Per mitigare la contaminazione dei dati e altri fattori confondenti, e per consentire un controllo preciso sulla complessità del compito, sviluppiamo un framework sintetico per la nostra indagine. Nello specifico, definiamo un'abilità come la capacità di inferire l'output di una funzione di trasformazione di stringhe f(x) dato x. Quando una LLM ha già appreso f e g prima dell'RL, i nostri esperimenti rivelano che l'RL le consente di apprendere composizioni non viste di esse h(x)=g(f(x)). Inoltre, questa capacità compositiva si generalizza a problemi più difficili come composizioni di >2 funzioni non viste durante l'addestramento RL. Sorprendentemente, i nostri esperimenti mostrano che l'abilità compositiva acquisita su un compito sorgente si trasferisce a un diverso compito target. Questo trasferimento avviene anche senza un addestramento compositivo sul target, richiedendo solo la conoscenza preliminare delle abilità atomiche del target. La nostra analisi qualitativa mostra che l'RL cambia fondamentalmente i comportamenti di ragionamento dei modelli. Al contrario, l'addestramento next-token con gli stessi dati non produce nessuno di questi risultati. I nostri esperimenti sistematici forniscono nuove intuizioni sull'apprendimento delle LLM, suggerendo il valore di costruire prima modelli di base con abilità di base, per poi utilizzare l'RL per incentivare abilità avanzate e generalizzabili per problemi complessi.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) per compiti di ragionamento si basano fortemente su dataset massicci e di alta qualità, tipicamente annotati da esseri umani e quindi difficili da scalare. Sebbene la sintesi o la distillazione dei dati offrano un'alternativa promettente, i metodi esistenti faticano con una qualità dei dati incoerente e un'incapacità di adattarsi dinamicamente alle capacità in evoluzione del modello, portando a segnali di addestramento subottimali. Per affrontare queste limitazioni, introduciamo Socratic-Zero, un framework completamente autonomo che genera dati di addestramento di alta qualità a partire da esempi iniziali minimi attraverso la co-evoluzione di tre agenti: il Teacher, il Solver e il Generator. Il Solver affina continuamente il suo ragionamento apprendendo da feedback di preferenza su traiettorie sia riuscite che fallite; il Teacher crea in modo adattivo domande sempre più complesse basandosi sulle debolezze del Solver; e il Generator distilla la strategia di progettazione delle domande del Teacher per consentire una generazione scalabile e ad alta fedeltà del curriculum. Questo sistema a ciclo chiuso produce un curriculum che si auto-migliora, senza richiedere compiti o etichette preesistenti. In modo notevole, partendo da soli 100 esempi iniziali, il nostro Socratic-Solver-8B ottiene un guadagno medio di +20,2 punti percentuali rispetto ai precedenti metodi di sintesi dei dati su sette benchmark di ragionamento matematico (AMC23, AIME24-25, Olympiad, MATH-500, Minerva e GSM8K), con guadagni consistenti sia sui modelli della serie Qwen3 che GLM4. Ancora più sorprendentemente, i dati sintetici generati da Socratic-Generator-32B consentono agli LLM studente di ottenere prestazioni superiori rispetto ad altri LLM commerciali all'avanguardia (SOTA) su questi benchmark, inclusi Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 e Claude-4.1-Opus.
Gli agenti di analisi dati stanno emergendo come un catalizzatore chiave per la scoperta scientifica automatizzata e per la visione dell'AI innovativa. Gli approcci attuali, tuttavia, si basano fortemente sull'ingegneria dei prompt su modelli proprietari, mentre i modelli open-source faticano a gestire file di dati su larga scala e in formati diversi, nonché il ragionamento multi-step a lungo orizzonte richiesto dalle analisi del mondo reale. Questo articolo introduce DataMind, una ricetta scalabile per la sintesi dei dati e l'addestramento di agenti progettata per costruire agenti di analisi dati generalisti. DataMind affronta tre sfide principali nella costruzione di agenti di analisi dati open-source, tra cui risorse dati insufficienti, strategie di addestramento inadeguate e rollout multi-turn basato su codice instabile. Nello specifico, DataMind applica 1) una tassonomia fine delle attività e un meccanismo ricorsivo di composizione delle attività da facile a difficile per aumentare la diversità e la difficoltà delle query sintetizzate; 2) una strategia di campionamento delle traiettorie arricchita da conoscenze, seguita da filtraggio basato su modelli e regole; 3) un obiettivo di addestramento regolabile dinamicamente che combina perdite SFT e RL; 4) un framework di rollout multi-turn basato su codice stabile e a basso consumo di memoria. Basandoci su DataMind, abbiamo curato DataMind-12K, un set di traiettorie di alta qualità che copre diversi domini, categorie di attività e formati di file di dati per attività di analisi dati. Addestrato su DataMind-12K, il nostro DataMind-14B raggiunge lo stato dell'arte con un punteggio medio del 71,16% su più benchmark di analisi dati, superando i più forti baseline proprietari DeepSeek-V3.1 e GPT-5. Il nostro DataMind-7B si posiziona anche come il migliore tra tutti i modelli open-source con un punteggio del 68,10%. Abbiamo inoltre incorporato alcune intuizioni empiriche ottenute dai nostri test esplorativi negli esperimenti di analisi, con l'obiettivo di fornire spunti pratici sull'addestramento degli agenti per la comunità. Rilasceremo DataMind-12K e DataMind-7B,14B per la ricerca futura della comunità.
L'intelligenza spaziale comprende una vasta gamma di abilità, tra cui la visualizzazione e la trasformazione di forme, la rotazione mentale di oggetti, la valutazione di posizioni relazionali e contenimento, e la stima della numerosità. Tuttavia, rimane una sfida critica e irrisolta per i Modelli Linguistici Multimodali di Grande Scala (MLLMs). Per colmare questa lacuna, proponiamo di considerare la risoluzione di problemi di geometria euclidea come un compito surrogato. Nello specifico, abbiamo meticolosamente costruito un dataset multimodale curato, chiamato Euclid30K, che comprende circa 30K problemi di geometria piana e solida. Per consentire al modello di acquisire e applicare i principi euclidei da questi problemi di geometria, abbiamo utilizzato l'ottimizzazione delle politiche relative al gruppo (GRPO) per affinare le famiglie Qwen2.5VL e RoboBrain2.0, ispirando i modelli a identificare forme, contare e relazionare entità, e eseguire ragionamenti deduttivi multi-step utilizzando i principi euclidei. I nostri esperimenti dimostrano che i modelli risultanti ottengono sostanziali miglioramenti zero-shot su quattro benchmark di ragionamento spaziale (Super-CLEVR, Omni3DBench, VSI-Bench e MindCube) senza alcun adattamento specifico per il compito. In particolare, dopo l'addestramento su Euclid30K, l'accuratezza media su VSI-Bench di tutti i modelli valutati è passata dal 34,5% al 40,5%, con un miglioramento di 5,5 punti percentuali. Tra questi, RoboBrain2.0-Euclid-7B raggiunge un'accuratezza del 49,6%, superando il precedente modello all'avanguardia, Spatial-MLLM. A nostra conoscenza, questo è il primo studio sistematico che dimostra come un affinamento centrato sulla geometria possa conferire ai modelli visione-linguaggio abilità spaziali ampiamente trasferibili. Il codice e il dataset Euclid30K sono disponibili su https://zgca-ai4edu.github.io/Euclids_Gift.
La personalizzazione visiva è essenziale nei sistemi di IA rivolti agli utenti, come le case intelligenti e l'assistenza sanitaria, dove allineare il comportamento del modello a concetti centrati sull'utente è fondamentale. Tuttavia, i recenti modelli Vision-Language (VLM) di grandi dimensioni, nonostante la loro ampia applicabilità, rimangono poco esplorati nella loro capacità di adattarsi a utenti individuali. In questo articolo, introduciamo MMPB, il primo benchmark estensivo per valutare i VLM sulla personalizzazione. MMPB comprende 10.000 coppie immagine-query e include 111 concetti personalizzabili in quattro categorie: esseri umani, animali, oggetti e personaggi, con la categoria umana arricchita da query basate sulle preferenze. Strutturiamo la personalizzazione in tre tipi principali di task, ciascuno dei quali evidenzia una diversa proprietà chiave dei VLM. Utilizzando 23 VLM ampiamente utilizzati, inclusi modelli open-source e closed-source, valutiamo le prestazioni di personalizzazione attraverso un protocollo in tre fasi: iniezione del concetto, dialogo multi-turn e query personalizzate. I nostri risultati indicano che la maggior parte dei VLM (inclusi alcuni modelli closed-source) fatica nella personalizzazione, in particolare nel mantenere la coerenza durante il dialogo, gestire le preferenze degli utenti e adattarsi ai segnali visivi. La nostra analisi rivela che le sfide nella personalizzazione dei VLM (come i comportamenti di rifiuto e la dimenticanza del contesto lungo) evidenziano un ampio margine di miglioramento. Identificando queste limitazioni e offrendo un benchmark scalabile, MMPB fornisce intuizioni preziose e una solida base per la ricerca futura verso un'IA multimodale veramente personalizzata. Pagina del progetto: aidaslab.github.io/MMPB
Presentiamo MGM-Omni, un modello linguistico omni-modale unificato per la comprensione multimodale e la generazione espressiva di discorsi a lungo termine. A differenza delle pipeline a cascata che isolano la sintesi vocale, MGM-Omni adotta un design "cervello-bocca" con un'architettura a doppio binario basata su token, che separa chiaramente il ragionamento multimodale dalla generazione vocale in tempo reale. Questo design consente un'interazione cross-modale efficiente e una generazione vocale in streaming a bassa latenza. Per la comprensione, una strategia di addestramento unificata abbinata a un design a doppio codificatore audio permette la percezione di audio di lunga durata in diverse condizioni acustiche. Per la generazione, uno schema di decodifica parallela basato su segmenti riduce il divario tra il tasso di token testuali e vocali, accelerando l'inferenza e supportando la clonazione vocale zero-shot in streaming con un timbro stabile per periodi prolungati. Rispetto a lavori contemporanei, MGM-Omni raggiunge queste capacità con un addestramento notevolmente efficiente in termini di dati. Esperimenti estensivi dimostrano che MGM-Omni supera i modelli open source esistenti nel preservare l'identità del timbro su sequenze estese, produrre discorsi naturali e contestualmente consapevoli, e ottenere una comprensione superiore dell'audio di lunga durata e multimodale. MGM-Omni stabilisce un paradigma end-to-end efficiente per la comprensione omni-modale e la generazione controllata e personalizzata di discorsi a lungo termine.
La stima della profondità monoculare (Monocular Depth Estimation, MDE) è un compito fondamentale per la visione artificiale. I metodi tradizionali sono limitati dalla scarsità e dalla qualità dei dati, compromettendone la robustezza. Per superare questo problema, proponiamo BRIDGE, un framework di generazione ottimizzato con reinforcement learning (RL) che trasforma la profondità in immagini (Depth-to-Image, D2I), sintetizzando oltre 20 milioni di immagini RGB realistiche e geometricamente accurate, ciascuna intrinsecamente associata alla propria profondità di riferimento, a partire da mappe di profondità provenienti da fonti diverse. Successivamente, addestriamo il nostro modello di stima della profondità su questo dataset, utilizzando una strategia di supervisione ibrida che integra etichette pseudo-derivate da un modello insegnante con la profondità di riferimento, garantendo un addestramento completo e robusto. Questo innovativo paradigma di generazione dei dati e di addestramento consente a BRIDGE di raggiungere traguardi significativi in termini di scala e diversità di dominio, superando costantemente gli approcci state-of-the-art esistenti sia quantitativamente che nella cattura di dettagli in scene complesse, promuovendo così caratteristiche di profondità generali e robuste. Codice e modelli sono disponibili all'indirizzo https://dingning-liu.github.io/bridge.github.io/.
Il Ragionamento Integrato con Strumenti (Tool-Integrated Reasoning, TIR) consente ai grandi modelli linguistici (LLM) di migliorare la loro capacità di ragionamento interno integrando strumenti esterni. Tuttavia, i modelli che utilizzano il TIR spesso mostrano comportamenti subottimali, come un uso insufficiente o eccessivo degli strumenti e un eccessivo ragionamento dopo le chiamate agli strumenti. La sfida di incentivare i LLM a eseguire il TIR in modo efficiente e accurato, stabilizzando il processo di ragionamento, rimane una questione aperta. In questo articolo, iniziamo esplorando l'impatto delle chiamate agli strumenti sul ragionamento del modello dal punto di vista dell'entropia informativa. I nostri risultati indicano che i risultati delle chiamate agli strumenti portano a un cambiamento distinto nell'entropia informativa del ragionamento successivo, con l'entropia complessiva della catena di ragionamento che varia in base al numero di chiamate agli strumenti. Basandoci su queste intuizioni, proponiamo Tool-Light, un framework progettato per incoraggiare i LLM a eseguire il TIR in modo efficiente e accurato. Il nostro framework include la costruzione del dataset e la messa a punto in più fasi. Per la costruzione del dataset, utilizziamo un campionamento continuo auto-evoluto utilizzando il modello messo a punto, integrando sia il campionamento standard che il campionamento guidato dall'entropia. Inoltre, stabiliamo criteri rigorosi per la selezione di coppie positivo-negative durante il campionamento. Il processo di formazione prevede un approccio in due fasi, comprendendo la Messa a Punto Supervisionata (Supervised Fine-Tuning, SFT) e l'Ottimizzazione delle Preferenze Dirette Auto-Evoluta (Self-Evolved Direct Preference Optimization, DPO). I risultati sperimentali su 10 dataset dimostrano l'efficacia di Tool-Light, migliorando significativamente l'efficienza del modello nell'esecuzione di compiti TIR.
I grandi modelli visione-linguaggio (LVLM) raggiungono prestazioni elevate nei compiti multimodali, ma spesso ricadono sul loro prior linguistico (LP) — schemi testuali memorizzati durante il pre-training — sottoutilizzando le evidenze visive. Le analisi precedenti del LP si basano principalmente su sondaggi input-output, che non riescono a rivelare i meccanismi interni che governano quando e come la visione influenza il comportamento del modello. Per colmare questa lacuna, presentiamo la prima analisi sistematica del prior linguistico attraverso la lente della catena di embedding, che esamina la dinamica delle rappresentazioni strato per strato all'interno dei LVLM. La nostra analisi rivela un fenomeno universale: ogni modello presenta un Punto di Integrazione Visiva (VIP), uno strato critico in cui le informazioni visive iniziano a rimodellare significativamente le rappresentazioni nascoste e a influenzare la decodifica. Basandoci su questa osservazione, introduciamo lo stimatore di Integrazione Visiva Totale (TVI), che aggrega la distanza delle rappresentazioni oltre il VIP per quantificare quanto fortemente la query visiva influisce sulla generazione della risposta. Attraverso 54 combinazioni modello-dataset che coprono 9 LVLM contemporanei e 6 benchmark, dimostriamo che il VIP emerge costantemente e che il TVI predice in modo affidabile la forza del prior linguistico. Questo offre un toolkit metodologico per diagnosticare e comprendere il prior linguistico nei LVLM.
L'elaborazione di sequenze lunghe è una capacità cruciale per i moderni modelli linguistici di grandi dimensioni. Tuttavia, il meccanismo di self-attention nell'architettura standard del Transformer incontra gravi colli di bottiglia computazionali e di memoria quando elabora sequenze lunghe. Sebbene i metodi di attenzione sparsa addestrabili offrano una soluzione promettente, approcci esistenti come l'NSA introducono un eccesso di parametri aggiuntivi e interrompono il flusso di lavoro convenzionale di pre-addestramento su sequenze brevi e fine-tuning su sequenze lunghe, risultando in una convergenza lenta e difficoltà nell'accelerazione. Per superare queste limitazioni, introduciamo un framework di attenzione commutabile densa-sparsa, denominato InfLLM-V2. InfLLM-V2 è un'attenzione sparsa addestrabile che adatta in modo fluido i modelli da sequenze brevi a sequenze lunghe. Nello specifico, InfLLM-V2 riutilizza i parametri dell'attenzione densa attraverso una modifica architetturale priva di parametri, mantenendo la coerenza tra l'elaborazione di sequenze brevi e lunghe. Inoltre, InfLLM-V2 garantisce efficienza computazionale per tutte le lunghezze delle sequenze, utilizzando l'attenzione densa per input brevi e passando gradualmente all'attenzione sparsa per sequenze lunghe. Per ottenere un'accelerazione pratica, introduciamo ulteriormente un'implementazione efficiente di InfLLM-V2 che riduce significativamente il sovraccarico computazionale. I nostri esperimenti sulla comprensione di contesti lunghi e sul ragionamento a catena di pensiero dimostrano che InfLLM-V2 è 4 volte più veloce dell'attenzione densa, mantenendo rispettivamente il 98,1% e il 99,7% delle prestazioni. Basandoci sul framework InfLLM-V2, abbiamo addestrato e reso open-source MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), un modello di ragionamento ibrido, fornendo un'implementazione riproducibile per la comunità di ricerca.
I modelli visione-linguaggio (VLM) basati su agenti GUI mostrano un potenziale promettente per l'automazione di compiti complessi su desktop e dispositivi mobili, ma affrontano sfide significative nell'applicazione dell'apprendimento per rinforzo (RL): (1) interazioni multi-turn lente con ambienti GUI per il rollout delle politiche, e (2) interazioni di qualità insufficienti tra agente e ambiente per l'apprendimento delle politiche. Per affrontare queste sfide, proponiamo DART, un framework di Addestramento RL Agente Decoupled per agenti GUI, che coordina moduli eterogenei in modo altamente disaccoppiato. DART separa il sistema di addestramento in quattro moduli asincroni: cluster di ambiente, servizio di rollout, gestore dei dati e trainer. Questo design consente comunicazioni non bloccanti, addestramento asincrono, campionamento di traiettorie per rollout e sincronizzazione del modello per worker, migliorando significativamente l'efficienza del sistema: 1.6* utilizzo della GPU per il rollout, 1.9* throughput di addestramento e 5.5* utilizzo dell'ambiente. Per facilitare un apprendimento efficace da campioni abbondanti, introduciamo uno schema di curatela dei dati adattivo: (1) pre-raccolta di traiettorie di successo per compiti impegnativi per integrare il successo scarso nel campionamento online; (2) regolazione dinamica del numero di rollout e della lunghezza delle traiettorie in base alla difficoltà del compito; (3) addestramento selettivo su passi ad alta entropia per dare priorità alle decisioni critiche; (4) stabilizzazione dell'apprendimento tramite campionamento di importanza troncato per il disallineamento delle politiche tra rollout e aggiornamento delle politiche. Sul benchmark OSWorld, DART-GUI-7B raggiunge un tasso di successo del 42.13%, un guadagno assoluto del 14.61% rispetto al modello base e un 7.34% in più rispetto allo stato dell'arte open-source. Rilascieremo completamente open-source il nostro framework di addestramento, i dati e i checkpoint del modello tramite computer-use-agents.github.io/dart-gui, un contributo tempestivo alla comunità open-source dell'addestramento RL agente.
I Large Language Model (LLM) di oggi sono potenti risolutori di problemi in molti domini e continuano a diventare più forti man mano che aumentano di dimensioni del modello, dimensioni del set di addestramento e qualità del set di addestramento, come dimostrato da ricerche e sperimentazioni estese in tutto il settore. Addestrare un modello all'avanguardia oggi richiede dell'ordine di decine o centinaia di yottaflop, che rappresentano un investimento massiccio in termini di tempo, capacità di calcolo ed energia. Migliorare l'efficienza del pre-addestramento è quindi essenziale per abilitare la prossima generazione di LLM ancora più capaci. Sebbene l'addestramento in virgola mobile a 8 bit (FP8) sia ora ampiamente adottato, il passaggio a una precisione ancora più stretta, come la virgola mobile a 4 bit (FP4), potrebbe sbloccare ulteriori miglioramenti nella velocità computazionale e nell'utilizzo delle risorse. Tuttavia, la quantizzazione a questo livello pone sfide alla stabilità dell'addestramento, alla convergenza e all'implementazione, in particolare per modelli su larga scala addestrati su orizzonti di token lunghi. In questo studio, introduciamo un approccio innovativo per l'addestramento stabile e accurato di grandi modelli linguistici (LLM) utilizzando il formato NVFP4. Il nostro metodo integra le trasformate di Hadamard casuali (RHT) per limitare gli outlier a livello di blocco, impiega uno schema di quantizzazione bidimensionale per rappresentazioni coerenti sia nelle fasi di forward che di backward, utilizza l'arrotondamento stocastico per una stima imparziale del gradiente e incorpora strati selettivi ad alta precisione. Convalidiamo il nostro approccio addestrando un modello da 12 miliardi di parametri su 10 trilioni di token — il ciclo di addestramento più lungo documentato pubblicamente in precisione a 4 bit fino ad oggi. I nostri risultati mostrano che il modello addestrato con la nostra tecnica di pre-addestramento basata su NVFP4 raggiunge una perdita di addestramento e accuratezze nei task downstream comparabili a una baseline FP8. Questi risultati evidenziano che NVFP4, combinato con il nostro approccio di addestramento, rappresenta un passo avanti significativo negli algoritmi di addestramento di LLM a precisione stretta.
Presentiamo SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, un approccio RL semplice ma efficace per i Large Reasoning Models (LRM) che consente un ragionamento più efficiente e accurato. Studi esistenti hanno osservato schemi di pensiero ripetitivi nei LRM, e i tentativi di ridurli spesso comportano un compromesso in termini di prestazioni. In questo articolo, dimostriamo che questo compromesso può essere superato attraverso un regime di addestramento che alterna iterativamente compressione ed espansione del budget di ragionamento, regolando dinamicamente la lunghezza massima del rollout durante l'addestramento. La fase di compressione riduce la lunghezza del rollout, costringendo il modello a prendere decisioni precise e valide in un contesto limitato, riducendo efficacemente i token ridondanti e aumentando la densità del ragionamento. La fase di espansione rilassa poi il limite di lunghezza, fornendo spazio al modello per esplorare e pianificare in contesti a lungo termine. In modo notevole, osserviamo che dopo ogni ciclo di compressione-espansione, le prestazioni del modello migliorano anche se la lunghezza dell'output diminuisce, avvicinandolo progressivamente alla frontiera di Pareto nel compromesso tra prestazioni ed efficienza. Addestrato su DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low migliora le prestazioni su AIME24 del 43,2% riducendo l'uso di token del 46,9% dopo tre iterazioni, mentre SIRI-high raggiunge la massima accuratezza rispetto a tutti gli altri metodi (Figura 1). I nostri risultati evidenziano il potenziale di oscillare periodicamente la lunghezza di troncamento dell'output del LRM durante l'addestramento per bilanciare dinamicamente esplorazione ed efficienza nel ragionamento, convergendo verso un "punto ottimale" tra i due. I nostri modelli sono pubblicamente disponibili.
Il Test-Time Scaling (TTS) migliora la capacità di ragionamento dei grandi modelli linguistici (LLM) allocando ulteriori risorse computazionali durante l'inferenza. Tuttavia, gli approcci esistenti si basano principalmente sul campionamento a livello di output, trascurando il ruolo dell'architettura del modello. Nei principali LLM basati su Mixture-of-Experts (MoE), osserviamo che variare il numero di esperti attivati produce insiemi di soluzioni complementari con un'accuratezza stabile, rivelando una nuova e poco esplorata fonte di diversità. Motivati da questa osservazione, proponiamo il Dynamic Experts Search (DES), una strategia TTS che eleva l'attivazione degli esperti a una dimensione controllabile dello spazio di ricerca. DES integra due componenti chiave: (1) Dynamic MoE, che consente il controllo diretto del numero di esperti durante l'inferenza per generare traiettorie di ragionamento diverse senza costi aggiuntivi; e (2) l'Ereditarietà della Configurazione degli Esperti, che mantiene un numero coerente di esperti all'interno di un percorso di ragionamento mentre li varia tra le esecuzioni, bilanciando così stabilità e diversità durante la ricerca. Esperimenti estesi su architetture MoE, verificatori e benchmark di ragionamento (ad esempio, matematica, codice e conoscenza) dimostrano che DES supera in modo affidabile i baseline TTS, migliorando accuratezza e stabilità senza costi aggiuntivi. Questi risultati evidenziano DES come una forma pratica e scalabile di TTS consapevole dell'architettura, illustrando come la flessibilità strutturale nei moderni LLM possa avanzare il ragionamento.
I modelli linguistici di grandi dimensioni (LLM) agenti, che integrano moduli di pianificazione, memoria, riflessione e utilizzo di strumenti, hanno dimostrato potenziale nel risolvere compiti complessi e multi-step. Tuttavia, le loro architetture sofisticate amplificano la vulnerabilità a guasti a cascata, in cui un singolo errore alla radice si propaga attraverso decisioni successive, portando al fallimento del compito. I sistemi attuali mancano di un framework che possa comprendere in modo modulare e sistematico gli errori degli agenti, e quindi non riescono a rilevare questi errori in modo appropriato. Affrontiamo questa lacuna con tre contributi. In primo luogo, introduciamo l'AgentErrorTaxonomy, una classificazione modulare delle modalità di fallimento che abbraccia memoria, riflessione, pianificazione, azione e operazioni a livello di sistema. In secondo luogo, costruiamo AgentErrorBench, il primo dataset di traiettorie di fallimento annotate sistematicamente provenienti da ALFWorld, GAIA e WebShop, ancorando l'analisi degli errori a esecuzioni reali degli agenti. In terzo luogo, proponiamo AgentDebug, un framework di debug che isola i guasti alla radice e fornisce feedback correttivo, consentendo agli agenti di recuperare e migliorare in modo iterativo. Gli esperimenti su AgentErrorBench mostrano che AgentDebug raggiunge un'accuratezza totale corretta del 24% superiore e un'accuratezza per step del 17% superiore rispetto al baseline più forte. Oltre al rilevamento, il feedback mirato generato da AgentDebug consente agli agenti LLM di recuperare in modo iterativo dai fallimenti, ottenendo miglioramenti relativi fino al 26% nel successo del compito su ALFWorld, GAIA e WebShop. Questi risultati stabiliscono il debug principiato come un percorso verso agenti LLM più affidabili e adattivi. Il codice e i dati saranno disponibili su https://github.com/ulab-uiuc/AgentDebug.
Introduciamo un nuovo approccio alla distillazione di modelli linguistici di grandi dimensioni (LLM) formulandolo come un problema di apprendimento per rinforzo vincolato. Mentre lavori recenti hanno iniziato a esplorare l'integrazione di ricompense specifiche per il compito nei processi di distillazione, i metodi esistenti si basano tipicamente su ponderazioni ad hoc delle ricompense. Proponiamo un framework di ottimizzazione basato su principi che massimizza le ricompense specifiche per il compito, vincolando la divergenza dal modello insegnante a rimanere al di sotto di una soglia specificata. Il nostro approccio adatta l'apprendimento per rinforzo vincolato con aumento dello stato al contesto della distillazione, introducendo una funzione di ricompensa modificata che mantiene garanzie teoriche di soddisfazione dei vincoli senza richiedere l'aumento dello stato o l'accesso al modello insegnante durante il deployment, e senza il sovraccarico computazionale dei metodi Lagrangiani duali. Attraverso esperimenti estesi su compiti di ragionamento matematico, dimostriamo che il nostro metodo raggiunge tassi di soddisfazione dei vincoli e capacità di ragionamento migliori rispetto ai baseline con rilassamento Lagrangiano soft, mantenendo al contempo prestazioni competitive nel compito. Il nostro framework fornisce una soluzione teoricamente fondata e praticamente efficiente per la distillazione consapevole delle ricompense in contesti con risorse limitate.
I recenti progressi, come DeepSeek-R1, hanno dimostrato che l'algoritmo GRPO, un approccio di Reinforcement Learning (RL), può addestrare efficacemente il ragionamento a catena di pensieri (Chain-of-Thought, CoT) nei Large Language Models (LLMs) e nei Vision-Language Models (VLMs). In questo articolo, analizziamo tre sfide di GRPO: l'accoppiamento dei gradienti tra pensieri e risposte, i segnali di ricompensa sparsi causati dal campionamento parallelo limitato e la stima instabile del vantaggio. Per mitigare queste sfide, proponiamo GRPO-MA, un metodo semplice ma teoricamente fondato che sfrutta la generazione di più risposte da ciascun processo di pensiero, consentendo un'ottimizzazione più robusta ed efficiente. Teoricamente, dimostriamo che la varianza del vantaggio del pensiero diminuisce all'aumentare del numero di risposte per pensiero. Empiricamente, la nostra analisi dei gradienti conferma questo effetto, mostrando che GRPO-MA riduce i picchi di gradiente rispetto a GRPO. Esperimenti su compiti di matematica, codice e compiti multimodali eterogenei dimostrano che GRPO-MA migliora sostanzialmente le prestazioni e l'efficienza dell'addestramento. I nostri studi di ablazione rivelano inoltre che aumentare il numero di risposte per pensiero migliora costantemente le prestazioni del modello.
I recenti modelli linguistici di ragionamento (RLM), in particolare quelli addestrati con apprendimento per rinforzo basato su verificatori, spesso performano peggio con il ragionamento a catena (CoT) few-shot rispetto alle risposte dirette. Esploriamo questo paradosso utilizzando tracce di ragionamento di alta qualità da DeepSeek-R1 come dimostrazioni e scopriamo che aggiungere più esempi degrada costantemente l'accuratezza, anche quando le dimostrazioni sono ottimali. Un'analisi dettagliata rivela due meccanismi alla base di questo declino: (i) l'errata guida semantica, dove un'elevata somiglianza testuale porta il modello a trattare il target come identico all'esempio e a copiare i passaggi intermedi alla lettera; e (ii) il fallimento del trasferimento della strategia, dove il modello fatica a estrarre strategie di ragionamento utili e ad applicarle alle domande target. Guidati da questi risultati, introduciamo Insight-to-Solve (I2S), una procedura sequenziale in fase di test che trasforma le dimostrazioni in intuizioni esplicite e riutilizzabili e deriva una traccia di ragionamento specifica per il target; opzionalmente, il ragionamento viene auto-affinato per coerenza e correttezza (I2S+). Esperimenti estesi su benchmark diversificati mostrano che I2S e I2S+ superano costantemente sia le risposte dirette che i baseline di scalabilità in fase di test, sia per modelli open-source che closed-source. Anche per i modelli GPT, il nostro metodo è utile: su AIME'25, GPT-4.1 migliora del +14,0%, e o1-mini migliora del +2,7% su AIME e del +1,7% su GPQA, indicando che le dimostrazioni in-context possono essere sfruttate efficacemente tramite il framework insight-refine-solve.
La Generazione Aumentata dal Recupero (RAG) mira a mitigare le allucinazioni nei grandi modelli linguistici (LLM) basando le risposte su documenti recuperati. Tuttavia, i LLM basati su RAG continuano a produrre allucinazioni anche quando viene fornito un contesto corretto e sufficiente. Una crescente linea di ricerca suggerisce che ciò derivi da uno squilibrio tra il modo in cui i modelli utilizzano il contesto esterno e la loro conoscenza interna, e diversi approcci hanno tentato di quantificare questi segnali per il rilevamento delle allucinazioni. Tuttavia, i metodi esistenti richiedono un'ampia ottimizzazione degli iperparametri, limitandone la generalizzabilità. Proponiamo LUMINA, un nuovo framework che rileva le allucinazioni nei sistemi RAG attraverso segnali contesto-conoscenza: l'utilizzo del contesto esterno viene quantificato tramite distanza distributiva, mentre l'utilizzo della conoscenza interna viene misurato monitorando come i token previsti si evolvono attraverso i livelli del trasformatore. Introduciamo inoltre un framework per la validazione statistica di queste misurazioni. Esperimenti su benchmark comuni di allucinazioni RAG e su quattro LLM open-source dimostrano che LUMINA raggiunge punteggi AUROC e AUPRC costantemente elevati, superando i metodi basati sull'utilizzo precedenti fino a +13% AUROC su HalluRAG. Inoltre, LUMINA rimane robusto in condizioni di ipotesi rilassate sulla qualità del recupero e sulla corrispondenza del modello, offrendo sia efficacia che praticità.
Le architetture predittive di incorporamento congiunto per video (V-JEPA) apprendono rappresentazioni video generalizzabili e pronte all'uso prevedendo regioni mascherate nello spazio latente con un insegnante aggiornato tramite media mobile esponenziale (EMA). Sebbene l'EMA prevenga il collasso della rappresentazione, complica la selezione scalabile del modello e accoppia le architetture dell'insegnante e dello studente. Riconsideriamo la predizione nello spazio latente mascherato e dimostriamo che un insegnante congelato è sufficiente. Nello specifico, (i) addestriamo un encoder target con un semplice obiettivo di ricostruzione dei pixel sotto il mascheramento V-JEPA, quindi (ii) lo congeliamo e addestriamo uno studente a prevedere i latenti dell'insegnante sulle regioni mascherate. Questo porta a uno schema in due fasi e non regolarizzato che chiamiamo SALT (Static-teacher Asymmetric Latent Training). SALT disaccoppia l'ottimizzazione in ricostruzione dei pixel (insegnante) e predizione dei latenti mascherati (studente), aumentando trasparenza, efficienza e scalabilità preservando la capacità della rappresentazione di generalizzare sotto valutazione congelata. Empiricamente, i nostri modelli studente superano i recenti encoder V-JEPA 2 sotto valutazione con backbone congelato su diversi benchmark. Sono anche più ottimali in termini di calcolo: a parità di FLOP di pre-addestramento, il nostro metodo raggiunge una maggiore accuratezza di probing, e le sue curve di scalabilità dominano la frontiera Pareto accuratezza-FLOP di V-JEPA. Infine, scopriamo che la qualità dello studente è notevolmente robusta rispetto alla qualità dell'insegnante: studenti ad alte prestazioni emergono anche con insegnanti piccoli e sub-ottimali. Questo suggerisce un'allocazione del budget computazionale che dovrebbe favorire in modo schiacciante lo studente. Questi risultati posizionano SALT come un'alternativa semplice, scalabile e computazionalmente efficiente all'auto-distillazione basata su EMA per l'apprendimento di rappresentazioni video.
Il fine-tuning di modelli linguistici pre-addestrati di grandi dimensioni (LLM) per task specifici rappresenta una fase cruciale nel processo di implementazione dell'IA. Il reinforcement learning (RL) è senza dubbio il metodo di fine-tuning più prominente, avendo contribuito alla nascita di numerosi LLM all'avanguardia. Al contrario, le strategie evolutive (ES), che in passato hanno dimostrato prestazioni comparabili al RL su modelli con pochi milioni di parametri, sono state trascurate a causa di una percezione pessimistica riguardo alla loro scalabilità su modelli più grandi. In questo lavoro, riportiamo il primo tentativo riuscito di scalare le ES per il fine-tuning completo dei parametri degli LLM, dimostrando il fatto sorprendente che le ES possono effettuare ricerche efficienti su miliardi di parametri e superare i metodi di fine-tuning basati su RL in molteplici aspetti, tra cui l'efficienza campionaria, la tolleranza a ricompense a lungo termine, la robustezza rispetto a diversi LLM di base, una minore propensione al reward hacking e prestazioni più stabili tra diverse esecuzioni. Questo lavoro rappresenta quindi una base per aprire una nuova direzione nel fine-tuning degli LLM, andando oltre ciò che le attuali tecniche di RL offrono. I codici sorgenti sono disponibili al seguente indirizzo: https://github.com/VsonicV/es-fine-tuning-paper.
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più applicati al ragionamento scientifico, la complessità dei formati delle risposte e la diversità delle espressioni equivalenti rendono la verifica delle risposte un compito cruciale ma impegnativo. Gli studi esistenti sulla verifica nei domini scientifici presentano due principali limitazioni: (a) l'assenza di standard di valutazione sistematici e una copertura disciplinare insufficiente, che ostacolano una valutazione completa; e (b) una forte dipendenza da progettazioni di regole complesse o ingegneria dei prompt, che riduce la loro efficacia in scenari di ragionamento complesso o limita la loro generalizzazione interdisciplinare. Per affrontare queste sfide, proponiamo soluzioni sia a livello di dati che di modello. Sul lato dei dati, costruiamo SCI-VerifyBench, un benchmark interdisciplinare che copre matematica, fisica, biologia, chimica e domande scientifiche generali. Il benchmark è costruito a partire da risposte reali di LLM e arricchito con trasformazioni di equivalenza specifiche per dominio che generano dati impegnativi e realistici. Annotazioni basate su modelli e esperti garantiscono sia la qualità che la diversità, consentendo una valutazione rigorosa delle capacità di verifica. Sul lato del modello, sottolineiamo l'importanza del ragionamento per la verifica e introduciamo SCI-Verifier, un verificatore unificato potenziato dal ragionamento per i domini scientifici. Attraverso il post-addestramento, SCI-Verifier dimostra forti capacità di ragionamento logico e giudizio di equivalenza, mantenendo al contempo output concisi e stabili. Insieme, SCI-VerifyBench e SCI-Verifier forniscono un framework strutturato per la verifica scientifica, offrendo sia una valutazione sistematica che percorsi pratici per migliorare l'affidabilità e l'applicabilità degli LLM nei domini scientifici.
Il feedback umano svolge un ruolo fondamentale nell'allineamento dei grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, tale feedback è spesso rumoroso o incoerente, il che può degradare la qualità dei modelli di ricompensa e ostacolare l'allineamento. Sebbene siano stati proposti vari metodi automatizzati di pulizia dei dati per mitigare questo problema, manca ancora una valutazione sistematica della loro efficacia e generalizzabilità. Per colmare questa lacuna, introduciamo il primo benchmark completo per valutare 13 metodi di pulizia dei dati di preferenza nel contesto dell'allineamento dei LLM. PrefCleanBench offre un protocollo standardizzato per valutare le strategie di pulizia in termini di prestazioni di allineamento e generalizzabilità su diversi dataset, architetture di modelli e algoritmi di ottimizzazione. Unificando metodi disparati e confrontandoli rigorosamente, scopriamo i fattori chiave che determinano il successo della pulizia dei dati nei compiti di allineamento. Questo benchmark getta le basi per approcci principiati e riproducibili al miglioramento dell'allineamento dei LLM attraverso una migliore qualità dei dati, evidenziando il ruolo cruciale ma poco esplorato della pre-elaborazione dei dati nello sviluppo responsabile dell'IA. Rilasciamo implementazioni modulari di tutti i metodi per catalizzare ulteriori ricerche: https://github.com/deeplearning-wisc/PrefCleanBench.
I modelli linguistici a diffusione mascherata (MDLM) sono emersi recentemente come una valida alternativa ai modelli linguistici autoregressivi (AR), offrendo proprietà come la decodifica parallela, ordini di generazione flessibili e il potenziale per un minor numero di passaggi di inferenza. Nonostante questi vantaggi, le strategie di decodifica e gli algoritmi di apprendimento per rinforzo (RL) specifici per gli MDLM rimangono poco esplorati. Un approccio ingenuo consiste nel trasferire direttamente tecniche ben consolidate per i modelli AR agli MDLM. Tuttavia, ciò solleva una domanda immediata: un tale trasferimento ingenuo è davvero ottimale? Ad esempio, 1) le strategie di decodifica a blocchi e semi-AR non vengono utilizzate durante l'addestramento degli MDLM, quindi perché superano la decodifica in stile diffusione completa durante l'inferenza? 2) L'applicazione diretta degli algoritmi RL progettati per i modelli AR agli MDLM mostra un'incongruenza tra addestramento e inferenza, poiché la decodifica degli MDLM è non-causale (parallela). Ciò si traduce in incongruenze tra la traiettoria di rollout e la traiettoria di ottimizzazione. Per affrontare queste sfide, proponiamo il meccanismo di Early Rejection di EOS (EOSER) e lo scheduler di decodifica Ascending Step-Size (ASS), che sbloccano il potenziale degli MDLM di eseguire una decodifica in stile diffusione completa, raggiungendo prestazioni competitive con un minor numero di passaggi di decodifica. Inoltre, introduciamo l'ottimizzazione della politica relativa per gruppi di traiettorie di consistenza (CJ-GRPO) per addestrare gli MDLM, che enfatizza la coerenza tra la traiettoria di rollout e la traiettoria di ottimizzazione, riducendo gli errori di ottimizzazione causati dall'ottimizzazione a passi saltati. Abbiamo condotto esperimenti estesi su compiti di ragionamento, come benchmark matematici e di pianificazione, utilizzando LLaDA-8B-Instruct. I risultati dimostrano che i meccanismi proposti EOSER e ASS, insieme a CJ-GRPO, mostrano un potenziale significativo per addestrare efficacemente ed efficientemente gli MDLM. Codice: https://github.com/yjyddq/EOSER-ASS-RL.
Presentiamo DafnyCOMP, un benchmark per valutare i modelli linguistici di grandi dimensioni (LLM) nella generazione di specifiche composizionali in Dafny. A differenza dei benchmark precedenti che si concentrano su compiti a singola funzione, DafnyCOMP si rivolge a programmi composti da più funzioni interagenti con dipendenze dati, richiedendo un ragionamento che attraversi i confini dei componenti. Il benchmark è costituito da 300 programmi multi-funzione sintetizzati automaticamente. Valutiamo diverse famiglie di LLM all'avanguardia e riscontriamo che, sebbene performino bene nella verifica a singola funzione, le loro prestazioni calano drasticamente nei compiti composizionali. L'analisi rivela fallimenti sistematici nel ragionamento cross-funzionale, tra cui specifiche fragili, disallineamenti tra implementazioni e dimostrazioni, e ragionamenti instabili. DafnyCOMP fornisce quindi uno strumento diagnostico per misurare i progressi verso una generazione di codice affidabile, verificabile e composizionale con gli LLM.
I modelli linguistici visivi (VLMs) possono affrontare in modo flessibile vari compiti visivi attraverso interazioni testuali. Sebbene abbiano successo nella comprensione semantica, i VLMs all'avanguardia, incluso GPT-5, faticano ancora a comprendere la tridimensionalità a partire da input bidimensionali. D'altra parte, i modelli visivi puri esperti raggiungono un'accuratezza sovrumana nella stima della profondità metrica, un compito chiave per la comprensione 3D. Tuttavia, richiedono architetture e funzioni di perdita specifiche per il compito. Tale differenza ci spinge a chiedere: i VLMs possono raggiungere un'accuratezza di livello esperto senza modifiche all'architettura o alla funzione di perdita? Prendiamo la stima della profondità metrica per pixel come compito rappresentativo e dimostriamo che la risposta è sì! Sorprendentemente, un'analisi completa mostra che il fine-tuning supervisionato basato su testo con etichette sparse è sufficiente affinché i VLMs sblocchino una forte comprensione 3D, senza bisogno di una testa di previsione densa o di complesse funzioni di perdita di regressione/regolarizzazione. Il collo di bottiglia per i VLMs risiede in realtà nel riferimento ai pixel e nell'ambiguità della fotocamera tra dataset, che affrontiamo attraverso prompt visivi e aumentazione condizionata intrinseca. Con modelli molto più piccoli, il nostro metodo DepthLM supera l'accuratezza della maggior parte dei VLMs avanzati di oltre 2 volte, rendendo per la prima volta i VLMs comparabili ai modelli visivi puri. Interessante notare che, senza un'imposizione esplicita durante l'addestramento, i VLMs addestrati con DepthLM evitano naturalmente l'eccessiva levigatezza, presentando molti meno punti volanti nelle regioni di confine rispetto ai modelli visivi puri. La semplicità di DepthLM consente inoltre a un singolo VLM di coprire vari compiti 3D oltre alla profondità metrica. Il nostro codice e modello saranno rilasciati al link sottostante.
La generazione di immagini multi-soggetto mira a sintetizzare i soggetti forniti dall'utente in un'unica immagine, preservando la fedeltà dei soggetti, garantendo la coerenza con il prompt e allineandosi alle preferenze estetiche umane. Tuttavia, i metodi esistenti, in particolare quelli basati sul paradigma dell'In-Context-Learning, sono limitati dalla loro dipendenza da obiettivi semplici basati sulla ricostruzione, portando sia a una grave dispersione di attributi che compromette la fedeltà dei soggetti, sia a un mancato allineamento con le preferenze umane più sfumate. Per affrontare questo problema, proponiamo MultiCrafter, un framework che garantisce una generazione ad alta fedeltà e allineata alle preferenze. In primo luogo, scopriamo che la causa principale della dispersione di attributi è un significativo intreccio dell'attenzione tra diversi soggetti durante il processo di generazione. Pertanto, introduciamo una supervisione posizionale esplicita per separare chiaramente le regioni di attenzione per ciascun soggetto, mitigando efficacemente la dispersione di attributi. Per consentire al modello di pianificare accuratamente la regione di attenzione di diversi soggetti in scenari diversi, utilizziamo un'architettura Mixture-of-Experts per migliorare la capacità del modello, permettendo a diversi esperti di concentrarsi su scenari differenti. Infine, progettiamo un innovativo framework di apprendimento per rinforzo online per allineare il modello alle preferenze umane, caratterizzato da un meccanismo di punteggio per valutare accuratamente la fedeltà multi-soggetto e da una strategia di addestramento più stabile adattata all'architettura MoE. Gli esperimenti convalidano che il nostro framework migliora significativamente la fedeltà dei soggetti, allineandosi meglio alle preferenze umane.
I modelli di diffusione testo-immagine esistenti eccellono nella generazione di immagini di alta qualità, ma affrontano significative sfide di efficienza quando vengono scalati a risoluzioni elevate, come la generazione di immagini 4K. Sebbene ricerche precedenti abbiano accelerato i modelli di diffusione in vari aspetti, raramente hanno affrontato la ridondanza intrinseca all'interno dello spazio latente. Per colmare questa lacuna, questo articolo introduce DC-Gen, un framework generale che accelera i modelli di diffusione testo-immagine sfruttando uno spazio latente profondamente compresso. Invece di un approccio costoso di addestramento da zero, DC-Gen utilizza una pipeline efficiente post-addestramento per preservare la qualità del modello di base. Una sfida chiave in questo paradigma è il divario di rappresentazione tra lo spazio latente del modello di base e uno spazio latente profondamente compresso, che può portare a instabilità durante la messa a punto diretta. Per superare questo problema, DC-Gen colma prima il divario di rappresentazione con un addestramento leggero di allineamento degli embedding. Una volta allineati gli embedding latenti, è necessaria solo una piccola quantità di messa a punto LoRA per sbloccare la qualità intrinseca di generazione del modello di base. Verifichiamo l'efficacia di DC-Gen su SANA e FLUX.1-Krea. I modelli risultanti DC-Gen-SANA e DC-Gen-FLUX raggiungono una qualità comparabile ai loro modelli di base, ma con un significativo aumento di velocità. In particolare, DC-Gen-FLUX riduce la latenza della generazione di immagini 4K di 53x sulla GPU NVIDIA H100. Quando combinato con NVFP4 SVDQuant, DC-Gen-FLUX genera un'immagine 4K in soli 3,5 secondi su una singola GPU NVIDIA 5090, ottenendo una riduzione totale della latenza di 138x rispetto al modello di base FLUX.1-Krea. Codice: https://github.com/dc-ai-projects/DC-Gen.
I LLM potenziati con la ricerca spesso incontrano difficoltà nei compiti di ragionamento complesso a causa di un recupero multi-hop inefficace e di una capacità di ragionamento limitata. Proponiamo AceSearcher, un framework di gioco cooperativo che addestra un singolo modello linguistico di grandi dimensioni (LLM) ad alternarsi tra due ruoli: un decompositore che scompone query complesse e un risolutore che integra contesti recuperati per la generazione di risposte. AceSearcher combina un fine-tuning supervisionato su un mix diversificato di compiti di ricerca, ragionamento e decomposizione con un fine-tuning basato sul rinforzo ottimizzato per l'accuratezza delle risposte finali, eliminando la necessità di annotazioni intermedie. Esperimenti estesi su tre compiti intensivi di ragionamento su 10 dataset dimostrano che AceSearcher supera i baseline all'avanguardia, ottenendo un miglioramento medio dell'exact match del 7,6%. In modo notevole, nei compiti di ragionamento finanziario a livello di documento, AceSearcher-32B eguaglia le prestazioni del modello DeepSeek-V3 utilizzando meno del 5% dei suoi parametri. Anche su scale più ridotte (1,5B e 8B), AceSearcher spesso supera i LLM potenziati con la ricerca esistenti con fino a 9 volte più parametri, evidenziando la sua eccezionale efficienza ed efficacia nell'affrontare compiti di ragionamento complessi. Il nostro codice sarà pubblicato su https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.
I modelli autoregressivi (AR) si dimostrano promettenti per la generazione di immagini, tuttavia le varianti AR a token continui spesso rimangono indietro rispetto ai modelli di diffusione latente e di generazione mascherata. Il problema principale risiede nella varianza eterogenea nei latenti dei VAE, che viene amplificata durante la decodifica AR, specialmente sotto la guida senza classificatore (CFG), e può causare un collasso della varianza. Proponiamo SphereAR per affrontare questo problema. Il suo design centrale consiste nel vincolare tutti gli input e output AR — inclusi quelli dopo la CFG — a giacere su una ipersfera a raggio fisso (norma ell_2 costante), sfruttando i VAE ipersferici. La nostra analisi teorica dimostra che il vincolo ipersferico rimuove la componente di scala (la causa principale del collasso della varianza), stabilizzando così la decodifica AR. Empiricamente, nella generazione su ImageNet, SphereAR-H (943M) stabilisce un nuovo stato dell'arte per i modelli AR, raggiungendo un FID di 1.34. Anche a scale più ridotte, SphereAR-L (479M) raggiunge un FID di 1.54 e SphereAR-B (208M) arriva a 1.92, eguagliando o superando baseline molto più grandi come MAR-H (943M, 1.55) e VAR-d30 (2B, 1.92). Per quanto ne sappiamo, questa è la prima volta che un generatore di immagini AR puro a token successivi con ordine raster supera i modelli di diffusione e generazione mascherata a scale di parametri comparabili.
La comprensione di video lunghi rimane una sfida per i recenti Modelli Video-Linguaggio di Grande Dimensione (LVLM) a causa del conflitto tra la comprensione temporale di lungo formato e la percezione spaziale dettagliata. Gli LVLM con un meccanismo di campionamento uniforme dei fotogrammi, che campiona fotogrammi con una dimensione uguale e una frequenza di campionamento fissa, sacrificano inevitabilmente o gli indizi temporali o i dettagli spaziali, portando a soluzioni subottimali. Per mitigare questo dilemma, proponiamo LOVE-R1, un modello in grado di ingrandire adattivamente un clip video. Il modello viene prima fornito con fotogrammi campionati densamente ma in una risoluzione ridotta. Se sono necessari alcuni dettagli spaziali, il modello può ingrandire un clip di interesse con una risoluzione dei fotogrammi maggiore basandosi sul suo ragionamento fino a ottenere le informazioni visive chiave. L'intero processo è implementato come un processo di ragionamento a più passi. Per addestrare la capacità di ragionamento, prima ottimizziamo il modello sui nostri 38k dati CoT di alta qualità raccolti e lo potenziamo con un fine-tuning di rinforzo disaccoppiato. Poiché le ricompense finali non possono fornire una supervisione fine del processo, disaccoppiamo il ragionamento a più passi in più ragionamenti a singolo passo e ottimizziamo esplicitamente la capacità interna di ingrandimento. Gli esperimenti sui benchmark di comprensione di video lunghi mostrano che il nostro modello con il meccanismo di campionamento adattivo lento-veloce dei fotogrammi raggiunge un ottimo compromesso tra densità di campionamento e risoluzioni dei fotogrammi, e LOVE-R1 supera la nostra baseline Qwen2.5-VL di una media del 3,1% su 4 comuni benchmark di comprensione di video lunghi.
L'ottimizzazione delle preferenze è cruciale per allineare i grandi modelli linguistici (LLM) ai valori e alle intenzioni umane. Una sfida significativa in questo processo è il disallineamento distributivo tra i dati di preferenza raccolti offline e la politica in evoluzione del modello. I metodi esistenti cercano di ridurre questo divario utilizzando euristiche statiche o strategie di campionamento online disaccoppiate, ma spesso non riescono ad adattarsi allo stato di apprendimento dinamico del modello. Per colmare questa lacuna, proponiamo Meta-Weighted Adaptive Preference Optimization (MetaAPO), un nuovo framework che accoppia dinamicamente la generazione dei dati con l'addestramento del modello. MetaAPO impiega un meta-learner leggero, come "stimatore del divario di allineamento", per valutare i potenziali benefici del campionamento on-policy rispetto ai dati offline. Questo guida la generazione online mirata e assegna pesi meta specifici per ciascun campione all'obiettivo di ottimizzazione, bilanciando dinamicamente la qualità e la distribuzione dei dati online e offline. Gli esperimenti su AlpacaEval 2, Arena-Hard e MT-Bench dimostrano che MetaAPO supera costantemente gli approcci esistenti di ottimizzazione delle preferenze in vari contesti, riducendo del 42% i costi di annotazione online.
Il compito di conversione da pagina web a codice richiede ai modelli di comprendere le rappresentazioni visive delle pagine web e generare il codice corrispondente. Tuttavia, i benchmark esistenti si concentrano principalmente su compiti statici di conversione da screenshot a codice, trascurando così le interazioni dinamiche fondamentali per le applicazioni web del mondo reale. Per affrontare questa limitazione, questo articolo introduce IWR-Bench, un nuovo benchmark per valutare le capacità dei Large Vision-Language Models (LVLM) nella ricostruzione interattiva di pagine web da video. IWR-Bench comprende 113 task accuratamente selezionati da 100 siti web reali, con 1.001 azioni e caratterizzati da diverse complessità di interazione (ad esempio, giochi web), stili visivi e domini. In linea con le pratiche standard di sviluppo web, ogni task include non solo video di interazione utente ma anche tutte le risorse statiche raccolte (ad esempio, immagini, video). Questo benchmark valuta i modelli su due sfide fondamentali: il ragionamento multi-modale completo per dedurre la logica di interazione da video e risorse, e la generazione avanzata di codice per tradurre questa logica in codice funzionale. Un framework agent-as-a-judge con un sistema metrico completo valuta automaticamente la correttezza funzionale e la fedeltà visiva delle pagine web generate. Esperimenti estesi su 28 LVLM rivelano una sfida significativa: il miglior modello raggiunge un punteggio complessivo di solo il 36,35%, poiché la correttezza funzionale (24,39% IFS) è significativamente inferiore alla fedeltà visiva (64,25% VFS). Questi risultati evidenziano limitazioni critiche nella capacità dei modelli attuali di ragionare sulle dinamiche temporali e sintetizzare logiche guidate da eventi, stabilendo IWR-Bench come una frontiera impegnativa per la ricerca vision-language. Il benchmark e il codice di valutazione saranno resi pubblicamente disponibili. Il codice è disponibile all'indirizzo https://github.com/L-O-I/IWR-Bench.
Il Reinforcement Learning (RL) è emerso come un paradigma centrale per il progresso dei Large Language Models (LLMs), dove il pre-training e il post-training con RL condividono la stessa formulazione di log-verosimiglianza. Al contrario, i recenti approcci RL per i modelli di diffusione, in particolare il Denoising Diffusion Policy Optimization (DDPO), ottimizzano un obiettivo diverso da quelli del pre-training—la perdita di score/flow matching. In questo lavoro, stabiliamo una nuova analisi teorica: il DDPO è una forma implicita di score/flow matching con target rumorosi, il che aumenta la varianza e rallenta la convergenza. Basandoci su questa analisi, introduciamo l'Advantage Weighted Matching (AWM), un metodo di policy-gradient per la diffusione. Esso utilizza la stessa perdita di score/flow matching del pre-training per ottenere un obiettivo a varianza ridotta e ripesca ogni campione in base al suo vantaggio. In pratica, l'AWM aumenta l'influenza dei campioni ad alta ricompensa e sopprime quelli a bassa ricompensa, mantenendo l'obiettivo di modellazione identico al pre-training. Ciò unifica concettualmente e praticamente il pre-training e il RL, è coerente con la teoria del policy-gradient, riduce la varianza e produce una convergenza più rapida. Questo design semplice ma efficace offre notevoli vantaggi: sui benchmark GenEval, OCR e PickScore, l'AWM fornisce un'accelerazione fino a 24 volte rispetto al Flow-GRPO (che si basa su DDPO), quando applicato a Stable Diffusion 3.5 Medium e FLUX, senza compromettere la qualità della generazione. Il codice è disponibile all'indirizzo https://github.com/scxue/advantage_weighted_matching.
Le immagini strutturate (ad esempio grafici e diagrammi geometrici) rimangono una sfida per i modelli linguistici multimodali di grandi dimensioni (MLLM), poiché errori percettivi possono portare a conclusioni errate. Indizi visivi intermedi possono guidare il ragionamento; tuttavia, i metodi esistenti basati su indizi sono limitati da un'elaborazione delle immagini a bassa fedeltà e da schemi di ragionamento lineari e rigidi, riducendo la loro efficacia su compiti complessi che coinvolgono immagini strutturate. In questo articolo, proponiamo PixelCraft, un innovativo sistema multi-agente per l'elaborazione di immagini ad alta fedeltà e il ragionamento visivo flessibile su immagini strutturate. Il sistema comprende un dispatcher, un planner, un reasoner, dei critici e un insieme di agenti strumenti visivi. Per ottenere un'elaborazione ad alta fedeltà, costruiamo un corpus di alta qualità e ottimizziamo un MLLM in un modello di grounding, le cui localizzazioni a livello di pixel sono integrate con algoritmi tradizionali di computer vision (CV) negli agenti strumento. Basandosi su queste fondamenta, PixelCraft facilita il ragionamento visivo flessibile attraverso un flusso di lavoro dinamico in tre fasi: selezione degli strumenti, discussione tra agenti e autocritica. Inoltre, a differenza dei precedenti schemi di ragionamento lineari che si limitano ad aggiungere immagini storiche, PixelCraft mantiene una memoria delle immagini, consentendo al planner di rivisitare in modo adattivo i passaggi visivi precedenti, esplorare rami di ragionamento alternativi e regolare dinamicamente la traiettoria del ragionamento durante la discussione. Esperimenti estesi su benchmark impegnativi di grafici e geometria dimostrano che PixelCraft migliora significativamente le prestazioni di ragionamento visivo per MLLM avanzati, stabilendo un nuovo standard per il ragionamento su immagini strutturate. Il nostro codice sarà disponibile all'indirizzo https://github.com/microsoft/PixelCraft.
La ricerca di agenti artificiali in grado di apprendere e padroneggiare ambienti complessi ha portato a successi notevoli, tuttavia i metodi prevalenti di apprendimento per rinforzo profondo spesso si basano su un'esperienza immensa, codificando la loro conoscenza in modo opaco all'interno dei pesi delle reti neurali. Proponiamo un paradigma diverso, in cui un agente impara a giocare ragionando e pianificando. Introduciamo Cogito, ergo ludo (CEL), una nuova architettura di agente che sfrutta un Large Language Model (LLM) per costruire una comprensione esplicita, basata sul linguaggio, delle meccaniche del suo ambiente e della propria strategia. Partendo da uno stato di tabula rasa senza conoscenze pregresse (tranne l'insieme di azioni), CEL opera in un ciclo di interazione e riflessione. Dopo ogni episodio, l'agente analizza la sua traiettoria completa per eseguire due processi di apprendimento simultanei: Induzione delle Regole, in cui affina il suo modello esplicito delle dinamiche dell'ambiente, e Sintesi della Strategia e del Playbook, in cui condensa le esperienze in un playbook strategico azionabile. Valutiamo CEL su diverse attività in ambienti a griglia (ad esempio, Minesweeper, Frozen Lake e Sokoban), e dimostriamo che l'agente CEL impara con successo a padroneggiare questi giochi scoprendo autonomamente le regole e sviluppando politiche efficaci a partire da ricompense sparse. Studi di ablazione confermano che il processo iterativo è cruciale per un apprendimento sostenuto. Il nostro lavoro dimostra una strada verso agenti più generali e interpretabili che non solo agiscono in modo efficace, ma costruiscono anche un modello trasparente e in miglioramento del loro mondo attraverso un ragionamento esplicito sull'esperienza grezza.
Il crescente utilizzo di agenti basati su modelli linguistici di grandi dimensioni (LLM) che interagiscono con ambienti esterni ha creato nuove superfici di attacco per la manipolazione avversaria. Una minaccia significativa è rappresentata dall'iniezione indiretta di prompt, in cui gli attaccanti incorporano istruzioni malevole nell'output dell'ambiente esterno, facendo sì che gli agenti le interpretino e le eseguano come se fossero prompt legittimi. Mentre la ricerca precedente si è concentrata principalmente su attacchi di iniezione in testo semplice, abbiamo identificato una vulnerabilità significativa ma poco esplorata: la dipendenza degli LLM da modelli di chat strutturati e la loro suscettibilità alla manipolazione contestuale attraverso dialoghi persuasivi a più turni. A tal fine, introduciamo ChatInject, un attacco che formatta payload malevoli per imitare i modelli di chat nativi, sfruttando così le tendenze intrinseche del modello a seguire le istruzioni. Basandoci su questo fondamento, sviluppiamo una variante Multi-turn guidata dalla persuasione che prepara l'agente attraverso turni conversazionali ad accettare ed eseguire azioni altrimenti sospette. Attraverso esperimenti completi su LLM all'avanguardia, dimostriamo tre risultati critici: (1) ChatInject raggiunge tassi di successo medi significativamente più elevati rispetto ai tradizionali metodi di iniezione di prompt, passando dal 5,18% al 32,05% su AgentDojo e dal 15,13% al 45,90% su InjecAgent, con dialoghi a più turni che mostrano prestazioni particolarmente forti con un tasso di successo medio del 52,33% su InjecAgent, (2) i payload basati su modelli di chat dimostrano una forte trasferibilità tra i modelli e rimangono efficaci anche contro LLM closed-source, nonostante le loro strutture di template sconosciute, e (3) le difese esistenti basate sui prompt sono largamente inefficaci contro questo approccio di attacco, specialmente contro le varianti Multi-turn. Questi risultati evidenziano vulnerabilità nei sistemi di agenti attuali.
I grandi modelli linguistici (LLM) hanno dimostrato un'efficacia crescente nei compiti di Text-to-SQL. Tuttavia, un altro problema strettamente correlato, la traduzione Cross-System SQL (nota anche come SQL-to-SQL), che adatta una query scritta per un sistema di database (ad esempio, MySQL) nella sua equivalente per un altro sistema (ad esempio, ClickHouse), è di grande importanza pratica ma rimane poco esplorato. Gli attuali benchmark SQL non sono adatti per la valutazione SQL-to-SQL, poiché (1) si concentrano su un insieme limitato di sistemi di database (spesso solo SQLite) e (2) non possono catturare molti dialetti SQL specifici del sistema (ad esempio, funzioni personalizzate, tipi di dati e regole sintattiche). Pertanto, in questo articolo, introduciamo PARROT, un benchmark pratico e realistico per la traduzione Cross-System SQL. PARROT comprende 598 coppie di traduzioni provenienti da 38 benchmark open-source e servizi aziendali reali, specificamente preparati per mettere alla prova la comprensione SQL specifica del sistema (ad esempio, gli LLM raggiungono una precisione media inferiore al 38,53%). Forniamo anche diverse varianti del benchmark, tra cui PARROT-Diverse con 28.003 traduzioni (per test sintattici estesi) e PARROT-Simple con 5.306 campioni rappresentativi (per test di stress mirati), coprendo 22 sistemi di database di livello produttivo. Per promuovere la ricerca futura, rilasciamo una classifica pubblica e il codice sorgente all'indirizzo: https://code4db.github.io/parrot-bench/.
Questo articolo presenta MathBode, un diagnostico dinamico per il ragionamento matematico nei grandi modelli linguistici (LLM). Invece di basarsi sull'accuratezza one-shot, MathBode tratta ogni problema parametrico come un sistema: moduliamo un singolo parametro in modo sinusoidale e adattiamo le risposte della prima armonica delle uscite del modello e delle soluzioni esatte. Questo produce metriche interpretabili e risolte in frequenza -- guadagno (tracciamento dell'ampiezza) e fase (ritardo) -- che formano impronte digitali in stile Bode. Attraverso cinque famiglie di problemi a forma chiusa (risoluzione lineare, rapporto/saturazione, interesse composto, sistemi lineari 2x2, triangoli simili), il diagnostico rivela un comportamento sistematico di tipo passa-basso e un crescente ritardo di fase che l'accuratezza da sola nasconde. Confrontiamo diversi modelli con una baseline simbolica che calibra lo strumento (G ≈ 1, φ ≈ 0). I risultati distinguono i modelli all'avanguardia da quelli di fascia media in termini di dinamica, fornendo un protocollo compatto e riproducibile che integra i benchmark standard con misurazioni operative della fedeltà e della coerenza del ragionamento. Rendiamo disponibili open-source il dataset e il codice per favorire ulteriori ricerche e adozioni.
La modellazione video unificata che combina capacità di generazione e comprensione è sempre più importante, ma affronta due sfide chiave: mantenere la fedeltà semantica durante la generazione basata sul flusso a causa dello squilibrio tra token testuali e visivi e le limitazioni dell'attenzione cross-modale uniforme lungo la traiettoria del flusso, e estendere in modo efficiente i modelli linguistici multimodali (MLLM) centrati sulle immagini al video senza costosi riaddestramenti. Presentiamo UniVid, un'architettura unificata che accoppia un MLLM con un decoder di diffusione attraverso un adattatore leggero, abilitando sia la comprensione che la generazione video. Introduciamo l'Allineamento Modale della Temperatura per migliorare l'aderenza ai prompt e la Riflessione a Piramide per un ragionamento temporale efficiente tramite la selezione dinamica di fotogrammi chiave. Esperimenti estesi su benchmark standard dimostrano prestazioni all'avanguardia, con un miglioramento del 2,2% sul punteggio totale di VBench-Long rispetto a EasyAnimateV5.1, e guadagni di accuratezza dell'1,0% e del 3,3% rispettivamente su MSVD-QA e ActivityNet-QA, rispetto ai migliori baseline precedenti da 7B.
I Large Reasoning Models (LRM) hanno dimostrato capacità notevoli nella risoluzione di problemi complessi attraverso il ragionamento a catena di pensiero (Chain-of-Thought, CoT). Tuttavia, la natura multi-step del CoT introduce nuove sfide in termini di sicurezza che vanno oltre l'allineamento convenzionale dei modelli linguistici. Identifichiamo una modalità di fallimento nei metodi attuali di regolazione della sicurezza del CoT: l'effetto valanga, in cui piccole deviazioni nel ragionamento si amplificano progressivamente durante il processo di pensiero, portando a una conformità dannosa o a un rifiuto eccessivo. Questo effetto deriva dal fatto che i modelli vengono addestrati a imitare script di ragionamento perfetti senza imparare a correggersi autonomamente. Per affrontare questa limitazione, proponiamo AdvChain, un paradigma di allineamento che insegna ai modelli l'autocorrezione dinamica attraverso una regolazione avversaria del CoT. Il nostro metodo prevede la costruzione di un dataset contenente campioni di Tentazione-Correzione e Esitazione-Correzione, in cui i modelli imparano a recuperare da derive dannose nel ragionamento e da cautele non necessarie. Esperimenti estesi dimostrano che AdvChain migliora significativamente la robustezza contro attacchi di jailbreak e dirottamento del CoT, riducendo sostanzialmente il rifiuto eccessivo su prompt benigni e raggiungendo un equilibrio superiore tra sicurezza e utilità senza compromettere le capacità di ragionamento. Il nostro lavoro stabilisce una nuova direzione per la costruzione di modelli di ragionamento più robusti e affidabili.
Il rapido progresso dei Modelli Multimodali di Grande Scala (LMMs) e degli agenti di intelligenza artificiale basati su cloud sta trasformando la collaborazione uomo-AI in un'interazione bidirezionale e multimodale. Tuttavia, i codec esistenti rimangono ottimizzati per una comunicazione unimodale e unidirezionale, risultando in una degradazione ripetuta all'interno delle tradizionali pipeline di compressione-trasmissione-ricostruzione. Per affrontare questa limitazione, proponiamo UniMIC, un framework di Codifica Interattiva Multimodale Unificata basato su token che collega dispositivi edge e agenti AI cloud. Invece di trasmettere pixel grezzi o testo semplice, UniMIC utilizza rappresentazioni tokenizzate compatte come mezzo di comunicazione, consentendo una trasmissione efficiente a basso bitrate mantenendo la compatibilità con i LMMs. Per migliorare ulteriormente la compressione, modelli di entropia leggeri basati su Transformer con design specifici per lo scenario—generico, mascherato e condizionato al testo—riducono efficacemente la ridondanza inter-token. Esperimenti estesi sulla generazione di immagini da testo, inpainting guidato da testo, outpainting e risposte a domande visive dimostrano che UniMIC ottiene risparmi sostanziali di bitrate e rimane robusto anche a bitrate ultra-bassi (<0.05bpp), senza compromettere le prestazioni delle attività downstream. Questi risultati stabiliscono UniMIC come un paradigma pratico e lungimirante per la comunicazione interattiva multimodale di prossima generazione.
La scalabilità ha guidato i recenti progressi nella modellazione generativa, ma i suoi principi rimangono poco esplorati nell'apprendimento avversario. Investigiamo la scalabilità delle Generative Adversarial Networks (GANs) attraverso due scelte progettuali che si sono dimostrate efficaci in altri tipi di modelli generativi: l'addestramento in uno spazio latente compatto di un Variational Autoencoder e l'adozione di generatori e discriminatori basati esclusivamente su trasformatori. L'addestramento nello spazio latente consente un calcolo efficiente preservando la fedeltà percettiva, e questa efficienza si combina naturalmente con i trasformatori semplici, le cui prestazioni scalano con il budget computazionale. Basandoci su queste scelte, analizziamo i modi di fallimento che emergono quando si scala ingenuamente le GANs. In particolare, riscontriamo problemi come il sottoutilizzo degli strati iniziali nel generatore e l'instabilità di ottimizzazione man mano che la rete scala. Di conseguenza, forniamo soluzioni semplici e adatte alla scala, come una supervisione intermedia leggera e un aggiustamento del tasso di apprendimento basato sulla larghezza. I nostri esperimenti mostrano che GAT, una GAN basata esclusivamente su trasformatori e operante nello spazio latente, può essere addestrata in modo affidabile e facile su un'ampia gamma di capacità (da S a XL). Inoltre, GAT-XL/2 raggiunge prestazioni all'avanguardia nella generazione condizionata a classe in un singolo passo (FID di 2.96) su ImageNet-256 in soli 40 epoche, 6 volte meno epoche rispetto ai forti baseline.
La navigazione guidata dal linguaggio orientata agli obiettivi richiede capacità di esplorazione robuste affinché gli agenti possano raggiungere obiettivi specifici in ambienti sconosciuti senza istruzioni passo-passo. I metodi esistenti tendono a utilizzare esclusivamente traiettorie a percorso più breve, mancando di priorità di esplorazione efficaci per l'addestramento degli agenti di navigazione. Per affrontare queste sfide, presentiamo SID, un approccio di apprendimento per la navigazione guidata dal linguaggio orientata agli obiettivi con Dimostrazioni di Auto-Miglioramento. Nello specifico, SID addestra un agente iniziale sui dati a percorso più breve campionati dagli ambienti e poi sfrutta questo agente per generare nuove traiettorie di esplorazione. Queste nuove esecuzioni forniscono dimostrazioni con strategie di esplorazione più forti per addestrare un agente migliore, che a sua volta produce dimostrazioni di qualità superiore per il ciclo di addestramento successivo. Dimostriamo che questa pipeline iterativa di auto-miglioramento si adatta facilmente a nuovi ambienti e che le dimostrazioni risultanti possono essere trasferite a una varietà di compiti di navigazione guidata dal linguaggio, elevando il limite di prestazioni in diverse attività di navigazione orientata agli obiettivi. Esperimenti estensivi dimostrano che SID migliora significativamente le capacità di esplorazione e la generalizzazione degli agenti di navigazione. L'agente risultante raggiunge nuove prestazioni all'avanguardia nei compiti di navigazione guidata dal linguaggio orientata agli obiettivi, inclusi REVERIE e SOON, raggiungendo un tasso di successo del 50,9% sulle suddivisioni di validazione non viste di SOON, superando i precedenti approcci leader di un margine del 13,9%.
Il Test-Driven Development (TDD) è una pratica ampiamente adottata nell'ingegneria del software che richiede agli sviluppatori di creare ed eseguire test parallelamente all'implementazione del codice, garantendo che il comportamento del software sia continuamente validato e affinato. Nell'era del "vibe coding", in cui gli sviluppatori delegano sempre più la scrittura del codice a modelli linguistici di grandi dimensioni (LLM) specificando intenzioni di alto livello, il TDD diventa ancora più cruciale, poiché i casi di test fungono da specifiche eseguibili che definiscono e verificano esplicitamente la funzionalità desiderata, andando oltre ciò che le descrizioni in linguaggio naturale e il contesto del codice possono trasmettere. Sebbene il "vibe coding" sotto TDD sia promettente, ci sono tre principali sfide: (1) selezionare una suite di test piccola ma efficace per migliorare l'accuratezza della generazione e controllare il carico di esecuzione, (2) recuperare contesti come il codice rilevante in modo efficiente, e (3) utilizzare sistematicamente il feedback dei test per un affinamento efficace del codice. Per affrontare queste sfide, introduciamo TENET, un agente LLM per la generazione di funzioni in repository complessi del mondo reale in un contesto TDD. TENET presenta tre componenti: (1) un meccanismo innovativo di test harness che seleziona una suite di test concisa per massimizzare la diversità degli scenari di utilizzo target; (2) un set di strumenti personalizzati per l'agente che esegue un recupero efficiente del codice rilevante con debug interattivo; e (3) un flusso di lavoro di affinamento basato sulla riflessione che analizza iterativamente i fallimenti, integra il contesto e applica il perfezionamento del codice. TENET raggiunge il 69,08% e l'81,77% di Pass@1 sui benchmark RepoCod e RepoEval, superando rispettivamente i migliori baseline agentici di 9,49 e 2,17 punti percentuali. Inoltre, questo è il primo studio sulla generazione di codice guidata da test con contesto a livello di repository, esaminando come diversi aspetti delle suite di test influenzino le prestazioni degli agenti LLM in un contesto TDD.
Comprendere come i Large Language Model (LLM) eseguano ragionamenti complessi e i loro meccanismi di fallimento rappresenta una sfida nella ricerca sull'interpretabilità. Per offrire una prospettiva di analisi geometrica misurabile, definiamo il concetto di **Manifold del Ragionamento**, una struttura geometrica latente a bassa dimensionalità formata dalle rappresentazioni interne corrispondenti a tutte le generazioni correttamente ragionate. Questa struttura può essere concettualizzata come l'incarnazione dei percorsi di pensiero efficaci che il modello ha appreso per risolvere con successo un determinato compito. Basandoci su questo concetto, costruiamo **REMA**, un framework che spiega le origini dei fallimenti confrontando quantitativamente le relazioni spaziali delle rappresentazioni interne del modello corrispondenti sia a campioni di ragionamento errati che corretti. Nello specifico, REMA quantifica prima la deviazione geometrica di ciascuna rappresentazione errata calcolando la distanza dei suoi k-vicini più prossimi rispetto alla manifold approssimata formata dalle rappresentazioni corrette, fornendo così un segnale di fallimento unificato. Successivamente, localizza i punti di divergenza in cui queste deviazioni diventano significative per la prima volta, monitorando questa metrica di deviazione attraverso i livelli del modello e confrontandola con una baseline di fluttuazioni interne provenienti da rappresentazioni corrette, identificando così dove la catena di ragionamento inizia a deviare. I nostri esperimenti estesi su modelli linguistici e multimodali e su vari compiti dimostrano la natura a bassa dimensionalità della manifold del ragionamento e l'elevata separabilità tra rappresentazioni di ragionamento errate e corrette. I risultati convalidano anche l'efficacia del framework REMA nell'analizzare le origini dei fallimenti di ragionamento. Questa ricerca collega i fallimenti di ragionamento astratti a deviazioni geometriche misurabili nelle rappresentazioni, aprendo nuove strade per una comprensione approfondita e la diagnosi dei processi computazionali interni dei modelli black-box.
I dati accoppiati RGB-termici sono cruciali per la fusione sensoriale visivo-termica e per le attività di cross-modalità, includendo applicazioni importanti come l'allineamento e il recupero di immagini multi-modali. Tuttavia, la scarsità di coppie di immagini RGB-termiche sincronizzate e calibrate rappresenta un ostacolo significativo al progresso in queste aree. Per superare questa sfida, la traduzione di immagini da RGB a Termico (RGB-T) è emersa come una soluzione promettente, consentendo la sintesi di immagini termiche a partire da ampi dataset RGB per scopi di addestramento. In questo studio, proponiamo ThermalGen, un modello generativo basato su flussi adattativi per la traduzione di immagini RGB-T, che incorpora un'architettura di condizionamento delle immagini RGB e un meccanismo di separazione dello stile. Per supportare l'addestramento su larga scala, abbiamo curato otto dataset pubblici di coppie RGB-T satellitari-aeree, aeree e terrestri, e introdotto tre nuovi dataset su larga scala di coppie RGB-T satellitari-aeree--DJI-day, Bosonplus-day e Bosonplus-night--acquisiti in diversi momenti, con diversi tipi di sensori e in diverse regioni geografiche. Valutazioni estese su molteplici benchmark RGB-T dimostrano che ThermalGen raggiunge prestazioni di traduzione comparabili o superiori rispetto ai metodi esistenti basati su GAN e su diffusione. A nostra conoscenza, ThermalGen è il primo modello di traduzione di immagini RGB-T in grado di sintetizzare immagini termiche che riflettono significative variazioni nei punti di vista, nelle caratteristiche dei sensori e nelle condizioni ambientali. Pagina del progetto: http://xjh19971.github.io/ThermalGen
I sistemi di intelligenza artificiale (IA), e in particolare i Modelli Linguistici di Grande Scala (LLM), sono sempre più impiegati per compiti creativi come la generazione di idee scientifiche, costituendo una forma di generalizzazione dai dati di addestramento non affrontata dai framework concettuali esistenti. Nonostante le somiglianze con la generalizzazione composizionale (CG), la creatività combinatoria (CC) è un'abilità aperta e illimitata. Invece di valutare l'accuratezza o la correttezza rispetto a obiettivi fissi, il che contraddirebbe la natura aperta della CC, proponiamo un framework teorico e un compito algoritmico per valutare gli output in base ai loro gradi di novità e utilità. Da qui, forniamo diversi contributi empirici significativi: (1) Otteniamo le prime intuizioni sul comportamento di scalabilità della creatività per gli LLM. (2) Scopriamo che, per budget computazionali fissi, esistono profondità e ampiezze ottimali del modello per l'abilità creativa. (3) Troviamo che il divario ideazione-esecuzione, per cui gli LLM eccellono nella generazione di idee scientifiche innovative ma faticano a garantirne la fattibilità pratica, può essere spiegato da un più fondamentale compromesso novità-utilità caratteristico degli algoritmi di creatività in generale. Importante, questo compromesso persiste anche su larga scala, mettendo in dubbio il potenziale creativo a lungo termine degli LLM nella loro forma attuale. Insieme, il nostro framework concettuale e i risultati empirici forniscono una base per comprendere e migliorare la creatività nei moderni modelli di IA, colmando il divario tra intelligenza umana e macchina.
Wikipedia è il più grande corpus di conoscenza aperta, ampiamente utilizzato in tutto il mondo e rappresenta una risorsa chiave per l'addestramento di grandi modelli linguistici (LLM) e sistemi di generazione aumentata con recupero (RAG). Garantirne l'accuratezza è quindi fondamentale. Ma quanto è accurata Wikipedia, e come possiamo migliorarla? Ci concentriamo sulle incongruenze, un tipo specifico di inesattezza fattuale, e introduciamo il compito di rilevamento delle incongruenze a livello di corpus. Presentiamo CLAIRE, un sistema agentivo che combina il ragionamento degli LLM con il recupero di informazioni per evidenziare affermazioni potenzialmente inconsistenti insieme a prove contestuali per la revisione umana. In uno studio con utenti condotto con editor esperti di Wikipedia, l'87,5% ha riportato una maggiore fiducia nell'utilizzo di CLAIRE, e i partecipanti hanno identificato il 64,7% in più di incongruenze nello stesso lasso di tempo. Combinando CLAIRE con l'annotazione umana, contribuiamo con WIKICOLLIDE, il primo benchmark di incongruenze reali di Wikipedia. Utilizzando un campionamento casuale con analisi assistita da CLAIRE, scopriamo che almeno il 3,3% dei fatti presenti nella Wikipedia in inglese contraddice un altro fatto, con incongruenze che si propagano nel 7,3% degli esempi di FEVEROUS e nel 4,0% di quelli di AmbigQA. Il benchmarking di baseline solide su questo dataset rivela un margine di miglioramento significativo: il miglior sistema completamente automatizzato raggiunge un AUROC di solo il 75,1%. I nostri risultati dimostrano che le contraddizioni sono una componente misurabile di Wikipedia e che sistemi basati su LLM come CLAIRE possono fornire uno strumento pratico per aiutare gli editor a migliorare la coerenza della conoscenza su larga scala.
Prevedere la mobilità umana è intrinsecamente complesso a causa di dipendenze a lungo raggio complesse e comportamenti periodici su più scale. Per affrontare questa sfida, introduciamo RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility), un framework unificato che sfrutta i grandi modelli linguistici (LLM) come predittori spazio-temporali general-purpose e ragionatori di traiettorie. Metodologicamente, RHYTHM utilizza la tokenizzazione temporale per suddividere ciascuna traiettoria in segmenti giornalieri e codificarli come token discreti con un'attenzione gerarchica che cattura sia le dipendenze giornaliere che settimanali, riducendo significativamente la lunghezza della sequenza pur preservando le informazioni cicliche. Inoltre, arricchiamo le rappresentazioni dei token aggiungendo incorporamenti di prompt pre-calcolati per i segmenti di traiettoria e i target di previsione tramite un LLM congelato, e alimentando questi incorporamenti combinati nuovamente nel backbone dell'LLM per catturare interdipendenze complesse. Dal punto di vista computazionale, RHYTHM congela il backbone pre-addestrato dell'LLM per ridurre la complessità dell'attenzione e il costo di memoria. Valutiamo il nostro modello rispetto ai metodi più avanzati utilizzando tre dataset del mondo reale. In particolare, RHYTHM ottiene un miglioramento del 2,4% nell'accuratezza complessiva, un aumento del 5,0% nei fine settimana e una riduzione del 24,6% nel tempo di addestramento. Il codice è disponibile pubblicamente all'indirizzo https://github.com/he-h/rhythm.
Mentre modificano direttamente dalla realtà, i fotografi hanno trovato troppo difficile vedere simultaneamente sia il blu che il cielo. Il fotografo e curatore Szarkowski ha rivelato in modo perspicace uno dei notevoli divari tra la comprensione visiva generale e quella estetica: mentre la prima si concentra sull'identificazione dell'elemento fattuale in un'immagine (il cielo), la seconda trascende tale identificazione oggettuale, considerandola invece come una componente estetica—un blocco di colore puro (il blu). Tali distinzioni fondamentali tra la comprensione visiva generale (rilevamento, localizzazione, ecc.) e quella estetica (colore, illuminazione, composizione, ecc.) rappresentano una sfida significativa per i Modelli Linguistici Multimodali di Grande Scala (MLLMs). Sebbene alcuni lavori recenti abbiano compiuto esplorazioni iniziali, sono spesso limitati a nozioni di base e generali di estetica. Di conseguenza, spesso non riescono a soddisfare le esigenze degli scenari reali (Fig. 1), che richiedono una vasta competenza—tra cui tecniche fotografiche, conoscenze di pre/post-elaborazione delle foto e altro—per fornire un'analisi e una descrizione dettagliate. Per migliorare fondamentalmente la comprensione estetica degli MLLMs, introduciamo innanzitutto un nuovo dataset, PhotoCritique, derivato da ampie discussioni tra fotografi professionisti e appassionati, e caratterizzato da grande scala, competenza e diversità. Successivamente, per apprendere meglio l'estetica visiva da PhotoCritique, proponiamo ulteriormente un nuovo modello, PhotoEye, che presenta un meccanismo di fusione visiva multi-vista guidato dal linguaggio per comprendere l'estetica delle immagini da molteplici prospettive. Infine, presentiamo un nuovo benchmark, PhotoBench, un punto di riferimento completo e professionale per la comprensione estetica visiva. Sui benchmark esistenti e su PhotoBench, il nostro modello dimostra chiari vantaggi rispetto ai modelli attuali.
La capacità di riassumere documenti lunghi in modo conciso è sempre più importante nella vita quotidiana a causa del sovraccarico informativo, eppure si riscontra una notevole carenza di tali riassunti per i documenti in spagnolo in generale, e nel dominio legale in particolare. In questo lavoro, presentiamo BOE-XSUM, un dataset curato composto da 3.648 riassunti concisi e in linguaggio semplice di documenti tratti dal ``Boletín Oficial del Estado'' (BOE), la Gazzetta Ufficiale spagnola. Ogni voce del dataset include un breve riassunto, il testo originale e l'etichetta del tipo di documento. Valutiamo le prestazioni di modelli linguistici di grandi dimensioni (LLM) di medie dimensioni addestrati su BOE-XSUM, confrontandoli con modelli generici in uno scenario zero-shot. I risultati mostrano che i modelli addestrati superano significativamente le loro controparti non specializzate. In particolare, il modello con le migliori prestazioni -- BERTIN GPT-J 6B (precisione a 32 bit) -- ottiene un miglioramento del 24% rispetto al miglior modello zero-shot, DeepSeek-R1 (precisioni del 41,6% contro il 33,5%).
Questo articolo presenta BPMN Assistant, uno strumento che sfrutta i Large Language Models (LLM) per la creazione e la modifica di diagrammi BPMN basata sul linguaggio naturale. Viene introdotta una rappresentazione specializzata basata su JSON come alternativa strutturata alla gestione diretta di XML, al fine di migliorare l'accuratezza delle modifiche ai processi. La qualità della generazione dei processi viene valutata utilizzando la Graph Edit Distance (GED) e la Relative Graph Edit Distance (RGED), mentre le prestazioni di modifica vengono valutate con una metrica binaria di successo. I risultati mostrano che JSON e XML raggiungono punteggi di similarità comparabili nella generazione, ma JSON offre una maggiore affidabilità, una elaborazione più veloce e tassi di successo significativamente più elevati nelle modifiche. Discutiamo i principali compromessi, le limitazioni e i miglioramenti futuri. L'implementazione è disponibile all'indirizzo https://github.com/jtlicardo/bpmn-assistant.
Presentiamo ADAM (A Diverse Archive of Mankind), un framework per valutare e migliorare i modelli linguistici multimodali di grandi dimensioni (MLLMs) nel ragionamento biografico. Per quanto ne sappiamo, questo è il primo lavoro a esaminare sistematicamente le capacità dei LLM nel contesto delle biografie, una dimensione critica ma poco esplorata della conoscenza fattuale. Al suo centro, AdamDB è un dataset multilingue e multimodale che copre oltre 4 milioni di individui attraverso geografia, tempo e professione, mentre AdamBench fornisce valutazioni strutturate cognitivamente basate sulla tassonomia di Bloom, abbracciando sei livelli di ragionamento sia in inglese che nelle lingue native. Per affrontare le allucinazioni, in particolare per individui meno conosciuti, proponiamo AdamRAG, un sistema di generazione aumentata dal retrieval specificamente adattato ai contesti biografici. Gli esperimenti dimostrano che AdamRAG migliora sostanzialmente i modelli open-source e apporta benefici modesti a quelli closed-source, con i maggiori guadagni sui ragionamenti di ordine inferiore. La popolarità media fortemente l'accuratezza, e l'input multimodale tramite immagini facciali offre miglioramenti più piccoli e meno consistenti rispetto al retrieval. ADAM stabilisce il primo benchmark e framework per una valutazione biografica cognitivamente, culturalmente e multimodalmente fondata, promuovendo lo sviluppo di MLLM multilingue, accurati e resistenti alle allucinazioni.
Generare stime di confidenza accurate e calibrate è fondamentale per il dispiegamento di LLM in applicazioni ad alto rischio o rivolte agli utenti, e rimane una sfida aperta. La ricerca precedente ha spesso inquadrato la confidenza come un problema di elicitazione dell'"autoconoscenza" del modello, ovvero la capacità di un LLM di giudicare se le proprie risposte sono corrette; questo approccio presuppone implicitamente che ci sia qualche informazione privilegiata sulla correttezza della risposta accessibile al modello stesso. Tuttavia, i nostri esperimenti rivelano che un LLM che tenta di prevedere la correttezza dei propri output generalmente non performa meglio di un LLM non correlato. Inoltre, ipotizziamo che un fattore chiave nella costruzione di un "Modello di Correttezza" (CM) sia l'esposizione alle previsioni storiche di un modello target. Proponiamo diversi metodi per iniettare questa informazione storica sulla correttezza, creando un Modello di Correttezza Generalizzato (GCM). Mostriamo innanzitutto che i GCM possono essere addestrati sui dati di correttezza di molti LLM e apprendere schemi per la previsione della correttezza applicabili a diversi dataset e modelli. Utilizziamo poi i CM come lente per studiare la fonte della capacità di previsione della correttezza e la sua generalizzazione, controllando sistematicamente i loro dati di addestramento e scoprendo che la formulazione della risposta è un forte predittore della correttezza. Esploriamo ulteriormente metodi alternativi di iniezione della storia senza addestrare un LLM, scoprendo che includere la storia come esempi in-context può aiutare a migliorare la previsione della correttezza, e che la calibrazione post-hoc può fornire riduzioni complementari dell'errore di calibrazione. Valutiamo i GCM basati su Qwen3-8B su 5 famiglie di modelli e sui dataset MMLU e TriviaQA, nonché su un compito di previsione selettiva a valle, scoprendo che una stima affidabile della confidenza degli LLM è un'abilità generalizzabile e agnostica rispetto al modello, appresa codificando sistematicamente la storia della correttezza piuttosto che un'abilità specifica del modello basata sull'introspezione.
L'apprendimento per rinforzo con controllo ottimo stocastico offre un quadro promettente per l'affinamento di modelli di diffusione, in cui un modello di diffusione pre-addestrato viene ottimizzato per generare percorsi che conducono a una distribuzione inclinata verso una ricompensa. Sebbene questi approcci consentano l'ottimizzazione senza accesso a campioni espliciti della distribuzione ottimale, richiedono l'addestramento su rollout sotto il modello attualmente affinato, rendendoli suscettibili al rafforzamento di traiettorie sub-ottimali che producono ricompense scarse. Per superare questa sfida, introduciamo TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), un nuovo framework che ottimizza le traiettorie di diffusione discreta guidate dalla ricompensa utilizzando la ricerca ad albero per costruire buffer di replay per l'affinamento consapevole delle traiettorie. Questi buffer sono generati utilizzando la Monte Carlo Tree Search (MCTS) e successivamente utilizzati per affinare un modello di diffusione discreta pre-addestrato sotto un obiettivo di controllo ottimo stocastico. Validiamo il nostro framework sull'affinamento mono e multi-obiettivo di modelli di diffusione di sequenze biologiche, evidenziando l'efficacia complessiva di TR2-D2 per un affidabile affinamento guidato dalla ricompensa nella generazione di sequenze discrete.
Le didascalie video offrono istantanee concise di attori, oggetti e azioni all'interno di un video, rappresentando risorse preziose per applicazioni come il question answering e la localizzazione di eventi. Tuttavia, acquisire annotazioni umane per le didascalie video è costoso o addirittura impraticabile, specialmente quando si ha a che fare con domini video diversificati. I modelli esistenti addestrati su dataset supervisionati affrontano sfide nella valutazione delle prestazioni attraverso diversi domini a causa della dipendenza da protocolli di valutazione basati su riferimenti, che richiedono didascalie di verità di base. Questa ipotesi è irrealistica per la valutazione di video in contesti reali. Per affrontare queste limitazioni, proponiamo un framework di valutazione senza riferimento che non richiede didascalie di verità di base, concentrandosi sul fondamento fattuale per garantire una valutazione accurata della qualità delle didascalie. Introduciamo VC-Inspector, un nuovo valutatore della qualità delle didascalie che è sia senza riferimento che fondato sui fatti. Utilizzando modelli linguistici di grandi dimensioni, generiamo didascalie pseudo di qualità variabile basate su dati supervisionati, che vengono successivamente utilizzate per addestrare un modello multimodale (ad esempio, Qwen2.5-VL) come valutatore. Il nostro approccio dimostra un allineamento superiore con i giudizi umani sul dataset VATEX-Eval, superando i metodi esistenti. Le prestazioni si generalizzano anche ai dataset di didascalie per immagini, Flickr8K-Expert e Flickr8K-CF, quando le immagini vengono considerate come video di 1 fotogramma. Nel complesso, VC-Inspector offre una soluzione scalabile e generalizzabile per valutare l'accuratezza fattuale delle didascalie video, aprendo la strada a metodologie di valutazione più efficaci e oggettive in diversi domini video.
Nel corso dell'ultimo decennio, la Linguistica Computazionale (CL) e l'Elaborazione del Linguaggio Naturale (NLP) hanno subito una rapida evoluzione, in particolare con l'avvento dei Modelli Linguistici di Grande Dimensione (LLM) basati su Transformer. Questo cambiamento ha trasformato gli obiettivi e le priorità della ricerca, passando dalle Risorse Lessicali e Semantiche alla Modellazione del Linguaggio e alla Multimodalità. In questo studio, tracciamo le tendenze di ricerca della comunità italiana di CL e NLP attraverso un'analisi dei contributi presentati a CLiC-it, considerata la principale conferenza italiana nel settore. Abbiamo raccolto gli atti delle prime 10 edizioni della conferenza CLiC-it (dal 2014 al 2024) nel CLiC-it Corpus, fornendo un'analisi completa sia dei metadati, inclusa la provenienza degli autori, il genere, le affiliazioni e altro, sia del contenuto degli articoli stessi, che affrontano vari argomenti. Il nostro obiettivo è fornire alle comunità di ricerca italiane e internazionali preziose intuizioni sulle tendenze emergenti e sugli sviluppi chiave nel tempo, supportando decisioni informate e direzioni future nel campo.