Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante le loro notevoli capacità, i Large Language Model (LLM) faticano a sfruttare efficacemente le informazioni storiche delle interazioni in ambienti dinamici e complessi. I sistemi di memoria consentono ai LLM di andare oltre le interazioni senza stato introducendo meccanismi di archiviazione, recupero e utilizzo persistenti delle informazioni. Tuttavia, i sistemi di memoria esistenti spesso introducono un significativo sovraccarico temporale e computazionale. A tal fine, introduciamo un nuovo sistema di memoria chiamato LightMem, che bilancia prestazioni ed efficienza dei sistemi di memoria. Ispirato dal modello di memoria umana di Atkinson-Shiffrin, LightMem organizza la memoria in tre fasi complementari. Innanzitutto, la memoria sensoriale ispirata alla cognizione filtra rapidamente le informazioni irrilevanti attraverso una compressione leggera e raggruppa le informazioni in base ai loro argomenti. Successivamente, la memoria a breve termine consapevole degli argomenti consolida questi gruppi tematici, organizzando e riassumendo i contenuti per un accesso più strutturato. Infine, la memoria a lungo termine con aggiornamento notturno utilizza una procedura offline che disaccoppia il consolidamento dall'inferenza online. Esperimenti su LongMemEval con backbone GPT e Qwen dimostrano che LightMem supera i forti baseline in termini di accuratezza (con guadagni fino al 10,9%) riducendo l'uso di token fino a 117 volte, le chiamate API fino a 159 volte e il tempo di esecuzione di oltre 12 volte. Il codice è disponibile all'indirizzo https://github.com/zjunlp/LightMem.
Presentiamo la disaggregazione dell'attenzione centrale (CAD, Core Attention Disaggregation), una tecnica che migliora l'addestramento di modelli linguistici di grandi dimensioni con contesti lunghi, disaccoppiando il calcolo dell'attenzione centrale, softmax(QK^T)V, dal resto del modello e eseguendolo su un pool separato di dispositivi. Nei sistemi esistenti, l'attenzione centrale è collocata insieme ad altri strati; con contesti lunghi, la sua crescita quadratica del calcolo rispetto alla crescita quasi lineare degli altri componenti causa squilibri di carico e ritardi nei gruppi paralleli di dati e pipeline. La CAD è resa possibile da due osservazioni. In primo luogo, l'attenzione centrale è senza stato: non ha parametri addestrabili e solo dati transitori minimi, quindi il bilanciamento si riduce alla pianificazione di task legati al calcolo. In secondo luogo, è componibile: i kernel di attenzione moderni mantengono un'elevata efficienza quando elaborano batch fusi di frammenti a livello di token con lunghezze arbitrarie. La CAD suddivide l'attenzione centrale in task a livello di token e li invia a server di attenzione dedicati, che raggruppano dinamicamente i task per bilanciare il calcolo senza sacrificare l'efficienza del kernel. Implementiamo la CAD in un sistema chiamato DistCA, che utilizza uno schema di esecuzione ping-pong per sovrapporre completamente la comunicazione con il calcolo e l'esecuzione in-place sui server di attenzione per ridurre l'uso della memoria. Su 512 GPU H200 e lunghezze di contesto fino a 512k token, DistCA migliora la produttività end-to-end dell'addestramento fino a 1,35x, elimina i ritardi nei gruppi paralleli di dati e pipeline e raggiunge un bilanciamento quasi perfetto del calcolo e della memoria.
I modelli generativi di mondi (World Models, WMs) sono ora in grado di simulare ambienti con un realismo visivo sorprendente, il che solleva naturalmente la questione se possano dotare agenti incarnati di percezione predittiva per il processo decisionale. I progressi su questo fronte sono stati limitati da valutazioni frammentate: la maggior parte dei benchmark esistenti adotta protocolli a ciclo aperto che enfatizzano la qualità visiva in isolamento, lasciando irrisolta la questione centrale dell'utilità incarnata, ovvero: i WMs aiutano effettivamente gli agenti a svolgere con successo compiti incarnati? Per colmare questa lacuna, introduciamo World-in-World, la prima piattaforma aperta che valuta i WMs in un mondo a ciclo chiuso che riflette le interazioni reali tra agente e ambiente. World-in-World fornisce una strategia unificata di pianificazione online e un'API standardizzata per le azioni, consentendo a WMs eterogenei di supportare il processo decisionale. Abbiamo curato quattro ambienti a ciclo chiuso che valutano rigorosamente diversi WMs, dando priorità al successo del compito come metrica principale e andando oltre il comune focus sulla qualità visiva; presentiamo inoltre la prima legge di scala dei dati per i modelli di mondi in contesti incarnati. Il nostro studio rivela tre sorprese: (1) la qualità visiva da sola non garantisce il successo del compito, la controllabilità è più importante; (2) il ridimensionamento post-addestramento con dati azione-osservazione è più efficace rispetto all'aggiornamento dei generatori di video pre-addestrati; e (3) allocare maggiori risorse computazionali durante l'inferenza consente ai WMs di migliorare significativamente le prestazioni a ciclo chiuso.
I recenti progressi nella generazione testo-immagine (T2I) sottolineano l'importanza di benchmark affidabili per valutare quanto accuratamente le immagini generate riflettano la semantica del prompt testuale. Tuttavia, (1) i benchmark esistenti mancano di diversità negli scenari di prompt e di supporto multilingue, entrambi essenziali per l'applicabilità nel mondo reale; (2) offrono solo valutazioni grossolane lungo dimensioni primarie, coprendo un ristretto range di sottodimensioni, e sono carenti nella valutazione fine delle sottodimensioni. Per affrontare queste limitazioni, introduciamo UniGenBench++, un benchmark unificato per la valutazione semantica nella generazione T2I. Nello specifico, comprende 600 prompt organizzati gerarchicamente per garantire sia copertura che efficienza: (1) spazia attraverso diversi scenari del mondo reale, ovvero 5 temi principali e 20 sottotemi; (2) esplora in modo completo la coerenza semantica dei modelli T2I su 10 criteri primari e 27 secondari di valutazione, con ciascun prompt che valuta molteplici punti di test. Per valutare rigorosamente la robustezza dei modelli alle variazioni linguistiche e alla lunghezza del prompt, forniamo versioni in inglese e cinese di ciascun prompt in forma breve e lunga. Sfruttando la conoscenza generale del mondo e le capacità di comprensione fine delle immagini di un modello multimodale di linguaggio di grandi dimensioni (MLLM) closed-source, ovvero Gemini-2.5-Pro, è stato sviluppato una pipeline efficace per la costruzione affidabile del benchmark e la valutazione semplificata dei modelli. Inoltre, per facilitare ulteriormente l'uso da parte della comunità, abbiamo addestrato un modello di valutazione robusto che consente la valutazione offline degli output dei modelli T2I. Attraverso un benchmarking completo sia di modelli T2I open-source che closed-source, riveliamo sistematicamente i loro punti di forza e debolezza in vari aspetti.
Presentiamo Ring-1T, il primo modello di pensiero open-source all'avanguardia con una scala di parametri nell'ordine dei trilioni. Il modello vanta un totale di 1 trilione di parametri e attiva circa 50 miliardi per token. Addestrare modelli di questa scala introduce sfide senza precedenti, tra cui disallineamento tra addestramento e inferenza, inefficienze nel processing dei rollout e colli di bottiglia nel sistema di RL. Per affrontare questi problemi, introduciamo tre innovazioni interconnesse: (1) IcePop stabilizza l'addestramento RL attraverso il masking e il clipping delle discrepanze a livello di token, risolvendo l'instabilità derivante dalle discrepanze tra addestramento e inferenza; (2) C3PO++ migliora l'utilizzo delle risorse per rollout lunghi sotto un budget di token, partizionandoli dinamicamente e ottenendo così un'elevata efficienza temporale; e (3) ASystem, un framework RL ad alte prestazioni progettato per superare i colli di bottiglia sistemici che ostacolano l'addestramento di modelli con trilioni di parametri. Ring-1T raggiunge risultati rivoluzionari su benchmark critici: 93.4 su AIME-2025, 86.72 su HMMT-2025, 2088 su CodeForces e 55.94 su ARC-AGI-v1. In particolare, ottiene un risultato di livello medaglia d'argento su IMO-2025, sottolineando le sue eccezionali capacità di ragionamento. Rilasciando alla comunità il completo modello MoE da 1T parametri, forniamo ai ricercatori accesso diretto a capacità di ragionamento all'avanguardia. Questo contributo segna una pietra miliare significativa nella democratizzazione dell'intelligenza di ragionamento su larga scala e stabilisce un nuovo riferimento per le prestazioni dei modelli open-source.
Sebbene i grandi modelli linguistici (LLM) abbiano un potenziale significativo per far progredire la scoperta chimica, gli attuali LLM mancano di conoscenze chimiche fondamentali, producono traiettorie di ragionamento inaffidabili e mostrano prestazioni subottimali in una vasta gamma di compiti chimici. Per affrontare queste sfide, proponiamo Chem-R, un modello di ragionamento chimico generalizzabile progettato per emulare i processi deliberativi dei chimici. Chem-R viene addestrato attraverso un framework in tre fasi che costruisce progressivamente capacità di ragionamento avanzate, tra cui: 1) Addestramento delle Fondamenta Chimiche, che stabilisce le conoscenze chimiche di base. 2) Distillazione del Protocollo di Ragionamento Chimico, che incorpora tracce di ragionamento strutturate, simili a quelle degli esperti, per guidare la risoluzione sistematica e affidabile dei problemi. 3) Ottimizzazione Relativa delle Politiche di Gruppo Multi-task, che ottimizza il modello per prestazioni bilanciate su una varietà di compiti a livello molecolare e di reazione. Questa pipeline strutturata consente a Chem-R di raggiungere prestazioni all'avanguardia su benchmark completi, superando i principali grandi modelli linguistici, tra cui Gemini-2.5-Pro e DeepSeek-R1, fino al 46% nei compiti molecolari e al 66% nei compiti di reazione. Nel frattempo, Chem-R supera costantemente anche i modelli di fondazione chimica esistenti sia nei compiti a livello molecolare che di reazione. Questi risultati evidenziano la robusta generalizzazione, l'interpretabilità e il potenziale di Chem-R come fondamento per la prossima generazione di scoperte chimiche guidate dall'IA.
La generazione di video lunghi con Diffusion Transformers (DiTs) è limitata dalla scala quadratica dell'attenzione completa rispetto alla lunghezza della sequenza. Poiché l'attenzione è altamente ridondante, gli output sono dominati da un piccolo sottoinsieme di coppie query-chiave. I metodi sparsi esistenti si basano su stime approssimative a blocchi, i cui compromessi tra accuratezza ed efficienza sono vincolati dalla dimensione del blocco. Questo articolo introduce Mixture-of-Groups Attention (MoGA), un'attenzione sparsa efficiente che utilizza un router di token leggero e apprendibile per abbinare i token in modo preciso senza stime a blocchi. Attraverso un routing semantico, MoGA consente interazioni efficaci a lungo raggio. Essendo un metodo privo di kernel, MoGA si integra perfettamente con gli stack di attenzione moderni, inclusi FlashAttention e il parallelismo di sequenze. Basandoci su MoGA, sviluppiamo un modello efficiente per la generazione di video lunghi che produce end-to-end video multi-shot da 480p a 24 fps, con una durata di minuti e una lunghezza del contesto di circa 580k. Esperimenti completi su varie attività di generazione video convalidano l'efficacia del nostro approccio.
Mentre i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) eccellono nella comprensione olistica, faticano a catturare un mondo denso con scene complesse, richiedendo un'analisi fine dei dettagli intricati e delle interrelazioni tra oggetti. I MLLMs a livello di regione hanno rappresentato un passo promettente. Tuttavia, i tentativi precedenti sono generalmente ottimizzati per comprendere regioni specifiche in isolamento, trascurando i contesti globali cruciali. Per affrontare questo problema, introduciamo Grasp Any Region (GAR) per una comprensione visiva a livello di regione completa. Potenziato da una tecnica efficace di replay delle caratteristiche allineate alle RoI, GAR supporta (1) una percezione precisa sfruttando i contesti globali necessari e (2) la modellazione delle interazioni tra più prompt. Insieme, raggiunge naturalmente (3) un ragionamento compositivo avanzato per rispondere a domande specifiche e libere su qualsiasi regione, spostando il paradigma dalla descrizione passiva al dialogo attivo. Inoltre, abbiamo costruito GAR-Bench, che non solo fornisce una valutazione più accurata della comprensione di singole regioni, ma, cosa ancora più importante, misura le interazioni e il ragionamento complesso tra più regioni. Esperimenti estesi hanno dimostrato che GAR-1B non solo mantiene le capacità di descrizione all'avanguardia, ad esempio superando DAM-3B di +4,5 su DLC-Bench, ma eccelle anche nella modellazione delle relazioni tra più prompt con capacità di comprensione avanzate, superando persino InternVL3-78B su GAR-Bench-VQA. Ancora più importante, il nostro GAR-8B zero-shot supera persino VideoRefer-7B specifico per dominio su VideoRefer-BenchQ, indicando che le sue forti capacità possono essere facilmente trasferite ai video.
Presentiamo DeepSeek-OCR come un’indagine iniziale sulla fattibilità della compressione di contesti lunghi tramite mappatura ottica 2D. DeepSeek-OCR è composto da due componenti: DeepEncoder e DeepSeek3B-MoE-A570M come decodificatore. Nello specifico, DeepEncoder funge da motore centrale, progettato per mantenere basse attivazioni con input ad alta risoluzione, raggiungendo al contempo elevati rapporti di compressione per garantire un numero ottimale e gestibile di token visivi. Gli esperimenti dimostrano che quando il numero di token di testo è entro 10 volte quello dei token visivi (ovvero, un rapporto di compressione < 10x), il modello può raggiungere una precisione di decodifica (OCR) del 97%. Anche con un rapporto di compressione di 20x, l’accuratezza OCR rimane intorno al 60%. Ciò mostra un notevole potenziale per aree di ricerca come la compressione di contesti storici lunghi e i meccanismi di dimenticanza nella memoria dei LLM. Oltre a ciò, DeepSeek-OCR dimostra anche un elevato valore pratico. Su OmniDocBench, supera GOT-OCR2.0 (256 token/pagina) utilizzando solo 100 token visivi e supera MinerU2.0 (in media oltre 6000 token per pagina) utilizzando meno di 800 token visivi. In produzione, DeepSeek-OCR può generare dati di addestramento per LLM/VLM su una scala di oltre 200.000 pagine al giorno (con una singola A100-40G). I codici e i pesi del modello sono accessibili pubblicamente all’indirizzo http://github.com/deepseek-ai/DeepSeek-OCR.
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) abbiano dimostrato competenza nella generazione di didascalie per video, le applicazioni pratiche richiedono didascalie che seguano specifiche istruzioni dell'utente piuttosto che produrre descrizioni esaustive e non vincolate. Gli attuali benchmark, tuttavia, valutano principalmente la completezza descrittiva, trascurando in larga misura le capacità di seguire le istruzioni. Per colmare questa lacuna, introduciamo IF-VidCap, un nuovo benchmark per la valutazione della generazione controllata di didascalie video, che contiene 1.400 campioni di alta qualità. A differenza dei benchmark esistenti per la generazione di didascalie video o per il seguire istruzioni generali, IF-VidCap incorpora un framework sistematico che valuta le didascalie su due dimensioni: correttezza del formato e correttezza del contenuto. La nostra valutazione completa di oltre 20 modelli di rilievo rivela un panorama sfumato: nonostante il continuo predominio dei modelli proprietari, il divario di prestazioni si sta riducendo, con le migliori soluzioni open-source che ora raggiungono una parità quasi totale. Inoltre, scopriamo che i modelli specializzati per la generazione di didascalie dense hanno prestazioni inferiori rispetto ai MLLM generici su istruzioni complesse, indicando che il lavoro futuro dovrebbe avanzare simultaneamente sia la ricchezza descrittiva che la fedeltà nel seguire le istruzioni.
Sebbene i modelli di diffusione raggiungano una qualità di generazione all'avanguardia, continuano a soffrire di un campionamento computazionalmente costoso. Recenti lavori affrontano questo problema con metodi di ottimizzazione basati su gradienti che distillano un risolutore ODE di diffusione a pochi passi dal processo di campionamento completo, riducendo il numero di valutazioni di funzioni da decine a poche. Tuttavia, questi approcci spesso si basano su tecniche di addestramento intricate e non si concentrano esplicitamente sulla preservazione di dettagli fini. In questo articolo, introduciamo il Risolutore Generalizzato: una semplice parametrizzazione del campionatore ODE che non richiede trucchi di addestramento aggiuntivi e migliora la qualità rispetto agli approcci esistenti. Combiniamo ulteriormente la perdita di distillazione originale con l'addestramento avversario, che mitiga gli artefatti e migliora la fedeltà dei dettagli. Chiamiamo il metodo risultante Risolutore Avversario Generalizzato e dimostriamo la sua prestazione superiore rispetto ai metodi di addestramento dei risolutori esistenti sotto vincoli di risorse simili. Il codice è disponibile all'indirizzo https://github.com/3145tttt/GAS.
Personalizzare fedelmente i grandi modelli linguistici (LLM) per allinearli alle preferenze individuali degli utenti è un compito cruciale ma impegnativo. Mentre il fine-tuning supervisionato (SFT) raggiunge rapidamente un plateau di prestazioni, anche l'apprendimento per rinforzo standard basato sul feedback umano (RLHF) fatica a gestire le sfumature della personalizzazione. I modelli di ricompensa basati su valori scalari sono soggetti a fenomeni di "reward hacking", che portano a risposte prolisse e superficialmente personalizzate. Per affrontare queste limitazioni, proponiamo Critique-Post-Edit, un robusto framework di apprendimento per rinforzo che consente una personalizzazione più fedele e controllabile. Il nostro framework integra due componenti chiave: (1) un Modello Generativo di Ricompensa Personalizzato (GRM) che fornisce punteggi multidimensionali e critiche testuali per resistere al reward hacking, e (2) un meccanismo Critique-Post-Edit in cui il modello di policy rivede i propri output sulla base di queste critiche per un apprendimento più mirato ed efficiente. In una valutazione rigorosa con controllo della lunghezza, il nostro metodo supera sostanzialmente il PPO standard nei benchmark di personalizzazione. Il modello personalizzato Qwen2.5-7B ottiene un miglioramento medio dell'11\% nel tasso di vittoria, mentre il modello personalizzato Qwen2.5-14B supera le prestazioni di GPT-4.1. Questi risultati dimostrano un percorso pratico verso una personalizzazione fedele, efficiente e controllabile.
Sebbene i recenti progressi nei modelli visione-linguaggio (VLMs) abbiano raggiunto risultati notevoli in un'ampia gamma di attività multimodali, la comprensione delle relazioni spaziali 3D a partire da viste limitate rimane una sfida significativa. I metodi di ragionamento precedenti si basano tipicamente su testo puro (ad esempio, mappe cognitive topologiche) o su indizi visivi 2D. Tuttavia, la loro capacità rappresentativa limitata ostacola le prestazioni in compiti specifici che richiedono immaginazione spaziale 3D. Per affrontare questa limitazione, proponiamo 3DThinker, un framework che sfrutta efficacemente le ricche informazioni geometriche incorporate nelle immagini durante il ragionamento, come fanno gli esseri umani. Il nostro framework è il primo a consentire il mentaling 3D durante il ragionamento senza alcun input 3D preliminare e non si basa su dati 3D esplicitamente etichettati per l'addestramento. Nello specifico, il nostro addestramento si compone di due fasi. In primo luogo, eseguiamo un addestramento supervisionato per allineare il latente 3D generato dal VLM durante il ragionamento con quello di un modello di base 3D (ad esempio, VGGT). Successivamente, ottimizziamo l'intera traiettoria di ragionamento esclusivamente in base ai segnali di risultato, perfezionando così il sottostante mentaling 3D. Esperimenti estesi su più benchmark dimostrano che 3DThinker supera costantemente i forti baseline e offre una nuova prospettiva verso l'unificazione delle rappresentazioni 3D nel ragionamento multimodale. Il nostro codice sarà disponibile all'indirizzo https://github.com/zhangquanchen/3DThinker.
Il watermarking multilingue mira a rendere tracciabili gli output dei modelli linguistici di grandi dimensioni (LLM) attraverso le lingue, ma i metodi attuali non sono ancora all'altezza. Nonostante le affermazioni di robustezza cross-linguale, essi vengono valutati solo su lingue ad alta risorsa. Dimostriamo che i metodi esistenti di watermarking multilingue non sono veramente multilingue: non riescono a mantenere la robustezza sotto attacchi di traduzione in lingue a media e bassa risorsa. Attribuiamo questo fallimento al clustering semantico, che non funziona quando il vocabolario del tokenizer contiene troppo pochi token di parole intere per una determinata lingua. Per affrontare questo problema, introduciamo STEAM, un metodo di rilevamento basato sulla retro-traduzione che ripristina la forza del watermark persa attraverso la traduzione. STEAM è compatibile con qualsiasi metodo di watermarking, robusto su diversi tokenizer e lingue, non invasivo e facilmente estendibile a nuove lingue. Con guadagni medi di +0,19 AUC e +40%p TPR@1% su 17 lingue, STEAM offre un percorso semplice e robusto verso un watermarking più equo attraverso lingue diverse.
Il recente sviluppo dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) ha significativamente migliorato la capacità dell'IA di comprendere le modalità visive. Tuttavia, gli attuali benchmark di valutazione rimangono limitati a risposte a domande a turno singolo, trascurando la complessità dei dialoghi multi-turn negli scenari del mondo reale. Per colmare questa lacuna, introduciamo MT-Video-Bench, un benchmark olistico per la comprensione video progettato per valutare gli MLLMs nei dialoghi multi-turn. Nello specifico, il nostro MT-Video-Bench valuta principalmente sei competenze fondamentali che si concentrano sulla percettività e l'interattività, comprendendo 987 dialoghi multi-turn accuratamente curati provenienti da diversi domini. Queste capacità sono rigorosamente allineate con applicazioni del mondo reale, come l'analisi sportiva interattiva e il tutoraggio intelligente basato su video multi-turn. Con MT-Video-Bench, valutiamo estensivamente vari MLLMs open-source e closed-source all'avanguardia, rivelando le loro significative discrepanze di prestazioni e limitazioni nella gestione dei dialoghi video multi-turn. Il benchmark sarà reso pubblicamente disponibile per promuovere la ricerca futura.
I recenti progressi nella generazione di video hanno reso possibile produrre contenuti visivamente accattivanti, con applicazioni ampie nella creazione di contenuti, nell'intrattenimento e nella realtà virtuale. Tuttavia, la maggior parte dei modelli esistenti basati su trasformatori di diffusione per la generazione di video è limitata a output a bassa risoluzione (<=720P) a causa della complessità computazionale quadratica del meccanismo di attenzione rispetto alla larghezza e all'altezza dell'output. Questo collo di bottiglia computazionale rende impraticabile la generazione nativa di video ad alta risoluzione (1080P/2K/4K) sia per l'addestramento che per l'inferenza. Per affrontare questa sfida, presentiamo UltraGen, un nuovo framework per la generazione di video che consente i) una sintesi efficiente e ii) end-to-end di video nativi ad alta risoluzione. Nello specifico, UltraGen presenta un'architettura di attenzione dual-branch gerarchica basata sulla decomposizione dell'attenzione globale-locale, che disaccoppia l'attenzione completa in un ramo di attenzione locale per contenuti regionali ad alta fedeltà e un ramo di attenzione globale per la coerenza semantica complessiva. Proponiamo inoltre una strategia di modellazione globale compressa spazialmente per apprendere in modo efficiente le dipendenze globali, e un meccanismo di attenzione locale gerarchica cross-window per ridurre i costi computazionali migliorando al contempo il flusso di informazioni tra diverse finestre locali. Esperimenti estensivi dimostrano che UltraGen può scalare efficacemente modelli pre-addestrati per video a bassa risoluzione fino a 1080P e persino 4K per la prima volta, superando i metodi state-of-the-art esistenti e le pipeline a due stadi basate su super-risoluzione sia nelle valutazioni qualitative che quantitative.
La qualità dei dati svolge un ruolo cruciale nel migliorare il fine-tuning supervisionato (SFT) per i grandi modelli linguistici (LLM), e la selezione dei dati a livello di token si è affermata come una direzione promettente grazie alla sua natura granulare. Nonostante le forti prestazioni empiriche, i metodi esistenti di selezione a livello di token condividono due limitazioni chiave: (1) richiedono l'addestramento o l'accesso a un modello di riferimento aggiuntivo, e (2) si basano esclusivamente sulle informazioni di perdita per la selezione dei token, il che non consente di preservare adeguatamente i token semanticamente importanti che non sono favoriti dalle metriche basate sulla perdita. Per affrontare queste sfide, proponiamo ssToken, un approccio di selezione dei token auto-modulato e consapevole della semantica. ssToken sfrutta modelli storici facilmente accessibili per calcolare la differenza di perdita per token rispetto al modello corrente, che funge da segnale auto-modulato che consente al modello di selezionare i token in modo adattivo lungo la sua traiettoria di ottimizzazione, anziché affidarsi alla perdita eccessiva di un modello di riferimento addestrato offline come nei lavori precedenti. Introduciamo inoltre una metrica di stima dell'importanza dei token basata sull'attenzione e consapevole della semantica, ortogonale alla selezione basata sulla perdita e in grado di fornire informazioni semantiche complementari per un filtraggio più efficace. Esperimenti estesi su diverse famiglie di modelli e scale dimostrano che sia la selezione auto-modulata che quella consapevole della semantica superano individualmente il fine-tuning su tutti i dati, mentre la loro integrazione—ssToken—ottiene guadagni sinergici e supera ulteriormente i precedenti metodi di selezione a livello di token, migliorando le prestazioni mantenendo l'efficienza dell'addestramento.
Il codificatore di testo originale di CLIP è limitato da una lunghezza massima di input di 77 token, il che ne ostacola la capacità di elaborare efficacemente testi lunghi e di eseguire una comprensione semantica fine. Inoltre, il codificatore di testo di CLIP non supporta input multilingue. Tutte queste limitazioni riducono significativamente la sua applicabilità in un'ampia gamma di compiti. Studi recenti hanno tentato di sostituire il codificatore di testo di CLIP con un embedder basato su LLM (Large Language Model) per migliorarne la capacità di elaborare testi lunghi, la comprensione multilingue e la comprensione semantica fine. Tuttavia, poiché gli spazi di rappresentazione degli LLM e lo spazio visione-linguaggio di CLIP sono pre-addestrati in modo indipendente senza priorità di allineamento, un allineamento diretto utilizzando l'apprendimento contrastivo può compromettere l'allineamento intrinseco visione-linguaggio nel codificatore di immagini di CLIP, portando a un sottoutilizzo delle conoscenze acquisite durante il pre-addestramento. Per affrontare questa sfida, proponiamo ProCLIP, un framework progressivo di allineamento visione-linguaggio basato sull'apprendimento curriculare, per allineare efficacemente il codificatore di immagini di CLIP con un embedder basato su LLM. Nello specifico, ProCLIP prima distilla la conoscenza dal codificatore di testo di CLIP nell'embedder basato su LLM per sfruttare le ricche conoscenze pre-addestrate di CLIP, stabilendo al contempo un allineamento iniziale tra l'embedder LLM e il codificatore di immagini di CLIP. Successivamente, ProCLIP allinea ulteriormente il codificatore di immagini di CLIP con l'embedder basato su LLM attraverso la messa a punto contrastiva immagine-testo, impiegando la regolarizzazione di auto-distillazione per evitare l'overfitting. Per ottenere un allineamento più efficace, durante l'eredità della rappresentazione e la messa a punto contrastiva vengono utilizzati la perdita di allineamento semantico delle istanze e la perdita di allineamento della struttura degli embedding. Il codice è disponibile all'indirizzo https://github.com/VisionXLab/ProCLIP.
Negli ultimi anni, i modelli generativi su larga scala per contenuti visivi (ad esempio, immagini, video e oggetti/scene 3D) hanno compiuto progressi notevoli. Tuttavia, l'addestramento di modelli di generazione video su larga scala rimane particolarmente impegnativo e dispendioso in termini di risorse a causa dell'allineamento cross-modale testo-video, delle lunghe sequenze coinvolte e delle complesse dipendenze spaziotemporali. Per affrontare queste sfide, presentiamo un framework di addestramento che ottimizza quattro pilastri: (i) elaborazione dei dati, (ii) architettura del modello, (iii) strategia di addestramento e (iv) infrastruttura per modelli di generazione video su larga scala. Queste ottimizzazioni hanno portato a significativi guadagni di efficienza e miglioramenti delle prestazioni in tutte le fasi di pre-elaborazione dei dati, compressione video, scalabilità dei parametri, pre-addestramento basato su curriculum e post-addestramento focalizzato sull'allineamento. Il nostro modello risultante, MUG-V 10B, eguaglia i recenti generatori video all'avanguardia in generale e, nelle attività di generazione video orientate all'e-commerce, supera i principali baseline open-source nelle valutazioni umane. Ancora più importante, abbiamo reso open-source l'intero stack, inclusi i pesi del modello, il codice di addestramento su larga scala basato su Megatron-Core e le pipeline di inferenza per la generazione e il miglioramento video. A nostra conoscenza, questa è la prima release pubblica di codice di addestramento per la generazione video su larga scala che sfrutta Megatron-Core per ottenere un'elevata efficienza di addestramento e una scalabilità quasi lineare su più nodi. I dettagli sono disponibili su https://github.com/Shopee-MUG/MUG-V{la nostra pagina web}.
Ragionare sulle relazioni spaziali dinamiche è essenziale, poiché sia gli osservatori che gli oggetti spesso si muovono simultaneamente. Sebbene i modelli visione-linguaggio (VLMs) e i modelli di competenza visiva eccellano in compiti 2D e scenari statici, la loro capacità di comprendere appieno scenari 3D dinamici rimane limitata. Introduciamo l'Intelligenza Spaziale Dinamica e proponiamo DSI-Bench, un benchmark con quasi 1.000 video dinamici e oltre 1.700 domande annotate manualmente che coprono nove modelli di movimento disaccoppiati di osservatori e oggetti. Progettazioni spaziali e temporali simmetriche riducono i bias e consentono una valutazione sistematica del ragionamento dei modelli sul movimento proprio e sul movimento degli oggetti. La nostra valutazione di 14 VLMs e modelli esperti rivela limitazioni chiave: i modelli spesso confondono il movimento dell'osservatore e dell'oggetto, mostrano bias semantici e non riescono a inferire accuratamente le relazioni relative in scenari dinamici. Il nostro DSI-Bench fornisce risultati preziosi e intuizioni sullo sviluppo futuro di modelli generali e di competenza con intelligenza spaziale dinamica.
Sebbene gli agenti basati su Large Language Model (LLM) mostrino potenziale nel trading automatizzato, devono ancora affrontare limitazioni critiche. I principali framework multi-agente spesso soffrono di inefficienza, producono segnali incoerenti e mancano dell'ottimizzazione end-to-end necessaria per apprendere una strategia coerente dal feedback del mercato. Per affrontare queste problematiche, introduciamo AlphaQuanter, un framework single-agent che utilizza il reinforcement learning (RL) per apprendere una politica dinamica su un flusso decisionale trasparente e potenziato da strumenti, consentendo a un singolo agente di orchestrare autonomamente gli strumenti e acquisire proattivamente informazioni su richiesta, stabilendo un processo di ragionamento trasparente e verificabile. Esperimenti estensivi dimostrano che AlphaQuanter raggiunge prestazioni all'avanguardia su metriche finanziarie chiave. Inoltre, il suo ragionamento interpretabile rivela strategie sofisticate, offrendo nuove e preziose intuizioni per i trader umani. Il nostro codice per l'acquisizione dei dati e l'addestramento dell'agente è disponibile pubblicamente all'indirizzo: https://github.com/AlphaQuanter/AlphaQuanter
In questo lavoro, dimostriamo che è possibile estrarre quantità significative di dati di addestramento per l'allineamento da un modello post-addestrato -- utili per orientare il modello a migliorare determinate capacità come il ragionamento su contesti lunghi, la sicurezza, il seguire istruzioni e la matematica. Mentre la maggior parte dei lavori correlati sulla memorizzazione si è concentrata sulla misurazione del successo dell'estrazione dei dati di addestramento attraverso il confronto di stringhe, sosteniamo che i modelli di embedding sono più adatti ai nostri obiettivi specifici. Le distanze misurate attraverso un modello di embedding di alta qualità possono identificare somiglianze semantiche tra stringhe che una metrica diversa, come la distanza di edit, faticherebbe a catturare. Infatti, nella nostra indagine, il confronto approssimativo di stringhe avrebbe sottostimato (con una stima conservativa di 10 volte) la quantità di dati che possono essere estratti a causa di artefatti banali che riducono la metrica. È interessante notare che scopriamo che i modelli tendono facilmente a rigurgitare i dati di addestramento utilizzati nelle fasi di post-addestramento come SFT o RL. Mostriamo che questi dati possono poi essere utilizzati per addestrare un modello di base, recuperando una quantità significativa delle prestazioni originali. Crediamo che il nostro lavoro esponga un rischio potenzialmente trascurato nell'estrazione dei dati di allineamento. Infine, il nostro lavoro apre una discussione interessante sugli effetti a valle delle pratiche di distillazione: poiché i modelli sembrano rigurgitare aspetti del loro insieme di addestramento, la distillazione può quindi essere considerata come un addestramento indiretto sul dataset originale del modello.
Il ragionamento video utilizzando Large Multimodal Models (LMM) si basa su costosi processi di reinforcement learning (RL) e su verbose catene di pensiero, risultando in un notevole sovraccarico computazionale sia durante l'addestramento che durante l'inferenza. Inoltre, i meccanismi che controllano il processo di pensiero in questi modelli di ragionamento sono molto limitati. In questo articolo, utilizzando l'entropia dell'output del modello come segnale, scopriamo che i modelli di alta qualità attraversano una serie di micro-esplorazioni e micro-sfruttamenti che mantengono il processo di ragionamento ancorato (ovvero, evitano un'eccessiva casualità mentre il modello esplora o riflette su una risposta). Osserviamo inoltre che, una volta terminato questo processo di "pensiero", i modelli più accurati dimostrano una migliore convergenza riducendo significativamente l'entropia attraverso una fase finale di sfruttamento (ovvero, una convergenza più certa verso una traiettoria di soluzione). Utilizziamo quindi queste nuove intuizioni teoricamente fondate per regolare direttamente il comportamento del modello durante l'inferenza, senza ricorrere a RL o fine-tuning supervisionato. Nello specifico, durante l'inferenza, il nostro approccio proposto, chiamato V-Reason (Video-Reason), adatta la cache dei valori dell'LMM attraverso pochi passi di ottimizzazione su un piccolo controller addestrabile utilizzando un obiettivo basato sull'entropia, ovvero senza necessità di supervisione da alcun dataset o RL. Questa regolazione migliora il comportamento di micro-esplorazione e sfruttamento del modello durante l'inferenza. I nostri esperimenti dimostrano che il metodo proposto ottiene miglioramenti significativi rispetto ai modelli base con istruzioni su diversi dataset di ragionamento video, riducendo il divario con i modelli addestrati con RL a meno dello 0,6% di accuratezza media senza alcun addestramento, offrendo al contempo notevoli vantaggi in termini di efficienza: i token di output sono ridotti del 58,6% rispetto al modello RL.
Le applicazioni diagnostiche mediche richiedono modelli in grado di elaborare input medici multimodali (immagini, storie cliniche, risultati di laboratorio) e generare output diversificati, inclusi sia report testuali che contenuti visivi (annotazioni, maschere di segmentazione e immagini). Nonostante questa necessità, i sistemi di intelligenza artificiale medica esistenti frammentano questo processo unificato: i modelli di comprensione delle immagini mediche interpretano le immagini ma non possono generare output visivi, mentre i modelli di generazione di immagini mediche sintetizzano immagini ma non possono fornire spiegazioni testuali. Ciò porta a lacune nella rappresentazione dei dati, nell'integrazione delle caratteristiche e nelle capacità multimodali a livello di task. A tal fine, proponiamo un framework multilivello che trae ispirazione dai flussi di lavoro diagnostici attraverso il paradigma Osservazione-Conoscenza-Analisi (OKA). Nello specifico, a livello di osservazione, costruiamo UniMed-5M, un dataset che comprende oltre 5,6 milioni di campioni che riformattano dati unimodali eterogenei in coppie multimodali per un'osservazione di base. A livello di conoscenza, proponiamo il Progressive Curriculum Learning, che introduce sistematicamente conoscenze mediche multimodali. A livello di analisi, introduciamo UniMedVL, il primo modello medico multimodale unificato per l'analisi simultanea di task di comprensione e generazione di immagini all'interno di un'unica architettura. UniMedVL raggiunge prestazioni superiori su cinque benchmark di comprensione delle immagini mediche, eguagliando modelli specializzati nella qualità di generazione su otto modalità di imaging medico. Fondamentalmente, la nostra architettura unificata consente la condivisione bidirezionale della conoscenza: i task di generazione migliorano le caratteristiche di comprensione visiva, dimostrando che l'integrazione di capacità tradizionalmente separate all'interno di un unico framework medico consente miglioramenti in diversi task di visione e linguaggio medico. Il codice è disponibile all'indirizzo https://github.com/uni-medical/UniMedVL.
Presentiamo Mono4DGS-HDR, il primo sistema per la ricostruzione di scene 4D ad alto range dinamico (HDR) renderizzabili a partire da video monoculari a basso range dinamico (LDR) non posati acquisiti con esposizioni alternate. Per affrontare una sfida così complessa, proponiamo un framework unificato con un approccio di ottimizzazione a due fasi basato su Gaussian Splatting. La prima fase apprende una rappresentazione HDR del video mediante Gaussiane nello spazio delle coordinate della camera ortografica, eliminando la necessità di pose della camera e consentendo una ricostruzione iniziale robusta del video HDR. La seconda fase trasforma le Gaussiane del video nello spazio mondiale e affina congiuntamente le Gaussiane mondiali insieme alle pose della camera. Inoltre, proponiamo una strategia di regolarizzazione temporale della luminanza per migliorare la coerenza temporale dell'aspetto HDR. Poiché questo compito non è stato studiato in precedenza, abbiamo costruito un nuovo benchmark di valutazione utilizzando dataset pubblicamente disponibili per la ricostruzione di video HDR. Esperimenti estensivi dimostrano che Mono4DGS-HDR supera significativamente soluzioni alternative adattate da metodi all'avanguardia sia nella qualità del rendering che nella velocità.
I Large Language Model (LLM) sono potenti ragionatori nel linguaggio naturale, ma le loro azioni sono tipicamente limitate all'emissione di token lessicali. Di conseguenza, le interazioni con ambienti esterni — come operatori simbolici o simulatori — devono essere espresse attraverso testi in formati predefiniti, analizzati e indirizzati a interfacce esterne. Ciò sovraccarica il linguaggio del modello con compiti sia di ragionamento che di controllo e richiede un parser creato manualmente, esterno all'LLM. Per affrontare questo problema, disaccoppiamo le interazioni con l'ambiente dal linguaggio internalizzandole in uno Spazio di Azione Espanso (ExpA), al di là del vocabolario. Il modello inizia a ragionare nell'ambiente linguistico predefinito, ma può attivare azioni di routing e passare a un ambiente esterno in qualsiasi momento. Da lì, il modello può solo invocare azioni specifiche per l'ambiente, ricevere feedback dall'ambiente e potenzialmente tornare al linguaggio come risultato. Per promuovere un'esplorazione efficace dello spazio di azione espanso e dei nuovi ambienti, introduciamo il Reinforcement Learning con Spazio di Azione Espanso (EARL) con ottimizzazione controfattuale delle politiche. Su compiti che richiedono interazioni multi-turno e pianificazione contingente, EARL supera i forti baseline con azioni vincolate al vocabolario. Si comporta in modo robusto nell'apprendimento multi-task basato su calcolatrice e, nel problema di ordinamento parzialmente osservato, raggiunge una precisione perfetta nel Sort-4 mentre scopre autonomamente un algoritmo efficiente competitivo con i design classici.
Gli agenti di codice sono sempre più affidati per correggere autonomamente i bug su piattaforme come GitHub, tuttavia la loro valutazione in termini di sicurezza si concentra quasi esclusivamente sulla correttezza funzionale. In questo articolo, riveliamo un nuovo tipo di minaccia per gli agenti di codice nel mondo reale: le patch Funzionalmente Corrette ma Vulnerabili (FCV), che superano tutti i casi di test ma contengono codice vulnerabile. Con il nostro FCV-Attack, che può essere deliberatamente creato da attaccanti malintenzionati o implicitamente introdotto da sviluppatori benigni, dimostriamo che i modelli LLM all'avanguardia (ad esempio, ChatGPT e Claude) e gli scaffold di agenti (ad esempio, SWE-agent e OpenHands) sono tutti vulnerabili a questa minaccia FCV; su 12 combinazioni di agenti-modelli su SWE-Bench, l'attacco richiede solo l'accesso in modalità black-box e una singola query all'agente di codice per essere eseguito. Ad esempio, per CWE-538 (vulnerabilità di esposizione delle informazioni), l'FCV-Attack raggiunge un tasso di successo dell'attacco del 40,7% su GPT-5 Mini + OpenHands. I nostri risultati rivelano un'importante minaccia per la sicurezza trascurata dagli attuali paradigmi di valutazione e sollecitano lo sviluppo di difese consapevoli della sicurezza per gli agenti di codice.
I Large Multimodal Models (LMMs) sono sempre più applicati alla ricerca scientifica, ma rimane incerto se possano comprendere e ragionare in modo affidabile sulla complessità multimodale dei paper. Una sfida centrale risiede nel rilevare e risolvere le incongruenze tra testo, figure, tabelle ed equazioni, problemi che sono spesso sottili, specifici del dominio e che alla fine minano chiarezza, riproducibilità e fiducia. I benchmark esistenti trascurano questo problema, isolando singole modalità o basandosi su errori sintetici che non catturano la complessità del mondo reale. Introduciamo PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), il primo benchmark basato su incongruenze segnalate dai revisori in paper scientifici. Attraverso una pipeline multi-fase di estrazione delle revisioni, filtraggio assistito da LLM e verifica umana, curiamo 262 incongruenze da 242 paper. Sulla base di questo set, progettiamo tre task: identificazione delle incongruenze, correzione e abbinamento di coppie, che valutano la capacità di un modello di rilevare, correggere e ragionare sulle incongruenze tra diverse modalità. Inoltre, per affrontare il noto problema delle scorciatoie basate sulla scelta nelle valutazioni a scelta multipla, in cui i modelli sfruttano i pattern delle risposte senza comprendere veramente la domanda, introduciamo rappresentazioni delle risposte strutturate in JSON che minimizzano i bias linguistici riducendo la dipendenza da indizi stilistici superficiali. Testiamo 21 LMM leader, inclusi modelli open-weight di grandi dimensioni (GLM-4.5V 106B, InternVL3 78B) e modelli proprietari (Gemini 2.5 Pro, GPT-5 con alto ragionamento). I risultati rivelano prestazioni sorprendentemente basse (26,1-54,2%), sottolineando la sfida del ragionamento scientifico multimodale e stimolando progressi verso assistenti scientifici affidabili.
Il fondamento della scienza riproducibile risiede in protocolli che siano precisi, logicamente ordinati e eseguibili. La generazione autonoma di questi protocolli attraverso query in linguaggio naturale potrebbe migliorare notevolmente l'efficienza del processo di riproduzione. Tuttavia, gli attuali modelli linguistici di grandi dimensioni (LLM) spesso generano protocolli incompleti o incoerenti, limitandone l'utilità. Per affrontare questa limitazione, introduciamo innanzitutto SciRecipe, un dataset su larga scala di oltre 12K protocolli strutturati che coprono 27 sottocampi biologici e includono sia compiti di comprensione che di problem-solving. Per migliorare ulteriormente la generazione dei protocolli, proponiamo il paradigma "Sketch-and-Fill", che separa analisi, strutturazione ed espressione per garantire che ogni passo sia esplicito e verificabile. A complemento di ciò, il meccanismo di ricompensa strutturato basato su componenti valuta la granularità dei passi, l'ordine delle azioni e la fedeltà semantica, allineando l'ottimizzazione del modello con l'affidabilità sperimentale. Basandoci su questi componenti, sviluppiamo Thoth, addestrato attraverso un processo a stadi Knowledge-to-Action che progredisce dall'acquisizione di conoscenza al ragionamento operativo e infine alla generazione di protocolli robusti e eseguibili. Su più benchmark, Thoth supera costantemente sia LLM proprietari che open-source, ottenendo miglioramenti significativi nell'allineamento dei passi, nella sequenza logica e nell'accuratezza semantica. Il nostro approccio apre la strada a assistenti scientifici affidabili che collegano la conoscenza con l'esecuzione sperimentale. Tutti i dati, il codice e i modelli saranno rilasciati pubblicamente.
La qualità dell'immagine è un fattore critico per la distribuzione di contenuti visivamente accattivanti sulle piattaforme web. Tuttavia, le immagini spesso subiscono un degrado a causa di operazioni lossy applicate dalle reti sociali online (OSN), influenzando negativamente l'esperienza dell'utente. Il ripristino delle immagini è il processo di recupero di un'immagine pulita e di alta qualità da un input degradato. Recentemente, i modelli di ripristino delle immagini multi-task (all-in-one) hanno attirato una significativa attenzione, grazie alla loro capacità di gestire simultaneamente diversi tipi di degrado delle immagini. Tuttavia, questi modelli spesso presentano un numero eccessivamente elevato di parametri addestrabili, rendendoli computazionalmente inefficienti. In questo articolo, proponiamo una strategia per comprimere i modelli di ripristino delle immagini multi-task. Il nostro obiettivo è scoprire sottoreti altamente sparse all'interno di modelli profondi sovraparametrizzati che possano eguagliare o addirittura superare le prestazioni delle loro controparti dense. Il modello proposto, denominato MIR-L, utilizza una strategia di potatura iterativa che rimuove i pesi di bassa magnitudine attraverso più round, ripristinando i pesi rimanenti alla loro inizializzazione originale. Questo processo iterativo è importante per l'ottimizzazione del modello di ripristino delle immagini multi-task, scoprendo efficacemente "biglietti vincenti" che mantengono o superano le prestazioni all'avanguardia a livelli di sparsità elevati. La valutazione sperimentale su dataset di riferimento per i compiti di deraining, dehazing e denoising mostra che MIR-L conserva solo il 10% dei parametri addestrabili mantenendo elevate prestazioni nel ripristino delle immagini. Il nostro codice, i dataset e i modelli pre-addestrati sono resi pubblicamente disponibili all'indirizzo https://github.com/Thomkat/MIR-L.
Una delle principali sfide nell'inferenza dei modelli linguistici di grandi dimensioni è il compromesso tra velocità di generazione e qualità dell'output. I modelli autoregressivi producono testi di alta qualità ma generano i token in modo sequenziale. I modelli di diffusione possono generare token in parallelo, ma spesso richiedono molte iterazioni per raggiungere la stessa qualità. Proponiamo la "diffusione pianificata", un metodo ibrido che combina i punti di forza di entrambi i paradigmi. La diffusione pianificata opera in due fasi: prima, il modello crea un breve piano autoregressivo che suddivide l'output in span più piccoli e indipendenti. Secondo, il modello genera questi span simultaneamente utilizzando la diffusione. Questo approccio espande la frontiera di Pareto tra velocità e qualità e offre un percorso pratico per una generazione di testi più veloce e di alta qualità. Su AlpacaEval, una suite di 805 prompt di istruzioni, la diffusione pianificata raggiunge un compromesso Pareto-ottimale tra qualità e latenza, ottenendo un'accelerazione da 1,27x a 1,81x rispetto alla generazione autoregressiva con un calo del tasso di vittoria compreso tra lo 0,87% e il 5,4%, rispettivamente. La nostra analisi di sensibilità mostra che il meccanismo di pianificazione della diffusione pianificata è minimo e affidabile, e che esistono semplici controlli in fase di esecuzione per fornire una gestione flessibile del compromesso qualità-latenza.
I modelli linguistici di grandi dimensioni (LLM) mostrano un allineamento forte ma superficiale: rifiutano direttamente le query dannose quando ci si aspetta un rifiuto all'inizio di un turno dell'assistente, ma questa protezione crolla una volta che una continuazione dannosa è in corso (sia attraverso attacchi avversari che tramite attacchi di prefill dannosi dell'assistente). Ciò solleva una questione fondamentale: è possibile sbloccare l'allineamento superficiale innato nei LLM per garantire la sicurezza a qualsiasi profondità di generazione? Per raggiungere questo obiettivo, proponiamo Any-Depth Alignment (ADA), una difesa efficace al momento dell'inferenza con un sovraccarico trascurabile. ADA si basa sulla nostra osservazione che l'allineamento è concentrato nei token di intestazione dell'assistente attraverso l'uso ripetuto nell'addestramento al rifiuto superficiale, e questi token possiedono i forti prior di allineamento del modello. Reintroducendo questi token a metà flusso, ADA induce il modello a rivalutare la dannosità e a recuperare i rifiuti in qualsiasi punto della generazione. Attraverso diverse famiglie di modelli open-source (Llama, Gemma, Mistral, Qwen, DeepSeek e gpt-oss), ADA raggiunge una robusta performance di sicurezza senza richiedere alcuna modifica ai parametri del modello di base. Ottiene un tasso di rifiuto vicino al 100% contro attacchi di prefill avversari che vanno da decine a migliaia di token. Inoltre, ADA riduce il tasso di successo medio di prominenti attacchi di prompt avversari (come GCG, AutoDAN, PAIR e TAP) a meno del 3%. Tutto ciò viene realizzato preservando l'utilità su compiti benigni con un minimo di sovra-rifiuto. ADA mantiene questa resilienza anche dopo che il modello di base è stato sottoposto a successivi tuning di istruzione (benigni o avversari).
I modelli linguistici di grandi dimensioni ottimizzati per le istruzioni (IT-LLMs) dimostrano un forte ragionamento zero-shot, ma la loro capacità di eseguire istruzioni semplici e autonome rimane poco esplorata, nonostante ciò sia fondamentale per il seguire istruzioni complesse. Valutiamo 20 IT-LLMs su benchmark modificati di MMLU e MMLU-Pro, variando sistematicamente il formato delle etichette delle opzioni (alfabetico, numerico, romano) mantenendo invariato il loro significato sotto quattro paradigmi, ovvero: (1) Con istruzioni esplicite, i cambiamenti delle etichette causano ampie variazioni di prestazione (ad esempio, -30,45% per le etichette romane rispetto a quelle numeriche), rivelando un bias legato al formato delle istruzioni. (2) Senza istruzioni, le prestazioni diminuiscono ulteriormente (fino a -10,84%) e la sensibilità alle etichette si intensifica, sottolineando il ruolo della guida esplicita. (3) Quando i contenuti delle opzioni vengono rimossi, i modelli non superano i benchmark di scelta casuale tranne che con etichette numeriche, suggerendo una debole aderenza a direttive atomiche. (4) Esempi three-shot non producono guadagni significativi in robustezza o fedeltà, e le analisi di generazione mostrano errori persistenti nelle etichette, specialmente per formati non numerici. Tra le dimensioni dei modelli, gli LLM più grandi raggiungono una maggiore accuratezza ma rimangono incoerenti nell'aderenza alle istruzioni. Questi risultati evidenziano le insufficienze degli attuali paradigmi di ottimizzazione per le istruzioni e sottolineano la necessità di metodi di valutazione e strategie di formazione che mirino esplicitamente al seguire istruzioni atomiche.
E se gli agenti artificiali non solo potessero comunicare, ma anche evolversi, adattarsi e rimodellare i loro mondi in modi che non possiamo pienamente prevedere? Con i modelli linguistici avanzati (LLM) che ora alimentano sistemi multi-agente e simulazioni sociali, stiamo assistendo a nuove possibilità per modellare ambienti aperti e in continua evoluzione. Tuttavia, la maggior parte delle simulazioni attuali rimane confinata entro sandbox statiche, caratterizzate da compiti predefiniti, dinamiche limitate e criteri di valutazione rigidi. Queste limitazioni impediscono loro di catturare la complessità delle società reali. In questo articolo, sosteniamo che i benchmark statici e specifici per compiti sono fondamentalmente inadeguati e devono essere ripensati. Esaminiamo criticamente le architetture emergenti che combinano LLM con dinamiche multi-agente, evidenziando ostacoli chiave come bilanciare stabilità e diversità, valutare comportamenti imprevisti e scalare verso una maggiore complessità, e introduciamo una nuova tassonomia per questo campo in rapida evoluzione. Infine, presentiamo una roadmap di ricerca incentrata sull'apertura, la co-evoluzione continua e lo sviluppo di ecosistemi di IA resilienti e socialmente allineati. Invitiamo la comunità a superare i paradigmi statici e a contribuire a plasmare la prossima generazione di simulazioni multi-agente adattive e socialmente consapevoli.
Studiamo la previsione a breve orizzonte del numero settimanale di incidenti terroristici utilizzando il Global Terrorism Database (GTD, 1970-2016). Costruiamo una pipeline riproducibile con suddivisioni temporali fisse e valutiamo una rete Bidirectional LSTM (BiLSTM) rispetto a robusti modelli classici di riferimento (seasonal-naive, lineare/ARIMA) e a una baseline profonda LSTM-Attention. Sul set di test tenuto da parte, la BiLSTM raggiunge un RMSE di 6.38, superando LSTM-Attention (9.19; +30.6%) e una baseline di regressione lineare con ritardi (+35.4% di guadagno in RMSE), con miglioramenti paralleli in MAE e MAPE. Le analisi di ablazione che variano la memoria temporale, la lunghezza della storia di addestramento, la granularità spaziale, la dimensione del lookback e i gruppi di feature mostrano che i modelli addestrati su dati storici lunghi generalizzano meglio; un lookback moderato (20-30 settimane) fornisce un contesto solido; e la codifica bidirezionale è fondamentale per catturare sia i modelli di accumulo che quelli di conseguenza all'interno della finestra. L'analisi dei gruppi di feature indica che la struttura a breve orizzonte (conteggi ritardati e statistiche mobili) contribuisce maggiormente, con le feature geografiche e relative alle vittime che aggiungono un incremento incrementale. Rilasciamo codice, configurazioni e tabelle di risultati compatte, e forniamo un documento di dichiarazione dati/etica che documenta la licenza GTD e l'uso esclusivo per la ricerca. Nel complesso, lo studio offre un riferimento trasparente e superiore alle baseline per la previsione degli incidenti nel GTD.
I dati affidabili e verificabili sono diventati un fattore chiave per il miglioramento delle capacità nei moderni modelli linguistici, consentendo un apprendimento per rinforzo stabile con ricompense verificabili e una distillazione efficace che trasferisce competenze attraverso compiti di matematica, programmazione e agenti autonomi. Tuttavia, la costruzione di dati sintetici verificabili e generalizzabili rimane difficile a causa della generazione soggetta a allucinazioni e di artefatti di verifica deboli o banali che non riescono a distinguere soluzioni forti da quelle deboli. Gli approcci esistenti spesso si basano su euristiche specifiche per il compito o filtri post-hoc che non si trasferiscono tra domini e mancano di un valutatore universale e principiato della verificabilità. In questo lavoro, introduciamo un framework di sintesi dei dati evolutivo, agnostico rispetto al compito, guidato da strategie e verificabile eseguibile che, partendo da una supervisione iniziale minima, sintetizza congiuntamente problemi, soluzioni candidate diversificate e artefatti di verifica, e scopre iterativamente strategie attraverso un valutatore basato sulla coerenza che impone un accordo tra controlli annotati dall'uomo e indotti dalla strategia. Questa pipeline trasforma il filtraggio in una sintesi principiata: assembla in modo affidabile istanze di addestramento coerenti e verificabili e generalizza senza regole specifiche per il dominio. I nostri esperimenti dimostrano l'efficacia dell'approccio proposto sia sotto il paradigma di addestramento RLVR che di distillazione del modello. I risultati mostrano che l'addestramento con i nostri dati sintetizzati produce miglioramenti significativi sia nei compiti di LiveCodeBench che di AgentBench-OS, evidenziando la robusta generalizzazione del nostro framework.
I modelli linguistici di grandi dimensioni potenziati da strumenti (LLMs) stanno emergendo come agenti di ricerca avanzati, sistemi in grado di scomporre query complesse, recuperare evidenze esterne e sintetizzare risposte fondate. Tuttavia, gli attuali agenti rimangono limitati da un recupero superficiale, metriche di allineamento deboli e un comportamento fragile nell'uso degli strumenti. Introduciamo PokeeResearch-7B, un agente di ricerca avanzato da 7 miliardi di parametri, costruito all'interno di un framework unificato di apprendimento per rinforzo per robustezza, allineamento e scalabilità. PokeeResearch-7B è addestrato tramite un framework di Reinforcement Learning from AI Feedback (RLAIF) senza annotazioni, per ottimizzare le politiche utilizzando segnali di ricompensa basati su LLM che catturano accuratezza fattuale, fedeltà delle citazioni e aderenza alle istruzioni. Un'impalcatura di ragionamento multi-chiamata guidata da una catena di pensiero migliora ulteriormente la robustezza attraverso l'autoverifica e il recupero adattivo da fallimenti degli strumenti. Tra 10 benchmark popolari per la ricerca avanzata, PokeeResearch-7B raggiunge prestazioni all'avanguardia tra gli agenti di ricerca avanzati su scala 7B. Ciò evidenzia che un attento design di apprendimento per rinforzo e ragionamento può produrre agenti di IA efficienti, resilienti e di livello di ricerca. Il modello e il codice di inferenza sono open-source con licenza MIT all'indirizzo https://github.com/Pokee-AI/PokeeResearchOSS.