Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante il successo dell'apprendimento per rinforzo per i grandi modelli linguistici, una modalità di fallimento comune è la ridotta diversità del campionamento, in cui la politica genera ripetutamente comportamenti erronei simili. La classica regolarizzazione dell'entropia incoraggia la casualità sotto la politica corrente, ma non scoraggia esplicitamente i modelli di fallimento ricorrenti tra i diversi rollout. Proponiamo MEDS, un framework di modellazione dinamica delle ricompense potenziato dalla memoria, che incorpora segnali comportamentali storici nella progettazione delle ricompense. Memorizzando e sfruttando le rappresentazioni intermedie del modello, catturiamo le caratteristiche dei rollout passati e utilizziamo il clustering basato sulla densità per identificare modelli di errore che si ripetono frequentemente. I rollout assegnati a cluster di errore più prevalenti vengono penalizzati più pesantemente, incoraggiando un'esplorazione più ampia riducendo al contempo gli errori ripetuti. Su cinque dataset e tre modelli di base, MEDS migliora costantemente le prestazioni medie rispetto ai baseline esistenti, ottenendo guadagni fino a 4,13 punti pass@1 e 4,37 punti pass@128. Ulteriori analisi che utilizzano sia annotazioni basate su LLM che metriche di diversità quantitative mostrano che MEDS aumenta la diversità comportamentale durante il campionamento.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati per la generazione di codice, ma la generazione di codice quantistico è ancora valutata principalmente all'interno di singoli framework, rendendo difficile separare il ragionamento quantistico dalla familiarità con il framework. Introduciamo QuanBench+, un benchmark unificato che comprende Qiskit, PennyLane e Cirq, con 42 task allineati che coprono algoritmi quantistici, decomposizione di porte e preparazione degli stati. Valutiamo i modelli con test funzionali eseguibili, riportiamo Pass@1 e Pass@5 e utilizziamo un'accettazione basata sulla divergenza KL per gli output probabilistici. Studiamo inoltre il Pass@1 dopo una riparazione basata sul feedback, in cui un modello può revisionare il codice dopo un errore di runtime o una risposta errata. Tra i framework, i punteggi one-shot più elevati raggiungono il 59,5% in Qiskit, il 54,8% in Cirq e il 42,9% in PennyLane; con la riparazione basata sul feedback, i punteggi migliori salgono rispettivamente all'83,3%, al 76,2% e al 66,7%. Questi risultati mostrano un progresso evidente, ma anche che una generazione affidabile di codice quantistico multi-framework rimane irrisolta e dipende ancora fortemente dalla conoscenza specifica del framework.
In qualità di architettura fondante del machine learning moderno, i Transformer hanno trainato progressi straordinari in svariati ambiti dell’IA. Nonostante il loro impatto rivoluzionario, una sfida persistente in varie implementazioni dei Transformer è il fenomeno dell’Attention Sink (AS), in cui una quantità sproporzionata di attenzione si concentra su un piccolo sottoinsieme di token specifici ma non informativi. L’AS complica l’interpretabilità, influenzando significativamente le dinamiche di addestramento e inferenza, e aggrava problemi come le allucinazioni. Negli ultimi anni, una cospicua mole di ricerca è stata dedicata a comprendere e sfruttare l’AS. Tuttavia, manca ancora una rassegna completa che consolidi sistematicamente gli studi correlati all’AS e offra linee guida per i progressi futuri. Per colmare questa lacuna, presentiamo la prima survey sull’AS, strutturata attorno a tre dimensioni chiave che definiscono lo scenario di ricerca attuale: Utilizzo Fondamentale, Interpretazione Meccanicistica e Mitigazione Strategica. Il nostro lavoro fornisce un contributo cruciale chiarendo i concetti chiave e guidando i ricercatori attraverso l’evoluzione e le tendenze del campo. Auspichiamo che questa survey diventi una risorsa di riferimento, consentendo a ricercatori e professionisti di gestire efficacemente l’AS nell’attuale paradigma dei Transformer, ispirando al contempo avanzamenti innovativi per la prossima generazione di Transformer. L’elenco dei paper di questo lavoro è disponibile all’indirizzo https://github.com/ZunhaiSu/Awesome-Attention-Sink.
In questo lavoro, studiamo la Generazione di Video di Interazione Uomo-Oggetto (HOIVG), che mira a sintetizzare video di alta qualità di interazioni uomo-oggetto condizionati da testo, immagini di riferimento, audio e postura. Questo compito ha un notevole valore pratico per l'automazione della creazione di contenuti in applicazioni reali, come dimostrazioni di e-commerce, produzione di video brevi e intrattenimento interattivo. Tuttavia, gli approcci esistenti non riescono a soddisfare tutte queste condizioni necessarie. Presentiamo OmniShow, un framework end-to-end progettato per questo compito pratico ma impegnativo, in grado di armonizzare condizioni multimodali e fornire prestazioni di livello industriale. Per superare il compromesso tra controllabilità e qualità, introduciamo il Condizionamento Unificato per Canale per un'efficiente iniezione di immagini e postura, e l'Attenzione con Cancello al Contesto Locale per garantire una precisa sincronizzazione audio-video. Per affrontare efficacemente la scarsità di dati, sviluppiamo una strategia di Addestramento Disaccoppiato-Poi-Congiunto che sfrutta un processo di training multi-stadio con fusione di modelli per utilizzare efficientemente dataset eterogenei di sotto-compiti. Inoltre, per colmare il divario valutativo in questo campo, istituiamo HOIVG-Bench, un benchmark dedicato e completo per HOIVG. Esperimenti estensivi dimostrano che OmniShow raggiunge prestazioni complessive all'avanguardia in varie configurazioni di condizionamento multimodale, stabilendo uno standard solido per il nascente compito HOIVG.
I recenti progressi nei trasformatori autoregressivi hanno dimostrato un notevole potenziale nella generazione di mesh di qualità artistica. Tuttavia, le strategie di ordinamento dei token impiegate dai metodi esistenti generalmente non soddisfano gli standard professionali degli artisti, dove l'ordinamento basato sulle coordinate produce sequenze inefficientemente lunghe, e le euristiche basate su patch interrompono il flusso continuo dei bordi e la regolarità strutturale essenziali per una modellazione di alta qualità. Per affrontare queste limitazioni, proponiamo Strips as Tokens (SATO), un nuovo framework con una strategia di ordinamento dei token ispirata alle strip triangolari. Costruendo la sequenza come una catena connessa di facce che codifica esplicitamente i contorni UV, il nostro metodo preserva naturalmente il flusso organizzato dei bordi e il layout semantico caratteristici delle mesh create dagli artisti. Un vantaggio chiave di questa formulazione è la sua rappresentazione unificata, che consente alla stessa sequenza di token di essere decodificata in una mesh triangolare o quadrilatera. Questa flessibilità facilita l'addestramento congiunto su entrambi i tipi di dati: i dati triangolari su larga scala forniscono prior strutturali fondamentali, mentre i dati quad di alta qualità migliorano la regolarità geometrica degli output. Esperimenti estesi dimostrano che SATO supera costantemente i metodi precedenti in termini di qualità geometrica, coerenza strutturale e segmentazione UV.
I modelli multimodali unificati che integrano comprensione e generazione visiva affrontano una sfida fondamentale: la generazione visiva comporta costi computazionali sostanzialmente più elevati rispetto alla comprensione, in particolare per il video. Questo squilibrio ci motiva a invertire il paradigma convenzionale: piuttosto che estendere i modelli linguistici multimodali orientati alla comprensione per supportare la generazione, proponiamo Uni-ViGU, un framework che unifica la generazione e la comprensione video estendendo un generatore video come base. Introduciamo un metodo di flusso unificato che esegue il *flow matching* continuo per il video e quello discreto per il testo all'interno di un unico processo, abilitando una generazione multimodale coerente. Proponiamo ulteriormente un framework basato su MoE (*Mixture of Experts*) guidato dalla modalità, che potenzia i blocchi Transformer con layer leggeri per la generazione testuale preservando al contempo i priori generativi. Per riutilizzare la conoscenza generativa per la comprensione, progettiamo un meccanismo di addestramento bidirezionale con due stadi: il *Knowledge Recall* ricostruisce i prompt di input per sfruttare le corrispondenze testo-video apprese, mentre il *Capability Refinement* effettua un fine-tuning su didascalie dettagliate per stabilire rappresentazioni condivise discriminative. Gli esperimenti dimostrano che Uni-ViGU raggiunge prestazioni competitive sia nella generazione che nella comprensione video, validando le architetture incentrate sulla generazione come percorso scalabile verso un'intelligenza multimodale unificata. Pagina del Progetto e Codice: https://fr0zencrane.github.io/uni-vigu-page/.
I recenti progressi nei modelli multimodali hanno stimolato rapidi avanzamenti nella comprensione, generazione e modifica dell'audio. Tuttavia, queste capacità sono tipicamente affrontate da modelli specializzati, lasciando lo sviluppo di un framework veramente unificato in grado di integrare perfettamente tutti e tre i compiti ancora poco esplorato. Sebbene alcuni lavori pionieristici abbiano esplorato l'unificazione della comprensione e della generazione audio, essi rimangono spesso confinati a domini specifici. Per affrontare questa lacuna, introduciamo Audio-Omni, il primo framework end-to-end che unifica generazione e modifica attraverso i domini generali del suono, della musica e della voce, con integrate capacità di comprensione multimodale. La nostra architettura sinergizza un Modello Linguistico Multimodale Large congelato per il ragionamento di alto livello con un Diffusion Transformer addestrabile per la sintesi ad alta fedeltà. Per superare la critica carenza di dati nella modifica audio, abbiamo costruito AudioEdit, un nuovo dataset su larga scala comprendente oltre un milione di coppie di editing meticolosamente curate. Esperimenti estensivi dimostrano che Audio-Omni raggiunge prestazioni allo stato dell'arte su una serie di benchmark, superando gli approcci unificati precedenti e ottenendo prestazioni pari o superiori a modelli specialistici esperti. Oltre alle sue capacità fondamentali, Audio-Omni mostra notevoli capacità ereditate, tra cui la generazione con ragionamento arricchito da conoscenza, la generazione in-context e il controllo cross-linguale zero-shot per la generazione audio, evidenziando una direzione promettente verso un'intelligenza audio generativa universale. Il codice, il modello e il dataset saranno rilasciati pubblicamente su https://zeyuet.github.io/Audio-Omni.
Gli agenti di codice stanno progredendo rapidamente, ma il debug degli stessi sta diventando sempre più difficile. Poiché i framework orchestrano chiamate parallele a strumenti e flussi di lavoro multi-stadio su compiti complessi, le transizioni di stato dell'agente e la propagazione degli errori diventano difficili da osservare. In queste esecuzioni, un passo falso iniziale può intrappolare l'agente in loop improduttivi o persino degenerare in errori fondamentali, formando catene di errori nascoste che rendono difficile capire quando l'agente devia dal percorso e perché. Le attuali analisi di tracciamento degli agenti si concentrano su interazioni semplici o si basano su ispezioni manuali su piccola scala, limitandone la scalabilità e l'utilità per flussi di lavoro di codifica reali. Presentiamo CodeTracer, un'architettura di tracciamento che analizza artefatti di esecuzione eterogenei tramite estrattori evolutivi, ricostruisce la cronologia completa delle transizioni di stato come un albero di traccia gerarchico con memoria persistente ed esegue la localizzazione dell'insorgenza di fallimenti per identificare l'origine del fallimento e la sua catena discendente. Per abilitare una valutazione sistematica, costruiamo CodeTraceBench da una vasta raccolta di traiettorie eseguite generate da quattro framework di agenti di codice ampiamente utilizzati su vari compiti di programmazione (ad esempio, correzione di bug, refactoring e interazione con terminale), con supervisione a livello di stadio e di passo per la localizzazione dei fallimenti. Gli esperimenti mostrano che CodeTracer supera sostanzialmente il prompting diretto e i baseline leggeri, e che la riproduzione dei suoi segnali diagnostici recupera costantemente le esecuzioni originariamente fallite con budget equivalenti. Il nostro codice e i nostri dati sono pubblicamente disponibili.
I modelli multimodali unificati (UMM) sono stati concepiti per combinare la capacità di ragionamento dei grandi modelli linguistici (LLM) con la capacità generativa dei modelli visivi. Tuttavia, nella pratica, questa sinergia rimane elusiva: gli UMM non riescono a trasferire un ragionamento simile a quello degli LLM nella sintesi di immagini ed esibiscono comportamenti di risposta divergenti. Definiamo questo fenomeno *pseudo-unificazione*. Diagnosticarne le cause interne è importante, ma i metodi di analisi esistenti o mancano di insight interno al modello o ignorano le dipendenze tra prompt e risposta. Per affrontare queste limitazioni, proponiamo un framework di analisi di tipo information-theoretic che analizza congiuntamente come gli UMM codificano gli input e generano gli output. Applicato a dieci UMM rappresentativi, il nostro framework rivela che la pseudo-unificazione origina da una duplice divergenza: (i) *Codifica Modo-Asimmetrica*, dove la visione e il linguaggio seguono traiettorie di entropia diverse, e (ii) *Risposta a Pattern Separati*, dove la generazione di testo mostra un'elevata entropia creativa mentre la sintesi di immagini impone una fedeltà a bassa entropia. Solo i modelli che unificano entrambi gli aspetti (ad esempio, tramite predizione contestuale) raggiungono un'unificazione più genuina, abilitando una generazione testo-immagine basata sul ragionamento più robusta anche con un numero inferiore di parametri. Il nostro lavoro fornisce la prima analisi interna al modello dell'unificazione, dimostrando che una reale sinergia multimodale richiede coerenza nel flusso di informazioni, non solo parametri condivisi.
Gli agenti LLM dimostrano oggi prestazioni solide nell'ingegneria del software, nella ricerca approfondita, nell'automazione di interfacce grafiche e in varie altre applicazioni, mentre i recenti modelli e architetture di agenti integrano sempre più queste capacità in sistemi unificati. Tuttavia, la maggior parte delle valutazioni continua a testare queste capacità in modo isolato, lasciando un vuoto per casi d'uso più diversificati che richiedono agli agenti di combinare diverse abilità. Presentiamo CocoaBench, un benchmark per agenti digitali unificati, costruito a partire da compiti umani a lungo orizzonte che richiedono una composizione flessibile di visione, ricerca e codifica. I compiti sono specificati solo da un'istruzione e da una funzione di valutazione automatica sull'output finale, consentendo una valutazione affidabile e scalabile across diverse infrastrutture di agenti. Presentiamo anche CocoaAgent, un'architettura condivisa e leggera per confronti controllati tra diversi modelli di base. Gli esperimenti mostrano che gli agenti attuali sono ancora lontani dall'essere affidabili su CocoaBench, con il miglior sistema valutato che raggiunge solo il 45,1% di tasso di successo. La nostra analisi indica inoltre un ampio margine di miglioramento nel ragionamento e nella pianificazione, nell'uso degli strumenti e nella loro esecuzione, e nella comprensione visiva.
Presentiamo Audio Flamingo Next (AF-Next), la nuova generazione e il modello linguistico-audio di grandi dimensioni più capace della serie Audio Flamingo, progettato per far progredire la comprensione e il ragionamento su parlato, suoni ambientali e musica. Risppetto ad Audio Flamingo 3, AF-Next introduce: (i) un modello linguistico-audio base più potente che migliora significativamente l'accuratezza in varie attività di comprensione audio; (ii) strategie scalabili per costruire dati su larga scala per la comprensione e il ragionamento audio, andando oltre i benchmark accademici esistenti; (iii) il supporto per input audio lunghi e complessi fino a 30 minuti; e (iv) il Temporal Audio Chain-of-Thought, un nuovo paradigma di ragionamento che ancora esplicitamente i passaggi di ragionamento intermedi a timestamp nell'audio lungo, consentendo un allineamento temporale granulare e una migliore interpretabilità. Per abilitare queste capacità, abbiamo prima condotto un'analisi sistematica di Audio Flamingo 3 per identificare le lacune chiave nella comprensione e nel ragionamento audio. Successivamente, abbiamo curato e scalato nuovi dataset su larga scala, per un totale di oltre 1 milione di ore, per affrontare queste limitazioni ed espandere i dataset esistenti AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat. AF-Next è stato addestrato utilizzando una strategia basata su un curriculum che abbraccia stadi di pre-addestramento, mid-addestramento e post-addestramento. Esperimenti estensivi su 20 benchmark di comprensione e ragionamento audio, inclusi compiti impegnativi con audio lungo, mostrano che AF-Next supera modelli open di dimensioni simili con ampi margini e rimane altamente competitivo, a volte superando, modelli open-weight e closed molto più grandi. Oltre alle prestazioni sui benchmark, AF-Next mostra una forte utilità nel mondo reale e si trasferisce bene a compiti non visti, evidenziando la sua robustezza e capacità di generalizzazione. Oltre a tutti i dati, il codice e i metodi, rendiamo open-source 3 varianti di AF-Next, tra cui AF-Next-Instruct, AF-Next-Think e AF-Next-Captioner.
L'apprendimento per rinforzo on-policy è diventato il paradigma dominante per il ragionamento sull'allineamento nei grandi modelli linguistici, tuttavia le sue ricompense sparse, a livello di risultato, rendono notoriamente difficile l'attribuzione del credito a livello di token. La Distillazione On-Policy (OPD) mitiga questo problema introducendo una supervisione densa di KL a livello di token da un modello insegnante, ma tipicamente applica questa supervisione uniformemente su tutti i rollout, ignorando le differenze fondamentali nella qualità del segnale. Proponiamo Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), un framework di addestramento adattivo a doppio percorso che instrada i rollout on-policy in base alla correttezza in due percorsi di supervisione complementari. Per le traiettorie errate, SCOPE esegue una distillazione KL pesata in base alla perplexity dell'insegnante, per dare priorità agli esempi in cui quest'ultimo dimostra una genuina capacità correttiva, riducendo al contempo il peso delle indicazioni inaffidabili. Per le traiettorie corrette, applica una Massima Verosimiglianza (MLE) pesata in base alla perplexity dello studente, per concentrare il rinforzo sugli esempi a bassa confidenza al confine delle capacità, piuttosto che rinforzare eccessivamente quelli già padroneggiati. Entrambi i percorsi impiegano una normalizzazione a livello di gruppo per calibrare adattivamente le distribuzioni dei pesi, tenendo conto della variazione intrinseca della difficoltà tra i prompt. Esperimenti estesi su sei benchmark di ragionamento mostrano che SCOPE ottiene un miglioramento relativo medio dell'11,42% in Avg@32 e del 7,30% in Pass@32 rispetto a baseline competitive, dimostrando la sua efficacia consistente.
I modelli linguistici di diffusione promettono una generazione parallela, ma rimangono ancora inferiori ai modelli autoregressivi (AR) in termini di qualità. Attribuiamo questo divario a un fallimento della coerenza introspettiva: i modelli AR sono coerenti con le proprie generazioni, mentre i DLM spesso non lo sono. Definiamo il tasso di accettazione introspettiva, che misura se un modello accetta i propri token generati in precedenza. Ciò rivela perché l'addestramento AR abbia un vantaggio strutturale: il masking causale e lo shifting dei logit impongono implicitamente la coerenza introspettiva. Sulla base di questa osservazione, introduciamo l'Introspective Diffusion Language Model (I-DLM), un paradigma che mantiene il decoding parallelo di tipo diffusion mentre eredita la coerenza introspettiva dell'addestramento AR. I-DLM utilizza un nuovo algoritmo di decoding a passi introspettivo (ISD), che consente al modello di verificare i token generati in precedenza mentre ne avanza di nuovi nello stesso passaggio in avanti. Dal punto di vista dei sistemi, costruiamo il motore di inferenza di I-DLM su ottimizzazioni ereditate dall'AR e lo personalizziamo ulteriormente con uno scheduler a batch stazionario. Per quanto a nostra conoscenza, I-DLM è il primo DLM a eguagliare la qualità della sua controparte AR della stessa scala, superando al contempo i DLM precedenti sia nella qualità del modello che nell'efficienza pratica di servizio su 15 benchmark. Raggiunge 69,6 su AIME-24 e 45,7 su LiveCodeBench-v6, superando rispettivamente LLaMA-2.1-mini (16B) di oltre 26 e 15 punti. Oltre alla qualità, I-DLM è progettato per la crescente domanda di servizi con elevata concorrenza, offrendo un throughput circa 3 volte superiore rispetto ai precedenti DLM all'avanguardia.
I dati post-addestramento svolgono un ruolo cruciale nel determinare le capacità dei Large Language Model (LLM), eppure i dataset sono spesso trattati come artefatti isolati, trascurando le connessioni sistemiche che ne sottendono l'evoluzione. Per districare queste relazioni complesse, introduciamo il concetto di lignaggio dei dati nell'ecosistema degli LLM e proponiamo un framework multi-agente automatizzato per ricostruire il grafo evolutivo dello sviluppo dei dataset. Attraverso un'analisi su larga scala dei lignaggi, caratterizziamo pattern strutturali dominio-specifici, come l'affinamento verticale nei dataset orientati alla matematica e l'aggregazione orizzontale nei corpora di dominio generale. Inoltre, individuiamo diffuse problematiche sistemiche, inclusa la ridondanza strutturale indotta da intersezioni implicite tra dataset e la propagazione della contaminazione dei benchmark lungo i percorsi di lignaggio. Per dimostrare il valore pratico dell'analisi del lignaggio nella costruzione di dati, sfruttiamo il grafo di lignaggio ricostruito per creare un dataset orientato alla diversità e consapevole del lignaggio. Ancorando il campionamento delle istruzioni alle sorgenti root a monte, questo approccio mitiga l'omogeneizzazione a valle e la ridondanza nascosta, producendo un corpus post-addestramento più diversificato. Sottolineiamo inoltre come l'analisi centrata sul lignaggio rappresenti un'alternativa topologica efficiente e robusta al confronto dei dataset a livello di campione per ecosistemi di dati su larga scala. Basando la costruzione dei dati su strutture di lignaggio esplicite, il nostro lavoro avanza la curatela dei dati post-addestramento verso un paradigma più sistematico e controllabile.
Mentre l'Experience Replay - la pratica di memorizzare le traiettorie e riutilizzarle più volte durante l'addestramento - è una tecnica fondamentale nell'RL generale, essa rimane in gran parte inesplorata nel post-addestramento degli LLM a causa della convinzione prevalente che dati freschi e on-policy siano essenziali per ottenere prestazioni elevate. In questo lavoro, mettiamo in discussione questo assunto. Presentiamo uno studio sistematico dei replay buffer per il post-addestramento degli LLM, formalizzando la progettazione ottimale come un compromesso tra la varianza indotta dalla obsolescenza dei dati, la diversità dei campioni e l'elevato costo computazionale della generazione. Dimostriamo che un campionamento rigorosamente on-policy è subottimale quando la generazione è costosa. Empiricamente, mostriamo che un replay buffer ben progettato può ridurre drasticamente il costo computazionale di inferenza senza degradare - e in alcuni casi persino migliorando - le prestazioni finali del modello, preservando al contempo l'entropia della politica.
Abbiamo assistito a notevoli progressi nelle capacità di ragionamento dei LLM con l'avvento di DeepSeek-R1. Tuttavia, gran parte di questo progresso è stato alimentato dall'abbondanza di coppie domanda-risposta (QA) disponibili su Internet, che rappresentano un collo di bottiglia significativo per il futuro, poiché tali dati sono limitati in scala e concentrati principalmente in domini come la matematica. Al contrario, altre scienze come la fisica mancano di dataset QA su larga scala per addestrare efficacemente modelli capaci di ragionamento. In questo lavoro, dimostriamo che i simulatori fisici possono fungere da potente fonte alternativa di supervisione per l'addestramento di LLM per il ragionamento fisico. Generiamo scene casuali nei motori fisici, creiamo coppie domanda-risposta sintetiche dalle interazioni simulate e addestriamo i LLM utilizzando l'apprendimento per rinforzo su questi dati sintetici. I nostri modelli mostrano un trasferimento zero-shot da simulazione a realtà verso benchmark fisici del mondo reale: ad esempio, l'addestramento esclusivamente su dati sintetici simulati migliora le prestazioni sui problemi delle Olimpiadi Internazionali di Fisica (IPhO) di 5-10 punti percentuali su diverse dimensioni del modello. Questi risultati dimostrano che i simulatori fisici possono fungere da generatori di dati scalabili, consentendo ai LLM di acquisire abilità di ragionamento fisico profondo oltre i limiti dei dati QA su scala internet. Codice disponibile all'indirizzo: https://sim2reason.github.io/.
I modelli di diffusione video hanno ottenuto progressi notevoli nella generazione di video di alta qualità. Tuttavia, questi modelli faticano a rappresentare la successione temporale di eventi multipli nei video del mondo reale e mancano di meccanismi espliciti per controllare quando compaiono i concetti semantici, quanto a lungo persistono e l'ordine in cui si verificano eventi multipli. Questo controllo è particolarmente importante per la sintesi video di livello cinematografico, dove una narrazione coerente dipende dalla temporizzazione precisa, dalla durata e dalle transizioni tra gli eventi. Quando si utilizza un singolo prompt in stile paragrafo per descrivere una sequenza di eventi complessi, i modelli spesso presentano un entanglement semantico, in cui concetti destinati a momenti diversi nel video si mescolano tra loro, risultando in un allineamento testo-video scadente. Per affrontare queste limitazioni, proponiamo Prompt Relay, un metodo plug-and-play, utilizzabile al momento dell'inferenza, per abilitare un controllo temporale granulare nella generazione di video multi-evento, senza richiedere modifiche architetturali né sovraccarichi computazionali aggiuntivi. Prompt Relay introduce una penalizzazione nel meccanismo di cross-attention, in modo che ogni segmento temporale si concentri solo sul prompt a esso assegnato, consentendo al modello di rappresentare un concetto semantico alla volta e migliorando così l'allineamento temporale al prompt, riducendo l'interferenza semantica e migliorando la qualità visiva.
Studiamo lo scaling parallelo al momento del test per compiti agentici a lungo orizzonte, come la ricerca agentica e la ricerca approfondita, in cui vengono generate multiple rollout in parallelo e aggregate in una risposta finale. Sebbene tale scaling si sia rivelato efficace per il ragionamento a catena di pensiero, i compiti agentici pongono sfide uniche: le traiettorie sono lunghe, multi-turno e potenziate da strumenti, e gli output sono spesso aperti. Aggregare solo le risposte finali scarta informazioni preziose dalle traiettorie, mentre concatenare tutte le traiettorie supera la finestra contestuale del modello. Per affrontare ciò, proponiamo AggAgent, un agente di aggregazione che tratta le traiettorie parallele come un ambiente. Lo dotiamo di strumenti leggeri per ispezionare le soluzioni candidate e cercare attraverso le traiettorie, consentendogli di navigare e sintetizzare le informazioni on-demand. Su sei benchmark e tre famiglie di modelli (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent supera tutti i metodi di aggregazione esistenti—fino al 5,3% assoluto in media e al 10,3% su due compiti di ricerca approfondita—aggiungendo un sovraccarico minimo, poiché il costo di aggregazione rimane limitato a una singola rollout agentica. I nostri risultati stabiliscono l'aggregazione agentica come un approccio efficace e conveniente allo scaling parallelo al momento del test.
I Modelli Linguistici di Grande Dimensione (LLM) impiegati in ambienti agentici devono esercitare molteplici capacità attraverso diverse istanze di compito, dove una capacità consiste nell'eseguire una o più azioni in una traiettoria che sono necessarie per risolvere con successo un sottoinsieme di compiti nell'ambiente. Molti approcci esistenti si basano su dati di addestramento sintetici non mirati ai deficit effettivi di capacità del modello nell'ambiente target, oppure addestrano direttamente sull'ambiente target, dove il modello deve apprendere implicitamente le capacità attraverso i compiti. Introduciamo TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), un sistema end-to-end per l'auto-miglioramento specifico dell'ambiente per agenti. TRACE confronta le traiettorie di successo e di fallimento per identificare automaticamente le capacità carenti, sintetizza un ambiente di addestramento mirato per ciascuna che premia l'esercizio della capacità, e addestra un adattatore LoRA tramite RL su ciascun ambiente sintetico, instradando verso l'adattatore rilevante durante l'inferenza. Empiricamente, TRACE generalizza attraverso diversi ambienti, migliorando l'agente base di +14,1 punti su τ²-bench (servizio clienti) e di +7 punteggi perfetti su ToolSandbox (uso di strumenti), superando la baseline più forte rispettivamente di +7,4 punti e +4 punteggi perfetti. A parità di numero di rollout, TRACE scala in modo più efficiente delle baseline, superando GRPO e GEPA di +9,2 e +7,4 punti su τ²-bench.
L'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM) fa sempre più affidamento su ricompense sparse a livello di risultato, ma determinare quali azioni all'interno di una lunga traiettoria abbiano causato il risultato rimane difficile. Questo problema di assegnazione del credito (CA) si manifesta in due regimi: il RL ragionativo, in cui il credito deve essere distribuito tra token e passaggi all'interno di una singola generazione a catena di pensiero (500-30K+ token); e il RL agenziale, in cui l'interazione multi-turno con l'ambiente introduce transizioni stocastiche, osservabilità parziale e orizzonti di 100+ turni (100K-1M token), rendendo il credito a livello di episodio sempre meno informativo. Esaminiamo 47 metodi di CA (41 principali, 6 abilitatori adiacenti) pubblicati tra il 2024 e l'inizio del 2026, organizzandoli in una tassonomia bidimensionale per granularità di assegnazione (token, segmento, passaggio, turno, multi-agente) e metodologia (Monte Carlo, differenza temporale, basato su modello, teoria dei giochi, teoria dell'informazione). Oltre al survey stesso, contribuiamo con tre risorse riutilizzabili: (1) un inventario strutturato e machine-readable degli articoli con etichette tassonomiche, famiglie di baseline e livelli di evidenza; (2) una checklist di reporting per i futuri articoli su CA, validata sulla letteratura revisionata per identificare lacune metodologiche sistematiche; e (3) una specifica di protocollo di benchmark con famiglie di task, requisiti di metadati e task di biforcazione controllata, accompagnata da un albero decisionale per la selezione del metodo. La nostra sintesi suggerisce che il passaggio dal RL ragionativo a quello agenziale complica e rimodella il panorama dell'assegnazione del credito: il CA per il ragionamento si sta consolidando attorno a modelli di ricompensa del processo e al confronto di gruppo senza critico, mentre il CA agenziale sta guidando approcci genuinamente nuovi – analisi controfattuale hindsight, critici asimmetrici privilegiati e riformulazioni MDP a livello di turno – che non hanno precedenti diretti nel RL ragionativo.
Gli agenti GUI mobili alimentati da Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) possono eseguire compiti complessi su dispositivi mobili. Nonostante questi progressi, la maggior parte dei sistemi esistenti ottimizza ancora il successo o l'efficienza del compito, trascurando la personalizzazione della privacy degli utenti. In questo articolo, studiamo il problema spesso trascurato della personalizzazione degli agenti. Osserviamo che la personalizzazione può indurre un'eterogeneità strutturale sistematica nelle traiettorie di esecuzione. Ad esempio, gli utenti orientati alla privacy spesso preferiscono azioni protettive, come rifiutare le autorizzazioni, effettuare il logout e minimizzare l'esposizione, portando a traiettorie di esecuzione logicamente diverse da quelle degli utenti orientati all'utilità. Tali traiettorie a lunghezza variabile e strutturalmente diverse rendono l'ottimizzazione delle preferenze standard instabile e meno informativa. Per affrontare questo problema, proponiamo la Trajectory Induced Preference Optimization (TIPO), che utilizza una ponderazione dell'intensità delle preferenze per enfatizzare i passaggi chiave relativi alla privacy e un gate di riempimento (padding gating) per sopprimere il rumore di allineamento. I risultati sul nostro Privacy Preference Dataset mostrano che TIPO migliora l'allineamento e la distinzione della personalità, preservando al contempo una forte eseguibilità del compito, raggiungendo il 65,60% di SR, il 46,22% di Compliance e il 66,67% di PD, superando i metodi di ottimizzazione esistenti in varie attività GUI. Il codice e il dataset saranno rilasciati pubblicamente su https://github.com/Zhixin-L/TIPO.
Lo Speculative Decoding (SD) è emerso come una tecnica fondamentale per accelerare l'inferenza dei Large Language Model (LLM). A differenza delle ottimizzazioni di sistema deterministiche, le prestazioni dello SD sono intrinsecamente dipendenti dai dati, il che significa che carichi di lavoro diversificati e rappresentativi sono essenziali per misurarne accuratamente l'efficacia. I benchmark esistenti soffrono di una limitata diversità dei task, di un supporto inadeguato per la valutazione orientata alla produttività (throughput) e di una dipendenza da implementazioni di alto livello che non riflettono gli ambienti di produzione. Per affrontare questo problema, introduciamo SPEED-Bench, una suite completa progettata per standardizzare la valutazione dello SD attraverso diversi domini semantici e regimi di servizio realistici. SPEED-Bench offre una partizione dei dati qualitativa accuratamente curata, selezionata dando priorità alla diversità semantica tra i campioni di dati. Inoltre, include una partizione dei dati per la produttività (Throughput), che consente la valutazione del miglioramento delle prestazioni su un intervallo di concorrenze, dalle impostazioni a basso batch sensibili alla latenza, agli scenari ad alto carico orientati alla produttività. Integrandosi con motori di produzione come vLLM e TensorRT-LLM, SPEED-Bench consente ai professionisti di analizzare comportamenti del sistema che spesso sono mascherati da altri benchmark. Sottolineiamo questo aspetto quantificando come gli input sintetici sovrastimino la produttività nel mondo reale, identificando le lunghezze ottimali delle bozze dipendenti dalla dimensione del batch e i bias nei dati a bassa diversità, e analizzando le avvertenze della potatura del vocabolario nei drafters più all'avanguardia. Rilasciamo SPEED-Bench per stabilire uno standard di valutazione unificato per confronti pratici degli algoritmi di Speculative Decoding.
I modelli linguistici di grandi dimensioni (LLM) contemporanei hanno dimostrato capacità di ragionamento notevoli, in particolare in domini specializzati come la matematica e la fisica. Tuttavia, la loro capacità di generalizzare queste abilità di ragionamento a contesti più generali e ampi – spesso definita *ragionamento generale* – rimane poco esplorata. A differenza del ragionamento dominio-specifico, il ragionamento generale si basa meno sulla conoscenza esperta ma presenta comunque sfide formidabili, come vincoli complessi, ramificazioni logiche annidate e interferenze semantiche. Per colmare questa lacuna, introduciamo General365, un benchmark specificamente progettato per valutare il ragionamento generale negli LLM. Limitando la conoscenza di base a un livello scolastico pre-universitario, General365 dissocia esplicitamente il ragionamento dalla competenza specializzata. Il benchmark comprende 365 problemi seminali e 1.095 problemi varianti across otto categorie, garantendo sia un'alta difficoltà che una grande diversità. Le valutazioni su 26 LLM leader di mercato rivelano che anche il modello con le migliori prestazioni raggiunge solo un'accuratezza del 62.8%, in netto contrasto con le prestazioni quasi perfette degli LLM nei benchmark di matematica e fisica. Questi risultati suggeriscono che le abilità di ragionamento degli LLM attuali sono fortemente dipendenti dal dominio, lasciando un ampio margine di miglioramento per applicazioni più estese. Prevediamo che General365 funga da catalizzatore per far progredire il ragionamento degli LLM oltre i compiti dominio-specifici verso scenari reali robusti e a scopo generale. Codice, Dataset e Classifica: https://general365.github.io
Proponiamo i modelli di flusso avversariale continuo, un tipo di modello di flusso a tempo continuo addestrato con un obiettivo avversariale. A differenza del flow matching, che utilizza un criterio fisso di errore quadratico medio, il nostro approccio introduce un discriminatore appreso per guidare l'addestramento. Questo cambiamento nell'obiettivo induce una distribuzione generalizzata diversa, che empiricamente produce campioni meglio allineati con la distribuzione dei dati target. Il nostro metodo è proposto principalmente per il post-training di modelli di flow matching esistenti, sebbene possa anche addestrare modelli da zero. Nel task di generazione ImageNet 256px, il nostro post-training migliora sostanzialmente l'FID senza guida del SiT in spazio latente da 8.26 a 3.63 e del JiT in spazio pixel da 7.17 a 3.57. Migliora anche la generazione guidata, riducendo l'FID da 2.06 a 1.53 per SiT e da 1.86 a 1.80 per JiT. Valutiamo ulteriormente il nostro approccio sulla generazione text-to-image, dove ottiene risultati migliorati sia sui benchmark GenEval che DPG.
I recenti progressi nei modelli linguistici di diffusione mascherata (MDLM) riducono il divario qualitativo rispetto ai modelli linguistici autoregressivi, ma il loro campionamento rimane costoso poiché la generazione richiede numerosi passaggi di denoising dell'intera sequenza con un Transformer di grandi dimensioni e, a differenza della decodifica autoregressiva, non può trarre vantaggio dalla KV cache. In questo lavoro, sfruttiamo la flessibilità del framework di diffusione e studiamo lo scheduling del modello, in cui un MDLM più piccolo sostituisce il modello completo in un sottoinsieme dei passaggi di denoising. Sui modelli addestrati su OpenWebText e LM1B, dimostriamo che i passaggi di denoising iniziali e finali sono sostanzialmente più robusti a tale sostituzione rispetto ai passaggi intermedi, consentendo una riduzione fino al 17% dei FLOP con solo un modesto peggioramento della perplexity generativa sia in generazione incondizionata che condizionata da prefisso, preservando al contempo la diversità dei campioni. Supportiamo questi risultati con un'analisi dell'importanza dei passaggi basata sulla loss e sulla divergenza KL tra modelli piccoli e grandi lungo i timestep, nonché con una ricerca esaustiva su segmenti di passaggi approssimati, entrambi i quali identificano costantemente la parte centrale della traiettoria di diffusione come la più sensibile, coerentemente attraverso i dataset. I nostri risultati suggeriscono che semplici regole di scheduling indipendenti dall'architettura possono accelerare significativamente il campionamento degli MDLM preservando in larga misura la qualità della generazione.
I bambini piccoli dimostrano precoci abilità nel comprendere il loro mondo fisico, stimando profondità, movimento, coerenza degli oggetti, interazioni e molti altri aspetti della comprensione delle scene fisiche. I bambini sono sistemi cognitivi sia efficienti dal punto di vista dei dati che flessibili, sviluppando competenze nonostante dati di addestramento estremamente limitati, generalizzando al contempo verso una miriade di compiti non addestrati – una sfida importante anche per i migliori sistemi di IA odierni. Qui introduciamo una nuova ipotesi computazionale per queste abilità, il Modello Visivo del Mondo a Zero-shot (ZWM). Lo ZWM si basa su tre principi: un predittore sparso a fattorizzazione temporale che disaccoppia l'aspetto esteriore dalla dinamica; una stima zero-shot attraverso l'inferenza causale approssimata; e la composizione di inferenze per costruire abilità più complesse. Mostriamo che lo ZWM può essere appreso dall'esperienza in prima persona di un singolo bambino, generando rapidamente competenza su molteplici benchmark di comprensione fisica. Esso riproduce anche ampiamente le firme comportamentali dello sviluppo infantile e costruisce rappresentazioni interne simili a quelle cerebrali. Il nostro lavoro presenta un progetto per un apprendimento efficiente e flessibile da dati di scala umana, avanzando sia una spiegazione computazionale della precoce comprensione fisica dei bambini che un percorso verso sistemi di IA efficienti nell'uso dei dati.
I recenti progressi nei modelli multimodali unificati (UMM) hanno portato a una proliferazione di architetture in grado di comprendere, generare e modificare contenuti attraverso le modalità visiva e testuale. Tuttavia, lo sviluppo di un framework unificato per gli UMM rimane impegnativo a causa della diversità delle architetture dei modelli e dell'eterogeneità dei paradigmi di addestramento e dei dettagli implementativi. In questo articolo, presentiamo TorchUMM, il primo codice unificato per la valutazione completa, l'analisi e il post-training su diverse backbone di UMM, task e dataset. TorchUMM supporta un'ampia gamma di modelli che coprono diverse scale e paradigmi progettuali. Il nostro benchmark comprende tre dimensioni di task fondamentali: comprensione, generazione e editing multimodale, e integra sia dataset consolidati che innovativi per valutare le capacità di percezione, ragionamento, composizionalità e aderenza alle istruzioni. Fornendo un'interfaccia unificata e protocolli di valutazione standardizzati, TorchUMM consente confronti equi e riproducibili tra modelli eterogenei e favorisce una comprensione più approfondita dei loro punti di forza e di debolezza, facilitando lo sviluppo di sistemi multimodali unificati più capaci. Il codice è disponibile all'indirizzo: https://github.com/AIFrontierLab/TorchUMM.
Comprendere e prevedere il movimento è un componente fondamentale dell'intelligenza visiva. Sebbene i moderni modelli video mostrino una forte comprensione della dinamica delle scene, esplorare futuri possibili multipli attraverso la sintesi completa di video rimane proibitivamente inefficiente. Noi modelliamo la dinamica delle scene in modo ordini di grandezza più efficiente operando direttamente su un embedding di movimento a lungo termine, appreso da traiettorie su larga scala ottenute da modelli tracker. Ciò consente la generazione efficiente di movimenti lunghi e realistici che soddisfano obiettivi specificati tramite prompt testuali o interazioni spaziali (pokes). Per ottenere questo, apprendiamo prima un embedding di movimento altamente compresso con un fattore di compressione temporale di 64x. In questo spazio, addestriamo un modello di flow-matching condizionato per generare latenti di movimento condizionati da descrizioni del compito. Le distribuzioni di movimento risultanti superano quelle sia dei modelli video all'avanguardia che degli approcci specializzati per compiti specifici.
Lo sviluppo della serie Bielik v3 PL, che comprende sia le varianti da 7B che da 11B di parametri, rappresenta una pietra miliare significativa nel campo dell'ottimizzazione di modelli linguistici di grandi dimensioni (LLM) specifici per lingua. Sebbene i modelli a scopo generale dimostrino spesso capacità multilingue impressionanti, soffrono frequentemente di un'inefficienza architetturale fondamentale: l'uso di tokenizzatori universali. Questi tokenizzatori, tipicamente progettati per coprire un ampio spettro di lingue, spesso non riescono a cogliere le sfumature morfologiche di lingue specifiche come il polacco, portando a rapporti di fertilità più elevati, costi di inferenza aumentati e finestre di contesto effettivo ridotte. Questo rapporto dettaglia la transizione dalla tokenizzazione universale basata su Mistral a un vocabolario dedicato e ottimizzato per il polacco per i modelli Bielik v3, esplorando l'inizializzazione degli embedding basata su FOCUS, il curriculum di pre-addestramento multi-stadio e il successivo allineamento post-addestramento che coinvolge Fine-Tuning Supervisionato, Ottimizzazione Diretta delle Preferenze e Apprendimento per Rinforzo attraverso l'Ottimizzazione delle Politiche Relative di Gruppo con ricompense verificabili.
Sebbene i grandi modelli linguistici siano promettenti per applicazioni mediche complesse, il loro sviluppo è ostacolato dalla scarsità di dati di ragionamento di alta qualità. Per affrontare questo problema, gli approcci esistenti tipicamente distillano tracce di ragionamento a catena (chain-of-thought) da grandi modelli proprietari tramite fine-tuning supervisionato, per poi condurre apprendimento per rinforzo (RL). Questi metodi mostrano miglioramenti limitati in domini sottorappresentati come le malattie rare, comportando al contempo costi sostanziali per la generazione di catene di ragionamento complesse. Per potenziare efficientemente il ragionamento medico, proponiamo MedSSR, un framework di Sintesi dei dati arricchita con conoscenze mediche e Apprendimento per Rinforzo Semi-supervisionato. Il nostro framework utilizza prima le conoscenze sulle malattie rare per sintetizzare domande di ragionamento a distribuzione controllabile. Successivamente, impiega il modello policy stesso per generare pseudo-etichette di alta qualità. Ciò abilita un paradigma di addestramento a due stadi, intrinseco-estrinseco: RL auto-supervisionato sui dati sintetici con pseudo-etichette, seguito da RL supervisionato sui dati reali annotati da umani. MedSSR scala efficientemente l'addestramento del modello senza fare affidamento sulla costosa distillazione di tracce. Esperimenti estensivi su Qwen e Llama dimostrano che il nostro metodo supera quelli esistenti su dieci benchmark medici, raggiungendo un guadagno fino al +5,93% sui compiti relativi alle malattie rare. Il nostro codice è disponibile all'indirizzo https://github.com/tdlhl/MedSSR.
Recentemente, il potenziamento dell'apprendimento per rinforzo con ricompense verificabili (RLVR) per i grandi modelli linguistici (LLM) è emerso come un paradigma di addestramento efficace per migliorare significativamente le capacità del modello. Questo approccio richiede di guidare il modello a compiere un'ampia esplorazione e apprendimento, comportando un sovraccarico computazionale sostanziale che rappresenta una sfida chiave. Per ridurre il numero di step di addestramento, i lavori precedenti effettuano un'estrapolazione lineare dei parametri del modello. Tuttavia, la dinamica degli aggiornamenti dei parametri durante l'addestramento RLVR rimane insufficientemente compresa. Per indagare ulteriormente l'evoluzione degli LLM durante l'addestramento RLVR, abbiamo condotto esperimenti empirici e riscontrato che il sottospazio di rango 1 del modello non evolve linearmente, e la sua dominanza sui parametri originali viene ulteriormente amplificata durante l'addestramento LoRA. Sulla base di queste osservazioni, proponiamo l'Estrapolazione Nonlineare delle traiettorie a basso rango (NExt), un framework innovativo che modella ed estrapola le traiettorie dei parametri a basso rango in maniera non lineare. Nello specifico, addestriamo inizialmente il modello utilizzando LoRA ed estraiamo il sottospazio di rango 1 delle differenze parametriche in più step di addestramento, che viene poi utilizzato per la successiva estrapolazione non lineare. Successivamente, utilizziamo il sottospazio di rango 1 estratto per addestrare un predittore, in grado di modellare la traiettoria degli aggiornamenti parametrici durante l'RLVR, e quindi eseguiamo il processo di "previsione-estensione" per estrapolare i parametri del modello, ottenendo così l'accelerazione dell'RLVR. Per studiare e comprendere ulteriormente NExt, abbiamo condotto esperimenti completi che dimostrano l'efficacia e la robustezza del metodo. Il nostro metodo riduce il sovraccarico computazionale di circa il 37,5%, mantenendo al contempo la compatibilità con un'ampia gamma di algoritmi e task RLVR. Rilasciamo il nostro codice all'indirizzo https://github.com/RUCAIBox/NExt.
Mentre i grandi modelli linguistici (LLM) diventano il motore alla base dei sistemi conversazionali, la loro capacità di ragionare sulle intenzioni e sugli stati dei loro interlocutori (cioè, formare e utilizzare una teoria della mente, o ToM) diventa sempre più critica per interagire in sicurezza con partner potenzialmente avversari. Proponiamo una nuova sfida ToM a tema privacy, la ToM per l'Orientamento delle Credenze (ToM-SB), in cui un difensore deve agire come Agente Doppio per orientare le credenze di un attaccante con conoscenza preliminare parziale all'interno di un universo condiviso. Per avere successo nella ToM-SB, il difensore deve interagire con e formare una ToM dell'attaccante, con l'obiettivo di ingannare l'attaccante facendogli credere di aver avuto successo nell'estrarre informazioni sensibili. Troviamo che modelli all'avanguardia forti come Gemini3-Pro e GPT-5.4 hanno difficoltà nella ToM-SB, spesso fallendo nell'ingannare gli attaccanti in scenari difficili con conoscenza preliminare parziale dell'attaccante, anche quando sollecitati a ragionare sulle credenze dell'attaccante (prompting ToM). Per colmare questa lacuna, addestriamo modelli sulla ToM-SB per agire come Agenti Doppi dell'IA utilizzando l'apprendimento per rinforzo, testando sia ricompense per l'inganno che per la ToM. Notevolmente, troviamo una relazione bidirezionale emergente tra ToM e inganno dell'attaccante: premiare il solo successo nell'inganno migliora la ToM, e premiare la sola ToM migliora l'inganno. Attraverso quattro attaccanti con diverse capacità, sei metodi di difesa e valutazioni sia in-distribuzione che fuori-distribuzione (OOD), troviamo che i guadagni in ToM e nell'inganno dell'attaccante sono ben correlati, evidenziando la modellazione delle credenze come un fattore chiave per il successo nella ToM-SB. Gli Agenti Doppi dell'IA che combinano sia le ricompense ToM che quelle per l'inganno producono le prestazioni più forti in termini di inganno e ToM, superando Gemini3-Pro e GPT-5.4 con prompting ToM in scenari difficili. Mostriamo anche che la ToM-SB e gli Agenti Doppi dell'IA possono essere estesi ad attaccanti più forti, dimostrando la generalizzazione a contesti OOD e l'aggradabilità del nostro compito.
L'accelerazione della scoperta scientifica richiede l'identificazione di quali esperimenti possano produrre i risultati migliori prima di impegnare risorse in una costosa validazione fisica. Sebbene i benchmark esistenti valutino gli LLM sulle conoscenze e sul ragionamento scientifico, la loro capacità di prevedere i risultati sperimentali - un compito in cui l'IA potrebbe superare significativamente le capacità umane - rimane in gran parte inesplorata. Introduciamo SciPredict, un benchmark che comprende 405 task derivati da studi empirici recenti in 33 sottocampi specializzati di fisica, biologia e chimica. SciPredict affronta due questioni critiche: (a) gli LLM possono prevedere l'esito di esperimenti scientifici con sufficiente accuratezza? e (b) tali previsioni possono essere utilizzate in modo affidabile nel processo di ricerca scientifica? Le valutazioni rivelano limitazioni fondamentali su entrambi i fronti. Le accuratezze dei modelli sono del 14-26% e le prestazioni degli esperti umani sono di circa il 20%. Sebbene alcuni modelli all'avanguardia superino le prestazioni umane, l'accuratezza dei modelli è ancora ben al di sotto di quanto necessario per fornire una guida sperimentale affidabile. Anche all'interno delle prestazioni limitate, i modelli non riescono a distinguere le previsioni affidabili da quelle inaffidabili, raggiungendo solo circa il 20% di accuratezza indipendentemente dalla loro confidenza o dal giudizio sulla prevedibilità degli esiti senza sperimentazione fisica. Gli esperti umani, al contrario, dimostrano una forte calibrazione: la loro accuratezza aumenta da circa il 5% a circa l'80% man mano che ritengono gli esiti più prevedibili senza condurre l'esperimento. SciPredict stabilisce un quadro rigoroso dimostrando che prestazioni sovrumane nella scienza sperimentale richiedono non solo previsioni migliori, ma anche una migliore consapevolezza dell'affidabilità predittiva. Per garantire la riproducibilità, tutti i nostri dati e codice sono disponibili su https://github.com/scaleapi/scipredict.
I precedenti approcci rappresentativi di tipo ReAct nell'ambito dell'Ingegneria del Software (SWE) autonoma tipicamente mancano del ragionamento esplicito di Sistema-2 necessario per analisi approfondite e per gestire casi limite complessi. Sebbene i recenti modelli di ragionamento dimostrino il potenziale di una Catena di Pensiero (CoT) estesa, applicarli al compito SWE multi-turn crea un dilemma fondamentale: mantenere l'intera cronologia del ragionamento porta a un'esplosione del contesto e a un degrado da "Smarriti-nel-Mezo", mentre scartarla costringerebbe l'agente a ri-ragionare ridondantemente ad ogni passo. Per affrontare queste sfide, proponiamo SWE-AGILE, un nuovo framework per agenti software progettato per colmare il divario tra profondità di ragionamento, efficienza e vincoli contestuali. SWE-AGILE introduce una strategia di Contesto di Ragionamento Dinamico, che mantiene una "finestra scorrevole" di ragionamento dettagliato per la continuità immediata, prevenendo una rianalisi ridondante, mentre comprime il contenuto del ragionamento storico in Sintesi di Ragionamento concise. Empiricamente, SWE-AGILE stabilisce un nuovo standard per modelli da 7B-8B su SWE-Bench-Verified utilizzando solo 2.2k traiettorie e 896 task. Il codice è disponibile all'indirizzo https://github.com/KDEGroup/SWE-AGILE.
Man mano che i modelli generativi consentono la creazione rapida di immagini ad alta fedeltà, le preoccupazioni sociali riguardanti la disinformazione e l'autenticità si sono intensificate. Un rimedio promettente è la filigrana digitale multi-bit per immagini, che incorpora un messaggio multi-bit in un'immagine in modo che un verificatore possa successivamente rilevare se l'immagine è stata generata da qualcuno e identificare ulteriormente la fonte decodificando il messaggio incorporato. Gli approcci esistenti spesso risultano carenti in termini di capacità, resilienza alle distorsioni immagine comuni e giustificazione teorica. Per affrontare queste limitazioni, proponiamo ADD (Add, Dot, Decode), un metodo di filigrana digitale multi-bit per immagini con due fasi: l'apprendimento di una filigrana da combinare linearmente con il messaggio multi-bit e aggiunta all'immagine, e la decodifica attraverso prodotti interni tra l'immagine filigranata e la filigrana appresa. Sul benchmark standard MS-COCO, dimostriamo che per il compito impegnativo della filigrana a 48 bit, ADD raggiunge un'accuratezza di decodifica del 100%, con una performance che cala al massimo del 2% sotto un'ampia gamma di distorsioni immagine, sostanzialmente inferiore al calo medio del 14% dei metodi allo stato dell'arte. Inoltre, ADD raggiunge sostanziali vantaggi computazionali, con un'incorporazione 2 volte più veloce e una decodifica 7,4 volte più veloce rispetto al metodo esistente più rapido. Forniamo inoltre un'analisi teorica che spiega perché la filigrana appresa e la corrispondente regola di decodifica sono efficaci.
I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno rivoluzionato la comprensione visiva generale. Tuttavia, la loro applicazione nel dominio alimentare rimane limitata da benchmark che si basano su categorie a grana grossa, immagini a vista singola e metadati imprecisi. Per colmare questa lacuna, presentiamo DiningBench, un benchmark gerarchico e multi-vista progettato per valutare i VLM su tre livelli di complessità cognitiva: Classificazione Fine-Grained, Stima Nutrizionale e Risposta a Domande Visive. A differenza dei dataset precedenti, DiningBench comprende 3.021 piatti distinti con una media di 5,27 immagini per voce, incorporando negativi "difficili" fine-grained da menu identici e dati nutrizionali rigorosi, basati su verifica. Abbiamo condotto una valutazione estensiva di 29 modelli open-source e proprietari all'avanguardia. I nostri esperimenti rivelano che, sebbene i VLM attuali eccellano nel ragionamento generale, hanno notevoli difficoltà con la discriminazione visiva fine-grained e il ragionamento nutrizionale preciso. Inoltre, abbiamo studiato sistematicamente l'impatto degli input multi-vista e del ragionamento a Catena di Pensiero (Chain-of-Thought), identificando cinque modalità primarie di fallimento. DiningBench funge da banco di prova impegnativo per guidare la prossima generazione della ricerca sui VLM incentrati sul cibo. Tutti i codici sono rilasciati su https://github.com/meituan/DiningBench.
I modelli linguistici di grandi dimensioni sono sempre più impiegati in contesti multi-turno come tutoraggio, supporto e consulenza, dove l'affidabilità dipende dalla capacità di preservare ruoli, personaggi e obiettivi coerenti su lunghi orizzonti. Questo requisito diventa critico quando gli LLM sono utilizzati per generare dialoghi sintetici per l'addestramento e la valutazione, poiché le conversazioni LLM--LLM possono accumulare errori legati all'identità come la deriva del personaggio, la confusione di ruolo e l'"eco", dove un agente riflette gradualmente il suo partner. Introduciamo SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), un framework modulare, orientato alla stabilità, che scompone la simulazione in (i) creazione del personaggio mediante campionamento di schemi, validazione di plausibilità e creazione del personaggio in linguaggio naturale, (ii) generazione del dialogo Cliente--Risponditore, e (iii) rilevamento della terminazione per un arresto coerente. Per migliorare la stabilità su lungo orizzonte senza modificare i pesi del modello, proponiamo la Proiezione EgoCentrica del Contesto (ECP): la cronologia del dialogo viene memorizzata in una rappresentazione indipendente dalla prospettiva e proiettata deterministicamente nella visione egocentrica di ciascun agente prima della generazione. Attraverso tre modelli LLM di base (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) e nove accoppiamenti Cliente--Risponditore, abbiamo costruito un dataset di 4.500 personaggi e 45.000 conversazioni (500 personaggi X 10 conversazioni per accoppiamento). Le ablazioni mostrano che l'ECP riduce sostanzialmente la deriva del personaggio e, convalidato da esseri umani, elimina l'eco; le analisi degli embedding recuperano la struttura del personaggio e rivelano una forte geometria d'interazione guidata dal risponditore. Il nostro codice è disponibile all'indirizzo https://github.com/lhannnn/SPASM.
Le rappresentazioni di memoria strutturata come i knowledge graph sono fondamentali per gli agenti autonomi e altri sistemi longevi. Tuttavia, la maggior parte degli approcci esistenti modella il tempo come metadato discreto, limitandosi a ordinare per recentezza (seppellendo conoscenze vecchie ma permanenti), a sovrascrivere semplicemente i fatti obsoleti, o a richiedere una costosa chiamata a un LLM a ogni passo di ingestione, rendendoli incapaci di distinguere fatti persistenti da quelli in evoluzione. Per affrontare questo problema, introduciamo RoMem, un modulo temporale per knowledge graph plug-and-play per sistemi di memoria strutturata, applicabile alla memoria agentica e oltre. Un Semantic Speed Gate preaddestrato mappa l'embedding testuale di ogni relazione a un punteggio di volatilità, apprendendo dai dati che le relazioni evolutive (ad esempio, "presidente di") dovrebbero ruotare rapidamente, mentre quelle persistenti (ad esempio, "nato a") dovrebbero rimanere stabili. Combinato con la rotazione di fase continua, ciò abilita l'ombreggiatura geometrica: i fatti obsoleti vengono ruotati fuori fase nello spazio vettoriale complesso, così i fatti temporalmente corretti superano naturalmente le contraddizioni senza necessità di cancellazione. Sul completamento temporale di knowledge graph, RoMem raggiunge risultati all'avanguardia su ICEWS05-15 (72.6 MRR). Applicato alla memoria agentica, garantisce un miglioramento di 2-3x nell'MRR e nell'accuratezza delle risposte sul ragionamento temporale (MultiTQ), domina benchmark ibridi (LoCoMo), preserva la memoria statica senza alcuna degradazione (DMR-MSC) e si generalizza zero-shot a domini finanziari non visti (FinTMMBench).
In questo lavoro, introduciamo una nuova prospettiva sulla valutazione comparativa di immagini rappresentando una coppia di immagini come una composizione strutturata delle sue regioni. Al contrario, i metodi esistenti si concentrano sull'analisi dell'immagine nel suo complesso, basandosi implicitamente su una comprensione a livello di regione. Estendiamo la nozione intra-immagine di un grafo di scene a una inter-immagine e proponiamo un nuovo compito denominato Distortion Graph (DG). Il DG tratta le immagini in coppia come una topologia strutturata ancorata alle regioni e rappresenta informazioni dense sul degrado, come il tipo di distorsione, la gravità, il confronto e il punteggio di qualità, in una struttura di grafo compatta e interpretabile. Per realizzare il compito di apprendimento di un distortion graph, forniamo (i) un dataset a livello regionale, PandaSet, (ii) una suite di benchmark, PandaBench, con diversi livelli di difficoltà regionale, e (iii) un'architettura efficiente, Panda, per generare distortion graph. Dimostriamo che PandaBench rappresenta una sfida significativa per i modelli linguistici multimodali all'avanguardia (MLLM), poiché questi non riescono a comprendere i degradi a livello regionale anche quando vengono forniti loro indizi espliciti sulle regioni. Mostriamo che l'addestramento su PandaSet o il prompting con il DG suscita una comprensione delle distorsioni per regione, aprendo una nuova direzione per la valutazione pairwise di immagini strutturata e fine.
La cache chiave-valore (KV) svolge un ruolo cruciale nell'accelerare l'inferenza nei grandi modelli linguistici (LLM) memorizzando gli stati intermedi dell'attenzione ed evitando calcoli ridondanti durante la generazione autoregressiva. Tuttavia, la sua impronta di memoria scala linearmente con la lunghezza della sequenza, portando spesso a severi colli di bottiglia della memoria su hardware con risorse limitate. Lavori precedenti hanno esplorato l'offloading della cache KV sulla CPU mantenendo solo un sottoinsieme sulla GPU, ma questi approcci spesso si basano su una selezione imprecisa dei token e soffrono di degradazione delle prestazioni in compiti di generazione lunga come il ragionamento a catena del pensiero. In questo articolo, proponiamo una nuova strategia di gestione della cache KV, IceCache, che integra il clustering semantico dei token con PagedAttention. Organizzando token semanticamente correlati in regioni di memoria contigue gestite da una struttura dati gerarchica e aggiornabile dinamicamente, il nostro metodo consente una selezione più efficiente dei token e una migliore utilizzazione della larghezza di banda di memoria durante i trasferimenti CPU-GPU. I risultati sperimentali su LongBench mostrano che, con un budget di 256 token, IceCache mantiene il 99% dell'accuratezza originale ottenuta dal modello con cache KV completa. Inoltre, rispetto ad altri metodi basati sull'offloading, IceCache raggiunge una latenza e un'accuratezza competitive o addirittura superiori utilizzando solo il 25% del budget di token della cache KV, dimostrando la sua efficacia negli scenari con sequenze lunghe. Il codice è disponibile sul nostro sito web del progetto all'indirizzo https://yuzhenmao.github.io/IceCache/.
I modelli visione-linguaggio (VLM) hanno ottenuto prestazioni impressionanti in compiti complessi di ragionamento multimodale, ma falliscono ancora in abilità di base come il conteggio di oggetti. Le valutazioni esistenti misurano principalmente gli output finali, offrendo una comprensione limitata di dove si originino questi errori all'interno del modello. In questo lavoro, presentiamo uno studio empirico sul comportamento di conteggio dei VLM attraverso analisi comportamentali e meccanicistiche. Introduciamo COUNTINGTRICKS, una suite di valutazione controllata costituita da semplici casi di conteggio basati su forme, progettata per evidenziare vulnerabilità in diverse configurazioni di patchification e condizioni di prompt adversarial. Utilizzando l'analisi dell'attenzione e probing componente per componente, dimostriamo che l'evidenza visiva rilevante per il conteggio è più forte nella fase di proiezione di modalità ma si degrada sostanzialmente negli strati linguistici successivi, dove i modelli diventano più suscettibili a prior testuali. Sulla base di questa scoperta, valutiamo ulteriormente Modality Attention Share (MAS), un intervento leggero che incoraggia un budget minimo di attenzione visiva durante la generazione della risposta. I nostri risultati suggeriscono che gli errori di conteggio nei VLM derivano non solo dai limiti della percezione visiva, ma anche dal sottoutilizzo dell'evidenza visiva durante il ragionamento nella fase linguistica. Codice e dataset saranno rilasciati su https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.
La ricerca sulla musica simbolica si è basata quasi esclusivamente su dataset in formato MIDI; i formati di notazione basati su testo come LilyPond rimangono inesplorati per la comprensione musicale. Presentiamo BMdataset, un dataset musicologicamente curato di 393 partiture LilyPond (2.646 movimenti) trascritte da esperti direttamente da manoscritti barocchi originali, con metadati che coprono compositore, forma musicale, organico e attributi sezionali. Basandoci su questa risorsa, introduciamo LilyBERT (i pesi sono disponibili su https://huggingface.co/csc-unipd/lilybert), un encoder basato su CodeBERT adattato alla musica simbolica tramite l'estensione del vocabolario con 115 token specifici di LilyPond e un pre-training con modello di linguaggio mascherato. Il linear probing sul corpus Mutopia (out-of-domain) mostra che, nonostante le sue dimensioni modeste (~90 milioni di token), il fine-tuning sul solo BMdataset supera il pre-training continuo sull'intero corpus PDMX (~15 miliardi di token) sia per la classificazione del compositore che dello stile, dimostrando che piccoli dataset, accuratamente curati da esperti, possono essere più efficaci di grandi corpora rumorosi per la comprensione musicale. La combinazione di un pre-training ampio con un fine-tuning dominio-specifico produce i migliori risultati complessivi (84,3% di accuratezza sul compositore), confermando che i due regimi di dati sono complementari. Rilasciamo il dataset, il tokenizer e il modello per stabilire un baseline per l'apprendimento di rappresentazioni su LilyPond.
La sintesi di dati per il fine-tuning supervisionato (SFT) da modelli linguistici (LM) per insegnare compiti multilingue a modelli più piccoli è diventata una pratica sempre più comune. Tuttavia, la selezione del modello insegnante è spesso ad hoc, ricadendo tipicamente sull'opzione più grande disponibile, nonostante tali modelli possano presentare lacune significative nelle capacità per le lingue non inglesi. Questa pratica può portare a dati sintetici di scarsa qualità e a prestazioni subottimali dello studente downstream. In questo lavoro, caratterizziamo sistematicamente cosa costituisce un insegnante multilingue efficace. Misuriamo metriche intrinseche della qualità dei dati con le prestazioni estrinseche del modello studente in una metrica che chiamiamo Polyglot Score; valutiamo 10 LM in 6 lingue tipologicamente diverse, generando oltre 1,4 milioni di esempi SFT e addestrando 240 modelli studente. Tra i modelli testati, Gemma 3 27B e Aya Expanse 32B emergono come insegnanti costantemente efficaci su diverse famiglie di modelli studente di base. Ulteriori analisi rivelano che la sola scala del modello non predice in modo significativo l'efficacia dell'insegnante; invece, qualità dei dati come la diversità dei prompt, la lunghezza e la fluidità della risposta catturano oltre il 93,3% della varianza nella qualità intrinseca dei dati e predicono le prestazioni dello studente. Infine, forniamo raccomandazioni pratiche, tra cui l'abbinamento delle famiglie di modelli per le coppie insegnante-studente e il tradurre da o rispondere a prompt esistenti, che possono portare a miglioramenti per le lingue con meno risorse. Speriamo che il nostro lavoro avanzi la ricerca data-centrica nello sviluppo di dati sintetici multilingue e di LM.
La localizzazione accurata dei keypoint umani 3D è una tecnologia fondamentale che consente ai robot di ottenere un'interazione fisica naturale e sicura con gli utenti. I metodi convenzionali di stima dei keypoint umani 3D si concentrano principalmente sulla qualità della ricostruzione corporea totale rispetto all'articolazione radice. Tuttavia, negli scenari pratici di interazione uomo-robot (HRI), i robot sono maggiormente interessati alla localizzazione spaziale precisa in scala metrica delle parti del corpo rilevanti per il compito, nel sistema di coordinate 3D della camera egocentrica. Proponiamo TAIHRI, il primo modello visione-linguaggio (VLM) sviluppato specificamente per la percezione HRI a corto raggio, in grado di comprendere i comandi di movimento degli utenti e dirigere l'attenzione del robot verso i keypoint più rilevanti per il compito. Quantizzando i keypoint 3D in uno spazio d'interazione finito, TAIHRI localizza con precisione le coordinate spaziali 3D delle parti corporee critiche mediante ragionamento sui keypoint 2D tramite previsione del token successivo, e si adatta perfettamente a compiti downstream come il controllo tramite linguaggio naturale o la ricostruzione globale della mesh umana nello spazio. Esperimenti su benchmark di interazione egocentrica dimostrano che TAIHRI raggiunge un'accuratezza di stima superiore per le parti del corpo critiche per il compito. Riteniamo che TAIHRI apra nuove strade di ricerca nel campo dell'interazione uomo-robot incarnata. Il codice è disponibile all'indirizzo: https://github.com/Tencent/TAIHRI.
Questo studio individua il meccanismo di instradamento delle policy nei modelli linguistici addestrati all'allineamento. Un gate di attenzione a livello intermedio legge il contenuto rilevato e attiva teste amplificatrici più profonde che potenziano il segnale verso il rifiuto. Nei modelli più piccoli, il gate e l'amplificatore sono teste singole; a scala maggiore diventano gruppi di teste su strati adiacenti. Il gate contribuisce per meno dell'1% all'attivazione DLA in output, ma test di scambio (p<0,001) e interruzione a cascata confermano che è causalmente necessario. Uno screening di scambio su n>=120 rileva lo stesso motivo in dodici modelli di sei laboratori (da 2B a 72B), sebbene le teste specifiche differiscano per laboratorio. L'ablazione per testa indebolisce fino a 58x a 72B e non rileva i gate che lo scambio identifica; lo scambio è l'unico audit affidabile su larga scala. Modulare il segnale dello strato di rilevamento controlla continuamente la policy, dal rifiuto netto passando per l'evasione fino alla risposta fattuale. Su prompt di sicurezza, lo stesso intervento trasforma il rifiuto in indicazioni dannose, mostrando che la capacità addestrata per la sicurezza è governata dall'instradamento piuttosto che rimossa. Le soglie variano per argomento e lingua di input, e il circuito si riposiziona tra le generazioni all'interno di una famiglia mentre i benchmark comportamentali non registrano cambiamenti. L'instradamento è a impegno precoce: il gate si impegna al proprio strato prima che gli strati più profondi completino l'elaborazione dell'input. Sotto un cifrario a sostituzione in-context, la necessità del gate per scambio crolla dal 70 al 99% in tre modelli e il modello passa alla risoluzione dell'enigma. Iniettare l'attivazione del gate del testo in chiaro nel passaggio in avanti del cifrario ripristina il 48% dei rifiuti in Phi-4-mini, localizzando il bypass sull'interfaccia di instradamento. Un secondo metodo, l'analisi del contrasto cifrario, utilizza le differenze DLA testo chiaro/cifrato per mappare l'intero circuito di instradamento sensibile al cifrario in O(3n) passaggi in avanti. Qualsiasi codifica che eluda il pattern matching a livello di rilevamento bypassa la policy indipendentemente dal fatto che gli strati più profondi ricostruiscano il contenuto.
Presentiamo ATANT (Automated Test for Acceptance of Narrative Truth), un framework di valutazione open source per misurare la continuità nei sistemi di IA: la capacità di persistere, aggiornare, disambiguare e ricostruire un contesto significativo nel tempo. Sebbene l'industria dell'IA abbia prodotto componenti di memoria (pipeline RAG, database vettoriali, contesti lunghi, layer di profilo), nessun framework pubblicato definisce o misura formalmente se questi componenti producano una continuità genuina. Definiamo la continuità come una proprietà di sistema con 7 requisiti, introduciamo una metodologia di valutazione a 10 checkpoint che opera senza un LLM nel ciclo di valutazione e presentiamo un corpus di test narrativo di 250 storie comprendente 1.835 domande di verifica in 6 domini di vita. Valutiamo un'implementazione di riferimento attraverso 5 iterazioni della suite di test, passando dal 58% (architettura legacy) al 100% in modalità isolata (250 storie) e al 100% in modalità cumulativa a 50 storie, con il 96% su scala cumulativa a 250 storie. Il risultato cumulativo è la misura principale: quando 250 narrative di vita distinte coesistono nello stesso database, il sistema deve recuperare il fatto corretto per il contesto corretto senza contaminazione incrociata. ATANT è indipendente dal sistema e dal modello, ed è progettato come una metodologia sequenziale per costruire e validare sistemi di continuità. Le specifiche del framework, le storie di esempio e il protocollo di valutazione sono disponibili su https://github.com/Kenotic-Labs/ATANT. Il corpus completo di 250 storie sarà rilasciato in modo incrementale.
Questo rapporto tecnico intermedio presenta la famiglia di modelli base SHARE e l'interfaccia utente MIRROR. I modelli SHARE sono i primi modelli linguistici causali interamente preaddestrati da e per le scienze sociali e umanistiche (SSH). Le loro prestazioni nella modellazione di testi SSH sono vicine a quelle di modelli a scopo generale (Phi-4) che utilizzano 100 volte più token, come dimostrato dal nostro benchmark SSH Cloze personalizzato. L'interfaccia utente MIRROR è progettata per la revisione di input testuali delle discipline SSH preservando il coinvolgimento critico. Prototipando un'interfaccia di intelligenza artificiale generativa che non produce testo, proponiamo un modo per sfruttare le capacità dei modelli SHARE senza compromettere l'integrità dei principi e delle norme SSH.