Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i rapidi progressi degli scienziati IA autonomi basati su modelli linguistici, la generazione di illustrazioni pronte per la pubblicazione rimane un collo di bottiglia ad alta intensità di lavoro nel flusso di ricerca. Per alleviare questo onere, presentiamo PaperBanana, un framework agentivo per la generazione automatizzata di illustrazioni accademiche pronte per la pubblicazione. Basandosi su modelli visivo-linguistici (VLM) e modelli di generazione di immagini all'avanguardia, PaperBanana orchestra agenti specializzati per recuperare riferimenti, pianificare contenuti e stile, renderizzare immagini e perfezionare iterativamente tramite auto-critica. Per valutare rigorosamente il nostro framework, introduciamo PaperBananaBench, comprendente 292 casi di test per diagrammi metodologici selezionati da pubblicazioni NeurIPS 2025, che coprono diversi domini di ricerca e stili illustrativi. Esperimenti completi dimostrano che PaperBanana supera costantemente i principali baseline in termini di fedeltà, concisione, leggibilità ed estetica. Mostriamo inoltre che il nostro metodo si estende efficacemente alla generazione di grafici statistici di alta qualità. Nel complesso, PaperBanana apre la strada alla generazione automatizzata di illustrazioni pronte per la pubblicazione.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un pilastro fondamentale per sbloccare il ragionamento complesso nei Large Language Model (LLM). Tuttavia, la scalabilità del RL è limitata dalla scarsità di dati verificabili esistenti, dove i miglioramenti tendono a saturarsi progressivamente durante un addestramento prolungato. Per superare questo problema, proponiamo Golden Goose, un semplice espediente per sintetizzare un numero illimitato di task RLVR a partire da testo internet non verificabile, costruendo una versione a scelta multipla del task di riempimento del testo (fill-in-the-middle). Dato un testo sorgente, sollecitiamo un LLM a identificare e mascherare i passaggi chiave del ragionamento, per poi generare un insieme di distrattori plausibili e diversificati. Ciò ci permette di sfruttare corpora ricchi di ragionamento ma non verificabili, tipicamente esclusi dalla costruzione di dati RLVR precedente (ad es. libri di testo scientifici), per sintetizzare GooseReason-0.7M, un dataset RLVR su larga scala con oltre 0.7 milioni di task che spaziano dalla matematica alla programmazione e a domini scientifici generali. Empiricamente, GooseReason rivitalizza efficacemente i modelli saturati sui dati RLVR esistenti, producendo guadagni robusti e sostenuti sotto RL continuo e raggiungendo nuovi risultati state-of-the-art per modelli 1.5B e 4B-Instruct su 15 benchmark diversi. Infine, implementiamo Golden Goose in un contesto reale, sintetizzando task RLVR da scrape grezzi di FineWeb per il dominio della cybersecurity, dove non esistevano precedentemente dati RLVR. L'addestramento di Qwen3-4B-Instruct sui dati risultanti, GooseReason-Cyber, stabilisce un nuovo state-of-the-art nella cybersecurity, superando un modello specializzato nel dominio da 7B che aveva beneficiato di un esteso pre-addestramento e post-addestramento specifico. Ciò evidenzia il potenziale di scalare automaticamente i dati RLVR sfruttando l'abbondante testo internet, ricco di ragionamento ma non verificabile.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come agenti potenziati da strumenti per processi decisionali multi-step, ma l'addestramento di agenti robusti nell'uso di strumenti rimane una sfida. I metodi esistenti richiedono ancora interventi manuali, dipendono da ambienti simulati non verificabili, si basano esclusivamente su fine-tuning supervisionato (SFT) o apprendimento per rinforzo (RL), e incontrano difficoltà nell'apprendimento stabile di orizzonti temporali lunghi e interazioni multi-turn. Per affrontare queste problematiche, introduciamo ASTRA, un framework end-to-end completamente automatizzato per l'addestramento di agenti basati su modelli linguistici potenziati da strumenti, attraverso sintesi scalabile di dati e apprendimento per rinforzo verificabile. ASTRA integra due componenti complementari. In primo luogo, una pipeline che sfrutta la topologia statica dei grafi di chiamate di strumenti sintetizza traiettorie diversificate e strutturalmente fondate, instillando una competenza ampia e trasferibile nell'uso degli strumenti. In secondo luogo, un framework di sintesi ambientale che cattura la ricca topologia compositiva del ragionamento semantico umano converte tracce domanda-risposta scomposte in ambienti indipendenti, eseguibili come codice e verificabili tramite regole, abilitando un RL multi-turn deterministico. Basandoci su questo metodo, sviluppiamo una metodologia di addestramento unificata che integra SFT con RL online utilizzando ricompense a livello di traiettoria per bilanciare il completamento del compito e l'efficienza interattiva. Esperimenti su molteplici benchmark per l'uso agentico di strumenti dimostrano che i modelli addestrati con ASTRA raggiungono prestazioni allo stato dell'arte a scale comparabili, avvicinandosi a sistemi closed-source preservando al contempo le capacità di ragionamento fondamentali. Rilasciamo le pipeline complete, gli ambienti e i modelli addestrati su https://github.com/LianjiaTech/astra.
Il formato a bassa precisione NVFP4, supportato a livello hardware dalle GPU NVIDIA Blackwell, promette di consentire per la prima volta il pre-addestramento end-to-end completamente quantizzato di modelli massivi come gli LLM. Tuttavia, i metodi di addestramento quantizzato esistenti sacrificano ancora parte della capacità di rappresentazione di questo formato a favore di una stima del gradiente quantizzato non distorto e più accurata mediante arrotondamento stocastico (SR), perdendo un'accuratezza significativa rispetto all'addestramento standard con FP16 e FP8. In questo articolo, miglioriamo lo stato dell'arte per l'addestramento quantizzato in NVFP4 tramite una nuova routine di quantizzazione non distorta per formati a micro-scala, denominata MS-EDEN, che presenta un errore di quantizzazione più di 2 volte inferiore rispetto all'SR. La integriamo in un nuovo schema di quantizzazione completamente in NVFP4 per i layer lineari, chiamato Quartet II. Dimostriamo analiticamente che Quartet II ottiene una stima del gradiente costantemente migliore in tutte le principali moltiplicazioni di matrici, sia nelle passate in avanti che in quelle all'indietro. Inoltre, la nostra proposta si integra bene con i recenti miglioramenti dell'addestramento mirati specificamente a NVFP4. Convalidiamo ulteriormente Quartet II su addestramenti LLM end-to-end con fino a 1,9 miliardi di parametri su 38 miliardi di token. Forniamo kernel per l'esecuzione su GPU NVIDIA Blackwell con un speedup fino a 4,2x rispetto a BF16. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/Quartet-II.
I grandi modelli di ragionamento (LRM) ottengono prestazioni notevoli sfruttando l'apprendimento per rinforzo (RL) su compiti di ragionamento per generare lunghe catene di ragionamento (CoT). Tuttavia, questa sovra-ottimizzazione spesso privilegia la compiacenza, rendendo i modelli vulnerabili a prompt dannosi. Per mitigare questo degrado della sicurezza, gli approcci recenti si basano sulla distillazione da insegnanti esterni, ma ciò introduce una discrepanza distributiva che degrada il ragionamento nativo. Proponiamo ThinkSafe, un framework di allineamento auto-generato che ripristina l'allineamento di sicurezza senza insegnanti esterni. La nostra intuizione chiave è che, sebbene la compiacenza sopprima i meccanismi di sicurezza, i modelli spesso conservano conoscenze latenti per identificare il danno. ThinkSafe sblocca questo tramite uno steering di rifiuto leggero, guidando il modello a generare tracce di ragionamento sulla sicurezza in-distribuzione. Il fine-tuning su queste risposte auto-generate riallinea efficacemente il modello minimizzando lo shift distributivo. Esperimenti su DeepSeek-R1-Distill e Qwen3 mostrano che ThinkSafe migliora significativamente la sicurezza preservando la competenza di ragionamento. In particolare, raggiunge una sicurezza superiore e un ragionamento comparabile a GRPO, con un costo computazionale significativamente ridotto. Codice, modelli e dataset sono disponibili su https://github.com/seanie12/ThinkSafe.git.
Mentre il ragionamento a catena (Chain-of-Thought, CoT) migliora significativamente le prestazioni dei Large Language Model (LLM), le catene di ragionamento esplicite introducono una sostanziale ridondanza computazionale. I recenti metodi di ragionamento latente tentano di mitigare questo problema comprimendo i processi inferenziali nello spazio latente, ma spesso soffrono di una grave degradazione delle prestazioni a causa della mancanza di un'adeguata guida alla compressione. In questo studio, proponiamo il Rendered CoT-Guided variational Latent Reasoning (ReGuLaR), un paradigma di apprendimento latente semplice ma innovativo che risolve questo problema. Fondamentalmente, formuliamo il ragionamento latente all'interno del framework di Variational Auto-Encoding (VAE), campionando lo stato di ragionamento latente corrente dalla distribuzione a posteriori condizionata a quelli precedenti. Nello specifico, durante l'apprendimento di questo modello di ragionamento latente variazionale, rendiamo le catene di ragionamento esplicite come immagini, dalle quali estraiamo rappresentazioni visivo-semantiche dense per regolarizzare la distribuzione a posteriori, ottenendo così una compressione efficiente con una perdita di informazioni minima. Esperimenti estensivi dimostrano che ReGuLaR supera significativamente i metodi di ragionamento latente esistenti sia in termini di efficienza computazionale che di efficacia inferenziale, e supera persino il CoT attraverso il ragionamento multimodale, fornendo una soluzione nuova e approfondita al ragionamento latente. Codice: https://github.com/FanmengWang/ReGuLaR.
Il Test-Time Training offre un approccio promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM) adattando il modello utilizzando esclusivamente le domande di test. Tuttavia, i metodi esistenti incontrano difficoltà con problemi di ragionamento complessi per due ragioni principali: le domande di test grezze sono spesso troppo difficili per produrre pseudo-etichette di alta qualità, e la dimensione limitata degli insiemi di test rende gli aggiornamenti online continui soggetti a instabilità. Per superare queste limitazioni, proponiamo TTCS, un framework di test-time training a co-evoluzione. Nello specifico, TTCS inizializza due politiche a partire dallo stesso modello preaddestrato: un sintetizzatore di domande e un risolutore di ragionamenti. Queste politiche evolvono attraverso un'ottimizzazione iterativa: il sintetizzatore genera varianti di domande progressivamente più complesse condizionate dalle domande di test, creando un curriculum strutturato su misura per le capacità attuali del risolutore, mentre il risolutore si aggiorna utilizzando ricompense di auto-consistenza calcolate da risposte campionate multiple su domande di test originali e sintetiche. Fondamentalmente, il feedback del risolutore guida il sintetizzatore a generare domande allineate con le capacità attuali del modello, e le varianti di domande generate a loro volta stabilizzano l'addestramento del risolutore durante il test. Gli esperimenti dimostrano che TTCS potenzia consistentemente le capacità di ragionamento su benchmark matematici complessi e si trasferisce a compiti di dominio generale attraverso diversi backbone di LLM, evidenziando un percorso scalabile verso la costruzione dinamica di curriculum di test-time per l'auto-evoluzione. Il nostro codice e i dettagli implementativi sono disponibili su https://github.com/XMUDeepLIT/TTCS.
Questo lavoro evidenzia come la modellazione video del mondo, unita al pre-addestramento visione-linguaggio, costituisca una base nuova e indipendente per l'apprendimento robotico. Intuitivamente, i modelli video del mondo forniscono la capacità di immaginare il futuro prossimo comprendendo la causalità tra azioni e dinamiche visive. Ispirati da questo, introduciamo LingBot-VA, un framework di diffusione autoregressiva che apprende simultaneamente la previsione di frame e l'esecuzione di policy. Il nostro modello presenta tre design accuratamente studiati: (1) uno spazio latente condiviso, che integra token visivi e d'azione, guidato da un'architettura Mixture-of-Transformers (MoT), (2) un meccanismo di rollout a circuito chiuso, che consente l'acquisizione continua di feedback ambientali con osservazioni ground-truth, (3) una pipeline di inferenza asincrona, che parallelizza la previsione delle azioni e l'esecuzione motoria per supportare un controllo efficiente. Valutiamo il nostro modello su benchmark di simulazione e scenari reali, dove dimostra notevole potenziale nella manipolazione a lungo orizzonte, nell'efficienza dei dati post-addestramento e in una forte generalizzabilità a configurazioni non viste. Il codice e il modello sono resi pubblicamente disponibili per favorire la comunità.
Il ragionamento agente a lungo termine richiede una compressione efficace delle storie d'interazione crescenti in una finestra di contesto limitata. La maggior parte dei sistemi di memoria esistenti serializza la cronologia come testo, dove il costo a livello di token è uniforme e scala linearmente con la lunghezza, spendendo spesso il budget limitato su dettagli di scarso valore. A tal fine, introduciamo MemOCR, un agente di memoria multimodale che migliora il ragionamento a lungo termine con budget di contesto ristretti allocando lo spazio di memoria con densità informativa adattiva attraverso layout visivo. Nello specifico, MemOCR mantiene una memoria strutturata in rich-text (ad es. intestazioni, evidenziazioni) e la renderizza in un'immagine che l'agente consulta per l'accesso alla memoria, dando priorità visiva alle evidenze cruciale comprimendo aggressivamente i dettagli ausiliari. Per garantire robustezza con budget di memoria variabili, addestriamo MemOCR con apprendimento per rinforzo sotto obiettivi budget-aware che espongono l'agente a diversi livelli di compressione. Su benchmark di question-answering multi-hop e single-hop a contesto lungo, MemOCR supera solidi baseline testuali e raggiunge un utilizzo del contesto più efficace sotto budget estremi.
I modelli di embedding all'avanguardia sono sempre più derivati da architetture LLM (Large Language Model) di tipo decoder-only adattate mediante apprendimento contrastivo. Data l'emergere di modelli di ragionamento addestrati tramite Reinforcement Learning con Ricompense Verificabili (RLVR), sorge spontanea una domanda: le capacità di ragionamento potenziate si traducono in rappresentazioni semantiche superiori quando questi modelli fungono da inizializzazioni per gli embedding? Contrariamente alle aspettative, la nostra valutazione su MTEB e BRIGHT rivela un **effetto nullo**: i modelli di embedding inizializzati da architetture sintonizzate con RLVR non mostrano alcun vantaggio prestazionale consistente rispetto alle loro controparti base quando sottoposti alle stesse procedure di addestramento. Per analizzare questo paradosso, introduciamo l'**A**nalisi della **S**imiglianza **R**appresentazionale **I**erarchica (HRSA), un framework che scompone la similitudine a livello rappresentazionale, geometrico e funzionale. L'HRSA rivela che mentre RLVR induce una riorganizzazione locale irreversibile della geometria del manifold latente e una deriva reversibile della base delle coordinate, esso preserva la geometria globale del manifold e la lettura lineare. Di conseguenza, il successivo apprendimento contrastivo guida un forte allineamento tra i modelli inizializzati dalla base e quelli ottimizzati per il ragionamento, un fenomeno che definiamo **Riallineamento del Manifold**. Empiricamente, i nostri risultati suggeriscono che, a differenza del Supervised Fine-Tuning (SFT), RLVR ottimizza le traiettorie all'interno di un panorama semantico esistente piuttosto che ristrutturarne fondamentalmente il panorama stesso.
I modelli linguistici di grandi dimensioni (LLM) vengono generalmente valutati per la sicurezza mediante prompt avversari one-shot o a basso budget, il che sottostima il rischio nel mondo reale. Nella pratica, gli attaccanti possono sfruttare il campionamento parallelo su larga scala per sondare ripetutamente un modello finché non viene prodotta una risposta dannosa. Sebbene lavori recenti mostrino che il successo degli attacchi aumenta con il campionamento ripetuto, i metodi basati su principi per prevedere il rischio avversario su larga scala rimangono limitati. Proponiamo una stima del rischio Best-of-N consapevole del scaling, denominata SABER, per modellare la vulnerabilità al jailbreak sotto campionamento Best-of-N. Modelliamo le probabilità di successo a livello di campione utilizzando una distribuzione Beta, il priore coniugato della distribuzione di Bernoulli, e deriviamo una legge di scaling analitica che consente l'estrapolazione affidabile dei tassi di successo di attacco per N elevati a partire da misurazioni a basso budget. Utilizzando solo n=100 campioni, il nostro stimatore ancorato predice ASR@1000 con un errore assoluto medio di 1,66, rispetto a 12,04 del baseline, che corrisponde a una riduzione del 86,2% nell'errore di stima. I nostri risultati rivelano profili di scaling del rischio eterogenei e mostrano che modelli che appaiono robusti sotto valutazioni standard possono sperimentare una rapida amplificazione non lineare del rischio sotto pressione avversaria parallela. Questo lavoro fornisce una metodologia a basso costo e scalabile per una valutazione realistica della sicurezza degli LLM. Rilasceremo il nostro codice e gli script di valutazione alla pubblicazione per la ricerca futura.
Nonostante il potenziale non autoregressivo dei modelli linguistici diffusivi (dLLM), le strategie di decodifica esistenti mostrano un bias posizionale, non riuscendo a sfruttare appieno il potenziale di generazione arbitraria. In questo lavoro, approfondiamo le caratteristiche spettrali intrinseche dei dLLM e presentiamo la prima analisi nel dominio della frequenza, dimostrando che le componenti a bassa frequenza negli stati nascosti codificano principalmente informazioni strutturali globali e dipendenze a lungo raggio, mentre le componenti ad alta frequenza sono responsabili della caratterizzazione dei dettagli locali. Sulla base di questa osservazione, proponiamo FourierSampler, che sfrutta un meccanismo a finestra scorrevole nel dominio della frequenza per guidare dinamicamente il modello verso una generazione "dalla struttura al dettaglio". FourierSampler supera altre strategie di miglioramento dell'inferenza su LLADA e SDAR, ottenendo miglioramenti relativi del 20,4% su LLaDA1.5-8B e del 16,0% su LLaDA-8B-Instruct. Notevolmente, supera modelli autoregressivi di dimensioni simili come Llama3.1-8B-Instruct.
Presentiamo PaddleOCR-VL-1.5, un modello potenziato che raggiunge una nuova accuratezza state-of-the-art (SOTA) del 94,5% su OmniDocBench v1.5. Per valutare rigorosamente la robustezza contro le distorsioni fisiche del mondo reale, incluse scansione, inclinazione, deformazione, fotografia da schermo e illuminazione, proponiamo il benchmark Real5-OmniDocBench. I risultati sperimentali dimostrano che questo modello migliorato raggiunge prestazioni SOTA sul nuovo benchmark curato. Inoltre, estendiamo le capacità del modello incorporando compiti di riconoscimento di timbri e text spotting, mantenendo al contempo un'architettura ultra-compatta da 0,9B parametri e un'elevata efficienza. Codice: https://github.com/PaddlePaddle/PaddleOCR
Gli approcci recenti basati su GRPO costruiti su modelli di flow matching hanno mostrato notevoli miglioramenti nell'allineamento alle preferenze umane per la generazione di immagini da testo. Tuttavia, essi soffrono ancora del problema della ricompensa sparsa: la ricompensa terminale dell'intera traiettoria di denoising viene applicata a tutti i passi intermedi, risultando in una discrepanza tra i segnali di feedback globale e i contributi esatti e granulari ai passi intermedi del denoising. Per affrontare questo problema, introduciamo DenseGRPO, un framework innovativo che allinea le preferenze umane con ricompense dense, valutando il contributo granulare di ogni passo di denoising. Nello specifico, il nostro approccio include due componenti chiave: (1) proponiamo di predire il guadagno di ricompensa passo-passo come ricompensa densa per ogni passo di denoising, applicando un modello di ricompensa sulle immagini pulite intermedie tramite un approccio basato su ODE. Questa modalità garantisce un allineamento tra i segnali di feedback e i contributi dei singoli passi, facilitando un addestramento efficace; e (2) sulla base delle ricompense dense stimate, viene evidenziato uno svantaggio da disallineamento tra l'impostazione di esplorazione uniforme e l'intensità di rumore variabile nel tempo nei metodi esistenti basati su GRPO, portando a uno spazio di esplorazione inappropriato. Pertanto, proponiamo uno schema reward-aware per calibrare lo spazio di esplorazione regolando adattivamente un'iniezione di stochasticità specifica per il timestep nel campionatore SDE, garantendo uno spazio di esplorazione adeguato in tutti i timestep. Esperimenti estesi su molteplici benchmark standard dimostrano l'efficacia del DenseGRPO proposto e evidenziano il ruolo cruciale delle ricompense dense valide nell'allineamento del modello di flow matching.
Studi recenti hanno esplorato l'utilizzo di Vision Foundation Models (VFM) preaddestrati come DINO per autoencoder generativi, dimostrando prestazioni generative robuste. Sfortunatamente, gli approcci esistenti spesso presentano una fedeltà di ricostruzione limitata a causa della perdita di dettagli ad alta frequenza. In questo lavoro, presentiamo il DINO Spherical Autoencoder (DINO-SAE), un framework che colma il divario tra rappresentazione semantica e ricostruzione a livello di pixel. La nostra intuizione chiave è che l'informazione semantica nelle rappresentazioni contrastive è codificata principalmente nella direzione dei vettori di feature, mentre forzare una corrispondenza rigorosa della magnitudine può impedire all'encoder di preservare i dettagli più fini. Per affrontare ciò, introduciamo un modulo di Hierarchical Convolutional Patch Embedding che migliora la preservazione di strutture locali e trame, e un obiettivo di Cosine Similarity Alignment che impone la consistenza semantica consentendo al contempo magnitudini delle feature flessibili per la ritenzione dei dettagli. Inoltre, sfruttando l'osservazione che le rappresentazioni dei foundation model basati su SSL giacciono intrinsecamente su un'ipersfera, utilizziamo il Riemannian Flow Matching per addestrare un Diffusion Transformer (DiT) direttamente su questa varietà latente sferica. Esperimenti su ImageNet-1K dimostrano che il nostro approccio raggiunge una qualità di ricostruzione allo stato dell'arte, con 0.37 rFID e 26.2 dB PSNR, mantenendo al contempo un forte allineamento semantico con il VFM preaddestrato. In modo significativo, il nostro DiT basato su Riemannian Flow Matching mostra una convergenza efficiente, raggiungendo un gFID di 3.47 a 80 epoche.
L'animazione di immagini di personaggi mira a sintetizzare video ad alta fedeltà trasferendo il movimento da una sequenza guida a un'immagine di riferimento statica. Nonostante i recenti progressi, i metodi esistenti presentano due sfide fondamentali: (1) strategie di iniezione del movimento subottimali che portano a un compromesso tra conservazione dell'identità e coerenza del movimento, manifestandosi come un "altalena", e (2) un'eccessiva dipendenza da priori di posa espliciti (ad esempio, scheletri), che catturano in modo inadeguato le dinamiche intricate e ostacolano la generalizzazione a personaggi arbitrari e non umanoidi. Per affrontare queste sfide, presentiamo DreamActor-M2, un framework di animazione universale che re-immagina il condizionamento del movimento come un problema di apprendimento in contesto. Il nostro approccio segue un paradigma a due stadi. In primo luogo, colmiamo il divario di modalità di input fondendo l'aspetto di riferimento e i segnali di movimento in uno spazio latente unificato, consentendo al modello di ragionare congiuntamente sull'identità spaziale e le dinamiche temporali sfruttando il priori generativo dei modelli fondazionali. In secondo luogo, introduciamo una pipeline di sintesi dei dati auto-avviata che seleziona coppie di addestramento pseudo cross-identità, facilitando una transizione senza soluzione di continuità dal controllo dipendente dalla posa all'animazione RGB diretta e end-to-end. Questa strategia migliora significativamente la generalizzazione attraverso diversi personaggi e scenari di movimento. Per facilitare una valutazione completa, introduciamo inoltre AW Bench, un benchmark versatile che comprende un'ampia gamma di tipi di personaggi e scenari di movimento. Esperimenti estensivi dimostrano che DreamActor-M2 raggiunge prestazioni all'avanguardia, offrendo una fedeltà visiva superiore e una robusta generalizzazione cross-dominio. Pagina del progetto: https://grisoon.github.io/DreamActor-M2/
L'Apprendimento per Rinforzo con Feedback Umano (RLHF) è una tecnica fondamentale per allineare i grandi modelli linguistici (LLM) alle preferenze umane, ma è suscettibile all'ottimizzazione eccessiva della ricompensa, in cui i modelli policy sovradattano il modello di ricompensa, sfruttando pattern spurdi anziché cogliere fedelmente l'intento umano. Le mitigazioni precedenti si basano principalmente su informazioni semantiche superficiali e non riescono ad affrontare efficientemente il disallineamento tra il modello di ricompensa (RM) e il modello policy causato dai continui spostamenti della distribuzione policy. Ciò porta inevitabilmente a una crescente discrepanza nelle ricompense, aggravando l'overoptimization. Per superare questi limiti, introduciamo R2M (Real-Time Aligned Reward Model), un nuovo framework RLHF leggero. R2M va oltre i modelli di ricompensa standard che dipendono esclusivamente dalle rappresentazioni semantiche di un LLM preaddestrato. Utilizza invece gli stati nascosti evolutivi della policy (definiti feedback della policy) per allinearsi allo spostamento distributivo in tempo reale della policy durante il processo RL. Questo lavoro indica una nuova direzione promettente per migliorare le prestazioni dei modelli di ricompensa attraverso l'utilizzo in tempo reale del feedback dei modelli policy.
L'apprendimento per rinforzo con ricompense verificabili è emerso come un potente paradigma per l'addestramento di agenti intelligenti. Tuttavia, i metodi esistenti impiegano tipicamente ricompense binarie che non riescono a cogliere le differenze qualitative tra le traiettorie che raggiungono risultati identici, trascurando così la potenziale diversità all'interno dello spazio delle soluzioni. Ispirati dal concetto del "punto centrale" (sweet spot) nel tennis – la regione centrale della racchetta che produce effetti di colpo ottimali – introduciamo lo Sweet Spot Learning (SSL), un nuovo framework che fornisce una guida differenziata per l'ottimizzazione dell'agente. SSL segue un principio semplice ma efficace: ricompande progressive, amplificate e graduate guidano le politiche verso la regione del punto centrale dello spazio delle soluzioni. Questo principio si adatta naturalmente a diverse tipologie di compiti: i compiti di percezione visiva sfruttano una modellazione a livelli basata sulla distanza per premiare la prossimità, mentre i compiti di ragionamento complesso premiano i progressi incrementali verso soluzioni promettenti. Dimostriamo teoricamente che SSL preserva l'ordinamento delle soluzioni ottimali e migliora il rapporto segnale-rumore del gradiente, favorendo così un'ottimizzazione più diretta. Esperimenti estesi su compiti di percezione GUI, pianificazione a breve/lungo termine e ragionamento complesso mostrano miglioramenti consistenti rispetto a baseline solide su 12 benchmark, raggiungendo fino a 2,5 volte l'efficienza campionaria e un'efficace trasferibilità cross-task. Il nostro lavoro stabilisce SSL come un principio generale per l'addestramento di agenti capaci e robusti.
I modelli linguistici audio autoregressivi (AR) di grandi dimensioni (LALM) come Qwen-2.5-Omni hanno ottenuto prestazioni elevate nella comprensione e interazione audio, ma il loro scaling rimane costoso in termini di dati e calcolo, e la decodifica strettamente sequenziale limita l'efficienza inferenziale. I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente dimostrato di saper utilizzare efficacemente dati di addestramento limitati, e lavori precedenti su DIFFA indicano che sostituire un'architettura AR con una controparte a diffusione può migliorare sostanzialmente la comprensione audio in condizioni equivalenti, sebbene a scala proof-of-concept senza large-scale instruction tuning, allineamento delle preferenze o schemi di decodifica pratici. Presentiamo DIFFA-2, un LALM pratico basato su diffusione per la comprensione audio generale. DIFFA-2 aggiorna l'encoder vocale, impiega adattatori duali semantici e acustici, ed è addestrato con un curriculum in quattro fasi che combina allineamento semantico e acustico, fine-tuning supervisionato su larga scala e ottimizzazione delle preferenze a varianza ridotta, utilizzando esclusivamente corpora completamente open-source. Esperimenti su MMSU, MMAU e MMAR mostrano che DIFFA-2 migliora costantemente rispetto a DIFFA ed è competitivo con forti LALM AR con budget di addestramento pratici, supportando l'idea che la modellazione basata su diffusione sia un'architettura valida per la comprensione audio su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/NKU-HLT/DIFFA.git.
I modelli linguistici di grandi dimensioni (LLM) mostrano capacità notevoli, ma la loro predizione stocastica token-per-token genera incoerenze logiche e fenomeni di reward hacking che i sistemi simbolici formali evitano. Per colmare questa lacuna, introduciamo un framework guidato dalla verifica logica formale che intercala dinamicamente la verifica simbolica formale con il processo di generazione del linguaggio naturale, fornendo un feedback in tempo reale per rilevare e correggere gli errori man mano che si verificano. A differenza dei precedenti metodi neuro-simbolici limitati da una validazione passiva a posteriori, il nostro approccio penalizza attivamente le fallacie intermedie durante la catena di ragionamento. Implementiamo questo framework attraverso una innovativa pipeline di addestramento in due fasi che sinergizza un fine-tuning supervisionato guidato dalla verifica logica formale e un'ottimizzazione tramite policy. Una valutazione estesa su sei benchmark che coprono il ragionamento matematico, logico e generico dimostra che i nostri modelli da 7B e 14B superano i baseline all'avanguardia con margini medi rispettivamente del 10,4% e del 14,2%. Questi risultati convalidano che la verifica formale può fungere da meccanismo scalabile per spingere significativamente i limiti prestazionali del ragionamento avanzato degli LLM.
La generazione di immagini basata su VQ segue tipicamente una pipeline a due stadi: un tokenizer codifica le immagini in token discreti, e un modello generativo apprende le loro dipendenze per la ricostruzione. Tuttavia, un tokenizzazione migliorata nel primo stadio non necessariamente potenzia la generazione nel secondo stadio, poiché i metodi esistenti non riescono a vincolare le dipendenze tra i token. Questo disallineamento costringe il modello generativo ad apprendere da distribuzioni non ordinate, portando a bias e scarsa coerenza. Per risolvere ciò, proponiamo una tokenizzazione visiva nativa, che applica dipendenze causali durante la tokenizzazione. Sviluppando questa idea, introduciamo NativeTok, un framework che ottiene una ricostruzione efficiente incorporando vincoli relazionali all'interno delle sequenze di token. NativeTok è composto da: (1) un Meta Image Transformer (MIT) per la modellazione di immagini latenti, e (2) un Mixture of Causal Expert Transformer (MoCET), in cui ogni blocco esperto leggero genera un singolo token condizionato dai token precedenti e dalle caratteristiche latenti. Progettiamo inoltre una strategia di Addestramento Nativo Gerarchico che aggiorna solo i nuovi blocchi esperti, garantendo efficienza nell'addestramento. Esperimenti estesi dimostrano l'efficacia di NativeTok.
I grandi modelli linguistici (LLM) sono in grado di richiamare strumenti in modo efficace, ma rimangono fragili nell'esecuzione multi-turn: dopo un errore di chiamata di uno strumento, i modelli più piccoli spesso degenerano in reinvocazioni ripetitive e non valide, non riuscendo a interpretare il feedback di errore e ad autocorreggersi. Questa fragilità ostacola un deployment affidabile nel mondo reale, dove gli errori di esecuzione sono intrinsecamente inevitabili durante le procedure di interazione con gli strumenti. Identifichiamo una limitazione chiave degli approcci attuali: il reinforcement learning (RL) standard tratta gli errori come ricompense negative sparse, senza fornire indicazioni su come recuperare, mentre i dataset sintetici di correzione degli errori pre-raccolti soffrono di uno scostamento distributivo rispetto alle modalità di errore on-policy del modello. Per colmare questa lacuna, proponiamo Fission-GRPO, un framework che converte gli errori di esecuzione in supervisione correttiva all'interno del ciclo di addestramento RL. Il nostro meccanismo centrale scinde (fissions) ogni traiettoria fallita in una nuova istanza di addestramento arricchendola con un feedback diagnostico da un Simulatore di Errori messo a punto (finetuned), per poi ricampionare rollout di recupero on-policy. Ciò consente al modello di apprendere dagli errori specifici che commette durante l'esplorazione, anziché da casi di errore statici e pre-raccolti. Sul benchmark BFCL v4 Multi-Turn, Fission-GRPO migliora il tasso di recupero degli errori di Qwen3-8B del 5.7% in valore assoluto e, aspetto cruciale, produce un guadagno complessivo di accuratezza del 4% (dal 42.75% al 46.75%) rispetto al GRPO, superando anche agenti specializzati nell'uso di strumenti.
Sebbene i Large Language Model (LLM) abbiano mostrato potenziale nell'ingegneria del software, la loro applicazione ai test unitari rimane largamente confinata alla generazione isolata di test o alla predizione di oracoli, trascurando la sfida più ampia della manutenzione delle suite di test. Introduciamo TAM-Eval (Test Automated Maintenance Evaluation), un framework e benchmark progettato per valutare le prestazioni dei modelli in tre scenari chiave di manutenzione dei test: creazione, riparazione e aggiornamento delle suite di test. A differenza dei lavori precedenti limitati a compiti a livello di funzione, TAM-Eval opera a livello di file di test, mantenendo al contempo l'accesso al contesto completo del repository durante la valutazione isolata, riflettendo meglio i flussi di lavoro di manutenzione reali. Il nostro benchmark comprende 1.539 scenari estratti e convalidati automaticamente da progetti Python, Java e Go. TAM-Eval supporta una valutazione system-agnostic sia per LLM puri che per workflow agentivi, utilizzando un protocollo reference-free basato sul tasso di superamento dei test, sulla code coverage e sul mutation testing. I risultati empirici indicano che gli LLM allo stato dell'arte hanno capacità limitate nei processi realistici di manutenzione dei test e producono solo miglioramenti marginali nell'efficacia dei test. Rilasciamo TAM-Eval come framework open-source per supportare la ricerca futura nel testing software automatizzato. I nostri dati e codice sono pubblicamente disponibili su https://github.com/trndcenter/TAM-Eval.
Presentiamo RM-RF, un modello di reward leggero per la valutazione senza esecuzione di test unitari generati automaticamente. Invece di compilare ed eseguire ripetutamente i test candidati, RM-RF predice - unicamente dal codice sorgente e di test - tre segnali derivati dall'esecuzione: (1) se la suite di test potenziata compila e viene eseguita con successo, (2) se i casi di test generati aumentano la code coverage, e (3) se i casi di test generati migliorano il mutation kill rate. Per addestrare e valutare RM-RF, abbiamo assemblato un dataset multilingue (Java, Python, Go) di file focali, file di test e aggiunte candidate di test etichettate da una pipeline basata sull'esecuzione, e rendiamo pubblico un dataset e una metodologia associati per la valutazione comparativa. Abbiamo testato diverse famiglie di modelli e regimi di tuning (zero-shot, fine-tuning completo e PEFT tramite LoRA), raggiungendo una F1 media di 0,69 sui tre obiettivi. Rispetto agli strumenti convenzionali di compilazione ed esecuzione, RM-RF offre una latenza e un costo infrastrutturale sostanzialmente inferiori, fornendo al contempo una fedeltà predittiva competitiva, abilitando un feedback rapido e scalabile per la generazione di test su larga scala e l'ottimizzazione del codice basata su RL.
Sebbene i sistemi multiagente abbiano mostrato potenziale nell'affrontare compiti complessi tramite specializzazione, l'ottimizzazione fine simultanea di più agenti incontra due sfide principali: (1) l'assegnazione del merito tra gli agenti e (2) l'efficienza campionaria dei costosi rollout multiagente. In questo lavoro, proponiamo l'ottimizzazione fine di sistemi multiagente con ricompense di processo per azione da feedback di IA (MAPPA) per affrontare entrambi i problemi. Assegnando il merito alle singole azioni degli agenti anziché solo al completamento del compito, MAPPA consente una supervisione granulare senza etichette di verità fondamentale, estraendo al contempo il segnale di addestramento massimo da ogni rollout. Dimostriamo il nostro approccio su problemi di matematica competitiva e su compiti di analisi dati con strumenti. Su problemi matematici non visti, MAPPA raggiunge un miglioramento di +5,0-17,5 pp su AIME e di +7,8-17,2 pp su AMC. Per i compiti di analisi dati, il nostro metodo migliora il tasso di successo del +12,5 pp mentre le metriche di qualità migliorano fino al 30%, convalidando il fatto che una supervisione per azione può portare a miglioramenti in diversi sistemi multiagente su vari domini. Affrontando queste sfide, il nostro lavoro compie un primo passo verso il ridimensionamento dei sistemi multiagente per compiti complessi e a lungo orizzonte con una supervisione umana minima.
Gli agenti di ricerca approfondita alimentati da grandi modelli linguistici hanno dimostrato notevoli capacità nella ricerca multi-step, nel ragionamento e nell'esecuzione di compiti a lungo termine. Tuttavia, i loro fallimenti pratici spesso originano dalla mancanza di meccanismi per monitorare e regolare gli stati di ragionamento e recupero delle informazioni man mano che i compiti evolvono in condizioni di incertezza. Le intuizioni dalla neuroscienza cognitiva suggeriscono che la metacognizione umana è organizzata gerarchicamente, integrando un rilevamento rapido delle anomalie con una riflessione guidata dall'esperienza e attivata in modo selettivo. In questo lavoro, proponiamo la Ricerca Approfondita con Monitoraggio Meta-Cognitivo (DS-MCM), un framework di deep search potenziato da un esplicito meccanismo gerarchico di monitoraggio metacognitivo. DS-MCM integra un Monitor di Coerenza Rapida, che esegue controlli leggeri sull'allineamento tra evidenze esterne e fiducia nel ragionamento interno, e un Monitor Lento Guidato dall'Esperienza, che viene attivato selettivamente per guidare interventi correttivi basati sulla memoria esperienziale ricavata dalle traiettorie storiche dell'agente. Incorporando il monitoraggio direttamente nel ciclo di ragionamento-recupero, DS-MCM determina sia quando un intervento è giustificato, sia come le azioni correttive debbano essere informate dall'esperienza pregressa. Esperimenti condotti su molteplici benchmark di deep search e modelli di base dimostrano che DS-MCM migliora costantemente prestazioni e robustezza.
Gli studi di probing analizzano quali informazioni sono codificate nelle rappresentazioni stratificate di un LLM congelato, addestrando un predittore leggero su di esse. Oltre all'analisi, le probe sono spesso utilizzate operativamente nelle pipeline di tipo "probe-then-steer": un vettore concettuale appreso viene estratto da una probe e iniettato tramite steering additivo delle attivazioni, aggiungendolo a una rappresentazione stratificata durante il forward pass. L'efficacia di questa pipeline dipende dalla stima di vettori concettuali che siano accurati, directionalmente stabili sotto ablazione e economici da ottenere. Motivati da questi requisiti, proponiamo RAPTOR (Ridge-Adaptive Logistic Probe), una semplice probe logistica con regolarizzazione L2 la cui forza di ridge ottimizzata su validation produce vettori concettuali dai pesi normalizzati. In un'ampia serie di esperimenti su LLM addestrati per seguire istruzioni e dataset concettuali scritti da umani, RAPTOR eguaglia o supera baseline robuste in accuratezza, raggiungendo al contempo una stabilità direzionale competitiva e un costo di addestramento sostanzialmente inferiore; questi risultati quantitativi sono supportati da dimostrazioni qualitative di steering a valle. Infine, utilizzando il Teorema del Min-max Gaussiano Convesso (CGMT), forniamo una caratterizzazione meccanicistica della regressione logistica ridge in un modello ideale Gaussiano insegnante-studente nel regime ad alta dimensionalità e pochi esempi, spiegando come la forza della penalizzazione media l'accuratezza della probe e la stabilità del vettore concettuale, e producendo previsioni strutturali che si allineano qualitativamente con le tendenze osservate sugli embedding reali di LLM.
Chain-of-Thought (CoT) consente ai Large Language Model (LLM) di affrontare problemi complessi, ma rimane limitato dal costo computazionale e dal collasso del percorso di ragionamento quando ancorato a spazi di token discreti. I recenti approcci di ragionamento latente tentano di ottimizzare l'efficienza eseguendo il ragionamento all'interno di stati nascosti continui. Tuttavia, questi metodi operano tipicamente come mappature opache end-to-end da passaggi di ragionamento espliciti a stati latenti e spesso richiedono un numero predefinito di passi latenti durante l'inferenza. In questo lavoro, introduciamo PLaT (Planning with Latent Thoughts), un framework che riformula il ragionamento latente come pianificazione, disaccoppiando fondamentalmente il ragionamento dalla verbalizzazione. Modelliamo il ragionamento come una traiettoria deterministica di stati di pianificazione latente, mentre un Decoder separato ancorà questi pensieri al testo quando necessario. Questo disaccoppiamento consente al modello di determinare dinamicamente quando terminare il ragionamento, piuttosto che affidarsi a iperparametri fissi. I risultati empirici su benchmark matematici rivelano un chiaro trade-off: sebbene PLaT raggiunga una minore accuratezza greedy rispetto ai baseline, dimostra una scalabilità superiore in termini di diversità di ragionamento. Ciò indica che PLaT apprende uno spazio di soluzioni più robusto e ampio, offrendo una base trasparente e scalabile per la ricerca al momento dell'inferenza.
Poiché gli ambienti digitali (distribuzione dei dati) sono in continua evoluzione, con nuovi dati GUI che arrivano nel tempo - introducendo nuovi domini o risoluzioni - gli agenti addestrati su ambienti statici vedono un deterioramento delle prestazioni. In questo lavoro, introduciamo gli Agenti GUI Continui, un nuovo compito che richiede agli agenti GUI di effettuare apprendimento continuo sotto domini e risoluzioni variabili. Rileviamo che i metodi esistenti non riescono a mantenere un ancoraggio stabile man mano che le distribuzioni GUI cambiano nel tempo, a causa della diversità dei punti e delle regioni di interazione dell'interfaccia utente negli scenari fluttuanti. Per affrontare questo problema, introduciamo GUI-Anchoring in Flux (GUI-AiF), un nuovo framework di fine-tuning per rinforzo che stabilizza l'apprendimento continuo attraverso due nuove ricompense: Anchoring Point Reward in Flux (APR-iF) e Anchoring Region Reward in Flux (ARR-iF). Queste ricompense guidano gli agenti ad allinearsi con i punti e le regioni di interazione in cambiamento, mitigando la tendenza delle strategie di ricompensa esistenti a iperadattarsi a segnali di ancoraggio statici (ad es., coordinate fisse o scale degli elementi). Esperimenti estensivi mostrano che GUI-AiF supera i baseline state-of-the-art. Il nostro lavoro stabilisce il primo framework di apprendimento continuo per agenti GUI, rivelando il potenziale inesplorato del fine-tuning per rinforzo per gli Agenti GUI Continui.
I recenti progressi nei modelli di diffusione e di flusso hanno evidenziato un cambiamento nell'obiettivo di predizione preferito, passando dalla predizione del rumore (ε) e della velocità (v) alla predizione diretta dei dati (x), specialmente in contesti ad alta dimensionalità. Tuttavia, una spiegazione formale del motivo per cui l'obiettivo ottimale dipenda dalle proprietà specifiche dei dati rimane elusiva. In questo lavoro, forniamo un quadro teorico basato su una formulazione di predizione generalizzata che accoglie obiettivi di output arbitrari, di cui ε-predizione, v-predizione e x-predizione sono casi particolari. Deriviamo la relazione analitica tra la geometria dei dati e l'obiettivo di predizione ottimale, offrendo una giustificazione rigorosa del motivo per cui la x-predizione diventa superiore quando la dimensione ambientale supera significativamente la dimensione intrinseca dei dati. Inoltre, sebbene la nostra teoria identifichi la dimensionalità come il fattore determinante per l'obiettivo di predizione ottimale, la dimensione intrinseca di dati vincolati a una varietà è tipicamente intrattabile da stimare nella pratica. Per colmare questa lacuna, proponiamo k-Diff, un framework che impiega un approccio guidato dai dati per apprendere direttamente dai dati il parametro di predizione ottimale k, bypassando la necessità di una stima esplicita della dimensione. Esperimenti estesi nella generazione di immagini sia in spazi latenti che in spazi di pixel dimostrano che k-Diff supera costantemente i baseline a obiettivo fisso su varie architetture e scale di dati, fornendo un approccio principiato e automatizzato per migliorare le prestazioni generative.
L'apprendimento di rappresentazioni è centrale per numerosi task downstream come la ricerca, il clustering, la classificazione e il riordinamento dei risultati. Gli encoder di sequenza allo stato dell'arte tipicamente collassano una sequenza di token di lunghezza variabile in un singolo vettore utilizzando un operatore di pooling, più comunemente uno speciale token [CLS] o il mean pooling sugli embedding dei token. In questo articolo, identifichiamo delle debolezze sistemiche di queste strategie di pooling: il token [CLS] tende a concentrare l'informazione verso le posizioni iniziali della sequenza e può sottorappresentare evidenze distribuite, mentre il mean pooling può diluire segnali locali salienti, portando talvolta a prestazioni peggiori in contesti brevi. Per affrontare questi problemi, introduciamo il Landmark (LMK) pooling, che suddivide una sequenza in segmenti, inserisce token landmark tra di essi, e forma la rappresentazione finale effettuando il mean pooling sugli embedding dei token landmark. Questo semplice meccanismo migliora l'estrapolazione a contesti lunghi senza sacrificare le caratteristiche salienti locali, al costo di introdurre un piccolo numero di token speciali. Dimostriamo empiricamente che il LMK pooling eguaglia i metodi esistenti sui task di retrieval a contesto breve e produce miglioramenti sostanziali sui task a contesto lungo, rendendolo un'alternativa pratica e scalabile ai metodi di pooling esistenti.
La distillazione della conoscenza (KD) viene sempre più adottata per trasferire le capacità da modelli linguistici di grandi dimensioni a modelli più piccoli, offrendo miglioramenti significativi in termini di efficienza e utilità, superando spesso la messa a punto standard. Oltre alle prestazioni, la KD è anche esplorata come meccanismo per la preservazione della privacy per mitigare il rischio di perdita dei dati di addestramento. Sebbene la memorizzazione dei dati di addestramento sia stata ampiamente studiata negli scenari standard di pre-addestramento e messa a punto, le sue dinamiche in un contesto di distillazione della conoscenza rimangono poco comprese. In questo lavoro, studiamo la memorizzazione nell'intera pipeline della KD utilizzando tre famiglie di grandi modelli linguistici (Pythia, OLMo-2, Qwen-3) e tre dataset (FineWeb, Wikitext, Nemotron-CC-v2). Scopriamo che: (1) i modelli distillati memorizzano significativamente meno dati di addestramento rispetto alla messa a punto standard (riducendo la memorizzazione di oltre il 50%); (2) alcuni esempi sono intrinsecamente più facili da memorizzare e rappresentano una grande frazione della memorizzazione durante la distillazione (oltre il ~95%); (3) la memorizzazione dello studente è prevedibile prima della distillazione utilizzando caratteristiche basate su entropia zlib, divergenza KL e perplessità; e (4) sebbene la distillazione soft e hard abbiano tassi complessivi di memorizzazione simili, la distillazione hard presenta un rischio maggiore: eredita 2,7 volte più esempi specifici del docente rispetto alla distillazione soft. Nel complesso, dimostriamo che la distillazione può fornire sia una generalizzazione migliorata che rischi ridotti di memorizzazione rispetto alla messa a punto standard.
Il grounding open-vocabulary richiede un allineamento accurato tra visione e linguaggio con supervisione debole. Tuttavia, i metodi esistenti si basano su embedding di frase globali che mancano di espressività fine, oppure introducono un allineamento a livello di token con supervisione esplicita o progetti di cross-attention complessi. Proponiamo ExpAlign, un framework di allineamento visione-linguaggio teoricamente fondato, basato su una formulazione principled del multiple instance learning. ExpAlign introduce una Testa di Allineamento per Aspettativa (Expectation Alignment Head) che esegue un pooling MIL soft basato su attention sulle similarità token-regione, abilitando una selezione implicita di token e istanze senza annotazioni aggiuntive. Per stabilizzare ulteriormente l'apprendimento dell'allineamento, sviluppiamo uno schema di regolarizzazione della consistenza multi-scala basato sull'energia, includendo un obiettivo contrastivo multi-positivo Top-K e un Obiettivo di Consistenza Consapevole della Geometria, derivato da una minimizzazione dell'energia libera con vincolo lagrangiano. Esperimenti estensivi mostrano che ExpAlign migliora consistentemente il rilevamento open-vocabulary e la segmentazione di istanze zero-shot, particolarmente per categorie a coda lunga. Notevolmente, raggiunge 36.2 AP_r sulla suddivisione LVIS minival, superando altri metodi state-of-the-art con modelli di scala comparabile, rimanendo al contempo leggero ed efficiente nell'inferenza.
La guida autonoma end-to-end utilizza sempre più il pre-addestramento video auto-supervisionato per apprendere rappresentazioni pianificabili trasferibili. Tuttavia, il pre-addestramento di modelli video del mondo per la comprensione della scena ha finora portato solo miglioramenti limitati. Questa limitazione è aggravata dall'ambiguità intrinseca della guida: ogni scena fornisce tipicamente una sola traiettoria umana, rendendo difficile l'apprendimento di comportamenti multimodali. In questo lavoro, proponiamo Drive-JEPA, un framework che integra la Video Joint-Embedding Predictive Architecture (V-JEPA) con la distillazione di traiettorie multimodali per la guida end-to-end. In primo luogo, adattiamo V-JEPA per la guida end-to-end, pre-addestrando un codificatore ViT su video di guida su larga scala per produrre rappresentazioni predittive allineate con la pianificazione della traiettoria. In secondo luogo, introduciamo un pianificatore centrato sulle proposte che distilla traiettorie generate dal simulatore insieme a traiettorie umane, con un meccanismo di selezione momentum-aware per promuovere comportamenti stabili e sicuri. Quando valutato su NAVSIM, la rappresentazione V-JEPA combinata con un semplice decoder basato su transformer supera i metodi precedenti di 3 PDMS nell'impostazione priva di percezione. Il framework completo Drive-JEPA raggiunge 93.3 PDMS su v1 e 87.8 EPDMS su v2, stabilendo un nuovo stato dell'arte.
Nell'ambito del pruning, l'Ipotesi del Biglietto Vincente (Lottery Ticket Hypothesis) postula che le reti neurali di grandi dimensioni contengano sottoreti sparse, o "biglietti vincenti", che possono essere addestrate in isolamento per eguagliare le prestazioni delle loro controparti dense. Tuttavia, la maggior parte degli approcci esistenti presuppone l'esistenza di un unico biglietto vincente universale condiviso tra tutti gli input, ignorando l'intrinseca eterogeneità dei dati del mondo reale. In questo lavoro, proponiamo "Routing the Lottery" (RTL), un framework di pruning adattivo che scopre multiple sottoreti specializzate, denominate "biglietti adattivi", ciascuna ottimizzata per una classe, un cluster semantico o una condizione ambientale specifica. Attraverso diversi dataset e task, RTL supera costantemente i baseline a modello singolo e multi-modello in termini di accuratezza bilanciata e recall, utilizzando fino a 10 volte meno parametri rispetto a modelli indipendenti e mostrando un allineamento semantico. Inoltre, identifichiamo il "collasso della sottorete", un calo delle prestazioni sotto un pruning aggressivo, e introduciamo un punteggio di similarità tra sottoreti che consente una diagnosi dell'eccessiva sparsificazione senza l'uso di etichette. Nel complesso, i nostri risultati reinterpretano il pruning come un meccanismo per allineare la struttura del modello con l'eterogeneità dei dati, aprendo la strada a un deep learning più modulare e consapevole del contesto.
I modelli linguistici multimodali di grandi dimensioni (MLLM) sono un ambito di primario interesse nella recente ricerca sull'intelligenza artificiale. Tuttavia, la maggior parte del lavoro precedente si concentra sulla comprensione di immagini statiche, mentre la loro capacità di elaborare dati audio-video sequenziali rimane poco esplorata. Questa lacuna evidenzia la necessità di un benchmark di alta qualità per valutare sistematicamente le prestazioni degli MLLM in un contesto reale. Presentiamo SONIC-O1, un benchmark completo e interamente verificato da esseri umani, che copre 13 domini conversazionali del mondo reale con 4.958 annotazioni e metadati demografici. SONIC-O1 valuta gli MLLM su compiti chiave, tra cui la rielaborazione aperta (summarization), la risposta a domande a scelta multipla e la localizzazione temporale con relative motivazioni (ragionamento). Esperimenti condotti su modelli proprietari e open-source ne rivelano le limitazioni. Sebbene il divario prestazionale nell'accuratezza delle domande a scelta multipla tra due famiglie di modelli sia relativamente piccolo, osserviamo una differenza sostanziale del 22,6% nella localizzazione temporale tra il miglior modello proprietario e il miglior modello open-source. Le prestazioni si degradano ulteriormente tra i diversi gruppi demografici, indicando disparità persistenti nel comportamento dei modelli. Nel complesso, SONIC-O1 fornisce una suite di valutazione aperta per una comprensione multimodale temporalmente fondata e socialmente robusta. Rilasciamo SONIC-O1 per favorire la riproducibilità e la ricerca: Pagina del progetto: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Introduciamo KAPSO, un framework modulare per la sintesi e l'ottimizzazione autonoma di programmi. Dato un obiettivo in linguaggio naturale e un metodo di valutazione, KAPSO esegue iterativamente le fasi di ideazione, sintesi e modifica del codice, esecuzione, valutazione e apprendimento per migliorare un artefatto eseguibile verso obiettivi misurabili. Piuttosto che trattare la sintesi come punto di arrivo, KAPSO utilizza la sintesi come un operatore all'interno di un ciclo di ottimizzazione a lungo termine, dove il progresso è definito dagli esiti del valutatore. KAPSO affronta i fallimenti a lungo termine comuni negli agenti di programmazione, inclusi la perdita dello stato sperimentale, il debugging fragile e il riutilizzo debole dell'expertise di dominio, integrando tre componenti strettamente accoppiati. Primo, un motore di sperimentazione nativo git isola ogni tentativo come un branch, producendo artefatti riproducibili e preservando la provenienza attraverso le iterazioni. Secondo, un sistema di conoscenza assimila fonti eterogenee, inclusi repository, playbook interni e risorse esterne curate come documentazione, articoli scientifici e risultati di ricerche web, e le organizza in una rappresentazione strutturata che supporta il retrieval su workflow, implementazioni e vincoli ambientali. Terzo, un livello di memoria cognitiva coordina il retrieval e mantiene un archivio episodico di lezioni riutilizzabili estratte dalle tracce degli esperimenti (log di esecuzione, diff e feedback del valutatore), riducendo le modalità di errore ripetute e accelerando la convergenza. Abbiamo valutato KAPSO su MLE-Bench (competizioni ML in stile Kaggle) e ALE-Bench (ottimizzazione euristica AtCoder) e riportiamo le prestazioni end-to-end. Codice disponibile su: https://github.com/Leeroo-AI/kapso
I modelli di attenzione svolgono un ruolo cruciale sia nell'addestramento che nell'inferenza dei grandi modelli linguistici (LLM). Studi precedenti hanno identificato modelli individuali come le teste di recupero, le teste sink e le tracce diagonali, ma queste osservazioni rimangono frammentate e prive di una spiegazione unificante. Per colmare questa lacuna, introduciamo la Temporal Attention Pattern Predictability Analysis (TAPPA), un quadro unificante che spiega i diversi modelli di attenzione analizzando le loro formulazioni matematiche sottostanti da una prospettiva temporalmente continua. TAPPA approfondisce sia la comprensione del comportamento dell'attenzione che guida gli approcci di accelerazione dell'inferenza. Nello specifico, TAPPA caratterizza i modelli di attenzione come modelli prevedibili con chiare regolarità e modelli imprevedibili che appaiono effettivamente casuali. La nostra analisi rivela inoltre che questa distinzione può essere spiegata dal grado di auto-similarità delle query lungo la dimensione temporale. Concentrandoci sui modelli prevedibili, forniamo un'analisi matematica dettagliata di tre casi rappresentativi attraverso l'effetto congiunto di query, chiavi e Rotary Positional Embeddings (RoPE). Convalidiamo TAPPA applicando le sue intuizioni a compiti di compressione della cache KV e di pruning degli LLM. In questi compiti, una semplice metrica motivata da TAPPA migliora costantemente le prestazioni rispetto ai metodi baseline. Il codice è disponibile all'indirizzo https://github.com/MIRALab-USTC/LLM-TAPPA.
Introduciamo il Visual Personalization Turing Test (VPTT), un nuovo paradigma per valutare la personalizzazione visiva contestuale basato sull'indistinguibilità percettiva, piuttosto che sulla replica dell'identità. Un modello supera il VPTT se il suo output (immagine, video, risorsa 3D, ecc.) è indistinguibile, per un giudice umano o per un VLM calibrato, da contenuti che una determinata persona potrebbe plausibilmente creare o condividere. Per rendere operativo il VPTT, presentiamo il VPTT Framework, che integra un benchmark con 10.000 persona (VPTT-Bench), un generatore aumentato con retrieval visivo (VPRAG) e il VPTT Score, una metrica basata solo su testo calibrata sui giudizi umani e dei VLM. Mostriamo un'elevata correlazione tra le valutazioni umane, dei VLM e del VPTT, convalidando il VPTT Score come un affidabile proxy percettivo. Gli esperimenti dimostrano che VPRAG raggiunge il miglior bilanciamento tra fedeltà e originalità, offrendo una base scalabile e sicura per la privacy per l'IA generativa personalizzata.
Nell'era post-Dennard, l'ottimizzazione dei sistemi embedded richiede di bilanciare complessi compromessi tra efficienza energetica e latenza. La tradizionale ottimizzazione euristica si rivela spesso inefficiente in questi paesaggi di ricerca ad alta dimensionalità e non lisci. In questo lavoro, proponiamo un framework di Ottimizzazione Bayesiana che utilizza Processi Gaussiani per automatizzare la ricerca delle configurazioni ottimali di scheduling su architetture eterogenee multi-core. Affrontiamo esplicitamente la natura multi-obiettivo del problema approssimando la Fronteira di Pareto tra energia e tempo. Inoltre, incorporando l'Analisi di Sensibilità (fANOVA) e confrontando diversi kernel di covarianza (ad es. Matérn vs. RBF), conferiamo interpretabilità fisica al modello black-box, rivelando i parametri hardware dominanti che guidano le prestazioni del sistema.
È possibile che una piccola quantità di informazioni verificate sugli obiettivi guidi il costoso pre-addestramento auto-supervisionato dei modelli di base? Il pre-addestramento standard ottimizza un obiettivo proxy fisso (ad esempio, la previsione del token successivo), che può allocare in modo errato le risorse computazionali lontano dalle capacità downstream di interesse. Introduciamo il V-Pretraining: un metodo value-based e modality-agnostic per un pre-addestramento continuo controllato, in cui un progettista di compiti leggero rimodella il compito di pre-addestramento per massimizzare il valore di ogni passo del gradiente. Ad esempio, si consideri l'apprendimento auto-supervisionato (SSL) con l'aumento dei dati. Il progettista di compiti del V-Pretraining seleziona i compiti di pre-addestramento (ad esempio, le tecniche di aumento) per i quali il gradiente della loss di pre-addestramento è allineato con un gradiente calcolato su un compito downstream (ad esempio, la segmentazione delle immagini). Questo aiuta a indirizzare il pre-addestramento verso le capacità downstream rilevanti. È importante notare che il modello pre-addestrato non viene mai aggiornato con le etichette del compito downstream; queste vengono utilizzate solo per modellare il compito di pre-addestramento. Con budget di aggiornamento del learner equivalenti, il V-Pretraining applicato a modelli linguistici da 0,5 a 7 miliardi di parametri migliora il ragionamento (GSM8K test Pass@1) fino al 18% in termini relativi rispetto alla standard previsione del token successivo, utilizzando solo il 12% degli esempi di addestramento GSM8K come feedback. Nell'SSL per la visione, miglioriamo i risultati state-of-the-art su ADE20K fino a 1,07 mIoU e riduciamo il RMSE su NYUv2, migliorando allo stesso tempo l'accuratezza lineare su ImageNet, e forniamo evidenze preliminari di una migliore efficienza dei token nel pre-addestramento continuo.