Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto presentiamo ERNIE 5.0, un modello fondativo nativamente autoregressivo progettato per la comprensione e la generazione multimodale unificata attraverso testo, immagine, video e audio. Tutte le modalità sono addestrate da zero con un obiettivo unificato di previsione del prossimo gruppo di token, basato su un'architettura ultra-sparsa mixture-of-experts (MoE) con instradamento degli esperti agnostico rispetto alla modalità. Per affrontare le sfide pratiche nella distribuzione su larga scala sotto diversi vincoli di risorse, ERNIE 5.0 adotta un nuovo paradigma di addestramento elastico. All'interno di una singola esecuzione di pre-addestramento, il modello apprende una famiglia di sotto-modelli con profondità variabile, capacità degli esperti e sparsità di instradamento differenti, consentendo compromessi flessibili tra prestazioni, dimensione del modello e latenza di inferenza in scenari con vincoli di memoria o tempo. Inoltre, affrontiamo sistematicamente le sfide del ridimensionamento del reinforcement learning per modelli fondativi unificati, garantendo così un post-addestramento efficiente e stabile sotto architetture MoE ultra-sparse e diverse impostazioni multimodali. Esperimenti estensivi dimostrano che ERNIE 5.0 raggiunge prestazioni solide ed equilibrate attraverso multiple modalità. Per quanto a nostra conoscenza, tra i modelli divulgati pubblicamente, ERNIE 5.0 rappresenta la prima realizzazione su scala produttiva di un modello autoregressivo unificato da trilioni di parametri che supporta sia la comprensione che la generazione multimodale. Per facilitare ulteriori ricerche, presentiamo visualizzazioni dettagliate dell'instradamento degli esperti agnostico alla modalità nel modello unificato, insieme a un'analisi empirica completa dell'addestramento elastico, con l'obiettivo di offrire approfondite intuizioni alla comunità.
L'implementazione dei Large Language Model (LLM) affronta un collo di bottiglia critico nella gestione di input lunghi: l'impronta di memoria proibitiva della cache Chiave-Valore (KV). Per affrontare questo problema, il paradigma della token pruning sfrutta la sparsità dell'attenzione per trattenere selettivamente un piccolo sottoinsieme critico di token. Tuttavia, gli approcci esistenti sono carenti: i metodi statici rischiano una perdita di informazioni irreversibile, mentre le strategie dinamiche impiegano euristiche che catturano in modo insufficiente la natura dipendente dalla query dell'importanza dei token. Proponiamo FASA, un nuovo framework che realizza l'evizione dei token consapevole della query prevedendo dinamicamente l'importanza dei token. FASA origina da una nuova intuizione sul RoPE: la scoperta di una sparsità funzionale a livello di frequency-chunk (FC). La nostra scoperta chiave è che un piccolo sottoinsieme identificabile di FC "dominanti" mostra costantemente un alto accordo contestuale con la testa di attenzione completa. Questo fornisce un proxy robusto e computazionalmente gratuito per identificare i token salienti. Basandosi su questa intuizione, FASA identifica prima un insieme critico di token utilizzando le FC dominanti, e poi esegue il calcolo dell'attenzione focalizzato esclusivamente su questo sottoinsieme ridotto. Poiché accede solo a una piccola frazione della cache KV, FASA riduce drasticamente i requisiti di banda di memoria e il costo computazionale. In una gamma di task a contesto lungo, dalla modellazione di sequenze al ragionamento CoT complesso, FASA supera costantemente tutti i baseline di evizione dei token e raggiunge un'accuratezza quasi oracolare, dimostrando una notevole robustezza anche con budget vincolati. In particolare, su LongBench-V1, FASA raggiunge quasi il 100% delle prestazioni della cache KV completa mantenendo solo 256 token, e ottiene un speedup di 2,56 volte utilizzando solo il 18,9% della cache su AIME24.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) si sono concentrati prevalentemente sullo scaling in profondità, dove un singolo agente risolve problemi a lungo orizzonte mediante ragionamento a più fasi e utilizzo di strumenti. Tuttavia, man mano che i compiti diventano più ampi, il collo di bottiglia principale si sposta dalla competenza individuale alla capacità organizzativa. In questo lavoro, esploriamo una dimensione complementare di scaling in ampiezza attraverso sistemi multi-agente per affrontare la ricerca di informazioni su vasta scala. I sistemi multi-agente esistenti spesso si basano su flussi di lavoro predefiniti e interazioni a turni che non riescono a parallelizzare efficacemente il lavoro. Per colmare questa lacuna, proponiamo WideSeek-R1, un framework agente-capo-sottoagente addestrato tramite apprendimento per rinforzo multi-agente (MARL) per sinergizzare un'orchestrazione scalabile e un'esecuzione parallela. Utilizzando un LLM condiviso con contesti isolati e strumenti specializzati, WideSeek-R1 ottimizza congiuntamente l'agente capo e i sottoagenti paralleli su un dataset curato di 20.000 compiti di ricerca informazioni ampia. Esperimenti estensivi mostrano che WideSeek-R1-4B raggiunge un punteggio F1 di item del 40.0% sul benchmark WideSearch, risultato paragonabile alle prestazioni del single-agent DeepSeek-R1-671B. Inoltre, WideSeek-R1-4B mostra miglioramenti prestazionali consistenti all'aumentare del numero di sottoagenti paralleli, evidenziando l'efficacia dello scaling in ampiezza.
I Modelli di Ricompensa di Processo Multimodale (MPRM) sono centrali per la supervisione a livello di step nel ragionamento visivo per i MLLM. L'addestramento degli MPRM richiede tipicamente corpora annotati su larga scala con il metodo Monte Carlo (MC), comportando costi di training sostanziali. Questo articolo studia l'efficienza dei dati per l'addestramento degli MPRM. I nostri esperimenti preliminari rivelano che l'addestramento degli MPRM satura rapidamente con un sottocampionamento casuale dei dati di training, indicando una ridondanza sostanziale all'interno dei corpora esistenti annotati con MC. Per spiegare ciò, formalizziamo un quadro teorico e riveliamo che gli aggiornamenti informativi del gradiente dipendono da due fattori: le miscele di etichette degli step positivi/negativi e l'affidabilità dell'etichetta (punteggi MC medi degli step positivi). Guidati da queste intuizioni, proponiamo il Punteggio di Informazione Bilanciata (BIS), che priorizza sia la miscela che l'affidabilità basandosi sui segnali MC esistenti a livello di rollout, senza comportare costi aggiuntivi. Su due backbone (InternVL2.5-8B e Qwen2.5-VL-7B) su VisualProcessBench, i sottoinsiemi selezionati con BIS eguagliano costantemente e addirittura superano le prestazioni con tutti i dati, utilizzando solo piccole frazioni. In particolare, il sottoinsieme BIS raggiunge le prestazioni complete dei dati utilizzando solo il 10% dei dati di training, migliorando rispetto al sottocampionamento casuale di un relativo 4.1%.
I modelli linguistici di grandi dimensioni omnimodali (Omni-LLM) hanno dimostrato notevoli capacità nei compiti di comprensione audio-video. Tuttavia, la loro dipendenza da lunghe sequenze di token multimodali comporta un sovraccarico computazionale sostanziale. Nonostante questa sfida, i metodi di compressione dei token progettati per gli Omni-LLM rimangono limitati. Per colmare questa lacuna, proponiamo OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un framework di compressione asimmetrico per modalità, specificamente progettato per gli Omni-LLM. Nello specifico, OmniSIFT adotta una strategia di compressione a due stadi: (i) un modulo di potatura video spaziotemporale che rimuove la ridondanza video derivante sia dalla struttura intra-frame che dalla sovrapposizione inter-frame, e (ii) un modulo di selezione audio guidato dalla visione che filtra i token audio. L'intero framework è ottimizzato end-to-end tramite uno stimatore differenziabile straight-through. Esperimenti estesi su cinque benchmark rappresentativi ne dimostrano l'efficacia e la robustezza. In particolare, per Qwen2.5-Omni-7B, OmniSIFT introduce solo 4,85 milioni di parametri mantenendo una latenza inferiore rispetto a metodi baseline senza addestramento come OmniZip. Con appena il 25% del contesto token originale, OmniSIFT supera costantemente tutti i metodi di compressione baseline e supera persino le prestazioni del modello a token completi in diverse attività.
Questo lavoro introduce Hybrid Sparse Attention (HySparse), una nuova architettura che intercala ogni livello di attenzione completa con diversi livelli di attenzione sparsa. Sebbene concettualmente semplice, HySparse deriva strategicamente la selezione dei token e le cache KV di ogni livello sparso direttamente dal livello di attenzione completa che lo precede. Questa architettura risolve due limitazioni fondamentali dei metodi di attenzione sparsa precedenti. In primo luogo, gli approcci convenzionali si basano tipicamente su proxy aggiuntivi per prevedere l'importanza dei token, introducendo una complessità extra e potenzialmente prestazioni subottimali. Al contrario, HySparse utilizza il livello di attenzione completa come un oracolo preciso per identificare i token importanti. In secondo luogo, le progettazioni esistenti di attenzione sparsa spesso riducono il calcolo senza risparmiare la cache KV. HySparse consente ai livelli di attenzione sparsa di riutilizzare la cache KV dell'attenzione completa, riducendo così sia il calcolo che la memoria. Valutiamo HySparse sia su modelli densi da 7B che su modelli MoE da 80B. In tutte le configurazioni, HySparse supera costantemente sia l'attenzione completa che i baseline ibridi SWA. In particolare, nel modello MoE da 80B con 49 livelli totali, solo 5 livelli impiegano l'attenzione completa, eppure HySparse raggiunge sostanziali miglioramenti delle prestazioni riducendo al contempo lo storage della cache KV di quasi 10 volte.
La distribuzione di robot umanoidi in scenari reali è fondamentalmente impegnativa, poiché richiede l'integrazione stretta di percezione, locomozione e manipolazione sotto osservazioni a informazioni parziali e in ambienti dinamicamente mutevoli, oltre a transizioni robuste tra sotto-attività di tipo diverso. Per affrontare queste sfide, proponiamo una nuova attività - EgoActing - che richiede di tradurre direttamente istruzioni di alto livello in azioni umanoidi varie, precise e spazialmente consapevoli. Istanziamo ulteriormente questo compito introducendo EgoActor, un modello visione-linguaggio (VLM) unificato e scalabile in grado di prevedere primitive di locomozione (ad esempio, camminare, girare, spostarsi lateralmente, cambiare altezza), movimenti della testa, comandi di manipolazione e interazioni uomo-robot per coordinare percezione ed esecuzione in tempo reale. Sfruttiamo una supervisione ampia su dati egocentrici esclusivamente RGB provenienti da dimostrazioni nel mondo reale, da domande e risposte di ragionamento spaziale e da dimostrazioni in ambienti simulati, consentendo a EgoActor di prendere decisioni robuste e contestualmente consapevoli e di eseguire inferenze fluide sulle azioni (in meno di 1 secondo) sia con modelli da 8B che da 4B parametri. Valutazioni estensive in ambienti sia simulati che reali dimostrano che EgoActor collega efficacemente la pianificazione astratta delle attività con l'esecuzione motoria concreta, generalizzando al contempo attraverso diverse attività e ambienti non visti.
Nonostante i rapidi progressi nella diffusione video autoregressiva, un collo di bottiglia algoritmico emergente nei sistemi limita sia la distribuibilità che la capacità generativa: la memoria della cache KV. Nei modelli di generazione video autoregressivi, la cache KV cresce con la cronologia di generazione e domina rapidamente la memoria GPU, superando spesso i 30 GB, il che ne impedisce la distribuzione su hardware ampiamente disponibile. Ancora più critico, budget limitati per la cache KV vincolano la memoria di lavoro effettiva, degradando direttamente la coerenza a lungo termine di identità, layout e movimento. Per affrontare questa sfida, presentiamo Quant VideoGen (QVG), un framework di quantizzazione della cache KV senza necessità di addestramento per modelli di diffusione video autoregressivi. QVG sfrutta la ridondanza spaziotemporale del video attraverso lo Smoothing Semantico Consapevole, producendo residui a bassa magnitudine e adatti alla quantizzazione. Introduce inoltre la Quantizzazione Progressiva dei Residui, uno schema multi-stadio da grossolano a fine che riduce l'errore di quantizzazione consentendo al contempo un compromesso fluido tra qualità e memoria. Sui benchmark LongCat Video, HY WorldPlay e Self Forcing, QVG stabilisce una nuova frontiera di Pareto tra qualità ed efficienza di memoria, riducendo la memoria della cache KV fino a 7,0 volte con un overhead di latenza end-to-end inferiore al 4%, superando costantemente le baseline esistenti nella qualità della generazione.
I recenti progressi negli agenti LLM autonomi dimostrano la loro capacità di migliorare le prestazioni attraverso l'interazione iterativa con l'ambiente. Definiamo questo paradigma come Miglioramento al Momento del Test (TTI). Tuttavia, i meccanismi alla base del successo o fallimento del TTI rimangono poco compresi, e le metriche di valutazione esistenti non riescono a catturarne l'efficienza nell'ottimizzazione del compito, l'adattamento comportamentale dopo azioni errate e l'utilità specifica della memoria di lavoro per il completamento del compito. Per colmare queste lacune, proponiamo la Valutazione Diagnostica del Miglioramento al Momento del Test (TIDE), un framework indipendente dall'agente e dall'ambiente che scompone il TTI in tre dimensioni complete e interconnesse. Il framework misura (1) le dinamiche temporali complessive del completamento del compito e (2) identifica se le prestazioni sono principalmente limitate da comportamenti di loop ricorsivi o (3) da una memoria accumulata onerosa. Attraverso esperimenti estesi su vari agenti e ambienti, TIDE evidenzia che il miglioramento delle prestazioni degli agenti richiede più che il semplice potenziamento del ragionamento interno, richiedendo l'ottimizzazione esplicita delle dinamiche di interazione tra l'agente e l'ambiente.
La simulazione di oggetti deformabili in contesti di interazione complessa rimane una sfida fondamentale per la manipolazione robotica real-to-sim, con una dinamica guidata congiuntamente dagli effetti ambientali e dalle azioni del robot. I simulatori esistenti si basano su modelli fisici predefiniti o su dinamiche apprese dai dati senza un controllo condizionato all'agente robotico, limitando accuratezza, stabilità e generalizzazione. Questo articolo presenta SoMA, un simulatore basato su 3D Gaussian Splatting per la manipolazione di corpi molli. SoMA accoppia la dinamica deformabile, le forze ambientali e le azioni cinematiche del robot in uno spazio neurale latente unificato per una simulazione real-to-sim end-to-end. Modellare le interazioni su splat gaussiani appresi consente una manipolazione controllabile e stabile su orizzonti temporali lunghi e una generalizzazione oltre le traiettorie osservate, senza ricorrere a modelli fisici predefiniti. SoMA migliora l'accuratezza di risimulazione e la generalizzazione nella manipolazione robotica del mondo reale del 20%, permettendo la simulazione stabile di compiti complessi come la piegatura di tessuti su lunghi orizzonti temporali.
I modelli linguistici diffusivi di grandi dimensioni (dLLM) si sono affermati come una valida alternativa ai modelli linguistici puramente autoregressivi grazie alla loro capacità di decodificare più token in parallelo. Tuttavia, i dLLM a blocchi più all'avanguardia si basano su un meccanismo di "rimascheramento" che decodifica solo i token con la confidenza più alta e scarta gli altri, sprecando di fatto potenza di calcolo. Dimostriamo che il riciclo del calcolo dai token scartati è vantaggioso, poiché questi token conservano informazioni contestuali utili per le iterazioni di decodifica successive. Alla luce di ciò, proponiamo la Diffusione a Contesto Residuo (RCD), un modulo che converte queste rappresentazioni di token scartati in residui contestuali e li reinietta nel passo di denoising successivo. L'RCD utilizza una pipeline di addestramento a due stadi disaccoppiati per aggirare i colli di bottiglia di memoria associati alla retropropagazione. Convalidiamo il nostro metodo sia su modelli di ragionamento a catena lunga (SDAR) che su modelli per il seguimento di istruzioni a catena corta (LLaDA). Dimostriamo che un dLLM standard può essere convertito efficientemente al paradigma RCD con appena ~1 miliardo di token. L'RCD migliora costantemente i dLLM di frontiera di 5-10 punti in accuratezza con un sovraccarico computazionale minimo su un'ampia gamma di benchmark. In particolare, sui compiti AIME più impegnativi, l'RCD quasi raddoppia l'accuratezza di base e raggiunge fino a 4-5 volte in meno passi di denoising a livelli di accuratezza equivalenti.
L'apprendimento per rinforzo (RL) è diventato un pilastro per il fine-tuning dei Large Language Model (LLM), con la Proximal Policy Optimization (PPO) che funge da algoritmo standard de facto. Nonostante la sua ubiquità, sosteniamo che il meccanismo centrale del clipping del rapporto nella PPO sia strutturalmente inadatto per i vocabolari di grandi dimensioni propri degli LLM. La PPO vincola gli aggiornamenti della policy in base al rapporto di probabilità dei token campionati, che funge da rumorosa stima Monte Carlo a singolo campione della vera divergenza della policy. Ciò crea una dinamica di apprendimento subottimale: gli aggiornamenti per token a bassa probabilità sono penalizzati in modo eccessivo e aggressivo, mentre potenziali shift catastrofici per token ad alta probabilità sono sotto-vincolati, portando a inefficienza e instabilità durante l'addestramento. Per affrontare questo problema, proponiamo la Divergence Proximal Policy Optimization (DPPO), che sostituisce l'euristica del clipping con un vincolo più principiato basato su una stima diretta della divergenza della policy (ad esempio, la Variazione Totale o la KL). Per evitare un'enorme impronta di memoria, introduciamo le efficienti approssimazioni Binaria e Top-K per catturare la divergenza essenziale con un overhead trascurabile. Valutazioni empiriche estensive dimostrano che la DPPO raggiunge una stabilità e un'efficienza di addestramento superiori rispetto ai metodi esistenti, offrendo una base più solida per il fine-tuning degli LLM basato su RL.
I recenti modelli text-to-image basati su DiT adottano sempre più spesso LLM come encoder di testo, tuttavia il condizionamento testuale rimane largamente statico e spesso utilizza solo un singolo strato LLM, nonostante la pronunciata gerarchia semantica attraverso gli strati LLM e le dinamiche di denoising non stazionarie sia sul tempo di diffusione che sulla profondità della rete. Per adattarci meglio al processo dinamico della generazione DiT e quindi potenziare la capacità generativa del modello di diffusione, introduciamo un framework unificato di fusione convessa normalizzato, dotato di gate leggeri, per organizzare sistematicamente gli stati nascosti multistrato degli LLM tramite fusioni time-wise, depth-wise e congiunta. Gli esperimenti stabiliscono il Depth-wise Semantic Routing come la strategia di condizionamento superiore, che migliora costantemente l'allineamento testo-immagine e la generazione compositiva (ad esempio, +9.97 sul task Counting di GenAI-Bench). Al contrario, scopriamo che una fusione puramente time-wise può paradossalmente degradare la fedeltà della generazione visiva. Attribuiamo ciò a un disallineamento tra traiettoria di addestramento e inferenza: sotto la guida classifier-free, i timestep nominali non riescono a tracciare l'SNR effettivo, causando un'iniezione di feature semanticamente fuori tempo durante l'inferenza. Nel complesso, i nostri risultati posizionano il routing depth-wise come una baseline solida ed efficace e evidenziano la necessità critica di segnali trajectory-aware per abilitare un condizionamento time-dependent robusto.
Sebbene i recenti progressi nelle rappresentazioni neurali e nei modelli generativi abbiano rivoluzionato la creazione di contenuti 3D, il campo rimane limitato da significativi colli di bottiglia nell'elaborazione dei dati. Per affrontare questo problema, introduciamo HY3D-Bench, un ecosistema open-source progettato per stabilire una base unificata e di alta qualità per la generazione 3D. I nostri contributi sono triplici: (1) Abbiamo curato una libreria di 250k oggetti 3D ad alta fedeltà distillati da repository su larga scala, impiegando una pipeline rigorosa per fornire artefatti pronti per l'addestramento, inclusi mesh a tenuta d'acqua e rendering multi-vista; (2) Introduciamo una scomposizione strutturata a livello di parti, fornendo la granularità essenziale per una percezione fine e un editing controllabile; e (3) Colmiamo le lacune distributive del mondo reale tramite una pipeline scalabile di sintesi AIGC, contribuendo con 125k asset sintetici per migliorare la diversità nelle categorie a coda lunga. Convalidato empiricamente attraverso l'addestramento di Hunyuan3D-2.1-Small, HY3D-Bench democratizza l'accesso a risorse dati robuste, con l'obiettivo di catalizzare l'innovazione nella percezione 3D, nella robotica e nella creazione di contenuti digitali.
Le illustrazioni scientifiche di alta qualità sono cruciali per comunicare efficacemente concetti scientifici e tecnici complessi, eppure la loro creazione manuale rimane un collo di bottolla ampiamente riconosciuto sia in ambito accademico che industriale. Presentiamo FigureBench, il primo benchmark su larga scala per la generazione di illustrazioni scientifiche a partire da testi scientifici estesi. Esso contiene 3.300 coppie testo-figura di alta qualità, che coprono diverse attività di conversione da testo a illustrazione tratte da articoli scientifici, survey, blog e libri di testo. Inoltre, proponiamo AutoFigure, il primo framework agente che genera automaticamente illustrazioni scientifiche di alta qualità basandosi su testi scientifici lunghi. Nello specifico, prima di produrre il risultato finale, AutoFigure si impegna in un'ampia fase di ragionamento, ricombinazione e validazione per produrre un layout che sia sia strutturalmente solido che esteticamente raffinato, restituendo un'illustrazione scientifica che raggiunga sia la completezza strutturale che l'appeal estetico. Sfruttando i dati di alta qualità di FigureBench, conduciamo esperimenti approfonditi per testare le prestazioni di AutoFigure rispetto a vari metodi baseline. I risultati dimostrano che AutoFigure supera costantemente tutti i metodi baseline, producendo illustrazioni scientifiche pronte per la pubblicazione. Il codice, il dataset e lo spazio huggingface sono rilasciati su https://github.com/ResearAI/AutoFigure.
Il Group Relative Policy Optimization (GRPO) è emerso recentemente come una ricetta pratica per allineare i grandi modelli linguistici a obiettivi verificabili. Tuttavia, in presenza di ricompense terminali sparse, il GRPO spesso si blocca perché i rollout all'interno di un gruppo ricevono frequentemente ricompense identiche, causando il collasso dei vantaggi relativi e l'annullamento degli aggiornamenti. Proponiamo il GRPO allineato con auto-suggerimento e supervisione privilegiata (SAGE), un framework di apprendimento per rinforzo on-policy che inietta suggerimenti privilegiati durante l'addestramento per rimodellare la distribuzione dei rollout sotto la stessa ricompensa terminale del verificatore. Per ogni prompt x, il modello campiona un suggerimento compatto h (ad esempio, un piano o una scomposizione) e genera quindi una soluzione τ condizionata a (x,h). Crucialmente, la ricompensa del task R(x,τ) rimane invariata; i suggerimenti servono solo ad aumentare la diversità degli esiti all'interno del gruppo in condizioni di campionamento finito, prevenendo il collasso dei vantaggi del GRPO sotto ricompense sparse. Al momento del test, impostiamo h=varnothing e utilizziamo la policy senza suggerimenti, senza alcuna informazione privilegiata. Inoltre, il campionamento di auto-suggerimenti diversificati funge da curriculum adattivo che traccia i colli di bottiglia dell'apprendimento in modo più efficace rispetto a suggerimenti fissi provenienti da una policy iniziale o da un modello esterno più forte. Esperimenti su 6 benchmark con 3 LLM mostrano che SAGE supera costantemente il GRPO, in media di +2.0 su Llama-3.2-3B-Instruct, +1.2 su Qwen2.5-7B-Instruct e +1.3 su Qwen3-4B-Instruct. Il codice è disponibile all'indirizzo https://github.com/BaohaoLiao/SAGE.
I modelli linguistici (LM) attuali eccellono nel ragionamento su prompt utilizzando conoscenze pre-addestrate. Tuttavia, i compiti del mondo reale sono molto più complessi e dipendenti dal contesto: i modelli devono apprendere dal contesto specifico del compito e sfruttare nuove conoscenze oltre quanto appreso durante il pre-addestramento per ragionare e risolvere i compiti. Definiamo questa capacità *apprendimento contestuale* (context learning), un'abilità cruciale che gli esseri umani possiedono naturalmente ma che è stata largamente trascurata. A tal fine, presentiamo CL-bench, un benchmark del mondo reale composto da 500 contesti complessi, 1.899 compiti e 31.607 griglie di verifica, tutti creati da esperti di dominio esperti. Ogni compito è progettato in modo che il nuovo contenuto necessario per risolverlo sia contenuto nel corrispondente contesto. La risoluzione dei compiti in CL-bench richiede ai modelli di apprendere dal contesto, spaziando da nuove conoscenze dominio-specifiche, sistemi di regole e procedure complesse a leggi derivate da dati empirici, tutti assenti nel pre-addestramento. Questo va ben oltre i compiti a contesto lungo che testano principalmente il recupero o la comprensione del testo, e i compiti di apprendimento in-context, dove i modelli apprendono semplici pattern di compito tramite istruzioni e dimostrazioni. Le nostre valutazioni su dieci LM all'avanguardia rilevano che i modelli risolvono in media solo il 17,2% dei compiti. Anche il modello con le migliori prestazioni, GPT-5.1, risolve solo il 23,7%, rivelando che i LM devono ancora raggiungere un apprendimento contestuale efficace, il che rappresenta un collo di bottiglia critico per affrontare compiti reali, complessi e dipendenti dal contesto. CL-bench rappresenta un passo verso la costruzione di LM con questa capacità fondamentale, rendendoli più intelligenti e favorendo il loro dispiegamento in scenari del mondo reale.
Negli ultimi dieci anni, la traiettoria dell'intelligenza artificiale generativa (AI) è stata dominata da un paradigma *model-centrico* guidato dalle leggi di scala. Nonostante i significativi balzi in avanti nella fedeltà visiva, questo approccio ha incontrato un "limite di usabilità" manifestatosi come il *Divario Intento-Esecuzione* (cioè la disparità fondamentale tra l'intento di alto livello di un creatore e la natura stocastica e a scatola chiusa degli attuali modelli *single-shot*). In questo articolo, ispirati dal *Vibe Coding*, introduciamo la *Vibe AIGC*, un nuovo paradigma per la generazione di contenuti tramite orchestrazione agenziale, che rappresenta la sintesi autonoma di flussi di lavoro gerarchici multi-agente. In questo paradigma, il ruolo dell'utente trascende l'ingegneria dei prompt tradizionale, evolvendosi in quello di un *Comandante* che fornisce una *Vibe*, una rappresentazione di alto livello che comprende preferenze estetiche, logica funzionale, ecc. Un *Meta-Pianificatore* centralizzato funge quindi da architetto di sistema, scomponendo questa "Vibe" in pipeline agenziali eseguibili, verificabili e adattive. Passando dall'inferenza stocastica all'orchestrazione logica, la *Vibe AIGC* colma il divario tra l'immaginazione umana e l'esecuzione della macchina. Sosteniamo che questo cambiamento ridefinirà l'economia collaborativa uomo-AI, trasformando l'IA da un motore di inferenza fragile in un partner ingegneristico robusto a livello di sistema che democratizza la creazione di asset digitali complessi e a lungo termine.
Perché le politiche pre-addestrate di diffusione o di flow-matching falliscono quando la stessa attività viene eseguita vicino a un ostacolo, su una superficie di appoggio spostata o in mezzo a un lieve disordine? Questi fallimenti raramente riflettono l'assenza di abilità motorie; invece, rivelano una limitazione dell'apprendimento per imitazione sotto condizioni di disallineamento tra training e test, in cui la generazione delle azioni è strettamente accoppiata a configurazioni spaziali e specifiche dell'attività tipiche del training. Ritrasmettere o effettuare un fine-tuning per affrontare questi fallimenti è costoso e concettualmente disallineato, poiché i comportamenti richiesti esistono già ma non possono essere adattati selettivamente al momento del test. Proponiamo Vision-Language Steering (VLS), un framework che non richiede training per l'adattamento al momento dell'inferenza di politiche generative robotiche congelate. VLS tratta l'adattamento come un problema di controllo al momento dell'inferenza, dirigendo il processo di campionamento di una politica pre-addestrata di diffusione o flow-matching in risposta a input di osservazione-linguaggio fuori distribuzione, senza modificare i parametri della politica. Sfruttando i modelli visione-linguaggio per sintetizzare funzioni di reward differenziabili rispetto alla traiettoria, VLS guida la rimozione del rumore verso traiettorie di azione che soddisfano i requisiti spaziali e dell'attività al momento del test. In valutazioni sia in simulazione che nel mondo reale, VLS supera costantemente i metodi di steering precedenti, ottenendo un miglioramento del 31% su CALVIN e un guadagno del 13% su LIBERO-PRO. La distribuzione nel mondo reale su un robot Franka dimostra ulteriormente un robusto adattamento al momento dell'inferenza sotto condizioni di variazione spaziale e semantica durante il test. Pagina del progetto: https://vision-language-steering.github.io/webpage/
I modelli linguistici all'avanguardia hanno dimostrato solide capacità di ragionamento e di utilizzo di strumenti a lungo termine. Tuttavia, gli attuali sistemi RAG non riescono a sfruttare appieno queste capacità. Essi si basano ancora su due paradigmi: (1) progettare un algoritmo che recuperi i passaggi in un'unica soluzione e li concateni nell'input del modello, oppure (2) predefinire un flusso di lavoro e guidare il modello a eseguirlo passo dopo passo. Nessuno dei due paradigmi consente al modello di partecipare alle decisioni di retrieval, impedendo una scalabilità efficiente con il miglioramento dei modelli. In questo articolo, introduciamo A-RAG, un framework RAG agentico che espone interfacce di retrieval gerarchiche direttamente al modello. A-RAG fornisce tre strumenti di recupero: ricerca per parole chiave, ricerca semantica e lettura di blocchi (chunk), consentendo all'agente di cercare e recuperare informazioni in modo adattivo attraverso molteplici granularità. Esperimenti su molteplici benchmark di QA open-domain mostrano che A-RAG supera costantemente gli approcci esistenti con un numero comparabile o inferiore di token recuperati, dimostrando che A-RAG sfrutta efficacemente le capacità del modello e si adatta dinamicamente a diversi compiti RAG. Studiamo inoltre sistematicamente come A-RAG scala con la dimensione del modello e la potenza di calcolo a test time. Rilasceremo il nostro codice e la suite di valutazione per facilitare la ricerca futura. Codice e suite di valutazione sono disponibili all'indirizzo https://github.com/Ayanami0730/arag.
Gli agenti di ricerca sono modelli linguistici che ragionano ed esplorano basi di conoscenza (o il web) per rispondere a domande; i metodi recenti supervisionano solo l'accuratezza della risposta finale utilizzando l'apprendimento per rinforzo con ricompense verificabili (RLVR). La maggior parte degli agenti di ricerca RLVR affronta QA di dominio generale, il che ne limita la rilevanza per i sistemi di IA tecnica in ambito scientifico, ingegneristico e medico. In questo lavoro proponiamo di addestrare agenti a cercare e ragionare su articoli scientifici – questo mette alla prova il question-answering tecnico, è direttamente rilevante per scienziati reali e le capacità saranno cruciali per i futuri sistemi di IA Scienziato. Nello specifico, rilasciamo un corpus di ricerca di 16 milioni di abstract di articoli biomedici e costruiamo un dataset di QA fattuale chiamato PaperSearchQA con 60.000 campioni cui è possibile rispondere dal corpus, insieme a benchmark. Addestriamo agenti di ricerca in questo ambiente per superare i baseline di retrieval non-RL; effettuiamo inoltre un'ulteriore analisi quantitativa e osserviamo comportamenti interessanti degli agenti come pianificazione, ragionamento e auto-verifica. Il nostro corpus, dataset e benchmark sono utilizzabili con il popolare codebase Search-R1 per l'addestramento RLVR e rilasciati su https://huggingface.co/collections/jmhb/papersearchqa. Infine, i nostri metodi di creazione dei dati sono scalabili e facilmente estendibili ad altri domini scientifici.
La rapida crescita dei grandi modelli linguistici (LLM) ha superato l'evoluzione dell'hardware a singola GPU, rendendo la scala del modello sempre più vincolata dalla capacità di memoria piuttosto che dal calcolo. Sebbene i moderni sistemi di addestramento estendano la memoria GPU attraverso il parallelismo distribuito e l'offloading su più livelli di CPU e storage, mantengono fondamentalmente un paradigma di esecuzione centrato sulla GPU, in cui le GPU ospitano repliche persistenti del modello e grafi di autograd completi. Di conseguenza, il ridimensionamento di modelli di grandi dimensioni rimane strettamente accoppiato a cluster multi-GPU, runtime distribuiti complessi e consumo di memoria host imprevedibile, creando barriere sostanziali per carichi di lavoro post-addestramento a livello di nodo, come il tuning su istruzioni, l'allineamento e l'adattamento di dominio. Presentiamo Horizon-LM, un sistema di addestramento centrato sulla memoria che ridefinisce i ruoli di CPU e GPU per l'ottimizzazione di modelli di grandi dimensioni. Horizon-LM tratta la memoria host come l'archivio autorevole dei parametri e utilizza le GPU esclusivamente come motori di calcolo transitori attraverso un modello di esecuzione CPU-master, GPU-template. Eliminando moduli residenti persistenti sulla GPU e grafi di autograd, impiegando la ricomputazione esplicita con propagazione manuale del gradiente e introducendo un motore di esecuzione pipeline a doppio buffer, Horizon-LM disaccoppia la scala del modello dal numero di GPU e vincola l'uso della memoria all'impronta teorica dei parametri. Su una singola GPU H200 con 1,5 TB di RAM host, Horizon-LM addestra in modo affidabile modelli fino a 120 miliardi di parametri. Su una macchina standard con una singola A100, Horizon-LM raggiunge una velocità di addestramento fino a 12,2 volte superiore rispetto a DeepSpeed ZeRO-3 con offloading su CPU, preservando la correttezza numerica. Su diverse piattaforme e scale, Horizon-LM mantiene un'elevata utilizzazione del dispositivo e una crescita di memoria prevedibile, dimostrando che è la memoria host, non la memoria GPU, a definire il vero confine di fattibilità per l'addestramento di modelli di grandi dimensioni a livello di nodo.
L'evoluzione degli agenti basati su Large Language Model (LLM) per l'ingegneria del software (SWE) è limitata dalla scarsità di dataset verificabili, un collo di bottiglia derivante dalla complessità di costruire ambienti eseguibili in diversi linguaggi di programmazione. Per affrontare questo problema, introduciamo MEnvAgent, un framework multi-linguaggio per la costruzione automatizzata di ambienti che facilita la generazione scalabile di istanze di attività verificabili. MEnvAgent utilizza un'architettura multi-agente di Pianificazione-Esecuzione-Verifica per risolvere autonomamente i fallimenti di costruzione e integra un innovativo Meccanismo di Riuso degli Ambienti che riduce il sovraccarico computazionale mediante l'applicazione incrementale di patch ad ambienti storici. Le valutazioni su MEnvBench, un nuovo benchmark comprendente 1.000 attività in 10 linguaggi, dimostrano che MEnvAgent supera i baseline, migliorando i tassi di Fallimento-Passaggio (F2P) dell'8,6% riducendo al contempo i costi temporali del 43%. Inoltre, dimostriamo l'utilità di MEnvAgent costruendo MEnvData-SWE, il più grande dataset poliglotta open-source di ambienti Docker realistici e verificabili finora disponibile, corredato da traiettorie risolutive che consentono miglioramenti prestazionali consistenti su attività SWE per un'ampia gamma di modelli. Il nostro codice, benchmark e dataset sono disponibili su https://github.com/ernie-research/MEnvAgent.
I grandi modelli linguistici (LLM) possono acquisire bias non intenzionali da dati di addestramento apparentemente innocui, anche in assenza di segnali espliciti o contenuti malevoli. I metodi esistenti faticano a rilevare tali rischi prima del fine-tuning, rendendo la valutazione post hoc costosa e inefficiente. Per affrontare questa sfida, introduciamo Data2Behavior, un nuovo compito che mira a prevedere i comportamenti indesiderati del modello prima dell'addestramento. Proponiamo inoltre Manipulating Data Features (MDF), un approccio leggero che sintetizza i dati candidati attraverso le loro rappresentazioni medie e le inietta nel forward pass di un modello base, permettendo ai segnali statistici latenti nei dati di modellare le attivazioni del modello e rivelare potenziali bias e rischi per la sicurezza senza aggiornare alcun parametro. MDF raggiunge previsioni affidabili consumando solo circa il 20% delle risorse GPU richieste per il fine-tuning. Esperimenti condotti su Qwen3-14B, Qwen2.5-32B-Instruct e Gemma-3-12b-it confermano che MDF può anticipare comportamenti non intenzionali e fornire insight sulle vulnerabilità del pre-training.
La gestione del pensiero e dell'osservazione dell'agente durante le interazioni multi-turno agente-ambiente è una strategia emergente per migliorare l'efficienza degli agenti. Tuttavia, gli studi esistenti trattano le traiettorie di interazione complete in modo uniforme, trascurando come la necessità di pensiero e l'utilità dell'osservazione varino tra i diversi turni. A tal fine, conduciamo prima indagini quantitative su come pensiero e osservazione influenzino l'efficacia e l'efficienza dell'agente. Sulla base dei nostri risultati, proponiamo Agent-Omit, un framework di training unificato che consente agli agenti LLM di omettere in modo adattivo pensieri e osservazioni ridondanti. Nello specifico, sintetizziamo prima una piccola quantità di dati di cold-start, inclusi scenari di omissione sia a turno singolo che multi-turno, per mettere a punto il comportamento di omissione dell'agente. Inoltre, introduciamo un approccio di reinforcement learning agentico aware dell'omissione, incorporando un meccanismo di campionamento duale e una ricompensa di omissione personalizzata per incentivare la capacità di omissione adattiva dell'agente. Teoricamente, dimostriamo che la deviazione della nostra politica di omissione è limitata superiormente dalla divergenza KL. I risultati sperimentali su cinque benchmark per agenti mostrano che il nostro Agent-Omit-8B può ottenere prestazioni comparabili a sette agenti LLM all'avanguardia e raggiungere il miglior compromesso efficacia-efficienza rispetto a sette metodi di agenti LLM efficienti. Il nostro codice e i nostri dati sono disponibili su https://github.com/usail-hkust/Agent-Omit.
L'uso efficace degli strumenti e il ragionamento sono capacità essenziali per i grandi modelli di ragionamento (LRM) per affrontare problemi complessi del mondo reale. Attraverso un'analisi empirica, identifichiamo che gli attuali LRM mancano della capacità di scomposizione dei sottocompiti in scenari complessi di utilizzo degli strumenti, portando a un Ragionamento Pigro. Per risolvere questo problema, proponiamo un framework di addestramento in due fasi, D-CORE (scomposizione dei compiti e composizione dei processi di ragionamento), che prima incentiva la capacità di ragionamento per la scomposizione dei compiti degli LRM tramite auto-distillazione, seguita da un apprendimento per rinforzo (RL) consapevole della diversità per ripristinare la capacità di ragionamento riflessivo degli LRM. D-CORE ottiene miglioramenti robusti nell'uso degli strumenti su diversi benchmark e scale di modelli. Esperimenti su BFCLv3 dimostrano la superiorità del nostro metodo: D-CORE-8B raggiunge il 77,7% di accuratezza, superando il miglior modello da 8B del 5,7%. Nel frattempo, D-CORE-14B stabilisce un nuovo stato dell'arte al 79,3%, superando i modelli da 70B nonostante sia 5 volte più piccolo. Il codice sorgente è disponibile all'indirizzo https://github.com/alibaba/EfficientAI.
I recenti progressi nei modelli multimodali unificati (UMM) hanno dimostrato notevoli passi avanti sia nelle attività di comprensione che di generazione. Tuttavia, rimane poco chiaro se queste due capacità siano realmente allineate e integrate all'interno di un singolo modello. Per indagare questa questione, introduciamo GapEval, un benchmark bidirezionale progettato per quantificare il divario tra le capacità di comprensione e generazione e misurare quantitativamente la coerenza cognitiva delle due direzioni "unificate". Ogni domanda può essere risposta in entrambe le modalità (immagine e testo), consentendo una valutazione simmetrica della capacità di inferenza bidirezionale di un modello e della sua coerenza cross-modale. Gli esperimenti rivelano un divario persistente tra le due direzioni in un'ampia gamma di UMM con diverse architetture, suggerendo che i modelli attuali raggiungono solo un'unificazione superficiale piuttosto che una convergenza cognitiva profonda delle due capacità. Per esplorare ulteriormente il meccanismo sottostante, conduciamo uno studio empirico dalla prospettiva della manipolazione della conoscenza per illustrare le limitazioni di fondo. I nostri risultati indicano che la conoscenza all'interno degli UMM spesso rimane frammentata. L'emergere delle capacità e la conoscenza attraverso le modalità non sono sincronizzati, aprendo la strada a ulteriori esplorazioni.
Il ragionamento spaziale è un aspetto fondamentale della cognizione umana, ma rimane una sfida significativa per i modelli visione-linguaggio (VLM) contemporanei. I lavori precedenti si sono basati prevalentemente su ambienti sintetici o generati da LLM, con progetti di compiti limitati e configurazioni simili a rompicapi, non riuscendo a catturare la complessità del mondo reale, il rumore visivo e le diverse relazioni spaziali che i VLM incontrano. Per affrontare questo problema, introduciamo SpatiaLab, un benchmark completo per valutare il ragionamento spaziale dei VLM in contesti realistici e senza vincoli. SpatiaLab comprende 1.400 coppie domanda-risposta visive suddivise in sei categorie principali: Posizionamento Relativo, Profondità e Occlusione, Orientamento, Dimensione e Scala, Navigazione Spaziale e Geometria 3D, ciascuna con cinque sottocategorie, per un totale di 30 tipi di compiti distinti. Ogni sottocategoria contiene almeno 25 domande e ogni categoria principale include almeno 200 domande, supportando sia la valutazione a scelta multipla che quella a risposta aperta. Esperimenti condotti su vari VLM all'avanguardia, inclusi modelli open-source e closed-source, modelli focalizzati sul ragionamento e modelli specializzati nel ragionamento spaziale, rivelano un divario sostanziale nelle capacità di ragionamento spaziale rispetto agli esseri umani. Nella configurazione a scelta multipla, InternVL3.5-72B raggiunge un'accuratezza del 54,93% contro l'87,57% degli umani. Nell'impostazione a risposta aperta, tutti i modelli mostrano un calo delle prestazioni di circa il 10-25%, con GPT-5-mini che ottiene il punteggio più alto al 40,93% contro il 64,93% degli umani. Questi risultati evidenziano limitazioni chiave nella gestione di relazioni spaziali complesse, percezione della profondità, navigazione e geometria 3D. Fornendo un framework di valutazione diversificato e basato sul mondo reale, SpatiaLab mette in luce sfide critiche e opportunità per far avanzare il ragionamento spaziale dei VLM, offrendo un benchmark per guidare la ricerca futura verso una comprensione spaziale robusta e allineata con le capacità umane. SpatiaLab è disponibile all'indirizzo: https://spatialab-reasoning.github.io/.
L'addestramento di LLM per compiti legati al codice si basa tipicamente su coppie codice-documentazione di alta qualità, che sono costose da curare e spesso scarse per linguaggi di programmazione di nicchia. Introduciamo BatCoder, un framework di apprendimento per rinforzo auto-supervisionato progettato per ottimizzare congiuntamente la generazione di codice e la produzione di documentazione. BatCoder utilizza una strategia di retro-traduzione: dalla documentazione generata dal codice, quest'ultima viene poi utilizzata per ricostruire il codice originale. La similarità semantica tra il codice originale e quello ricostruito funge da ricompensa implicita, permettendo all'apprendimento per rinforzo di migliorare le prestazioni del modello sia nella generazione di codice a partire dalla documentazione che viceversa. Questo approccio consente di addestrare i modelli utilizzando solo il codice, aumentando sostanzialmente gli esempi di addestramento disponibili. Valutato su HumanEval e MBPP con un modello da 7B, BatCoder ha raggiunto l'83,5% e l'81,0% in pass@1, superando solide baseline open-source. Inoltre, il framework dimostra una scalabilità coerente rispetto sia alla dimensione del corpus di addestramento che alla capacità del modello.
L'ottimizzazione fine (fine-tuning) di grandi modelli linguistici (LLM) su benchmark di ragionamento tramite apprendimento per rinforzo richiede una specifica funzione di ricompensa, spesso binaria, per ogni benchmark. Ciò comporta due potenziali limitazioni: la necessità di progettare la ricompensa e la natura potenzialmente sparsa delle ricompense binarie. In questo lavoro, indaghiamo sistematicamente le ricompense derivate dalla probabilità o log-probabilità di emettere la risposta di riferimento (o qualsiasi altra continuazione del prompt presente nei dati), che hanno il vantaggio di non dipendere da verificatori specifici e di essere disponibili su larga scala. Diversi lavori recenti hanno sostenuto l'uso di ricompense simili (ad es., VeriFree, JEPO, RLPR, NOVER). Confrontiamo sistematicamente le varianti delle ricompense basate sulla verosimiglianza con i benchmark standard, testando le prestazioni sia su benchmark standard di ragionamento matematico, sia su risposte in forma estesa dove non è disponibile un verificatore esterno. Scopriamo che l'utilizzo della log-probabilità della risposta di riferimento come ricompensa per l'apprendimento a catena del pensiero (CoT) è l'unica opzione che performa bene in tutti gli scenari. Questa ricompensa è anche coerente con la loss di log-verosimiglianza del token successivo utilizzata durante la pre-addestramento. In contesti verificabili, le ricompense basate sulla log-probabilità forniscono tassi di successo comparabili o migliori rispetto al rinforzo con ricompense binarie standard e producono una perplessità molto migliore. In contesti non verificabili, le loro prestazioni sono in linea con quelle dell'SFT. D'altro canto, metodi basati sulla probabilità, come VeriFree, collassano in contesti non verificabili a causa della probabilità infinitesimale di ottenere la risposta corretta. Nel complesso, ciò stabilisce le ricompense basate sulla log-probabilità come un metodo valido per il fine-tuning CoT, colmando il divario tra contesti con risposte brevi e verificabili e contesti con risposte lunghe e non verificabili.
La valutazione corrente dei VLM incarnati si basa su benchmark statici, definiti da esperti e annotati manualmente, che presentano una grave ridondanza e uno squilibrio nella copertura. Questo paradigma ad alta intensità di lavoro prosciuga le risorse computazionali e di annotazione, gonfia i costi e distorce le classifiche dei modelli, ostacolando infine lo sviluppo iterativo. Per affrontare questo problema, proponiamo Agentic Automatic Evaluation (A2Eval), il primo framework agentico che automatizza la selezione e la valutazione dei benchmark attraverso due agenti collaborativi. Il Data Agent induce autonomamente le dimensioni di capacità e assembla una suite di valutazione bilanciata e compatta, mentre l'Eval Agent sintetizza e convalida pipeline di valutazione eseguibili, consentendo una valutazione completamente autonoma e ad alta fedeltà. Valutato su 10 benchmark e 13 modelli, A2Eval comprime le suite di valutazione dell'85%, riduce i costi computazionali complessivi del 77% e garantisce un accelerazione di 4,6 volte mantenendo la qualità della valutazione. Fondamentalmente, A2Eval corregge le distorsioni sistematiche nelle classifiche, migliora l'allineamento umano fino a Spearman rho=0,85 e mantiene un'elevata fedeltà di ranking (Kendall tau=0,81), stabilendo un nuovo standard per la valutazione incarnata ad alta fedeltà e basso costo. Il nostro codice e i nostri dati saranno presto pubblici.
La Riconoscimento di Entità Nominate Multimodale Radicato (GMNER) mira a estrarre entità basate su testo, assegnare loro categorie semantiche e ancorarle a corrispondenti regioni visive. In questo lavoro, esploriamo il potenziale dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) per eseguire GMNER in modalità end-to-end, superando il loro ruolo tipico di strumenti ausiliari all'interno di pipeline a cascata. Crucialmente, la nostra indagine rivale una sfida fondamentale: gli MLLMs mostrano un bias modale, inclusi bias visivi e testuali, che deriva dalla loro tendenza a prendere scorciatoie unimodali piuttosto che effettuare una verifica cross-modale rigorosa. Per affrontare ciò, proponiamo il Ragionamento di Coerenza Consapevole della Modalità (MCR), che applica un ragionamento cross-modale strutturato attraverso l'Iniezione di Schemi di Ragionamento Multi-stile (MRSI) e l'Ottimizzazione Verificabile Guidata da Vincoli (CVO). MRSI trasforma vincoli astratti in catene di ragionamento eseguibili, mentre CVO consente al modello di allineare dinamicamente le sue traiettorie di ragionamento con l'Ottimizzazione delle Politiche Relative di Gruppo (GRPO). Esperimenti su compiti di GMNER e ancoraggio visivo dimostrano che MCR mitiga efficacemente il bias modale e raggiunge prestazioni superiori rispetto ai baseline esistenti.
Il modello di diffusione video autoregressivo ha recentemente riscontrato notevole interesse nella ricerca grazie alla sua modellazione causale e alla rimozione iterativa del rumore. In questo lavoro, identifichiamo come l'auto-attenzione multi-testa in questi modelli sottoutilizzi i frame storici: circa il 25% delle teste si concentra quasi esclusivamente sul frame corrente, e l'eliminazione delle relative cache KV comporta solo un lieve degrado delle prestazioni. Basandoci su questa osservazione, proponiamo Dummy Forcing, un metodo semplice ma efficace per controllare l'accessibilità del contesto tra diverse teste. Nello specifico, l'allocazione eterogenea della memoria proposta riduce la ridondanza contestuale a livello di testa, affiancata da una programmazione dinamica delle teste per classificare adattivamente i tipi di testa. Inoltre, sviluppiamo una tecnica di compattazione del contesto per ottenere una compressione più aggressiva della cache. Senza training aggiuntivo, il nostro Dummy Forcing raggiunge un miglioramento di velocità fino a 2.0x rispetto al baseline, supportando la generazione video a 24.3 FPS con un calo di qualità inferiore allo 0.5%. La pagina del progetto è disponibile all'indirizzo https://csguoh.github.io/project/DummyForcing/.
Esploriamo la traduzione automatica per cinque coppie di lingue turche: russo-baschiro, russo-kazako, russo-chirghiso, inglese-tataro, inglese-ciuvascio. Il fine-tuning del modello nllb-200-distilled-600M con LoRA su dati sintetici ha ottenuto un punteggio chrF++ di 49,71 per il kazako e 46,94 per il baschiro. L'utilizzo del prompting con DeepSeek-V3.2, basato sul recupero di esempi simili, ha raggiunto un chrF++ di 39,47 per il ciuvascio. Per il tataro, approcci zero-shot o basati sul recupero hanno ottenuto un chrF++ di 41,6, mentre per il chirghiso l'approccio zero-shot ha raggiunto 45,6. Rilasciamo il dataset e i pesi ottenuti.
La Discussione Multi-Agente (MAD) ha recentemente attirato un'attenzione crescente, dove più istanze di LLM risolvono problemi in modo collaborativo attraverso discussioni strutturate. Tuttavia, rileviamo che gli attuali metodi MAD sono facilmente soggetti a incoerenza della discussione, in cui gli LLM non riescono a raggiungere una soluzione coerente a causa del disallineamento tra i loro contesti individuali. In questo articolo, introduciamo un metodo di apprendimento del contesto multi-LLM (M2CL) che apprende un generatore di contesto per ogni agente, in grado di generare dinamicamente istruzioni di contesto per ogni round di discussione attraverso l'organizzazione e il raffinamento automatico delle informazioni. Nello specifico, ispirandoci alle nostre intuizioni teoriche sull'istruzione di contesto, M2CL addestra i generatori a controllare la coerenza del contesto e le discrepanze in output attraverso un meccanismo auto-adattativo accuratamente progettato. Ciò consente agli LLM di evitare una convergenza prematura sul rumore di maggioranza e di raggiungere progressivamente il consenso corretto. Valutiamo M2CL su compiti impegnativi, includendo il ragionamento accademico, compiti embodied e controllo mobile. I risultati mostrano che le prestazioni di M2CL superano significativamente i metodi esistenti del 20%-50%, godendo al contempo di una favorevole trasferibilità ed efficienza computazionale.
La rapida proliferazione di modelli 3D generativi ha creato un collo di bottiglia critico nelle pipeline di animazione: il rigging. I metodi automatizzati esistenti sono fondamentalmente limitati dal loro approccio allo skinning, trattandolo come un compito di regressione ad alta dimensionalità e mal posto, inefficiente da ottimizzare e tipicamente disaccoppiato dalla generazione dello scheletro. Noi ipotizziamo che si tratti di un problema di rappresentazione e introduciamo SkinTokens: una rappresentazione appresa, compatta e discreta per i pesi di skinning. Sfruttando un FSQ-CVAE per catturare l'intrinseca sparsità dello skinning, riformuliamo il compito da una regressione continua a un problema più gestibile di previsione di sequenze di token. Questa rappresentazione abilita TokenRig, un framework autoregressivo unificato che modella l'intero rig come una singola sequenza di parametri scheletrici e SkinTokens, apprendendo le complesse dipendenze tra scheletri e deformazioni della pelle. Il modello unificato si presta quindi a una fase di apprendimento per rinforzo, in cui ricompense geometriche e semantiche mirate migliorano la generalizzazione ad asset complessi e fuori distribuzione. Quantitativamente, la rappresentazione SkinTokens porta a un miglioramento della precisione dello skinning del 98%-133% rispetto ai metodi all'avanguardia, mentre il framework completo TokenRig, raffinato con RL, migliora la previsione delle ossa del 17%-22%. Il nostro lavoro presenta un approccio generativo e unificato al rigging che produce una fedeltà e una robustezza superiori, offrendo una soluzione scalabile a una sfida di lunga data nella creazione di contenuti 3D.
Questo lavoro presenta il Sequential Monte Carlo (SMC) auto-premiante, un algoritmo di scaling durante l'inferenza che consente un campionamento efficace dei modelli linguistici di diffusione mascherata (MDLM). Il nostro algoritmo nasce dall'osservazione che la maggior parte degli MDLM esistenti si basa su una strategia di campionamento basata sulla confidenza, in cui ad ogni passo vengono preservati solo i token con la confidenza predittiva più alta. Ciò vincola la generazione a un paradigma di decodifica avido e sensibile al rumore, risultando in un inevitabile collasso della diversità dei percorsi possibili. Affrontiamo questo problema lanciando in parallelo più processi di diffusione interagenti, denominati particelle, per l'esplorazione delle traiettorie. È importante sottolineare che introduciamo la confidenza a livello di traiettoria come segnale auto-premiante per assegnare i pesi di importanza delle particelle. Durante il campionamento, le particelle vengono iterativamente pesate e ricampionate per indirizzare sistematicamente la generazione verso campioni globalmente confidenti e di alta qualità. Il nostro SMC auto-premiante è stato verificato su vari modelli linguistici di diffusione mascherata e benchmark, ottenendo un miglioramento significativo senza addestramento aggiuntivo o guida di ricompensa, convertendo efficacemente la capacità di inferenza parallela in una qualità di campionamento migliorata. Il nostro codice è disponibile all'indirizzo https://github.com/Algolzw/self-rewarding-smc.
Presentiamo la modellazione autoregressiva proteica (PAR), il primo framework autoregressivo multi-scala per la generazione dello scheletro proteico tramite predizione next-scale da grossolana a fine. Sfruttando la natura gerarchica delle proteine, PAR genera strutture che mimano la scultura di una statua, formando una topologia grossolana e perfezionando i dettagli strutturali attraverso le scale. Per ottenere ciò, PAR è composto da tre elementi chiave: (i) operazioni di downsampling multi-scala che rappresentano le strutture proteiche a scale multiple durante l'addestramento; (ii) un trasformatore autoregressivo che codifica le informazioni multi-scala e produce embedding condizionali per guidare la generazione strutturale; (iii) un decoder dello scheletro basato su flussi che genera atomi dello scheletro condizionati da questi embedding. Inoltre, i modelli autoregressivi soffrono di exposure bias, causato dalla discrepanza tra la procedura di addestramento e quella di generazione, che degrada sostanzialmente la qualità della generazione strutturale. Mitighiamo efficacemente questo problema adottando l'apprendimento con contesto rumoroso e il campionamento programmato, consentendo una generazione robusta dello scheletro. Notevolmente, PAR mostra una forte generalizzazione zero-shot, supportando una generazione condizionata flessibile guidata dall'uomo e lo scaffolding di motivi senza richiedere fine-tuning. Sul benchmark di generazione incondizionata, PAR apprende efficacemente le distribuzioni proteiche e produce scheletri di alta qualità progettuale, mostrando un comportamento di scaling favorevole. Nel complesso, queste proprietà stabiliscono PAR come un framework promettente per la generazione di strutture proteiche.
L'analisi radiologica trae crescente beneficio da rappresentazioni visive pre-addestrate in grado di supportare task downstream eterogenei tra diverse modalità di imaging. In questo lavoro presentiamo OmniRad, un modello foundation radiologico auto-supervisionato pre-addestrato su 1,2 milioni di immagini mediche, progettato secondo principi ispirati alla radiologia che enfatizzano il riutilizzo delle rappresentazioni e la trasferibilità cross-task. Valutiamo l'encoder pre-addestrato sotto molteplici regimi di adattamento downstream, inclusi adattatori task-specific leggeri con backbone congelato e fine-tuning end-to-end completo per la classificazione, consentendoci di valutare sia la qualità rappresentazionale che le prestazioni task-specific. OmniRad viene valutato su un'ampia suite di benchmark pubblici che abbracciano classificazione e segmentazione attraverso multiple modalità. Sulla collezione MedMNISTv2, OmniRad migliora l'F1 di classificazione fino al 2,05% rispetto a modelli foundation concorrenti. Per le previsioni dense, OmniRad ottiene miglioramenti del punteggio Dice medio su sei dataset MedSegBench utilizzando rappresentazioni congelate. Analisi qualitative e visualizzazioni dello spazio latente suggeriscono un miglior clustering delle feature e una separazione correlata alla modalità.
L'ottimizzazione PPO (Proximal Policy Optimization) è stata recentemente indicata dalla letteratura come il metodo canonico per la parte RL dell'RLHF. Sebbene il PPO ottenga buoni risultati empirici, è mosso da una motivazione euristica e gestisce il vincolo di divergenza KL utilizzato in LM-RLHF in modo approssimativo, soffrendo di oscillazioni della reward, collasso dell'entropia, deriva della funzione valore e improvvisa divergenza della policy, che richiedono frequenti riavvii e un'ampia ottimizzazione degli iperparametri. In questo articolo, sviluppiamo un nuovo metodo RL puramente on-policy actor-critic per il setting LM-RLHF. Presentiamo SAFE (Stable Alignment Finetuning with Entropy-aware control), un innovativo algoritmo RLHF che combina un Critic a Doppio Soft-Min per una stima pessimistica del valore con un nuovo framework di stabilizzazione multi-livello che integra una regolazione KL controllata dall'entropia e soglie adattive a controllo PID. A differenza delle penalità KL simmetriche del PPO standard, SAFE distingue l'esplorazione ad alta entropia dal collasso modale a bassa entropia e adatta dinamicamente le penalità in base alla velocità della reward. Esperimenti su un modello da 3B di parametri mostrano che SAFE raggiunge una reward media di addestramento superiore del +5,15% rispetto al PPO (0,725 vs 0,689), crash della reward trascurabili e un controllo KL superiore. Il nostro metodo aggiunge un overhead computazionale minimo e fornisce un framework RLHF interpretabile e resistente ai crash, che mantiene un'aggressiva velocità di apprendimento garantendo al contempo un'ottimizzazione stabile a lungo orizzonte adatta alla deployment in produzione. Il codice è disponibile all'indirizzo https://github.com/ryyzn9/SAFE.
I moderni modelli linguistici vengono addestrati quasi esclusivamente su sequenze di token prodotte da un tokenizer fisso, un compressore esterno senza perdite che spesso opera su sequenze di byte UTF-8, accoppiando così il modello a quel compressore. Questo lavoro introduce la compressione proxy, uno schema di addestramento alternativo che preserva i vantaggi di efficienza degli input compressi fornendo al contempo un'interfaccia end-to-end a livello di byte grezzi durante l'inferenza. Durante l'addestramento, un modello linguistico viene addestrato congiuntamente su sequenze di byte grezzi e su viste compresse generate da compressori esterni; attraverso questo processo, il modello impara ad allineare internamente le sequenze compresse con i byte grezzi. Questo allineamento consente un forte trasferimento tra i due formati, anche quando l'addestramento avviene prevalentemente su input compressi che vengono poi scartati durante l'inferenza. Esperimenti estensivi sulla modellazione linguistica del codice dimostrano che la compressione proxy migliora sostanzialmente l'efficienza dell'addestramento e supera significativamente i baseline puramente a livello di byte, a parità di budget computazionali. All'aumentare della scala del modello, questi vantaggi diventano più pronunciati, e i modelli addestrati con proxy arrivano a eguagliare o rivaleggiare con gli approcci basati su tokenizer, operando esclusivamente su byte grezzi e mantenendo la robustezza intrinseca della modellazione a livello di byte.
La generazione 4D ha compiuto progressi notevoli nella sintesi di oggetti 3D dinamici a partire da testo, immagini o video in input. Tuttavia, i metodi esistenti rappresentano spesso il movimento come un campo di deformazione implicito, il che limita il controllo diretto e l'editabilità. Per affrontare questo problema, proponiamo SkeletonGaussian, un nuovo framework per generare Gaussiane 3D dinamiche e modificabili a partire da video monoculare. Il nostro approccio introduce una rappresentazione articolata gerarchica che scompone il movimento in un movimento rigido sparso guidato esplicitamente da uno scheletro e in un movimento non rigido di dettaglio. Nello specifico, estraiamo uno scheletro robusto e guidiamo il movimento rigido tramite linear blend skinning, seguito da un raffinamento basato su hexplane per le deformazioni non rigide, migliorando l'interpretabilità e l'editabilità. I risultati sperimentali dimostrano che SkeletonGaussian supera i metodi esistenti in qualità di generazione, consentendo al contempo un'editing intuitivo del movimento, stabilendo un nuovo paradigma per la generazione 4D modificabile. Pagina del progetto: https://wusar.github.io/projects/skeletongaussian/
Mentre i sistemi multi-agente basati su grandi modelli linguistici (LLM) raggiungono prestazioni di ragionamento superiori attraverso dibattiti iterativi, la diffusione pratica è limitata dall'elevato costo computazionale e dalla propagazione di errori. Questo articolo propone AgentArk, un framework innovativo che distilla le dinamiche multi-agente nei pesi di un singolo modello, trasformando efficacemente le interazioni esplicite al momento del test in capacità implicite del modello. Ciò equipaggia un singolo agente con l'intelligenza dei sistemi multi-agente mantenendo al contempo l'efficienza computazionale. Nello specifico, investigiamo tre strategie di distillazione gerarchica attraverso vari modelli, compiti, scalabilità e scenari: fine-tuning potenziato dal ragionamento; arricchimento basato su traiettorie; e distillazione consapevole del processo. Spostando l'onere computazionale dall'inferenza all'addestramento, i modelli distillati preservano l'efficienza di un singolo agente mentre esibiscono le solide prestazioni di ragionamento e autocorrezione di più agenti. Essi dimostrano inoltre una maggiore robustezza e generalizzazione su diversi compiti di ragionamento. Speriamo che questo lavoro possa illuminare la futura ricerca sullo sviluppo di sistemi multi-agente efficienti e robusti. Il nostro codice è disponibile su https://github.com/AIFrontierLab/AgentArk.
I fallaci ragionamenti nei grandi modelli linguistici (LLM) sono tipicamente misurati solo alla fine di una generazione, eppure molti errori si manifestano come un'interruzione a livello processuale: il modello "perde il filo" a metà del ragionamento. Studiamo se tali interruzioni siano rilevabili a partire da osservabili disponibili al momento dell'inferenza tramite API standard (probabilità logaritmiche dei token), senza alcun addestramento o fine-tuning. Definiamo un semplice segnale di instabilità che combina lo scostamento distribuzionale consecutivo (JSD) e l'incertezza (entropia), riassumiamo ogni traccia tramite la sua forza di instabilità di picco, e dimostriamo che questo segnale predice in modo affidabile l'errore. Su GSM8K e HotpotQA, la forza di instabilità predice risposte errate con un AUC superiore al caso e produce un declino monotono dell'accuratezza a livello di bucket su larga scala, attraverso diverse dimensioni dei modelli. Crucialmente, mostriamo che l'instabilità non è uniformemente dannosa: un'instabilità precoce può riflettere una successiva stabilizzazione e una risposta finale corretta (instabilità correttiva), mentre un'instabilità tardiva è più spesso seguita da un errore (instabilità distruttiva), anche a magnitudini di picco comparabili, indicando che la recuperabilità dipende non solo da quanto fortemente cambia la distribuzione ma anche da quando tali cambiamenti avvengono relativamente all'orizzonte di decodifica rimanente. Il metodo è indipendente dal modello, non richiede addestramento e è riproducibile, ed è presentato come una lente diagnostica piuttosto che come un meccanismo correttivo o di controllo.
I metodi di allineamento diretto sono sempre più utilizzati per allineare i grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, molti problemi di allineamento nel mondo reale coinvolgono molteplici obiettivi in conflitto, dove un'aggregazione ingenua delle preferenze può portare a un addestramento instabile e a compromessi scadenti. In particolare, i metodi basati su una funzione di perdita pesata possono fallire nell'identificare direzioni di aggiornamento che migliorino simultaneamente tutti gli obiettivi, e gli approcci multi-obiettivo esistenti spesso si basano su modelli di ricompensa espliciti, introducendo una complessità aggiuntiva e distorcendo le preferenze specificate dall'utente. I contributi di questo articolo sono duplici. In primo luogo, proponiamo un framework di Allineamento Senza Ricompensa per Obiettivi in Conflitto (RACO) che sfrutta direttamente dati di preferenza a coppie e risolve i conflitti di gradiente attraverso una nuova variante "clippata" della discesa del gradiente avversa ai conflitti. Forniamo garanzie di convergenza verso punti Pareto-critici che rispettano i pesi degli obiettivi specificati dall'utente, e mostriamo inoltre che il clipping può migliorare rigorosamente la velocità di convergenza nel caso a due obiettivi. In secondo luogo, miglioriamo il nostro metodo utilizzando alcune euristiche e conduciamo esperimenti per dimostrare la compatibilità del framework proposto per l'allineamento degli LLM. Valutazioni sia qualitative che quantitative su compiti di allineamento multi-obiettivo per riassunto e sicurezza, condotte su più famiglie di LLM (Qwen 3, Llama 3, Gemma 3), mostrano che il nostro metodo raggiunge costantemente migliori compromessi di Pareto rispetto ai baseline di allineamento multi-obiettivo esistenti.
Presentiamo LongVPO, un nuovo framework di Ottimizzazione Diretta delle Preferenze a due stadi che consente a modelli visione-linguaggio a contesto breve di comprendere in modo robusto video ultra-lunghi senza alcuna annotazione di video lunghi. Nello Stadio 1, sintetizziamo triplette di preferenza ancorando domande a singoli clip brevi, intervallandoli con elementi di disturbo e applicando filtri di similarità visiva e specificità della domanda per mitigare il bias posizionale e garantire una supervisione inequivocabile. Approssimiamo inoltre il punteggio del modello di riferimento sui contesti lunghi valutando solo il clip di ancoraggio, riducendo il sovraccarico computazionale. Nello Stadio 2, impieghiamo una pipeline di captioning ricorsivo su video lunghi per generare metadati a livello di scena, quindi utilizziamo un grande modello linguistico per creare query di ragionamento multi-segmento e risposte non preferite, allineando le preferenze del modello attraverso compiti di ragionamento multi-segmento. Con soli 16.000 esempi sintetici e nessuna costosa etichettatura umana, LongVPO supera i modelli open-source all'avanguardia su molteplici benchmark per video lunghi, mantenendo al contempo solide prestazioni sui video brevi (ad esempio, su MVBench), offrendo un paradigma scalabile per una comprensione efficiente di video di lunga durata.
Introduciamo FOTBCD, un dataset su larga scala per il rilevamento dei cambiamenti degli edifici, ricavato da ortofoto francesi autorevoli e dati topografici edilizi forniti da IGN France. A differenza dei benchmark esistenti, limitati geograficamente a singole città o regioni ristrette, FOTBCD copre 28 dipartimenti della Francia metropolitana, di cui 25 utilizzati per l'addestramento e tre dipartimenti geograficamente disgiunti riservati per la valutazione. Il dataset copre ambienti diversificati urbani, suburbani e rurali con una risoluzione di 0,2 m/pixel. Rilasciamo pubblicamente FOTBCD-Binary, un dataset comprendente circa 28.000 coppie di immagini prima/dopo con maschere binarie a livello di pixel per i cambiamenti edilizi, ciascuna associata a metadati spaziali a livello di patch. Il dataset è progettato per il benchmarking su larga scala e la valutazione sotto condizioni di dominio shift geografico, con campioni di validazione e test estratti dai dipartimenti tenuti da parte e verificati manualmente per garantire la qualità delle etichette. Inoltre, rendiamo pubblicamente disponibile FOTBCD-Instances, un sottoinsieme annotato a livello di istanza comprendente diverse migliaia di coppie di immagini, che illustra lo schema di annotazione completo utilizzato nella versione completa a livello di istanza di FOTBCD. Utilizzando una baseline di riferimento fissa, confrontiamo FOTBCD-Binary con LEVIR-CD+ e WHU-CD, fornendo solide evidenze empiriche che la diversità geografica a livello di dataset è associata a un miglioramento della generalizzazione cross-dominio nel rilevamento dei cambiamenti degli edifici.
I transformer di tipo encoder-only rimangono indispensabili nei sistemi di retrieval, classificazione e ranking dove latenza, stabilità e costo sono di primaria importanza. Tuttavia, la maggior parte degli encoder per scopi generici viene addestrata su corpora generici con una copertura limitata dei domini specializzati. Introduciamo RexBERT, una famiglia di encoder in stile BERT progettati specificamente per la semantica dell'e-commerce. Forniamo tre contributi. In primo luogo, rilasciamo Ecom-niverse, un corpus da 350 miliardi di token curato da diverse fonti di retail e shopping. Descriviamo una pipeline modulare che isola ed estrae contenuti di e-commerce da FineFineWeb e altre risorse web aperte, e caratterizziamo la distribuzione di dominio risultante. In secondo luogo, presentiamo una ricetta di pre-addestramento riproducibile che si basa sui progressi architetturali di ModernBERT. La ricetta consiste in tre fasi: pre-addestramento generale, estensione del contesto e specializzazione di dominio ricottata (annealed). In terzo luogo, addestriamo modelli RexBERT con parametri che vanno da 17M a 400M e li valutiamo su attività di classificazione di token, similarità semantica e comprensione del linguaggio naturale generale utilizzando dataset di e-commerce. Nonostante abbia da 2 a 3 volte meno parametri, RexBERT supera encoder general-purpose più grandi e uguaglia o supera modelli moderni a contesto lungo su benchmark di dominio specifico. I nostri risultati dimostrano che dati in-domain di alta qualità combinati con un approccio di addestramento basato su principi solidi forniscono una base più solida per le applicazioni di e-commerce rispetto al semplice scaling indiscriminato.
I grandi modelli linguistici (LLM) continuano a produrre affermazioni fattuali che sembrano plausibili ma sono prive di fondamento, un problema che peggiora nel dialogo a più turni man mano che il contesto cresce e gli errori iniziali si propagano. Presentiamo HalluHard, un benchmark impegnativo per l'allucinazione in dialoghi multi-turno, composto da 950 domande iniziali che abbracciano quattro domini ad alto rischio: casi legali, questioni di ricerca, linee guida mediche e programmazione. Operazionalizziamo il concetto di fondatezza richiedendo citazioni in linea per le asserzioni fattuali. Per supportare una valutazione affidabile in contesti aperti, proponiamo una pipeline di giudizio che recupera iterativamente prove tramite ricerca web. Essa può recuperare, filtrare e analizzare fonti a testo pieno (inclusi i PDF) per valutare se il materiale citato supporti effettivamente il contenuto generato. Su un insieme diversificato di modelli all'avanguardia, sia proprietari che open-weight, le allucinazioni rimangono sostanziali anche con la ricerca web (circa 30% per la configurazione più forte, Opus-4.5 con ricerca web), con errori di ancoraggio al contenuto che persistono a tassi elevati. Infine, dimostriamo che il comportamento di allucinazione è influenzato dalla capacità del modello, dalla posizione nel turno, dal ragionamento effettivo e dal tipo di conoscenza richiesta.