Articoli di ricerca IA selezionati quotidianamente con traduzioni
La scoperta scientifica autonoma basata su agenti con modelli linguistici di grandi dimensioni (LLM) ha recentemente compiuto progressi sostanziali, dimostrando la capacità di automatizzare flussi di lavoro di ricerca end-to-end. Tuttavia, i sistemi esistenti si basano in gran parte su paradigmi di esecuzione centrati sul runtime, leggendo, riassumendo e ragionando ripetutamente su grandi volumi di letteratura scientifica online. Questa strategia di calcolo on-the-spot comporta elevati costi computazionali, soffre delle limitazioni della finestra contestuale e spesso porta a ragionamenti fragili e allucinazioni. Proponiamo Idea2Story, un framework guidato dalla pre-computazione per la scoperta scientifica autonoma che sposta la comprensione della letteratura dal ragionamento online alla costruzione di conoscenza offline. Idea2Story raccoglie continuamente articoli sottoposti a revisione paritaria insieme ai relativi feedback di revisione, estrae unità metodologiche fondamentali, compone modelli di ricerca riutilizzabili e li organizza in un grafo della conoscenza metodologico strutturato. In fase di esecuzione, le intenzioni di ricerca utente sotto-specificate vengono allineate a paradigmi di ricerca consolidati, consentendo un recupero efficiente e il riutilizzo di modelli di ricerca di alta qualità invece di generazione aperta e approcci per tentativi ed errori. Basando la pianificazione e l'esecuzione della ricerca su un grafo della conoscenza pre-costruito, Idea2Story allevia il collo di bottiglia della finestra contestuale degli LLM e riduce sostanzialmente il ragionamento ripetuto in runtime sulla letteratura. Condurremo analisi qualitative e studi empirici preliminari che dimostrano come Idea2Story possa generare modelli di ricerca coerenti, metodologicamente fondati e innovativi, e possa produrre diverse dimostrazioni di ricerca di alta qualità in un contesto end-to-end. Questi risultati suggeriscono che la costruzione di conoscenza offline fornisce una base pratica e scalabile per una scoperta scientifica autonoma affidabile.
I modelli text-to-image (T2I) hanno ottenuto un notevole successo nella generazione di immagini ad alta fedeltà, ma spesso falliscono nella gestione di relazioni spaziali complesse, ad esempio percezione, ragionamento o interazione spaziale. Questi aspetti critici sono ampiamente trascurati dagli attuali benchmark a causa del loro design di prompt breve o a basso contenuto informativo. In questo articolo, introduciamo SpatialGenEval, un nuovo benchmark progettato per valutare sistematicamente l'intelligenza spaziale dei modelli T2I, coprendo due aspetti chiave: (1) SpatialGenEval comprende 1.230 prompt lunghi e ricchi di informazioni attraverso 25 scene del mondo reale. Ogni prompt integra 10 sotto-dominii spaziali e i corrispondenti 10 gruppi di domande a scelta multipla e risposte, che spaziano dalla posizione e disposizione degli oggetti all'occlusione e alla causalità. La nostra valutazione estesa di 21 modelli all'avanguardia rivela che il ragionamento spaziale di ordine superiore rimane un collo di bottiglia primario. (2) Per dimostrare che l'utilità del nostro design ricco di informazioni va oltre la semplice valutazione, costruiamo anche il dataset SpatialT2I. Esso contiene 15.400 coppie testo-immagine con prompt riscritti per garantire la coerenza dell'immagine preservando al contempo la densità informativa. I risultati del fine-tuning su modelli di base attuali (ovvero Stable Diffusion-XL, Uniworld-V1, OmniGen2) producono guadagni di prestazioni consistenti (+4,2%, +5,7%, +4,4%) ed effetti più realistici nelle relazioni spaziali, evidenziando un paradigma data-centrico per raggiungere l'intelligenza spaziale nei modelli T2I.
Sebbene le architetture Mixture-of-Experts (MoE) siano diventate lo standard per il ridimensionamento basato su sparsità nei grandi modelli linguistici, affrontano sempre più spesso rendimenti decrescenti e colli di bottiglia a livello di sistema. In questo lavoro, esploriamo il ridimensionamento degli embedding come una dimensione potente e ortogonale per scalare la sparsità. Attraverso un'analisi completa e esperimenti, identifichiamo regimi specifici in cui il ridimensionamento degli embedding raggiunge una frontiera di Pareto superiore rispetto al ridimensionamento degli esperti. Caratterizziamo sistematicamente i fattori architetturali critici che governano questa efficacia, che vanno dalla ripartizione dei parametri all'interazione con la larghezza e la profondità del modello. Inoltre, integrando ottimizzazioni di sistema mirate e il decoding speculativo, convertiamo efficacemente questa sparsità in accelerazioni tangibili dell'inferenza. Guidati da queste intuizioni, introduciamo LongCat-Flash-Lite, un modello da 68,5 miliardi di parametri con circa 3 miliardi di parametri attivati, addestrato da zero. Nonostante l'allocazione di oltre 30 miliardi di parametri agli embedding, LongCat-Flash-Lite non solo supera i baseline MoE equivalenti in parametri, ma dimostra anche un'eccezionale competitività rispetto ai modelli esistenti di scala comparabile, in particolare nei domini agentivi e di programmazione.
La manipolazione di oggetti dinamici rimane una sfida aperta per i modelli Visione-Linguaggio-Azione (VLA), che, nonostante una forte generalizzazione nella manipolazione statica, incontrano difficoltà in scenari dinamici che richiedono percezione rapida, anticipazione temporale e controllo continuo. Presentiamo DynamicVLA, un framework per la manipolazione di oggetti dinamici che integra il ragionamento temporale e l'adattamento a circuito chiuso attraverso tre progetti chiave: 1) un VLA compatto da 0,4 miliardi di parametri che utilizza un encoder visivo convoluzionale per una codifica spazialmente efficiente e strutturalmente fedele, consentendo un'inferenza multimodale veloce; 2) l'Inferenza Continua, che abilita il ragionamento e l'esecuzione sovrapposti per una latenza inferiore e un adattamento tempestivo al movimento dell'oggetto; e 3) lo Streaming di Azioni con Consapevolezza Latente, che colma il divario percezione-esecuzione imponendo un'esecuzione delle azioni temporalmente allineata. Per colmare la carenza di dati fondamentali per la manipolazione dinamica, introduciamo il benchmark Dynamic Object Manipulation (DOM), costruito da zero con una pipeline di raccolta dati automatica che raccoglie efficientemente 200.000 episodi sintetici in 2.800 scene e con 206 oggetti, e consente la rapida raccolta di 2.000 episodi nel mondo reale senza teleoperazione. Valutazioni estensive dimostrano miglioramenti notevoli nella velocità di risposta, nella percezione e nella generalizzazione, posizionando DynamicVLA come un framework unificato per la manipolazione generale di oggetti dinamici across embodiments.
I recenti progressi nei Modelli Linguaggio-Visione (VLMs) hanno guidato avanzamenti significativi nel ragionamento visivo. Tuttavia, i VLMs open-source rimangono ancora indietro rispetto ai sistemi proprietari, principalmente a causa della mancanza di dati di ragionamento di alta qualità. I dataset esistenti offrono una copertura limitata di domini complessi come i diagrammi STEM e gli enigmi visivi, e mancano di annotazioni coerenti e di lunga durata di Catena del Pensiero (CoT), essenziali per elicitare forti capacità di ragionamento. Per colmare questa lacuna, introduciamo MMFineReason, un dataset su larga scala per il ragionamento multimodale che comprende 1,8 milioni di campioni e 5,1 miliardi di token di soluzione, caratterizzato da annotazioni di ragionamento di alta qualità distillate da Qwen3-VL-235B-A22B-Thinking. Il dataset è stato creato attraverso una pipeline sistematica in tre fasi: (1) raccolta e standardizzazione di dati su larga scala, (2) generazione di ragionamenti CoT, e (3) selezione completa basata sulla qualità del ragionamento e sulla consapevolezza della difficoltà. Il dataset risultante copre problemi STEM, enigmi visivi, giochi e diagrammi complessi, con ogni campione annotato con tracce di ragionamento visivamente fondate. Abbiamo effettuato il fine-tuning di Qwen3-VL-Instruct su MMFineReason per sviluppare le versioni MMFineReason-2B/4B/8B. I nostri modelli stabiliscono nuovi risultati state-of-the-art per la loro classe di dimensioni. Notevolmente, MMFineReason-4B supera con successo Qwen3-VL-8B-Thinking, e MMFineReason-8B addirittura supera le prestazioni di Qwen3-VL-30B-A3B-Thinking avvicinandosi a Qwen3-VL-32B-Thinking, dimostrando una notevole efficienza parametrica. Crucialmente, abbiamo scoperto un fenomeno del "meno è più" attraverso la nostra strategia di filtraggio basata sulla difficoltà: un sottoinsieme di appena il 7% (123.000 campioni) raggiunge prestazioni paragonabili al dataset completo. In modo significativo, riveliamo un effetto sinergico per cui la composizione dei dati orientata al ragionamento potenzia simultaneamente le capacità generali.
Lo sviluppo di grandi modelli linguistici visivi alimenta la richiesta di gestire e applicare enormi quantità di dati multimodali, rendendo sempre più popolare la tecnologia OCR, che estrae informazioni da immagini visive. Tuttavia, i metodi OCR esistenti si concentrano principalmente sul riconoscimento di elementi testuali da immagini o documenti scansionati (OCR centrato sul testo), tralasciando l'identificazione di elementi visivi da fonti di immagini ad alta densità informativa visiva (OCR centrato sulla visione), come grafici, pagine web e diagrammi scientifici. Nella realtà, queste immagini ricche di informazioni visive sono ampiamente diffuse su Internet e possiedono un significativo valore applicativo nel mondo reale, come nella visualizzazione di dati e nell'analisi di pagine web. In questo report tecnico, proponiamo OCRVerse, il primo metodo OCR olistico in modalità end-to-end che consente un'unificazione tra OCR centrato sul testo e OCR centrato sulla visione. A tal fine, abbiamo costruito un'ingegneria dei dati completa per coprire un'ampia gamma di documenti orientati al testo, come giornali, riviste e libri, nonché compositi renderizzati orientati alla visione, inclusi grafici, pagine web e diagrammi scientifici. Inoltre, proponiamo per OCRVerse un metodo di addestramento multi-dominio a due stadi SFT-RL. L'SFT mescola direttamente dati cross-dominio per addestrare e stabilire una conoscenza di dominio iniziale, mentre l'RL si concentra sulla progettazione di strategie di ricompensa personalizzate per le caratteristiche di ciascun dominio. Nello specifico, poiché diversi domini richiedono vari formati di output e risultati attesi, forniamo sufficiente flessibilità nella fase RL per personalizzare segnali di ricompensa flessibili per ogni dominio, migliorando così la fusione cross-dominio ed evitando conflitti di dati. I risultati sperimentali dimostrano l'efficacia di OCRVerse, raggiungendo risultati competitivi su tipi di dati sia centrati sul testo che sulla visione, paragonabili persino a modelli open-source e closed-source su larga scala.
I grandi modelli linguistici allocano un calcolo uniforme su tutti i token, ignorando il fatto che alcune sequenze sono banalmente prevedibili mentre altre richiedono un ragionamento profondo. Introduciamo ConceptMoE, che fonde dinamicamente token semanticamente simili in rappresentazioni concettuali, eseguendo un'allocazione implicita del calcolo a livello di token. Un modulo apprendibile di segmentazione identifica i confini ottimali misurando la similarità inter-token, comprimendo le sequenze di un rapporto target R prima che entrino nel modello concettuale ad alta intensità computazionale. Fondamentalmente, l'architettura MoE consente una valutazione controllata: riallociamo il calcolo risparmiato per eguagliare i FLOP attivati del baseline (escludendo il calcolo della mappa di attenzione) e il numero totale di parametri, isolando i genuini benefici architetturali. In queste condizioni, ConceptMoE supera costantemente il MoE standard in compiti linguistici e visione-linguaggio, raggiungendo +0,9 punti nel pre-addestramento linguistico, +2,3 punti nella comprensione di contesti lunghi e +0,6 punti nei benchmark multimodali. Quando si converte un MoE pre-addestrato durante l'addestramento continuo con loop di layer, i guadagni raggiungono +5,5 punti, dimostrando l'applicabilità pratica. Oltre alle prestazioni, ConceptMoE riduce il calcolo dell'attenzione fino a R^2 volte e la KV cache di R volte. Con R=2, misurazioni empiriche mostrano accelerazioni nella fase di prefill fino al 175% e accelerazioni nel decoding fino al 117% su sequenze lunghe. Le minime modifiche architetturali consentono un'integrazione immediata nei MoE esistenti, dimostrando che l'elaborazione adattiva a livello concettuale migliora fondamentalmente sia l'efficacia che l'efficienza dei grandi modelli linguistici.
In questo rapporto presentiamo la famiglia Qwen3-ASR, che include due potenti modelli all-in-one per il riconoscimento vocale e un innovativo modello non autoregressivo per l'allineamento forzato del parlato. Qwen3-ASR-1.7B e Qwen3-ASR-0.6B sono modelli ASR che supportano l'identificazione linguistica e il riconoscimento vocale per 52 lingue e dialetti. Entrambi si avvalgono di dati di addestramento vocali su larga scala e della forte capacità di comprensione audio del loro modello base Qwen3-Omni. Oltre ai benchmark open-source, abbiamo condotto una valutazione interna completa, poiché i modelli ASR possono mostrare differenze minori nei punteggi dei benchmark aperti, ma differenze qualitative significative negli scenari reali. Gli esperimenti rivelano che la versione 1.7B raggiunge prestazioni SOTA tra i modelli ASR open-source ed è competitiva con le API proprietarie più potenti, mentre la versione 0.6B offre il miglior compromesso precisione-efficienza. Qwen3-ASR-0.6B può raggiungere un TTFT medio di soli 92ms e trascrivere 2000 secondi di parlato in 1 secondo con una concorrenza di 128. Qwen3-ForcedAligner-0.6B è un predittore di timestamp basato su LLM di tipo NAR in grado di allineare coppie testo-audio in 11 lingue. Esperimenti sull'accuratezza dei timestamp mostrano che il modello proposto supera i tre modelli di allineamento forzato più potenti e offre maggiori vantaggi in termini di efficienza e versatilità. Per accelerare ulteriormente la ricerca comunitaria sull'ASR e la comprensione audio, rilasciamo questi modelli con licenza Apache 2.0.
Gli approcci attuali per ridurre le capacità indesiderate nei modelli linguistici sono largamente post hoc e possono quindi essere facilmente aggirati da avversari. Un'alternativa naturale consiste nel modellare le capacità durante il pretraining stesso. Sul compito proxy di rimuovere le capacità mediche, dimostriamo che il semplice intervento di filtrare i dati di pretraining è altamente efficace, robusto ed economico su larga scala. Ispirati dal lavoro sull'attribuzione dei dati, mostriamo che filtrare i token è più efficace del filtrare i documenti, raggiungendo lo stesso impatto sulle capacità indesiderate a un costo inferiore per quelle benigne. Addestrando modelli che coprono due ordini di grandezza, dimostriamo poi che il filtraggio diventa più efficace con la scala: per i nostri modelli più grandi, il filtraggio dei token comporta un rallentamento computazionale di 7000x nel dominio da dimenticare. Mostriamo anche che i modelli addestrati con il filtraggio dei token possono comunque essere allineati sul dominio da dimenticare. Nel corso dello studio, introduciamo una metodologia per etichettare i token con autoencoder sparsi e per distillare classificatori economici e di alta qualità. Dimostriamo inoltre che il filtraggio può essere robusto a etichette rumorose con sufficiente potenza computazionale di pretraining.
L’Apprendimento per Rinforzo Agente (Agentic RL) ha ottenuto successi notevoli nel consentire agli agenti di eseguire ragionamenti complessi e l'utilizzo di strumenti. Tuttavia, la maggior parte dei metodi si basa ancora su ricompense sparse basate sui risultati per l'addestramento. Tale feedback non riesce a differenziare la qualità del ragionamento intermedio, portando a risultati di addestramento subottimali. In questo articolo, introduciamo l'Agent Reasoning Reward Model (Agent-RRM), un modello di ricompensa multi-sfaccettato che fornisce un feedback strutturato per le traiettorie agente, includendo (1) una traccia esplicita del ragionamento, (2) una critica focalizzata che fornisce una guida al perfezionamento evidenziando le imperfezioni nel ragionamento, e (3) un punteggio complessivo che valuta le prestazioni del processo. Sfruttando questi segnali, investigiamo sistematicamente tre strategie di integrazione: Reagent-C (perfezionamento arricchito con testo), Reagent-R (guida arricchita con ricompensa) e Reagent-U (integrazione unificata del feedback). Valutazioni estese su 12 benchmark diversi dimostrano che Reagent-U produce miglioramenti sostanziali nelle prestazioni, raggiungendo il 43,7% su GAIA e il 46,2% su WebWalkerQA, convalidando l'efficacia del nostro modello di ricompensa per il ragionamento e degli schemi di addestramento. Codice, modelli e dataset sono tutti rilasciati per facilitare la ricerca futura.
I repository pubblici ospitano milioni di modelli perfezionati (fine-tuned), eppure l'utilizzo da parte della comunità rimane sproporzionatamente concentrato su un numero ridotto di checkpoint di base (foundation). Indaghiamo se questa concentrazione rifletta una selezione efficiente del mercato o se modelli superiori vengano sistematicamente trascurati. Attraverso una valutazione estesa di oltre 2.000 modelli, dimostriamo la prevalenza di "gemme nascoste", ovvero modelli perfezionati poco popolari che superano significativamente le loro controparti più note. In modo significativo, all'interno della famiglia Llama-3.1-8B, abbiamo individuato checkpoint scaricati raramente che migliorano le prestazioni in matematica dall'83,2% al 96,0% senza aumentare i costi di inferenza. Tuttavia, scoprire questi modelli attraverso una valutazione esaustiva di ogni modello caricato è computazionalmente infattibile. Formuliamo quindi la scoperta dei modelli come un problema della Bandita Multi-Braccio (Multi-Armed Bandit) e acceleriamo l'algoritmo di ricerca Sequential Halving utilizzando insiemi di query condivisi e schemi di eliminazione aggressivi. Il nostro metodo recupera i modelli migliori con appena 50 query per candidato, accelerando la scoperta di oltre 50 volte.
La ricostruzione in streaming da sequenze di immagini monoculari rimane una sfida, poiché i metodi esistenti privilegiano tipicamente il rendering di alta qualità o la geometria accurata, ma raramente entrambi. Presentiamo PLANING, un framework efficiente di ricostruzione on-the-fly basato su una rappresentazione ibrida che accoppia in modo lasco primitive geometriche esplicite con Gaussiane neurali, consentendo alla geometria e all'aspetto di essere modellati in modo disaccoppiato. Questo disaccoppiamento supporta una strategia di inizializzazione e ottimizzazione online che separa gli aggiornamenti di geometria e aspetto, producendo una ricostruzione in streaming stabile con una riduzione sostanziale della ridondanza strutturale. PLANING migliora la metrica Chamfer-L2 sulla mesh densa del 18,52% rispetto a PGSR, supera ARTDECO di 1,31 dB in PSNR e ricostruisce le scene di ScanNetV2 in meno di 100 secondi, oltre 5 volte più velocemente del 2D Gaussian Splatting, pur eguagliando la qualità dell'ottimizzazione offline per scena. Oltre alla qualità della ricostruzione, la chiarezza strutturale e l'efficienza computazionale di PLANING lo rendono adatto a un'ampia gamma di applicazioni a valle, come la modellazione di scene su larga scala e la creazione di ambienti pronti per la simulazione per AI incarnata. Pagina del progetto: https://city-super.github.io/PLANING/ .
I modelli fondazionali per l'elettroencefalografia (EEG) sono recentemente emersi come un paradigma promettente per le interfacce cervello-computer (BCI), con l'obiettivo di apprendere rappresentazioni neurali trasferibili da registrazioni eterogenee su larga scala. Nonostante i rapidi progressi, mancano confronti equi e completi tra i modelli fondazionali EEG esistenti, a causa di obiettivi di pre-addestramento, scelte di pre-elaborazione e protocolli di valutazione downstream incoerenti. Questo articolo colma tale lacuna. In primo luogo, esaminiamo 50 modelli rappresentativi e organizziamo le loro scelte progettuali in un quadro tassonomico unificato che include standardizzazione dei dati, architetture dei modelli e strategie di pre-addestramento auto-supervisionato. Successivamente, valutiamo 12 modelli fondazionali open-source e baseline specialistici competitivi su 13 dataset EEG che coprono nove paradigmi di BCI. Enfatizzando le implementazioni nel mondo reale, consideriamo sia la generalizzazione cross-soggetto con un protocollo leave-one-subject-out, sia la calibrazione rapida in un'impostazione few-shot within-subject. Confrontiamo inoltre il fine-tuning completo dei parametri con il linear probing per valutare la trasferibilità delle rappresentazioni pre-addestrate ed esaminiamo la relazione tra scala del modello e prestazioni downstream. I nostri risultati indicano che: 1) il linear probing è spesso insufficiente; 2) i modelli specialistici addestrati da zero rimangono competitivi in molti compiti; e 3) modelli fondazionali più grandi non necessariamente producono migliori prestazioni di generalizzazione negli attuali regimi di dati e pratiche di addestramento.
L'evoluzione dei Large Language Model (LLM) in agenti autonomi richiede la gestione di contesti estesi e dinamici. Gli attuali benchmark, tuttavia, rimangono largamente statici, basandosi su compiti di recupero passivo che non simulano le complessità dell'interazione agente-ambiente, come il ragionamento non lineare e il feedback iterativo. Per affrontare questa lacuna, introduciamo AgentLongBench, che valuta gli agenti attraverso simulazioni di ambienti basate su enigmi di pensiero laterale. Questo framework genera traiettorie di interazione rigorose in scenari ad alta intensità di conoscenza e privi di conoscenza. Esperimenti con modelli all'avanguardia e sistemi di memoria (da 32K a 4M di token) rivelano una criticità fondamentale: sebbene abili nel recupero statico, gli agenti faticano nella sintesi dinamica delle informazioni, essenziale per i flussi di lavoro. La nostra analisi indica che questo deterioramento delle prestazioni è guidato dal numero minimo di token necessari per risolvere una query. Questo fattore spiega perché l'alta densità informativa intrinseca nelle risposte massive degli strumenti costituisce una sfida significativamente maggiore della frammentazione della memoria tipica dei dialoghi a lungo termine.
La ricerca recente sulla generazione di video di lunga durata si è spostata da modelli bidirezionali a modelli autoregressivi, tuttavia questi metodi soffrono comunemente di accumulo di errori e perdita di coerenza a lungo termine. Sebbene siano stati introdotti frame "attention sink" per mitigare questo decadimento delle prestazioni, essi spesso inducono una modalità di fallimento critica che definiamo "sink-collapse": il contenuto generato ritorna ripetutamente al frame sink, risultando in reset improvvisi della scena e pattern di movimento ciclici. La nostra analisi rivela che il sink-collapse origina da un conflitto intrinseco tra la struttura periodica del Rotary Position Embedding (RoPE) e i meccanismi di multi-head attention prevalenti nei modelli generativi attuali. Per affrontarlo, proponiamo un approccio leggero, che non richiede addestramento, sopprimendo efficacemente questo comportamento attraverso l'introduzione di un jitter multi-head per RoPE che rompe l'omogeneizzazione dell'attenzione tra le teste e mitiga il collasso su orizzonti lunghi. Esperimenti estensivi mostrano che il nostro metodo allevia con successo il sink-collapse preservando la qualità della generazione. Per quanto a nostra conoscenza, questo lavoro rappresenta la prima dimostrazione di generazione di video in tempo reale, in streaming e di lunghezza infinita con un decadimento minimo della qualità. A testimonianza di questa robustezza, abbiamo generato video continui fino a 12 ore di lunghezza, che, per nostra conoscenza, sono tra i risultati più lunghi mai dimostrati pubblicamente nella generazione di video in streaming.
I moderni modelli di diffusione/flusso per la generazione di immagini presentano tipicamente due caratteristiche fondamentali: (i) l'utilizzo di un campionamento multi-step e (ii) l'operare in uno spazio latente. I recenti progressi hanno compiuto passi incoraggianti su ciascun aspetto individualmente, aprendo la strada verso una diffusione/flusso one-step senza latenti. In questo lavoro, compiamo un ulteriore passo verso questo obiettivo e proponiamo il "pixel MeanFlow" (pMF). La nostra linea guida fondamentale è formulare separatamente lo spazio di output della rete e lo spazio della loss. L'obiettivo della rete è progettato per risiedere su una presunta varietà immagine a bassa dimensionalità (cioè x-prediction), mentre la loss è definita tramite MeanFlow nello spazio delle velocità. Introduciamo una semplice trasformazione tra la varietà immagine e il campo di velocità medio. Negli esperimenti, pMF ottiene risultati solidi per la generazione one-step senza latenti su ImageNet alla risoluzione 256x256 (2.22 FID) e 512x512 (2.48 FID), colmando un tassello mancante fondamentale in questo ambito. Auspichiamo che il nostro studio possa ulteriormente spingere in avanti i confini dei modelli generativi basati su diffusione/flusso.
Sebbene i Large Language Model (LLM) eccellano in compiti agentivi basati sul linguaggio, la loro applicabilità ad ambienti non linguistici e non visti (ad esempio, compiti simbolici o spaziali) rimane limitata. I lavori precedenti attribuiscono questo divario di performance alla discrepanza tra la distribuzione di pre-addestramento e quella di test. In questo lavoro, dimostriamo che il collo di bottiglia principale è il costo proibitivo dell'esplorazione: padroneggiare questi compiti richiede un'estesa procedura per tentativi ed errori, che è computazionalmente insostenibile per LLM con un elevato numero di parametri che operano in uno spazio semantico ad alta dimensionalità. Per affrontare questo problema, proponiamo SCOUT (Sub-Scale Collaboration On Unseen Tasks), un framework innovativo che disaccoppia l'esplorazione dallo sfruttamento. Impieghiamo "esploratori" leggeri (ad esempio, piccole MLP) per sondare le dinamiche ambientali a una velocità e scala di gran lunga superiori a quelle degli LLM. Le traiettorie raccolte vengono utilizzate per avviare l'LLM tramite Supervised Fine-Tuning (SFT), seguito da Reinforcement Learning (RL) multi-turn per attivare la sua conoscenza latente del mondo. Empiricamente, SCOUT consente a un modello Qwen2.5-3B-Instruct di raggiungere un punteggio medio di 0,86, superando significativamente modelli proprietari, incluso Gemini-2.5-Pro (0,60), consentendo al contempo un risparmio di circa il 60% del consumo di ore GPU.
Garantire sicurezza, veridicità e qualità complessiva nelle generazioni dei grandi modelli linguistici è una sfida cruciale, specialmente considerando che questi modelli sono sempre più impiegati in applicazioni del mondo reale. L'approccio prevalente per affrontare questi problemi prevede la raccolta di dataset costosi e accuratamente curati e l'applicazione di multiple fasi di fine-tuning e allineamento. Tuttavia, anche questa complessa pipeline non può garantire la correzione di pattern appresi durante il pre-training. Pertanto, affrontare questi problemi durante il pre-training è fondamentale, poiché plasma i comportamenti fondamentali di un modello e impedisce che output non sicuri o allucinati diventino profondamente radicati. Per risolvere questo problema, introduciamo un nuovo metodo di pre-training che elabora documenti in streaming e utilizza l'apprendimento per rinforzo (RL) per migliorare i successivi K token generati a ogni passo. Un modello robusto, addestrato in seguito, valuta le generazioni candidate – incluse le rollout del modello, il suffisso originale e un suffisso riscritto – in termini di qualità, sicurezza e veridicità. Nelle fasi iniziali dell'addestramento, il processo si affida ai suffissi originali e riscritti; man mano che il modello migliora, l'RL premia le rollout di alta qualità. Questo approccio costruisce modelli intrinsecamente più qualitativi, sicuri e veritieri fin dalle fondamenta. Negli esperimenti, il nostro metodo registra miglioramenti relativi del 36,2% e del 18,5% rispetto al pre-training standard in termini di veridicità e sicurezza, e miglioramenti fino all'86,3% nel tasso di vittoria per quanto riguarda la qualità complessiva della generazione.
L'apprendimento dal feedback umano si basa tipicamente sull'ottimizzazione delle preferenze che vincola gli aggiornamenti della policy attraverso una regolarizzazione a livello di token. Tuttavia, l'ottimizzazione delle preferenze per i modelli linguistici è particolarmente complessa poiché la similarità nello spazio dei token non implica una similarità semantica o comportamentale. Per affrontare questa sfida, sfruttiamo la regolarizzazione nello spazio latente per l'ottimizzazione delle preferenze dei modelli linguistici. Introduciamo GANPO, che realizza la regolarizzazione nello spazio latente penalizzando la divergenza tra le rappresentazioni interne di un modello di policy e di un modello di riferimento. Considerando che le rappresentazioni latenti non sono associate a densità di probabilità esplicite, adottiamo un approccio adversarial ispirato alle GAN per minimizzare la divergenza nello spazio latente. Integriamo GANPO come regolarizzatore in obiettivi esistenti di ottimizzazione delle preferenze offline. Esperimenti condotti su molteplici architetture di modelli e task mostrano miglioramenti consistenti derivanti dalla regolarizzazione nello spazio latente. Inoltre, confrontando i bias inferenziali indotti da GANPO con quelli della regolarizzazione a livello di token, riscontriamo che GANPO fornisce un feedback strutturale più robusto sotto shift distribuzionale e rumore, mantenendo al contempo performance downstream comparabili con un sovraccarico computazionale minimo.
Presentiamo Foundation-Sec-8B-Reasoning, il primo modello di ragionamento nativo open-source per la cybersecurity. Basato sul nostro modello base Foundation-Sec-8B precedentemente rilasciato (derivato da Llama-3.1-8B-Base), il modello è stato addestrato attraverso un processo in due fasi che combina fine-tuning supervisionato (SFT) e apprendimento per rinforzo con ricompense verificabili (RLVR). Il nostro addestramento si avvale di dati proprietari di ragionamento che spaziano dall'analisi della cybersecurity, al seguire istruzioni, fino al ragionamento matematico. La valutazione su 10 benchmark di cybersecurity e 10 benchmark generici dimostra prestazioni competitive con modelli significativamente più grandi sui compiti di cybersecurity, mantenendo al contempo solide capacità generali. Il modello mostra un'efficace generalizzazione su compiti di ragionamento multi-hop e solide prestazioni in termini di sicurezza quando implementato con prompt di sistema appropriati e meccanismi di protezione. Questo lavoro dimostra che modelli di ragionamento specializzati per dominio possono ottenere prestazioni elevate su compiti specialistici pur mantenendo ampie capacità generali. Rilasciamo pubblicamente il modello all'indirizzo https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
L'addestramento post-rinforzo (RL) è un approccio dominante per migliorare le prestazioni di ragionamento dei grandi modelli linguistici (LLM), tuttavia prove crescenti suggeriscono che i suoi vantaggi derivino principalmente da un affinamento della distribuzione piuttosto che dall'acquisizione di nuove capacità. Ricerche recenti hanno dimostrato che il campionamento dalla distribuzione di potenza degli LLM utilizzando il metodo Monte Carlo a catena di Markov (MCMC) può recuperare prestazioni paragonabili all'addestramento RL post-rinforzo senza fare affidamento su ricompense esterne; tuttavia, l'elevato costo computazionale del MCMC rende tali approcci impraticabili per un'adozione diffusa. In questo lavoro, proponiamo un'alternativa teoricamente fondata che elimina la necessità del MCMC iterativo. Deriviamo una nuova formulazione che mostra come la distribuzione di potenza globale possa essere approssimata da una distribuzione a livello di token scalata e a bassa temperatura, dove il fattore di scala cattura la qualità della traiettoria futura. Sfruttando questa intuizione, introduciamo un algoritmo senza addestramento e senza verificatore che affina autoregressivamente la distribuzione generativa del modello base. Empiricamente, valutiamo il nostro metodo su compiti di matematica, QA e codice su quattro LLM, e dimostriamo che il nostro metodo eguaglia o supera il GRPO one-shot senza fare affidamento su ricompense esterne, riducendo al contempo la latenza di inferenza di oltre 10 volte rispetto al campionamento basato su MCMC.
Le architetture ibride Transformer, che combinano blocchi di attenzione softmax e reti neurali ricorrenti (RNN), hanno dimostrato un compromesso desiderabile tra prestazioni e velocità di elaborazione per la modellazione di contesti lunghi, ma la loro adozione e studio sono ostacolati dal costo proibitivo del pre-addestramento su larga scala partendo da zero. Alcuni studi recenti hanno mostrato che i blocchi di attenzione softmax pre-addestrati possono essere convertiti in blocchi RNN attraverso trasferimento di parametri e distillazione della conoscenza. Tuttavia, questi metodi di trasferimento richiedono quantità sostanziali di dati di addestramento (più di 10 miliardi di token), e i modelli ibridi risultanti mostrano anche scarse prestazioni con contesti lunghi, scenario in cui i modelli ibridi beneficiano di significative accelerazioni inferenziali rispetto ai modelli basati su Transformer. In questo articolo, presentiamo HALO (Hybrid Attention via Layer Optimization), una pipeline per distillare modelli Transformer in modelli ibridi RNN-attenzione. Presentiamo poi HypeNet, un'architettura ibrida con superiore capacità di generalizzazione sulla lunghezza abilitata da uno nuovo schema di codifica posizionale (denominato HyPE) e varie modifiche architetturali. Convertiamo la serie Qwen3 in HypeNet utilizzando HALO, raggiungendo prestazioni comparabili ai modelli Transformer originali, godendo al contempo di prestazioni ed efficienza superiori con contesti lunghi. La conversione richiede solo 2,3 miliardi di token, meno dello 0,01% dei loro dati di pre-addestramento.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto rapidi progressi; tuttavia, la maggior parte dei modelli all'avanguardia viene addestrata e valutata principalmente in lingue ad alte risorse come l'inglese e il cinese, ed è spesso sviluppata da un numero ristretto di organizzazioni con accesso a capacità computazionali e dati su larga scala. Questa custodia crea una barriera pratica per contesti sovrani in cui un'istituzione a livello regionale o nazionale o un proprietario di dominio deve mantenere il controllo e la comprensione dei pesi del modello, dei dati di addestramento e del deployment, operando con risorse limitate e vincoli rigorosi di trasparenza. A tal fine, identifichiamo due requisiti fondamentali: (1) l'adozione, ovvero la capacità di trasformare un modello base in un assistente generico, e (2) la capacità sovrana, ovvero la capacità di svolgere compiti ad alto rischio e specifici della regione (ad esempio, il ragionamento giuridico in lingue locali e la conoscenza culturale). Indaghiamo se questi requisiti possano essere raggiunti senza scalare enormi corpora di istruzioni o fare affidamento su complesse pipeline di ottimizzazione delle preferenze e su un fine-tuning RL su larga scala (RFT). Presentiamo Typhoon S, una ricetta minima e aperta di post-addestramento che combina fine-tuning supervisionato, distillazione on-policy e RFT su piccola scala. Utilizzando il thailandese come caso di studio rappresentativo, dimostriamo che il nostro approccio trasforma sia i modelli base adattati al contesto sovrano che quelli a scopo generico in modelli ottimizzati per le istruzioni con solide prestazioni generali. Mostriamo inoltre che l'RFT su piccola scala con InK-GRPO – un'estensione di GRPO che arricchisce la loss GRPO con una loss di predizione della parola successiva – migliora il ragionamento giuridico in thailandese e la conoscenza specifica della Thailandia, preservando al contempo le capacità generali. I nostri risultati suggeriscono che una strategia di post-addestramento accuratamente progettata può ridurre la scala richiesta di dati di istruzione e computazione, fornendo un percorso pratico verso LLM sovrani di alta qualità con risorse di scala accademica.
A causa della limitata disponibilità di dati di addestramento supervisionati, i grandi modelli linguistici (LLM) vengono tipicamente pre-addestrati tramite un obiettivo auto-supervisionato di "previsione della parola successiva" su una vasta quantità di dati testuali non strutturati. Per rendere il modello risultante utile agli utenti, viene successivamente addestrato su una quantità molto minore di dati di "instruction-tuning", composti da esempi di addestramento supervisionati di istruzioni e risposte. Per superare la scarsità di dati supervisionati, proponiamo una procedura in grado di trasformare la conoscenza contenuta nei documenti di pre-addestramento su scala internet in miliardi di coppie sintetiche di addestramento composte da istruzioni e risposte. Il dataset risultante, chiamato FineInstructions, utilizza circa 18 milioni di template di istruzioni creati a partire da query e prompt scritti da utenti reali. Questi template di istruzioni vengono abbinati e istanziati con documenti sorgente scritti da esseri umani, provenienti da corpora di pre-addestramento non strutturati. Con dati di addestramento sintetici "supervisionati" generati su questa scala, un LLM può essere pre-addestrato da zero utilizzando esclusivamente l'obiettivo dell'instruction-tuning, che risulta molto più in-distribuzione con l'utilizzo downstream previsto per gli LLM (rispondere ai prompt degli utenti). Abbiamo condotto esperimenti di addestramento controllato token-per-token e riscontriamo che il pre-addestramento su FineInstructions supera il pre-addestramento standard e altre tecniche di pre-addestramento sintetico proposte, su benchmark standard che misurano la qualità delle risposte in forma libera. Le nostre risorse sono disponibili all'indirizzo: https://huggingface.co/fineinstructions.
Presentiamo DeepSearchQA, un benchmark di 900 prompt per valutare gli agenti su complesse attività multi-step di ricerca di informazioni in 17 diversi ambiti. A differenza dei benchmark tradizionali che mirano al recupero di singole risposte o a un'ampia factualità, DeepSearchQA propone un dataset di attività complesse e studiate appositamente per valutare la capacità di un agente di eseguire piani di ricerca articolati per generare elenchi di risposte esaustivi. Questo cambio di progettazione testa esplicitamente tre capacità critiche, ma poco valutate: 1) la raccolta sistematica di informazioni frammentate da fonti disparate, 2) la deduplicazione e la risoluzione delle entità per garantire la precisione, e 3) la capacità di ragionare sui criteri di arresto all'interno di uno spazio di ricerca aperto. Ogni attività è strutturata come una catena causale, in cui la scoperta di informazioni per un passaggio dipende dal completamento riuscito del precedente, mettendo alla prova la pianificazione a lungo termine e la ritenzione del contesto. Tutte le attività sono ancorate al web aperto con insiemi di risposte oggettivamente verificabili. La nostra valutazione completa delle architetture di agenti all'avanguardia rivela significative limitazioni prestazionali: anche i modelli più avanzati faticano a bilanciare un alto richiamo con la precisione. Osserviamo distinti modi di fallimento, che vanno dall'arresto prematuro (under-retrieval) a comportamenti di copertura, in cui gli agenti gettano una rete troppo ampia di risposte a bassa confidenza per aumentare artificialmente il richiamo. Questi risultati evidenziano un margine di miglioramento critico nei progetti attuali degli agenti e posizionano DeepSearchQA come uno strumento diagnostico essenziale per orientare la ricerca futura verso capacità di deep-research più robuste.
Mirando a un ragionamento a catena del pensiero (CoT) efficiente e denso, i metodi di ragionamento latente effettuano il fine-tuning di Large Language Models (LLM) per sostituire i token linguistici discreti con token latenti continui. Questi metodi consumano meno token rispetto al convenzionale ragionamento CoT linguistico e hanno il potenziale di pianificare in uno spazio latente denso. Tuttavia, gli attuali token latenti sono generalmente supervisionati basandosi sull'imitazione di etichette linguistiche. Considerando che per una domanda possono esistere multiple etichette CoT equivalenti ma diverse, imitare passivamente una qualsiasi di esse può portare a rappresentazioni inferiori dei token latenti e a politiche di ragionamento latente subottimali, minando la potenziale capacità di pianificazione e risultando in chiari divari tra addestramento e test. In questo lavoro, sottolineiamo l'importanza di una pianificazione attiva sullo spazio di rappresentazione dei token latenti per raggiungere la politica di ragionamento latente ottimale. Pertanto, proponiamo il metodo Active Latent Planning (ATP-Latent), che modella il processo di supervisione dei token latenti come un variational auto-encoder (VAE) condizionale per ottenere uno spazio latente più regolare. Inoltre, per favorire la politica di ragionamento latente più ragionevole, ATP-Latent conduce un reinforcement learning (RL) con una ricompensa ausiliaria di coerenza, calcolata sulla base della consistenza tra i contenuti decodificati dal VAE dei token latenti, abilitando un processo di RL guidato. Negli esperimenti su LLaMA-1B, ATP-Latent dimostra un +4.1% di accuratezza e un -3.3% di token su quattro benchmark rispetto ai baseline avanzati. I codici sono disponibili su https://github.com/zz1358m/ATP-Latent-master.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) soffrono di allucinazioni cross-modali, in cui una modalità influenza inappropriatamente la generazione relativa a un'altra, portando a un output fabbricato. Questo rivela una carenza più fondamentale nel controllo dell'interazione tra le modalità. Per affrontare questo problema, proponiamo il Decodifica Adattiva alla Modalità (MAD), un metodo che non richiede addestramento e che pondera in modo adattivo i rami di decodifica specifici per modalità in base ai requisiti del compito. MAD sfrutta l'abilità intrinseca del modello di autovalutare la rilevanza della modalità interrogando quali modalità sono necessarie per ogni compito. Le probabilità di modalità estratte vengono quindi utilizzate per ponderare adattivamente i rami di decodifica contrastiva, consentendo al modello di concentrarsi sulle informazioni rilevanti sopprimendo al contempo l'interferenza cross-modale. Esperimenti estensivi su CMM e AVHBench dimostrano che MAD riduce significativamente le allucinazioni cross-modali in molteplici modelli linguistici audiovisivi (miglioramenti del 7,8% e del 2,0% per VideoLLaMA2-AV, miglioramenti dell'8,7% e del 4,7% per Qwen2.5-Omni). Il nostro approccio dimostra che la consapevolezza esplicita della modalità attraverso l'autovalutazione è cruciale per un ragionamento multimodale robusto, offrendo un'estensione principiata ai metodi di decodifica contrastiva esistenti. Il nostro codice è disponibile all'indirizzo https://github.com/top-yun/MAD.
I modelli fondazionali audiovisivi, preaddestrati per generare congiuntamente contenuti sonori e visivi, hanno recentemente dimostrato una capacità senza precedenti nella modellazione della generazione e modifica multimodale, aprendo nuove opportunità per compiti downstream. Tra questi, il doppiaggio video potrebbe trarre grande vantaggio da tali conoscenze pregresse, eppure la maggior parte delle soluzioni esistenti si basa ancora su pipeline complesse e specifiche per il compito che faticano in scenari reali. In questo lavoro, introduciamo un approccio a modello singolo che adatta un modello diffusionale audiovisivo fondazionale per il doppiaggio video-to-video tramite un LoRA leggero. Il LoRA consente al modello di condizionarsi su un input audio-video generando simultaneamente audio tradotto e movimento facciale sincronizzato. Per addestrare questo LoRA, sfruttiamo il modello generativo stesso per sintetizzare video multilingue accoppiati dello stesso parlante. Nello specifico, generiamo video multilingue con cambi di lingua all'interno di una singola clip, per poi ricostruire il volto e l'audio in ciascuna metà per farli corrispondere alla lingua dell'altra metà. Sfruttando il ricco priore generativo del modello audiovisivo, il nostro approccio preserva l'identità del parlante e la sincronizzazione labiale mantenendo al contempo robustezza a movimenti complessi e dinamiche del mondo reale. Dimostriamo che il nostro approccio produce video doppiati di alta qualità con fedeltà visiva, sincronizzazione labiale e robustezza migliorate rispetto alle pipeline di doppiaggio esistenti.
Il ragionamento a contesto lungo ha potenziato significativamente i grandi modelli linguistici (LLM) nell'affrontare compiti complessi, ma introduce gravi colli di bottiglia a livello di efficienza a causa della complessità computazionale. Gli approcci efficienti esistenti spesso si basano su complesse fasi di addestramento aggiuntivo o su modelli esterni per la compressione, il che ne limita la scalabilità e comporta la perdita di informazioni fini critiche. In questo articolo, proponiamo VTC-R1, un nuovo paradigma di ragionamento efficiente che integra la compressione visivo-testuale nel processo di ragionamento. Invece di elaborare lunghe tracce testuali, VTC-R1 converte i segmenti di ragionamento intermedi in immagini compatte, che vengono reinviate iterativamente a modelli visione-linguaggio come "memoria ottica". Abbiamo costruito un dataset di addestramento basato su OpenR1-Math-220K, ottenendo una compressione dei token di 3.4x, e abbiamo effettuato il fine-tuning di modelli VLMs rappresentativi come Glyph e Qwen3-VL. Esperimenti estesi su benchmark come MATH500, AIME25, AMC23 e GPQA-D dimostrano che VTC-R1 supera costantemente il ragionamento a contesto lungo standard. Inoltre, il nostro approccio migliora significativamente l'efficienza inferenziale, raggiungendo un'accelerazione di 2.7x nella latenza end-to-end, evidenziando il suo potenziale come soluzione scalabile per applicazioni ad alta intensità di ragionamento. Il nostro codice è disponibile all'indirizzo https://github.com/w-yibo/VTC-R1.
Il successo delle connessioni iper (HC) nelle reti neurali (NN) ha anche evidenziato problemi legati alla loro instabilità durante l'addestramento e alla scalabilità limitata. Le connessioni iper con vincoli di varietà (mHC) mitigano queste sfide proiettando lo spazio delle connessioni residue su un politopo di Birkhoff; tuttavia, affrontano due problemi: 1) il suo algoritmo iterativo di Sinkhorn-Knopp (SK) non produce sempre matrici residue doppiamente stocastiche esatte; 2) mHC comporta una complessità parametrica proibitiva di O(n³C), dove n è la larghezza del flusso residuo e C è la dimensione delle feature. La recente proposta mHC-lite riparametriza la matrice residua tramite il teorema di Birkhoff-von-Neumann per garantire la doppia stocasticità, ma affronta anch'essa un'esplosione fattoriale nella sua complessità parametrica, O(nC · n!). Per affrontare entrambe le sfide, proponiamo KromHC, che utilizza i prodotti di Kronecker di matrici più piccole doppiamente stocastiche per parametrizzare la matrice residua in mHC. Applicando vincoli di varietà attraverso le matrici residue fattore lungo ciascuna modalità del flusso residuo tensoriale, KromHC garantisce l'esatta doppia stocasticità delle matrici residue riducendo al contempo la complessità parametrica a O(n²C). Esperimenti completi dimostrano che KromHC eguaglia o addirittura supera le varianti mHC allo stato dell'arte (SOTA), richiedendo al contempo un numero significativamente inferiore di parametri addestrabili. Il codice è disponibile all'indirizzo https://github.com/wz1119/KromHC.
La quantizzazione ha migliorato significativamente l'efficienza computazionale e di memoria nell'addestramento dei Large Language Model (LLM). Tuttavia, gli approcci esistenti dipendono ancora dall'accumulare gli aggiornamenti in alta precisione: nello specifico, gli aggiornamenti del gradiente devono essere applicati a un buffer dei pesi in alta precisione, noto come master weights. Questo buffer introduce un sovraccarico di memoria sostanziale, specialmente per i modelli Sparse Mixture of Experts (SMoE), dove i parametri del modello e gli stati dell'ottimizzatore dominano l'utilizzo della memoria. Per affrontare questo problema, introduciamo l'Error-Compensating Optimizer (ECO), che elimina i master weights applicando gli aggiornamenti direttamente ai parametri quantizzati. ECO quantizza i pesi dopo ogni passo e inietta accuratamente l'errore di quantizzazione risultante nel momentum dell'ottimizzatore, formando un anello di retroazione dell'errore senza memoria aggiuntiva. Dimostriamo che, sotto ipotesi standard e un learning rate decrescente, ECO converge verso un intorno di raggio costante dell'ottimo, mentre la semplice rimozione dei master weights può comportare un errore inversamente proporzionale al learning rate. Presentiamo risultati empirici per il pre-addestramento di piccoli Transformer (30-800M), un modello Gemma-3 1B e un modello Sparse MoE da 2.1B parametri con quantizzazione FP8, e per il fine-tuning di DeepSeek-MoE-16B in precisione INT4. In tutti i casi, ECO eguaglia i baseline con master weights con un'accuratezza quasi senza perdite, spostando significativamente la frontiera di Pareto tra memoria statica e loss di validazione.
Il ridimensionamento scalare ha alimentato i recenti progressi nei modelli fondazionali per la visione, ma estendere questo paradigma alla stima metrica della profondità rimane complesso a causa del rumore eterogeneo dei sensori, dei bias dipendenti dalla telecamera e dell'ambiguità metrica nei dati 3D cross-source rumorosi. Introduciamo Metric Anything, un framework di pre-addestramento semplice e scalabile che apprende la profondità metrica da fonti 3D rumorose e diversificate senza prompt progettati manualmente, modellazioni specifiche per telecamera o architetture task-specific. Elemento centrale del nostro approccio è lo Sparse Metric Prompt, creato mascherando casualmente le mappe di profondità, che funge da interfaccia universale disaccoppiando il ragionamento spaziale dai bias del sensore e della telecamera. Utilizzando circa 20 milioni di coppie immagine-profondità che coprono dati 3D ricostruiti, acquisiti e renderizzati attraverso 10000 modelli di telecamera, dimostriamo – per la prima volta – una chiara tendenza di scaling nel campo della profondità metrica. Il modello pre-addestrato eccelle in compiti guidati da prompt come il completamento della profondità, la super-risoluzione e la fusione Radar-telecamera, mentre il suo studente distillato senza prompt raggiunge risultati all'avanguardia nella stima monoculare della profondità, nel recupero degli intrinseci della telecamera, nella ricostruzione metrica 3D mono/multi-vista e nella pianificazione VLA. Mostriamo inoltre che l'utilizzo del ViT pre-addestrato di Metric Anything come encoder visivo potenzia significativamente le capacità di intelligenza spaziale dei Modelli Linguistici Multimodali di Grande Dimensione. Questi risultati dimostrano che la stima metrica della profondità può beneficiare delle stesse leggi di scalabilità che guidano i moderni modelli fondazionali, tracciando una nuova via verso una percezione metrica nel mondo reale scalabile ed efficiente. Rendiamo Metric Anything open-source all'indirizzo http://metric-anything.github.io/metric-anything-io/ per supportare la ricerca della comunità.
I Modelli Multimodali Unificati (UMM) integrano sia la comprensione che la generazione visiva all'interno di un unico framework. La loro aspirazione ultima è creare un ciclo in cui comprensione e generazione si rafforzino reciprocamente. Sebbene recenti metodi di post-addestramento abbiano sfruttato con successo la comprensione per potenziare la generazione, la direzione inversa, ovvero l'utilizzo della generazione per migliorare la comprensione, rimane in gran parte inesplorata. In questo lavoro, proponiamo UniMRG (Generazione di Multi-Rappresentazioni Unificate), un metodo di post-addestramento semplice ma efficace, indipendente dall'architettura. UniMRG migliora le capacità di comprensione degli UMM incorporando task di generazione ausiliari. Nello specifico, addestriamo gli UMM a generare multiple rappresentazioni intrinseche delle immagini in input, ovvero i pixel (ricostruzione), la profondità (geometria) e la segmentazione (struttura), affiancando questi compiti agli obiettivi standard di comprensione visiva. Sintetizzando queste rappresentazioni diverse, gli UMM catturano informazioni complementari riguardanti l'aspetto, le relazioni spaziali e la disposizione strutturale. Di conseguenza, gli UMM sviluppano una comprensione più profonda e completa degli input visivi. Esperimenti estensivi condotti su diverse architetture di UMM dimostrano che il nostro metodo migliora notevolmente la percezione fine-grana, riduce le allucinazioni e migliora la comprensione spaziale, potenziando simultaneamente le capacità di generazione.
Gli agenti basati su modelli linguistici che operano su orizzonti interattivi prolungati affrontano sfide persistenti nel preservare informazioni temporalmente fondate e nel mantenere coerenza comportamentale tra le sessioni, un fallimento che definiamo erosione dell'anima. Presentiamo BMAM (Brain-inspired Multi-Agent Memory), un'architettura di memoria versatile che modella la memoria dell'agente come un insieme di sottosistemi funzionalmente specializzati piuttosto che come un singolo spazio non strutturato. Ispirandosi ai sistemi di memoria cognitiva, BMAM scompone la memoria in componenti episodiche, semantiche, attente alla salienza e orientate al controllo, che operano su scale temporali complementari. Per supportare il ragionamento a lungo termine, BMAM organizza i ricordi episodici lungo linee temporali esplicite e recupera le evidenze fondendo segnali multipli e complementari. Esperimenti sul benchmark LoCoMo dimostrano che BMAM raggiunge un'accuratezza del 78,45% nella valutazione standard a lungo termine, e le analisi di ablazione confermano che il sottosistema di memoria episodica ispirato all'ippocampo svolge un ruolo critico nel ragionamento temporale.
Proponiamo FROST, un metodo basato sull'attenzione per il ragionamento efficiente. A differenza degli approcci tradizionali, FROST sfrutta i pesi dell'attenzione per potare i percorsi di ragionamento non critici, producendo traiettorie di ragionamento più brevi e affidabili. Dal punto di vista metodologico, introduciamo il concetto di outlier di ragionamento e progettiamo un meccanismo basato sull'attenzione per rimuoverli. Teoricamente, FROST preserva e potenzia la capacità di ragionamento del modello eliminando gli outlier a livello di frase. Empiricamente, validiamo FROST su quattro benchmark utilizzando due modelli di ragionamento avanzati (Phi-4-Reasoning e GPT-OSS-20B), superando metodi all'avanguardia come TALE e ThinkLess. In particolare, FROST raggiunge una riduzione media del 69,68% nell'utilizzo di token e un miglioramento del 26,70% nell'accuratezza rispetto al modello base. Inoltre, nelle valutazioni delle metriche sugli outlier dell'attenzione, FROST riduce la norma infinito massima del 15,97% e la curtosi media del 91,09% rispetto al modello base. Il codice è disponibile all'indirizzo https://github.com/robinzixuan/FROST.
Sebbene l'Interpretabilità Meccanicistica abbia identificato circuiti interpretabili negli LLM, le loro origini causali nei dati di addestramento rimangono elusive. Introduciamo l'Attribuzione Meccanicistica dei Dati (MDA), un framework scalabile che impiega le Funzioni di Influenza per ricondurre unità interpretabili a specifici campioni di addestramento. Attraverso esperimenti estesi sulla famiglia Pythia, convalidiamo causalmente che un intervento mirato – la rimozione o l'aumento di una piccola frazione di campioni ad alta influenza – modula significativamente l'emergenza di testine interpretabili, mentre interventi casuali non mostrano alcun effetto. La nostra analisi rivela che i dati strutturali ripetitivi (ad es., LaTeX, XML) agiscono come catalizzatori meccanicistici. Inoltre, osserviamo che interventi mirati alla formazione di testine di induzione inducono un cambiamento concomitante nella capacità di apprendimento in-context (ICL) del modello. Questo fornisce una prova causale diretta per la lunga ipotesi riguardante il legame funzionale tra le testine di induzione e l'ICL. Infine, proponiamo una pipeline di aumento dei dati meccanicistica che accelera costantemente la convergenza dei circuiti attraverso le diverse scale del modello, fornendo una metodologia principiata per guidare i percorsi di sviluppo degli LLM.
La maggior parte dei metodi di apprendimento per rinforzo (RL) per l'addestramento di grandi modelli linguistici (LLM) richiede etichette di verità fondamentale o verificatori specifici per compito, limitando la scalabilità quando la correttezza è ambigua o costosa da ottenere. Introduciamo l'Apprendimento per Rinforzo da Meta-Valutazione (RLME), che ottimizza un generatore utilizzando una ricompensa derivata dalle risposte di un valutatore a meta-domande in linguaggio naturale (ad esempio, "La risposta è corretta?" o "Il ragionamento è logicamente coerente?"). RLME tratta la probabilità di un giudizio positivo del valutatore come una ricompensa e aggiorna il generatore tramite l'ottimizzazione della politica relativa al gruppo, consentendo l'apprendimento senza etichette. In una serie di esperimenti, dimostriamo che RLME raggiunge un'accuratezza e un'efficienza campionaria comparabili all'addestramento basato su etichette, consente compromessi controllabili tra molteplici obiettivi, indirizza i modelli verso schemi di ragionamento affidabili anziché verso razionalizzazioni a posteriori e generalizza a contesti open-domain dove le etichette di verità fondamentale non sono disponibili, ampliando così i domini in cui gli LLM possono essere addestrati con l'RL.
La scoperta di strutture estremali in matematica richiede l'esplorazione di paesaggi vasti e non convessi, dove i metodi analitici offrono poca guida e la ricerca a forza bruta diventa intrattabile. Introduciamo FlowBoost, un framework generativo a ciclo chiuso che impara a scoprire strutture geometriche rare ed estremali combinando tre componenti: (i) un modello condizionale di flow-matching geometricamente consapevole che impara a campionare configurazioni di alta qualità, (ii) un'ottimizzazione della policy guidata dalla ricompensa con esplorazione delle azioni che ottimizza direttamente il processo di generazione verso l'obiettivo mantenendo al contempo la diversità, e (iii) una ricerca locale stocastica sia per la generazione dei dati di addestramento che per la rifinitura finale. A differenza degli approcci a ciclo aperto precedenti, come PatternBoost che riaddestra su campioni discreti filtrati, o AlphaEvolve che si affida a Modelli Linguistici di Grande Dimensione (LLM) congelati come operatori di mutazione evolutiva, FlowBoost impone la fattibilità geometrica durante il campionamento e propaga il segnale di ricompensa direttamente nel modello generativo, chiudendo il ciclo di ottimizzazione e richiedendo set di addestramento molto più piccoli e tempi di training più brevi, riducendo le iterazioni del ciclo esterno di ordini di grandezza, eliminando al contempo la dipendenza dagli LLM. Dimostriamo il framework su quattro problemi di ottimizzazione geometrica: impacchettamento di sfere in ipercubi, impacchettamento di cerchi che massimizza la somma dei raggi, il problema del triangolo di Heilbronn e la minimizzazione della discrepanza stellare. In diversi casi, FlowBoost scopre configurazioni che eguagliano o superano i migliori risultati conosciuti. Per gli impacchettamenti di cerchi, miglioriamo i migliori limiti inferiori conosciuti, superando il sistema basato su LLM AlphaEvolve utilizzando sostanzialmente meno risorse computazionali.
I recenti progressi nell'apprendimento per rinforzo per la generazione di codice hanno reso gli ambienti robusti essenziali per prevenire il reward hacking. Poiché i modelli linguistici di grandi dimensioni (LLM) fungono sempre più da valutatori nell'RL basato sul codice, la loro capacità di rilevare il reward hacking rimane poco studiata. In questo articolo, proponiamo una nuova tassonomia degli exploit di ricompensa che si estende su 54 categorie e introduciamo TRACE (Testing Reward Anomalies in Code Environments), un benchmark curato sinteticamente e verificato da esseri umani, contenente 517 traiettorie di test. A differenza dei lavori precedenti che valutano il rilevamento di reward hack in scenari di classificazione isolati, confrontiamo queste valutazioni con una configurazione più realistica di rilevamento di anomalie contrastive su TRACE. I nostri esperimenti rivelano che i modelli catturano i reward hack in modo più efficace in contesti contrastivi rispetto a contesti di classificazione isolati, con GPT-5.2 nella modalità di ragionamento più elevata che raggiunge il miglior tasso di rilevamento al 63%, rispetto al 45% in contesti isolati su TRACE. Basandoci su questa intuizione, dimostriamo che i modelli all'avanguardia hanno difficoltà significativamente maggiori con i reward hack contestualizzati semanticamente rispetto a quelli contestualizzati sintatticamente. Inoltre, conduciamo analisi qualitative dei comportamenti del modello, nonché studi di ablazione che mostrano come il rapporto tra traiettorie benigne e hackerate e le dimensioni dei cluster di analisi influenzino sostanzialmente le prestazioni di rilevamento. Rilasciamo il benchmark e l'infrastruttura di valutazione per consentire alla comunità di espandere TRACE e valutare i propri modelli.
L'impronta digitale audio fornisce una rappresentazione identificabile dei segnali acustici, che può essere successivamente utilizzata per sistemi di identificazione e recupero. Per ottenere una rappresentazione discriminativa, l'audio in ingresso viene solitamente segmentato in intervalli temporali più brevi, consentendo l'estrazione e l'analisi di caratteristiche acustiche locali. Gli approcci neurali moderni operano tipicamente su segmenti audio brevi e di durata fissa, tuttavia la scelta della durata del segmento viene spesso effettuata euristicamente e raramente esaminata in profondità. In questo articolo, studiamo come la lunghezza del segmento influisce sulle prestazioni dell'impronta digitale audio. Estendiamo un'architettura neurale esistente per l'impronta digitale per adottare varie lunghezze di segmento e valutiamo l'accuratezza del recupero per diverse lunghezze di segmento e durate delle query. I nostri risultati mostrano che lunghezze di segmento brevi (0,5 secondi) generalmente raggiungono prestazioni migliori. Inoltre, valutiamo la capacità degli LLM di raccomandare la lunghezza del segmento ottimale, dimostrando che GPT-5-mini fornisce costantemente i suggerimenti migliori tra cinque considerazioni nei tre LLM studiati. I nostri risultati forniscono una guida pratica per la selezione della durata del segmento nei sistemi neurali di recupero audio su larga scala.
La progettazione grafica comporta spesso l'esplorazione di diverse direzioni stilistiche, un processo che può risultare dispendioso in termini di tempo per i non esperti. Affrontiamo questo problema di miglioramento stilistico dei progetti basato su istruzioni in linguaggio naturale. Sebbene i VLM abbiano dimostrato un iniziale successo nella progettazione grafica, la loro conoscenza pre-addestrata sugli stili è spesso troppo generica e disallineata rispetto ai dati specifici del dominio. Ad esempio, i VLM potrebbero associare il minimalismo a design astratti, mentre i progettisti enfatizzano le scelte di forme e colori. La nostra intuizione chiave è sfruttare i dati di design – una raccolta di progetti del mondo reale che catturano implicitamente i principi dei designer – per apprendere la conoscenza del design e guidare il miglioramento stilistico. Proponiamo PRISM (PRior-Informed Stylistic Modification), che costruisce e applica una base di conoscenza del design attraverso tre fasi: (1) clustering di progetti ad alta varianza per catturare la diversità all'interno di uno stile, (2) sintesi di ogni cluster in conoscenze di design attuabili e (3) recupero della conoscenza rilevante durante l'inferenza per consentire un miglioramento consapevole dello stile. Esperimenti sul dataset Crello mostrano che PRISM raggiunge il rango medio più alto di 1.49 (dove un valore più vicino a 1 è migliore) rispetto ai baseline nell'allineamento stilistico. Studi utente convalidano ulteriormente questi risultati, dimostrando che PRISM è costantemente preferito dai designer.
Gli agenti web hanno un grande potenziale per automatizzare compiti informatici complessi, ma le loro interazioni implicano processi decisionali sequenziali a lungo termine con azioni irreversibili. In tali contesti, la supervisione basata sui risultati è sporadica e ritardata, premiando spesso traiettorie errate e fallendo nel supportare il ridimensionamento durante l'inferenza. Ciò motiva l'uso di Process Reward Models (WebPRM) per la navigazione web, ma gli approcci esistenti rimangono limitati: i WebPRM scalari comprimono il progresso in segnali approssimativi e debolmente ancorati, mentre i WebPRM basati su checklist si affidano a corrispondenze template fragili che falliscono con cambiamenti di layout o semantici, etichettando spesso azioni superficialmente corrette come riuscite, offrendo poca chiarezza o interpretabilità. Per affrontare queste sfide, introduciamo WebArbiter, un WebPRM che privilegia il ragionamento e induce principi, modellando la ricompensa come generazione di testo, producendo giustificazioni strutturate che concludono con un verdetto di preferenza e identificano l'azione più favorevole al completamento del compito nel contesto corrente. L'addestramento segue una pipeline a due stadi: la distillazione del ragionamento fornisce al modello un processo logico coerente guidato da principi, e l'apprendimento per rinforzo corregge i bias del teacher allineando direttamente i verdetti con la correttezza, consentendo una generalizzazione più robusta. Per supportare una valutazione sistematica, rilasciamo WebPRMBench, un benchmark completo che copre quattro ambienti web diversificati con compiti ricchi e annotazioni di preferenza di alta qualità. Su WebPRMBench, WebArbiter-7B supera il baseline più forte, GPT-5, di 9,1 punti. Nella ricerca di traiettorie guidata da ricompense su WebArena-Lite, supera il miglior WebPRM precedente fino a 7,2 punti, sottolineando la sua robustezza e valore pratico in compiti web complessi del mondo reale.
Le capacità di generalizzazione delle politiche di manipolazione robotica sono fortemente influenzate dalla scelta delle rappresentazioni visive. Gli approcci esistenti si basano tipicamente su rappresentazioni estratte da encoder pre-addestrati, utilizzando due tipi di caratteristiche dominanti: le caratteristiche globali, che riassumono un'intera immagine tramite un singolo vettore aggregato, e le caratteristiche dense, che preservano un embedding a livello di patch dallo strato finale dell'encoder. Sebbene ampiamente utilizzati, entrambi i tipi di caratteristiche mescolano informazioni rilevanti e irrilevanti per il compito, portando a una scarsa generalizzazione in caso di cambiamenti nella distribuzione dei dati, come variazioni di illuminazione, trame o presenza di elementi di disturbo. In questo lavoro, esploriamo un'alternativa strutturata intermedia: le Rappresentazioni Centrate sull'Oggetto basate su Slot (SBOCR), che raggruppano le caratteristiche dense in un insieme finito di entità simili a oggetti. Questa rappresentazione permette di ridurre naturalmente il rumore fornito alla politica di manipolazione robotica, mantenendo al contempo informazioni sufficienti per eseguire il compito in modo efficiente. Confrontiamo una serie di rappresentazioni globali e dense con le rappresentazioni intermedie basate su slot, attraverso una serie di compiti di manipolazione simulati e nel mondo reale, che vanno da semplici a complessi. Valutiamo la loro generalizzazione in diverse condizioni visive, inclusi cambiamenti di illuminazione, texture e presenza di distrattori. I nostri risultati rivelano che le politiche basate su SBOCR superano le politiche basate su rappresentazioni dense e globali in scenari di generalizzazione, anche senza pre-addestramento specifico per il compito. Queste intuizioni suggeriscono che le SBOCR sono una direzione promettente per progettare sistemi visivi che generalizzano efficacemente in ambienti robotici dinamici e reali.
I recenti progressi nei modelli fondazionali generativi, spesso definiti "modelli del mondo", hanno stimolato l'interesse per la loro applicazione a compiti critici come la pianificazione robotica e l'addestramento di sistemi autonomi. Per un impiego affidabile, questi modelli devono mostrare un'elevata fedeltà fisica, simulando accuratamente le dinamiche del mondo reale. Tuttavia, gli attuali benchmark video basati sulla fisica soffrono di un problema di entanglement, in cui un singolo test valuta simultaneamente più leggi e concetti fisici, limitando fondamentalmente la loro capacità diagnostica. Introduciamo WorldBench, un nuovo benchmark basato su video specificamente progettato per una valutazione disaccoppiata e specifica per concetto, che ci permette di isolare e valutare rigorosamente la comprensione di un singolo concetto o legge fisica alla volta. Per rendere WorldBench completo, progettiamo benchmark a due livelli differenti: 1) una valutazione della comprensione fisica intuitiva con concetti come la permanenza dell'oggetto o la scala/prospettiva, e 2) una valutazione di costanti fisiche di basso livello e proprietà dei materiali, come i coefficienti di attrito o la viscosità dei fluidi. Quando i modelli del mondo basati su video allo stato dell'arte vengono valutati su WorldBench, individuiamo specifici pattern di fallimento in particolari concetti fisici, con tutti i modelli testati che mancano della consistenza fisica necessaria per generare interazioni affidabili nel mondo reale. Attraverso la sua valutazione specifica per concetto, WorldBench offre un framework più sfumato e scalabile per valutare rigorosamente le capacità di ragionamento fisico dei modelli di generazione video e del mondo, aprendo la strada a un apprendimento guidato da modelli del mondo più robusto e generalizzabile.
I modelli visivi di base forniscono caratteristiche percettive robuste per la robotica, ma le loro rappresentazioni dense mancano di una struttura esplicita a livello di oggetto, limitando robustezza e controllabilità nei compiti di manipolazione. Proponiamo STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un modulo di adattamento leggero e centrato sugli oggetti che arricchisce i modelli visivi di base congelati con un piccolo insieme di slot semantici per la manipolazione robotica. Invece di riaddestrare i backbone di grandi dimensioni, STORM impiega una strategia di addestramento multi-fase: gli slot centrati sugli oggetti vengono prima stabilizzati attraverso un pre-addestramento visivo-semantico che utilizza embedding linguistici, per poi essere adattati congiuntamente a una politica di manipolazione a valle. Questo apprendimento per fasi previene la formazione degenerata degli slot e preserva la coerenza semantica, allineando al contempo la percezione con gli obiettivi del compito. Esperimenti su benchmark di scoperta degli oggetti e compiti di manipolazione simulati mostrano che STORM migliora la generalizzazione ai distrattori visivi e le prestazioni di controllo rispetto all'uso diretto delle caratteristiche di modelli di base congelati o all'addestramento end-to-end di rappresentazioni centrate sugli oggetti. I nostri risultati evidenziano l'adattamento multi-fase come un meccanismo efficiente per trasformare le caratteristiche generiche dei modelli di base in rappresentazioni centrate sugli oggetti e consapevoli del compito per il controllo robotico.