Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che l'ottimizzazione post-addestramento diventa centrale per il miglioramento dei grandi modelli linguistici, osserviamo un persistente collo di bottiglia da saturazione: una volta che i modelli acquisiscono un'elevata confidenza, l'addestramento ulteriore produce rendimenti decrescenti. Mentre i metodi esistenti continuano a rinforzare le previsioni target, scopriamo che segnali di supervisione informativi rimangono latenti negli stati storici deboli dei modelli stessi. Motivati da questa osservazione, proponiamo WMSS (Weak Agents Can Make Strong Agents Stronger), un paradigma di post-addestramento che sfrutta checkpoint deboli per guidare l'ottimizzazione continua. Identificando i gap di apprendimento recuperabili attraverso la dinamica dell'entropia e rinforzandoli mediante apprendimento compensativo, WMSS consente ad agenti forti di migliorare oltre la saturazione convenzionale del post-addestramento. Esperimenti su dataset di ragionamento matematico e generazione di codice mostrano che gli agenti addestrati con il nostro approccio raggiungono miglioramenti prestazionali efficaci, comportando al contempo un costo inferenziale aggiuntivo pari a zero.
L'esecuzione di compiti complessi da terminale rimane una sfida significativa per i LLM open-weight, limitata da due vincoli fondamentali. In primo luogo, ambienti di training ad alta fedeltà ed eseguibili sono scarsi: gli ambienti sintetizzati da repository reali non sono diversificati e scalabili, mentre le traiettorie sintetizzate da LLM soffrono di allucinazioni. In secondo luogo, la standard instruction tuning utilizza traiettorie esperte che raramente presentano gli errori semplici comuni ai modelli più piccoli. Ciò crea una discrepanza distributiva, lasciando i modelli studente impreparati a recuperare dai propri errori a runtime. Per colmare queste lacune, introduciamo TermiGen, una pipeline end-to-end per sintetizzare ambienti verificabili e traiettorie esperte resilienti. TermiGen genera prima compiti funzionalmente validi e container Docker attraverso un ciclo iterativo di raffinamento multi-agente. Successivamente, impieghiamo un protocollo Generatore-Critico che inietta attivamente errori durante la raccolta delle traiettorie, sintetizzando dati ricchi di cicli di correzione degli errori. Addestrato su questo dataset generato da TermiGen, il nostro TermiGen-Qwen2.5-Coder-32B raggiunge un tasso di successo del 31.3% su TerminalBench. Questo stabilisce un nuovo state-of-the-art per i modelli open-weight, superando i baseline esistenti e superando significativamente modelli proprietari capaci come o4-mini. Il dataset è disponibile all'indirizzo https://github.com/ucsb-mlsec/terminal-bench-env.
I mercati finanziari sono rumorosi e non stazionari, rendendo l'estrazione di alpha altamente sensibile al rumore nei risultati dei backtest e ai bruschi cambiamenti di regime di mercato. Sebbene i recenti framework agentici migliorino l'automazione dell'estrazione di alpha, spesso mancano di una ricerca multi-round controllabile e di un riutilizzo affidabile dell'esperienza convalidata. Per affrontare queste sfide, proponiamo QuantaAlpha, un framework evolutivo per l'estrazione di alpha che tratta ogni esecuzione end-to-end come una traiettoria e migliora i fattori attraverso operazioni di mutazione e crossover a livello di traiettoria. QuantaAlpha localizza i passaggi subottimali in ogni traiettoria per una revisione mirata e ricombina segmenti complementari ad alto rendimento per riutilizzare pattern efficaci, consentendo un'esplorazione e un affinamento strutturati attraverso le iterazioni di estrazione. Durante la generazione dei fattori, QuantaAlpha impone una consistenza semantica tra l'ipotesi, l'espressione del fattore e il codice eseguibile, vincolando al contempo la complessità e la ridondanza del fattore generato per mitigare l'affollamento. Esperimenti estensivi sull'indice CSI 300 dimostrano guadagni consistenti rispetto a solidi modelli baseline e precedenti sistemi agentici. Utilizzando GPT-5.2, QuantaAlpha raggiunge un Coefficiente di Informazione (IC) di 0.1501, con un Tasso di Rendimento Annualizzato (ARR) del 27.75% e un Drawdown Massimo (MDD) del 7.98%. Inoltre, i fattori estratti sul CSI 300 si trasferiscono efficacemente al CSI 500 e all'indice S&P 500, fornendo un eccesso di rendimento cumulativo in quattro anni rispettivamente del 160% e del 137%, il che indica una forte robustezza di QuantaAlpha in presenza di cambiamenti nella distribuzione di mercato.
L'audio è indispensabile per i video nel mondo reale, eppure i modelli di generazione hanno largamente trascurato le componenti audio. Gli approcci attuali per produrre contenuti audiovisivi si basano spesso su pipeline a cascata, che aumentano i costi, accumulano errori e degradano la qualità complessiva. Sebbene sistemi come Veo 3 e Sora 2 sottolineino il valore della generazione simultanea, la modellizzazione multimodale congiunta introduce sfide uniche nell'architettura, nei dati e nell'addestramento. Inoltre, la natura closed-source dei sistemi esistenti limita i progressi in questo campo. In questo lavoro, introduciamo MOVA (MOSS Video and Audio), un modello open-source in grado di generare contenuti audiovisivi sincronizzati di alta qualità, inclusi discorsi labiali realistici, effetti sonori consapevoli dell'ambiente e musica allineata al contenuto. MOVA utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 32 miliardi di parametri, di cui 18 miliardi attivi durante l'inferenza. Supporta il task di generazione IT2VA (da Immagine-Testo a Video-Audio). Rilasciando i pesi del modello e il codice, miriamo a far avanzare la ricerca e a favorire una vivace comunità di creatori. Il codebase rilasciato offre un supporto completo per l'inferenza efficiente, il fine-tuning LoRA e il miglioramento dei prompt.
Nonostante il successo dell'apprendimento contrastivo multimodale nell'allineare le rappresentazioni visive e linguistiche, persiste un'anomalia geometrica nota come Modality Gap: gli embedding di modalità distinte che esprimono semantica identica occupano regioni sistematicamente traslate. Gli approcci precedenti per colmare questo gap sono largamente limitati da ipotesi isotropiche eccessivamente semplificate, ostacolandone l'applicazione in scenari su larga scala. In questo articolo, affrontiamo queste limitazioni caratterizzando con precisione la forma geometrica del modality gap e sfruttandola per un efficiente scaling del modello. In primo luogo, proponiamo la Teoria del Modality Gap a Telaio Fisso, che scompone il gap modale all'interno di un sistema di riferimento congelato in bias stabili e residui anisotropi. Guidati da questa modellizzazione precisa, introduciamo ReAlign, una strategia di allineamento modale senza training. Utilizzando statistiche provenienti da massicci dati non accoppiati, ReAlign allinea la rappresentazione testuale nella distribuzione della rappresentazione immagine attraverso un processo in tre fasi che comprende Anchor, Trace e Centroid Alignment, correggendo esplicitamente il disallineamento geometrico. Basandoci su ReAlign, proponiamo ReVision, un paradigma di training scalabile per Modelli Linguistici Multimodali di Grande Scala (MLLM). ReVision integra ReAlign nella fase di pre-addestramento, consentendo al modello di apprendere la distribuzione delle rappresentazioni visive da testo non accoppiato prima del visual instruction tuning, senza la necessità di coppie immagine-testo di larga scala e alta qualità. Il nostro framework dimostra che dati non accoppiati ma statisticamente allineati possono sostituire efficacemente le costose coppie immagine-testo, offrendo un percorso solido per lo scaling efficiente degli MLLM.
Gli agenti LLM detengono un potenziale significativo per far progredire la ricerca scientifica. Per accelerare questo progresso, presentiamo AIRS-Bench (l'AI Research Science Benchmark), una suite di 20 task provenienti da articoli scientifici all'avanguardia nel campo dell'apprendimento automatico. Questi task spaziano su domini diversi, inclusi il language modeling, la matematica, la bioinformatica e le previsioni su serie temporali. I task di AIRS-Bench valutano le capacità agentizie sull'intero ciclo di vita della ricerca – inclusa la generazione di idee, l'analisi degli esperimenti e l'affinamento iterativo – senza fornire codice di base. Il formato dei task di AIRS-Bench è versatile, consentendo una facile integrazione di nuovi task e un confronto rigoroso tra diversi framework agentizi. Stabiliamo dei benchmark di riferimento utilizzando modelli all'avanguardia abbinati a scaffold sia sequenziali che paralleli. I nostri risultati mostrano che gli agenti superano lo stato dell'arte umano in quattro task, ma non riescono a eguagliarlo in altri sedici. Anche quando gli agenti superano i benchmark umani, non raggiungono il limite teorico delle prestazioni per i task sottostanti. Questi risultati indicano che AIRS-Bench è ben lontano dalla saturazione e offre ampio margine di miglioramento. Rendiamo open-source le definizioni dei task di AIRS-Bench e il codice di valutazione per catalizzare ulteriori sviluppi nella ricerca scientifica autonoma.
Introduciamo InternAgent-1.5, un sistema unificato progettato per la scoperta scientifica end-to-end in ambiti computazionali ed empirici. Il sistema è costruito su un'architettura strutturata composta da tre sottosistemi coordinati per la generazione, la verifica e l'evoluzione. Questi sottosistemi sono supportati da capacità fondamentali di ricerca approfondita, ottimizzazione delle soluzioni e memoria a lungo termine. L'architettura consente a InternAgent-1.5 di operare continuamente attraverso cicli di scoperta prolungati, mantenendo un comportamento coerente e migliorativo. Permette inoltre al sistema di coordinare la modellazione computazionale e la sperimentazione di laboratorio all'interno di un unico sistema integrato. Valutiamo InternAgent-1.5 su benchmark di ragionamento scientifico come GAIA, HLE, GPQA e FrontierScience, e il sistema raggiunge prestazioni leader che dimostrano solide capacità fondamentali. Oltre questi benchmark, valutiamo ulteriormente due categorie di compiti di scoperta. Nei compiti di scoperta di algoritmi, InternAgent-1.5 progetta autonomamente metodi competitivi per problemi fondamentali dell'apprendimento automatico. Nei compiti di scoperta empirica, esegue esperimenti computazionali o di laboratorio completi e produce risultati scientifici nei domini delle scienze della terra, della vita, biologiche e fisiche. Nel complesso, questi risultati mostrano che InternAgent-1.5 fornisce un framework generale e scalabile per la scoperta scientifica autonoma.
Gli attuali modelli Vision-Language-Action (VLA) si basano su una profondità computazionale fissa, impiegando la stessa quantità di calcolo sia per semplici aggiustamenti che per manipolazioni complesse multi-step. Sebbene il prompting a catena del pensiero (Chain-of-Thought, CoT) consenta una computazione variabile, esso scala la memoria linearmente e non è adatto per spazi d'azione continui. Introduciamo RD-VLA (Recurrent-Depth VLA), un'architettura che raggiunge l'adattività computazionale tramite un raffinamento iterativo latente piuttosto che una generazione esplicita di token. RD-VLA impiega un testina d'azione ricorrente e a pesi condivisi che supporta una profondità di inferenza arbitraria con un'impronta di memoria costante. Il modello è addestrato utilizzando la retropropagazione attraverso il tempo troncata (TBPTT) per supervisionare efficientemente il processo di raffinamento. Durante l'inferenza, RD-VLA alloca dinamicamente il calcolo utilizzando un criterio di arresto adattivo basato sulla convergenza latente. Esperimenti su compiti di manipolazione complessi mostrano che la profondità ricorrente è cruciale: compiti che falliscono completamente (0% di successo) con un'inferenza a singola iterazione superano il 90% di successo con quattro iterazioni, mentre compiti più semplici saturano rapidamente. RD-VLA fornisce un percorso scalabile per il calcolo al momento del test nella robotica, sostituendo il ragionamento basato su token con un ragionamento latente per ottenere un uso della memoria costante e un'accelerazione dell'inferenza fino a 80 volte rispetto ai precedenti modelli VLA basati sul ragionamento. Pagina del progetto: https://rd-vla.github.io/
Mentre LLaDA2.0 ha dimostrato il potenziale di scalabilità dei modelli block-diffusion da 100 miliardi di parametri e la loro intrinseca parallelizzazione, il delicato equilibrio tra velocità di decodifica e qualità della generazione è rimasto una frontiera elusiva. Oggi sveliamo LLaDA2.1, un cambio di paradigma progettato per trascendere questo compromesso. Integrando perfettamente l'editing Token-to-Token (T2T) nel convenzionale schema Mask-to-Token (M2T), introduciamo uno schema di decodifica congiunto e configurabile basato su soglie. Questa innovazione strutturale dà vita a due distinte modalità operative: la Modalità Velocità (S Mode), che abbassa audacemente la soglia M2T per aggirare i vincoli tradizionali affidandosi al T2T per affinare l'output; e la Modalità Qualità (Q Mode), che utilizza soglie conservative per garantire prestazioni superiori nei benchmark con una degradazione dell'efficienza contenuta. Spingendo oltre questa evoluzione, e supportati da un ampio contesto di finestra, implementiamo il primo framework su larga scala di Apprendimento per Rinforzo (RL) specificamente progettato per i dLLM, ancorato da tecniche specializzate per una stima stabile del gradiente. Questo allineamento non solo affila la precisione del ragionamento ma eleva anche la fedeltà nel seguire le istruzioni, colmando il divario tra la dinamica di diffusione e l'intento umano complesso. Concludiamo questo lavoro rilasciando LLaDA2.1-Mini (16B) e LLaDA2.1-Flash (100B). Attraverso 33 benchmark rigorosi, LLaDA2.1 fornisce solide prestazioni nelle attività e una velocità di decodifica fulminea. Nonostante i suoi 100 miliardi di parametri, nelle attività di coding raggiunge risultati strabilianti: 892 TPS su HumanEval+, 801 TPS su BigCodeBench e 663 TPS su LiveCodeBench.
L'apprendimento di politiche online direttamente nel mondo fisico rappresenta una direzione promettente ma impegnativa per l'intelligenza embodied. A differenza della simulazione, i sistemi del mondo reale non possono essere accelerati arbitrariamente, resettati a basso costo o replicati massivamente, il che rende difficile la raccolta scalabile di dati, la distribuzione eterogenea e l'addestramento efficace a lungo termine. Queste sfide suggeriscono che l'apprendimento di politiche nel mondo reale non è solo una questione algoritmica, ma fondamentalmente un problema di sistemi. Presentiamo USER, un Sistema Unificato ed estensibile per l'apprendimento di politiche online nel mondo reale. USER tratta i robot fisici come risorse hardware di prima classe insieme alle GPU attraverso un livello di astrazione hardware unificato, consentendo l'individuazione automatica, la gestione e la pianificazione di robot eterogenei. Per affrontare la comunicazione cloud-edge, USER introduce un piano di comunicazione adattivo con rete basata su tunneling, canali dati distribuiti per la localizzazione del traffico e una sincronizzazione dei pesi ottimizzata per streaming multiprocessore per regolare il sovraccarico lato GPU. Su questa infrastruttura, USER organizza l'apprendimento come un framework completamente asincrono con un buffer persistente e cache-aware, abilitando esperimenti efficienti a lungo termine con robusto ripristino da crash e riutilizzo dei dati storici. Inoltre, USER fornisce astrazioni estensibili per ricompense, algoritmi e politiche, supportando l'apprendimento per imitazione online o per rinforzo di modelli CNN/MLP, politiche generative e grandi modelli visione-linguaggio-azione (VLA) all'interno di una pipeline unificata. I risultati sia in simulazione che nel mondo reale mostrano che USER abilita il coordinamento multi-robot, manipolatori eterogenei, la collaborazione edge-cloud con grandi modelli e l'addestramento asincrono di lunga durata, offrendo una base sistemistica unificata ed estensibile per l'apprendimento di politiche online nel mondo reale.
La convergenza tra intelligenza artificiale e scienza dei materiali presenta un'opportunità trasformativa, ma il raggiungimento di una vera accelerazione nella scoperta richiede di superare i modelli addestrati in modo isolato per singoli compiti a favore di sistemi agentivi che pianificano, agiscono e apprendono lungo l'intero ciclo di scoperta. Questa rassegna avanza una prospettiva unica, incentrata sulla pipeline, che si estende dalla cura del corpus e il pre-addestramento, passando per l'adattamento al dominio e l'instruction tuning, fino ad agenti condizionati da obiettivi che interagiscono con piattaforme di simulazione e sperimentali. A differenza di precedenti review, trattiamo l'intero processo come un sistema end-to-end da ottimizzare per risultati di scoperta tangibili, piuttosto che per benchmark surrogati. Questa prospettiva ci permette di tracciare come le scelte progettuali a monte – come la cura dei dati e gli obiettivi di addestramento – possano essere allineate al successo sperimentale a valle attraverso un'assegnazione efficace del credito. Per colmare il divario tra le comunità e stabilire una cornice di riferimento condivisa, presentiamo innanzitutto una lente integrata che allinea terminologia, valutazione e fasi del flusso di lavoro tra IA e scienza dei materiali. Analizziamo quindi il campo attraverso due lenti specifiche: dalla prospettiva dell'IA, la rassegna dettaglia i punti di forza degli LLM nel riconoscimento di pattern, nell'analisi predittiva e nell'elaborazione del linguaggio naturale per l'estrazione di informazioni dalla letteratura, la caratterizzazione dei materiali e la previsione delle proprietà; dalla prospettiva della scienza dei materiali, evidenzia le applicazioni nella progettazione di materiali, nell'ottimizzazione dei processi e nell'accelerazione dei flussi di lavoro computazionali tramite l'integrazione con strumenti esterni (ad esempio, DFT, laboratori robotici). Infine, contrapponiamo approcci passivi e reattivi al design agentivo, catalogando i contributi attuali mentre stimoliamo lo sviluppo di sistemi che perseguono obiettivi a lungo termine con autonomia, memoria e uso di strumenti. Questa rassegna delinea una roadmap pratica verso agenti LLM autonomi e consapevoli della sicurezza, mirati alla scoperta di materiali nuovi e utili.
L'implementazione di GRPO su modelli di Flow Matching si è dimostrata efficace per la generazione di testo-immagine. Tuttavia, i paradigmi esistenti tipicamente propagano una ricompensa basata sul risultato a tutti i passi di denoising precedenti senza distinguere l'effetto locale di ciascuno step. Inoltre, l'attuale ranking di tipo group-wise confronta principalmente le traiettorie a step temporali corrispondenti e ignora le dipendenze all'interno della traiettoria, dove certe azioni di denoishing iniziali possono influenzare stati successivi tramite interazioni ritardate e implicite. Proponiamo TurningPoint-GRPO (TP-GRPO), un framework GRPO che allevia la sparsità della ricompensa step-wise e modella esplicitamente gli effetti a lungo termine all'interno della traiettoria di denoising. TP-GRPO introduce due innovazioni chiave: (i) sostituisce le ricompense basate sul risultato con ricompense incrementali a livello di step, fornendo un segnale di apprendimento denso e consapevole dello step che isola meglio l'effetto "puro" di ogni azione di denoising, e (ii) identifica i punti di svolta (turning points) – step che invertono l'andamento della ricompensa locale e rendono l'evoluzione successiva della ricompensa coerente con l'andamento complessivo della traiettoria – e assegna a queste azioni una ricompensa aggregata a lungo termine per catturarne l'impatto ritardato. I punti di svolta sono rilevati esclusivamente tramite cambi di segno nelle ricompense incrementali, rendendo TP-GRPO efficiente e privo di iperparametri. Esperimenti estensivi dimostrano inoltre che TP-GRPO sfrutta i segnali di ricompensa in modo più efficace e migliora costantemente la generazione. Il codice demo è disponibile all'indirizzo https://github.com/YunzeTong/TurningPoint-GRPO.
La risoluzione di domande scientifiche aperte rimane impegnativa per i grandi modelli linguistici, principalmente a causa della supervisione e della valutazione intrinsecamente inaffidabili. Il collo di bottiglia risiede nella costruzione dei dati e nella progettazione dei reward per il post-addestramento scientifico. Abbiamo sviluppato una pipeline di elaborazione dati sistematica e su larga scala che trasforma dati scientifici open-source eterogenei nel dataset Dr. SCI, che comprende 1 milione di domande su otto discipline STEM, con suddivisioni esplicite verificabili/aperte, annotazioni scalabili della difficoltà e rubriche granulari che rendono operativa la valutazione per risposte aperte. Basandosi su questo dataset, proponiamo la pipeline di post-addestramento Dr. SCI, che ridisegna il flusso di lavoro standard SFT -> RL attraverso tre componenti: (i) SFT a Espansione Esplorativa, che amplia la copertura dei modelli di ragionamento del modello prima del RL; (ii) Curriculum Dinamico della Difficoltà, che adatta i dati di addestramento alle capacità scientifiche in evoluzione del modello; e (iii) RL Guidato da SciRubric, che abilita l'apprendimento per rinforzo stabile su domande scientifiche aperte tramite valutazione basata su rubriche con correttezza esplicita della risposta. Qwen3-4B-Base addestrato utilizzando la pipeline Dr. SCI raggiunge 63,2 su GPQA-diamond e 32,4 su GPQA-general, migliorando costantemente rispetto a baseline fortemente post-addestrate come o1-mini e GPT-4o, dimostrando progressi sostanziali nel ragionamento scientifico, specialmente in contesti aperti.
I recenti progressi nei modelli di generazione di immagini hanno reso possibile la previsione di stati futuri dell'interfaccia utente grafica (GUI) basandosi sulle istruzioni dell'utente. Tuttavia, i benchmark esistenti si concentrano principalmente sulla fedeltà visiva in domini generali, lasciando sottovalutata la valutazione delle transizioni di stato e della coerenza temporale in contesti specifici per le GUI. Per colmare questa lacuna, introduciamo GEBench, un benchmark completo per valutare l'interazione dinamica e la coerenza temporale nella generazione di GUI. GEBench comprende 700 campioni accuratamente selezionati che abbracciano cinque categorie di attività, coprendo sia interazioni a passaggio singolo che traiettorie multi-step attraverso scenari reali e fittizi, oltre alla localizzazione dei punti di ancoraggio. Per supportare una valutazione sistematica, proponiamo GE-Score, una nuova metrica a cinque dimensioni che valuta il Raggiungimento dell'Obiettivo, la Logica d'Interazione, la Coerenza dei Contenuti, la Plausibilità dell'UI e la Qualità Visiva. Valutazioni estese sui modelli attuali indicano che, sebbene essi performino bene su transizioni a passaggio singolo, incontrano notevoli difficoltà nel mantenere la coerenza temporale e l'ancoraggio spaziale su sequenze d'interazione più lunghe. Le nostre scoperte identificano l'interpretazione delle icone, il rendering del testo e la precisione di localizzazione come colli di bottiglia critici. Questo lavoro getta le basi per una valutazione sistematica e suggerisce direzioni promettenti per la ricerca futura verso la costruzione di ambienti GUI generativi ad alta fedeltà. Il codice è disponibile all'indirizzo: https://github.com/stepfun-ai/GEBench.
Nonostante le crescenti capacità di comprensione video dei recenti Modelli Linguistici Multimodali di Grande Dimensione (MLLM), i benchmark video esistenti valutano principalmente la comprensione basandosi sulla conoscenza statica e interna dei modelli, piuttosto che sulla loro abilità di apprendere e adattarsi da contesti dinamici e nuovi a partire da pochi esempi. Per colmare questa lacuna, presentiamo l'Apprendimento Video In-Contesto Guidato da Demo, un nuovo compito incentrato sull'apprendimento da dimostrazioni in-context per rispondere a domande sui video target. Insieme a questo, proponiamo Demo-ICL-Bench, un benchmark impegnativo progettato per valutare le capacità di apprendimento video in-context guidato da demo. Demo-ICL-Bench è costruito a partire da 1200 video didattici di YouTube con relative domande, da cui sono derivate due tipi di dimostrazioni: (i) la rielaborazione dei sottotitoli video per dimostrazioni testuali; e (ii) i corrispondenti video didattici come dimostrazioni video. Per affrontare efficacemente questa nuova sfida, sviluppiamo Demo-ICL, un MLLM con una strategia di addestramento in due stadi: fine-tuning supervisionato da video e ottimizzazione delle preferenze dirette assistita dall'informazione, che migliorano congiuntamente l'abilità del modello di apprendere da esempi in-context. Esperimenti estesi con MLLM allo stato dell'arte confermano la difficoltà di Demo-ICL-Bench, dimostrano l'efficacia di Demo-ICL e, di conseguenza, rivelano le future direzioni di ricerca.
La memoria sta diventando sempre più centrale per gli agenti basati su Large Language Model (LLM) che operano oltre una singola finestra contestuale, eppure la maggior parte dei sistemi esistenti si affida a una costruzione della memoria offline e indipendente dalla query, che può essere inefficiente e rischia di scartare informazioni critiche per la query. Sebbene l'utilizzo della memoria in runtime rappresenti un'alternativa naturale, i lavori precedenti spesso comportano un sovraccarico sostanziale e offrono un controllo limitato ed esplicito sul compromesso prestazioni-costo. In questo lavoro, presentiamo BudgetMem, un framework di memoria runtime per agenti che consente un controllo esplicito e consapevole della query sul compromesso prestazioni-costo. BudgetMem struttura l'elaborazione della memoria come un insieme di moduli di memoria, ciascuno offerto in tre livelli di budget (Basso/Medio/Alto). Un router leggero esegue l'instradamento del livello di budget tra i moduli per bilanciare le prestazioni del task e il costo di costruzione della memoria, implementato come una politica neurale compatta addestrata con apprendimento per rinforzo. Utilizzando BudgetMem come piattaforma di test unificata, studiamo tre strategie complementari per realizzare i livelli di budget: implementazione (complessità del metodo), ragionamento (comportamento inferenziale) e capacità (dimensione del modello del modulo). Sui dataset LoCoMo, LongMemEval e HotpotQA, BudgetMem supera baseline solide quando la priorità sono le prestazioni (impostazione di budget alto) e fornisce frontiere di accuratezza-costo migliori con budget più ristretti. Inoltre, la nostra analisi distingue i punti di forza e di debolezza delle diverse strategie di suddivisione in livelli, chiarendo quando ciascun asse offre i compromessi più favorevoli in diversi regimi di budget.
L'avanzamento dei grandi modelli linguistici (LLM) ha accelerato significativamente lo sviluppo di agenti di ricerca in grado di raccogliere informazioni autonomamente attraverso interazioni web multi-turno. Sono stati proposti vari benchmark per valutare tali agenti. Tuttavia, i benchmark esistenti spesso costruiscono le query a ritroso partendo dalle risposte, producendo compiti innaturali non allineati con le esigenze del mondo reale. Inoltre, questi benchmark tendono a concentrarsi sulla localizzazione di informazioni specifiche o sull'aggregazione di informazioni da più fonti, basandosi al contempo su insiemi di risposte statici soggetti a contaminazione dei dati. Per colmare queste lacune, introduciamo GISA, un benchmark per Assistenti Generali per la Ricerca di Informazioni, composto da 373 query create da esseri umani che riflettono scenari autentici di ricerca di informazioni. GISA presenta quattro formati di risposta strutturati (elemento, insieme, lista e tabella), consentendo una valutazione deterministica. Integra sia il ragionamento profondo che l'ampia aggregazione di informazioni all'interno di compiti unificati e include un sottoinsieme "live" con risposte aggiornate periodicamente per resistere alla memorizzazione. Notevolmente, GISA fornisce traiettorie di ricerca umane complete per ogni query, offrendo riferimenti di standard aureo per la supervisione a livello di processo e l'apprendimento per imitazione. Esperimenti condotti su LLM mainstream e prodotti di ricerca commerciali rivelano che anche il modello con le migliori prestazioni raggiunge solo un punteggio di corrispondenza esatta del 19,30%, con un degrado delle prestazioni particolarmente evidente nei compiti che richiedono pianificazione complessa e raccolta di informazioni completa. Questi risultati evidenziano un ampio margine di miglioramento futuro.
I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più capaci di svolgere compiti reali di lunga durata. Tuttavia, man mano che la quantità di contesto aumenta, la loro affidabilità spesso si deteriora, un fenomeno noto come "degrado del contesto" (context rot). I benchmark esistenti per contesti lunghi si concentrano principalmente su impostazioni a singolo passo che valutano la capacità di un modello di recuperare informazioni da un frammento lungo. In scenari realistici, tuttavia, gli LLM spesso devono agire come agenti che esplorano ambienti, seguono istruzioni e piani, estraggono informazioni utili e predicono azioni corrette in un contesto che cresce dinamicamente. Per valutare gli agenti linguistici in tali contesti, introduciamo LOCA-bench (un benchmark per Agenti a Contesto Lungo). Data un'istruzione di compito, LOCA-bench sfrutta un controllo automatizzato e scalabile degli stati ambientali per regolare la lunghezza del contesto dell'agente. Questo design consente a LOCA-bench di estendere la lunghezza del contesto potenzialmente all'infinito in modo controllato, mantenendo fissa la semantica del compito sottostante. LOCA-bench valuta gli agenti linguistici come una combinazione di modelli e impalcature (scaffold), includendo varie strategie di gestione del contesto. Sebbene le prestazioni degli agenti generalmente si degradino man mano che gli stati ambientali diventano più complessi, tecniche avanzate di gestione del contesto possono migliorare sostanzialmente il tasso di successo complessivo. Rendi-amo open-source LOCA-bench per fornire una piattaforma per valutare modelli e impalcature in scenari agentivi a contesto lungo: https://github.com/hkust-nlp/LOCA-bench
L'intelligenza spaziale incarnata richiede che gli agenti agiscano per acquisire informazioni in condizioni di osservabilità parziale. Sebbene i modelli fondazionali multimodali eccellano nella percezione passiva, la loro capacità di esplorazione attiva e autodiretta rimane poco studiata. Proponiamo la Teoria dello Spazio, definita come l'abilità di un agente di acquisire attivamente informazioni attraverso un'esplorazione autodiretta e attiva, e di costruire, revisionare e sfruttare una credenza spaziale a partire da osservazioni sequenziali e parziali. Valutiamo ciò attraverso un benchmark in cui l'obiettivo è un'esplorazione guidata dalla curiosità per costruire una mappa cognitiva accurata. Un'innovazione chiave è il probing delle credenze spaziali, che sollecita i modelli a rivelare le loro rappresentazioni spaziali interne a ogni passo. La nostra valutazione dei modelli allo stato dell'arte riviede diversi colli di bottiglia critici. In primo luogo, identifichiamo un Divario Attivo-Passivo, in cui le prestazioni calano significativamente quando gli agenti devono raccogliere informazioni in autonomia. In secondo luogo, riscontriamo un'alta inefficienza, poiché i modelli esplorano in modo non sistematico rispetto a proxy basati su programmi. Attraverso il probing delle credenze, diagnosticiamo che, sebbene la percezione sia un collo di bottiglia iniziale, le credenze globali soffrono di un'instabilità che causa un degrado della conoscenza spaziale nel tempo. Infine, utilizzando un paradigma di falsa credenza, scopriamo un'Inerzia delle Credenze, per cui gli agenti non riescono ad aggiornare precedenti obsolete con nuove evidenze. Questo problema è presente negli agenti basati su testo, ma è particolarmente grave nei modelli basati su visione. I nostri risultati suggeriscono che gli attuali modelli fondazionali faticano a mantenere credenze spaziali coerenti e revisionabili durante l'esplorazione attiva.
La generazione di rapporti di ricerca approfonditi richiede un'acquisizione di informazioni su larga scala e la sintesi di analisi guidate da insight, rappresentando una sfida significativa per gli attuali modelli linguistici. La maggior parte degli approcci esistenti segue un paradigma "pianifica-poi-scrivi", le cui prestazioni dipendono fortemente dalla qualità della bozza iniziale. Tuttavia, la costruzione di una bozza completa richiede a sua volta forti capacità di ragionamento, causando la quasi totale dipendenza degli attuali sistemi di ricerca approfondita da modelli linguistici online o closed-source. Questa dipendenza crea barriere pratiche alla distribuzione e solleva preoccupazioni riguardanti sicurezza e privacy dei dati utente. In questo lavoro presentiamo AgentCPM-Report, una soluzione locale leggera ma ad alte prestazioni composta da un framework che simula il processo di scrittura umano e un agente di ricerca approfondito da 8 miliardi di parametri. Il nostro framework utilizza una Politica di Scrittura come Ragionamento (WARP), che consente ai modelli di revisionare dinamicamente le bozze durante la generazione del rapporto. Seguendo questa politica, l'agente alterna tra Stesura Basata su Evidenze e Approfondimento Guidato dal Ragionamento, supportando congiuntamente l'acquisizione di informazioni, il raffinamento della conoscenza e l'evoluzione iterativa della bozza. Per dotare efficacemente i modelli di piccole dimensioni di questa capacità, introduciamo una strategia di Addestramento Agente Multi-Stadio, composta da avvio a freddo, RL per abilità atomiche e RL per pipeline olistica. Esperimenti su DeepResearch Bench, DeepConsult e DeepResearch Gym dimostrano che AgentCPM-Report supera i principali sistemi closed-source, con miglioramenti sostanziali negli Insight.
Questo lavoro presenta WorldCompass, un innovativo framework di post-addestramento basato sul Reinforcement Learning (RL) per modelli del mondo interattivi e basati su video di lungo orizzonte, consentendo loro di esplorare il mondo in modo più accurato e coerente sulla base di segnali d'interazione. Per "guidare" efficacemente l'esplorazione del modello del mondo, introduciamo tre innovazioni fondamentali mirate al paradigma di generazione video autoregressiva: 1) Strategia di Rollout a Livello di Clip: generiamo e valutiamo campioni multipli per una singola clip target, incrementando significativamente l'efficienza del rollout e fornendo segnali di ricompensa granulari. 2) Funzioni di Ricompensa Complementari: progettiamo funzioni di ricompensa sia per l'accuratezza nel seguire le interazioni che per la qualità visiva, le quali forniscono supervisione diretta e sopprimono efficacemente comportamenti di reward-hacking. 3) Algoritmo RL Efficiente: impieghiamo una strategia di fine-tuning negativa-aware abbinata a varie ottimizzazioni dell'efficienza per potenziare in modo efficiente ed efficace la capacità del modello. Le valutazioni condotte sul modello del mondo open-source allo stato dell'arte, WorldPlay, dimostrano che WorldCompass migliora significativamente l'accuratezza interattiva e la fedeltà visiva in vari scenari.
I modelli linguistici di grandi dimensioni (LLM) per la chimica si basano prevalentemente su ragionamenti a catena (Chain-of-Thought, CoT) espliciti in linguaggio naturale per eseguire ragionamenti complessi. Tuttavia, il ragionamento chimico è intrinsecamente continuo e strutturale, e forzarlo all'interno di token linguistici discreti introduce un disallineamento rappresentativo fondamentale che limita sia l'efficienza che le prestazioni. Introduciamo LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, consentendo ai modelli di eseguire ragionamenti a più passaggi direttamente nello spazio latente continuo, emettendo linguaggio solo per gli output finali. Notevolmente, osserviamo un comportamento emergente consistente: quando ottimizzati unicamente per il successo del compito, i modelli internalizzano spontaneamente il ragionamento, abbandonando progressivamente le verbose derivazioni testuali a favore del calcolo latente implicito. Questo cambiamento non è meramente stilistico ma computazionalmente vantaggioso. In varie benchmark di ragionamento chimico, LatentChem raggiunge un tasso di vittorie non in parità del 59,88% rispetto a baseline robuste basate su CoT su ChemCoTBench, garantendo allo stesso tempo una velocizzazione media dell'inferenza di 10,84 volte. I nostri risultati forniscono evidenza empirica che il ragionamento chimico è realizzato in modo più naturale ed efficace come dinamica latente continua piuttosto che come traiettorie linguistiche discretizzate.
La quantizzazione solo dei pesi è diventata un approccio standard per servire efficientemente i grandi modelli linguistici (LLM). Tuttavia, i metodi esistenti non riescono a comprimere efficientemente i modelli a livelli binari (1-bit), poiché richiedono grandi quantità di dati e potenza di calcolo o comportano una memorizzazione aggiuntiva. In questo lavoro, proponiamo NanoQuant, il primo metodo di quantizzazione post-addestramento (PTQ) in grado di comprimere gli LLM sia a livelli binari che sub-1-bit. NanoQuant formula la quantizzazione come un problema di fattorizzazione binaria a basso rango, comprimendo i pesi in precisione piena in matrici e scale binarie a basso rango. Nello specifico, utilizza un metodo efficiente dei moltiplicatori di direzione alternata (ADMM) per inizializzare con precisione le matrici binarie latenti e le scale, per poi ottimizzare i parametri inizializzati attraverso un processo di ricostruzione a blocchi e del modello. Di conseguenza, NanoQuant stabilisce una nuova frontiera di Pareto nella quantizzazione post-addestramento a bassa memoria, raggiungendo un'accuratezza allo stato dell'arte anche a tassi di compressione sub-1-bit. NanoQuant rende fattibile la distribuzione su larga scala su hardware consumer. Ad esempio, comprime Llama2-70B di 25,8 volte in sole 13 ore su un singolo H100, permettendo a un modello da 70B di operare su una GPU consumer da 8 GB.
L'inferenza a contesto lungo con i Large Language Model (LLM) è costosa a causa dell'attenzione quadratica e della crescita delle cache chiave-valore, motivando la compressione del contesto. In questo lavoro, studiamo la compressione soft del contesto, in cui un contesto lungo viene condensato in un piccolo insieme di rappresentazioni continue. I metodi esistenti tipicamente riutilizzano lo stesso LLM come compressore addestrabile, basandosi sull'auto-attenzione strato per strato per aggregare le informazioni in modo iterativo. Sosteniamo che questo paradigma soffre di due limitazioni strutturali: (i) sovrascrittura progressiva delle rappresentazioni attraverso gli strati (ii) allocazione non coordinata della capacità di compressione tra i token. Proponiamo ComprExIT (Context Compression via Explicit Information Transmission), un framework leggero che formula la compressione soft in un nuovo paradigma: trasmissione esplicita dell'informazione sugli stati nascosti congelati del LLM. Ciò disaccoppia la compressione dalle dinamiche interne di auto-attenzione del modello. ComprExIT esegue (i) trasmissione in profondità per trasmettere selettivamente le informazioni multi-strato negli anchor token, mitigando la sovrascrittura progressiva, e (ii) trasmissione in ampiezza per aggregare gli anchor in un numero ridotto di slot tramite un piano di trasmissione globalmente ottimizzato, garantendo un'allocazione coordinata dell'informazione. Su sei benchmark di question-answering, ComprExIT supera costantemente i metodi all'avanguardia per la compressione del contesto, introducendo solo circa l'1% di parametri aggiuntivi, dimostrando che una trasmissione esplicita e coordinata dell'informazione consente una compressione del contesto lungo più efficace e robusta.
Deduzione, induzione e abduzione sono paradigmi fondamentali del ragionamento, essenziali per il pensiero logico umano. Sebbene il potenziamento delle capacità di ragionamento dei Large Language Model (LLM) abbia attirato notevoli sforzi di ricerca, la misura in cui i paradigmi fondamentali inducano una generalizzazione non è stata ancora esplorata sistematicamente. In questo studio, chiariamo come l'interazione tra questi paradigmi fondamentali influenzi il comportamento ragionativo degli LLM. A tal fine, raccogliamo innanzitutto un nuovo dataset di traiettorie di ragionamento derivanti da compiti simbolici, ciascuno mirato a uno dei tre paradigmi fondamentali, per astrarre dalla conoscenza concreta del mondo. Successivamente, indaghiamo metodi efficaci per indurre queste competenze negli LLM. Sperimentiamo una serie di approcci, tra cui il semplice fine-tuning e metodi più complessi per aumentare la profondità del modello o trasformare un modello denso in un mixture-of-experts. Valutiamo in modo esaustivo i modelli indotti su compiti realistici fuori dominio, interamente formulati in linguaggio naturale e contenenti conoscenze del mondo reale. I nostri risultati rivelano che il nostro approccio produce una forte generalizzabilità con guadagni prestazionali sostanziali (fino al 14,60) attraverso i compiti realistici.
I grandi modelli di ragionamento (LRM) ottengono prestazioni eccellenti su compiti di ragionamento complesso generando traiettorie di ragionamento lunghe e multi-step, ma lo scaling in fase di inferenza comporta costi di deployment sostanziali. Una sfida chiave è che la difficoltà di generazione varia all'interno di un singolo output, mentre gli approcci esistenti orientati all'efficienza ignorano questa variazione intra-generazione o si basano su un routing supervisionato a livello di token con elevata complessità di sistema. Presentiamo RelayGen, un framework di commutazione dinamica dei modelli a runtime, a livello di segmento, che non richiede training e sfrutta la variazione di difficoltà nel ragionamento a lungo termine. Attraverso un'analisi offline dell'incertezza di generazione utilizzando i margini di probabilità dei token, dimostriamo che un controllo a grana grossa a livello di segmento è sufficiente per catturare le transizioni di difficoltà all'interno di una traiettoria di ragionamento. RelayGen identifica segnali di commutazione specifici del modello che indicano transizioni verso segmenti a difficoltà inferiore e delega dinamicamente la loro continuazione a un modello più piccolo, preservando il ragionamento ad alta difficoltà sul modello grande. Su molteplici benchmark di ragionamento, RelayGen riduce sostanzialmente la latenza di inferenza preservando la maggior parte dell'accuratezza dei modelli di grandi dimensioni. Se combinato con il decoding speculativo, RelayGen raggiunge un miglioramento di velocità end-to-end fino a 2,2 volte con un degrado dell'accuratezza inferiore al 2%, senza richiedere training aggiuntivo o componenti di routing appresi.
Nonostante i rapidi progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM), il ragionamento spaziale visivo rimane inaffidabile quando le risposte corrette dipendono da come una scena apparirebbe da punti di vista non osservati o alternativi. Recenti lavori affrontano questo problema potenziando il ragionamento con modelli del mondo per l'immaginazione visiva, ma questioni come quando l'immaginazione sia effettivamente necessaria, quanta ne sia benefica e quando diventi dannosa rimangono poco comprese. Nella pratica, un'immaginazione indiscriminata può aumentare il costo computazionale e persino degradare le prestazioni introducendo evidenze fuorvianti. In questo lavoro, presentiamo un'analisi approfondita dell'immaginazione visiva al momento del test come risorsa controllabile per il ragionamento spaziale. Studiamo quando l'evidenza visiva statica è sufficiente, quando l'immaginazione migliora il ragionamento e come un'immaginazione eccessiva o non necessaria influisca su accuratezza ed efficienza. Per supportare questa analisi, introduciamo AVIC, un framework adattativo per il test-time con modelli del mondo che ragiona esplicitamente sulla sufficienza dell'evidenza visiva corrente prima di invocare e scalare selettivamente l'immaginazione visiva. Su benchmark di ragionamento spaziale (SAT, MMSI) e un benchmark di navigazione embodied (R2R), i nostri risultati rivelano scenari chiari in cui l'immaginazione è cruciale, marginale o dannosa, e mostrano che un controllo selettivo può eguagliare o superare le strategie di immaginazione fisse con un numero sostanzialmente inferiore di chiamate al modello del mondo e di token linguistici. Nel complesso, i nostri risultati evidenziano l'importanza di analizzare e controllare l'immaginazione al momento del test per un ragionamento spaziale efficiente e affidabile.
Recentemente, i modelli di diffusione video autoregressivi (AR) hanno ottenuto prestazioni notevoli. Tuttavia, a causa della loro durata di addestramento limitata, emerge un divario tra addestramento e test quando si effettua la valutazione su orizzonti temporali più lunghi, portando a un rapido degrado visivo. Seguendo il lavoro sul Self Forcing, che studia il divario addestramento-test all'interno della durata di addestramento, questo lavoro studia il divario addestramento-test oltre la durata dell'addestramento, ovvero il divario tra gli orizzonti limitati durante l'addestramento e gli orizzonti aperti durante il test. Poiché il test a orizzonte aperto può estendersi oltre qualsiasi finestra di addestramento finita, e l'addestramento su video lunghi è computazionalmente costoso, perseguiamo una soluzione senza ulteriore addestramento per colmare questo divario. Per esplorare una soluzione di questo tipo, conduciamo un'analisi sistematica della gestione della cache nei modelli AR. Queste intuizioni portano al Rolling Sink. Basato sul Self Forcing (addestrato su clip di soli 5 secondi), Rolling Sink scala efficacemente la sintesi video AR a durate ultra lunghe (ad esempio, 5-30 minuti a 16 FPS) durante il test, con soggetti consistenti, colori stabili, strutture coerenti e movimenti fluidi. Come dimostrato da ampi esperimenti, Rolling Sink raggiunge una fedeltà visiva e una coerenza temporale su lungo orizzonte superiori rispetto ai baseline state-of-the-art. Pagina del progetto: https://rolling-sink.github.io/
La generazione di procedure passo-passo "how-to" è una capacità fondamentale dei modelli linguistici di grandi dimensioni (LLM): i consigli procedurali sono comunemente richiesti nei chatbot, e la pianificazione sequenziale è cruciale per il ragionamento su compiti complessi. Tuttavia, misurare e migliorare la validità procedurale su larga scala per compiti del mondo reale rimane una sfida e un ambito poco studiato. Per affrontare questo problema, introduciamo How2Everything, un framework scalabile per valutare e migliorare la generazione di procedure condizionate da obiettivi. Il nostro framework include How2Mine, che estrae 351.000 procedure da 980.000 pagine web relative a 14 argomenti e si presta a scalare facilmente verso corpora più ampi. Da questo insieme costruiamo How2Bench, un set di valutazione di 7.000 esempi bilanciato per argomento. Per valutare in modo affidabile gli output del modello, sviluppiamo How2Score, un protocollo di valutazione che utilizza un LLM come giudice per rilevare se una generazione contenga errori critici che impedirebbero il raggiungimento dell'obiettivo. Per una valutazione a basso costo e riproducibile, distilliamo un modello all'avanguardia in un modello aperto da 8B parametri, raggiungendo un accordo dell'80,5% con annotatori umani. How2Bench rivela chiari trend di scaling tra diverse dimensioni di modello e fasi di addestramento, fornendo segnali già nelle prime fasi del pre-addestramento. Infine, l'Apprendimento per Rinforzo (RL) utilizzando How2Score come ricompensa migliora le prestazioni su How2Bench di oltre 10 punti in tre modelli senza regressioni sistematiche su benchmark standard, con guadagni robusti rispetto a fenomeni di memorizzazione superficiale del documento sorgente o di aderenza al formato. Nel complesso, How2Everything dimostra come i dati web di pre-addestramento possano supportare un ciclo chiuso di valutazione e miglioramento delle capacità su larga scala.
I modelli fondazionali, inclusi i Large Language Model (LLM), i Multimodal Large Language Model (MLLM), i modelli generativi di immagini (ovvero modelli Text-to-Image e modelli di editing di immagini) e i modelli generativi video, sono diventati strumenti essenziali con ampie applicazioni in vari domini come il diritto, la medicina, l'istruzione, la finanza, le scienze e oltre. Man mano che questi modelli vedono una diffusione crescente nel mondo reale, garantire la loro affidabilità e responsabilità è diventato cruciale per il mondo accademico, l'industria e i governi. Questa rassegna affronta lo sviluppo affidabile e responsabile dei modelli fondazionali. Esploriamo questioni critiche, inclusi pregiudizi ed equità, sicurezza e privacy, incertezza, spiegabilità e cambiamento della distribuzione. La nostra ricerca copre anche i limiti dei modelli, come le allucinazioni, nonché metodi come l'allineamento e il rilevamento di contenuti generati dall'intelligenza artificiale (AIGC). Per ogni area, esaminiamo lo stato attuale del campo e delineiamo concrete direzioni di ricerca future. Inoltre, discutiamo le intersezioni tra queste aree, evidenziando le loro connessioni e le sfide comuni. Speriamo che la nostra rassegna favorisca lo sviluppo di modelli fondazionali che siano non solo potenti, ma anche etici, affidabili, sicuri e socialmente responsabili.
L'elicitazione del ragionamento è emersa come una tecnica potente per migliorare le prestazioni dei grandi modelli linguistici (LLM) su compiti complessi inducendo processi di pensiero. Tuttavia, la loro efficacia in scenari realistici con agenti interagenti con utenti rimane poco chiara. In questo articolo, conduciamo uno studio completo sull'effetto del pensiero esplicito in agenti LLM impegnati con utenti. I nostri esperimenti abbracciano sette modelli, tre benchmark e due implementazioni del pensiero, e li valutiamo sia attraverso un'analisi quantitativa della tassonomia delle risposte che studi di caso qualitativi sulla propagazione degli errori. Contrariamente alle aspettative, scopriamo che il pensiero obbligatorio spesso si rivela controproducente per gli agenti in contesti di interazione con utenti, causando un'anomala degradazione delle prestazioni su vari LLM. La nostra scoperta chiave rivela che il pensiero rende gli agenti più "introversi" abbreviando le risposte e riducendo la divulgazione di informazioni agli utenti, il che indebolisce lo scambio informativo agente-utente e porta a fallimenti nei compiti downstream. Inoltre, dimostriamo che richiedere esplicitamente la divulgazione di informazioni migliora affidabilmente le prestazioni tra diverse famiglie di modelli, suggerendo che la trasparenza proattiva sia una leva vitale per l'ottimizzazione degli agenti. Nel complesso, il nostro studio suggerisce che la consapevolezza della trasparenza informativa è una prospettiva cruciale ma poco esplorata per il futuro design di agenti razionali in scenari reali. Il nostro codice è disponibile all'indirizzo https://github.com/deeplearning-wisc/Thinking-Agent.
Lo sviluppo dell'intelligenza artificiale può essere considerato come un'evoluzione dei paradigmi di apprendimento basati sui dati, in cui i successivi cambiamenti nell'organizzazione e nell'utilizzo delle informazioni guidano continuamente i progressi delle capacità dei modelli. La ricerca attuale sui LLM è dominata da un paradigma che si affida pesantemente alla scalabilità unidirezionale della dimensione dei dati, incontrando sempre più frequentemente colli di bottiglia nella disponibilità dei dati, nei costi di acquisizione e nell'efficienza dell'addestramento. In questo lavoro, sosteniamo che lo sviluppo dell'AGI stia entrando in una nuova fase di co-evoluzione dati-modello, in cui i modelli guidano attivamente la gestione dei dati mentre dati di alta qualità, a loro volta, amplificano le capacità del modello. Per realizzare questa visione, proponiamo un framework di gestione dei dati a livelli, progettato per supportare l'intero ciclo di vita dell'addestramento di LLM attraverso obiettivi di apprendimento eterogenei e vincoli di costo. Nello specifico, introduciamo un framework di gestione dati a livelli L0-L4, che spazia da risorse grezze non curate a conoscenza organizzata e verificabile. È importante sottolineare che i LLM vengono utilizzati appieno nei processi di gestione dei dati, come lo scoring della qualità e l'editing dei contenuti, per affinare i dati attraverso i vari livelli. Ogni livello è caratterizzato da proprietà distinte dei dati, strategie di gestione e ruoli nell'addestramento, consentendo ai dati di essere allocati strategicamente attraverso le fasi di training dei LLM, inclusi pre-training, mid-training e allineamento. Il framework bilancia qualità dei dati, costo di acquisizione e beneficio marginale dell'addestramento, fornendo un approccio sistematico per una gestione dei dati scalabile e sostenibile. Convalidiamo l'efficacia del framework proposto attraverso studi empirici, in cui dataset suddivisi in livelli vengono costruiti a partire da corpora grezzi e utilizzati in multiple fasi di addestramento. I risultati sperimentali dimostrano che un utilizzo dei dati consapevole dei livelli migliora significativamente l'efficienza dell'addestramento e le prestazioni del modello. Per facilitare ulteriori ricerche, rendiamo disponibili alla comunità i nostri dataset suddivisi in livelli e gli strumenti di elaborazione.
I paradigmi attuali per la verifica del codice si basano fortemente su meccanismi esterni - come test unitari basati sull'esecuzione o giudici LLM ausiliari - che spesso richiedono un intenso lavoro manuale o sono limitati dalle capacità intrinseche del modello di giudizio. Ciò solleva una questione fondamentale ma ancora inesplorata: è possibile valutare la correttezza funzionale di un LLM puramente dalla sua struttura computazionale interna? Il nostro obiettivo principale è investigare se le dinamiche neurali del modello codifichino segnali internamente decodificabili che siano predittivi della validità logica durante la generazione di codice. Ispirati dalla interpretabilità meccanicistica, proponiamo di trattare la verifica del codice come un compito diagnostico meccanicistico, mappando la traiettoria algoritmica esplicita del modello in grafi di attribuzione a livello di riga. Scomponendo i flussi residui complessi, miriamo a identificare le firme strutturali che distinguono il ragionamento solido dagli errori logici all'interno dei circuiti interni del modello. L'analisi condotta su Python, C++ e Java conferma che i segnali intrinseci di correttezza sono robusti attraverso sintassi diverse. Le caratteristiche topologiche di questi grafi interni predicono la correttezza in modo più affidabile rispetto alle euristiche superficiali e abilitano interventi causali mirati per correggere la logica errata. Questi risultati stabiliscono l'introspezione interna come una proprietà decodificabile per verificare il codice generato. Il nostro codice è disponibile su https://github.com/bruno686/CodeCircuit.
Le abilità degli agenti estendono i modelli linguistici di grandi dimensioni (LLM) con moduli riutilizzabili, simili a programmi, che definiscono condizioni di attivazione, logica procedurale e interazioni con strumenti. Con la proliferazione di queste abilità su marketplace pubblici, rimangono poco chiari i tipi disponibili, le modalità di adozione da parte degli utenti e i rischi che comportano. Per rispondere a queste domande, conduciamo un'analisi su larga scala, basata sui dati, di 40.285 abilità pubblicamente elencate su un importante marketplace. I nostri risultati mostrano che la pubblicazione delle abilità tende a verificarsi in brevi picchi che seguono gli spostamenti dell'attenzione della comunità. Troviamo inoltre che i contenuti delle abilità sono altamente concentrati nei flussi di lavoro di ingegneria del software, mentre il recupero di informazioni e la creazione di contenuti rappresentano una quota sostanziale delle adozioni. Oltre alle tendenze di contenuto, scopriamo un marcato squilibrio tra domanda e offerta tra le categorie e dimostriamo che la maggior parte delle abilità rimane entro budget tipici di prompt nonostante una distribuzione di lunghezza a coda pesante. Infine, osserviamo una forte omogeneità dell'ecosistema, con una diffusa ridondanza a livello di intento, e identifichiamo rischi per la sicurezza non trascurabili, incluse abilità che abilitano azioni con cambiamento di stato o a livello di sistema. Nel complesso, i nostri risultati forniscono un'istantantanea quantitativa delle abilità degli agenti come strato infrastrutturale emergente e informano i lavori futuri sul riutilizzo, la standardizzazione e la progettazione consapevole della sicurezza delle abilità.
Sebbene gli ultimi anni abbiano assistito a rapidi progressi nella sintesi vocale, i sistemi open-source per la sintesi della voce cantata (SVS) devono ancora affrontare ostacoli significativi per la diffusione industriale, in particolare in termini di robustezza e generalizzazione zero-shot. In questo rapporto presentiamo SoulX-Singer, un sistema SVS open-source di alta qualità progettato tenendo conto delle esigenze di deployment pratico. SoulX-Singer supporta la generazione controllata del canto condizionata da spartiti musicali simbolici (MIDI) o rappresentazioni melodiche, consentendo un controllo flessibile ed espressivo nei flussi di lavoro produttivi reali. Addestrato su oltre 42.000 ore di dati vocali, il sistema supporta il cinese mandarino, l'inglese e il cantonese e raggiunge costantemente una qualità di sintesi allo stato dell'arte in tutte le lingue in diverse condizioni musicali. Inoltre, per consentire una valutazione affidabile delle prestazioni zero-shot degli SVS in scenari pratici, abbiamo creato SoulX-Singer-Eval, un benchmark dedicato con una rigorosa separazione tra dati di addestramento e test, che facilita una valutazione sistematica in contesti zero-shot.
Introduciamo MotionCrafter, un framework basato sulla diffusione video che ricostruisce congiuntamente la geometria 4D e stima il moto denso a partire da un video monoculare. Il cuore del nostro metodo è una nuova rappresentazione congiunta di mappe dense di punti 3D e flussi scenici 3D in un sistema di coordinate condiviso, e un nuovo VAE 4D per apprendere efficacemente questa rappresentazione. A differenza dei lavori precedenti che forzano l'allineamento rigoroso dei valori 3D e dei latenti con i latenti del VAE RGB - nonostante le loro distribuzioni fondamentalmente diverse - dimostriamo che tale allineamento è superfluo e porta a prestazioni subottimali. Proponiamo invece una nuova strategia di normalizzazione dei dati e di addestramento del VAE che trasferisce meglio i priori di diffusione e migliora notevolmente la qualità della ricostruzione. Esperimenti estesi su molteplici dataset dimostrano che MotionCrafter raggiunge prestazioni all'avanguardia sia nella ricostruzione geometrica che nella stima del flusso scenico denso, ottenendo miglioramenti rispettivamente del 38,64% e del 25,0% nella ricostruzione geometrica e del moto, tutto senza alcuna post-ottimizzazione. Pagina del progetto: https://ruijiezhu94.github.io/MotionCrafter_Page
L'apprendimento per rinforzo (RL) è ampiamente utilizzato per il controllo di robot umanoidi, con metodi on-policy come il Proximal Policy Optimization (PPO) che abilitano un addestramento robusto attraverso simulazioni parallele su larga scala e, in alcuni casi, una distribuzione zero-shot su robot reali. Tuttavia, la bassa efficienza campionaria degli algoritmi on-policy limita un adattamento sicuro a nuovi ambienti. Sebbene l'RL off-policy e l'RL basato su modello abbiano dimostrato una maggiore efficienza campionaria, il divario tra il pre-addestramento su larga scala e il fine-tuning efficiente su umanoidi permane. In questo articolo, dimostriamo che l'algoritmo off-policy Soft Actor-Critic (SAC), con aggiornamenti su batch di grandi dimensioni e un alto rapporto Update-To-Data (UTD), supporta in modo affidabile il pre-addestramento su larga scala di politiche per la locomozione di umanoidi, raggiungendo una distribuzione zero-shot su robot reali. Per l'adattamento, dimostriamo che queste politiche pre-addestrate con SAC possono essere affinate in nuovi ambienti e in compiti fuori distribuzione utilizzando metodi basati su modello. La raccolta di dati nel nuovo ambiente esegue una politica deterministica, mentre l'esplorazione stocastica è confinata a un modello del mondo informato dalla fisica. Questa separazione mitiga i rischi dell'esplorazione casuale durante l'adattamento, preservando al contempo la copertura esplorativa per il miglioramento. Nel complesso, l'approccio combina l'efficienza in tempo reale della simulazione su larga scala durante il pre-addestramento con l'efficienza campionaria dell'apprendimento basato su modello durante il fine-tuning.
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è emerso come metodo cruciale per potenziare le capacità di ragionamento dei Large Language Model (LLM). Tuttavia, l’addestramento continuo spesso porta a un collasso dell’entropia della policy, caratterizzato da un decadimento rapido dell’entropia che determina un'eccessiva sicurezza prematura, una ridotta diversità degli output e norme dei gradienti che svaniscono, inibendo l’apprendimento. Il Clipping Conservativo del Gradiente è un fattore primario che influenza queste dinamiche, ma le strategie di mitigazione esistenti sono largamente statiche e prive di un quadro che colleghi i meccanismi di clipping a un controllo preciso dell’entropia. Questo articolo propone di riformulare il controllo dell’entropia nell’RL dalla prospettiva del Clipping Conservativo del Gradiente. Inizialmente verifichiamo teoricamente ed empiricamente il contributo di specifiche regioni del rapporto di importance sampling alla crescita e alla riduzione dell’entropia. Sfruttando questi risultati, introduciamo un nuovo meccanismo di regolazione che utilizza una soglia di clipping dinamica per gestire con precisione l’entropia. Inoltre, progettiamo e valutiamo strategie dinamiche di controllo dell’entropia, includendo aumento-poi-diminuzione, diminuzione-aumento-diminuzione e decadimento oscillatorio. I risultati sperimentali dimostrano che queste strategie mitigano efficacemente il collasso dell’entropia e raggiungono prestazioni superiori su molteplici benchmark.
Il raggiungimento di una locomozione stabile ed energeticamente efficiente è essenziale affinché i robot umanoidi possano operare in modo continuativo in applicazioni del mondo reale. Gli approcci esistenti di MPC (Model Predictive Control) e RL (Reinforcement Learning) si basano spesso su metriche legate all'energia integrate in un framework di ottimizzazione multi-obiettivo, che richiedono un'ampia ottimizzazione degli iperparametri e spesso portano a politiche subottimali. Per affrontare queste sfide, proponiamo ECO (Energy-Constrained Optimization), un framework di RL vincolato che separa le metriche energetiche dalle ricompense, riformulandole come vincoli di disuguaglianza espliciti. Questo metodo fornisce una rappresentazione fisica chiara e interpretabile dei costi energetici, consentendo una regolazione degli iperparametri più efficiente e intuitiva per migliorare l'efficienza energetica. ECO introduce vincoli dedicati per il consumo energetico e il movimento di riferimento, applicati tramite il metodo Lagrangiano, per ottenere una camminata stabile, simmetrica ed energeticamente efficiente per robot umanoidi. Abbiamo valutato ECO confrontandolo con MPC, RL standard con modellazione delle ricompense (reward shaping) e quattro metodi all'avanguardia di RL vincolato. Esperimenti, inclusi trasferimenti sim-to-sim e sim-to-real sul robot umanoide BRUCE di dimensioni ridotte, dimostrano che ECO riduce significativamente il consumo energetico rispetto ai baseline, mantenendo al contempo prestazioni di camminata robuste. Questi risultati evidenziano un progresso sostanziale nella locomozione efficiente per robot umanoidi. Tutte le dimostrazioni sperimentali sono disponibili sul sito web del progetto: https://sites.google.com/view/eco-humanoid.
La tokenizzazione è una scelta progettuale cruciale per la modellazione neurale del linguaggio nelle lingue morfologicamente ricche (MRL) come il turco, dove l'agglutinazione produttiva rappresenta una sfida sia per l'efficienza del vocabolario che per la fedeltà morfologica. Studi precedenti hanno esplorato famiglie di tokenizer e dimensioni del vocabolario, ma tipicamente (i) variano il vocabolario senza controllare sistematicamente il corpus di addestramento del tokenizer, (ii) forniscono diagnosi intrinseche limitate e (iii) valutano solo un ristretto insieme di task downstream. Presentiamo il primo studio completo e metodologicamente rigoroso sulla tokenizzazione a sottoparole per il turco; un "manifesto dei sottoparole", che varia congiuntamente la dimensione del vocabolario e la dimensione del corpus di addestramento del tokenizer (accoppiamento dati-vocabolario), confronta multiple famiglie di tokenizer con budget di parametri equivalenti (WordPiece, livello morfologico e baseline a caratteri) e valuta attraverso task semantici (NLI, STS, analisi del sentiment, NER), sintattici (POS, analisi delle dipendenze) e probe sensibili alla morfologia. Per spiegare perché i tokenizer hanno successo o falliscono, introduciamo un toolkit diagnostico consapevole della morfologia che va oltre gli aggregati grossolani, analizzando micro/macro F1 a livello di confine, hit sui confini superficiali vs. atomicità del lemma scompagnata, indici di over/under-segmentazione, distanze di modifica a carattere/parola (CER/WER), tassi di continuazione e copertura per tipo di affisso e atomicità a livello di token. I nostri contributi sono quadrupli: (i) un'indagine sistematica della triade vocabolario-corpus-successo; (ii) un framework di valutazione unificato e consapevole della morfologia che collega le diagnosi intrinseche ai risultati estrinseci; (iii) confronti controllati che identificano quando la tokenizzazione a livello di carattere e morfologico è vantaggiosa; e (iv) il rilascio open-source del codice di valutazione, delle pipeline dei tokenizer e dei modelli. Come primo lavoro nel suo genere, questo "manifesto dei sottoparole" fornisce linee guida operative per costruire tokenizer efficaci nelle MRL e stabilisce una base riproducibile per la ricerca futura.
I modelli di ricompensa (RMs) sono cruciali per l'addestramento di grandi modelli linguistici (LLMs), ma si basano tipicamente su coppie di preferenze annotate su larga scala da esseri umani. Con il diffuso impiego degli LLMs, le interazioni in contesti reali sono emerse come una ricca fonte di segnali impliciti di ricompensa. Ciò solleva la questione: possiamo sviluppare modelli di ricompensa direttamente dalle interazioni in contesti reali? In questo lavoro, esploriamo questa possibilità adottando WildChat come fonte di interazione e proponendo una pipeline per estrarre feedback umano affidabile, ottenendo 186k istanze di alta qualità per addestrare WildReward tramite regressione ordinale direttamente sul feedback degli utenti, senza coppie di preferenze. Esperimenti estensivi dimostrano che WildReward raggiunge prestazioni comparabili o addirittura superiori rispetto ai modelli di ricompensa convenzionali, con una calibrazione e una consistenza cross-campione migliorate. Osserviamo inoltre che WildReward beneficia direttamente dalla diversità degli utenti, dove un numero maggiore di utenti produce modelli di ricompensa più robusti. Infine, applichiamo WildReward all'addestramento DPO online e osserviamo miglioramenti significativi in varie attività. Codice e dati sono rilasciati su https://github.com/THU-KEG/WildReward.
I recuperatori a interazione tardiva multi-vettore come ColBERT raggiungono una qualità di recupero allo stato dell'arte, ma il loro costo in fase di query è dominato dal calcolo esaustivo delle interazioni MaxSim a livello di token per ogni documento candidato. Sebbene l'approssimazione dell'interazione tardiva con rappresentazioni mono-vettore riduca il costo, essa comporta spesso una perdita sostanziale di accuratezza. Introduciamo Col-Bandit, un algoritmo di pruning in fase di query che riduce questo onere computazionale inquadrando il reranking come un problema di identificazione Top-K a popolazione finita. Col-Bandit mantiene dei limiti consapevoli dell'incertezza sui punteggi parzialmente osservati dei documenti e rivela in modo adattivo solo le voci MaxSim (documento, token di query) necessarie per determinare i risultati migliori sotto limiti decisionali statistici con una rilassazione regolabile. A differenza degli approcci a grana grossa che eliminano interi documenti o token offline, Col-Bandit rende sparsa la matrice di interazione al volo. Opera come uno strato zero-shot e di immediato utilizzo su sistemi multi-vettore standard, senza richiedere modifiche all'indice, pre-elaborazione offline o riaddestramento del modello. Esperimenti su benchmark testuali (BEIR) e multimodali (REAL-MM-RAG) mostrano che Col-Bandit preserva la fedeltà del ranking riducendo le operazioni in virgola mobile di MaxSim fino a 5 volte, indicando che la valutazione densa a interazione tardiva contiene una ridondanza sostanziale che può essere identificata ed eliminata efficientemente in fase di query.
L'allocazione del calcolo al momento del test nei grandi modelli di ragionamento (LRM) è ampiamente utilizzata e trova applicazione nella risoluzione di problemi matematici, nella sintesi di codice e nella pianificazione. Recenti lavori hanno affrontato questo problema scalando l'auto-consistenza e il pensiero parallelo, aggiungendo generici "token di pensiero" e sollecitando i modelli a rileggere la domanda prima di rispondere. Sfortunatamente, questi approcci iniettano token indipendenti dal compito o impongono euristiche che non spiegano – e spesso ignorano – la ripetizione spontanea che molti LRM mostrano all'inizio delle loro catene interne. Al contrario, noi analizziamo e sfruttiamo la tendenza del modello a riaffermare la domanda, che definiamo Eco del Prompt (EOP), come meccanismo di modellazione del calcolo caricato in anticipo. Ne formalizziamo il costo probabilistico inquadrando la rimozione dell'eco come un condizionamento basato sul rejection e definendo il Divario di Probabilità dell'Eco (ΔL) come un proxy calcolabile. Questo fornisce il collegamento teorico mancante che collega la ripetizione iniziale ai guadagni di likelihood e all'accuratezza a valle. Tuttavia, ciò di per sé non specifica come sfruttare l'EOP. Di conseguenza, sviluppiamo l'addattamento supervisionato distillato dall'eco (ED-SFT) per instillare uno schema "prima l'eco, poi il ragionamento" attraverso l'addattamento supervisionato, e il Prompting Eonico (EP) per ricalibrare il modello a metà traccia senza addestramento. Sebbene promettenti, quantificare i benefici al di là della verbosità non è banale. Pertanto, conduciamo analisi di likelihood controllate per lunghezza e suffisso insieme a studi sull'attenzione per strato, mostrando che l'EOP aumenta l'attenzione dalla risposta al prefisso della risposta negli strati intermedi, coerentemente con un meccanismo di rifocalizzazione dell'attenzione. Valutiamo su GSM8K, MathQA, Hendrycks-MATH, AIME24 e MATH-500 in condizioni di decodifica e budget identici, e riscontriamo miglioramenti consistenti rispetto ai baseline. Il codice è disponibile all'indirizzo https://github.com/hhh2210/echoes-as-anchors.
I sistemi agentici vengono valutati su benchmark in cui gli agenti interagiscono con ambienti per risolvere compiti. La maggior parte degli articoli riporta un punteggio pass@1 calcolato da una singola esecuzione per task, presupponendo che questo fornisca una stima affidabile delle prestazioni. Mettiamo alla prova questo assunto raccogliendo 60.000 traiettorie agentiche su SWE-Bench-Verified, coprendo tre modelli e due scaffold. Rileviamo una varianza sostanziale: le stime pass@1 a singola esecuzione variano da 2,2 a 6,0 punti percentuali a seconda di quale esecuzione viene selezionata, con deviazioni standard superiori a 1,5 punti percentuali anche a temperatura 0. Questa varianza ha implicazioni critiche: i miglioramenti riportati di 2-3 punti percentuali potrebbero riflettere rumore valutativo piuttosto che un genuino progresso algoritmico. Attraverso un'analisi a livello di token, dimostriamo che le traiettorie divergono precocemente, spesso entro i primi pochi percentuali di token, e che queste piccole differenze si propagano in strategie di soluzione diverse. Per consentire una valutazione affidabile dei sistemi agentici, raccomandiamo tre pratiche concrete: (1) stimare il pass@1 da più esecuzioni indipendenti per task, specialmente quando si misurano piccoli miglioramenti, (2) utilizzare l'analisi della potenza statistica per determinare il numero di esecuzioni necessario per rilevare le dimensioni d'effetto attese, e (3) considerare metriche come pass@k (limite ottimistico) e pass^k (limite pessimistico) con k>1 per caratterizzare meglio l'intero envelope prestazionale. Sebbene queste pratiche aumentino il costo della valutazione, sono essenziali per distinguere il genuino progresso scientifico dal rumore statistico.
I modelli linguistici di grandi dimensioni si basano sulle cache KV per evitare calcoli ridondanti durante la decodifica autoregressiva, ma con l'aumentare della lunghezza del contesto, la lettura e scrittura della cache può saturare rapidamente la larghezza di banda della memoria GPU. Recenti lavori hanno esplorato la compressione della cache KV, tuttavia la maggior parte degli approcci trascura la natura dipendente dai dati delle cache KV e la loro variazione tra i diversi layer. Introduciamo KV-CoRE (KV-cache Compressibility by Rank Evaluation), un metodo basato su SVD per quantificare la compressibilità a rango basso e dipendente dai dati delle cache KV. KV-CoRE calcola l'approssimazione ottimale a rango basso sotto la norma di Frobenius e, essendo privo di gradienti e incrementale, consente una valutazione efficiente a livello di dataset e per layer. Utilizzando questo metodo, analizziamo diversi modelli e dataset che coprono cinque domini inglesi e sedici lingue, rilevando schemi sistematici che collegano la compressibilità all'architettura del modello, ai dati di addestramento e alla copertura linguistica. Come parte di questa analisi, impieghiamo il Rango Efficace Normalizzato come metrica di compressibilità e dimostriamo che esso correla fortemente con il degrado delle prestazioni sotto compressione. Il nostro studio stabilisce un framework di valutazione basato su principi e il primo benchmark su larga scala della compressibilità delle cache KV negli LLM, offrendo spunti per una compressione dinamica e data-aware e per uno sviluppo di modelli incentrato sui dati.
I recenti progressi nelle architetture mixture-of-experts hanno dimostrato che i modelli di esperti individuali possono essere addestrati in modo federato, cioè isolatamente dagli altri esperti, utilizzando un modello base comune per facilitare il coordinamento. Tuttavia, ipotizziamo che esperti a dimensione piena possano non essere necessari per tutti i domini e che invece adattatori low-rank possano essere sufficienti. Qui introduciamo FlexMoRE, una Flexible Mixture of Rank-heterogenous Experts, che può essere composta da esperti a dimensione piena o da adattatori di rango appropriato. Investigiamo sistematicamente il trade-off tra il rango dell'esperto e le prestazioni sul task downstream valutando 6 esperti con ranghi da 2^0 a 2^{14}, risultando in esperimenti che coprono 150 miscele (96 con 2 esperti, 54 con 7 esperti) valutate su 120 task. Per i nostri esperimenti, partiamo da FlexOlmo e trasformiamo i suoi esperti pre-addestrati in versioni low-rank. La nostra analisi di regressione dal rango dell'esperto alle prestazioni sul task downstream rivela che il rango a prestazioni migliori è sostanzialmente più alto per benchmark ad alto contenuto di ragionamento che per benchmark ad alto contenuto di conoscenza. Questi risultati sulla sensibilità al rango hanno implicazioni dirette per l'efficienza della memoria: utilizzando i ranghi ottimali, FlexMoRE produce prestazioni migliori sul task downstream (punteggio medio 47.18) rispetto al baseline FlexOlmo-style di esperti a dimensione piena (punteggio medio 45.46) con meno di un terzo dei parametri (10.75B per FlexMoRE vs. 33.27B per FlexOlmo). Tutto il codice sarà reso disponibile.
Introduciamo Aster, un agente di intelligenza artificiale per la scoperta scientifica autonoma in grado di operare a una velocità oltre 20 volte superiore rispetto ai framework esistenti. Dato un compito, un programma iniziale e uno script per valutare le prestazioni del programma, Aster migliora iterativamente il programma, raggiungendo spesso nuove prestazioni all'avanguardia. La significativa riduzione del numero di iterazioni necessarie per una scoperta innovativa operata da Aster amplia il dominio dei problemi trattabili, includendo compiti con durate di valutazione lunghe, come le sessioni di addestramento di machine learning della durata di diverse ore. Abbiamo applicato Aster a problemi di matematica, ingegneria di kernel GPU, biologia, neuroscienze e addestramento di modelli linguistici. Nello specifico: il problema di Erdős della sovrapposizione minima, l'ottimizzazione del kernel TriMul, un problema di denoising nell'analisi di cellule singole, l'addestramento di un modello di previsione dell'attività neurale per ottenere buone prestazioni su ZAPBench e la NanoGPT Speedrun Competition. Aster ottiene risultati all'avanguardia in ogni compito, ad eccezione di ZAPBench, dove eguaglia le prestazioni della miglior soluzione umana utilizzando meno di 1/190esimo della potenza di calcolo. Aster è accessibile tramite un'interfaccia web e un'API all'indirizzo asterlab.ai.
La generazione aumentata dal recupero (RAG) migliora il ragionamento dei modelli linguistici di grandi dimensioni (LLM) in compiti ad alta intensità di conoscenza, ma le pipeline RAG esistenti comportano un sovraccarico sostanziale di recupero e generazione quando applicate al matching di entità su larga scala. Per affrontare questa limitazione, introduciamo CE-RAG4EM, un'architettura RAG efficiente in termini di costi che riduce il calcolo attraverso un recupero e una generazione in batch basati sul blocking. Presentiamo inoltre un framework unificato per analizzare e valutare i sistemi RAG per il matching di entità, concentrandosi su ottimizzazioni consapevoli del blocking e sulla granularità del recupero. Esperimenti estesi suggeriscono che CE-RAG4EM può ottenere una qualità di matching comparabile o migliorata, riducendo sostanzialmente il tempo di esecuzione end-to-end rispetto a baseline solide. La nostra analisi rivela inoltre che i parametri di configurazione chiave introducono un compromesso intrinseco tra prestazioni e sovraccarico, offrendo una guida pratica per la progettazione di sistemi RAG efficienti e scalabili per il matching di entità e l'integrazione di dati.
Le equazioni alle derivate parziali sono precise nella modellizzazione dei fenomeni fisici, biologici e grafici. Tuttavia, i metodi numerici soffrono della maledizione della dimensionalità, degli elevati costi computazionali e della discretizzazione specifica per dominio. Il nostro obiettivo è esplorare i pro e i contro dei diversi risolutori di PDE e applicarli a problemi specifici di simulazione scientifica, inclusi la soluzione diretta, i problemi inversi e la scoperta di equazioni. In particolare, estendiamo il recente risolutore del framework CNF (NeurIPS 2023) a impostazioni multi-variabile-dipendente e non lineari, insieme ad applicazioni downstream. I risultati includono l'implementazione di metodi selezionati, tecniche di auto-ottimizzazione, valutazione su problemi benchmark e una rassegna completa dei risolutori neurali di PDE e delle applicazioni nella simulazione scientifica.
I moderni modelli linguistici (LM) tendono a memorizzare porzioni dei loro dati di addestramento ed emettere sequenze verbatim. Quando le fonti sottostanti sono sensibili o protette da copyright, tale riproduzione solleva questioni di consenso e compensazione per i creatori e rischi di conformità per gli sviluppatori. Proponiamo Anchored Decoding, un metodo plug-and-play applicabile durante l'inferenza per sopprimere la copiatura verbatim: esso consente di decodificare da qualsiasi LM rischioso addestrato su dati con licenze miste mantenendo la generazione in prossimità vincolata di un LM sicuro addestrato su licenze permissive. Anchored Decoding alloca in modo adattivo un budget informativo scelto dall'utente lungo la traiettoria di generazione e applica vincoli per ogni passo che producono una garanzia a livello di sequenza, consentendo un compromesso regolabile tra rischio e utilità. Per rendere Anchored Decoding praticamente utile, introduciamo un nuovo modello sicuro addestrato in modo permissivo (TinyComma 1.8B), nonché Anchored_{Byte} Decoding, una variante a livello di byte del nostro metodo che consente la fusione cross-vocabolario tramite il framework ByteSampler (Hayase et al., 2025). Valutiamo i nostri metodi su sei coppie di modelli mediante valutazioni long-form del rischio di copyright e dell'utilità. Anchored e Anchored_{Byte} Decoding definiscono una nuova frontiera di Pareto, preservando una fluidità e factualità quasi originali eliminando fino al 75% del divario misurabile di copiatura (mediato su sei metriche di copia) tra la baseline rischiosa e un riferimento sicuro, con un modesto overhead di inferenza.
La comprensione delle emozioni è fondamentale per lo sviluppo di agenti socialmente intelligenti. Sebbene i recenti modelli linguistici multimodali di grandi dimensioni abbiano dimostrato prestazioni elevate in questo compito, permangono due sfide principali: associazioni spurie tra emozioni e segnali audiovisivi irrilevanti, e allucinazioni di segnali audiovisivi guidate dai preconcetti testuali nell'architettura del modello linguistico sottostante. Per quantificare e comprendere questi problemi, introduciamo EmoReAlM, un benchmark progettato per valutare i MLLM riguardo alle associazioni cue-emozione, alle allucinazioni e all'accordo modale. Proponiamo quindi AVEm-DPO, una tecnica di ottimizzazione delle preferenze che allinea le risposte del modello sia con gli input audiovisivi che con le query incentrate sulle emozioni. Nello specifico, costruiamo preferenze su risposte che mostrano associazioni spurie o allucinazioni, e su coppie di input audiovisivi guidate da prompt testuali. Includiamo anche un termine di regolarizzazione che penalizza la dipendenza dai preconcetti testuali, mitigando così le allucinazioni di cue specifici della modalità. I risultati sperimentali su DFEW, RAVDESS e EMER dimostrano che il nostro metodo migliora significativamente le prestazioni dei modelli baseline di riferimento con guadagni prestazionali relativi del 6-19% in contesti zero-shot. Fornendo sia un benchmark rigoroso che un solido framework di ottimizzazione, questo lavoro consente una valutazione e un miglioramento principiati dei MLLM per la comprensione emotiva e l'IA sociale. Codice, modelli e benchmark saranno rilasciati su https://avere-iclr.github.io.
Gli embedding testuali abilitano numerose applicazioni di NLP ma affrontano seri rischi per la privacy a causa di attacchi di inversione degli embedding, che possono esporre attributi sensibili o ricostruire il testo grezzo. Le difese esistenti con privacy differenziale presuppongono una sensibilità uniforme tra le dimensioni degli embedding, portando a rumore eccessivo e utilità degradata. Proponiamo SPARSE, un framework centrato sull'utente per la protezione della privacy specifica per concetti negli embedding testuali. SPARSE combina (1) l'apprendimento di maschere differenziabili per identificare le dimensioni sensibili per concetti definiti dall'utente, e (2) il meccanismo di Mahalanobis che applica rumore ellittico calibrato in base alla sensibilità dimensionale. A differenza dell'iniezione tradizionale di rumore sferico, SPARSE perturba selettivamente le dimensioni sensibili preservando la semantica non sensibile. Valutato su sei dataset con tre modelli di embedding e scenari di attacco, SPARSE riduce costantemente la perdita di privacy raggiungendo prestazioni downstream superiori rispetto ai metodi DP allo stato dell'arte.
I modelli linguistici di grandi dimensioni (LLM) promettono di accelerare la scoperta scientifica ragionando attraverso il panorama scientifico in continua espansione. Tuttavia, la sfida non è più l'accesso all'informazione, ma il collegarla in modi significativi e trasversali ai domini. Nella scienza dei materiali, dove l'innovazione richiede l'integrazione di concetti che spaziano dalla chimica molecolare alle prestazioni meccaniche, questa sfida è particolarmente pressante. Né gli esseri umani né gli LLM ad agente singolo possono affrontare appieno questo torrente di informazioni, con i secondi spesso inclini ad allucinazioni. Per affrontare questo collo di bottiglia, introduciamo un framework multi-agente guidato da grafi della conoscenza su larga scala per trovare sostituti sostenibili per le sostanze per- e polifluoroalchiliche (PFAS), composti attualmente sotto intenso scrutinio normativo. Gli agenti nel framework sono specializzati nella scomposizione dei problemi, nel recupero delle evidenze, nell'estrazione dei parametri di progettazione e nell'attraversamento del grafo, scoprendo connessioni latenti tra diversi ambiti conoscitivi per supportare la generazione di ipotesi. Studi di ablazione mostrano che la pipeline multi-agente completa supera il prompting in singolo passaggio, sottolineando il valore della specializzazione distribuita e del ragionamento relazionale. Dimostriamo che, adattando le strategie di attraversamento del grafo, il sistema alterna tra ricerche di sfruttamento focalizzate su risultati critici per il dominio e ricerche esplorative che fanno emergere connessioni trasversali. Illustrato attraverso l'esempio dei tubi biomedicali, il framework genera alternative sostenibili prive di PFAS che bilanciano prestazioni tribologiche, stabilità termica, resistenza chimica e biocompatibilità. Questo lavoro stabilisce un framework che combina grafi della conoscenza con il ragionamento multi-agente per espandere lo spazio di progettazione dei materiali, mostrando diversi candidati progettuali iniziali per dimostrare l'approccio.
La scoperta causale è essenziale per far progredire campi guidati dai dati come l'IA scientifica e l'analisi dei dati, ma gli approcci esistenti affrontano significativi colli di bottiglia in termini di efficienza temporale e spaziale quando si adattano a grafi di grandi dimensioni. Per affrontare questa sfida, presentiamo CauScale, un'architettura neurale progettata per una scoperta causale efficiente che scala l'inferenza a grafi con fino a 1000 nodi. CauScale migliora l'efficienza temporale tramite un'unità di riduzione che comprime gli embedding dei dati e migliora l'efficienza spaziale adottando pesi di attenzione legati per evitare di mantenere mappe di attenzione specifiche per asse. Per mantenere un'elevata accuratezza nella scoperta causale, CauScale adotta un design a due flussi: un flusso di dati estrae evidenze relazionali da osservazioni ad alta dimensionalità, mentre un flusso di grafo integra prior statistici grafici e preserva segnali strutturali chiave. CauScale scala con successo a grafi di 500 nodi durante l'addestramento, dove i lavori precedenti falliscono a causa di limitazioni di spazio. Su dati di test con diverse scale di grafo e meccanismi causali, CauScale raggiunge il 99.6% di mAP su dati in-distribuzione e l'84.4% su dati out-of-distribution, offrendo al contempo un'accelerazione nell'inferenza da 4 a 13.000 volte rispetto ai metodi precedenti. La nostra pagina del progetto è disponibile all'indirizzo https://github.com/OpenCausaLab/CauScale.
Il moto collettivo nei banchi di pesci esemplifica l'auto-organizzazione emergente nei sistemi di materia attiva, tuttavia gli strumenti computazionali per simulare e analizzare queste dinamiche rimangono frammentati tra i gruppi di ricerca. Presentiamo dewi-kadita, una libreria Python open-source che implementa il modello tridimensionale basato sulle zone di Couzin con diagnostiche di entropia complete specifiche per la ricerca sul comportamento collettivo marino. La libreria introduce sette metriche teorico-informatiche – entropia di coesione del banco, entropia di polarizzazione, entropia di stratificazione in profondità, entropia del momento angolare, entropia del vicino più prossimo, entropia di correlazione delle velocità ed entropia della forma del banco – che caratterizzano distinti aspetti organizzativi inaccessibili ai parametri d'ordine classici. Queste metriche si combinano in un Indice di Sciamamento Oceanico (OSI) che fornisce una misura scalare unica del disordine collettivo. La validazione su quattro configurazioni canoniche (sciame, toro, parallelo dinamico, altamente parallelo) conferma la corretta riproduzione di comportamenti di fase noti: lo sciame mantiene il disordine con polarizzazione P < 0.1 e OSI ≈ 0.71, mentre lo stato altamente parallelo raggiunge P = 0.998 con OSI = 0.24 e l'entropia di correlazione delle velocità che si annulla. Il framework entropico distingue con successo le configurazioni a toro e parallelo dinamico, che mostrano magnitudini comparabili dei parametri d'ordine attraverso meccanismi organizzativi diversi. La compilazione just-in-time (JIT) di Numba accelera i calcoli delle interazioni a coppie di 10-100 volte, consentendo simulazioni di 150-250 agenti su 1000-2000 passi temporali entro cinque minuti su hardware workstation standard. L'output in formato NetCDF4 garantisce l'interoperabilità con gli strumenti di analisi oceanografica. La libreria risponde all'esigenza di un'infrastruttura standardizzata e riproducibile per la modellazione del comportamento collettivo, analoga ai codici consolidati per la dinamica molecolare.
Recenti ricerche dimostrano che gli obiettivi di Allineamento delle Preferenze (PA) agiscono come stimatori della divergenza tra distribuzioni di risposte allineate (scelte) e non allineate (scartate). In questo lavoro, estendiamo questa prospettiva basata sulla divergenza a contesti generali di allineamento, come il reinforcement learning con ricompense verificabili (RLVR), dove sono disponibili solo ricompense ambientali. All'interno di questo quadro unificato, proponiamo f-Group Relative Policy Optimization (f-GRPO), una classe di algoritmi di reinforcement learning on-policy, e f-Hybrid Alignment Loss (f-HAL), obiettivi ibridi on/off-policy, per l'allineamento generale di LLM basati sulla rappresentazione variazionale delle f-divergenze. Forniamo garanzie teoriche che queste classi di obiettivi migliorino la ricompensa media dopo l'allineamento. Empiricamente, convalidiamo il nostro framework sia su compiti RLVR (Ragionamento Matematico) che PA (Allineamento alla Sicurezza), dimostrando prestazioni e flessibilità superiori rispetto ai metodi attuali.
La Ricerca Multimodale Universale (UMR) mira a consentire ricerche da-qualsiasi-a-qualsiasi attraverso testo e immagini, ma i moderni modelli di embedding rimangono fragili quando le query richiedono ragionamento latente (ad esempio, risolvere riferimenti sottospecificati o soddisfare vincoli composizionali). Sosteniamo che questa fragilità sia spesso indotta dai dati: quando le immagini contengono evidenze "silenti" e le query lasciano implicita la semantica chiave, un singolo passaggio di embedding deve sia ragionare che comprimere, incoraggiando un matching spurio delle feature. Proponiamo un framework data-centric che dissocia questi ruoli esternalizzando il ragionamento prima della retrieval. Utilizzando un forte Modello Visione-Linguaggio, rendiamo esplicita la semantica implicita generando descrizioni dense dell'evidenza visiva nelle voci del corpus, risolvendo riferimenti multimodali ambigui nelle query e riscrivendo istruzioni verbose in vincoli di retrieval concisi. Il potenziamento al solo momento dell'inferenza non è sufficiente; il retriever deve essere addestrato su queste rappresentazioni semanticamente dense per evitare uno shift distributivo e sfruttare appieno il segnale aggiunto. Su M-BEIR, il nostro metodo di training arricchito con il ragionamento produce guadagni consistenti rispetto a baseline solide, con ablazioni che mostrano come il potenziamento del corpus avvanti principalmente query ad alta intensità di conoscenza, mentre il potenziamento della query è cruciale per richieste di modifica composizionale. Rilasciamo pubblicamente il nostro codice all'indirizzo https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Presentiamo la prima formalizzazione completa in Lean 4 della teoria dell'apprendimento statistico (SLT) basata sulla teoria dei processi empirici. La nostra infrastruttura formale end-to-end implementa i contenuti mancanti nell'ultima libreria Lean 4 Mathlib, includendo uno sviluppo completo della concentrazione Gaussiana-Lipschitz, la prima formalizzazione del teorema dell'integrale di entropia di Dudley per processi sub-gaussiani e un'applicazione alla regressione ai minimi quadrati (sparsa) con un tasso ottimale. Il progetto è stato realizzato utilizzando un flusso di lavoro collaborativo uomo-IA, in cui gli esseri umani progettano le strategie di dimostrazione e gli agenti di IA eseguono la costruzione tattica delle prove, portando alla creazione di una toolbox verificata da umani in Lean 4 per la SLT. Oltre all'implementazione, il processo di formalizzazione espone e risolve assunzioni implicite e dettagli mancanti nei manuali standard di SLT, imponendo una comprensione granulare, riga per riga, della teoria. Questo lavoro stabilisce una base formale riutilizzabile e apre la porta a futuri sviluppi nella teoria dell'apprendimento automatico. Il codice è disponibile all'indirizzo https://github.com/YuanheZ/lean-stat-learning-theory.