Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi di memoria sono componenti chiave che consentono ai sistemi di intelligenza artificiale, come i LLM e gli agenti IA, di raggiungere un apprendimento a lungo termine e un'interazione prolungata. Tuttavia, durante l'archiviazione e il recupero della memoria, questi sistemi mostrano frequentemente allucinazioni mnemoniche, inclusa fabbricazione, errori, conflitti e omissioni. Le valutazioni esistenti delle allucinazioni mnemoniche sono principalmente basate su question answering end-to-end, il che rende difficile localizzare la fase operativa all'interno del sistema di memoria in cui le allucinazioni si originano. Per affrontare questo problema, introduciamo l'Hallucination in Memory Benchmark (HaluMem), il primo benchmark di valutazione delle allucinazioni a livello operativo specificamente progettato per i sistemi di memoria. HaluMem definisce tre task di valutazione (estrazione della memoria, aggiornamento della memoria e question answering sulla memoria) per rivelare in modo completo i comportamenti allucinatori attraverso le diverse fasi operative dell'interazione. Per supportare la valutazione, abbiamo costruito dataset di interazione multi-turno uomo-IA incentrati sull'utente, HaluMem-Medium e HaluMem-Long. Entrambi includono circa 15k punti di memoria e 3.5k domande di tipo multiplo. La lunghezza media del dialogo per utente raggiunge rispettivamente 1.5k e 2.6k turni, con lunghezze del contesto che superano 1M di token, consentendo la valutazione delle allucinazioni su diverse scale di contesto e complessità dei task. Studi empirici basati su HaluMem mostrano che i sistemi di memoria esistenti tendono a generare e accumulare allucinazioni durante le fasi di estrazione e aggiornamento, che successivamente propagano errori alla fase di question answering. La ricerca futura dovrebbe concentrarsi sullo sviluppo di meccanismi di operazione della memoria interpretabili e vincolati che sopprimano sistematicamente le allucinazioni e migliorino l'affidabilità della memoria.
I recenti progressi negli agenti di ricerca approfondita hanno mostrato potenzialità per la costruzione autonoma di conoscenza attraverso ragionamento dinamico su fonti esterne. Tuttavia, gli approcci esistenti si basano su un paradigma mono-contestuale che accumula tutte le informazioni in un'unica finestra contestuale in espansione, portando a soffocamento contestuale e contaminazione da rumore che ne limitano l'efficacia su compiti a lungo termine. Introduciamo IterResearch, un nuovo paradigma iterativo di ricerca approfondita che riformula la ricerca a lungo termine come un Processo Decisionale di Markov con ricostruzione strategica dello spazio di lavoro. Mantenendo un report in evoluzione come memoria e sintetizzando periodicamente le intuizioni, il nostro approccio preserva capacità di ragionamento consistenti a qualsiasi profondità di esplorazione. Sviluppiamo inoltre l'Ottimizzazione della Politica con Consapevolezza dell'Efficienza (EAPO), un framework di apprendimento per rinforzo che incentiva l'esplorazione efficiente attraverso lo sconto geometrico della ricompensa e abilita l'addestramento distribuito stabile mediante campionamento ridotto adattivo. Esperimenti estensivi dimostrano che IterResearch raggiunge miglioramenti sostanziali rispetto agli agenti open-source esistenti con una media di +14,5 punti percentuali su sei benchmark e riduce il divario con i sistemi proprietari all'avanguardia. Notevolmente, il nostro paradigma mostra una scalabilità dell'interazione senza precedenti, estendendosi fino a 2048 interazioni con guadagni prestazionali drammatici (dal 3,5% al 42,5%), e funge da strategia di prompting efficace, migliorando i modelli all'avanguardia fino a 19,2 punti percentuali rispetto a ReAct su compiti a lungo termine. Questi risultati posizionano IterResearch come una soluzione versatile per il ragionamento a lungo termine, efficace sia come agente addestrato che come paradigma di prompting per modelli all'avanguardia.
I recenti modelli reasoning-first (ad esempio, OpenAI o1, DeepSeek R1) hanno stimolato una rinascita dell'interesse per RLVR. Tuttavia, i progressi sono dominati dalla matematica (ad esempio, AIME), mentre la generazione di codice per la programmazione competitiva è rimasta poco esplorata e la cura dei dati ha ricevuto meno attenzione rispetto alla progettazione degli algoritmi RL. Investigiamo come costruire dataset per RLVR (cioè prompt per RL) e presentiamo tecniche di addestramento pratiche che producono prestazioni elevate nella generazione di codice per programmazione competitiva. La nostra pipeline inizia con un fine-tuning supervisionato (SFT) distillato da forti modelli open-source, arricchito con dati per scopi generici e ad alta intensità di ragionamento. La RL segue poi un processo in due fasi con ricompense eseguibili basate su test case: prima, l'addestramento su un ampio set uniformemente distribuito di problemi di programmazione competitiva utilizzando Group Relative Policy Optimization (GRPO) con 8 rollout per prompt e una finestra di generazione delle risposte relativamente breve (ad esempio, 32k durante SFT e 24k in questa fase) per espandere l'entropia e mitigare ripetizioni e troncamenti; in secondo luogo, eseguiamo Pre-GRPO: aggiornamento su un piccolo set di alta qualità di problemi complessi con un ampio budget di rollout (64 rollout per prompt) sotto un curriculum a focus rigido che mantiene continuamente le istanze più difficili durante l'addestramento. Implementiamo il nostro metodo su Qwen2.5-32B e valutiamo su contest settimanali di LeetCode e Codeforces per evitare data leakage. Il modello risultante raggiunge prestazioni all'avanguardia tra i modelli di scala simile ed è comparabile a sistemi leader come DeepSeek v3.1 e Doubao-1.5-Thinking. Esaminiamo anche le tendenze di scalabilità e osserviamo una forte scalabilità RL su un modello MoE interno su larga scala. Il nostro studio condensa le migliori pratiche concise per la cura dei dati, l'espansione dell'entropia e la progettazione del curriculum in RLVR per la generazione di codice per programmazione competitiva.
Introduciamo STATION, un ambiente multi-agente ad universo aperto che modella un ecosistema scientifico in miniatura. Sfruttando le loro finestre di contesto estese, gli agenti nella Station possono intraprendere lunghe traiettorie scientifiche che includono la lettura di articoli dei colleghi, la formulazione di ipotesi, l'invio di codice, l'esecuzione di analisi e la pubblicazione di risultati. È importante sottolineare che non esiste un sistema centralizzato che coordini le loro attività: gli agenti sono liberi di scegliere le proprie azioni e sviluppare le proprie narrative all'interno della Station. Gli esperimenti dimostrano che gli agenti di IA nella Station raggiungono nuove prestazioni all'avanguardia su un'ampia gamma di benchmark, che spaziano dalla matematica alla biologia computazionale fino all'apprendimento automatico, superando in particolare AlphaEvolve nel problema dell'impacchettamento di cerchi. Un ricco arazzo di narrative emerge mentre gli agenti perseguono ricerche indipendenti, interagiscono con i pari e costruiscono su una storia cumulativa. Da queste narrative emergenti, nuovi metodi sorgono organicamente, come un nuovo algoritmo adattivo alla densità per l'integrazione di batch di scRNA-seq. La Station rappresenta un primo passo verso la scoperta scientifica autonoma guidata dal comportamento emergente in un ambiente ad universo aperto, incarnando un nuovo paradigma che va oltre l'ottimizzazione rigida.
Introduciamo PhysWorld, un framework che abilita l'apprendimento robotico tramite la generazione di video attraverso la modellazione del mondo fisico. I recenti modelli di generazione video possono sintetizzare dimostrazioni visive fotorealistiche a partire da comandi linguistici e immagini, offrendo una fonte di segnali di addestramento per la robotica potente ma ancora poco esplorata. Tuttavia, il trasferimento diretto dei movimenti pixel dai video generati ai robot trascura la fisica, risultando spesso in manipolazioni inaccurate. PhysWorld affronta questa limitazione accoppiando la generazione video con la ricostruzione del mondo fisico. Dati un'immagine singola e un comando di task, il nostro metodo genera video condizionati al task e ricostruisce il mondo fisico sottostante a partire dai video; i movimenti generati nel video vengono ancorati in azioni fisicamente accurate attraverso un apprendimento per rinforzo residuo centrato sugli oggetti, utilizzando il modello del mondo fisico. Questa sinergia trasforma una guida visiva implicita in traiettorie roboticamente eseguibili fisicamente, eliminando la necessità di raccolta di dati reali da robot e abilitando una manipolazione robotica generalizzabile zero-shot. Esperimenti su task del mondo reale diversificati dimostrano che PhysWorld migliora sostanzialmente l'accuratezza della manipolazione rispetto ad approcci precedenti. Visita https://pointscoder.github.io/PhysWorld_Web/ per i dettagli.
I modelli text-to-image si sono rapidamente evoluti da strumenti creativi occasionali a sistemi di livello professionale, raggiungendo livelli senza precedenti di qualità e realismo delle immagini. Tuttavia, la maggior parte dei modelli viene addestrata per mappare prompt brevi in immagini dettagliate, creando uno scarto tra l'input testuale scarso e gli output visivi ricchi. Questa discrepanza riduce la controllabilità, poiché i modelli spesso completano i dettagli mancanti in modo arbitrario, inclinando verso le preferenze medie dell'utente e limitando la precisione per un uso professionale. Affrontiamo questa limitazione addestrando il primo modello text-to-image open-source su didascalie lunghe e strutturate, dove ogni campione di training è annotato con lo stesso insieme di attributi granulari. Questo progetto massimizza la copertura espressiva e consente un controllo disaccoppiato sui fattori visivi. Per elaborare le didascalie lunghe in modo efficiente, proponiamo DimFusion, un meccanismo di fusione che integra token intermedi da un LLM leggero senza aumentare la lunghezza dei token. Introduciamo anche il protocollo di valutazione Text-as-a-Bottleneck Reconstruction (TaBR). Valutando quanto bene le immagini reali possono essere ricostruite attraverso un ciclo di captioning-generazione, TaBR misura direttamente la controllabilità e l'espressività, anche per didascalie molto lunghe dove i metodi di valutazione esistenti falliscono. Infine, dimostriamo i nostri contributi addestrando il modello su larga scala FIBO, raggiungendo un allineamento al prompt allo stato dell'arte tra i modelli open-source. I pesi del modello sono pubblicamente disponibili su https://huggingface.co/briaai/FIBO.
I modelli Sparse Mixture-of-Experts (MoE) sono stati ampiamente adottati nei recenti modelli linguistici di grandi dimensioni poiché consentono di aumentare efficientemente le capacità del modello senza incrementare i costi di inferenza. Tuttavia, le valutazioni su un ampio spettro di task downstream rivelano una sistematica sub-ottimalità dei router negli attuali LLM MoE, che si traduce in un divario prestazionale significativo (ad esempio, del 10-20% in accuratezza) rispetto a un routing ottimale. In questo articolo, dimostriamo che allineare la varietà (manifold) dei pesi di routing con quella dell'embedding del task può ridurre efficacemente questo divario e migliorare le prestazioni di generalizzazione dei modelli MoE. Il nostro metodo, "Routing Manifold Alignment (RoMA)", introduce un termine aggiuntivo di regolarizzazione sulla varietà nella funzione obiettivo del post-training e richiede solo un fine-tuning leggero dei router (mantenendo congelati gli altri parametri). Nello specifico, la regolarizzazione incoraggia i pesi di routing di ciascun campione ad avvicinarsi a quelli dei suoi vicini di successo (i cui pesi di routing portano a risposte corrette) in uno spazio di embedding del task. Di conseguenza, campioni relativi a task simili condivideranno scelte di esperti simili attraverso i vari layer. Costruire tali legami tra task ed esperti su campioni diversi è essenziale per ottenere una migliore generalizzazione. Inoltre, RoMA dimostra il vantaggio di unificare la comprensione del task (tramite modelli di embedding) con la generazione di soluzioni (tramite LLM MoE). Negli esperimenti, abbiamo applicato il fine-tuning ai router di OLMoE, DeepSeekMoE e Qwen3-MoE utilizzando RoMA. Le valutazioni su benchmark diversificati e ampi confronti con i baseline mostrano il sostanziale miglioramento apportato da RoMA.
In quanto mezzo chiave per l'interazione umana e lo scambio di informazioni, i servizi di social networking (SNS) pongono sfide uniche per i grandi modelli linguistici (LLM): carichi di lavoro eterogenei, norme e slang in rapida evoluzione, e corpora multilingue e culturalmente diversificati che inducono un forte spostamento di distribuzione. L'addestramento supervisionato (SFT) può specializzare i modelli ma spesso innesca un effetto "altalena" tra i guadagni in-distribuzione e la robustezza out-of-distribuzione, specialmente per i modelli più piccoli. Per affrontare queste sfide, presentiamo RedOne 2.0, un LLM orientato agli SNS addestrato con un paradigma di post-addestramento progressivo e prioritizzato per RL, progettato per un adattamento rapido e stabile. La pipeline consiste in tre fasi: (1) Apprendimento Esplorativo su corpora di SNS curati per stabilire un allineamento iniziale e identificare punti di debolezza sistemici; (2) Addestramento Mirato che applica selettivamente l'SFT alle lacune diagnosticate mescolando una piccola frazione di dati generali per mitigare la dimenticanza; e (3) Apprendimento di Raffinamento che riapplica la RL con segnali incentrati sugli SNS per consolidare i miglioramenti e armonizzare i compromessi tra i compiti. In varie attività che coprono tre categorie, il nostro modello da 4 miliardi di parametri fornisce un miglioramento medio di circa 2,41 punti rispetto al baseline subottimale da 7B. Inoltre, RedOne 2.0 ottiene un incremento prestazionale medio di circa 8,74 punti rispetto al modello base, utilizzando meno della metà dei dati richiesti dal metodo RedOne centrato sull'SFT, evidenziando una superiore efficienza dei dati e stabilità a scale compatte. Nel complesso, RedOne 2.0 stabilisce un baseline competitivo e conveniente per LLM specifici del dominio nello scenario degli SNS, avanzando le capacità senza sacrificare la robustezza.
L'avvento dei Modelli Linguistici Multimodali di Grande Scala (MLLM) ha esteso le capacità dell'IA alle modalità visive, tuttavia i benchmark di valutazione esistenti rimangono limitati alla comprensione di video singoli, trascurando l'esigenza critica della comprensione multi-video negli scenari del mondo reale (ad esempio, l'analisi sportiva e la guida autonoma). Per colmare questa significativa lacuna, introduciamo MVU-Eval, il primo benchmark completo per valutare la Comprensione Multi-Video negli MLLM. Nello specifico, il nostro MVU-Eval valuta principalmente otto competenze fondamentali attraverso 1.824 coppie domanda-risposta meticolosamente curate, che abbracciano 4.959 video provenienti da domini diversi, affrontando sia compiti di percezione di base che compiti di ragionamento di alto ordine. Queste capacità sono rigorosamente allineate con applicazioni del mondo reale come la sintesi multi-sensore nei sistemi autonomi e l'analisi sportiva multi-angolazione. Attraverso una valutazione estesa dei modelli open-source e closed-source all'avanguardia, riveliamo significative discrepanze prestazionali e limitazioni nella capacità degli MLLM attuali di eseguire comprensione attraverso video multipli. Il benchmark sarà reso pubblicamente disponibile per promuovere la ricerca futura.
La risoluzione di compiti complessi richiede solitamente che i LLM generino lunghe catene di ragionamento multi-step. Ricerche precedenti hanno dimostrato che verificare la correttezza dei singoli passaggi di ragionamento può ulteriormente migliorare le prestazioni e l'efficienza dei LLM su tali compiti e aumentare l'interpretabilità della soluzione. Tuttavia, gli approcci di verifica esistenti, come i Modelli di Ricompensa di Processo (PRM), sono computazionalmente costosi, limitati a domini specifici o richiedono annotazioni su larga scala generate da umani o modelli. Pertanto, proponiamo un'alternativa leggera per la verifica del ragionamento a livello di passo basata su punteggi di incertezza guidati dai dati. Addestriamo testine di quantificazione dell'incertezza (UHeads) basate su transformer che utilizzano gli stati interni di un LLM congelato per stimare l'incertezza dei suoi passaggi di ragionamento durante la generazione. L'approccio è completamente automatico: le etichette target sono generate da un altro LLM più grande (ad esempio, DeepSeek R1) o in modo auto-supervisionato dal modello originale stesso. Le UHeads sono sia efficaci che leggere, contenendo meno di 10 milioni di parametri. In molteplici domini, inclusi matematica, pianificazione e risposta a domande di cultura generale, esse eguagliano o addirittura superano le prestazioni di PRM fino a 810 volte più grandi. I nostri risultati suggeriscono che gli stati interni dei LLM codificano la loro incertezza e possono servire come segnali affidabili per la verifica del ragionamento, offrendo una direzione promettente verso LLM introspe
I recenti progressi nei modelli linguistici a ricorrenza di profondità dimostrano che la ricorrenza può disaccoppiare il calcolo in fase di addestramento e il numero di parametri dal calcolo in fase di test. In questo lavoro, studiamo come convertire modelli linguistici preaddestrati non ricorrenti esistenti in modelli a ricorrenza di profondità. Scopriamo che l'utilizzo di un curriculum di ricorrenze per aumentare progressivamente la profondità effettiva del modello durante l'addestramento preserva le prestazioni riducendo al contempo il costo computazionale totale. Nei nostri esperimenti, in ambito matematico, osserviamo che convertire modelli preaddestrati in modelli ricorrenti produce prestazioni migliori a parità di budget computazionale rispetto al semplice post-addestramento del modello linguistico non ricorrente originale.
Il paradigma del soft-thinking per il ragionamento dei Large Language Model (LLM) può superare in alcune situazioni il convenzionale ragionamento a catena del pensiero (CoT) basato su token discreti, sottolineandone il valore di ricerca e applicativo. Tuttavia, mentre il pattern di ragionamento CoT a token discreti può essere rafforzato tramite algoritmi di ottimizzazione delle policy come il group relative policy optimization (GRPO), estendere il pattern soft-thinking con il Reinforcement Learning (RL) rimane complesso. Questa difficoltà deriva dalle complessità legate all'iniezione di stocasticità nei token soft-thinking e all'aggiornamento conseguente delle policy soft-thinking. Di conseguenza, i precedenti tentativi di combinare il soft-thinking con GRPO tipicamente ottengono prestazioni inferiori rispetto alle controparti GRPO a token discreti. Per sbloccare appieno il potenziale del soft-thinking, questo articolo presenta un nuovo algoritmo di ottimizzazione delle policy, SofT-GRPO, per rafforzare gli LLM secondo il pattern di ragionamento soft-thinking. SofT-GRPO inietta rumore di Gumbel nei logit, utilizza la tecnica Gumbel-Softmax per evitare che i token soft-thinking cadano al di fuori dello spazio di embedding pre-addestrato, e sfrutta il reparameterization trick nel policy gradient. Abbiamo condotto esperimenti su LLM di base con parametri da 1.5B a 7B, e i risultati dimostrano che SofT-GRPO consente agli LLM soft-thinking di superare leggermente il GRPO a token discreti su Pass@1 (+0.13% sulla precisione media), mostrando al contempo un sostanziale miglioramento su Pass@32 (+2.19% sulla precisione media). I codici e i pesi sono disponibili su https://github.com/zz1358m/SofT-GRPO-master.
Introduciamo il Reinforcement Learning (RL) con Ambienti Verificabili Adattivi (RLVE), un approccio che utilizza ambienti verificabili in grado di generare proceduralmente problemi e fornire ricompense verificabili algoritmicamente, per scalare il RL per i modelli linguistici (LM). RLVE consente a ciascun ambiente verificabile di adattare dinamicamente la distribuzione della difficoltà dei problemi alle capacità del modello di policy man mano che l'addestramento procede. Al contrario, le distribuzioni di dati statiche spesso portano a segnali di apprendimento che svaniscono quando i problemi sono troppo facili o troppo difficili per la policy. Per implementare RLVE, abbiamo creato RLVE-Gym, una suite su larga scala di 400 ambienti verificabili, sviluppati accuratamente attraverso un'ingegneria manuale degli ambienti. Utilizzando RLVE-Gym, dimostriamo che il ridimensionamento degli ambienti, ovvero l'espansione della collezione di ambienti di addestramento, migliora costantemente le capacità di ragionamento generalizzabili. RLVE con addestramento congiunto su tutti i 400 ambienti in RLVE-Gym produce un miglioramento medio assoluto del 3,37% su sei benchmark di ragionamento, partendo da uno dei più potenti LM da 1,5B per il ragionamento. In confronto, proseguire l'addestramento RL originale di questo LM produce solo un guadagno medio assoluto dello 0,49%, nonostante utilizzi oltre 3 volte più potenza di calcolo. Rilasciamo pubblicamente il nostro codice.
Gli agenti autonomi guidati da Large Language Model (LLM) hanno rivoluzionato il ragionamento e la risoluzione di problemi, ma rimangono statici dopo l'addestramento, incapaci di evolversi con l'esperienza come fanno gli esseri intelligenti durante il dispiegamento. Introduciamo Forward Learning with EXperience (FLEX), un paradigma di apprendimento senza gradienti che consente agli agenti LLM di evolversi continuamente attraverso l'esperienza accumulata. Nello specifico, FLEX coltiva un'evoluzione scalabile ed ereditabile costruendo una libreria di esperienze strutturata attraverso la riflessione continua su successi e fallimenti durante l'interazione con l'ambiente. FLEX apporta miglioramenti sostanziali nel ragionamento matematico, nella retrosintesi chimica e nella previsione di fitness proteico (fino al 23% su AIME25, 10% su USPTO50k e 14% su ProteinGym). Identifichiamo inoltre una chiara legge di scala della crescita esperienziale e il fenomeno dell'ereditarietà dell'esperienza tra agenti, segnando un passo verso un'evoluzione continua degli agenti scalabile ed ereditabile. Pagina del progetto: https://flex-gensi-thuair.github.io.
Presentiamo llama-embed-nemotron-8b, un modello di embedding del testo con pesi open-source che raggiunge prestazioni allo stato dell'arte sulla leaderboard del Multilingual Massive Text Embedding Benchmark (MMTEB) aggiornata al 21 ottobre 2025. Sebbene i modelli recenti mostrino prestazioni elevate, i loro dati o metodologie di addestramento spesso non sono completamente divulgati. Il nostro obiettivo è colmare questa lacuna sviluppando un modello completamente open-source, rilasciandone pubblicamente i pesi e dettagliati studi di ablazione, e pianificando di condividere i dataset di addestramento curati. Il nostro modello dimostra prestazioni superiori in tutte le principali attività di embedding — incluse retrieval, classificazione e similarità semantica testuale (STS) — ed eccelle in scenari multilingue complessi, come lingue a risorse limitate e configurazioni cross-linguali. Queste prestazioni all'avanguardia sono guidate da una miscela di dati innovativa di 16,1 milioni di coppie query-documento, suddivisa tra 7,7 milioni di campioni da dataset pubblici e 8,4 milioni di esempi generati sinteticamente da vari LLM open-source. Uno dei nostri contributi chiave è uno studio di ablazione dettagliato che analizza le scelte progettuali fondamentali, includendo un confronto tra le implementazioni di loss contrastiva, una valutazione delle strategie di generazione sintetica dei dati (SDG) e l'impatto del merging di modelli. Il modello llama-embed-nemotron-8b è instruction-aware, supportando istruzioni definite dall'utente per migliorare le prestazioni per casi d'uso specifici. Questa combinazione di prestazioni di primo livello, ampia applicabilità e flessibilità guidata dall'utente lo rende una soluzione universale per l'embedding del testo.
La generazione di modelli CAD 3D modificabili a partire dal linguaggio naturale rimane una sfida, poiché i sistemi esistenti text-to-CAD producono mesh o si basano su scarsi dati di cronologia di progettazione. Presentiamo NURBGen, il primo framework in grado di generare modelli CAD 3D ad alta fedeltà direttamente dal testo utilizzando B-Spline Razionali Non Uniformi (NURBS). Per ottenere questo risultato, ottimizziamo un modello linguistico di grandi dimensioni (LLM) per tradurre testi in linguaggio libero in rappresentazioni JSON contenenti i parametri delle superfici NURBS (ovvero punti di controllo, vettori nodo, gradi e pesi razionali), che possono essere convertiti direttamente in formato BRep utilizzando Python. Proponiamo inoltre una rappresentazione ibrida che combina NURBS non tagliate con primitive analitiche per gestire in modo più robusto le superfici tagliate e le regioni degeneri, riducendo al contempo la complessità dei token. In aggiunta, introduciamo partABC, un sottoinsieme curato del dataset ABC costituito da singoli componenti CAD, annotati con descrizioni dettagliate mediante una pipeline di annotazione automatizzata. NURBGen dimostra prestazioni solide su prompt diversificati, superando i metodi precedenti in termini di fedeltà geometrica e accuratezza dimensionale, come confermato da valutazioni di esperti. Il codice e il dataset saranno rilasciati pubblicamente.
Sebbene il Reinforcement Learning for Verifiable Rewards (RLVR) sia potente per l'addestramento di grandi modelli di ragionamento, le sue dinamiche di training nascondono una sfida critica: l'overfitting da RL, in cui i modelli ottengono ricompense in addestramento ma perdono capacità di generalizzazione. La nostra analisi rivela che questo fenomeno è guidato da una sovraspecializzazione della policy e da una dimenticanza catastrofica delle soluzioni diversificate generate durante il training. L'ottimizzazione standard scarta questa preziosa diversità di policy intermedia. Per affrontare questo problema, introduciamo RLoop, un framework di auto-miglioramento basato sull'inizializzazione iterativa della policy. RLoop trasforma il processo di training standard in un circolo virtuoso: prima utilizza il RL per esplorare lo spazio delle soluzioni a partire da una policy data, poi filtra le traiettorie di successo per creare un dataset esperto. Questo dataset viene utilizzato tramite il Rejection-sampling Fine-Tuning (RFT) per affinare la policy iniziale, creando un punto di partenza superiore per l'iterazione successiva. Questo ciclo di esplorazione e sfruttamento tramite re-inizializzazione iterativa converte efficacemente le variazioni transitorie della policy in guadagni robusti di performance. I nostri esperimenti mostrano che RLoop mitiga la dimenticanza e migliora sostanzialmente la generalizzazione, aumentando l'accuratezza media del 9% e la metrica pass@32 di oltre il 15% rispetto al RL standard.
L'apprendimento per rinforzo (RL) viene spesso riconosciuto per migliorare il ragionamento e la generalizzazione dei modelli linguistici a scapito del degrado della conoscenza memorizzata. Noi contestiamo questa narrativa osservando che i modelli potenziati con RL superano costantemente le loro controparti base e addestrate con fine-tuning supervisionato (SFT) in compiti di puro richiamo di conoscenza, in particolare quelli che richiedono l'attraversamento di conoscenze strutturate gerarchicamente (ad esempio, codici medici). Ipotesizziamo che questi guadagni non derivino da dati appena acquisiti, ma da capacità procedurali migliorate nel navigare e cercare all'interno delle gerarchie di conoscenza esistenti nei parametri del modello. Per supportare questa ipotesi, dimostriamo che il prompting strutturato, che guida esplicitamente i modelli SFT attraverso l'attraversamento gerarchico, recupera la maggior parte del divario di prestazione (riducendo da 24pp a 7pp su MedConceptsQA per DeepSeek-V3/R1). Inoltre, scopriamo che mentre il prompting migliora l'accuratezza della risposta finale, i modelli potenziati con RL mantengono una capacità superiore di ricordare i percorsi procedurali corretti in compiti di recupero profondo. Infine, la nostra analisi delle attivazioni interne strato per strato rivela che, mentre le rappresentazioni fattuali (ad esempio, le attivazioni per l'affermazione "il codice 57.95 si riferisce a un'infezione urinaria") mantengono un'alta similarità del coseno tra i modelli SFT e RL, le rappresentazioni delle query (ad esempio, "cos'è il codice 57.95") divergono in modo evidente, indicando che l'RL trasforma principalmente il modo in cui i modelli attraversano la conoscenza piuttosto che la rappresentazione della conoscenza stessa.
I recenti progressi nel ragionamento multimodale sono stati guidati in larga misura da dataset non divulgati e ricette proprietarie di sintesi dei dati, lasciando aperte questioni su come costruire sistematicamente dataset di ragionamento su larga scala e incentrati sulla visione, in particolare per compiti che vanno oltre la matematica visiva. In questo lavoro, introduciamo un nuovo framework di generazione di dati di ragionamento che abbraccia abilità diverse e livelli di complessità con oltre 1 milione di domande sintetiche di alta qualità e incentrate sulla visione. Il dataset include anche dati di preferenza e prompt di istruzione che supportano sia il RL offline che online. Il nostro framework di sintesi procede in due fasi: (1) scala; e (2) complessità. Le tracce di ragionamento vengono poi sintetizzate attraverso un processo a due stadi che sfrutta VLM e LLM di ragionamento, producendo tracce CoT per VLM che catturano la ricchezza e i diversi comportamenti cognitivi presenti nei modelli di ragionamento all'avanguardia. In modo notevole, dimostriamo che il fine-tuning di Qwen2.5-VL-7B sui nostri dati supera tutti i baseline open-data in tutti i benchmark incentrati sulla visione valutati, e supera persino modelli closed-data forti come MiMo-VL-7B-RL su V* Bench, CV-Bench e MMStar-V. Forse ancor più sorprendente, nonostante sia interamente incentrato sulla visione, i nostri dati trasferiscono positivamente al ragionamento puramente testuale (MMLU-Pro) e al ragionamento audio (MMAU), dimostrandone l'efficacia. Analogamente, pur non contenendo video o dati visivi embodied, osserviamo guadagni significativi quando valutati su un benchmark di QA embodied a evidenza singola (NiEH). Infine, utilizziamo i nostri dati per analizzare l'intera pipeline di post-training dei VLM. La nostra analisi empirica evidenzia che (i) il SFT su dati di alta qualità con tracce di ragionamento non lineari è essenziale per un RL online efficace, (ii) il RL offline a stadi eguaglia le prestazioni del RL online riducendo le esigenze computazionali, e (iii) un SFT accurato su dati di alta qualità può migliorare sostanzialmente il trasferimento out-of-domain e cross-modalità.
Gli agenti di IA in grado di controllare le interfacce utente hanno il potenziale di trasformare l'interazione umana con i dispositivi digitali. Per accelerare questa trasformazione, due elementi fondamentali sono essenziali: dataset di alta qualità che consentano agli agenti di raggiungere obiettivi complessi e rilevanti per l'uomo, e metodi di valutazione robusti che permettano a ricercatori e professionisti di migliorare rapidamente le prestazioni degli agenti. In questo articolo presentiamo DigiData, un dataset multimodale su larga scala, di alta qualità e diversificato, progettato per l'addestramento di agenti di controllo mobile. A differenza dei dataset esistenti, che derivano gli obiettivi da interazioni non strutturate, DigiData è meticolosamente costruito attraverso un'esplorazione completa delle funzionalità delle app, risultando in una maggiore diversità e una superiore complessità degli obiettivi. Inoltre, presentiamo DigiData-Bench, un benchmark per valutare gli agenti di controllo mobile su compiti complessi del mondo reale. Dimostriamo che la metrica comunemente utilizzata dell'accuratezza per step è inadeguata per valutare in modo affidabile gli agenti di controllo mobile e, per affrontare questa problematica, proponiamo protocolli di valutazione dinamica e valutazioni basate su IA come alternative rigorose per la valutazione degli agenti. I nostri contributi mirano a far avanzare significativamente lo sviluppo degli agenti di controllo mobile, aprendo la strada a interazioni uomo-dispositivo più intuitive ed efficaci.
La pittura indotta dalla musica è una pratica artistica unica, in cui opere visive vengono create sotto l'influenza della musica. Valutare se un dipinto rifletta fedelmente la musica che lo ha ispirato costituisce un impegnativo compito di valutazione percettiva. I metodi esistenti si basano principalmente su modelli di riconoscimento emotivo per valutare la somiglianza tra musica e pittura, ma tali modelli introducono un rumore considerevole e trascurano indizi percettivi più ampi oltre l'emozione. Per affrontare queste limitazioni, proponiamo una nuova struttura per la valutazione della pittura indotta dalla musica che modella direttamente la coerenza percettiva tra musica e arte visiva. Introduciamo MPD, il primo dataset su larga scala di coppie musica-dipinto annotato da esperti del settore sulla base della coerenza percettiva. Per gestire meglio i casi ambigui, raccogliamo ulteriori annotazioni di preferenza a coppie. Basandoci su questo dataset, presentiamo MPJudge, un modello che integra le caratteristiche musicali in un codificatore visivo attraverso un meccanismo di fusione basato sulla modulazione. Per apprendere efficacemente dai casi ambigui, adottiamo l'Optimizzazione Diretta della Preferenza per l'addestramento. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci esistenti. I risultati qualitativi mostrano inoltre che il nostro modello identifica più accuratamente le regioni rilevanti per la musica nei dipinti.
I rapidi progressi dei grandi modelli linguistici (LLM) hanno favorito numerose applicazioni, ma l'inferenza efficiente in batch singolo rimane vitale per l'intelligenza su dispositivo. Sebbene le FPGA offrano un controllo granulare dei dati e un'elevata efficienza energetica, le recenti ottimizzazioni delle GPU ne hanno ridotto il vantaggio, specialmente nelle computazioni basate su operazioni aritmetiche. Per superare questo limite, sfruttiamo l'abbondante memoria on-chip delle FPGA per spostare l'inferenza degli LLM da una computazione aritmetica a una basata su accessi in memoria tramite lookup table. Presentiamo LUT-LLM, il primo acceleratore su FPGA che abilita l'inferenza per LLM da 1B+ parametri mediante operazioni di memoria quantizzate vettorialmente. La nostra analisi identifica la co-quantizzazione attivazioni-pesi come lo schema più efficace, supportato da (1) una ricerca parallela dei centroidi consapevole della banda, (2) efficienti lookup table bidimensionali e (3) un design ibrido spaziale-temporale che minimizza la memorizzazione cache dei dati. Implementato su una FPGA AMD V80 per un modello personalizzato Qwen 3 da 1.7B, LUT-LLM raggiunge una latenza 1.66 volte inferiore rispetto ad AMD MI210 e un'efficienza energetica 1.72 volte superiore rispetto a NVIDIA A100, scalando fino a modelli da 32B con un guadagno di efficienza di 2.16x rispetto ad A100.
Grazie alla loro capacità di seguire istruzioni in linguaggio naturale, i modelli visione-linguaggio-azione (VLA) stanno diventando sempre più diffusi nell’ambito dell’IA incarnata, seguendo il successo su larga scala dei loro precursori — i modelli linguistici di grandi dimensioni (LLM) e i modelli visione-linguaggio (VLM). In questo articolo, discutiamo 10 traguardi principali nello sviluppo in corso dei modelli VLA: multimodalità, ragionamento, dati, valutazione, generalizzazione delle azioni tra robot diversi, efficienza, coordinamento corporeo totale, sicurezza, agenti e coordinamento con gli esseri umani. Inoltre, discutiamo le tendenze emergenti dell'uso della comprensione spaziale, della modellizzazione delle dinamiche del mondo, del post-addestramento e della sintesi dei dati — tutti finalizzati al raggiungimento di questi traguardi. Attraverso queste discussioni, speriamo di richiamare l'attenzione sulle direzioni di ricerca che potrebbero accelerare lo sviluppo dei modelli VLA verso una più ampia accettabilità.
I modelli di diffusione text-to-image forniscono immagini di alta qualità, ma allinearle alle preferenze umane rimane una sfida. Riconsideriamo l'Ottimizzazione Diretta delle Preferenze (DPO) basata su diffusione per questi modelli e identifichiamo una patologia critica: ampliare il margine di preferenza non migliora necessariamente la qualità della generazione. In particolare, l'obiettivo standard di Diffusion-DPO può aumentare l'errore di ricostruzione sia del ramo vincente che di quello perdente. Di conseguenza, il degrado degli output meno preferiti può diventare sufficientemente grave da influenzare negativamente anche il ramo preferito, nonostante la crescita del margine. Per affrontare questo problema, introduciamo Diffusion-SDPO, una regola di aggiornamento protetta che preserva il vincitore scalando in modo adattivo il gradiente del perdente in base al suo allineamento con il gradiente del vincitore. Un'analisi del primo ordine produce un coefficiente di scalatura in forma chiusa che garantisce che l'errore dell'output preferito non aumenti ad ogni passo di ottimizzazione. Il nostro metodo è semplice, indipendente dal modello, ampiamente compatibile con i framework di allineamento esistenti in stile DPO e aggiunge solo un sovraccarico computazionale marginale. Su benchmark text-to-image standard, Diffusion-SDPO fornisce miglioramenti consistenti rispetto ai baseline di apprendimento delle preferenze su metriche automatizzate di preferenza, estetiche e di allineamento al prompt. Il codice è pubblicamente disponibile all'indirizzo https://github.com/AIDC-AI/Diffusion-SDPO.
Presentiamo DIMO, un approccio generativo in grado di generare movimenti 3D diversificati per oggetti arbitrari a partire da una singola immagine. L'idea centrale del nostro lavoro è sfruttare i ricchi prior presenti in modelli video ben addestrati per estrarre i pattern di movimento comuni e incorporarli in uno spazio latente condiviso a bassa dimensionalità. Nello specifico, generiamo prima più video dello stesso oggetto con movimenti diversificati. Successivamente, incorporiamo ogni movimento in un vettore latente e addestriamo un decodificatore di movimento condiviso per apprendere la distribuzione dei movimenti rappresentata da una rappresentazione di movimento strutturata e compatta, ovvero le traiettorie neurali dei punti chiave. I Gaussiani 3D canonici sono quindi guidati da questi punti chiave e fusi per modellare la geometria e l'aspetto. Durante l'inferenza, con lo spazio latente appreso, possiamo campionare istantaneamente movimenti 3D diversificati in un singolo passaggio in avanti e supportare diverse applicazioni interessanti, tra cui l'interpolazione di movimento 3D e la generazione di movimento guidata dal linguaggio. La nostra pagina del progetto è disponibile all'indirizzo https://linzhanm.github.io/dimo.
Sebbene i modelli visione-linguaggio (VLM) addestrati in seguito con apprendimento per rinforzo (RL) dimostrino capacità di ragionamento generale impressionanti, la loro valutazione è spesso limitata a compiti dominati dal linguaggio (ad esempio, la matematica). Ciò solleva una questione cruciale: l'addestramento successivo con RL può veramente estendere il confine delle capacità intrinseche di un VLM di base, in particolare per compiti spaziali incentrati sulla vista in cui inizialmente fallisce? Per indagare ciò, introduciamo Ariadne, un framework che utilizza labirinti sintetici per il ragionamento spaziale multi-step, in cui la difficoltà del compito (ad esempio, lunghezza del percorso, svolte) è controllata con precisione. Sfruttiamo questo ambiente controllabile per addestrare i VLM utilizzando l'Apprendimento per Rinforzo con Ricompense Verificate (RLVR) in un curriculum consapevole della difficoltà. Sorprendentemente, dopo l'addestramento RLVR, il VLM raggiunge un'accuratezza superiore al 50% su un set di problemi in cui il modello base aveva ottenuto lo 0%, dimostrando che il nostro approccio espande il confine delle capacità iniziali del modello. Per valutarne la fattibilità nel mondo reale, valutiamo la generalizzazione fuori distribuzione (OOD) su benchmark pratici. Nonostante l'addestramento sia avvenuto solo su campioni di labirinti sintetici, Ariadne raggiunge miglioramenti zero-shot significativi, in media del 16% su MapBench (ad es., navigazione museale) e del 24% su ReasonMap (compiti di trasferimento in metropolitana). Questi risultati confermano che il nostro metodo non solo amplia i limiti fondamentali del modello, ma ne migliora anche la generalizzazione al ragionamento spaziale nel mondo reale. Riconosciamo che il nostro studio è limitato alla fase di post-addestramento, data l'opacità dei dati di pre-addestramento, e speriamo che la nostra ricerca motivi ulteriori lavori su un allineamento specializzato che estenda le capacità.
L'ottimizzazione delle prestazioni di repository software su larga scala richiede competenze nel ragionamento sul codice e nell'ingegneria del software (SWE) per ridurre il tempo di esecuzione preservando la correttezza del programma. Tuttavia, la maggior parte dei benchmark enfatizza *cosa* correggere piuttosto che *come* correggere il codice. Introduciamo SWE-fficiency, un benchmark per valutare l'ottimizzazione delle prestazioni a livello di repository su carichi di lavoro reali. La nostra suite contiene 498 task relativi a nove repository ampiamente utilizzati nell'ambito della data science, del machine learning e dell'HPC (ad es., numpy, pandas, scipy): dato un codebase completo e un carico di lavoro lento, un agente deve investigare la semantica del codice, localizzare i colli di bottiglia e i test rilevanti, e produrre una patch che eguagli o superi il miglioramento di velocità ottenuto da un esperto, superando gli stessi test unitari. Per abilitare questa valutazione sul *come* correggere, la nostra pipeline automatizzata raccoglie pull request da GitHub relative a modifiche per il miglioramento delle prestazioni, combinando filtraggio per parole chiave, analisi statica, strumenti di coverage e validazione dell'esecuzione per confermare sia i benchmark di miglioramento degli esperti che identificare i test unitari rilevanti del repository. La valutazione empirica degli agenti più all'avanguardia rivela una significativa sottoperformance. In media, gli agenti raggiungono meno di 0,15x il miglioramento di velocità degli esperti: gli agenti incontrano difficoltà nella localizzazione delle opportunità di ottimizzazione, nel ragionamento sull'esecuzione attraverso le funzioni e nel mantenere la correttezza nelle modifiche proposte. Rilasciamo il benchmark e la pipeline dati associata per facilitare la ricerca sull'ingegneria delle prestazioni automatizzata e sul ragionamento software a lungo termine.
La comprensione delle anomalie video (VAU) mira a fornire un'interpretazione dettagliata e una comprensione semantica degli eventi anomali all'interno dei video, superando i limiti dei metodi tradizionali che si concentrano esclusivamente sul rilevamento e sulla localizzazione delle anomalie. Tuttavia, gli approcci esistenti spesso trascurano le più profonde relazioni causali e le interazioni tra oggetti, elementi critici per la comprensione dei comportamenti anomali. In questo articolo, proponiamo VADER, un framework guidato da LLM per la comprensione delle anomalie video, che integra le feature relazionali degli oggetti nei fotogrammi chiave con i segnali visivi per migliorare la comprensione delle anomalie a partire dal video. Nello specifico, VADER applica prima un Anomaly Scorer per assegnare punteggi di anomalia per fotogramma, seguito da una strategia di Context-AwarE Sampling (CAES) per catturare il contesto causale di ogni evento anomalo. Un Relation Feature Extractor e un COntrastive Relation Encoder (CORE) modellano congiuntamente le interazioni dinamiche tra oggetti, producendo rappresentazioni relazionali compatte per il reasoning a valle. Questi segnali visivi e relazionali sono integrati con gli LLM per generare descrizioni dettagliate e causalmente fondate e supportare un robusto question answering relativo alle anomalie. Esperimenti su molteplici benchmark VAU del mondo reale dimostrano che VADER raggiunge risultati solidi nelle attività di descrizione, spiegazione e ragionamento causale delle anomalie, avanzando la frontiera dell'analisi spiegabile delle anomalie video.
Il Riconoscimento delle Emozioni nella Conversazione (ERC) è un compito cruciale per comprendere le emozioni umane e abilitare un'interazione uomo-computer naturale. Sebbene i Large Language Model (LLM) abbiano recentemente mostrato un grande potenziale in questo campo, la loro capacità di cogliere le connessioni intrinseche tra emozioni esplicite e implicite rimane limitata. Proponiamo un nuovo framework di addestramento ERC, PRC-Emo, che integra Prompt engineering, Retrieval di dimostrazioni e Curriculum learning, con l'obiettivo di esplorare se i LLM possano percepire efficacemente le emozioni in contesti conversazionali. Nello specifico, progettiamo template di prompt sensibili alle emozioni basati su segnali emotivi sia espliciti che impliciti per guidare meglio il modello nella comprensione degli stati psicologici del parlante. Costruiamo il primo repository dedicato al retrieval di dimostrazioni per l'ERC, che include campioni di addestramento da dataset ampiamente utilizzati, oltre a esempi di dialogo di alta qualità generati da LLM e verificati manualmente. Inoltre, introduciamo una strategia di curriculum learning nel processo di fine-tuning LoRA, incorporando transizioni emotive ponderate tra enunciati dello stesso parlante e di parlanti diversi per assegnare livelli di difficoltà ai campioni di dialogo, che vengono poi organizzati in una sequenza di addestramento che procede dal facile al difficile. I risultati sperimentali su due dataset di riferimento - IEMOCAP e MELD - mostrano che il nostro metodo raggiunge nuove prestazioni state-of-the-art (SOTA), dimostrando l'efficacia e la generalizzabilità del nostro approccio nel migliorare la comprensione emotiva basata su LLM.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente ottenuto risultati impressionanti nel riconoscimento del parlato attraverso molteplici modalità, inclusi il Riconoscimento Acustico del Parlato (ASR), il Riconoscimento Visivo del Parlato (VSR) e il Riconoscimento Audio-Visivo del Parlato (AVSR). Nonostante questi progressi, gli approcci attuali basati su LLM tipicamente affrontano ciascun compito in modo indipendente, addestrando modelli separati che aumentano l'utilizzo delle risorse computazionali e di deployment, perdendo al contempo potenziali sinergie tra i diversi compiti. Essi si basano inoltre su una compressione dei token a frequenza fissa, che limita la flessibilità nel bilanciare accuratezza ed efficienza. Queste limitazioni evidenziano la necessità di un framework unificato in grado di supportare ASR, VSR e AVSR, consentendo al contempo un'inferenza elastica. A tal fine, presentiamo Omni-AVSR, un LLM audio-visivo unificato che combina un addestramento multi-granularità efficiente con un adattamento efficiente in termini di parametri. Nello specifico, adattiamo il paradigma di apprendimento della rappresentazione *matryoshka* per addestrare efficientemente il modello su molteplici granularità audio e visive, riducendo l'intrinseco utilizzo di risorse di addestramento. Inoltre, esploriamo tre strategie basate su LoRA per adattare l'LLM di base, bilanciando specializzazione condivisa e specifica per compito. Esperimenti su LRS2 e LRS3 dimostrano che Omni-AVSR raggiunge un'accuratezza paragonabile o superiore ai baseline allo stato dell'arte, addestrando un unico modello con un utilizzo di risorse di addestramento e deployment sostanzialmente inferiore. Il modello rimane inoltre robusto in presenza di rumore acustico, e analizziamo il suo comportamento di scaling all'aumentare delle dimensioni dell'LLM, fornendo insight sul compromesso tra prestazioni ed efficienza.