Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) ricevono tipicamente feedback diversificati in linguaggio naturale (NL) attraverso l'interazione con l'ambiente. Tuttavia, gli attuali algoritmi di apprendimento per rinforzo (RL) si basano esclusivamente su ricompense scalari, lasciando sotto-utilizzate le ricche informazioni contenute nel feedback NL e portando a un'esplorazione inefficiente. In questo lavoro, proponiamo GOLF, un framework RL che sfrutta esplicitamente il feedback linguistico a livello di gruppo per guidare un'esplorazione mirata attraverso raffinamenti azionabili. GOLF aggrega due fonti di feedback complementari: (i) critiche esterne che individuano errori o propongono correzioni mirate, e (ii) tentativi intra-gruppo che forniscono idee parziali alternative e pattern di fallimento diversificati. Questi feedback a livello di gruppo vengono aggregati per produrre raffinamenti di alta qualità, che vengono iniettati in modo adattivo nell'addestramento come impalcature off-policy per fornire una guida mirata nelle regioni a ricompensa sparsa. Nel frattempo, GOLF ottimizza congiuntamente la generazione e il raffinamento all'interno di un ciclo RL unificato, creando un circolo virtuoso che migliora continuamente entrambe le capacità. Esperimenti su benchmark verificabili e non verificabili mostrano che GOLF raggiunge prestazioni e efficienza di esplorazione superiori, ottenendo un miglioramento di 2,2 volte nell'efficienza campionaria rispetto ai metodi RL addestrati esclusivamente su ricompense scalari. Il codice è disponibile all'indirizzo https://github.com/LuckyyySTA/GOLF.
Ogni interazione dell'agente genera un segnale di stato successivo, ovvero la risposta dell'utente, l'output dello strumento, la variazione dello stato del terminale o dell'interfaccia grafica che segue ogni azione, eppure nessun sistema RL agente esistente lo recupera come fonte di apprendimento in tempo reale e online. Presentiamo OpenClaw-RL, un framework basato su una semplice osservazione: i segnali di stato successivo sono universali, e la politica può apprendere da tutti loro simultaneamente. Conversazioni personali, esecuzioni di terminale, interazioni con interfacce grafiche, task di ingegneria del software e tracce di chiamate a strumenti non sono problemi di addestramento separati. Sono tutte interazioni che possono essere utilizzate per addestrare la stessa politica nello stesso ciclo. I segnali di stato successivo codificano due forme di informazione: segnali valutativi, che indicano quanto bene l'azione ha performato e sono estratti come ricompense scalari tramite un giudice PRM; e segnali direttivi, che indicano come l'azione avrebbe dovuto essere diversa e sono recuperati tramite Distillazione On-Policy Guidata dal Senno di Poi (Hindsight-Guided OPD). Estraiamo suggerimenti testuali dallo stato successivo, costruiamo un contesto insegnante potenziato e forniamo una supervisione del vantaggio direzionale a livello di token che è più ricca di qualsiasi ricompensa scalare. Grazie al design asincrono, il modello serve richieste in tempo reale, il PRM giudica le interazioni in corso e l'addestratore aggiorna la politica contemporaneamente, con un overhead di coordinamento pari a zero tra di loro. Applicato ad agenti personali, OpenClaw-RL permette a un agente di migliorare semplicemente venendo utilizzato, recuperando segnali conversazionali da nuove richieste dell'utente, correzioni e feedback espliciti. Applicato ad agenti generali, la stessa infrastruttura supporta RL scalabile in contesti di terminale, interfacce grafiche, ingegneria del software e chiamate a strumenti, dove dimostriamo inoltre l'utilità delle ricompense di processo. Codice: https://github.com/Gen-Verse/OpenClaw-RL
Storicamente, il k-means è stato considerato principalmente una primitiva per l'elaborazione offline, tipicamente utilizzato per l'organizzazione di dataset o la pre-elaborazione di embedding, piuttosto che come un componente di prima classe nei sistemi online. In questo lavoro, rivalutiamo questo algoritmo classico attraverso la lente del moderno design dei sistemi di IA e abilitiamo il k-means come primitiva online. Sottolineiamo che le implementazioni esistenti del k-means su GPU rimangono fondamentalmente limitate da vincoli sistemistici di basso livello piuttosto che dalla complessità algoritmica teorica. Nello specifico, la fase di assegnazione soffre di un severo collo di bottiglia di I/O a causa della massiccia materializzazione esplicita della matrice delle distanze N per K nella High Bandwidth Memory (HBM). Simultaneamente, la fase di aggiornamento dei centroidi è fortemente penalizzata dalla contenzione hardware sulle scritture atomiche causata da aggregazioni irregolari di token di tipo scatter. Per colmare questo divario prestazionale, proponiamo flash-kmeans, un'implementazione del k-means consapevole dell'I/O e priva di contenzione per carichi di lavoro moderni su GPU. Flash-kmeans introduce due innovazioni fondamentali a livello di kernel: (1) FlashAssign, che fonde il calcolo della distanza con un argmin online per bypassare completamente la materializzazione intermedia in memoria; (2) l'aggiornamento "sort-inverse", che costruisce esplicitamente un mapping inverso per trasformare scatter atomici ad alta contenzione in riduzioni localizzate a livello di segmento ad alta larghezza di banda. Inoltre, integriamo co-progettazioni algoritmo-sistema, inclusa la sovrapposizione di stream in chunk ed euristiche di compilazione consapevoli della cache, per garantire la praticità del deployment. Valutazioni estensive su GPU NVIDIA H200 dimostrano che flash-kmeans raggiunge un miglioramento prestazionale end-to-end fino a 17.9 volte rispetto ai migliori baseline, superando rispettivamente di 33 volte e oltre 200 volte librerie standard del settore come cuML e FAISS.
I codificatori di testo basati su LLM tipicamente codificano il contenuto semantico del loro input. Tuttavia, i task di embedding richiedono la mappatura di input diversi verso output simili. Tipicamente, questa relazione input-output viene affrontata addestrando modelli di embedding con dati accoppiati utilizzando l'apprendimento contrastivo. In questo lavoro, proponiamo un nuovo approccio auto-supervisionato, LLM2Vec-Gen, che adotta un paradigma diverso: anziché codificare l'input, apprendiamo a rappresentare la potenziale risposta del modello. Nello specifico, aggiungiamo token speciali addestrabili al vocabolario dell'LLM, li appendiamo all'input e li ottimizziamo per rappresentare la risposta dell'LLM in una sequenza di lunghezza fissa. L'addestramento è guidato dal completamento generato dall'LLM stesso per la query, insieme a un insegnante di embedding non supervisionato che fornisce target per la distillazione. Questa formulazione aiuta a colmare il divario input-output e trasferisce capacità dell'LLM come l'allineamento alla sicurezza e il ragionamento ai task di embedding. Crucialmente, il backbone dell'LLM rimane congelato e l'addestramento richiede solo query non etichettate. LLM2Vec-Gen raggiunge prestazioni auto-supervisionate allo stato dell'arte sul Massive Text Embedding Benchmark (MTEB), migliorando del 9.3% rispetto al miglior insegnante di embedding non supervisionato. Osserviamo inoltre una riduzione fino al 43.2% nel recupero di contenuti dannosi e un miglioramento del 29.3% nelle capacità di ragionamento per i task di embedding. Infine, gli embedding appresi sono interpretabili e possono essere decodificati in testo per rivelare il loro contenuto semantico.
Sebbene i grandi modelli linguistici (LLM) mostrino notevoli capacità di ragionamento, le loro prestazioni in compiti complessi sono spesso limitate dai vincoli della loro conoscenza interna. Un approccio promettente per superare questa sfida consiste nell'arrechire questi modelli con strumenti esterni – come interpreti Python per calcoli matematici o motori di ricerca per recuperare informazioni fattuali. Tuttavia, abilitare i modelli a utilizzare efficacemente questi strumenti rimane una sfida significativa. I metodi esistenti si basano tipicamente su pipeline a freddo che iniziano con l'addestramento supervisionato (SFT), seguito dall'apprendimento per rinforzo (RL). Questi approcci richiedono spesso grandi quantità di dati etichettati per l'SFT, i cui costi di annotazione o sintesi sono elevati. In questo lavoro, proponiamo l'In-Context Reinforcement Learning (ICRL), un framework basato esclusivamente su RL che elimina la necessità dell'SFT sfruttando il prompting few-shot durante la fase di rollout del RL. Nello specifico, ICRL introduce esempi in-context all'interno dei prompt di rollout per insegnare al modello come richiamare strumenti esterni. Inoltre, con il progredire dell'addestramento, il numero di esempi in-context viene gradualmente ridotto, fino a raggiungere un'impostazione zero-shot in cui il modello impara a chiamare gli strumenti in modo autonomo. Abbiamo condotto esperimenti approfonditi su una serie di benchmark di ragionamento e utilizzo di strumenti. I risultati mostrano che ICRL raggiunge prestazioni all'avanguardia, dimostrando la sua efficacia come alternativa scalabile ed efficiente dal punto di vista dei dati alle tradizionali pipeline basate su SFT.
Man mano che i modelli embodied acquisiscono maggiore potenza, in futuro gli esseri umani collaboreranno con molteplici agenti di IA embodied nei propri luoghi di lavoro o nelle abitazioni. Per garantire una comunicazione efficace tra gli utenti umani e il sistema multi-agente, è cruciale interpretare in parallelo le informazioni in arrivo dagli agenti e fare riferimento al contesto appropriato per ogni query. Le sfide esistenti includono la compressione e la comunicazione efficace di grandi volumi di input sensoriali individuali sotto forma di video e l'aggregazione corretta di più video egocentrici per costruire una memoria a livello di sistema. In questo lavoro, definiamo prima formalmente un nuovo problema relativo alla comprensione di più video egocentrici a lungo orizzonte raccolti simultaneamente da agenti embodied. Per facilitare la ricerca in questa direzione, introduciamo MultiAgent-EgoQA (MA-EgoQA), un benchmark progettato per valutare sistematicamente i modelli esistenti nel nostro scenario. MA-EgoQA fornisce 1.7k domande uniche per flussi egocentrici multipli, che abbracciano cinque categorie: interazione sociale, coordinamento di compiti, teoria della mente, ragionamento temporale e interazione ambientale. Proponiamo inoltre un semplice modello di baseline per MA-EgoQA denominato EgoMAS, che sfrutta la memoria condivisa tra gli agenti embodied e un recupero dinamico per agente. Attraverso una valutazione completa di diverse baseline e di EgoMAS su MA-EgoQA, scopriamo che gli approcci attuali non sono in grado di gestire efficacemente flussi egocentrici multipli, evidenziando la necessità di progressi futuri nella comprensione a livello di sistema tra gli agenti. Il codice e il benchmark sono disponibili su https://ma-egoqa.github.io.
Gli adattatori a basso rango (LoRA) sono una tecnica di fine-tuning efficiente in termini di parametri che inietta matrici a basso rango addestrabili in modelli pre-addestrati per adattarli a nuovi compiti. I modelli Mistura-di-LoRA (Mixture-of-LoRAs) espandono le reti neurali in modo efficiente instradando l'input di ogni layer a un piccolo sottoinsieme di LoRA specializzati del layer. I router Mistura-di-LoRA esistenti assegnano un peso di instradamento appreso a ciascun LoRA per consentire l'addestramento end-to-end del router. Nonostante le promesse empiriche, osserviamo che in pratica i pesi di instradamento sono tipicamente estremamente sbilanciati tra i LoRA, dove spesso solo uno o due LoRA dominano i pesi di instradamento. Ciò limita essenzialmente il numero di LoRA effettivi e quindi ostacola gravemente il potere espressivo dei modelli Mistura-di-LoRA esistenti. In questo lavoro, attribuiamo questa debolezza alla natura dei pesi di instradamento apprendibili e ripensiamo la progettazione fondamentale del router. Per affrontare questo problema critico, proponiamo un nuovo progetto di router che chiamiamo Instradamento a Rinforzo per Mistura-di-LoRA (ReMix). La nostra idea chiave è utilizzare pesi di instradamento non apprendibili per garantire che tutti i LoRA attivi siano ugualmente efficaci, senza che nessun LoRA domini i pesi di instradamento. Tuttavia, i nostri router non possono essere addestrati direttamente tramite discesa del gradiente a causa dei nostri pesi di instradamento non apprendibili. Quindi, proponiamo ulteriormente uno stimatore del gradiente non distorto per il router impiegando la tecnica del rinforzo leave-one-out (RLOO), in cui consideriamo la loss di supervisione come ricompensa e il router come politica nell'apprendimento per rinforzo. Il nostro stimatore del gradiente consente anche di aumentare la potenza di calcolo per l'addestramento per migliorare le prestazioni predittive del nostro ReMix. Esperimenti estensivi dimostrano che il nostro ReMix proposto supera significativamente i metodi di fine-tuning efficienti allo stato dell'arte con un numero comparabile di parametri attivati.
I modelli linguistici di grandi dimensioni (LLM) che operano in contesti reali dinamici si trovano spesso ad affrontare conoscenze in continua evoluzione o che emergono in modo incrementale. Per mantenere accuratezza ed efficacia, i modelli devono adattarsi alle nuove informazioni in arrivo in tempo reale. Introduciamo Online Adaptation to Continual Knowledge Streams (OAKS) per valutare questa capacità, stabilendo un benchmark per l'adattamento online su flussi di conoscenza in continuo aggiornamento. Nello specifico, il benchmark è strutturato come una sequenza di chunk contestuali granulari in cui i fatti cambiano dinamicamente attraverso intervalli temporali. OAKS comprende due dataset: OAKS-BABI e OAKS-Novel, in cui singoli fatti evolvono più volte attraverso i chunk contestuali. Questi dataset includono annotazioni dense per misurare se i modelli tracciano i cambiamenti in modo accurato. Valutando 14 modelli con diversi approcci inferenziali, osserviamo limitazioni significative nelle metodologie attuali. Sia i modelli all'avanguardia che i sistemi di memoria agentici non riescono ad adattarsi in modo robusto su OAKS, dimostrando ritardi nel tracciamento dello stato e suscettibilità alla distrazione all'interno di ambienti di streaming.
I metodi esistenti di personalizzazione video preservano la somiglianza visiva ma trattano video e audio separatamente. Senza accesso alla scena visiva, i modelli audio non possono sincronizzare i suoni con le azioni sullo schermo; e poiché i classici modelli di clonazione vocale si basano solo su una registrazione di riferimento, un prompt testuale non può reindirizzare lo stile di parlato o l'ambiente acustico. Proponiamo ID-LoRA (Identity-Driven In-Context LoRA), che genera congiuntamente l'aspetto e la voce di un soggetto in un unico modello, consentendo a un prompt testuale, a un'immagine di riferimento e a una breve clip audio di governare insieme entrambe le modalità. ID-LoRA adatta il backbone di diffusione audio-video congiunta LTX-2 tramite In-Context LoRA efficiente in parametri e, a nostra conoscenza, è il primo metodo a personalizzare l'aspetto visivo e la voce in un unico passaggio generativo. Emergono due sfide. I token di riferimento e di generazione condividono lo stesso spazio di codifica posizionale, rendendoli difficili da distinguere; affrontiamo questo problema con posizioni temporali negative, collocando i token di riferimento in una regione RoPE disgiunta preservando la loro struttura temporale interna. Le caratteristiche del parlante tendono anche a essere diluite durante il denoising; introduciamo l'identity guidance, una variante del classifier-free guidance che amplifica le caratteristiche specifiche del parlante contrastando le previsioni con e senza il segnale di riferimento. In studi di preferenza umana, ID-LoRA è preferito a Kling 2.6 Pro dal 73% degli annotatori per la somiglianza vocale e dal 65% per lo stile di parlato. In impostazioni cross-environment, la somiglianza del parlante migliora del 24% rispetto a Kling, con il divario che si amplia al divergere delle condizioni. Uno studio utente preliminare suggerisce inoltre che la generazione congiunta fornisce un bias induttivo utile per la sintesi del suono fisicamente fondata. ID-LoRA raggiunge questi risultati con solo ~3K coppie di addestramento su una singola GPU. Codice, modelli e dati saranno rilasciati.
I Diffusion Transformer (DiT) sono diventati un'architettura di riferimento per la generazione video, nonostante il costo quadratico dell'attenzione rimanga un collo di bottiglia principale. L'attenzione sparsa riduce questo costo calcolando solo un sottoinsieme dei blocchi di attenzione. Tuttavia, i metodi precedenti spesso scartano i blocchi rimanenti, con conseguente perdita di informazioni, o si affidano a predittori appresi per approssimarli, introduendo sovraccarico computazionale durante l'addestramento e potenziali scostamenti nella distribuzione di output. In questo articolo, dimostriamo che i contributi mancanti possono essere recuperati senza addestramento: dopo il clustering semantico, le chiavi e i valori all'interno di ciascun blocco mostrano una forte similarità e possono essere ben riassunti da un piccolo insieme di centroidi dei cluster. Sulla base di questa osservazione, introduciamo SVG-EAR, un ramo di compensazione lineare e privo di parametri che utilizza il centroide per approssimare i blocchi saltati e recuperarne i contributi. Sebbene la compensazione tramite centroide sia accurata per la maggior parte dei blocchi, può fallire su un piccolo sottoinsieme. La sparsificazione standard tipicamente seleziona i blocchi in base ai punteggi di attenzione, che indicano dove il modello concentra la sua massa attentiva, ma non dove l'errore di approssimazione sarebbe maggiore. SVG-EAR pertanto implementa un instradamento consapevole dell'errore: una sonda leggera stima l'errore di compensazione per ogni blocco, e calcoliamo esattamente i blocchi con il rapporto errore-costo più elevato, compensando quelli saltati. Forniamo garanzie teoriche che collegano l'errore di ricostruzione dell'attenzione alla qualità del clustering, e dimostriamo empiricamente che SVG-EAR migliora il compromesso qualità-efficienza e aumenta il throughput a parità di fedeltà generativa in compiti di diffusione video. Nel complesso, SVG-EAR stabilisce una chiara frontiera di Pareto rispetto agli approcci precedenti, raggiungendo accelerazioni fino a 1,77x e 1,93x mantenendo valori PSNR fino a 29,759 e 31,043 rispettivamente su Wan2.2 e HunyuanVideo.
Quando i modelli linguistici multimodali (MLLM) falliscono nel ragionamento visivo in ambito STEM (Scienza, Tecnologia, Ingegneria e Matematica), sorge una domanda fondamentale: la causa risiede in carenze percettive o in limitazioni del ragionamento? Attraverso un'analisi sistematica del scaling che modifica indipendentemente le componenti percettive e di ragionamento, emerge un'osservazione cruciale: potenziare la percezione supera costantemente il potenziamento del ragionamento. Ciò rivela la percezione come il vero fattore limitante l'attuale ragionamento visivo STEM. Motivati da questa intuizione, il nostro lavoro si concentra sul potenziamento sistematico delle capacità percettive degli MLLM, stabilendo il codice come mezzo percettivo potente: il codice eseguibile fornisce una semantica precisa che si allinea naturalmente con la natura strutturata delle immagini STEM. Nello specifico, costruiamo ICC-1M, un dataset su larga scala comprendente 1 milione di triplette Immagine-Didascalia-Codice che concretizza questo paradigma del codice-come-percezione attraverso due approcci complementari: (1) la Generazione di Didascalie Ancorate al Codice tratta il codice eseguibile come verità fondamentale per le didascalie, eliminando le allucinazioni intrinseche dei metodi esistenti di distillazione della conoscenza; (2) la Traduzione da Immagine STEM a Codice spinge i modelli a generare codice di ricostruzione, mitigando l'ambiguità del linguaggio naturale per il potenziamento percettivo. Per convalidare questo paradigma, introduciamo inoltre STEM2Code-Eval, un nuovo benchmark che valuta direttamente la percezione visiva in ambito STEM. A differenza dei lavori esistenti che si affidano all'accuratezza nella risoluzione di problemi come parametro indiretto, misurando solo la comprensione rilevante al problema, il nostro benchmark richiede una comprensione visiva completa attraverso la generazione di codice eseguibile per la ricostruzione dell'immagine, fornendo una valutazione deterministica e verificabile. Il codice è disponibile all'indirizzo https://github.com/TongkunGuan/Qwen-CodePercept.
Gli agenti basati su grandi modelli linguistici (LLM) addestrati con apprendimento per rinforzo (RL) hanno dimostrato un forte potenziale in compiti interattivi complessi. Tuttavia, i paradigmi RL standard favoriscono la risoluzione statica dei problemi rispetto all'adattamento continuo: gli agenti spesso convergono verso strategie subottimali a causa di un'esplorazione insufficiente, mentre la conoscenza appresa rimane implicita all'interno dei parametri piuttosto che essere recuperabile esplicitamente, limitando un efficace apprendimento esperienziale. Per affrontare queste limitazioni, introduciamo RetroAgent, un framework RL online che consente agli agenti di padroneggiare ambienti interattivi complessi non solo risolvendo i problemi, ma evolvendo. Nello specifico, RetroAgent presenta un meccanismo di auto-riflessione retrospettiva (hindsight self-reflection) che produce un feedback intrinseco duale: (1) un feedback numerico intrinseco che traccia il completamento incrementale dei sottocompiti rispetto ai tentativi precedenti, premiando le esplorazioni promettenti, e (2) un feedback linguistico intrinseco che distilla lezioni riutilizzabili in un buffer di memoria, recuperato tramite la nostra strategia proposta Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB), che bilancia rilevanza, utilità ed esplorazione per sfruttare efficacemente le esperienze passate. Esperimenti estesi su due famiglie di modelli in quattro impegnativi compiti agentici dimostrano che RetroAgent supera significativamente i metodi esistenti, raggiungendo risultati all'avanguardia – ad esempio, superando gli agenti addestrati con Group Relative Policy Optimization (GRPO) del +18,3% su ALFWorld, +15,4% su WebShop, +27,1% su Sokoban e +8,9% su MineSweeper – mostrando al contempo una forte adattabilità al tempo di test e una buona generalizzazione a scenari fuori distribuzione.
L'evidenziazione del prompt (Prompt Highlighting) orienta un modello linguistico di grandi dimensioni a dare priorità a span di testo specificati dall'utente durante la generazione. Una sfida fondamentale è estrarre direzioni di orientamento che catturino la differenza tra contesti rilevanti e non rilevanti, piuttosto che modelli strutturali condivisi comuni ad entrambi. Proponiamo PRISM-Δ (Projection-based Relevance-Informed Steering Method), che scompone la differenza tra le matrici di cross-covarianza positiva e negativa per massimizzare l'energia discriminativa eliminando al contempo le direzioni condivise. Ogni testa di attenzione riceve un peso di importanza continuo softplus, permettendo alle teste deboli-ma-utili di contribuire con intensità ridotta. Il framework si estende naturalmente alle rappresentazioni Value, catturando il segnale del canale del contenuto che i metodi basati solo sulle Key lasciano inutilizzato. Su quattro benchmark e cinque modelli, PRISM-Δ eguaglia o supera il miglior metodo esistente in 19 su 20 configurazioni, con guadagni relativi fino a +10,6%, dimezzando al contempo il costo in termini di fluidità dell'orientamento. PRISM-Δ scala anche al retrieval a contesto lungo, superando il miglior metodo esistente con un guadagno relativo fino a +4,8%. PRISM-Δ è compatibile con FlashAttention e aggiunge un overhead di memoria trascurabile.
L'ultimo strato dei modelli linguistici neurali (LM) proietta le caratteristiche di output di dimensione D in logit di dimensione V, la dimensione del vocabolario, dove solitamente D << V. È noto che questa discrepanza aumenta i rischi di limitata espressività nei LM neurali, creando il cosiddetto collo di bottiglia del softmax. Dimostriamo che il collo di bottiglia del softmax non è solo un collo di bottiglia dell'espressività, ma anche un collo di bottiglia dell'ottimizzazione. La retropropagazione di gradienti V-dimensionali attraverso uno strato lineare di rango D induce una compressione inevitabile, che altera il feedback di addestramento fornito alla stragrande maggioranza dei parametri. Presentiamo un'analisi teorica di questo fenomeno e misuriamo empiricamente che il 95-99% della norma del gradiente è soppresso dallo strato di output, risultando in direzioni di aggiornamento fortemente subottimali. Conduciamo esperimenti di pre-addestramento controllati che mostrano come il collo di bottiglia del gradiente renda imparabili pattern banali e influisca drasticamente sulla dinamica di addestramento degli LLM. Sosteniamo che questo difetto intrinseco contribuisce alle inefficienze di addestramento su larga scala indipendentemente dall'architettura del modello, e solleva la necessità di nuovi progetti per la testa (head) dei LM.
Nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), la costruzione di una baseline robusta per i vantaggi è fondamentale per i gradienti delle politiche, guidando efficacemente il modello di politica a rinforzare i comportamenti desiderati. Ricerche recenti hanno introdotto Modelli di Valore Generalisti (come V_0), che raggiungono una stima del valore pre-addestrata codificando esplicitamente le capacità del modello in-context, eliminando la necessità di aggiornare sincronamente il modello del valore insieme al modello della politica. In questo articolo, proponiamo V_{0.5}, che fonde in modo adattivo la baseline predetta da tale modello del valore (che funge da prior) con la media empirica derivata da rollout sparsi. Ciò costruisce una baseline robusta che bilancia l'efficienza computazionale con una varianza estremamente bassa. Nello specifico, introduciamo un test statistico in tempo reale e un'allocazione dinamica del budget. Questo bilancia l'alta varianza causata dal campionamento sparso rispetto al bias sistematico (o allucinazioni) insito nel prior del modello del valore. Costruendo un test di ipotesi per valutare l'affidabilità del prior in tempo reale, il sistema alloca dinamicamente un budget aggiuntivo di rollout su richiesta. Questo meccanismo minimizza l'Errore Quadratico Medio (MSE) dello stimatore della baseline, garantendo gradienti di politica stabili, anche in condizioni di estrema sparsità con una dimensione del gruppo pari a 4. Valutazioni estese su sei benchmark di ragionamento matematico dimostrano che V_{0.5} supera significativamente GRPO e DAPO, raggiungendo una convergenza più rapida e un miglioramento delle prestazioni di circa il 10%.
I Diffusion Transformer hanno stabilito un nuovo stato dell'arte nella sintesi di immagini, ma l'elevato costo computazionale del campionamento iterativo ne ostacola fortemente l'adozione pratica. Sebbene i metodi di accelerazione esistenti si concentrino spesso sul dominio temporale, essi trascurano la sostenziale ridondanza spaziale intrinseca al processo generativo, dove le strutture globali emergono molto prima che i dettagli granulari si formino. Il trattamento computazionale uniforme di tutte le regioni spaziali rappresenta una critica inefficienza. In questo articolo, introduciamo Just-in-Time (JiT), un nuovo framework senza fase di addestramento che affronta questa sfida attraverso un'accelerazione nel dominio spaziale. JiT formula un'equazione differenziale ordinaria (ODE) generativa con approssimazione spaziale che guida l'evoluzione completa dello stato latente basandosi su calcoli provenienti da un sottoinsieme sparso e dinamicamente selezionato di token di ancoraggio. Per garantire transizioni seamless all'incorporamento di nuovi token che espandono le dimensioni dello stato latente, proponiamo un micro-flusso deterministico, una ODE a tempo finito semplice ed efficace che mantiene sia la coerenza strutturale che la correttezza statistica. Esperimenti estesi sul modello all'avanguardia FLUX.1-dev dimostrano che JiT raggiunge un speedup fino a 7x con prestazioni quasi senza perdite, superando significativamente i metodi di accelerazione esistenti e stabilendo un nuovo e superiore compromesso tra velocità di inferenza e fedeltà della generazione.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati nell'ambito del workflow scientifico, incluso per la stesura di rapporti di revisione paritaria. Tuttavia, molte revisioni generate dall'IA sono superficiali e insufficientemente azionabili, lasciando gli autori senza una guida concreta e implementabile e motivando il gap che questo lavoro affronta. Proponiamo RbtAct, che mira alla generazione di feedback di revisione azionabili e colloca la replica alla revisione paritaria esistente al centro dell'apprendimento. Le repliche mostrano quali commenti del revisore hanno portato a revisioni concrete o piani specifici e quali sono stati solamente difesi. Basandoci su questa intuizione, sfruttiamo la replica come supervisione implicita per ottimizzare direttamente un generatore di feedback per l'azionabilità. Per supportare questo obiettivo, proponiamo un nuovo compito chiamato generazione di feedback di revisione a livello di segmento condizionata alla prospettiva, in cui il modello è tenuto a produrre un singolo commento focalizzato basandosi sul documento completo e su una prospettiva specificata, come esperimenti e scrittura. Costruiamo inoltre un ampio dataset denominato RMR-75K che mappa i segmenti di revisione ai segmenti di replica che li affrontano, con etichette di prospettiva e categorie di impatto che ordinano l'adozione da parte dell'autore. Addestriamo quindi il modello Llama-3.1-8B-Instruct con fine-tuning supervisionato sui segmenti di revisione, seguito da un'ottimizzazione delle preferenze utilizzando coppie derivate dalle repliche. Esperimenti con esperti umani e LLM-come-giudice mostrano miglioramenti consistenti in termini di azionabilità e specificità rispetto a baseline solide, mantenendo al contempo l'ancoraggio alla realtà e la rilevanza.
Gli assistenti IA personalizzati devono ricordare e ragionare sulla memoria a lungo termine dell'utente, che naturalmente abbraccia molteplici modalità e fonti come immagini, video ed email. Tuttavia, gli attuali benchmark per la memoria a lungo termine si concentrano principalmente sulla cronologia dei dialoghi, non riuscendo a catturare riferimenti personalizzati realistici basati sull'esperienza vissuta. Introduciamo ATM-Bench, il primo benchmark per QA sulla memoria referenziale personalizzata multimodale e multi-sorgente. ATM-Bench contiene circa quattro anni di dati di memoria personale che preservano la privacy e coppie domanda-risposta annotate manualmente con evidenze mnestiche di riferimento, incluse query che richiedono la risoluzione di riferimenti personali, il ragionamento multi-evidenza da fonti multiple e la gestione di evidenze contrastanti. Proponiamo Schema-Guided Memory (SGM) per rappresentare strutturalmente gli elementi di memoria originati da diverse fonti. Negli esperimenti, implementiamo 5 sistemi di memoria all'avanguardia insieme a una baseline RAG standard e valutiamo varianti con diverse tecniche di ingestione, recupero e generazione di risposte della memoria. Rileviamo scarse prestazioni (precisione inferiore al 20%) sul set ATM-Bench-Hard e che SGM migliora le prestazioni rispetto alla Descriptive Memory comunemente adottata nei lavori precedenti. Codice disponibile su: https://github.com/JingbiaoMei/ATM-Bench
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha migliorato significativamente la capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, RLVR si basa esclusivamente sulle risposte finali come ricompense di risultato, trascurando la correttezza dei passaggi di ragionamento intermedi. L'addestramento su questi rollout con processo errato ma risultato corretto può portare ad allucinazioni e copiatura delle risposte, minando gravemente la generalizzazione e la robustezza del modello. Per affrontare questo problema, integriamo un meccanismo di Apprendimento Contrastivo nell'Ottimizzazione della Politica (CLIPO) per generalizzare il processo RLVR. Ottimizzando una perdita contrastiva sui rollout di successo, CLIPO guida l'LLM a catturare la struttura invariante condivisa tra i percorsi di ragionamento corretti. Ciò fornisce una regolarizzazione cross-traiettoria più robusta rispetto alla supervisione a percorso singolo originale in RLVR, mitigando efficacemente le incoerenze di ragionamento a livello di passo e sopprimendo gli artefatti allucinatori. Negli esperimenti, CLIPO migliora costantemente molteplici baseline RLVR su diversi benchmark di ragionamento, dimostrando miglioramenti uniformi nella generalizzazione e robustezza per l'ottimizzazione della politica degli LLM. Il nostro codice e le ricette di addestramento sono disponibili su https://github.com/Qwen-Applications/CLIPO.
I modelli linguistici di grandi dimensioni (LLM) agenti incontrano spesso sfide significative nell'attribuzione del merito (credit assignment) in compiti multi-step con orizzonte temporale lungo, a causa di ricompense sparse. I metodi esistenti privi di funzione valore, come Group Relative Policy Optimization (GRPO), incontrano due colli di bottiglia fondamentali: stima imprecisa dei Q-value a livello di step e baseline di valore non allineate per gli stati intermedi. Per affrontare queste limitazioni, introduciamo HCAPO, il primo framework che integra l'attribuzione del merito retrospettiva (hindsight credit assignment) negli agenti LLM. HCAPO utilizza l'LLM stesso come critico post-hoc per affinare i Q-value a livello di step attraverso un ragionamento retrospettivo. Inoltre, il meccanismo di vantaggio multi-scala (multi-scale advantage) di HCAPO integra efficacemente le inaccurate baseline di valore negli stati decisionali critici. Le valutazioni su tre benchmark impegnativi, tra cui WebShop e ALFWorld, dimostrano che HCAPO supera costantemente i metodi di RL all'avanguardia. In particolare, HCAPO raggiunge un miglioramento del 7,7% nel tasso di successo su WebShop e del 13,8% su ALFWorld rispetto a GRPO utilizzando il modello Qwen2.5-7B-Instruct. Questi risultati indicano che HCAPO migliora significativamente l'efficienza dell'esplorazione, promuove un processo decisionale conciso e garantisce la scalabilità in compiti complessi e a lungo termine.
I modelli linguistici multimodali di grandi dimensioni (MM-LLM) hanno dimostrato prestazioni solide nella comprensione delle immagini mediche e nel ragionamento clinico. I recenti sistemi agenti medici li estendono con l'uso di strumenti e la collaborazione multi-agente, abilitando processi decisionali complessi. Tuttavia, questi sistemi si affidano quasi interamente a modelli all'avanguardia (ad es., GPT), il cui deployment basato su API comporta costi elevati, latenze elevate e rischi per la privacy che confliggono con i requisiti clinici on-premise. Presentiamo Meissa, un MM-LLM medico leggero da 4 miliardi di parametri che porta offline le capacità agentive. Invece di imitare risposte statiche, Meissa apprende sia quando attivare un'interazione esterna (selezione della strategia) sia come eseguire un'interazione multi-step (esecuzione della strategia) distillando traiettorie strutturate dai modelli all'avanguardia. Nello specifico, proponiamo: (1) Modellazione unificata delle traiettorie: le traiettorie (tracce di ragionamento e azione) sono rappresentate all'interno di un unico formalismo stato-azione-osservazione, permettendo a un singolo modello di generalizzare attraverso ambienti medici eterogenei. (2) Supervisione stratificata a tre livelli: gli errori del modello stesso innescano un'escalation progressiva dal ragionamento diretto all'interazione aumentata da strumenti e multi-agente, apprendendo esplicitamente una selezione della strategia consapevole della difficoltà. (3) Supervisione prospettico-retrospettiva: l'abbinamento di tracce forward esplorative con tracce di esecuzione razionalizzate a posteriori permette un apprendimento stabile di politiche di interazione efficaci. Addestrato su 40.000 traiettorie curate, Meissa eguaglia o supera agenti proprietari all'avanguardia in 10 su 16 scenari di valutazione attraverso 13 benchmark medici che coprono radiologia, patologia e ragionamento clinico. Utilizzando oltre 25 volte meno parametri rispetto a modelli all'avanguardia tipici come Gemini-3, Meissa opera completamente offline con una latenza end-to-end 22 volte inferiore rispetto al deployment basato su API. Dati, modelli e ambienti sono rilasciati su https://github.com/Schuture/Meissa.
Proponiamo un sistema di IA completamente automatizzato che produce brevi video comici simili a programmi di sketch come Saturday Night Live. Partendo da riferimenti sui personaggi, il sistema utilizza una popolazione di agenti ispirati in modo approssimativo ai ruoli di uno studio di produzione reale, strutturati per ottimizzare la qualità e la diversità delle idee e dei risultati attraverso un processo iterativo di competizione, valutazione e miglioramento. Un contributo chiave è l'introduzione di critici basati su LLM, allineati alle preferenze del pubblico reale attraverso l'analisi di un corpus di video comici su YouTube, per valutare automaticamente l'umorismo. I nostri esperimenti dimostrano che il nostro framework produce risultati che si avvicinano alla qualità di sketch prodotti professionalmente, mostrando al contempo prestazioni all'avanguardia nella generazione video.
I modelli multimodali unificati attuali si basano tipicamente su tokenizzatori visivi discreti per colmare il divario modale. Tuttiatto, la discretizzazione scarta inevitabilmente informazioni semantiche di alto dettaglio, portando a prestazioni subottimali nelle attività di comprensione visiva. Al contrario, modellare direttamente rappresentazioni semantiche continue (ad es. CLIP, SigLIP) presenta sfide significative nella modellazione generativa ad alta dimensionalità, risultando in una convergenza lenta e instabilità dell'addestramento. Per risolvere questo dilemma, introduciamo UniCom, un framework unificato che armonizza comprensione e generazione multimodale tramite rappresentazione continua compressa. Dimostriamo empiricamente che la riduzione della dimensione dei canali è significativamente più efficace del downsampling spaziale sia per la ricostruzione che per la generazione. Di conseguenza, progettiamo un compressore semantico basato su attention per distillare feature dense in una rappresentazione unificata compatta. Inoltre, validiamo che l'architettura transfusion supera i design basati su query in termini di convergenza e coerenza. Gli esperimenti dimostrano che UniCom raggiunge prestazioni di generazione allo stato dell'arte tra i modelli unificati. Notevolmente, preservando ricchi prior semantici, offre un'eccezionale controllabilità nell'editing delle immagini e mantiene la coerenza dell'immagine anche senza fare affidamento su VAE.
Gli autoencoder sparsi possono localizzare dove risiedono i concetti nei modelli linguistici, ma non come questi interagiscono durante ragionamenti a più passaggi. Proponiamo i Causal Concept Graphs (CCG): un grafo aciclico diretto su feature latenti sparse e interpretabili, dove gli archi catturano dipendenze causali apprese tra i concetti. Combiniamo autoencoder sparsi condizionati al compito per la scoperta di concetti con l'apprendimento differenziabile della struttura in stile DAGMA per il recupero del grafo e introduciamo il Causal Fidelity Score (CFS) per valutare se interventi guidati dal grafo inducono effetti a valle maggiori rispetto a interventi casuali. Su ARC-Challenge, StrategyQA e LogiQA con GPT-2 Medium, su cinque seed (n=15 esecuzioni appaiate), CCG raggiunge CFS=5.654±0.625, superando la tracciatura in stile ROME (3.382±0.233), il ranking con solo SAE (2.479±0.196) e una baseline casuale (1.032±0.034), con p<0.0001 dopo correzione di Bonferroni. I grafi appresi sono sparsi (densità di archi del 5-6%), specifici del dominio e stabili attraverso i seed.
La generazione di musica temporalmente allineata agli eventi video rappresenta una sfida per i modelli esistenti di testo-musica, che mancano di un controllo temporale granulare. Introduciamo V2M-Zero, un approccio zero-pair per la generazione video-musica che restituisce musica temporalmente allineata al video. Il nostro metodo è motivato da un'osservazione chiave: la sincronizzazione temporale richiede la corrispondenza di quando e quanto avviene un cambiamento, non di cosa cambi. Sebbene gli eventi musicali e visivi differiscano semanticamente, essi presentano una struttura temporale condivisa che può essere catturata indipendentemente all'interno di ciascuna modalità. Catturiamo questa struttura attraverso curve di evento calcolate dalla similarità intra-modale utilizzando encoder pre-addestrati per musica e video. Misurando il cambiamento temporale all'interno di ciascuna modalità in modo indipendente, queste curve forniscono rappresentazioni comparabili tra le modalità. Ciò consente una semplice strategia di addestramento: mettere a punto un modello testo-musica sulle curve di evento musicali, per poi sostituirle con curve di evento video durante l'inferenza, senza addestramento cross-modale o dati accoppiati. Su OES-Pub, MovieGenBench-Music e AIST++, V2M-Zero ottiene miglioramenti sostanziali rispetto ai baseline con dati accoppiati: qualità audio superiore del 5-21%, allineamento semantico migliore del 13-15%, sincronizzazione temporale migliorata del 21-52% e allineamento ritmico superiore del 28% sui video di danza. Risultati simili emergono da un ampio test di ascolto soggettivo crowdsourced. Nel complesso, i nostri risultati convalidano che l'allineamento temporale attraverso caratteristiche intra-modali, anziché una supervisione cross-modale con dati accoppiati, è efficace per la generazione video-musica. I risultati sono disponibili su https://genjib.github.io/v2m_zero/
La stima accurata e densa della profondità è cruciale per la percezione robotica, ma i sensori di largo consumo spesso forniscono misurazioni sparse o incomplete a causa di limitazioni hardware. I metodi esistenti di completamento della profondità basati sulla fusione RGBD apprendono prior congiuntamente condizionate sulla distribuzione RGB di addestramento e su specifici pattern di profondità, limitando la generalizzazione di dominio e la robustezza a vari pattern di profondità. Recenti sforzi sfruttano modelli di stima monoculare della profondità (MDE) per introdurre prior geometrici generali di dominio, ma le attuali strategie di integrazione a due stadi, che si basano su un allineamento esplicito relativo-metrico, comportano calcoli aggiuntivi e introducono distorsioni strutturate. A tal fine, presentiamo Any2Full, un framework monostadio, generale di dominio e agnostico al pattern, che riformula il completamento come un adattamento tramite prompt di scala di un modello MDE preaddestrato. Per gestire i vari livelli di sparsità della profondità e le distribuzioni spaziali irregolari, progettiamo un Encoder di Prompt Consapevole della Scala. Questo distilla indicazioni di scala dagli input sparsi in prompt di scala unificati, guidando il modello MDE verso previsioni globalmente consistenti in scala, preservando al contempo le sue prior geometriche. Esperimenti estensivi dimostrano che Any2Full raggiunge una robustezza e un'efficienza superiori. Supera OMNI-DC del 32,2% in AbsREL medio e fornisce un incremento di velocità di 1,4 volte rispetto a PriorDA con lo stesso backbone MDE, stabilendo un nuovo paradigma per il completamento universale della profondità. Codici e checkpoint sono disponibili su https://github.com/zhiyuandaily/Any2Full.
I recenti progressi nell'apprendimento per rinforzo multi-agente, in particolare i Policy-Space Response Oracles (PSRO), hanno reso possibile il calcolo di equilibri approssimati di teoria dei giochi in domini sempre più complessi. Tuttavia, questi metodi si basano su oracoli di apprendimento per rinforzo profondo che producono politiche di rete neurale di tipo 'black-box', rendendoli difficili da interpretare, fidarsi o eseguire il debug. Introduciamo i Code-Space Response Oracles (CSRO), un nuovo framework che affronta questa sfida sostituendo gli oracoli RL con Large Language Model (LLM). CSRO riformula il calcolo della miglior risposta come un'attività di generazione di codice, sollecitando un LLM a generare politiche direttamente come codice leggibile dall'uomo. Questo approccio non solo produce politiche intrinsecamente interpretabili, ma sfrutta anche la conoscenza pre-addestrata dell'LLM per scoprire strategie complesse e simili a quelle umane. Esploriamo molteplici modi per costruire e potenziare un oracolo basato su LLM: prompting zero-shot, raffinamento iterativo e AlphaEvolve, un sistema evolutivo distribuito basato su LLM. Dimostriamo che CSRO raggiunge prestazioni competitive con i baseline producendo allo stesso tempo un insieme diversificato di politiche spiegabili. Il nostro lavoro presenta una nuova prospettiva sull'apprendimento multi-agente, spostando l'attenzione dall'ottimizzazione di parametri di politica opachi alla sintesi di comportamenti algoritmici interpretabili.
I modelli generativi video (VGM) pre-addestrati su vasti dataset internet possono produrre video di rollout temporalmente coerenti che catturano dinamiche oggettuali ricche, offrendo una base promettente per la manipolazione robotica zero-shot. Tuttavia, i VGM spesso producono rollout fisicamente implausibili, e la conversione del loro movimento nello spazio dei pixel in azioni robotiche tramite retargeting geometrico introduce ulteriori errori cumulativi dovuti a stime di profondità imperfette e tracking dei punti chiave. Per affrontare queste sfide, presentiamo , un framework senza dati che allinea gli output dei VGM con vincoli composizionali generati da modelli visione-linguaggio (VLM) al momento dell'inferenza. L'intuizione chiave è che i VLM offrono una capacità complementare ai VGM: un ragionamento spaziale strutturato in grado di identificare i vincoli fisici critici per il successo e la sicurezza dell'esecuzione della manipolazione. Data un'istruzione linguistica, utilizza un VLM per estrarre automaticamente un insieme di vincoli composizionali che catturano i requisiti specifici del compito, che vengono poi applicati in due fasi: (1) selezione guidata dai vincoli del rollout, che valuta e filtra un batch di rollout VGM per trattenere il candidato fisicamente più plausibile, e (2) ottimizzazione della traiettoria basata sui vincoli, che utilizza il rollout selezionato come inizializzazione e affina la traiettoria del robot sotto lo stesso insieme di vincoli per correggere gli errori di retargeting. Valutiamo su sei compiti di manipolazione robotica reale che richiedono un'esecuzione precisa e sensibile ai vincoli, migliorando il tasso di successo complessivo di 43,3 punti percentuali rispetto al baseline più forte, senza alcun dato di addestramento specifico per il compito.
I modelli visione-linguaggio (VLM) colmano la percezione visiva e il ragionamento linguistico. Nell'ambito della guida autonoma (AD), questa sinergia ha dato vita ai modelli Vision Language Action (VLA), che traducono una comprensione multimodale di alto livello in comportamenti di guida, tipicamente rappresentati come traiettorie future. Tuttavia, i modelli VLA esistenti generano principalmente traiettorie generiche prive di collisioni. Oltre all'evitamento delle collisioni, l'adattamento a diversi stili di guida (ad esempio, sportivo, confortevole) è essenziale per una guida personalizzata. Inoltre, molti metodi trattano la generazione di traiettorie come una semplice previsione di token, che può produrre azioni cinematicamente non fattibili. Per affrontare queste limitazioni, presentiamo StyleVLA, un framework VLA informato dalla fisica per generare comportamenti di guida diversificati e fisicamente plausibili. Introduciamo una loss ibrida che combina un vincolo di consistenza cinematica con un head di regressione continua per migliorare la fattibilità della traiettoria. Per addestrare StyleVLA, basato su Qwen3-VL-4B, abbiamo costruito un dataset di istruzioni su larga scala con oltre 1.2k scenari, 76k campioni in vista dall'alto (BEV) e 42k campiani in prima persona (FPV), con traiettorie ground-truth per cinque stili di guida e istruzioni in linguaggio naturale. Gli esperimenti mostrano che il nostro StyleVLA da 4 miliardi di parametri supera significativamente modelli proprietari (ad esempio, Gemini-3-Pro) e modelli VLA all'avanguardia. Utilizzando un punteggio di guida composito che misura il tasso di successo, la fattibilità fisica e l'aderenza allo stile, StyleVLA raggiunge 0.55 su BEV e 0.51 su FPV, rispetto a 0.32 e 0.35 di Gemini-3-Pro. Questi risultati dimostrano che un modello specializzato, informato dalla fisica e leggero può superare modelli closed-source su compiti specifici del dominio.