Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene RLVR sia diventato un componente essenziale per sviluppare abilità di ragionamento avanzate nei LLM, studi contemporanei hanno documentato plateau di addestramento che emergono dopo migliaia di passi di ottimizzazione, dimostrando notevoli diminuzioni nei guadagni di prestazioni nonostante l'aumento degli investimenti computazionali. Questa limitazione deriva dai modelli di esplorazione sparsi intrinseci nelle pratiche attuali di RLVR, in cui i modelli si affidano a rollout limitati che spesso perdono percorsi di ragionamento critici e non forniscono una copertura sistematica dello spazio delle soluzioni. Presentiamo DeepSearch, un framework che integra direttamente il Monte Carlo Tree Search nell'addestramento RLVR. A differenza dei metodi esistenti che si basano sulla ricerca ad albero solo durante l'inferenza, DeepSearch incorpora la ricerca strutturata nel ciclo di addestramento, consentendo un'esplorazione sistematica e un'assegnazione del credito granulare tra i passi di ragionamento. Attraverso l'esplorazione durante l'addestramento, DeepSearch affronta il collo di bottiglia fondamentale dell'esplorazione insufficiente, che porta a miglioramenti delle prestazioni decrescenti nel corso di passi di addestramento prolungati. I nostri contributi includono: (1) una strategia di selezione globale delle frontiere che dà priorità ai nodi promettenti nell'albero di ricerca, (2) una selezione con guida basata sull'entropia che identifica percorsi affidabili per la supervisione, e (3) un addestramento con buffer di replay adattivo con memorizzazione delle soluzioni per efficienza. Esperimenti su benchmark di ragionamento matematico mostrano che DeepSearch raggiunge una precisione media del 62,95% e stabilisce un nuovo stato dell'arte per modelli di ragionamento da 1,5B, utilizzando 5,7 volte meno ore di GPU rispetto agli approcci di addestramento esteso. Questi risultati evidenziano l'importanza dell'esplorazione strategica rispetto al ridimensionamento a forza bruta e dimostrano la promessa dell'innovazione algoritmica per avanzare le metodologie RLVR. DeepSearch stabilisce una nuova direzione per scalare le capacità di ragionamento attraverso la ricerca sistematica piuttosto che il calcolo prolungato.
Il paradigma di addestramento per i grandi modelli linguistici (LLM) si sta spostando da dataset statici verso un apprendimento basato sull'esperienza, in cui gli agenti acquisiscono competenze attraverso l'interazione con ambienti complessi. Per facilitare questa transizione, introduciamo GEM (General Experience Maker), un simulatore di ambienti open-source progettato per l'era degli LLM. Analogamente a OpenAI-Gym per l'apprendimento per rinforzo (RL) tradizionale, GEM fornisce un framework standardizzato per l'interfaccia ambiente-agente, includendo un'esecuzione vettorializzata asincrona per un'elevata produttività e wrapper flessibili per una facile estensibilità. GEM offre anche una suite diversificata di ambienti, strumenti integrati robusti e script di esempio in file singoli che dimostrano l'uso di GEM con cinque popolari framework di addestramento RL. Insieme a ciò, forniamo anche un set di baseline su 24 ambienti utilizzando REINFORCE con Return Batch Normalization (ReBN), che, a differenza di GRPO, è compatibile con l'impostazione RL completa di ricompense dense per turno e offre una migliore assegnazione del credito. Inoltre, conduciamo un benchmarking diretto di PPO, GRPO e REINFORCE sia in contesti a turno singolo che multi-turno utilizzando GEM per fare luce sulle scelte progettuali algoritmiche. Infine, GEM funge anche da toolkit di valutazione conveniente oltre che da ambiente di addestramento. Speriamo che questo framework possa aiutare ad accelerare la futura ricerca sugli LLM agentici.
La quantizzazione post-addestramento è emersa come la strategia più ampiamente utilizzata per il deployment di modelli linguistici di grandi dimensioni a bassa precisione. Tuttavia, i metodi attuali mostrano un degrado della perplessità a larghezze di bit inferiori o uguali a 4, in parte perché la rappresentazione di valori anomali causa problemi di precisione nei parametri che condividono le stesse scale di questi valori anomali. Questo problema è particolarmente pronunciato per i metodi di quantizzazione uniforme senza calibrazione. Introduciamo SINQ per potenziare i quantizzatori post-addestramento esistenti con un ulteriore fattore di scala sull'asse secondario e un algoritmo veloce di tipo Sinkhorn-Knopp che trova le scale per normalizzare le varianze per riga e per colonna, minimizzando così un nuovo obiettivo proxy per la quantizzazione a livello di matrice: lo squilibrio della matrice. Il nostro metodo non prevede interazioni tra i livelli e può essere applicato in modo banale a nuove architetture per quantizzare qualsiasi livello lineare. Valutiamo il nostro metodo sulla famiglia di modelli Qwen3 e su DeepSeek-V2.5. SINQ migliora significativamente la perplessità su WikiText2 e C4 rispetto ai baseline di quantizzazione uniforme non calibrata e può essere ulteriormente potenziato combinandolo con la calibrazione e livelli di quantizzazione non uniformi. Il codice per riprodurre i risultati di questo lavoro e per quantizzare facilmente i modelli utilizzando SINQ è disponibile all'indirizzo https://github.com/huawei-csl/SINQ.
I modelli Vision-Language-Action (VLA) abilitano il processo decisionale incarnato, ma si basano fortemente sull'apprendimento per imitazione, portando a errori cumulativi e scarsa robustezza in caso di cambiamenti nella distribuzione dei dati. L'apprendimento per rinforzo (RL) può mitigare questi problemi, ma richiede tipicamente interazioni costose nel mondo reale o soffre del divario tra simulazione e realtà. Introduciamo VLA-RFT, un framework di fine-tuning basato su rinforzo che sfrutta un modello del mondo guidato dai dati come simulatore controllabile. Addestrato su dati di interazione reali, il simulatore prevede osservazioni visive future condizionate alle azioni, consentendo l'esecuzione di politiche con ricompense dense a livello di traiettoria derivate da riferimenti di raggiungimento degli obiettivi. Questo design fornisce un segnale di apprendimento efficiente e allineato alle azioni, riducendo drasticamente i requisiti di campionamento. Con meno di 400 passi di fine-tuning, VLA-RFT supera solide baseline supervisionate e raggiunge una maggiore efficienza rispetto all'RL basato su simulatore. Inoltre, mostra una forte robustezza in condizioni perturbate, mantenendo un'esecuzione stabile dei compiti. I nostri risultati stabiliscono il fine-tuning basato su modelli del mondo come un paradigma pratico post-addestramento per migliorare la generalizzazione e la robustezza dei modelli VLA. Per maggiori dettagli, consultare https://vla-rft.github.io/.
I Large Language Model (LLM) possono auto-migliorarsi attraverso l'apprendimento per rinforzo, generando traiettorie per esplorare e scoprire soluzioni migliori. Tuttavia, questo processo di esplorazione è computazionalmente costoso, spesso costringendo i metodi attuali a assegnare budget di esplorazione limitati a ciascun task. Questa allocazione uniforme crea casi problematici: i task facili riescono sistematicamente mentre quelli difficili falliscono costantemente, entrambi producendo gradienti nulli durante gli aggiornamenti di addestramento per il diffuso Group Relative Policy Optimization (GRPO). Affrontiamo questo problema attraverso la lente dell'allocazione del budget di esplorazione. Considerando l'esplorazione di ciascun task come un "oggetto" con un "valore" e un "costo" distinti, stabiliamo una connessione con il classico problema dello zaino. Questa formulazione ci permette di derivare una regola di assegnazione ottimale che distribuisce le risorse in modo adattivo in base allo stato attuale di apprendimento del modello. Quando applicato al GRPO, il nostro metodo aumenta il rapporto effettivo di gradienti di policy non nulli del 20-40% durante l'addestramento. Agendo come un "pranzo gratuito" computazionale, il nostro approccio può riallocare i budget di esplorazione dai task in cui l'apprendimento è saturo a quelli in cui è più impattante. Ciò consente budget significativamente più ampi (ad esempio, 93 rollout) per problemi particolarmente impegnativi, che sarebbero computazionalmente proibitivi con un'allocazione uniforme. Questi miglioramenti si traducono in guadagni significativi sui benchmark di ragionamento matematico, con miglioramenti medi di 2-4 punti e picchi di 9 punti su task specifici. È importante notare che il raggiungimento di prestazioni comparabili con l'allocazione omogenea tradizionale richiederebbe circa il doppio delle risorse computazionali.
La configurazione dell'ambiente - il processo di impostazione del sistema per lavorare con un progetto software specifico - rappresenta una sfida persistente nell'Ingegneria del Software (SE). I metodi automatizzati per la configurazione dell'ambiente potrebbero assistere gli sviluppatori fornendo ambienti completamente configurati per repository arbitrari senza sforzo manuale. Questo aiuta anche i ricercatori di SE a scalare benchmark basati sull'esecuzione. Tuttavia, studi recenti rivelano che anche i modelli linguistici di ultima generazione (LLM) ottengono un successo limitato nell'automatizzare questo compito. Per affrontare questa limitazione, ottimizziamo un modello specializzato per la configurazione dell'ambiente. Combiniamo il fine-tuning supervisionato per generare script Bash corretti e l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per adattarlo al compito di configurazione dell'ambiente. Su EnvBench-Python, il nostro metodo consente a Qwen3-8B (un modello eseguibile su hardware consumer) di performare alla pari con modelli più grandi - Qwen3-32B e GPT-4o. Il codice di addestramento e i checkpoint del modello sono disponibili online: https://github.com/JetBrains-Research/PIPer.
Sebbene i recenti modelli generativi abbiano fatto progressi nella sintesi di video nello spazio dei pixel, rimangono limitati nella produzione di video educativi professionali, che richiedono conoscenze disciplinari, strutture visive precise e transizioni coerenti, limitando la loro applicabilità negli scenari educativi. Intuitivamente, tali requisiti sono meglio affrontati attraverso la manipolazione di un ambiente renderizzabile, che può essere controllato esplicitamente tramite comandi logici (ad esempio, codice). In questo lavoro, proponiamo Code2Video, un framework di agenti centrato sul codice per generare video educativi tramite codice Python eseguibile. Il framework comprende tre agenti collaborativi: (i) Planner, che struttura il contenuto della lezione in flussi temporalmente coerenti e prepara le risorse visive corrispondenti; (ii) Coder, che converte le istruzioni strutturate in codici Python eseguibili incorporando correzioni automatiche guidate dallo scopo per migliorare l'efficienza; e (iii) Critic, che sfrutta modelli visione-linguaggio (VLM) con prompt visivi per affinare il layout spaziale e garantire chiarezza. Per supportare una valutazione sistematica, abbiamo costruito MMMC, un benchmark di video educativi specifici per disciplina prodotti professionalmente. Valutiamo MMMC su diverse dimensioni, inclusi i punteggi estetici VLM-as-a-Judge, l'efficienza del codice e, in particolare, TeachQuiz, una nuova metrica end-to-end che quantifica quanto bene un VLM, dopo aver disimparato, possa recuperare conoscenze guardando i video generati. I nostri risultati dimostrano il potenziale di Code2Video come approccio scalabile, interpretabile e controllabile, ottenendo un miglioramento del 40% rispetto alla generazione diretta del codice e producendo video comparabili ai tutorial creati da esseri umani. Il codice e i dataset sono disponibili su https://github.com/showlab/Code2Video.
Group Relative Policy Optimization (GRPO) è un algoritmo di apprendimento per rinforzo di rilievo per il post-addestramento di Large Language Models (LLMs). È comunemente ritenuto che GRPO richieda una dimensione di gruppo ampia per garantire un addestramento stabile attraverso una stima statistica precisa, il che comporta un notevole sovraccarico computazionale. In questo lavoro, mettiamo in discussione questa ipotesi riformulando GRPO come una forma di apprendimento contrastivo, rivelando una connessione fondamentale con Direct Preference Optimization (DPO). Motivati dal successo empirico di DPO, investigiamo il caso minimo di due rollout (2-GRPO), una configurazione precedentemente considerata non fattibile. Forniamo un'analisi teorica rigorosa per validare 2-GRPO e dimostriamo empiricamente che raggiunge prestazioni pari a 16-GRPO, nonostante utilizzi solo 1/8 dei rollout e riduca il tempo di addestramento di oltre il 70%.
I grandi modelli linguistici (LLM) vengono sempre più impiegati come agenti in ambienti dinamici e reali, dove il successo richiede sia ragionamento che un uso efficace degli strumenti. Una sfida centrale per i compiti agentici è la crescente lunghezza del contesto, poiché gli agenti devono accumulare lunghe storie di azioni e osservazioni. Questa espansione aumenta i costi e riduce l'efficienza nei compiti a lungo termine, eppure i lavori precedenti sulla compressione del contesto si sono concentrati principalmente su compiti a singolo passaggio o applicazioni ristrette. Introduciamo l'Agent Context Optimization (ACON), un framework unificato che comprime in modo ottimale sia le osservazioni dell'ambiente che le storie di interazione in condensazioni concise ma informative. ACON sfrutta l'ottimizzazione delle linee guida di compressione nello spazio del linguaggio naturale: date traiettorie accoppiate in cui il contesto completo ha successo ma il contesto compresso fallisce, LLM capaci analizzano le cause del fallimento e la linea guida di compressione viene aggiornata di conseguenza. Inoltre, proponiamo di distillare il compressore LLM ottimizzato in modelli più piccoli per ridurre il sovraccarico del modulo aggiuntivo. Gli esperimenti su AppWorld, OfficeBench e Multi-objective QA dimostrano che ACON riduce l'uso della memoria del 26-54% (picco di token) preservando in gran parte le prestazioni del compito, mantiene oltre il 95% di accuratezza quando distillato in compressori più piccoli e migliora i modelli linguistici più piccoli come agenti a lungo termine con un miglioramento delle prestazioni fino al 46%.
Recentemente, abbiamo assistito a notevoli progressi nell'editing di immagini con istruzioni in linguaggio naturale. Diversi modelli proprietari come GPT-Image-1, Seedream e Google-Nano-Banana hanno mostrato progressi altamente promettenti. Tuttavia, i modelli open-source sono ancora in ritardo. Il principale collo di bottiglia è la mancanza di un modello di ricompensa affidabile per scalare dati di addestramento sintetici di alta qualità. Per affrontare questo collo di bottiglia critico, abbiamo costruito \mname, addestrato con il nostro nuovo dataset su larga scala di preferenze umane, meticolosamente annotato da esperti formati seguendo un protocollo rigoroso contenente oltre 200K coppie di preferenze. \mname dimostra un allineamento superiore con le preferenze umane nei compiti di editing di immagini guidati da istruzioni. Gli esperimenti mostrano che \mname raggiunge una correlazione umana all'avanguardia su benchmark consolidati come GenAI-Bench, AURORA-Bench, ImagenHub e il nostro nuovo \benchname, superando una vasta gamma di modelli VLM-as-judge. Inoltre, utilizziamo \mname per selezionare un sottoinsieme di alta qualità dal rumoroso dataset esistente ShareGPT-4o-Image. Addestriamo Step1X-Edit sul sottoinsieme selezionato, che mostra un miglioramento significativo rispetto all'addestramento sull'intero set. Questo dimostra la capacità di \mname di servire come modello di ricompensa per scalare dati di addestramento di alta qualità per l'editing di immagini. Inoltre, il suo forte allineamento suggerisce potenziali applicazioni avanzate come il post-addestramento basato su apprendimento per rinforzo e il ridimensionamento al momento del test dei modelli di editing di immagini. \mname, insieme al suo dataset di addestramento, verrà rilasciato per aiutare la comunità a costruire più dataset di addestramento di alta qualità per l'editing di immagini.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un ingrediente chiave per sbloccare capacità di ragionamento complesso nei grandi modelli linguistici. Il recente lavoro ProRL ha mostrato promettenti risultati nel ridimensionamento del RL aumentando il numero di passi di addestramento. Tuttavia, le prestazioni raggiungono un plateau dopo migliaia di passi, con evidenti rendimenti decrescenti dall'allocazione di ulteriori risorse computazionali per l'addestramento. In questo lavoro, esploriamo un paradigma complementare per il ridimensionamento del RL, BroRL, aumentando il numero di rollout per esempio a centinaia per ampliare in modo esaustivo l'esplorazione, ottenendo miglioramenti continui delle prestazioni oltre il punto di saturazione osservato in ProRL quando si scala il numero di passi di addestramento. Il nostro approccio è motivato da un'analisi dell'equazione di bilancio di massa che ci permette di caratterizzare il tasso di cambiamento nella massa di probabilità per token corretti e errati durante il processo di rinforzo. Dimostriamo che, sotto un'ipotesi di RL a un passo, i token campionati nei rollout contribuiscono sempre all'espansione della massa corretta, mentre i token non campionati al di fuori dei rollout possono portare a guadagni o perdite a seconda della loro distribuzione e del bilancio netto delle ricompense. Importante, all'aumentare del numero di rollout per esempio N, l'effetto dei termini non campionati diminuisce, garantendo un'espansione complessiva della massa corretta. Per validare la nostra analisi teorica, conduciamo simulazioni in condizioni più rilassate e troviamo che una dimensione sufficientemente grande del rollout N - corrispondente a un'ampia esplorazione - garantisce un aumento della massa di probabilità di tutti i token corretti. Empiricamente, BroRL rivitalizza i modelli saturati dopo 3K passi di addestramento ProRL e dimostra un miglioramento robusto e continuo, raggiungendo risultati all'avanguardia per il modello da 1.5B su diversi benchmark.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in compiti di ragionamento complesso quando dotati di strumenti esterni. Tuttavia, gli attuali framework si basano principalmente su un'elaborazione sequenziale, portando a un'esecuzione inefficiente, specialmente per compiti che richiedono un'interazione estesa con strumenti. Questo articolo introduce Flash-Searcher, un innovativo framework di ragionamento parallelo per agenti che ridefinisce radicalmente il paradigma di esecuzione da catene sequenziali a grafi aciclici diretti (DAG). Flash-Searcher scompone compiti complessi in sottotask con dipendenze esplicite, consentendo l'esecuzione concorrente di percorsi di ragionamento indipendenti mantenendo i vincoli logici. Attraverso l'ottimizzazione dinamica del flusso di lavoro, il nostro framework perfeziona continuamente il grafo di esecuzione basandosi sui risultati intermedi, integrando efficacemente un modulo di riepilogo. Valutazioni approfondite su più benchmark dimostrano che Flash-Searcher supera costantemente gli approcci esistenti. In particolare, raggiunge un'accuratezza del 67,7% su BrowseComp e dell'83% su xbench-DeepSearch, riducendo i passi di esecuzione degli agenti fino al 35% rispetto ai framework attuali. Inoltre, quando si distilla questa pipeline di ragionamento parallelo in modelli singoli, si osservano sostanziali miglioramenti delle prestazioni su diverse architetture di base, sottolineando la generalizzabilità della nostra metodologia. Il nostro lavoro rappresenta quindi un significativo progresso nella progettazione dell'architettura degli agenti, offrendo un paradigma più scalabile ed efficiente per compiti di ragionamento complesso.
I modelli linguistici stanno diventando sempre più capaci, ma falliscono ancora in un compito apparentemente semplice come la moltiplicazione di numeri a più cifre. In questo lavoro, studiamo il perché, analizzando retrospettivamente un modello che impara con successo la moltiplicazione attraverso un ragionamento implicito a catena di pensiero, e riportiamo tre risultati: (1) Evidenza di struttura a lungo raggio: le attribuzioni dei logit e le sonde lineari indicano che il modello codifica le necessarie dipendenze a lungo raggio per la moltiplicazione di numeri a più cifre. (2) Meccanismo: il modello codifica le dipendenze a lungo raggio utilizzando l'attenzione per costruire un grafo aciclico diretto per "memorizzare" e "recuperare" i prodotti parziali a coppie. (3) Geometria: il modello implementa i prodotti parziali nelle teste di attenzione formando somme di Minkowski tra coppie di cifre, e le cifre sono rappresentate utilizzando una base di Fourier, entrambe rappresentazioni intuitive ed efficienti che mancano al modello standard di fine-tuning. Con queste intuizioni, esaminiamo nuovamente la dinamica di apprendimento del fine-tuning standard e scopriamo che il modello converge a un ottimo locale che manca delle necessarie dipendenze a lungo raggio. Validiamo ulteriormente questa comprensione introducendo una perdita ausiliaria che predice la "somma corrente" attraverso una sonda di regressione lineare, che fornisce un bias induttivo che consente al modello di apprendere con successo la moltiplicazione di numeri a più cifre. In sintesi, analizzando retrospettivamente i meccanismi di un modello a catena di pensiero implicita, scopriamo una trappola per l'apprendimento delle dipendenze a lungo raggio nei Transformer e forniamo un esempio di come il corretto bias induttivo possa risolvere questo problema.
Gli studi esistenti sui metodi di mitigazione del bias per i grandi modelli linguistici (LLM) utilizzano baseline e metriche diverse per valutare le prestazioni di debiasing, portando a confronti inconsistenti tra di essi. Inoltre, le loro valutazioni si basano principalmente sul confronto tra le probabilità dei contesti con e senza bias nei LLM, ignorando il divario tra tali valutazioni e i casi d'uso reali in cui gli utenti interagiscono con i LLM leggendo le risposte del modello e si aspettano output equi e sicuri piuttosto che le probabilità dei LLM. Per consentire una valutazione coerente tra i metodi di debiasing e colmare questo divario, introduciamo BiasFreeBench, un benchmark empirico che confronta in modo completo otto tecniche principali di mitigazione del bias (che coprono quattro metodi basati su prompt e quattro basati su addestramento) in due scenari di test (QA a scelta multipla e QA aperta a più turni) riorganizzando i dataset esistenti in un'impostazione unificata di query-risposta. Introduciamo inoltre una metrica a livello di risposta, il Bias-Free Score, per misurare il grado in cui le risposte dei LLM sono eque, sicure e anti-stereotipiche. Le prestazioni di debiasing vengono confrontate e analizzate sistematicamente lungo dimensioni chiave: il paradigma basato su prompt vs. addestramento, la dimensione del modello e la generalizzazione di diverse strategie di addestramento a tipi di bias non visti. Rilasceremo pubblicamente il nostro benchmark, con l'obiettivo di stabilire un banco di prova unificato per la ricerca sulla mitigazione del bias.
La progettazione e l'ottimizzazione di circuiti quantistici specifici per il compito sono cruciali per sfruttare il vantaggio del calcolo quantistico. Recentemente, la generazione di circuiti quantistici basata su modelli linguistici di grandi dimensioni (LLM) è emersa come una soluzione automatica promettente. Tuttavia, le sfide fondamentali rimangono irrisolte: (i) le porte quantistiche parametrizzate richiedono valori numerici precisi per ottenere prestazioni ottimali, che dipendono anche da molteplici aspetti, tra cui il numero di porte quantistiche, i loro parametri e la struttura/profondità dei circuiti. (ii) Gli LLM spesso generano circuiti quantistici di bassa qualità o errati a causa della mancanza di conoscenze specifiche del dominio quantistico. Proponiamo QUASAR, un framework di apprendimento per rinforzo (RL) agentico per la generazione e l'ottimizzazione di circuiti quantistici basato su LLM potenziati da strumenti. Per allineare l'LLM con conoscenze specifiche del quantum e migliorare i circuiti quantistici generati, QUASAR progetta (i) un approccio di verifica dei circuiti quantistici con simulatori quantistici esterni e (ii) un sofisticato meccanismo di ricompensa gerarchica nell'addestramento RL. Una valutazione estensiva mostra miglioramenti sia nelle prestazioni sintattiche che semantiche dei circuiti quantistici generati. Quando potenzia un LLM da 4B, QUASAR ha raggiunto una validità del 99,31% in Pass@1 e del 100% in Pass@10, superando gli LLM industriali GPT-4o, GPT-5 e DeepSeek-V3 e diverse baseline basate esclusivamente su fine-tuning supervisionato (SFT) o solo RL.
Ottenere generazioni di alta qualità nei moderni LLM è stato prevalentemente inquadrato come un problema di selezione: identificare una singola generazione vincente da un pool diversificato di N campioni, il Best-of-N (BoN). Tuttavia, questo approccio è intrinsecamente a somma zero, scartando informazioni diversificate e potenzialmente utili dal pool. Invece, esploriamo una configurazione collaborativa, in cui tutti i candidati possono potenzialmente contribuire alla generazione vincente finale. A tal fine, proponiamo Fusion-of-N (FusioN): un metodo che utilizza un giudice LLM generale per sintetizzare gli elementi più informativi di ciascun campione in una singola risposta finale. Confrontiamo FusioN con BoN in due contesti, (i) scaling al momento del test, in cui campioniamo e aggregiamo da un singolo modello al momento del test (ii) generazione di dati sintetici, in cui fondiamo campioni da un pool di insegnanti diversi per migliorare un modello studente. Eseguiamo un benchmarking estensivo di entrambe le configurazioni su 11 lingue, 3 task diversi e scale di modello variabili. In tutto il benchmark, FusioN supera costantemente BoN, dimostrando versatilità e robustezza sia nello scaling al momento del test che nei guadagni a valle dalla generazione di dati sintetici. Eseguiamo anche un'analisi approfondita su FusioN, che mostra sorprendenti punti di forza e robustezza in contesti impegnativi. Questi risultati dimostrano che dovremmo cambiare il modo in cui pensiamo alla valutazione e all'utilizzo delle generazioni degli LLM, passando da una misura monolitica della qualità all'abbracciare la loro natura polilitica. Questo cambiamento ci permette di integrare punti di forza diversi, sbloccare potenziali latenti e raggiungere miglioramenti che erano precedentemente inaccessibili attraverso la sola selezione.
I recenti progressi nelle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) sono in gran parte guidati dall'apprendimento per rinforzo (RL), tuttavia le dinamiche sottostanti dei parametri durante l'addestramento RL rimangono poco comprese. Questo lavoro identifica due proprietà fondamentali degli aggiornamenti dei parametri indotti da RL negli LLM: (1) Dominanza di Rango-1, in cui il sottospazio singolare principale della matrice di aggiornamento dei parametri determina quasi completamente i miglioramenti nel ragionamento, recuperando oltre il 99% dei guadagni di prestazione; e (2) Dinamiche Lineari di Rango-1, in cui questo sottospazio dominante evolve linearmente durante l'addestramento, consentendo previsioni accurate dai checkpoint iniziali. Esperimenti estesi su 8 LLM e 7 algoritmi convalidano la generalizzabilità di queste proprietà. Ancora più importante, sulla base di queste scoperte, proponiamo AlphaRL, un framework di accelerazione plug-in che estrapola l'aggiornamento finale dei parametri utilizzando una breve finestra iniziale di addestramento, ottenendo un aumento di velocità fino a 2,5 volte mantenendo >96% delle prestazioni di ragionamento senza moduli aggiuntivi o ottimizzazione degli iperparametri. Questo posiziona la nostra scoperta come uno strumento versatile e pratico per il RL su larga scala, aprendo una strada verso un paradigma di addestramento per LLM basato su principi, interpretabile ed efficiente.
Il fine-tuning supervisionato (SFT) è l'approccio standard per il post-addestramento di grandi modelli linguistici (LLM), ma spesso mostra una generalizzazione limitata. Riconduciamo questa limitazione al suo obiettivo di addestramento predefinito: la log-verosimiglianza negativa (NLL). Sebbene la NLL sia classicamente ottimale quando si addestra da zero, il post-addestramento opera in un paradigma diverso e potrebbe violare le sue ipotesi di ottimalità, in cui i modelli già codificano prior rilevanti per il compito e la supervisione può essere lunga e rumorosa. A tal fine, studiamo una famiglia generale di obiettivi basati sulla probabilità e caratterizziamo la loro efficacia in diverse condizioni. Attraverso esperimenti completi e ampi studi di ablazione su 7 architetture di modelli, 14 benchmark e 3 domini, scopriamo una dimensione critica che governa il comportamento degli obiettivi: il continuum delle capacità del modello. Verso l'estremo in cui il modello è forte, obiettivi che privilegiano i prior e scontano i token a bassa probabilità (ad esempio, -p, -p^{10}, varianti sogliate) superano costantemente la NLL; verso l'estremo in cui il modello è debole, la NLL domina; nel mezzo, nessun obiettivo prevale. La nostra analisi teorica chiarisce ulteriormente come gli obiettivi si scambiano di posto lungo il continuum, fornendo una base principiata per adattare gli obiettivi alle capacità del modello. Il nostro codice è disponibile all'indirizzo https://github.com/GaotangLi/Beyond-Log-Likelihood.
Presentiamo MixtureVitae, un corpus di pre-addestramento ad accesso aperto progettato per minimizzare i rischi legali garantendo al contempo prestazioni solide dei modelli. MixtureVitae segue una strategia di approvvigionamento mitigata dal rischio, che combina testi di dominio pubblico e con licenze permissive (ad esempio, CC-BY/Apache) con aggiunte a basso rischio accuratamente giustificate (ad esempio, opere governative e fonti idonee al Text and Data Mining dell'UE), insieme a dati sintetici, di istruzione e di ragionamento mirati con provenienza documentata. Descriviamo una pipeline trasparente e multi-fase per il filtraggio basato sulle licenze, il controllo di sicurezza e qualità, e la miscelazione consapevole del dominio, e rilasciamo il dataset e le ricette di curatela per supportare la ricerca riproducibile. In esperimenti controllati utilizzando il protocollo di addestramento open-sci-ref (architetture fisse con 130M/400M/1.3B/1.7B parametri; budget di addestramento di 50B e 300B token), i modelli addestrati su MixtureVitae superano costantemente altri dataset permissivi su una serie di benchmark standard, e nella configurazione 1.7B/300B superano FineWeb-Edu e si avvicinano a DCLM nelle fasi avanzate dell'addestramento. Le prestazioni sono particolarmente solide in matematica/codice e competitive nei compiti di QA. Questi risultati dimostrano che dati permissivi e mitigati dal rischio forniscono una base pratica e legalmente sicura per addestrare LLM capaci, riducendo la dipendenza dal web scraping indiscriminato senza sacrificare la competitività. Codice: https://github.com/ontocord/mixturevitae
Gli agenti di interfaccia grafica utente (GUI) basati su modelli visione-linguaggio sono emersi come un approccio promettente per automatizzare i flussi di lavoro uomo-computer. Tuttavia, affrontano anche la sfida dell'inefficienza, poiché elaborano lunghe sequenze di screenshot ad alta risoluzione e risolvono compiti a lungo termine, rendendo l'inferenza lenta, costosa e vincolata dalla memoria. Sebbene la memorizzazione nella cache chiave-valore (KV) possa mitigare questo problema, archiviare l'intera cache è proibitivo per contesti ricchi di immagini. I metodi esistenti di compressione della cache sono subottimali, poiché non tengono conto della ridondanza spaziale e temporale delle GUI. In questo lavoro, analizziamo prima i modelli di attenzione nei carichi di lavoro degli agenti GUI e scopriamo che, a differenza delle immagini naturali, la sparsità dell'attenzione è uniformemente elevata in tutti i livelli del trasformatore. Questa intuizione motiva una semplice strategia di allocazione uniforme del budget, che dimostriamo empiricamente superare schemi più complessi che variano per livello. Basandoci su questo, introduciamo GUI-KV, un metodo di compressione della cache KV plug-and-play per agenti GUI che non richiede riaddestramento. GUI-KV combina due tecniche innovative: (i) la guida della salienza spaziale, che potenzia i punteggi di attenzione con la norma L2 degli stati nascosti per preservare meglio i token visivi semanticamente importanti, e (ii) il punteggio della ridondanza temporale, che proietta le chiavi dei frame precedenti sul sottospazio delle chiavi del frame corrente per potare preferenzialmente la storia ridondante. Su benchmark e modelli standard di agenti GUI, GUI-KV supera le baseline competitive di compressione KV, avvicinandosi all'accuratezza della cache completa con budget modesti. In particolare, in un'impostazione a 5 screenshot sul benchmark AgentNetBench, GUI-KV riduce i FLOP di decodifica del 38,9% aumentando l'accuratezza del passo del 4,1% rispetto alla baseline della cache completa. Questi risultati dimostrano che sfruttare le ridondanze specifiche delle GUI consente prestazioni efficienti e affidabili degli agenti.
I Modelli di Ricompensa per Processi (PRM) forniscono una supervisione a livello di passaggio che migliora l'affidabilità del ragionamento nei grandi modelli linguistici. Sebbene i PRM siano stati ampiamente studiati in domini basati su testo, la loro estensione ai Modelli Linguaggio-Visione (VLM) rimane limitata. Gli attuali PRM Linguaggio-Visione (VL-PRM) si basano sulla Ricerca ad Albero Monte Carlo (MCTS) per la costruzione dei dati, che può spesso produrre segnali di supervisione rumorosi e limitare la generalizzazione tra i compiti. In questo lavoro, miriamo a chiarire lo spazio di progettazione dei VL-PRM esplorando diverse strategie per la costruzione del dataset, l'addestramento e il ridimensionamento durante il test. In primo luogo, introduciamo un framework di sintesi dati ibrido che combina MCTS con giudizi di un VLM potente, producendo etichette a livello di passaggio più accurate. In secondo luogo, proponiamo una supervisione focalizzata sulla percezione, consentendo al nostro PRM di rilevare esplicitamente gli errori nella fase di ancoraggio visivo del ragionamento. In terzo luogo, valutiamo sistematicamente diverse strategie di ridimensionamento durante il test, dimostrando che i nostri PRM possono guidare in modo affidabile i VLM verso soluzioni più accurate. I nostri esperimenti, che coprono cinque benchmark multimodali diversi (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista e MathVision), rivelano diverse intuizioni chiave: (i) i VL-PRM, quando utilizzati come Modelli di Ricompensa per Risultati (ORM) durante il ridimensionamento durante il test (TTS), possono superare la selezione dei passaggi del processo guidata da VL-PRM, (ii) VL-PRM più piccoli possono eguagliare o addirittura superare quelli più grandi nel rilevare errori di processo, (iii) i VL-PRM scoprono capacità di ragionamento latenti in backbone VLM più forti, (iv) la supervisione a livello di percezione porta a guadagni significativi nel ridimensionamento durante il test, e (v) le prestazioni TTS di diverse politiche migliorano su dataset avanzati di ragionamento matematico nonostante i VL-PRM non siano stati addestrati su tali dataset. Speriamo che il nostro lavoro possa motivare ulteriori ricerche e supportare l'avanzamento dei VLM.
I LLM non sono in grado di riconoscere in modo affidabile i limiti della loro conoscenza parametrica e spesso generano risposte allucinate a domande che vanno oltre tali limiti. Al contrario, gli esseri umani riconoscono i propri limiti e possono cercare aiuto esterno per tali domande o astenersi dal rispondere. In questo articolo, introduciamo MASH (Modeling Abstention via Selective Help-seeking), un framework di addestramento che estrae facilmente le astensioni dai LLM. La nostra idea chiave è che qualsiasi richiesta di aiuto esterno da parte di un LLM, come l'uso di strumenti di ricerca, può fungere da proxy per l'astensione se l'aiuto esterno (la ricerca) viene opportunamente penalizzato mentre si premia contemporaneamente l'accuratezza delle risposte. MASH implementa questa idea utilizzando l'apprendimento per rinforzo con una ricompensa pay-per-search. Abbiamo condotto esperimenti su tre dataset di QA ad alta intensità di conoscenza. I nostri risultati mostrano che MASH migliora significativamente le prestazioni di ricerca selettiva rispetto agli approcci di ricerca efficienti precedenti; sui dataset multi-hop, MASH migliora l'accuratezza delle risposte del 7,6%. Inoltre, MASH dimostra una forte capacità di astensione off-the-shelf: è in grado di distinguere tra domande non rispondibili/rispondibili e generare selettivamente risposte per le domande rispondibili, mostrando un comportamento analogo agli approcci specializzati per l'astensione. Sottolineiamo che, contrariamente ai metodi di astensione precedenti, MASH non richiede di predeterminare i limiti della conoscenza per costruire i dati di addestramento. Invece, le astensioni di MASH sono un sottoprodotto dell'addestramento per il compito ausiliario di ricerca selettiva di aiuto. Nel complesso, dimostriamo che l'addestramento di MASH allinea efficacemente l'uso degli strumenti di ricerca con la conoscenza parametrica, che può essere sfruttata con successo per prendere decisioni di astensione.
La Teoria della Mente (ToM) - la comprensione degli stati mentali altrui - è un aspetto chiave dell'intelligenza sociale umana, eppure i chatbot e gli agenti sociali basati su LLM (Large Language Models) tipicamente non la integrano. In questo lavoro, dimostriamo che gli LLM che utilizzano esplicitamente la ToM migliorano nel dialogo, raggiungendo gli obiettivi in modo più efficace. Dopo aver mostrato che semplicemente suggerire ai modelli di generare stati mentali tra i turni di dialogo fornisce già un beneficio significativo, introduciamo ulteriormente ToMAgent (ToMA), un agente di dialogo focalizzato sulla ToM. ToMA viene addestrato abbinando la ToM con l'anticipazione del dialogo per produrre stati mentali che siano massimamente utili per il raggiungimento degli obiettivi dialogici. Esperimenti sul benchmark di valutazione sociale interattiva Sotopia dimostrano l'efficacia del nostro metodo rispetto a una gamma di baseline. Un'analisi completa mostra che ToMA esibisce comportamenti di ragionamento più strategici e orientati agli obiettivi, che consentono un adattamento a lungo termine, mantenendo al contempo relazioni migliori con i partner. I nostri risultati suggeriscono un passo avanti nell'integrazione della ToM per la costruzione di agenti LLM socialmente intelligenti.
Il Diffusion Transformer ha dimostrato capacità straordinarie nella generazione di video ad alta fedeltà, producendo fotogrammi visivamente coerenti e ricchi di dettagli per durate prolungate. Tuttavia, i modelli esistenti per la generazione di video presentano ancora limitazioni nella generazione di video con soggetti consistenti, a causa di una difficoltà intrinseca nell'interpretazione di prompt che specificano relazioni spaziali complesse, logica temporale e interazioni tra più soggetti. Per affrontare questo problema, proponiamo BindWeave, un framework unificato che gestisce un'ampia gamma di scenari da soggetto singolo a scene multi-soggetto complesse con entità eterogenee. Per associare la semantica complessa dei prompt a soggetti visivi concreti, introduciamo un framework MLLM-DiT in cui un modello linguistico multimodale pre-addestrato esegue un ragionamento cross-modale approfondito per ancorare le entità e districare ruoli, attributi e interazioni, producendo stati nascosti consapevoli del soggetto che condizionano il diffusion transformer per la generazione di video ad alta fedeltà con soggetti consistenti. Gli esperimenti sul benchmark OpenS2V dimostrano che il nostro metodo raggiunge prestazioni superiori in termini di consistenza del soggetto, naturalezza e rilevanza testuale nei video generati, superando i modelli open-source e commerciali esistenti.
Studiamo l'elicitazione di segreti: la scoperta di conoscenze che un'IA possiede ma non verbalizza esplicitamente. Come banco di prova, addestriamo tre famiglie di modelli linguistici di grandi dimensioni (LLM) a possedere conoscenze specifiche che applicano in contesti successivi ma negano di conoscere quando interrogati direttamente. Ad esempio, in uno scenario, addestriamo un LLM a generare risposte coerenti con la conoscenza che l'utente è di sesso femminile, negando però questa conoscenza quando interrogato direttamente. Progettiamo quindi varie tecniche di elicitazione di segreti in modalità black-box e white-box e le valutiamo in base alla loro capacità di aiutare un auditor di LLM a indovinare con successo la conoscenza segreta. Molte delle nostre tecniche migliorano i semplici baseline. Le nostre tecniche più efficaci (che performano meglio in 2/3 degli scenari) si basano su attacchi di prefill, una tecnica black-box in cui l'LLM rivela conoscenze segrete quando genera un completamento a partire da un prefisso predefinito. Nel nostro scenario rimanente, le tecniche white-box basate su logit lens e autoencoder sparsi (SAE) sono le più efficaci. Rilasciamo i nostri modelli e il codice, stabilendo un benchmark pubblico per valutare i metodi di elicitazione di segreti.
Proponiamo ImitSAT, una politica di branching per risolutori CDCL (Conflict-Driven Clause Learning) basata sull'apprendimento per imitazione per il problema della soddisfacibilità booleana (SAT). A differenza dei metodi precedenti che prevedono segnali a livello di istanza per migliorare indirettamente il branching CDCL, o che si affidano al reinforcement learning e a informazioni CDCL insufficienti per potenziare il branching, ImitSAT apprende da KeyTrace, un esperto che riduce un'intera esecuzione alla sequenza di decisioni sopravvissute. Riprodurre un KeyTrace sulla stessa istanza è quasi privo di conflitti, fornendo una supervisione densa a livello decisionale e riducendo direttamente le propagazioni – il principale contributore del tempo di esecuzione. Questa supervisione condizionata al prefisso consente a ImitSAT di riprodurre rami di alta qualità senza esplorazione, garantendo una convergenza più rapida, un addestramento stabile e un'integrazione senza soluzione di continuità nel CDCL. Esperimenti estensivi dimostrano che ImitSAT riduce il numero di propagazioni e il tempo di esecuzione, superando gli approcci basati sull'apprendimento più avanzati. Abbiamo rilasciato il codice sorgente e il modello addestrato su https://github.com/zewei-Zhang/ImitSAT.
I Modelli Linguistici di Grande Scala sono sempre più impiegati come agenti autonomi per compiti complessi nel mondo reale, tuttavia i sistemi esistenti spesso si concentrano su miglioramenti isolati senza un disegno unificato per robustezza e adattabilità. Proponiamo un'architettura di agente generalista che integra tre componenti fondamentali: un framework multi-agente collettivo che combina agenti di pianificazione ed esecuzione con un sistema di voto di modelli critici, un sistema di memoria gerarchico che abbraccia livelli operativi, semantici e procedurali, e una suite di strumenti raffinata per la ricerca, l'esecuzione di codice e l'analisi multimodale. Valutato su un benchmark completo, il nostro framework supera costantemente i benchmark open-source e si avvicina alle prestazioni dei sistemi proprietari. Questi risultati dimostrano l'importanza dell'integrazione a livello di sistema e delineano un percorso verso assistenti AI scalabili, resilienti e adattivi, capaci di operare in diversi domini e compiti.
Gli agenti AI basati su modelli di fondazione (Foundation Models, FM) stanno rapidamente guadagnando adozione in diversi domini, ma la loro intrinseca non-deterministicità e non-riproducibilità pongono sfide significative per il testing e l'assicurazione della qualità. Sebbene recenti benchmark forniscano valutazioni a livello di task, c'è una comprensione limitata di come gli sviluppatori verifichino la correttezza interna di questi agenti durante lo sviluppo. Per colmare questa lacuna, abbiamo condotto il primo studio empirico su larga scala delle pratiche di testing nell'ecosistema degli agenti AI, analizzando 39 framework open-source per agenti e 439 applicazioni agentiche. Abbiamo identificato dieci distinti pattern di testing e riscontrato che metodi innovativi e specifici per gli agenti, come DeepEval, sono raramente utilizzati (circa l'1%), mentre pattern tradizionali come il testing negativo e il testing di appartenenza sono ampiamente adattati per gestire l'incertezza dei FM. Mappando questi pattern ai componenti architetturali canonici dei framework per agenti e delle applicazioni agentiche, abbiamo scoperto un'inversione fondamentale dello sforzo di testing: componenti deterministici come gli Artifatti di Risorse (strumenti) e gli Artifatti di Coordinamento (workflow) assorbono oltre il 70% dello sforzo di testing, mentre il Plan Body basato su FM riceve meno del 5%. In modo cruciale, ciò rivela un punto cieco critico, poiché il componente Trigger (prompt) rimane trascurato, comparendo in circa l'1% di tutti i test. Le nostre scoperte offrono la prima baseline empirica di testing nei framework per agenti basati su FM e nelle applicazioni agentiche, rivelando un adattamento razionale ma incompleto alla non-deterministicità. Per affrontare questa problematica, gli sviluppatori di framework dovrebbero migliorare il supporto per metodi di testing innovativi, gli sviluppatori di applicazioni devono adottare il regression testing dei prompt e i ricercatori dovrebbero esplorare le barriere all'adozione. Rafforzare queste pratiche è fondamentale per costruire agenti AI più robusti e affidabili.
I modelli visione-linguaggio (VLMs) eccellono nella comprensione di scene ad alto livello, ma incontrano difficoltà nei compiti di percezione fine che richiedono una localizzazione precisa. Questo fallimento deriva da una discrepanza fondamentale, poiché generare coordinate numeriche esatte è un compito impegnativo per architetture centrate sul linguaggio. In questo articolo, introduciamo VLM-FO1, un nuovo framework che supera questa limitazione riformulando la percezione centrata sugli oggetti da un problema fragile di generazione di coordinate a un compito robusto di recupero di feature. Il nostro metodo funziona come un modulo plug-and-play che si integra con qualsiasi VLM pre-addestrato. Sfrutta un Hybrid Fine-grained Region Encoder (HFRE), dotato di un doppio encoder visivo, per generare potenti token di regione ricchi di dettagli sia semantici che spaziali. Un sistema di riferimento basato su token consente quindi al LLM di ragionare in modo fluido e ancorare il linguaggio a queste specifiche regioni visive. Gli esperimenti dimostrano che VLM-FO1 raggiunge prestazioni all'avanguardia su una vasta gamma di benchmark, mostrando capacità eccezionali nell'ancoraggio degli oggetti, nella comprensione generativa delle regioni e nel ragionamento sulle regioni visive. Fondamentalmente, la nostra strategia di addestramento in due fasi garantisce che questi miglioramenti percettivi siano ottenuti senza compromettere le capacità di comprensione visiva generale del modello di base. VLM-FO1 stabilisce un paradigma efficace e flessibile per costruire VLMs consapevoli della percezione, colmando il divario tra il ragionamento ad alto livello e l'ancoraggio visivo fine.
L'ascesa dei Large Language Models (LLM) sta ridefinendo i modelli multimodali, con la sintesi vocale che rappresenta un'applicazione di rilievo. Tuttavia, gli approcci esistenti spesso non sfruttano appieno l'intelligenza linguistica di questi modelli, tipicamente trascurando le loro potenti capacità di seguire istruzioni. Questa limitazione ostacola la capacità del modello di seguire istruzioni testuali per un Text-to-Speech (TTS) controllabile. Per affrontare questo problema, proponiamo un nuovo paradigma ispirato all'“operazionalismo” che separa la comprensione delle istruzioni dalla generazione vocale. Introduciamo BatonVoice, un framework in cui un LLM agisce come un “direttore d'orchestra”, comprendendo le istruzioni dell'utente e generando un “piano” testuale – caratteristiche vocali esplicite (ad esempio, tono, energia). Un modello TTS separato, l'“orchestra”, genera poi il parlato a partire da queste caratteristiche. Per realizzare questo componente, sviluppiamo BatonTTS, un modello TTS addestrato specificamente per questo compito. I nostri esperimenti dimostrano che BatonVoice ottiene prestazioni solide nella sintesi vocale controllata ed emotiva, superando baseline open-source e closed-source di alto livello. In particolare, il nostro approccio consente una notevole generalizzazione cross-linguale zero-shot, applicando con precisione le capacità di controllo delle caratteristiche a lingue non viste durante il post-addestramento. Ciò dimostra che oggettivare il parlato in caratteristiche vocali testuali può sbloccare in modo più efficace l'intelligenza linguistica degli LLM.
La corrispondenza delle distribuzioni è fondamentale per molte attività di visione e grafica, dove la distanza di Wasserstein, ampiamente utilizzata, risulta troppo costosa da calcolare per distribuzioni ad alta dimensionalità. La distanza di Wasserstein a fette (Sliced Wasserstein Distance, SWD) offre un'alternativa scalabile, ma il suo stimatore Monte Carlo soffre di un'elevata varianza, portando a gradienti rumorosi e una convergenza lenta. Introduciamo la Reservoir SWD (ReSWD), che integra il campionamento ponderato da serbatoio (Weighted Reservoir Sampling) nella SWD per mantenere in modo adattivo direzioni di proiezione informative durante i passi di ottimizzazione, ottenendo gradienti stabili pur rimanendo imparziale. Esperimenti su benchmark sintetici e su compiti reali come la correzione del colore e la guida della diffusione dimostrano che ReSWD supera costantemente la SWD standard e altri metodi di riduzione della varianza. Pagina del progetto: https://reservoirswd.github.io/
I modelli linguistici di grandi dimensioni (LLM) sono sempre più studiati nel contesto del ragionamento a più turni, in cui i modelli affinano iterativamente i loro output basandosi sul feedback fornito dall'utente. Tali contesti sono cruciali per compiti che richiedono un ragionamento complesso, ma i paradigmi di feedback esistenti spesso si basano sull'invio di nuovi messaggi. Gli LLM faticano a integrarli in modo affidabile, portando a miglioramenti inconsistenti. In questo lavoro, introduciamo il feedback in-place, un nuovo paradigma di interazione in cui gli utenti modificano direttamente la risposta precedente di un LLM, e il modello si basa su questa risposta modificata per generare la sua revisione. Valutazioni empiriche su benchmark diversificati e intensivi dal punto di vista del ragionamento rivelano che il feedback in-place ottiene prestazioni migliori rispetto al feedback multi-turn tradizionale, utilizzando il 79,1% in meno di token. Analisi complementari in ambienti controllati dimostrano ulteriormente che il feedback in-place risolve una limitazione fondamentale del feedback multi-turn: i modelli spesso non applicano il feedback in modo preciso alle parti errate della risposta, lasciando errori non corretti e talvolta introducendo nuovi errori in contenuti precedentemente corretti. Questi risultati suggeriscono che il feedback in-place offre un meccanismo più naturale ed efficace per guidare gli LLM in compiti intensivi dal punto di vista del ragionamento.
L'apprendimento di politiche di controllo per compiti complessi e a lungo orizzonte rappresenta una sfida centrale nella robotica e nei sistemi autonomi. La Logica Temporale dei Segnali (Signal Temporal Logic, STL) offre un linguaggio potente ed espressivo per specificare tali compiti, ma la sua natura non markoviana e le ricompense intrinsecamente sparse rendono difficile la risoluzione tramite algoritmi standard di Apprendimento per Rinforzo (Reinforcement Learning, RL). Gli approcci RL precedenti si concentrano solo su frammenti limitati di STL o utilizzano i punteggi di robustezza STL come ricompense terminali sparse. In questo articolo, proponiamo TGPO, Temporal Grounded Policy Optimization, per risolvere compiti STL generali. TGPO scompone l'STL in sotto-obiettivi temporizzati e vincoli invarianti, fornendo un framework gerarchico per affrontare il problema. Il componente di alto livello di TGPO propone allocazioni temporali concrete per questi sotto-obiettivi, mentre la politica condizionata al tempo di basso livello impara a raggiungere i sotto-obiettivi sequenziali utilizzando un segnale di ricompensa denso e graduale. Durante l'inferenza, campioniamo varie allocazioni temporali e selezioniamo l'assegnazione più promettente per la rete di policy per generare la traiettoria di soluzione. Per favorire un apprendimento efficiente della politica per STL complessi con più sotto-obiettivi, sfruttiamo il critico appreso per guidare la ricerca temporale di alto livello tramite il campionamento Metropolis-Hastings, concentrando l'esplorazione su soluzioni temporalmente fattibili. Abbiamo condotto esperimenti su cinque ambienti, che vanno dalla navigazione a bassa dimensionalità alla manipolazione, ai droni e alla locomozione quadrupedale. In un'ampia gamma di compiti STL, TGPO supera significativamente i benchmark di stato dell'arte (soprattutto nei casi ad alta dimensionalità e lungo orizzonte), con un miglioramento medio del 31,6% nel tasso di successo del compito rispetto al miglior baseline. Il codice sarà disponibile all'indirizzo https://github.com/mengyuest/TGPO.
In questo lavoro, proponiamo di allineare encoder visivi pre-addestrati per fungere da tokenizer nei modelli di diffusione latente per la generazione di immagini. A differenza dell'addestramento di un autoencoder variazionale (VAE) da zero, che si concentra principalmente su dettagli di basso livello, il nostro approccio sfrutta la ricca struttura semantica degli encoder di base. Introduciamo una strategia di allineamento in tre fasi: (1) congeliamo l'encoder e addestriamo un adattatore e un decoder per stabilire uno spazio latente semantico; (2) ottimizziamo congiuntamente tutti i componenti con una perdita aggiuntiva di preservazione semantica, consentendo all'encoder di catturare dettagli percettivi mantenendo la semantica di alto livello; e (3) affiniamo il decoder per migliorare la qualità della ricostruzione. Questo allineamento produce tokenizer di immagini semanticamente ricchi che avvantaggiano i modelli di diffusione. Su ImageNet 256×256, il nostro tokenizer accelera la convergenza dei modelli di diffusione, raggiungendo un gFID di 1.90 in soli 64 epoche, e migliora la generazione sia con che senza guida classifier-free. Scalando su LAION, un modello text-to-image da 2 miliardi di parametri addestrato con il nostro tokenizer supera costantemente FLUX VAE con lo stesso numero di passi di addestramento. Nel complesso, il nostro metodo è semplice, scalabile e stabilisce un paradigma semanticamente fondato per la progettazione di tokenizer continui.
Il curriculum learning svolge un ruolo cruciale nel migliorare l'efficienza dell'addestramento dei grandi modelli linguistici (LLM) nei compiti di ragionamento. Tuttavia, i metodi esistenti spesso non tengono adeguatamente conto delle variazioni nella difficoltà dei prompt o si affidano a meccanismi di filtraggio semplicistici per selezionare i dataset di prompt all'interno di un intervallo di criteri ristretto, causando uno spreco computazionale significativo. In questo lavoro, affrontiamo il problema dalla prospettiva dell'ottimizzazione del gradiente nell'apprendimento per rinforzo, offrendo un'indagine sistematica e teorica su come migliorare l'efficienza dell'addestramento degli LLM. Identifichiamo due fattori chiave che influenzano l'efficienza dell'addestramento: la selezione dei prompt di addestramento e l'allocazione delle quantità di rollout tra i diversi prompt. La nostra analisi teorica rivela che la distribuzione di campionamento dei prompt determina la velocità di convergenza della discesa del gradiente, mentre l'allocazione della quantità di rollout influenza la coerenza e la stabilità degli aggiornamenti complessivi del gradiente. Sulla base di queste intuizioni, proponiamo CurES, un metodo di addestramento efficiente che accelera la convergenza e utilizza la stima bayesiana a posteriori per minimizzare il sovraccarico computazionale. Gli esperimenti dimostrano che il nostro CurES supera l'ottimizzazione delle politiche relative di gruppo (GRPO) di +3,30 punti e +4,82 punti rispettivamente con modelli da 1,5B e 7B. Inoltre, CurES mostra una convergenza più rapida rispetto ai metodi di riferimento, incluso GRPO.
Nonostante le loro capacità, i Large Language Models (LLM) rimangono opachi, con una comprensione limitata delle loro rappresentazioni interne. I metodi attuali di interpretabilità, come l'attribuzione diretta dei logit (DLA) e gli autoencoder sparsi (SAE), offrono un'analisi ristretta a causa di limitazioni come il vocabolario di output del modello o i nomi poco chiari delle feature. Questo lavoro introduce Hyperdimensional Probe, un nuovo paradigma per decodificare le informazioni dallo spazio vettoriale degli LLM. Combina idee dalle rappresentazioni simboliche e dal probing neurale per proiettare il flusso residuo del modello in concetti interpretabili tramite le Vector Symbolic Architectures (VSA). Questa sonda unisce i punti di forza degli SAE e delle sonde convenzionali superandone le principali limitazioni. Validiamo il nostro paradigma di decodifica con task controllati di completamento dell'input, sondando lo stato finale del modello prima della previsione del token successivo su input che spaziano dal riconoscimento di pattern sintattici, associazioni chiave-valore e inferenza astratta. Lo valutiamo ulteriormente in un contesto di risposta alle domande, esaminando lo stato del modello sia prima che dopo la generazione del testo. I nostri esperimenti dimostrano che la nostra sonda estrae in modo affidabile concetti significativi attraverso diversi LLM, dimensioni di embedding e domini di input, aiutando anche a identificare i fallimenti degli LLM. Il nostro lavoro avanza la decodifica delle informazioni nello spazio vettoriale degli LLM, consentendo di estrarre feature più informative, interpretabili e strutturate dalle rappresentazioni neurali.