Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ranking listwise basato su Large Language Model (LLM) ha dimostrato prestazioni superiori in molte attività di ranking di passaggi. Con lo sviluppo dei Large Reasoning Models, molti studi hanno evidenziato che il ragionamento passo-passo durante il test-time aiuta a migliorare le prestazioni del ranking listwise. Tuttavia, a causa della scarsità di dati di addestramento intensivi in ragionamento, i reranker esistenti performano male in molti scenari di ranking complessi e la capacità di ranking dei reranker intensivi in ragionamento rimane largamente sottosviluppata. In questo articolo, proponiamo innanzitutto un framework automatizzato per la sintesi di dati di addestramento intensivi in ragionamento, che attinge query e passaggi di addestramento da domini diversi e applica DeepSeek-R1 per generare etichette di addestramento di alta qualità. Un meccanismo di filtraggio dei dati basato sull'autoconsistenza è progettato per garantire la qualità dei dati. Per dotare il reranker listwise di una forte capacità di ragionamento, proponiamo ulteriormente un approccio di post-addestramento in due fasi, che include una fase di fine-tuning supervisionato (SFT) a freddo per l'apprendimento dei pattern di ragionamento e una fase di apprendimento per rinforzo (RL) per un ulteriore miglioramento della capacità di ranking. Durante la fase RL, basandoci sulla natura del ranking listwise, progettiamo una ricompensa di ranking multi-view, che è più efficace di una ricompensa basata su metriche di ranking. Esperimenti estensivi dimostrano che il nostro reranker intensivo in ragionamento, ReasonRank, supera significativamente i baseline esistenti e raggiunge anche una latenza molto più bassa rispetto al reranker pointwise Rank1. Attraverso ulteriori esperimenti, il nostro ReasonRank ha raggiunto una performance state-of-the-art (SOTA) di 40.6 sulla leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.} I nostri codici sono disponibili all'indirizzo https://github.com/8421BCD/ReasonRank.
Dalla ricerca professionale alla pianificazione quotidiana, molte attività sono ostacolate dalla ricerca su larga scala di informazioni, che è più ripetitiva che cognitivamente complessa. Con il rapido sviluppo dei Large Language Models (LLM), gli agenti di ricerca automatizzati alimentati da LLM offrono una soluzione promettente per liberare gli esseri umani da questo lavoro tedioso. Tuttavia, la capacità di questi agenti di eseguire in modo affidabile e completo tale raccolta di informazioni in "contesti ampi" rimane in gran parte non valutata a causa della mancanza di benchmark adeguati. Per colmare questa lacuna, introduciamo WideSearch, un nuovo benchmark progettato per valutare l'affidabilità degli agenti in queste attività di raccolta su larga scala. Il benchmark presenta 200 domande curate manualmente (100 in inglese, 100 in cinese) provenienti da oltre 15 domini diversi, basate su query reali degli utenti. Ogni attività richiede agli agenti di raccogliere informazioni atomiche su larga scala, che possono essere verificate una per una in modo oggettivo, e di organizzarle in un output ben strutturato. Un rigoroso processo di controllo qualità in cinque fasi garantisce la difficoltà, la completezza e la verificabilità del dataset. Abbiamo valutato oltre 10 sistemi di ricerca agentici all'avanguardia, inclusi framework a singolo agente, multi-agente e sistemi commerciali end-to-end. La maggior parte dei sistemi raggiunge tassi di successo complessivi vicini allo 0\%, con il miglior risultato che arriva appena al 5\%. Tuttavia, con un tempo sufficiente, la convalida incrociata da parte di più tester umani può raggiungere un tasso di successo vicino al 100\%. Questi risultati dimostrano che gli attuali agenti di ricerca presentano carenze critiche nella ricerca di informazioni su larga scala, evidenziando aree urgenti per la ricerca e lo sviluppo futuri nella ricerca agentica. Il nostro dataset, la pipeline di valutazione e i risultati del benchmark sono stati pubblicamente rilasciati su https://widesearch-seed.github.io/.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno suscitato un crescente interesse verso agenti di intelligenza artificiale in grado di risolvere compiti complessi e reali. Tuttavia, la maggior parte dei sistemi di agenti esistenti si basa su configurazioni create manualmente che rimangono statiche dopo il dispiegamento, limitando la loro capacità di adattarsi a ambienti dinamici ed evolutivi. A tal fine, ricerche recenti hanno esplorato tecniche di evoluzione degli agenti che mirano a migliorare automaticamente i sistemi di agenti basandosi sui dati di interazione e sul feedback ambientale. Questa direzione emergente getta le basi per agenti di IA auto-evolutivi, che colmano il divario tra le capacità statiche dei modelli di base e l'adattabilità continua richiesta dai sistemi agentici lifelong. In questa rassegna, forniamo una revisione completa delle tecniche esistenti per i sistemi agentici auto-evolutivi. Nello specifico, introduciamo prima un quadro concettuale unificato che astrae il ciclo di feedback alla base della progettazione di sistemi agentici auto-evolutivi. Il framework evidenzia quattro componenti chiave: Input di Sistema, Sistema Agente, Ambiente e Ottimizzatori, che fungono da fondamento per comprendere e confrontare diverse strategie. Basandoci su questo framework, esaminiamo sistematicamente una vasta gamma di tecniche auto-evolutive che mirano a diversi componenti del sistema agente. Investigiamo inoltre strategie di evoluzione specifiche per domini sviluppate per campi specializzati come biomedicina, programmazione e finanza, dove gli obiettivi di ottimizzazione sono strettamente legati ai vincoli di dominio. In aggiunta, forniamo una discussione dedicata su valutazione, sicurezza e considerazioni etiche per i sistemi agentici auto-evolutivi, che sono cruciali per garantirne l'efficacia e l'affidabilità. Questa rassegna mira a fornire a ricercatori e professionisti una comprensione sistematica degli agenti di IA auto-evolutivi, gettando le basi per lo sviluppo di sistemi agentici più adattativi, autonomi e lifelong.
Gli effetti visivi (VFX) sono miglioramenti visivi essenziali fondamentali per la produzione cinematografica moderna. Sebbene i modelli di generazione video offrano soluzioni economicamente efficienti per la produzione di VFX, i metodi attuali sono limitati dall'addestramento LoRA per singolo effetto, il quale restringe la generazione a un solo effetto alla volta. Questa limitazione fondamentale ostacola le applicazioni che richiedono effetti compositi controllabili spazialmente, ovvero la generazione simultanea di più effetti in posizioni designate. Tuttavia, l'integrazione di effetti diversi in un framework unificato affronta sfide significative: interferenze dovute alle variazioni degli effetti e mancanza di controllo spaziale durante l'addestramento congiunto di più VFX. Per affrontare queste sfide, proponiamo Omni-Effects, il primo framework unificato in grado di generare effetti guidati da prompt e effetti compositi controllabili spazialmente. Il cuore del nostro framework comprende due innovazioni chiave: (1) LoRA-based Mixture of Experts (LoRA-MoE), che utilizza un gruppo di LoRA esperti, integrando effetti diversi all'interno di un modello unificato mitigando efficacemente le interferenze tra compiti. (2) Spatial-Aware Prompt (SAP) incorpora le informazioni della maschera spaziale nel token di testo, consentendo un controllo spaziale preciso. Inoltre, introduciamo un modulo Independent-Information Flow (IIF) integrato all'interno del SAP, isolando i segnali di controllo corrispondenti ai singoli effetti per prevenire qualsiasi mescolanza indesiderata. Per facilitare questa ricerca, costruiamo un dataset VFX completo, Omni-VFX, tramite una nuova pipeline di raccolta dati che combina l'editing di immagini e la sintesi First-Last Frame-to-Video (FLF2V), e introduciamo un framework di valutazione VFX dedicato per convalidare le prestazioni del modello. Esperimenti estensivi dimostrano che Omni-Effects raggiunge un controllo spaziale preciso e una generazione di effetti diversificata, consentendo agli utenti di specificare sia la categoria che la posizione degli effetti desiderati.
L'apprendimento per rinforzo per il ragionamento dei modelli linguistici di grandi dimensioni (LLM) è rapidamente emerso come un'area di ricerca di primo piano, caratterizzata da un significativo aumento degli studi correlati sia sulle innovazioni algoritmiche che sulle applicazioni pratiche. Nonostante questi progressi, permangono diverse sfide critiche, tra cui l'assenza di linee guida standardizzate per l'impiego delle tecniche di apprendimento per rinforzo e una comprensione frammentata dei loro meccanismi sottostanti. Inoltre, impostazioni sperimentali inconsistenti, variazioni nei dati di addestramento e differenze nell'inizializzazione dei modelli hanno portato a conclusioni contrastanti, oscurando le caratteristiche chiave di queste tecniche e creando confusione tra i professionisti nella selezione delle tecniche appropriate. Questo articolo esamina sistematicamente le tecniche di apprendimento per rinforzo ampiamente adottate attraverso riproduzioni rigorose e valutazioni isolate all'interno di un framework open-source unificato. Analizziamo i meccanismi interni, gli scenari applicabili e i principi fondamentali di ciascuna tecnica attraverso esperimenti dettagliati, inclusi dataset di difficoltà variabile, dimensioni dei modelli e architetture diverse. Sulla base di queste intuizioni, presentiamo linee guida chiare per la selezione delle tecniche di apprendimento per rinforzo adattate a configurazioni specifiche e forniamo una roadmap affidabile per i professionisti che operano nel dominio dell'apprendimento per rinforzo per i LLM. Infine, riveliamo che una combinazione minimalista di due tecniche può sbloccare la capacità di apprendimento di politiche senza critico utilizzando la semplice perdita PPO. I risultati dimostrano che la nostra combinazione semplice migliora costantemente le prestazioni, superando strategie come GRPO e DAPO.
Il recentemente proposto Large Concept Model (LCM) genera testo prevedendo una sequenza di embedding a livello di frase e addestrandosi con obiettivi di errore quadratico medio o di diffusione. Presentiamo SONAR-LLM, un trasformatore di tipo decoder-only che "pensa" nello stesso spazio continuo di embedding SONAR, ma è supervisionato attraverso l'entropia incrociata a livello di token propagata tramite il decoder SONAR congelato. Questo obiettivo ibrido mantiene l'astrazione semantica dell'LCM eliminando il suo campionatore di diffusione e ripristinando un segnale di addestramento basato sulla verosimiglianza. Attraverso dimensioni del modello che vanno da 39M a 1.3B parametri, SONAR-LLM raggiunge una qualità di generazione competitiva. Riportiamo tendenze di scalabilità, ablazioni, risultati di benchmark e rilasciamo il codice completo di addestramento e tutti i checkpoint pre-addestrati per favorire la riproducibilità e la ricerca futura.
Il ragionamento è centrale per l'azione finalizzata, eppure la maggior parte dei modelli di base per la robotica mappano direttamente percezione e istruzioni al controllo, limitando adattabilità, generalizzazione e fondamento semantico. Introduciamo i Modelli di Ragionamento sull'Azione (ARMs), una classe di modelli visione-linguaggio-azione che integrano percezione, pianificazione e controllo attraverso una pipeline strutturata in tre fasi. Il nostro modello, MolmoAct, codifica osservazioni e istruzioni in token di percezione consapevoli della profondità, genera piani spaziali di medio livello come tracce di traiettorie modificabili e predice azioni di basso livello precise, consentendo un comportamento spiegabile e guidabile. MolmoAct-7B-D ottiene prestazioni solide sia in contesti simulati che reali: 70,5% di accuratezza zero-shot sui task di SimplerEnv Visual Matching, superando i modelli closed-source Pi-0 e GR00T N1; 86,6% di successo medio su LIBERO, con un ulteriore guadagno del 6,3% rispetto a ThinkAct sui task a lungo orizzonte; e, nel fine-tuning nel mondo reale, un progresso del 10% (monobraccio) e del 22,7% (bimanuale) rispetto a Pi-0-FAST. Supera inoltre i modelli di riferimento del 23,3% nella generalizzazione fuori distribuzione e raggiunge i punteggi più alti nelle preferenze umane per il seguimento di istruzioni aperte e la guida delle traiettorie. Inoltre, rilasciamo per la prima volta il MolmoAct Dataset, un dataset robotico di medio addestramento che comprende oltre 10.000 traiettorie robotiche di alta qualità in scenari e task diversificati. L'addestramento con questo dataset produce un miglioramento medio del 5,5% nelle prestazioni generali rispetto al modello base. Rilasciamo tutti i pesi del modello, il codice di addestramento, il nostro dataset raccolto e il dataset di ragionamento sull'azione, stabilendo MolmoAct sia come un modello di base per la robotica all'avanguardia, sia come un progetto aperto per costruire ARMs che trasformano la percezione in azione finalizzata attraverso un ragionamento strutturato. Blogpost: https://allenai.org/blog/molmoact
Presentiamo Klear-Reasoner, un modello con capacità di ragionamento esteso che dimostra un'attenta deliberazione durante la risoluzione di problemi, ottenendo prestazioni eccezionali su molteplici benchmark. Sebbene esistano già numerosi lavori eccellenti relativi ai modelli di inferenza nella comunità attuale, persistono molte difficoltà nel riprodurre modelli di inferenza ad alte prestazioni a causa della divulgazione incompleta dei dettagli di addestramento. Questo report fornisce un'analisi approfondita del modello di ragionamento, coprendo l'intero flusso di lavoro post-addestramento, dalla preparazione dei dati e il fine-tuning supervisionato con lunghe catene di pensiero (long CoT SFT) all'apprendimento per rinforzo (RL), insieme a dettagliati studi di ablazione per ogni componente sperimentale. Per i dati SFT, i nostri esperimenti dimostrano che un numero ridotto di fonti dati di alta qualità è più efficace rispetto a un gran numero di fonti diverse, e che campioni difficili possono ottenere risultati migliori senza filtraggio per accuratezza. Inoltre, indaghiamo due problemi chiave relativi ai meccanismi di clipping attuali nell'RL: il clipping sopprime segnali critici di esplorazione e ignora traiettorie subottimali. Per affrontare queste sfide, proponiamo il Gradient-Preserving Clipping Policy Optimization (GPPO), che propaga delicatamente i gradienti dai token clippati. Il GPPO non solo migliora la capacità di esplorazione del modello, ma aumenta anche la sua efficienza nell'apprendimento da campioni negativi. Klear-Reasoner mostra abilità di ragionamento eccezionali in matematica e programmazione, ottenendo il 90,5% su AIME 2024, l'83,2% su AIME 2025, il 66,0% su LiveCodeBench V5 e il 58,1% su LiveCodeBench V6.
Gli agenti Deep-Research, che integrano modelli linguistici di grandi dimensioni (LLM) con strumenti di ricerca, hanno dimostrato successo nel migliorare l'efficacia nella gestione di query complesse che richiedono pianificazione iterativa della ricerca e ragionamento sui risultati di ricerca. Le valutazioni sugli attuali benchmark come BrowseComp, che si basano su API di ricerca web live a scatola chiusa, presentano limitazioni significative in termini di (1) equità: le API web dinamiche e opache ostacolano confronti equi e la riproducibilità dei metodi di deep research; (2) trasparenza: la mancanza di controllo sul corpus di documenti rende difficile isolare i contributi del sistema di recupero. In altre parole, le valutazioni attuali possono confrontare un sistema completo di deep research in un dato momento, ma non favoriscono esperimenti ben controllati per fornire approfondimenti sulle capacità dei LLM sottostanti. Per affrontare queste sfide, introduciamo BrowseComp-Plus, un benchmark derivato da BrowseComp, che utilizza un corpus fisso e accuratamente curato. Ogni query in BrowseComp-Plus include documenti di supporto verificati da esseri umani e negativi difficili estratti, consentendo esperimenti controllati. Il benchmark si è dimostrato efficace nel distinguere le prestazioni dei sistemi di deep research. Ad esempio, il modello open-source Search-R1, abbinato al retriever BM25, raggiunge un'accuratezza del 3,86%, mentre il GPT-5 raggiunge il 55,9%. L'integrazione del GPT-5 con il retriever Qwen3-Embedding-8B migliora ulteriormente la sua accuratezza al 70,1% con meno chiamate di ricerca. Questo benchmark consente una valutazione completa e un'analisi distinta degli agenti di deep research e dei metodi di recupero, favorendo approfondimenti sull'efficacia del recupero, l'accuratezza delle citazioni e l'ingegneria del contesto nei sistemi Deep-Research.
I modelli linguistici di grandi dimensioni (LLM) basati su agenti hanno compiuto progressi impressionanti nel ragionamento e nell'uso di strumenti, consentendo loro di risolvere compiti complessi. Tuttavia, la loro capacità di collaborare proattivamente con gli utenti, specialmente quando gli obiettivi sono vaghi, in evoluzione o espressi indirettamente, rimane poco esplorata. Per colmare questa lacuna, introduciamo UserBench, un benchmark centrato sull'utente progettato per valutare gli agenti in interazioni multi-turno guidate dalle preferenze. UserBench include utenti simulati che partono con obiettivi non specificati e rivelano gradualmente le loro preferenze, richiedendo agli agenti di chiarire proattivamente le intenzioni e prendere decisioni fondate con gli strumenti. La nostra valutazione dei principali LLM open-source e closed-source rivela un significativo disallineamento tra il completamento del compito e l'allineamento con l'utente. Ad esempio, i modelli forniscono risposte che si allineano completamente a tutte le intenzioni dell'utente solo il 20% delle volte in media, e persino i modelli più avanzati scoprono meno del 30% di tutte le preferenze dell'utente attraverso l'interazione attiva. Questi risultati evidenziano le sfide nel costruire agenti che non siano solo esecutori capaci di compiti, ma veri partner collaborativi. UserBench offre un ambiente interattivo per misurare e far progredire questa capacità critica.
L'architettura Mixture of Experts (MoE) rappresenta un pilastro fondamentale dei moderni modelli linguistici di grandi dimensioni (LLM) all'avanguardia (SOTA). I modelli MoE favoriscono la scalabilità consentendo l'attivazione sparsa dei parametri. Tuttavia, l'architettura MoE tradizionale utilizza esperti omogenei di dimensioni uniformi, attivando un numero fisso di parametri indipendentemente dalla complessità dell'input, limitando così l'efficienza computazionale. Per superare questa limitazione, introduciamo Grove MoE, una nuova architettura che incorpora esperti di dimensioni variabili, ispirata all'architettura eterogenea big.LITTLE delle CPU. Questa architettura presenta esperti aggiunti innovativi con un meccanismo di attivazione dinamica, consentendo l'espansione della capacità del modello mantenendo un sovraccarico computazionale gestibile. Basandoci su questa architettura, presentiamo GroveMoE-Base e GroveMoE-Inst, LLM da 33 miliardi di parametri sviluppati applicando una strategia di upcycling al modello Qwen3-30B-A3B-Base durante la fase intermedia e post-allenamento. I modelli GroveMoE attivano dinamicamente 3,14-3,28 miliardi di parametri in base alla complessità dei token e raggiungono prestazioni paragonabili ai modelli open-source SOTA di dimensioni simili o addirittura maggiori.
I recenti progressi all'intersezione tra apprendimento per rinforzo (RL) e intelligenza visiva hanno permesso lo sviluppo di agenti che non solo percepiscono scene visive complesse, ma sono anche in grado di ragionare, generare e agire al loro interno. Questa rassegna offre una sintesi critica e aggiornata del campo. Iniziamo formalizzando i problemi di RL visivo e tracciando l'evoluzione delle strategie di ottimizzazione delle politiche, dal RLHF ai paradigmi di ricompensa verificabile, e dall'ottimizzazione delle politiche prossimali (PPO) all'ottimizzazione delle politiche relative di gruppo (GRPO). Successivamente, organizziamo oltre 200 lavori rappresentativi in quattro pilastri tematici: modelli linguistici multimodali su larga scala, generazione visiva, framework di modelli unificati e modelli visione-linguaggio-azione. Per ciascun pilastro, esaminiamo il design algoritmico, l'ingegneria delle ricompense, i progressi nei benchmark e distilliamo tendenze come l'addestramento guidato da curriculum, la diffusione allineata alle preferenze e la modellazione unificata delle ricompense. Infine, rivediamo i protocolli di valutazione che spaziano dalla fedeltà a livello di insieme, alle preferenze a livello di campione e alla stabilità a livello di stato, e identifichiamo sfide aperte che includono l'efficienza del campionamento, la generalizzazione e il dispiegamento sicuro. Il nostro obiettivo è fornire a ricercatori e professionisti una mappa coerente del panorama in rapida espansione del RL visivo e di evidenziare direzioni promettenti per future indagini. Le risorse sono disponibili all'indirizzo: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato miglioramenti nelle prestazioni di generazione attraverso la generazione aumentata da recupero (RAG) seguendo il paradigma retriever-reader, che integra gli input del modello con conoscenze recuperate esternamente. Tuttavia, i lavori precedenti spesso valutano la RAG in modo olistico, analizzando congiuntamente il retriever e il reader, rendendo difficile isolare il vero contributo del recupero, specialmente data la sensibilità ai prompt degli LLM utilizzati come reader. Introduciamo lo Spectrum Projection Score (SPS), una metrica leggera e priva di supervisione che consente al reader di valutare l'allineamento semantico di un riassunto recuperato con la sua rappresentazione nascosta confrontando l'area formata dai token generati dal riassunto e le direzioni principali del sottospazio nel reader, misurando così la rilevanza. Basandoci su SPS, presentiamo xCompress, un framework di controllo al momento dell'inferenza che campiona, classifica e comprime dinamicamente i candidati per i riassunti recuperati. Esperimenti estesi su cinque benchmark di domande e risposte con quattro LLM open source dimostrano che SPS non solo migliora le prestazioni in una gamma di task, ma fornisce anche una prospettiva principiata sull'interazione tra recupero e generazione.
I grandi modelli linguistici eccellono nel ragionamento astratto, ma la loro capacità di ragionamento per agenti incarnati rimane in gran parte inesplorata. Presentiamo OmniEAR, un framework completo per valutare come i modelli linguistici ragionano sulle interazioni fisiche, l'uso di strumenti e la coordinazione multi-agente in compiti incarnati. A differenza dei benchmark esistenti che forniscono set di strumenti predefiniti o direttive di collaborazione esplicite, OmniEAR richiede agli agenti di acquisire dinamicamente capacità e determinare autonomamente strategie di coordinamento in base alle esigenze del compito. Attraverso una rappresentazione basata su testo dell'ambiente, modelliamo proprietà fisiche continue e relazioni spaziali complesse in 1.500 scenari che coprono ambiti domestici e industriali. La nostra valutazione sistematica rivela un grave degrado delle prestazioni quando i modelli devono ragionare a partire da vincoli: mentre raggiungono un tasso di successo dell'85-96% con istruzioni esplicite, le prestazioni scendono al 56-85% per il ragionamento sugli strumenti e al 63-85% per la collaborazione implicita, con composti composti che mostrano tassi di fallimento superiori al 50%. Sorprendentemente, informazioni ambientali complete peggiorano le prestazioni di coordinamento, indicando che i modelli non riescono a filtrare i vincoli rilevanti per il compito. Il fine-tuning migliora drasticamente i compiti a singolo agente (da 0,6% a 76,3%) ma produce guadagni minimi nei compiti multi-agente (da 1,5% a 5,5%), evidenziando limitazioni architetturali fondamentali. Questi risultati dimostrano che il ragionamento incarnato presenta sfide fondamentalmente diverse rispetto a quelle che i modelli attuali possono affrontare, stabilendo OmniEAR come un benchmark rigoroso per valutare e far progredire i sistemi di IA incarnata. Il nostro codice e i dati sono inclusi nei materiali supplementari e saranno open-source dopo l'accettazione.
I Modelli Linguistici Auto-Ricompensanti propongono un'architettura in cui i Modelli Linguistici di Grande Dimensione (LLM) generano risposte e valutano i propri output tramite il prompting LLM-as-a-Judge, migliorando dinamicamente le proprie capacità generative attraverso un'ottimizzazione iterativa delle preferenze dirette (DPO). Tuttavia, la nostra analisi rivela una limitazione critica nei paradigmi Auto-Ricompensanti esistenti: il miglioramento sincronizzato delle risposte scelte e rifiutate riduce progressivamente la differenza rappresentativa tra i campioni contrastanti, compromettendo l'apprendimento efficace delle preferenze. Proponiamo Modelli Linguistici Auto-Ricompensanti Temporali che coordinano strategicamente le generazioni passate, presenti e future del modello per mantenere i segnali di apprendimento. Il nostro framework a doppia fase introduce: (1) Rifiuto Ancorato - fissando le risposte rifiutate utilizzando gli output del modello iniziale passato e (2) Scelta Guidata dal Futuro - curando dinamicamente i campioni scelti utilizzando le previsioni del modello di prossima generazione. Esperimenti estesi su tre famiglie di modelli (Llama, Qwen, Mistral) e diverse dimensioni di modello (Llama3B/8B/70B) dimostrano miglioramenti significativi quando addestrati con il nostro metodo rispetto all'approccio Auto-Ricompensante utilizzando le stesse risorse computazionali. Ad esempio, Llama3.1-8B raggiunge un tasso di vittoria del 29.44 su AlpacaEval 2.0 con il nostro metodo, superando il baseline Auto-Ricompensante (19.69) di 9.75. Inoltre, il nostro metodo dimostra una generalizzazione superiore fuori distribuzione in compiti di ragionamento matematico (GSM8K), domande basate sulla conoscenza (ARC, TruthfulQA) e generazione di codice (HumanEval), nonostante non raccogliamo specificamente dati di addestramento per tali compiti.
L'architettura Mixture-of-Experts (MoE) è diventata un paradigma predominante per il ridimensionamento dei grandi modelli linguistici (LLM). Nonostante offra prestazioni robuste ed efficienza computazionale, i grandi LLM basati su MoE come DeepSeek-V3-0324 e Kimi-K2-Instruct presentano sfide significative a causa degli ingenti requisiti di memoria durante il deployment. Sebbene lavori recenti abbiano esplorato la compressione di MoE per affrontare questo problema, i metodi esistenti spesso soffrono di notevoli cali di accuratezza (ad esempio, 7-14% in termini relativi) anche con tassi di compressione modesti. Questo articolo introduce un nuovo metodo chiamato Mixture-of-Basis-Experts (MoBE) che consente la compressione del modello con cali di accuratezza minimi. Nello specifico, ogni matrice up/gate in un esperto viene decomposta tramite una decomposizione di rango come W = AB, dove la matrice A è unica per ogni esperto. La matrice B, relativamente più grande, viene ulteriormente ri-parametrizzata come una combinazione lineare di matrici di base {Bi} condivise tra tutti gli esperti all'interno di un dato strato MoE. La fattorizzazione viene appresa minimizzando l'errore di ricostruzione rispetto alle matrici di peso originali. Gli esperimenti dimostrano che MoBE ottiene cali di accuratezza notevolmente inferiori rispetto ai lavori precedenti. Ad esempio, MoBE può ridurre il numero di parametri di Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) e Kimi-K2-Instruct (1T) del 24%-30% con un calo di accuratezza di solo l'1%-2% (circa il 2% in termini relativi).
I grandi modelli di ragionamento raggiungono prestazioni elevate attraverso il ridimensionamento al momento del test, ma comportano un notevole sovraccarico computazionale, in particolare a causa della generazione eccessiva di token durante l'elaborazione di prompt di input brevi. Sebbene i meccanismi di attenzione sparsa possano ridurre la latenza e l'uso della memoria, gli approcci esistenti soffrono di un significativo degrado dell'accuratezza a causa di errori accumulati durante il ragionamento a lunga generazione. Questi metodi richiedono generalmente tassi di ritenzione dei token elevati o un costoso riaddestramento. Introduciamo LessIsMore, un meccanismo di attenzione sparsa senza addestramento per compiti di ragionamento, che sfrutta modelli di attenzione globale piuttosto che affidarsi a ottimizzazioni locali specifiche per testa. LessIsMore aggrega le selezioni di token dalle teste di attenzione locale con informazioni contestuali recenti, consentendo una classificazione unificata dei token tra le teste per i livelli di decodifica futuri. Questa selezione unificata migliora la generalizzazione e l'efficienza evitando la necessità di mantenere sottoinsiemi di token separati per ogni testa. La valutazione su vari compiti di ragionamento e benchmark mostra che LessIsMore preserva — e in alcuni casi migliora — l'accuratezza, ottenendo un aumento medio della velocità di decodifica di 1,1 volte rispetto all'attenzione completa. Inoltre, LessIsMore si concentra su 2 volte meno token senza perdita di accuratezza, raggiungendo un aumento della velocità end-to-end di 1,13 volte rispetto ai metodi di attenzione sparsa esistenti.
Sebbene i recenti modelli di editing di immagini basati su flussi dimostrino capacità generali in una vasta gamma di compiti, spesso faticano a specializzarsi in scenari complessi, in particolare quelli che coinvolgono trasformazioni su larga scala delle forme. Quando eseguono tali modifiche strutturali, questi metodi o non riescono a ottenere il cambiamento di forma desiderato o alterano involontariamente regioni non target, risultando in una qualità degradata dello sfondo. Proponiamo Follow-Your-Shape, un framework senza addestramento e senza maschere che supporta un editing preciso e controllabile delle forme degli oggetti, preservando rigorosamente il contenuto non target. Motivati dalla divergenza tra le traiettorie di inversione e di editing, calcoliamo una Mappa di Divergenza delle Traiettorie (TDM) confrontando le differenze di velocità token-wise tra i percorsi di inversione e di denoising. La TDM consente una localizzazione precisa delle regioni modificabili e guida un meccanismo di Iniezione KV Programmata che garantisce un editing stabile e fedele. Per facilitare una valutazione rigorosa, introduciamo ReShapeBench, un nuovo benchmark composto da 120 nuove immagini e coppie di prompt arricchite, specificamente curate per l'editing consapevole delle forme. Gli esperimenti dimostrano che il nostro metodo raggiunge una superiore editabilità e fedeltà visiva, in particolare nei compiti che richiedono la sostituzione su larga scala delle forme.
Le politiche robotiche generaliste addestrate su dataset su larga scala come Open X-Embodiment (OXE) dimostrano prestazioni solide in un'ampia gamma di compiti. Tuttavia, spesso faticano a generalizzare al di là della distribuzione dei loro dati di addestramento. In questo articolo, indaghiamo la causa sottostante di questa limitata capacità di generalizzazione. Identifichiamo l'apprendimento di scorciatoie — la dipendenza da caratteristiche irrilevanti per il compito — come un ostacolo chiave alla generalizzazione. Attraverso un'analisi teorica ed empirica completa, scopriamo due principali contributori all'apprendimento di scorciatoie: (1) la limitata diversità all'interno dei singoli sotto-dataset e (2) significative disparità distribuzionali tra i sotto-dataset, che portano alla frammentazione del dataset. Questi problemi derivano dalla struttura intrinseca dei dataset su larga scala come OXE, tipicamente composti da più sotto-dataset raccolti in modo indipendente in ambienti e incarnazioni variati. Le nostre scoperte forniscono intuizioni cruciali sulle strategie di raccolta dei dataset che possono ridurre l'apprendimento di scorciatoie e migliorare la capacità di generalizzazione delle politiche robotiche generaliste. Inoltre, negli scenari in cui l'acquisizione di nuovi dati su larga scala è impraticabile, dimostriamo che strategie di aumento dei dati robotiche selezionate con cura possono ridurre efficacemente l'apprendimento di scorciatoie nei dataset offline esistenti, migliorando così le capacità di generalizzazione delle politiche robotiche generaliste, ad esempio pi_0, sia in ambienti simulati che nel mondo reale. Ulteriori informazioni sono disponibili su https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
La classificazione è uno dei compiti più diffusi nelle applicazioni di intelligenza artificiale, spesso utilizzato come primo passaggio per filtrare, ordinare e categorizzare i dati. Poiché i moderni sistemi di IA devono gestire grandi volumi di dati in ingresso e le fasi iniziali della pipeline possono propagare errori a valle, raggiungere un'elevata efficienza e accuratezza è fondamentale. Inoltre, i requisiti di classificazione possono cambiare dinamicamente in base alle esigenze degli utenti, rendendo necessari modelli con forti capacità zero-shot. Sebbene i modelli linguistici generativi (LLM) siano diventati mainstream per la classificazione zero-shot grazie alla loro versatilità, soffrono di un'adesione incoerente alle istruzioni e di inefficienza computazionale. I cross-encoder, comunemente utilizzati come riordinatori nelle pipeline RAG, affrontano un collo di bottiglia diverso: devono elaborare coppie testo-etichetta in sequenza, riducendo significativamente l'efficienza con grandi insiemi di etichette. Gli approcci basati su embedding offrono una buona efficienza ma faticano in scenari complessi che coinvolgono vincoli logici e semantici. Proponiamo GLiClass, un metodo innovativo che adatta l'architettura GLiNER per compiti di classificazione di sequenze. Il nostro approccio raggiunge un'accuratezza e un'efficienza paragonabili ai metodi basati su embedding, mantenendo la flessibilità necessaria per scenari di apprendimento zero-shot e few-shot. Inoltre, abbiamo adattato l'ottimizzazione delle politiche prossimali (PPO) per la classificazione multi-etichetta di testi, consentendo l'addestramento di classificatori in condizioni di dati scarsi o a partire da feedback umano.
La maggior parte dei dati organizzativi nel mondo sono memorizzati come documenti, e il recupero visivo svolge un ruolo cruciale nello sbloccare l'intelligenza collettiva da tutti questi documenti. Tuttavia, i benchmark esistenti si concentrano sul recupero di documenti solo in inglese o considerano unicamente il question-answering multilingue su immagini di singole pagine. Per colmare questa lacuna, introduciamo VisR-Bench, un benchmark multilingue progettato per il recupero multimodale guidato da domande in documenti lunghi. Il nostro benchmark comprende oltre 35K coppie domanda-risposta di alta qualità su 1.2K documenti, consentendo una valutazione granulare del recupero multimodale. VisR-Bench copre sedici lingue con tre tipi di domande (figure, testo e tabelle), offrendo una copertura linguistica e di domande diversificata. A differenza dei dataset precedenti, includiamo query senza risposte esplicite, impedendo ai modelli di affidarsi a un superficiale abbinamento di parole chiave. Valutiamo vari modelli di recupero, inclusi metodi basati su testo, encoder multimodali e MLLM, fornendo approfondimenti sui loro punti di forza e limitazioni. I nostri risultati mostrano che, sebbene gli MLLM superino significativamente i modelli basati su testo e gli encoder multimodali, continuano a incontrare difficoltà con tabelle strutturate e lingue a bassa risorsa, evidenziando le principali sfide nel recupero visivo multilingue.
I modelli linguistici di grandi dimensioni (LLM) che utilizzano il prompting a catena di pensiero (CoT) eccellono nel ragionamento complesso, ma generano processi di pensiero prolissi con una notevole ridondanza, portando a maggiori costi di inferenza e a una ridotta efficienza. Introduciamo un nuovo framework di compressione CoT basato sull'entropia dei passaggi, una metrica che quantifica il contributo informativo dei singoli passaggi di ragionamento per identificare la ridondanza. Attraverso un'analisi teorica e una vasta validazione empirica su benchmark di ragionamento matematico, dimostriamo che i passaggi con bassa entropia sono effettivamente altamente ridondanti. I nostri esperimenti rivelano che un sorprendente 80\% dei passaggi intermedi a bassa entropia può essere rimosso con un deterioramento minimo dell'accuratezza della risposta finale su DeepSeek-R1-7B, 14B e Qwen3-8B. Questo risultato contrasta nettamente con la rimozione casuale o ad alta entropia, che compromette gravemente le prestazioni di ragionamento. Sulla base di ciò, proponiamo una nuova strategia di addestramento in due fasi che combina il fine-tuning supervisionato (SFT) e l'ottimizzazione delle politiche relative di gruppo (GRPO) con apprendimento per rinforzo. Questo approccio consente agli LLM di apprendere autonomamente a generare CoT compressi durante l'inferenza incorporando strategicamente token [SKIP]. Il nostro metodo migliora significativamente l'efficienza dell'inferenza degli LLM preservando rigorosamente l'accuratezza, offrendo profonde implicazioni per il dispiegamento pratico degli LLM e una comprensione più approfondita delle strutture di ragionamento.
C'è un crescente interesse nell'integrare capacità di sintesi visiva ad alta fedeltà nei grandi modelli linguistici (LLM) senza compromettere le loro forti capacità di ragionamento. I metodi esistenti che addestrano direttamente gli LLM o collegano gli LLM ai modelli di diffusione solitamente soffrono di costi di addestramento elevati, poiché i modelli LLM di base non hanno visto rappresentazioni di immagini durante il pre-addestramento. Presentiamo Bifrost-1, un framework unificato che collega i modelli linguistici multimodali pre-addestrati (MLLM) e i modelli di diffusione utilizzando embedding di immagini CLIP a livello di patch come variabili latenti, che sono naturalmente allineati con l'encoder visivo CLIP dell'MLLM. Questi embedding di immagini a livello di patch sono integrati nel modello di diffusione con un adattamento leggero del suo ControlNet. Per mantenere le capacità originali di ragionamento multimodale degli MLLM, dotiamo l'MLLM di un ramo di generazione visiva inizializzato dai parametri originali dell'MLLM quando si prevedono gli embedding di immagini a livello di patch. Integrando in modo fluido gli MLLM pre-addestrati e i modelli di diffusione con latenti CLIP a livello di patch, il nostro framework consente la generazione di immagini controllabili ad alta fedeltà con una significativa efficienza di addestramento. I nostri esperimenti dimostrano che Bifrost-1 raggiunge prestazioni comparabili o migliori rispetto ai metodi precedenti in termini di fedeltà visiva e comprensione multimodale, con un utilizzo di risorse computazionali notevolmente inferiore durante l'addestramento. Forniamo anche studi di ablazione completi che mostrano l'efficacia delle nostre scelte progettuali.
I sistemi AI open-weight offrono vantaggi unici, tra cui una maggiore trasparenza, ricerca aperta e accesso decentralizzato. Tuttavia, sono vulnerabili ad attacchi di manipolazione che possono efficacemente elicitare comportamenti dannosi modificando pesi o attivazioni. Attualmente, non esiste ancora una scienza robusta della gestione del rischio per i modelli open-weight. I metodi esistenti di fine-tuning per la sicurezza e altre tecniche post-addestramento hanno faticato a rendere i LLM resistenti a più di qualche decina di passi di fine-tuning avversariale. In questo articolo, indaghiamo se il filtraggio di testi relativi a tematiche a duplice uso dai dati di addestramento possa prevenire capacità indesiderate e fungere da salvaguardia più resistente alla manipolazione. Introduciamo una pipeline multi-stadio per il filtraggio scalabile dei dati e dimostriamo che offre un metodo trattabile ed efficace per minimizzare la conoscenza proxy delle minacce biologiche nei LLM. Addestriamo da zero diversi modelli con 6,9 miliardi di parametri e scopriamo che mostrano una sostanziale resistenza agli attacchi di fine-tuning avversariale su fino a 10.000 passi e 300 milioni di token di testo relativo alle minacce biologiche, superando i benchmark post-addestramento esistenti di oltre un ordine di grandezza, senza alcun deterioramento osservato nelle capacità non correlate. Tuttavia, sebbene i modelli filtrati non abbiano internalizzato conoscenze pericolose, scopriamo che possono comunque sfruttare tali informazioni quando vengono fornite nel contesto (ad esempio, tramite l'integrazione di strumenti di ricerca), dimostrando la necessità di un approccio di difesa in profondità. Nel complesso, questi risultati contribuiscono a stabilire la cura dei dati di pre-addestramento come un promettente livello di difesa per i sistemi AI open-weight.
Molti hanno osservato che lo sviluppo e il dispiegamento di modelli generativi di machine learning (ML) e intelligenza artificiale (IA) seguono uno schema distintivo in cui modelli pre-addestrati vengono adattati e perfezionati per specifici compiti downstream. Tuttavia, esistono pochi studi empirici che esaminano la struttura di queste interazioni. Questo articolo analizza 1,86 milioni di modelli su Hugging Face, una delle principali piattaforme di produzione peer per lo sviluppo di modelli. Il nostro studio sugli alberi genealogici dei modelli — reti che collegano i modelli perfezionati ai loro modelli base o genitori — rivela lignaggi di fine-tuning estesi che variano ampiamente in dimensioni e struttura. Utilizzando una lente della biologia evolutiva per studiare i modelli di ML, impieghiamo metadati dei modelli e schede tecniche per misurare la somiglianza genetica e la mutazione delle caratteristiche all'interno delle famiglie di modelli. Scopriamo che i modelli tendono a mostrare una somiglianza familiare, il che significa che i loro marcatori genetici e caratteristiche presentano una maggiore sovrapposizione quando appartengono alla stessa famiglia di modelli. Tuttavia, queste somiglianze si discostano in certi aspetti dai modelli standard di riproduzione asessuata, poiché le mutazioni sono rapide e dirette, tanto che due modelli "fratelli" tendono a mostrare una maggiore somiglianza rispetto alle coppie genitore/figlio. Un'ulteriore analisi delle derive direzionali di queste mutazioni rivela intuizioni qualitative sull'ecosistema open del machine learning: le licenze, controintuitivamente, passano da licenze restrittive e commerciali a licenze permissive o copyleft, spesso violando i termini delle licenze upstream; i modelli evolvono dalla compatibilità multilingue verso la compatibilità esclusiva con l'inglese; e le schede tecniche si riducono in lunghezza e si standardizzano, ricorrendo più spesso a modelli e testo generato automaticamente. Nel complesso, questo lavoro compie un passo verso una comprensione empiricamente fondata del fine-tuning dei modelli e suggerisce che i modelli e i metodi ecologici possono produrre nuove intuizioni scientifiche.
I sistemi di fact-checking all'avanguardia combattono la disinformazione su larga scala impiegando agenti autonomi basati su LLM per scomporre affermazioni complesse in sotto-affermazioni più piccole, verificare ciascuna sotto-affermazione individualmente e aggregare i risultati parziali per produrre verdeti con giustificazioni (razionali esplicativi per i verdetti). La sicurezza di questi sistemi è cruciale, poiché i fact-checker compromessi, che tendono a essere facilmente sottovalutati, possono amplificare la disinformazione. Questo lavoro introduce Fact2Fiction, il primo framework di attacco di avvelenamento mirato a tali sistemi di fact-checking agentici. Fact2Fiction rispecchia la strategia di scomposizione e sfrutta le giustificazioni generate dal sistema per creare prove maligne su misura che compromettono la verifica delle sotto-affermazioni. Esperimenti estensivi dimostrano che Fact2Fiction raggiunge tassi di successo dell'attacco dall'8,9% al 21,2% superiori rispetto agli attacchi all'avanguardia in vari budget di avvelenamento. Fact2Fiction espone le debolezze di sicurezza nei sistemi di fact-checking attuali e sottolinea la necessità di contromisure difensive.
La conversione di espressioni matematiche pronunciate è un compito complesso che implica la trascrizione del parlato in una rappresentazione simbolica rigorosamente strutturata, affrontando al contempo l'ambiguità intrinseca nella pronuncia delle equazioni. Nonostante i significativi progressi ottenuti nel riconoscimento automatico del parlato (ASR) e nei modelli linguistici (LM), il problema della conversione di matematica parlata in LaTeX rimane poco esplorato. Questo compito si applica direttamente a domini educativi e di ricerca, come la trascrizione di lezioni o la creazione di appunti. Basandosi sulla post-correzione ASR, i lavori precedenti richiedono 2 trascrizioni, si concentrano solo su equazioni isolate, hanno un set di test limitato e non forniscono né dati di addestramento né copertura multilingue. Per affrontare queste problematiche, presentiamo il primo dataset su larga scala completamente open-source, comprendente oltre 66.000 campioni audio annotati manualmente di equazioni matematiche e frasi in inglese e russo, tratti da diversi ambiti scientifici. Oltre ai modelli di post-correzione ASR e al prompting few-shot, applichiamo modelli linguistici audio, dimostrando risultati comparabili in termini di tasso di errore sui caratteri (CER) sul benchmark MathSpeech (28% vs. 30%) per la conversione delle equazioni. Al contrario, sul benchmark S2L-equations proposto, i nostri modelli superano il modello MathSpeech con un margine sostanziale di oltre 40 punti percentuali, anche dopo aver considerato gli artefatti di formattazione LaTeX (27% vs. 64%). Istituiamo il primo benchmark per il riconoscimento di frasi matematiche (S2L-sentences) e raggiungiamo un CER sulle equazioni del 40%. Questo lavoro getta le basi per futuri progressi nell'IA multimodale, con un particolare focus sul riconoscimento di contenuti matematici.
Man mano che i modelli linguistici di grandi dimensioni diventano sempre più integrati nella vita quotidiana, l'audio è emerso come un'interfaccia chiave per l'interazione uomo-IA. Tuttavia, questa comodità introduce anche nuove vulnerabilità, rendendo l'audio una potenziale superficie di attacco per gli avversari. La nostra ricerca introduce WhisperInject, un framework di attacco audio avversario a due fasi in grado di manipolare i modelli linguistici audio all'avanguardia per generare contenuti dannosi. Il nostro metodo utilizza perturbazioni impercettibili negli input audio che rimangono innocue per gli ascoltatori umani. La prima fase impiega un nuovo metodo di ottimizzazione basato su ricompense, il Reinforcement Learning con Projected Gradient Descent (RL-PGD), per guidare il modello target a eludere i propri protocolli di sicurezza e generare risposte native dannose. Questa risposta nativa dannosa serve quindi come obiettivo per la Fase 2, l'Iniezione del Payload, in cui utilizziamo il Projected Gradient Descent (PGD) per ottimizzare sottili perturbazioni incorporate in vettori audio benigni, come query meteorologiche o messaggi di saluto. Validato nell'ambito del rigoroso framework di valutazione della sicurezza StrongREJECT, LlamaGuard e Human Evaluation, i nostri esperimenti dimostrano un tasso di successo superiore all'86% su Qwen2.5-Omni-3B, Qwen2.5-Omni-7B e Phi-4-Multimodal. Il nostro lavoro dimostra una nuova classe di minacce pratiche e native audio, andando oltre gli exploit teorici per rivelare un metodo fattibile e occulto per manipolare il comportamento dell'IA.
Valutare gli agenti di intelligenza artificiale all'interno di ambienti complessi e interattivi che rispecchiano le sfide del mondo reale è fondamentale per comprenderne le capacità pratiche. Sebbene i benchmark esistenti per gli agenti valutino efficacemente abilità come l'uso di strumenti o le prestazioni in compiti strutturati, spesso non catturano appieno la capacità di un agente di operare in modo autonomo in ambienti esplorativi che richiedono un ragionamento autodiretto e sostenuto su un contesto lungo e in evoluzione. Per stimolare lo sviluppo di agenti in grado di eseguire un ragionamento intrinseco più robusto su orizzonti temporali estesi, introduciamo TextQuests, un benchmark basato sulla suite di giochi di narrativa interattiva Infocom. Queste avventure testuali, che possono richiedere ai giocatori umani oltre 30 ore e centinaia di azioni precise per essere risolte, fungono da efficace proxy per valutare gli agenti di IA su compiti focalizzati e con stato. Il benchmark è specificamente progettato per valutare la capacità di un agente LLM di risolvere problemi in modo autonomo, escludendo l'uso di strumenti esterni, concentrandosi così sulle capacità intrinseche di ragionamento su contesti lunghi in un ambiente esplorativo caratterizzato dalla necessità di apprendimento per tentativi ed errori e dalla risoluzione sostenuta di problemi all'interno di una singola sessione interattiva. Rilasciamo TextQuests all'indirizzo https://textquests.ai.