Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo FlashWorld, un modello generativo che produce scene 3D da una singola immagine o prompt testuale in pochi secondi, da 10 a 100 volte più veloce rispetto ai lavori precedenti, mantenendo una qualità di rendering superiore. Il nostro approccio si discosta dal paradigma convenzionale orientato alle viste multiple (MV-oriented), che genera immagini multi-vista per la successiva ricostruzione 3D, a favore di un approccio orientato al 3D, in cui il modello produce direttamente rappresentazioni 3D basate su Gaussiane durante la generazione multi-vista. Sebbene garantisca la coerenza 3D, il metodo orientato al 3D soffre tipicamente di una qualità visiva inferiore. FlashWorld include una fase di pre-addestramento dual-mode seguita da una fase di post-addestramento cross-mode, integrando efficacemente i punti di forza di entrambi i paradigmi. Nello specifico, sfruttando il prior di un modello di diffusione video, pre-addestriamo un modello di diffusione multi-vista dual-mode, che supporta congiuntamente le modalità di generazione MV-oriented e 3D-oriented. Per colmare il divario di qualità nella generazione orientata al 3D, proponiamo ulteriormente una distillazione post-addestramento cross-mode, allineando la distribuzione dalla modalità 3D-oriented coerente alla modalità MV-oriented ad alta qualità. Ciò non solo migliora la qualità visiva mantenendo la coerenza 3D, ma riduce anche i passaggi di denoising necessari per l'inferenza. Inoltre, proponiamo una strategia per sfruttare un vasto numero di immagini a vista singola e prompt testuali durante questo processo, migliorando la generalizzazione del modello per input fuori distribuzione. Esperimenti estensivi dimostrano la superiorità e l'efficienza del nostro metodo.
I recenti progressi nei modelli multimodali unificati indicano una chiara tendenza verso la generazione di contenuti completi. Tuttavia, il dominio uditivo rimane una sfida significativa, con musica e voce spesso sviluppate in isolamento, ostacolando il progresso verso una sintesi audio universale. Questa separazione deriva da conflitti intrinseci tra i compiti e da gravi squilibri nei dati, che impediscono lo sviluppo di un modello di generazione audio veramente unificato. Per affrontare questa sfida, proponiamo UniMoE-Audio, un modello unificato per la generazione di voce e musica all'interno di un nuovo framework Dynamic-Capacity Mixture-of-Experts (MoE). Architettonicamente, UniMoE-Audio introduce una strategia di routing Top-P per l'allocazione dinamica del numero di esperti e un design ibrido di esperti che comprende esperti instradati per conoscenze specifiche del dominio, esperti condivisi per caratteristiche indipendenti dal dominio ed esperti nulli per il salto adattivo del calcolo. Per affrontare lo squilibrio dei dati, introduciamo un curriculum di addestramento in tre fasi: 1) l'Addestramento Indipendente degli Specialisti sfrutta i dataset originali per instillare conoscenze specifiche del dominio in ciascun "proto-esperto" senza interferenze; 2) l'Integrazione e il Riscaldamento MoE incorporano questi specialisti nell'architettura UniMoE-Audio, riscaldando il modulo di gate e l'esperto condiviso utilizzando un sottoinsieme bilanciato del dataset; e 3) l'Addestramento Congiunto Sinergico addestra l'intero modello end-to-end sul dataset completamente bilanciato, favorendo una sinergia cross-domain potenziata. Esperimenti estensivi dimostrano che UniMoE-Audio non solo raggiunge prestazioni all'avanguardia sui principali benchmark di generazione di voce e musica, ma mostra anche un apprendimento sinergico superiore, mitigando il degrado delle prestazioni tipicamente osservato in un addestramento congiunto ingenuo. Le nostre scoperte evidenziano il potenziale sostanziale dell'architettura MoE specializzata e delle strategie di addestramento curate nel far progredire il campo della generazione audio universale. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
Il modello di ragionamento dei Large Language Models (LLM) rimane opaco, e il Reinforcement Learning (RL) applica tipicamente un credito uniforme a un'intera generazione, sfumando la distinzione tra passaggi cruciali e routine. Questo lavoro posiziona l'attenzione come un substrato privilegiato che rende leggibile la logica interna dei LLM, non solo come un sottoprodotto del calcolo, ma come una mappa meccanicistica del ragionamento stesso. In primo luogo, distinguiamo le testine di attenzione tra elaborazione delle informazioni focalizzata localmente e globalmente, e riveliamo che le testine focalizzate localmente producono un modello a dente di sega vicino alla diagonale che indica blocchi frasali, mentre quelle focalizzate globalmente espongono token che esercitano un'influenza ampia e a valle sui token futuri. Formalizziamo questi concetti con due metriche: 1) la Windowed Average Attention Distance, che misura l'estensione dell'attenzione all'indietro all'interno di una finestra ritagliata; 2) la Future Attention Influence, che quantifica l'importanza globale di un token come l'attenzione media che riceve dai token successivi. Insieme, questi segnali rivelano un meccanismo ricorrente di pre-pianificazione e ancoraggio, in cui il modello esegue prima un riferimento contestuale a lungo raggio per generare un token introduttivo, che è immediatamente seguito o coincide con un token ancoraggio semantico che organizza il ragionamento successivo. Sfruttando queste intuizioni, introduciamo tre nuove strategie di RL che eseguono dinamicamente l'assegnazione mirata del credito a nodi critici (token di pre-pianificazione, token di ancoraggio e il loro accoppiamento temporale) e mostrano guadagni di prestazioni consistenti in vari compiti di ragionamento. Allineando l'ottimizzazione con il ritmo intrinseco del ragionamento del modello, miriamo a trasformare un'ottimizzazione opaca in un processo azionabile e consapevole della struttura, sperando di offrire un potenziale passo verso un'ottimizzazione più trasparente ed efficace del ragionamento dei LLM.
I modelli linguistici multimodali (MLLM) completamente open attualmente sono in ritardo rispetto alle controparti proprietarie, principalmente a causa di un significativo divario nella qualità dei dati per il fine-tuning supervisionato (SFT). I dataset open-source esistenti sono spesso afflitti da un rumore diffuso e da un deficit critico nei dati di ragionamento complesso, come il Chain-of-Thought (CoT), che ostacola lo sviluppo di capacità avanzate dei modelli. Affrontando queste sfide, il nostro lavoro apporta tre contributi principali. In primo luogo, introduciamo Honey-Data-15M, un nuovo dataset SFT composto da circa 15 milioni di coppie domanda-risposta, elaborato attraverso molteplici tecniche di pulizia e arricchito con una nuova strategia di arricchimento CoT a doppio livello (breve e lungo). In secondo luogo, introduciamo HoneyPipe, la pipeline di curatela dei dati, e il suo framework sottostante DataStudio, fornendo alla comunità una metodologia trasparente e adattabile per la curatela dei dati che va oltre il semplice rilascio di dataset statici. Infine, per validare il nostro dataset e la pipeline, addestriamo Bee-8B, un modello da 8B su Honey-Data-15M. Gli esperimenti mostrano che Bee-8B stabilisce un nuovo stato dell'arte (SOTA) per gli MLLM completamente open, raggiungendo prestazioni competitive e, in alcuni casi, superiori rispetto ai recenti modelli semi-open come InternVL3.5-8B. Il nostro lavoro fornisce alla comunità una suite di risorse fondamentali, tra cui: il corpus Honey-Data-15M; la suite completa che comprende HoneyPipe e DataStudio; ricette di addestramento; un sistema di valutazione; e i pesi del modello. Questo sforzo dimostra che un focus principiato sulla qualità dei dati è una via chiave per sviluppare MLLM completamente open altamente competitivi rispetto alle loro controparti semi-open.
I modelli Visual-Language-Action (VLA) riportano tassi di successo impressionanti nei benchmark di manipolazione robotica, tuttavia questi risultati possono nascondere debolezze fondamentali in termini di robustezza. Abbiamo condotto un'analisi sistematica delle vulnerabilità introducendo perturbazioni controllate lungo sette dimensioni: disposizione degli oggetti, angolazioni della telecamera, stati iniziali del robot, istruzioni linguistiche, condizioni di illuminazione, texture dello sfondo e rumore dei sensori. Abbiamo analizzato in modo completo diversi modelli all'avanguardia, rivelando una fragilità costante al di sotto di un'apparente competenza. La nostra analisi mette in luce criticità significative: i modelli mostrano un'estrema sensibilità ai fattori di perturbazione, incluse le angolazioni della telecamera e gli stati iniziali del robot, con prestazioni che scendono dal 95% a meno del 30% sotto perturbazioni modeste. Sorprendentemente, i modelli sono largamente insensibili alle variazioni linguistiche, con ulteriori esperimenti che rivelano come tendano a ignorare completamente le istruzioni verbali. I nostri risultati mettono in discussione l'assunzione che punteggi elevati nei benchmark equivalgano a una vera competenza e sottolineano la necessità di pratiche di valutazione che misurino l'affidabilità in condizioni di variazione realistica.
I modelli di generazione video attuali sono in grado di produrre video visivamente realistici, ma spesso non rispettano le leggi fisiche, limitando la loro capacità di generare video fisicamente plausibili e di fungere da "modelli del mondo". Per affrontare questo problema, proponiamo PhysMaster, che cattura la conoscenza fisica come rappresentazione per guidare i modelli di generazione video e migliorare la loro consapevolezza fisica. Nello specifico, PhysMaster si basa sul compito di generazione video a partire da un'immagine, in cui il modello deve prevedere dinamiche fisicamente plausibili a partire dall'immagine di input. Poiché l'immagine di input fornisce prior fisici come le posizioni relative e le potenziali interazioni degli oggetti nello scenario, abbiamo progettato PhysEncoder per codificare le informazioni fisiche da essa come condizione aggiuntiva, iniettando conoscenza fisica nel processo di generazione video. La mancanza di una supervisione adeguata sulle prestazioni fisiche del modello, oltre alla mera apparenza, spinge PhysEncoder ad applicare l'apprendimento per rinforzo con feedback umano all'apprendimento di rappresentazioni fisiche, sfruttando il feedback dei modelli di generazione per ottimizzare le rappresentazioni fisiche con Direct Preference Optimization (DPO) in modo end-to-end. PhysMaster fornisce una soluzione praticabile per migliorare la consapevolezza fisica di PhysEncoder e, di conseguenza, della generazione video, dimostrando la sua capacità su un semplice compito proxy e la sua generalizzabilità a un'ampia gamma di scenari fisici. Ciò implica che il nostro PhysMaster, che unisce soluzioni per vari processi fisici attraverso l'apprendimento di rappresentazioni nel paradigma dell'apprendimento per rinforzo, può fungere da soluzione generica e plug-and-play per la generazione video consapevole della fisica e per applicazioni più ampie.
Una rappresentazione spazio-temporale efficace è fondamentale per modellare, comprendere e prevedere le dinamiche nei video. L'unità atomica di un video, il pixel, traccia una traiettoria 3D continua nel tempo, fungendo da elemento primitivo delle dinamiche. Basandoci su questo principio, proponiamo di rappresentare qualsiasi video come un Campo di Traiettoria: una mappatura densa che assegna una funzione continua di traiettoria 3D nel tempo a ciascun pixel in ogni fotogramma. Con questa rappresentazione, introduciamo Trace Anything, una rete neurale che predice l'intero campo di traiettoria in un unico passaggio in avanti. Nello specifico, per ogni pixel in ciascun fotogramma, il nostro modello predice un insieme di punti di controllo che parametrizzano una traiettoria (ad esempio, una B-spline), restituendo la sua posizione 3D in istanti di tempo arbitrari. Abbiamo addestrato il modello Trace Anything su dati 4D su larga scala, inclusi i dati della nostra nuova piattaforma, e i nostri esperimenti dimostrano che: (i) Trace Anything raggiunge prestazioni all'avanguardia nel nostro nuovo benchmark per la stima del campo di traiettoria e si comporta in modo competitivo nei benchmark consolidati per il tracciamento dei punti; (ii) offre significativi guadagni in termini di efficienza grazie al suo paradigma a passaggio singolo, senza richiedere ottimizzazione iterativa o stimatori ausiliari; e (iii) mostra abilità emergenti, tra cui manipolazione condizionata agli obiettivi, previsione del movimento e fusione spazio-temporale. Pagina del progetto: https://trace-anything.github.io/.
Presentiamo InteractiveOmni, un modello linguistico di grandi dimensioni omni-modale unificato e open-source per l'interazione multi-turn audio-visuale, con dimensioni che vanno da 4B a 8B parametri, progettato per guidare il campo dei modelli leggeri offrendo una comprensione omni-modale completa e capacità di generazione del parlato. Per raggiungere questo obiettivo, integriamo l'encoder visivo, l'encoder audio, il modello linguistico di grandi dimensioni e il decoder del parlato in un modello unificato per compiti di comprensione e generazione. Progettiamo una strategia di addestramento multi-fase per garantire robuste capacità cross-modali, inclusa una pre-addestramento per la comprensione omni-modale, seguita da un post-addestramento con conversazioni vocali e interazioni audio-visuali. Per abilitare una capacità conversazionale a lungo termine simile a quella umana, curiamo meticolosamente un dataset di addestramento multi-turn che migliora la capacità del modello di gestire interazioni complesse e multi-turn. Per valutare efficacemente le capacità di memoria multi-turn e di interazione vocale, costruiamo il benchmark di memoria multi-turn multi-modale e il benchmark di interazione vocale multi-turn. Gli esperimenti dimostrano che InteractiveOmni supera significativamente i principali modelli open-source e fornisce un'esperienza audio-visuale multi-turn più intelligente, in particolare nelle sue capacità di memoria a lungo termine. È degno di nota che InteractiveOmni-4B è paragonabile a modelli molto più grandi come Qwen2.5-Omni-7B su benchmark generali, e può mantenere il 97% delle prestazioni di InteractiveOmni-8B utilizzando solo il 50% delle dimensioni del modello. Raggiungendo risultati all'avanguardia rispetto a modelli di dimensioni simili in compiti di comprensione di immagini, audio, video e generazione del parlato, InteractiveOmni rappresenta una base open-source accessibile per i sistemi interattivi intelligenti di prossima generazione.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato centrale per l'addestramento di grandi modelli linguistici (Large Language Models, LLMs), ma il campo manca di metodologie predittive di scalabilità paragonabili a quelle stabilite per il pre-training. Nonostante i budget computazionali in rapida crescita, non esiste una comprensione sistematica di come valutare i miglioramenti algoritmici per la scalabilità del calcolo RL. Presentiamo il primo studio sistematico su larga scala, che ammonta a oltre 400.000 ore di GPU, che definisce un framework metodologico per analizzare e prevedere la scalabilità RL negli LLMs. Abbiamo adattato curve sigmoidali calcolo-prestazione per l'addestramento RL e abbiamo analizzato un'ampia gamma di scelte progettuali comuni per valutarne gli effetti sulle prestazioni asintotiche e sull'efficienza computazionale. Osserviamo: (1) Non tutte le ricette producono prestazioni asintotiche simili, (2) Dettagli come l'aggregazione della loss, la normalizzazione, il curriculum e gli algoritmi off-policy modulano principalmente l'efficienza computazionale senza modificare sostanzialmente l'asintoto, e (3) Ricette stabili e scalabili seguono traiettorie di scalabilità prevedibili, consentendo l'estrapolazione da esecuzioni su scala ridotta. Combinando queste intuizioni, proponiamo una ricetta di best practice, ScaleRL, e ne dimostriamo l'efficienza scalando con successo e prevedendo le prestazioni di validazione su una singola esecuzione RL scalata fino a 100.000 ore di GPU. Il nostro lavoro fornisce sia un framework scientifico per analizzare la scalabilità in RL sia una ricetta pratica che avvicina l'addestramento RL alla prevedibilità a lungo raggiunta nel pre-training.
Mentre la maggior parte dei modelli linguistici autoregressivi (LLM) è vincolata a un decoding sequenziale, i modelli linguistici basati su diffusione (dLLM) hanno attirato un interesse crescente per il loro potenziale di accelerare drasticamente l'inferenza attraverso il decoding parallelo. Nonostante questa promessa, l'assunzione di indipendenza condizionale nei dLLM fa sì che il decoding parallelo ignori le dipendenze tra i token, degradando inevitabilmente la qualità della generazione quando queste dipendenze sono forti. Tuttavia, i lavori esistenti trascurano ampiamente queste sfide intrinseche, e le valutazioni su benchmark standard (ad esempio, matematica e codifica) non sono sufficienti per catturare il degrado della qualità causato dal decoding parallelo. Per colmare questa lacuna, forniamo prima un'analisi teorica dell'informazione del decoding parallelo. Successivamente, conduciamo studi di caso su operazioni sintetiche di liste analiticamente trattabili, sia dal punto di vista della distribuzione dei dati che della strategia di decoding, offrendo intuizioni quantitative che evidenziano le limitazioni fondamentali del decoding parallelo. Basandoci su queste intuizioni, proponiamo ParallelBench, il primo benchmark specificamente progettato per i dLLM, che include task realistici banali per gli esseri umani e per i LLM autoregressivi, ma eccezionalmente impegnativi per i dLLM sotto decoding parallelo. Utilizzando ParallelBench, analizziamo sistematicamente sia i dLLM che i LLM autoregressivi, rivelando che: (i) i dLLM sotto decoding parallelo possono subire un drastico degrado della qualità in scenari reali, e (ii) le attuali strategie di decoding parallelo faticano ad adattare il grado di parallelismo in base alla difficoltà del task, fallendo così nel raggiungere un significativo aumento di velocità senza compromettere la qualità. Le nostre scoperte sottolineano la necessità urgente di metodi di decoding innovativi in grado di superare l'attuale compromesso tra velocità e qualità. Rilasciamo il nostro benchmark per aiutare ad accelerare lo sviluppo di dLLM veramente efficienti.
I sistemi multi-agente (MAS) e l'apprendimento per rinforzo (RL) sono ampiamente utilizzati per potenziare le capacità agentiche dei modelli linguistici di grandi dimensioni (LLM). I MAS migliorano le prestazioni nei compiti attraverso un'orchestrazione basata sui ruoli, mentre l'RL utilizza ricompense ambientali per apprendere politiche più efficaci, come l'ottimizzazione in stile GRPO. Tuttavia, l'applicazione dell'RL on-policy ai MAS rimane poco esplorata e presenta sfide uniche. Dal punto di vista algoritmico, le ipotesi standard di raggruppamento del GRPO si infrangono perché i prompt variano in base al ruolo e al turno. A livello di sistema, lo stack di addestramento deve supportare i rollout del flusso di lavoro MAS e gli aggiornamenti on-policy sia per i modelli a politica singola che per quelli a politiche multiple. Proponiamo AT-GRPO, che include (i) un algoritmo RL raggruppato per agente e per turno, specificamente progettato per i MAS, e (ii) un sistema di addestramento che supporta sia i regimi a politica singola che quelli a politiche multiple. Su compiti di gioco, pianificazione, codifica e matematica, AT-GRPO offre miglioramenti significativi. Nella pianificazione a lungo termine, aumenta l'accuratezza da un baseline RL a singolo agente del 14,0-47,0% al 96,0-99,5%. Migliora anche le prestazioni di ragionamento, con guadagni medi del 3,87-7,62% nei compiti di codifica e del 9,0-17,93% in matematica. Il codice e gli ambienti sono disponibili su: https://github.com/pettingllms-ai/PettingLLMs.
Introduciamo il Verificatore Universale Generativo, un concetto e plugin innovativo progettato per il ragionamento multimodale di prossima generazione nei modelli visione-linguaggio e nei modelli multimodali unificati, fornendo la capacità fondamentale di riflessione e affinamento sui risultati visivi durante il processo di ragionamento e generazione. Questo lavoro apporta tre contributi principali: (1) Costruiamo ViVerBench, un benchmark completo che copre 16 categorie di task critici per la valutazione dei risultati visivi nel ragionamento multimodale. I risultati mostrano che gli attuali modelli visione-linguaggio (VLMs) hanno prestazioni costantemente inferiori in questi task, evidenziando un divario significativo rispetto alle capacità umane nella verifica visiva affidabile. (2) Progettiamo due pipeline automatizzate per costruire dati su larga scala per la verifica visiva e addestrare OmniVerifier-7B, il primo verificatore generativo onnicapace addestrato per la verifica visiva universale, che ottiene miglioramenti significativi su ViVerBench(+8.3). Attraverso l'addestramento, identifichiamo tre capacità atomiche nella verifica visiva e dimostriamo come si generalizzano e interagiscono sinergicamente. (3) Proponiamo OmniVerifier-TTS, un paradigma sequenziale di scalabilità al tempo di test che sfrutta il verificatore universale per collegare la generazione e l'editing di immagini all'interno di modelli unificati, migliorando il limite superiore della capacità generativa attraverso un'ottimizzazione iterativa e granulare. Oltre alla generazione, estendiamo il verificatore universale a scenari più ampi di ragionamento intervallato nella modellazione del mondo. Empiricamente, OmniVerifier-TTS ottiene miglioramenti su T2I-ReasonBench(+3.7) e GenEval++(+4.3), superando i metodi esistenti di scalabilità al tempo di test in parallelo, come Best-of-N. Dotando il ragionamento multimodale di una verifica visiva affidabile, OmniVerifier avanza sia nella riflessione affidabile durante la generazione che nell'affinamento scalabile al tempo di test, segnando un passo verso sistemi di ragionamento di prossima generazione più affidabili e controllabili.
I modelli generativi sono stati ampiamente applicati nella modellazione del mondo per la simulazione di ambienti e la previsione di stati futuri. Con i progressi nella guida autonoma, cresce la domanda non solo per la generazione di video ad alta fedeltà sotto vari controlli, ma anche per la produzione di informazioni diversificate e significative come la stima della profondità. Per affrontare questa sfida, proponiamo CVD-STORM, un modello di diffusione video cross-view che utilizza un Variational Autoencoder (VAE) di ricostruzione spazio-temporale, in grado di generare video multi-view a lungo termine con capacità di ricostruzione 4D sotto vari input di controllo. Il nostro approccio prevede prima un fine-tuning del VAE con un'attività ausiliaria di ricostruzione 4D, migliorando la sua capacità di codificare strutture 3D e dinamiche temporali. Successivamente, integriamo questo VAE nel processo di diffusione video per migliorare significativamente la qualità della generazione. I risultati sperimentali dimostrano che il nostro modello raggiunge miglioramenti sostanziali sia nelle metriche FID che FVD. Inoltre, il Gaussian Splatting Decoder addestrato congiuntamente ricostruisce efficacemente scene dinamiche, fornendo preziose informazioni geometriche per una comprensione completa della scena.
Presentiamo InternVLA-M1, un framework unificato per il grounding spaziale e il controllo robotico che avanza i robot esecutori di istruzioni verso un'intelligenza generale e scalabile. La sua idea centrale è l'addestramento visione-linguaggio-azione guidato spazialmente, dove il grounding spaziale funge da collegamento critico tra le istruzioni e le azioni del robot. InternVLA-M1 utilizza una pipeline in due fasi: (i) pre-addestramento di grounding spaziale su oltre 2,3 milioni di dati di ragionamento spaziale per determinare "dove agire" allineando le istruzioni con posizioni visive indipendenti dall'embodiment, e (ii) post-addestramento di azione guidata spazialmente per decidere "come agire" generando azioni consapevoli dell'embodiment tramite prompt spaziali plug-and-play. Questa ricetta di addestramento guidata spazialmente produce guadagni consistenti: InternVLA-M1 supera la sua variante senza guida spaziale del +14,6% su SimplerEnv Google Robot, del +17% su WidowX e del +4,3% su LIBERO Franka, dimostrando inoltre una capacità di ragionamento spaziale più forte nelle previsioni di box, punti e tracce. Per scalare ulteriormente l'esecuzione di istruzioni, abbiamo costruito un motore di simulazione per raccogliere 244.000 episodi generalizzabili di pick-and-place, ottenendo un miglioramento medio del 6,2% su 200 task e oltre 3.000 oggetti. Nel pick-and-place reale in ambienti affollati, InternVLA-M1 ha migliorato del 7,3%, e con il co-addestramento sintetico, ha raggiunto un +20,6% su oggetti non visti e configurazioni nuove. Inoltre, in scenari di ragionamento a lungo termine e ad alta intensità, ha superato i lavori esistenti di oltre il 10%. Questi risultati evidenziano l'addestramento guidato spazialmente come principio unificante per robot generalisti scalabili e resilienti. Codice e modelli sono disponibili su https://github.com/InternRobotics/InternVLA-M1.
La ricerca all'avanguardia nell'Intelligenza Artificiale (IA) richiede risorse considerevoli, tra cui unità di elaborazione grafica (GPU), dati e risorse umane. In questo articolo, valutiamo la relazione tra queste risorse e il progresso scientifico dei modelli di base (Foundation Models, FM). Abbiamo esaminato 6517 articoli sui FM pubblicati tra il 2022 e il 2024 e abbiamo intervistato 229 primi autori sull'impatto delle risorse computazionali sulla produzione scientifica. Scopriamo che l'aumento delle risorse computazionali è correlato con gli stanziamenti di fondi nazionali e con il numero di citazioni, ma i nostri risultati non mostrano forti correlazioni con l'ambiente di ricerca (accademico o industriale), il dominio o la metodologia di studio. Suggeriamo che individui e istituzioni si concentrino sulla creazione di opportunità computazionali condivise e accessibili per abbassare la barriera di ingresso per i ricercatori con risorse limitate. Questi passaggi possono aiutare a espandere la partecipazione alla ricerca sui FM, favorire la diversità di idee e contributori e sostenere l'innovazione e il progresso nell'IA. I dati saranno disponibili al seguente indirizzo: https://mit-calc.csail.mit.edu/
In questo articolo, affermiamo che il grounding visivo 3D è la pietra angolare del ragionamento spaziale e introduciamo il Grounded-Spatial Reasoner (GS-Reasoner) per esplorare le rappresentazioni spaziali efficaci che colmano il divario tra di essi. Gli attuali LLM 3D soffrono dell'assenza di una rappresentazione 3D unificata in grado di catturare congiuntamente informazioni semantiche e geometriche. Questa carenza si manifesta sia in scarse prestazioni nel grounding che in un'eccessiva dipendenza da moduli esterni, ostacolando infine l'integrazione senza soluzione di continuità tra grounding e ragionamento spaziale. Per affrontare questo problema, proponiamo un meccanismo di pooling a doppio percorso semplice ma efficace che allinea strettamente le caratteristiche geometriche con i segnali sia semantici che posizionali, costruendo una rappresentazione 3D unificata basata su patch di immagine che racchiude tutte le informazioni essenziali senza aumentare il numero di token di input. Sfruttando questa rappresentazione olistica, GS-Reasoner è il primo LLM 3D che raggiunge il grounding autoregressivo interamente senza moduli esterni, offrendo prestazioni paragonabili ai modelli all'avanguardia e stabilendo un framework unificato e autonomo per il ragionamento spaziale 3D. Per ulteriormente colmare il divario tra grounding e ragionamento spaziale, introduciamo il dataset Grounded Chain-of-Thought (GCoT). Questo dataset è meticolosamente curato per includere sia annotazioni di bounding box 3D per gli oggetti referenziati nelle domande di ragionamento che percorsi di ragionamento passo-passo che integrano il grounding come componente centrale del processo di risoluzione dei problemi. Esperimenti estensivi dimostrano che GS-Reasoner ottiene risultati impressionanti nel grounding visivo 3D, che a sua volta migliora significativamente le sue capacità di ragionamento spaziale, portando a prestazioni all'avanguardia.
I modelli Vision-Language-Action (VLA) generalisti di successo si basano su un addestramento efficace su piattaforme robotiche diverse con dataset eterogenei su larga scala e cross-embodiment. Per facilitare e sfruttare l'eterogeneità delle fonti di dati robotiche ricche e diversificate, proponiamo un nuovo approccio Soft Prompt con un numero minimo di parametri aggiunti, integrando i concetti di prompt learning nell'apprendimento robotico cross-embodiment e introducendo insiemi separati di embedding apprendibili per ciascuna fonte di dati distinta. Questi embedding fungono da prompt specifici per l'embodiment, che, uniti, consentono ai modelli VLA di sfruttare efficacemente le caratteristiche cross-embodiment variabili. Il nostro nuovo X-VLA, un'architettura VLA basata su flow-matching, si affida esclusivamente a encoder Transformer standard con soft prompt, godendo sia di scalabilità che di semplicità. Valutato su 6 simulazioni e 3 robot del mondo reale, la nostra istanziazione da 0,9B, X-VLA-0.9B, raggiunge simultaneamente prestazioni all'avanguardia su una vasta gamma di benchmark, dimostrando risultati superiori su un ampio spettro di capacità, dalla destrezza flessibile all'adattamento rapido tra embodiment, ambienti e compiti. Sito web: https://thu-air-dream.github.io/X-VLA/
I modelli universali di embedding multimodale sono fondamentali per varie applicazioni. Gli approcci esistenti tipicamente impiegano il mining di negativi in batch misurando la similarità delle coppie query-candidato. Tuttavia, questi metodi spesso faticano a catturare le sottili differenze semantiche tra i candidati e mancano di diversità nei campioni negativi. Inoltre, gli embedding mostrano una capacità discriminativa limitata nel distinguere i falsi negativi e i negativi difficili. In questo articolo, sfruttiamo le avanzate capacità di comprensione dei MLLM per migliorare l'apprendimento delle rappresentazioni e presentiamo un nuovo modello di Universal Multimodal Embedding (UniME-V2). Il nostro approccio costruisce prima un insieme potenziale di negativi difficili attraverso il recupero globale. Introduciamo poi il meccanismo MLLM-as-a-Judge, che utilizza i MLLM per valutare l'allineamento semantico delle coppie query-candidato e generare punteggi di matching semantico soft. Questi punteggi servono come base per il mining di negativi difficili, mitigando l'impatto dei falsi negativi e consentendo l'identificazione di negativi difficili diversificati e di alta qualità. Inoltre, i punteggi di matching semantico sono utilizzati come etichette soft per mitigare il vincolo rigido di mappatura uno-a-uno. Allineando la matrice di similarità con la matrice dei punteggi di matching semantico soft, il modello apprende le distinzioni semantiche tra i candidati, migliorando significativamente la sua capacità discriminativa. Per ulteriormente migliorare le prestazioni, proponiamo UniME-V2-Reranker, un modello di reranking addestrato sui nostri negativi difficili estratti attraverso un approccio di ottimizzazione congiunta pairwise e listwise. Condurre esperimenti completi sul benchmark MMEB e su molteplici task di retrieval, dimostrando che il nostro metodo raggiunge prestazioni state-of-the-art in media su tutti i task.
Questo studio introduce un metodo di pre-addestramento per la classificazione del degrado mascherato (MaskDCPT), progettato per facilitare la classificazione dei tipi di degrado nelle immagini di input, portando a un pre-addestramento completo per il ripristino delle immagini. A differenza dei metodi di pre-addestramento convenzionali, MaskDCPT utilizza il tipo di degrado dell'immagine come una supervisione estremamente debole, sfruttando contemporaneamente la ricostruzione dell'immagine per migliorare le prestazioni e la robustezza. MaskDCPT include un encoder e due decoder: l'encoder estrae le caratteristiche dall'immagine di input di bassa qualità mascherata. Il decoder di classificazione utilizza queste caratteristiche per identificare il tipo di degrado, mentre il decoder di ricostruzione mira a ricostruire un'immagine di alta qualità corrispondente. Questo design consente al pre-addestramento di beneficiare sia della modellazione delle immagini mascherate che dell'apprendimento contrastivo, ottenendo una rappresentazione generalizzata adatta ai compiti di ripristino. Grazie alla semplicità e alla potenza di MaskDCPT, l'encoder pre-addestrato può essere utilizzato per affrontare il ripristino universale delle immagini e ottenere prestazioni eccezionali. L'implementazione di MaskDCPT migliora significativamente le prestazioni sia delle reti neurali convoluzionali (CNN) che dei Transformer, con un aumento minimo del PSNR di 3.77 dB nel compito di ripristino all-in-one 5D e una riduzione del 34.8% nel PIQE rispetto alla baseline negli scenari di degrado del mondo reale. Emerge inoltre una forte generalizzazione per tipi e livelli di degrado precedentemente non visti. Inoltre, abbiamo curato e rilasciato il dataset UIR-2.5M, che include 2.5 milioni di campioni di ripristino accoppiati attraverso 19 tipi di degrado e oltre 200 livelli di degrado, incorporando sia dati sintetici che del mondo reale. Il dataset, il codice sorgente e i modelli sono disponibili all'indirizzo https://github.com/MILab-PKU/MaskDCPT.
Utilizzando modelli linguistici di grandi dimensioni (LLM) per recuperare documenti e generare risposte in linguaggio naturale, i motori generativi, come Google AI Overview e ChatGPT, offrono esperienze utente significativamente migliorate e sono rapidamente diventati la nuova forma di ricerca. La loro rapida adozione ha anche stimolato la necessità di ottimizzazione per motori generativi (Generative Engine Optimization, GEO), poiché i fornitori di contenuti sono desiderosi di ottenere maggiore visibilità attraverso di essi. In questo articolo, introduciamo AutoGEO, un framework per apprendere automaticamente le preferenze dei motori generativi quando si utilizzano contenuti recuperati per la generazione di risposte e per riscrivere i contenuti web al fine di ottenere maggiore trazione. AutoGEO prima invita i LLM di frontiera a spiegare le preferenze dei motori generativi e a estrarre regole di preferenza significative da queste spiegazioni. Successivamente, utilizza le regole di preferenza come contesto di ingegneria per AutoGEO_API, un sistema GEO basato su prompt, e come ricompense basate su regole per addestrare AutoGEO_Mini, un modello GEO economicamente vantaggioso. Esperimenti condotti sul benchmark standard GEO-Bench e su due nuovi benchmark costruiti utilizzando query reali degli utenti dimostrano l'efficacia di AutoGEO nel migliorare la trazione dei contenuti preservando l'utilità della ricerca. Le analisi confermano la robustezza delle regole apprese e la loro capacità di catturare preferenze uniche in diversi domini, nonché la capacità dei sistemi AutoGEO di incorporarle nell'ottimizzazione dei contenuti. Il codice è rilasciato all'indirizzo https://github.com/cxcscmu/AutoGEO.
I modelli multimodali unificati mirano a consentire congiuntamente la comprensione e la generazione visiva, tuttavia gli attuali benchmark raramente esaminano la loro vera integrazione. Le valutazioni esistenti trattano le due capacità in modo isolato o trascurano compiti che le accoppiano intrinsecamente. Per colmare questa lacuna, presentiamo Uni-MMMU, un benchmark completo e consapevole della disciplina che svela sistematicamente la sinergia bidirezionale tra generazione e comprensione in otto domini incentrati sul ragionamento, tra cui scienza, programmazione, matematica e enigmi. Ogni compito è accoppiato bidirezionalmente, richiedendo ai modelli di (i) sfruttare la comprensione concettuale per guidare una sintesi visiva precisa, o (ii) utilizzare la generazione come impalcatura cognitiva per il ragionamento analitico. Uni-MMMU incorpora passaggi intermedi di ragionamento verificabili, verità di base uniche e un protocollo di punteggio riproducibile per entrambi gli output testuali e visivi. Attraverso una valutazione estesa dei modelli unificati, solo di generazione e solo di comprensione all'avanguardia, riveliamo sostanziali disparità di prestazioni e dipendenze cross-modali, offrendo nuove intuizioni su quando e come queste capacità si rafforzano reciprocamente, e stabilendo una base affidabile per l'avanzamento dei modelli unificati.
La comprensione fine-granulare tra visione e linguaggio richiede un allineamento preciso tra contenuti visivi e descrizioni linguistiche, una capacità che rimane limitata nei modelli attuali, specialmente in contesti non inglesi. Sebbene modelli come CLIP performino bene sull'allineamento globale, spesso faticano a catturare dettagli fine-granulari negli attributi degli oggetti, nelle relazioni spaziali e nelle espressioni linguistiche, con un supporto limitato per la comprensione bilingue. Per affrontare queste sfide, introduciamo FG-CLIP 2, un modello bilingue visione-linguaggio progettato per avanzare l'allineamento fine-granulare sia per l'inglese che per il cinese. Il nostro approccio sfrutta una supervisione fine-granulare ricca, inclusa la corrispondenza regione-testo e la modellazione di didascalie lunghe, insieme a molteplici obiettivi discriminativi. Introduciamo inoltre la perdita di Contrasto Intra-modale Testuale (TIC) per distinguere meglio didascalie semanticamente simili. Addestrato su una miscela accuratamente curata di dati su larga scala in inglese e cinese, FG-CLIP 2 raggiunge prestazioni bilingue potenti. Per abilitare una valutazione rigorosa, presentiamo un nuovo benchmark per la comprensione multimodale cinese, caratterizzato da recupero di didascalie lunghe e classificazione di bounding box. Esperimenti estesi su 29 dataset attraverso 8 task mostrano che FG-CLIP 2 supera i metodi esistenti, raggiungendo risultati all'avanguardia in entrambe le lingue. Rilasciamo il modello, il codice e il benchmark per facilitare future ricerche sull'allineamento fine-granulare bilingue.
La fusione di modelli, tipicamente applicata a modelli di tipo Instruct e Thinking, ha dimostrato prestazioni notevoli per il ragionamento efficiente. In questo articolo, esaminiamo sistematicamente il metodo di fusione più semplice che consiste nell'interpolare direttamente due pesi. In particolare, osserviamo che l'interpolazione di modelli segue un paradigma evolutivo in tre fasi con comportamenti distinti lungo la traiettoria di ragionamento. Queste dinamiche forniscono una guida principiata per navigare il compromesso tra prestazioni e costi. I risultati empirici dimostrano che un modello interpolato strategicamente supera sorprendentemente i baseline di fusione di modelli più sofisticati sia in termini di efficienza che di efficacia. Validiamo ulteriormente le nostre scoperte con ampi studi di ablazione su strati, moduli e strategie di decodifica dei modelli. In definitiva, questo lavoro chiarisce l'interpolazione di modelli e offre un framework pratico per creare modelli con capacità di ragionamento mirate con precisione. Il codice è disponibile all'indirizzo https://github.com/wutaiqiang/MI{Github}.
I recenti progressi nei grandi modelli linguistici (LLM) si sono concentrati sul ridimensionamento al momento del test per migliorare il ragionamento attraverso un aumento del calcolo inferenziale, ma spesso a scapito dell'efficienza. Rivediamo il comportamento al momento del test e scopriamo un fenomeno semplice ma poco esplorato: l'incertezza nel ragionamento è altamente localizzata—solo un piccolo sottoinsieme di token ad alta entropia influisce in modo dominante sulla correttezza dell'output. Motivati da ciò, proponiamo l'Intervento Minimo al Momento del Test (MTI), un framework senza addestramento che migliora l'accuratezza e la stabilità del ragionamento con un sovraccarico minimo. MTI include: (i) Intervento CFG selettivo, applicando la guida senza classificatore solo nelle posizioni incerte; e (ii) Guida leggera con prompt negativo, riutilizzando la cache KV del modello principale per approssimare in modo efficiente la decodifica incondizionata. MTI produce miglioramenti consistenti in compiti generali, di programmazione e STEM—ad esempio, un miglioramento medio dell'1,35% su otto benchmark per Qwen3-8B-Base e del 5% su AIME2024 utilizzando Qwen3-32B-Reasoning—mantenendo un'efficienza elevata.
I transformer con solo decoder sono diventati l'architettura standard per i grandi modelli linguistici (LLM) grazie alle loro prestazioni elevate. Studi recenti suggeriscono che, nei LLM pre-addestrati, i livelli iniziali, intermedi e finali possano svolgere ruoli distinti: i livelli iniziali si concentrano sulla comprensione del contesto di input, i livelli intermedi gestiscono l'elaborazione specifica del compito e i livelli finali convertono le rappresentazioni astratte in token di output. Ipotesizziamo che, una volta che le rappresentazioni sono state elaborate dai livelli iniziali e intermedi, gli stati nascosti risultanti possano racchiudere informazioni sufficienti per supportare la generazione di più token utilizzando solo i livelli finali, eliminando la necessità di attraversare ripetutamente i livelli iniziali e intermedi. Definiamo questo paradigma di inferenza come Decodifica Diretta Multi-Token (DMTD). A differenza della decodifica speculativa, il nostro metodo non introduce parametri aggiuntivi, routine ausiliarie o verifiche post-generazione. Nonostante sia stato addestrato su un dataset limitato, un modello Qwen3-4B fine-tuned con DMTD ha già dimostrato risultati promettenti, raggiungendo un incremento di velocità fino a 2x con solo una minima perdita di prestazioni. Inoltre, come mostrato nella nostra analisi di scalabilità, ci si aspetta che le sue prestazioni migliorino ulteriormente con dataset di addestramento più ampi.
L'attenzione sparsa addestrabile è emersa come una soluzione promettente per affrontare il collo di bottiglia dell'efficienza di decodifica nei modelli linguistici di grandi dimensioni (LLM) durante l'elaborazione di contesti lunghi, consentendo un significativo risparmio negli accessi alla memoria con un impatto minimo sulle prestazioni delle attività. Tuttavia, i metodi esistenti di attenzione sparsa lasciano irrisolta una limitazione cruciale: la dimensione della cache chiave-valore (KV) rimane invariata, il che limita le dimensioni dei batch sulla GPU e riduce la velocità di decodifica, specialmente nell'inferenza su larga scala con batch multipli. In questo articolo, dimostriamo che l'attenzione sparsa addestrabile presenta naturalmente una forte località nella selezione dei token tra passaggi di decodifica adiacenti, consentendo così lo scaricamento della cache KV senza alterare il calcolo sottostante dell'attenzione. Tuttavia, la località intrinseca non è sufficiente per ottenere uno scaricamento efficiente, poiché il trasferimento delle coppie KV selezionate tra la CPU e la GPU continua a dominare il costo complessivo della decodifica. Basandoci su questa intuizione, presentiamo NOSA, un framework di attenzione sparsa addestrabile progettato per supportare nativamente lo scaricamento della cache KV. NOSA introduce vincoli espliciti di località scomponendo la selezione dei token in componenti dipendenti e indipendenti dalla query, riducendo così i trasferimenti KV pur preservando lo stesso calcolo dell'attenzione utilizzato durante l'addestramento. Abbiamo preaddestrato un modello da 1 miliardo di parametri con NOSA e condotto ampie valutazioni, dimostrando che preserva prestazioni quasi senza perdite mentre raggiunge un miglioramento fino a 2,3x nella velocità di decodifica rispetto alla baseline di attenzione sparsa addestrabile standard (InfLLM-V2).
Le politiche di manipolazione robotica spesso faticano a generalizzare su oggetti nuovi, limitando la loro utilità nel mondo reale. Al contrario, le scienze cognitive suggeriscono che i bambini sviluppano abilità di manipolazione destrezza generalizzabili padroneggiando un piccolo insieme di giocattoli semplici e poi applicando tale conoscenza a oggetti più complessi. Ispirati da ciò, studiamo se capacità di generalizzazione simili possano essere raggiunte anche dai robot. I nostri risultati indicano che i robot possono apprendere una presa generalizzabile utilizzando oggetti assemblati casualmente composti da soli quattro primitivi di forma: sfere, cuboidi, cilindri e anelli. Mostriamo che l'addestramento su questi "giocattoli" consente una robusta generalizzazione su oggetti del mondo reale, ottenendo prestazioni zero-shot solide. Fondamentalmente, scopriamo che la chiave di questa generalizzazione è una rappresentazione visiva centrata sull'oggetto indotta dal nostro meccanismo di pooling di rilevamento proposto. Valutato sia in simulazione che su robot fisici, il nostro modello raggiunge un tasso di successo nella presa del 67% sul dataset YCB, superando approcci all'avanguardia che si basano su una quantità sostanzialmente maggiore di dati in dominio. Studiamo inoltre come le prestazioni di generalizzazione zero-shot si ridimensionano variando il numero e la diversità dei giocattoli di addestramento e le dimostrazioni per giocattolo. Crediamo che questo lavoro offra un percorso promettente verso un apprendimento scalabile e generalizzabile nella manipolazione robotica. Video dimostrativi, codice, checkpoint e il nostro dataset sono disponibili sulla pagina del progetto: https://lego-grasp.github.io/.
I modelli di guida autonoma end-to-end addestrati esclusivamente con apprendimento per imitazione (IL) spesso soffrono di una scarsa generalizzazione. Al contrario, l'apprendimento per rinforzo (RL) promuove l'esplorazione attraverso la massimizzazione della ricompensa, ma affronta sfide come l'inefficienza nel campionamento e la convergenza instabile. Una soluzione naturale è combinare IL e RL. Andando oltre il convenzionale paradigma a due fasi (pre-addestramento con IL seguito da affinamento con RL), proponiamo CoIRL-AD, un framework competitivo a doppia politica che consente agli agenti IL e RL di interagire durante l'addestramento. CoIRL-AD introduce un meccanismo basato sulla competizione che facilita lo scambio di conoscenze prevenendo conflitti nei gradienti. Gli esperimenti sul dataset nuScenes mostrano una riduzione del 18% nel tasso di collisioni rispetto ai metodi di riferimento, insieme a una maggiore generalizzazione e migliori prestazioni negli scenari a coda lunga. Il codice è disponibile all'indirizzo: https://github.com/SEU-zxj/CoIRL-AD.
I recenti progressi nei sistemi multi-agente basati su modelli linguistici di grandi dimensioni hanno dimostrato una notevole intelligenza collettiva attraverso una comunicazione efficace. Tuttavia, gli approcci esistenti affrontano due principali sfide: (i) una modellizzazione inefficace della collaborazione di gruppo, poiché si basano su rappresentazioni di coppie di nodi (edge) nelle strutture a grafo, limitando la loro capacità di catturare le relazioni tra più agenti; e (ii) una limitata adattabilità al compito nella progettazione della topologia di comunicazione, che porta a costi di comunicazione eccessivi per compiti semplici e a una coordinazione insufficiente per scenari complessi. Questi problemi limitano la scalabilità e l'implementazione pratica di framework di collaborazione adattativi. Per affrontare queste sfide, proponiamo HyperAgent, un framework basato su ipergrafi che ottimizza le topologie di comunicazione e cattura efficacemente i modelli di collaborazione di gruppo utilizzando rappresentazioni dirette di iperarchi. A differenza degli approcci basati su edge, HyperAgent utilizza iperarchi per collegare più agenti all'interno dello stesso sottocompito e impiega strati convoluzionali su ipergrafi per ottenere un'aggregazione delle informazioni in un solo passaggio nei gruppi di collaborazione. Inoltre, incorpora un framework di autoencoder variazionale con regolarizzazione sparsa per adattare dinamicamente le topologie degli ipergrafi in base alla complessità del compito. Gli esperimenti evidenziano la superiorità di HyperAgent sia in termini di prestazioni che di efficienza. Ad esempio, su GSM8K, HyperAgent raggiunge un'accuratezza del 95,07% riducendo il consumo di token del 25,33%, dimostrando il potenziale dell'ottimizzazione basata su ipergrafi per la comunicazione multi-agente.
I sistemi di ragionamento basati su modelli linguistici di grandi dimensioni (LLM) hanno recentemente raggiunto prestazioni di livello medaglia d'oro nella competizione IMO 2025, scrivendo dimostrazioni matematiche in cui, per ottenere il punteggio pieno, ogni passaggio non solo deve essere corretto ma anche adeguatamente supportato. Per addestrare i sistemi di ragionamento basati su LLM in contesti così impegnativi e aperti, sono prerequisiti necessari verificatori robusti in grado di rilevare errori a livello di passaggio. Introduciamo Hard2Verify, un benchmark di verifica a livello di passaggio annotato manualmente, prodotto con oltre 500 ore di lavoro umano. Hard2Verify è progettato per valutare rigorosamente i verificatori a livello di passaggio all'avanguardia: i verificatori devono fornire annotazioni a livello di passaggio o identificare il primo errore nelle risposte generate da LLM all'avanguardia per domande matematiche recenti, impegnative e aperte. Valutiamo 29 critici generativi e modelli di ricompensa di processo, dimostrando che, a parte alcune eccezioni, i verificatori open source sono in ritardo rispetto ai modelli closed source. Successivamente analizziamo cosa determina scarse prestazioni nella verifica a livello di passaggio, gli impatti del ridimensionamento del calcolo dei verificatori, nonché questioni fondamentali come l'autoverifica e le dinamiche di verifica-generazione.
Il Multi-turn Text-to-SQL mira a tradurre le espressioni conversazionali di un utente in SQL eseguibile, preservando la coerenza del dialogo e il collegamento allo schema di destinazione. Tuttavia, la maggior parte dei sistemi esistenti considera questo compito come una semplice traduzione testuale e segue un paradigma a breve termine, generando una query per turno senza esecuzione, verifica esplicita e raffinamento, il che porta a output non eseguibili o incoerenti. Presentiamo MTSQL-R1, un framework di formazione agentico per il Multi-turn Text-to-SQL a lungo termine. Inquadriamo il compito come un Processo Decisionale di Markov (MDP) in cui un agente interagisce con (i) un database per ottenere feedback sull'esecuzione e (ii) una memoria di dialogo persistente per la verifica della coerenza, eseguendo un ciclo iterativo di proposta -> esecuzione -> verifica -> raffinamento fino al superamento di tutti i controlli. Gli esperimenti su COSQL e SPARC dimostrano che MTSQL-R1 supera costantemente i forti baseline, evidenziando l'importanza della verifica guidata dall'ambiente e del raffinamento guidato dalla memoria per il parsing semantico conversazionale. Le ricette complete (inclusi codice, modelli addestrati, log, traiettorie di ragionamento, ecc.) saranno rilasciate dopo la revisione interna per contribuire alla ricerca della comunità.
I sistemi multi-agente basati su modelli linguistici di grandi dimensioni (LLM) sono sempre più adottati per compiti complessi di elaborazione del linguaggio che richiedono comunicazione e coordinamento tra agenti. Tuttavia, questi sistemi spesso subiscono un sovraccarico significativo a causa della ripetuta rielaborazione di contesti sovrapposti tra gli agenti. Nelle pipeline tipiche, una volta che un agente riceve un messaggio dal suo predecessore, l'intero contesto, inclusi i turni precedenti, deve essere rielaborato da zero, portando a un'elaborazione inefficiente. Sebbene la memorizzazione in cache chiave-valore (KV) sia una soluzione efficace per evitare calcoli ridondanti in contesti a singolo agente dove i prefissi rimangono invariati, non può essere riutilizzata direttamente in scenari multi-agente a causa della divergenza dei prefissi introdotta dalle estensioni di contesto specifiche per agente. Identifichiamo che la sfida principale risiede nella variazione degli offset delle cache KV tra gli agenti. Per affrontare questo problema, proponiamo KVCOMM, un framework senza necessità di addestramento che consente un riempimento preliminare efficiente nell'inferenza multi-agente riutilizzando le cache KV e allineando gli offset delle cache per contesti sovrapposti sotto diversi prefissi. KVCOMM stima e regola le cache KV per i contenuti condivisi facendo riferimento a un pool di esempi memorizzati in cache, denominati ancore, che conservano le deviazioni osservate delle cache sotto prefissi variabili. Il pool di ancore viene mantenuto e aggiornato online, consentendo un adattamento dinamico a richieste utente e strutture di contesto distinti. KVCOMM raggiunge un tasso di riutilizzo superiore al 70% su diversi carichi di lavoro multi-agente, inclusi la generazione aumentata da recupero, il ragionamento matematico e i compiti di codifica collaborativa, tutto senza degradazione della qualità. In particolare, quando ogni agente completamente connesso riceve 1K token di input con 512 token di prefisso e 512 token di output in un contesto a cinque agenti, KVCOMM ottiene un accelerazione fino a 7,8x rispetto alla pipeline standard di riempimento preliminare, riducendo il TTFT da ~430 ms a ~55 ms.
I tracker e i generatori di video risolvono problemi strettamente correlati: i primi analizzano il movimento, mentre i secondi lo sintetizzano. Dimostriamo che questa connessione consente ai modelli di diffusione video pre-addestrati di eseguire il tracciamento di punti in modalità zero-shot semplicemente istruendoli a marcare visivamente i punti mentre si spostano nel tempo. Posizioniamo un marcatore di colore distintivo nel punto di query, quindi rigeneriamo il resto del video partendo da un livello intermedio di rumore. Questo propaga il marcatore attraverso i fotogrammi, tracciando la traiettoria del punto. Per garantire che il marcatore rimanga visibile in questa generazione controfattuale, nonostante tali marcatori siano improbabili nei video naturali, utilizziamo il fotogramma iniziale non modificato come prompt negativo. Attraverso esperimenti con diversi modelli di diffusione video condizionati da immagini, scopriamo che queste tracce "emergenti" superano quelle dei metodi zero-shot precedenti e persistono attraverso le occlusioni, ottenendo spesso prestazioni competitive con modelli specializzati auto-supervisionati.
L'addestramento per l'allineamento presenta dei compromessi: aiuta i modelli linguistici (LM) a migliorare nel ragionamento e nel seguire le istruzioni, ma potrebbe portare a una perdita di abilità come la creatività e la calibrazione, dove i modelli base non allineati sono più performanti. Il nostro obiettivo è ottenere il meglio di entrambi i mondi attraverso la collaborazione tra modelli, in cui diversi modelli nel processo di addestramento collaborano e si completano a vicenda. Poiché le risposte dei LM presentano abilità interconnesse che favoriscono modelli diversi, proponiamo la Generazione a Scambio (Switch Generation), in cui versioni pre-addestrate e allineate del modello si alternano per "parlare" in una sequenza di risposte. Nello specifico, addestriamo un LM selettore imparando dai risultati della scelta di diversi modelli per generare il segmento successivo in una varietà di query e contesti. Al momento dell'inferenza, il LM selettore guida diversi checkpoint del modello per generare dinamicamente il segmento successivo dove le loro capacità sono più necessarie. Esperimenti estesi con 8 baseline di collaborazione tra modelli e 18 dataset dimostrano che 1) la collaborazione tra modelli supera costantemente i modelli individuali in 16 su 18 task, e 2) la Generazione a Scambio supera ulteriormente le baseline del 12,9% in media. Un'analisi più approfondita rivela che la Generazione a Scambio scopre abilità compositive per risolvere problemi in cui i modelli individuali faticano e si generalizza a modelli e task non visti, riutilizzando e riproponendo sottoprodotti nei costosi processi di addestramento dei modelli che altrimenti verrebbero scartati.
I sistemi multi-agente alimentati da Large Language Models eccellono in compiti complessi attraverso una collaborazione coordinata, ma presentano alti tassi di fallimento negli scenari di ricerca profonda multi-turn. I metodi esistenti di attribuzione temporale faticano a diagnosticare con precisione le cause profonde, specialmente quando gli errori si propagano attraverso più agenti. I tentativi di automatizzare l'attribuzione dei fallimenti analizzando le sequenze di azioni rimangono inefficaci a causa della loro incapacità di tenere conto delle dipendenze informative che si estendono tra gli agenti. Questo articolo identifica due sfide fondamentali: (i) distinguere i sintomi dalle cause profonde nella propagazione degli errori multi-agente, e (ii) tracciare le dipendenze informative oltre l'ordine temporale. Per affrontare questi problemi, introduciamo GraphTracer, un framework che ridefinisce l'attribuzione dei fallimenti attraverso l'analisi del flusso di informazioni. GraphTracer costruisce Grafi di Dipendenza Informatica (IDG) per catturare esplicitamente come gli agenti fanno riferimento e si basano su output precedenti. Localizza le cause profonde tracciando queste strutture di dipendenza invece di affidarsi a sequenze temporali. GraphTracer utilizza anche la generazione di dati sintetici consapevole del grafo per individuare nodi critici, creando scenari di fallimento realistici. Le valutazioni sul benchmark Who\&When e l'integrazione nei sistemi di produzione dimostrano che GraphTracer-8B raggiunge un'accuratezza di attribuzione fino al 18,18\% superiore rispetto ai modelli all'avanguardia e consente miglioramenti delle prestazioni dal 4,8\% al 14,2\% nei framework multi-agente implementati, stabilendo una soluzione robusta per il debug dei sistemi multi-agente.
Con l'ascesa dei modelli linguistici di ragionamento e dei metodi di scalatura al momento del test come paradigma per migliorare le prestazioni del modello, spesso è richiesta una notevole quantità di calcolo per generare più sequenze candidate a partire dallo stesso prompt. Ciò consente l'esplorazione di diversi percorsi di ragionamento verso la soluzione corretta, ma assegna lo stesso budget computazionale per ogni prompt. Basandoci sull'assunzione che prompt diversi presentano diversi gradi di complessità e, di conseguenza, diverse esigenze computazionali, proponiamo EAGer, un metodo di generazione senza addestramento che sfrutta l'incertezza del modello attraverso la distribuzione dell'entropia a livello di token per ridurre il calcolo ridondante e migliorare contemporaneamente le prestazioni complessive. EAGer consente di diramarsi in più percorsi di ragionamento solo in presenza di token ad alta entropia, per poi riallocare il budget computazionale risparmiato alle istanze in cui l'esplorazione di percorsi alternativi è più necessaria. Abbiamo riscontrato che, su più modelli open-source in benchmark di ragionamento complesso come AIME 2025, EAGer può riallocare il budget senza accedere alle etichette target, ottenendo il miglior compromesso efficienza-prestazioni in termini di lunghezza del ragionamento e Pass@k. Quando le etichette target sono accessibili, EAGer genera fino al 65% in meno di token (risparmiando così calcolo) e migliora fino al 37% in Pass@k rispetto al Full Parallel Sampling.
I moderni modelli linguistici su larga scala (LLM) con contesto lungo performano bene su benchmark sintetici del tipo "ago in un pagliaio" (NIAH), ma tali test trascurano come i contesti rumorosi derivino da recuperi distorti e flussi di lavoro agentici. Sosteniamo che l'ingegnerizzazione del pagliaio sia necessaria per costruire contesti lunghi e rumorosi che catturino fedelmente fattori chiave del mondo reale — distrazione da recuperatori eterogenei e distorti ed errori a cascata nei flussi di lavoro agentici — per testare la robustezza dei modelli su contesti lunghi. Lo concretizziamo attraverso HaystackCraft, un nuovo benchmark NIAH basato sull'intera rete di collegamenti ipertestuali di Wikipedia in inglese con domande multi-hop. HaystackCraft valuta come le strategie di recupero eterogenee (ad esempio, sparse, dense, ibride e basate su grafi) influenzino la composizione dei distrattori, l'ordinamento del pagliaio e le prestazioni degli LLM a valle. HaystackCraft estende ulteriormente NIAH a contesti dinamici e dipendenti dagli LLM che simulano operazioni agentiche, in cui i modelli affinano le query, riflettono sui loro ragionamenti passati e decidono quando fermarsi. Esperimenti con 15 modelli a contesto lungo mostrano che (1) sebbene recuperatori densi più potenti possano introdurre distrattori più impegnativi, il riordinamento basato su grafi migliora contemporaneamente l'efficacia del recupero e mitiga i distrattori più dannosi; (2) nei test agentici, anche modelli avanzati come Gemini 2.5 Pro e GPT-5 subiscono fallimenti a cascata a causa di distrattori auto-generati o faticano a fermarsi precocemente. Questi risultati evidenziano sfide persistenti nel ragionamento agentico su contesti lunghi e stabiliscono HaystackCraft come un banco di prova prezioso per i progressi futuri.
I modelli linguistici di grandi dimensioni (LLM) dimostrano abilità linguistiche pari o superiori a quelle umane, modellando efficacemente le strutture sintattiche, sebbene i moduli computazionali specifici responsabili rimangano poco chiari. Una domanda chiave è se le capacità comportamentali degli LLM derivino da meccanismi simili a quelli presenti nel cervello umano. Per affrontare queste questioni, introduciamo la Sonda di Etichettatura Gerarchica in Frequenza (HFTP), uno strumento che utilizza l'analisi nel dominio della frequenza per identificare componenti a livello neuronale degli LLM (ad esempio, singoli neuroni di Perceptron Multistrato, MLP) e regioni corticali (tramite registrazioni intracraniche) che codificano strutture sintattiche. I nostri risultati mostrano che modelli come GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 e GLM-4 elaborano la sintassi in strati analoghi, mentre il cervello umano si affida a regioni corticali distinte per diversi livelli sintattici. L'analisi di similarità rappresentazionale rivela una maggiore corrispondenza tra le rappresentazioni degli LLM e l'emisfero sinistro del cervello (dominante nell'elaborazione del linguaggio). In particolare, i modelli aggiornati mostrano tendenze divergenti: Gemma 2 presenta una maggiore somiglianza con il cervello rispetto a Gemma, mentre Llama 3.1 mostra una minore corrispondenza con il cervello rispetto a Llama 2. Questi risultati offrono nuove intuizioni sull'interpretabilità dei miglioramenti comportamentali degli LLM, sollevando interrogativi sul fatto che questi progressi siano guidati da meccanismi simili o diversi da quelli umani, e stabiliscono HFTP come uno strumento prezioso che collega la linguistica computazionale e le neuroscienze cognitive. Questo progetto è disponibile all'indirizzo https://github.com/LilTiger/HFTP.
Con l'avvento di DeepSeek-R1, è emersa una nuova ondata di metodi di apprendimento per rinforzo (RL) che sembrano sbloccare capacità di ragionamento matematico più avanzate. Tuttavia, un'analisi più approfondita dell'ecosistema open-source rivela una limitazione critica: con un numero sufficiente di tentativi (ad esempio, pass@1024), molti modelli di base esistenti risolvono già quasi tutte le domande su benchmark matematici ampiamente utilizzati come MATH-500 e AIME 2024. Ciò suggerisce che i metodi di fine-tuning RL prevalenti nella letteratura sul ragionamento dei modelli linguistici di grandi dimensioni (LLM) affinano principalmente modalità di soluzione esistenti piuttosto che scoprirne di completamente nuove. Tale affinamento contrasta con la promessa più ampia dell'RL: favorire l'esplorazione e acquisire nuove abilità. Per superare questo plateau, introduciamo MATH-Beyond (MATH-B), un benchmark progettato deliberatamente per sconfiggere i modelli open-source comuni con fino a 8 miliardi di parametri, anche con budget di campionamento ampi. Migliorare le prestazioni sul nostro benchmark tramite RL richiede metodi che imparino a ragionare in modi che vanno oltre le capacità dei modelli di base nel campionamento ripetuto. Poiché i problemi sono tratti da sottoinsiemi dei dataset DAPO-Math-17K e DeepScaleR, rimangono tematicamente equivalenti alla matematica standard delle scuole superiori. Validando la nostra premessa, modelli fine-tuned con RL come Nemotron-Research-Reasoning-Qwen-1.5B e DeepScaleR-1.5B-Preview ottengono scarse prestazioni su MATH-B a pass@1024, dimostrando come gli approcci esistenti non siano all'altezza di affrontare istanze più difficili. Speriamo che MATH-B catalizzi approcci RL guidati dall'esplorazione che stimolino capacità di ragionamento più profonde. Rilasciamo MATH-B all'indirizzo https://huggingface.co/datasets/brendel-group/MATH-Beyond.
L'inferenza remota consente ai dispositivi leggeri di sfruttare modelli cloud potenti. Tuttavia, la latenza della rete di comunicazione rende le previsioni obsolete e inadatte per compiti in tempo reale. Per affrontare questo problema, introduciamo Dedelayed, un metodo correttivo del ritardo che mitiga i ritardi arbitrari dell'inferenza remota, permettendo al dispositivo locale di produrre output a bassa latenza in tempo reale. Il nostro metodo utilizza un modello locale leggero che elabora il frame corrente e fonde le caratteristiche calcolate da un modello remoto più complesso sui frame passati. Sul video del dataset di guida BDD100K, Dedelayed migliora l'accuratezza della segmentazione semantica rispetto al più forte dei baseline esclusivamente locale o esclusivamente remoto, per tutti i ritardi realistici della rete di comunicazione oltre i 33 ms. Senza causare ulteriori ritardi, migliora l'accuratezza di 6,4 mIoU rispetto all'inferenza completamente locale e di 9,8 mIoU rispetto all'inferenza remota, per un ritardo di andata e ritorno di 100 ms. Il vantaggio aumenta con ritardi più lunghi e scene con movimento più elevato, poiché l'inferenza divisa con mitigazione del ritardo mantiene l'accuratezza in modo più efficace, offrendo chiari vantaggi per compiti in tempo reale che devono rimanere allineati con lo stato attuale del mondo.
I modelli di ragionamento migliorano la loro capacità di risoluzione dei problemi attraverso il ridimensionamento al momento dell'inferenza, allocando più risorse computazionali tramite budget di token più ampi. Identificare quali tracce di ragionamento hanno maggiori probabilità di successo rimane un'opportunità chiave: prevedere in modo affidabile i percorsi produttivi può ridurre sostanzialmente il calcolo sprecato e migliorare l'efficienza complessiva. Introduciamo i segnali di Traiettoria Latente che caratterizzano l'evoluzione temporale delle rappresentazioni interne di un modello durante la generazione di token di ragionamento intermedi. Misurando il cambiamento complessivo nelle rappresentazioni latenti tra l'inizio e la fine del ragionamento, il cambiamento accumulato attraverso i passaggi intermedi e la misura in cui questi cambiamenti avanzano verso lo stato finale, dimostriamo che questi segnali predicono l'accuratezza della soluzione in modo più affidabile rispetto sia alle metriche cross-layer che alle misure di confidenza basate sull'output. Quando utilizzati per guidare la selezione delle risposte tra più generazioni campionate, i segnali di Traiettoria Latente rendono il ridimensionamento al momento del test più efficace ed efficiente rispetto al voto a maggioranza, riducendo l'uso di token fino al 70% preservando e persino migliorando l'accuratezza del 2,6% in media. Inoltre, questi segnali predittivi spesso emergono precocemente nella traccia di ragionamento, consentendo una selezione anticipata e l'allocazione delle risorse computazionali ai candidati più promettenti. Le nostre scoperte contribuiscono non solo a strategie pratiche per l'efficienza al momento dell'inferenza, ma anche a una prospettiva di interpretabilità più profonda su come i processi di ragionamento sono rappresentati e differenziati nello spazio latente.
L'emergenza dei grandi modelli linguistici (LLM) ha aperto nuove opportunità per la creazione di personaggi non giocanti (NPC) dinamici negli ambienti di gioco, consentendo sia l'esecuzione di compiti funzionali che la generazione di dialoghi coerenti con la personalità. In questo articolo, noi (Tu_Character_lab) riportiamo la nostra partecipazione alla Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, che valuta gli agenti attraverso tre tracce: dialogo orientato ai compiti, dialogo consapevole del contesto e la loro integrazione. Il nostro approccio combina due strategie complementari: (i) tecniche di prompting leggere nella traccia API, inclusa un metodo di prompting Deflanderization per sopprimere l'eccessivo role-play e migliorare la fedeltà ai compiti, e (ii) modelli grandi affinati nella traccia GPU, sfruttando Qwen3-14B con affinamento supervisionato (SFT) e Low-Rank Adaptation (LoRA). Le nostre migliori proposte si sono classificate al 2° posto nel Task 1, al 2° posto nel Task 3 (traccia API) e al 4° posto nel Task 3 (traccia GPU).
Il ragionamento non riguarda solo la risoluzione di problemi, ma anche la valutazione di quali problemi valga la pena risolvere. Le valutazioni dei sistemi di intelligenza artificiale (IA) si sono tradizionalmente concentrate sulla risoluzione di problemi, storicamente studiando come i modelli giocano a giochi come gli scacchi e il Go. In questo articolo, sosteniamo un nuovo paradigma che valuta la capacità dei sistemi di IA di valutare i giochi stessi. In primo luogo, introduciamo un formalismo per valutare tali valutazioni. Successivamente, utilizziamo un ampio dataset di oltre 100 nuovi giochi da tavolo e più di 450 giudizi umani per confrontare le valutazioni prodotte da moderni modelli di linguaggio e ragionamento con quelle delle persone e di agenti computazionali simbolici. Consideriamo due tipi di query valutative: la valutazione del payoff (o equità) e del divertimento dei giochi. Queste query coprono due dimensioni rilevanti per la progettazione di valutazioni delle IA: quanto è complesso calcolare una query e quanto è difficile quantificarla. I nostri risultati mostrano che i modelli di ragionamento sono generalmente più allineati alle persone nelle loro valutazioni dei giochi rispetto ai modelli di linguaggio non basati sul ragionamento. Tuttavia, osserviamo una relazione non monotona: man mano che i modelli si avvicinano all'ottimalità teorica dei giochi, la loro corrispondenza con i dati umani si indebolisce. Osserviamo anche una maggiore "irregolarità" tra i modelli nella valutazione del divertimento, in linea con la maggiore difficoltà di quantificare questa query. Attraverso query e giochi, i modelli di ragionamento mostrano un utilizzo delle risorse altamente variabile e imprevedibile durante la valutazione delle query, evidenziando l'importanza di integrare un meta-ragionamento più razionale in termini di risorse nei modelli di linguaggio e ragionamento.