Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli scenari reali di question answering video, i video forniscono spesso solo indizi visivi localizzati, mentre le risposte verificabili sono distribuite sul web aperto; i modelli devono quindi eseguire congiuntamente l'estrazione di indizi cross-frame, il retrieval iterativo e la verifica basata su ragionamento multi-hop. Per colmare questa lacuna, abbiamo costruito il primo benchmark di video deep research, VideoDR. VideoDR si concentra sul video question answering open-domain condizionato dal video, richiedendo l'estrazione di ancore visive cross-frame, il retrieval web interattivo e il ragionamento multi-hop su evidenze congiunte video-web; attraverso una rigorosa annotazione umana e controllo di qualità, abbiamo ottenuto campioni di alta qualità di video deep research che coprono sei domini semantici. Abbiamo valutato diversi modelli linguistici multimodali open-source e closed-source sotto i paradigmi Workflow e Agente, e i risultati mostrano che l'approccio Agente non è sistematicamente superiore a Workflow: i suoi vantaggi dipendono dalla capacità del modello di mantenere le ancore video iniziali su lunghe catene di retrieval. Un'analisi più approfondita indica che la deriva degli obiettivi e la coerenza a lungo termine sono i colli di bottiglia fondamentali. In sintesi, VideoDR fornisce un benchmark sistematico per studiare gli agenti video in ambienti web aperti e rivela le sfide chiave per le prossime generazioni di agenti di video deep research.
Mentre gli esseri umani sviluppano competenze visive fondamentali molto prima di acquisire il linguaggio, i moderni modelli linguistici multimodali (MLLM) continuano a fare ampio affidamento su prerequisiti linguistici per compensare la loro fragile comprensione visiva. Abbiamo scoperto un fatto cruciale: gli MLLM all'avanguardia falliscono costantemente in compiti visivi di base che gli esseri umani, persino i bambini di 3 anni, risolvono senza sforzo. Per indagare sistematicamente questo divario, introduciamo BabyVision, un benchmark progettato per valutare le capacità visive fondamentali degli MLLM indipendentemente dalla conoscenza linguistica. BabyVision copre un'ampia gamma di compiti, con 388 elementi suddivisi in 22 sottoclassi attraverso quattro categorie chiave. I risultati empirici e la valutazione umana rivelano che i principali MLLM performano significativamente al di sotto dei benchmark umani. Gemini3-Pro-Preview ottiene un punteggio di 49.7, rimanendo indietro rispetto ai bambini di 6 anni e ben al di sotto del punteggio medio adulto di 94.1. Questi risultati dimostrano che, nonostante l'eccellenza in valutazioni ricche di conoscenze, gli MLLM attuali mancano ancora di primitivi visivi fondamentali. I progressi in BabyVision rappresentano un passo verso capacità di percezione e ragionamento visivo di livello umano. Esploriamo inoltre la risoluzione del ragionamento visivo con modelli generativi proponendo BabyVision-Gen e un toolkit di valutazione automatica. Il nostro codice e i dati del benchmark sono rilasciati su https://github.com/UniPat-AI/BabyVision per la riproduzione.
Introduciamo Parallel Coordinated Reasoning (PaCoRe), un framework di addestramento e inferenza progettato per superare una limitazione centrale dei modelli linguistici contemporanei: l'incapacità di scalare il calcolo al tempo di test (TTC) ben oltre il ragionamento sequenziale sotto un contesto di finestra fisso. PaCoRe si discorda dal paradigma sequenziale tradizionale guidando il TTC attraverso un'esplorazione massivamente parallela coordinata tramite un'architettura di message-passing in più round. Ogni round avvia molteplici traiettorie di ragionamento parallele, compatta i loro risultati in messaggi limitati dal contesto e sintetizza questi messaggi per guidare il round successivo e produrre infine la risposta finale. Addestrato end-to-end con reinforcement learning su larga scala e basato sugli outcome, il modello padroneggia le abilità di sintesi richieste da PaCoRe e scala a TTC effettivo di milioni di token senza superare i limiti del contesto. L'approccio produce forti miglioramenti in diversi domini e, in particolare, spinge il ragionamento oltre i sistemi all'avanguardia in matematica: un modello da 8B raggiunge il 94.5% su HMMT 2025, superando il 93.2% di GPT-5 scalando il TTC effettivo a circa due milioni di token. Rendiamo open-source i checkpoint del modello, i dati di addestramento e l'intera pipeline di inferenza per accelerare il lavoro successivo.
Sebbene l'architettura Transformer domini molti campi, la sua complessità quadratica dell'auto-attenzione ne ostacola l'uso in applicazioni su larga scala. L'attenzione lineare offre un'alternativa efficiente, ma la sua applicazione diretta spesso degrada le prestazioni, e le soluzioni esistenti tipicamente re-introducono un sovraccarico computazionale attraverso moduli aggiuntivi (ad esempio, convoluzione separabile in profondità) che vanificano lo scopo originale. In questo lavoro, identifichiamo una causa principale di fallimento in questi metodi: il collasso del contesto globale, dove il modello perde diversità rappresentativa. Per affrontare questo problema, proponiamo la Multi-Head Linear Attention (MHLA), che preserva questa diversità calcolando l'attenzione all'interno di teste separate lungo la dimensione dei token. Dimostriamo che MHLA mantiene una complessità lineare recuperando gran parte del potere espressivo dell'attenzione softmax e ne verifichiamo l'efficacia in molteplici domini, ottenendo un miglioramento del 3,6% sulla classificazione ImageNet, un guadagno del 6,3% sull'NLP, un miglioramento del 12,6% sulla generazione di immagini e un incremento del 41% sulla generazione video a parità di complessità temporale.
La programmazione competitiva presenta grandi sfide per i Code LLM a causa delle sue elevate esigenze di ragionamento e dell'alta complessità logica. Tuttavia, gli attuali Code LLM dipendono ancora fortemente da dati del mondo reale, il che ne limita la scalabilità. In questo articolo, esploriamo un approccio completamente sintetico: addestrare Code LLM con task, soluzioni e casi di test interamente generati, per potenziare i modelli di ragionamento sul codice senza fare affidamento su dati reali. A supporto di ciò, sfruttiamo la sintesi basata su caratteristiche per proporre una nuova pipeline di sintesi dei dati chiamata SynthSmith. SynthSmith mostra un forte potenziale nel produrre task diversificati e impegnativi, insieme a soluzioni e test verificati, supportando sia l'addestramento supervisionato (SFT) che l'apprendimento per rinforzo (RL). Sulla base dei dataset sintetici SFT e RL proposti, introduciamo la serie di modelli X-Coder, che raggiunge un tasso di successo notevole del 62.9 avg@8 su LiveCodeBench v5 e del 55.8 su v6, superando DeepCoder-14B-Preview e AReal-boba2-14B nonostante abbia solo 7 miliardi di parametri. Un'analisi approfondita rivela che le leggi di scala sono valide sul nostro dataset sintetico, ed esploriamo quali dimensioni siano più efficaci da scalare. Forniamo ulteriori insight sull'apprendimento per rinforzo centrato sul codice e evidenziamo i fattori chiave che determinano le prestazioni attraverso ablation study e analisi dettagliate. I nostri risultati dimostrano che scalare dati sintetici di alta qualità e adottare un addestramento per fasi può far avanzare notevolmente il ragionamento sul codice, mitigando al contempo la dipendenza dai dati di codifica del mondo reale.
I recenti progressi nei modelli di ragionamento e nei sistemi di IA agentica hanno portato a una maggiore dipendenza da informazioni esterne diversificate. Tuttavia, questo cambiamento introduce contesti di input intrinsecamente rumorosi, una realtà che i benchmark attuali, eccessivamente "puliti", non riescono a catturare. Presentiamo NoisyBench, un benchmark completo che valuta sistematicamente la robustezza dei modelli su 11 dataset in compiti di RAG, ragionamento, allineamento e utilizzo di strumenti, contro vari tipi di rumore, inclusi documenti casuali, cronologie di chat irrilevanti e distrattori negativi difficili. La nostra valutazione rivela un crollo catastrofico delle prestazioni, fino all'80%, nei modelli più all'avanguardia quando confrontati con distrattori contestuali. Fondamentalmente, scopriamo che i flussi di lavoro agentici spesso amplificano questi errori fidandosi eccessivamente degli output rumorosi degli strumenti, e che i distrattori possono innescare un disallineamento emergente anche senza intenti avversari. Rileviamo che prompt engineering, context engineering, SFT e RL con ricompensa basata solo sull'esito falliscono nell'assicurare robustezza; al contrario, la nostra Ricompensa Consapevole della Razionalità (RARE) rafforza significativamente la resilienza incentivando l'identificazione di informazioni utili nel rumore. Infine, scopriamo una tendenza di scaling inverso per cui un aumento della computazione al momento del test porta a prestazioni peggiori in ambienti rumorosi e dimostriamo, tramite visualizzazione dell'attenzione, che i modelli si concentrano in modo sproporzionato sui token distrattori, fornendo insight cruciali per costruire la prossima generazione di agenti robusti e capaci di ragionamento.
I Large Reasoning Model (LRM) raggiungono prestazioni notevoli generando esplicitamente catene di ragionamento multi-step, ma questa capacità comporta una latenza di inferenza e un costo computazionale sostanziali. L'inferenza collaborativa offre una soluzione promettente allocando selettivamente il lavoro tra modelli leggeri e modelli di grandi dimensioni, tuttavia rimane una sfida fondamentale: determinare quando un passo di ragionamento richiede la capacità di un modello grande o l'efficienza di un modello piccolo. Le strategie di routing esistenti si basano su probabilità locali dei token o su verifiche post-hoc, introducendo un sovraccarico di inferenza significativo. In questo lavoro, proponiamo una nuova prospettiva sulla collaborazione step-by-step: la difficoltà di un passo di ragionamento può essere dedotta dal suo primissimo token. Ispirati dal fenomeno del "Momento Aha" negli LRM, dimostriamo che l'entropia del token iniziale funge da forte predittore della difficoltà dello step. Basandoci su questa intuizione, introduciamo GlimpRouter, un framework di collaborazione step-by-step che non richiede addestramento. GlimpRouter utilizza un modello leggero per generare solo il primo token di ogni passo di ragionamento e instrada lo step a un modello più grande solo quando l'entropia del token iniziale supera una soglia. Esperimenti su molteplici benchmark dimostrano che il nostro approccio riduce significativamente la latenza di inferenza preservando l'accuratezza. Ad esempio, GlimpRouter ottiene un sostanziale miglioramento del 10,7% nell'accuratezza riducendo contemporaneamente la latenza di inferenza del 25,9% rispetto a un modello grande autonomo su AIME25. Questi risultati suggeriscono un meccanismo semplice ma efficace per il ragionamento: allocare il calcolo basandosi su un'anticipazione del pensiero piuttosto che su una valutazione dell'intero step.
Sebbene i modelli visione-linguaggio (VLM) abbiano fatto progredire significativamente gli agenti che utilizzano computer (CUA), gli attuali framework incontrano difficoltà in termini di robustezza nei flussi di lavoro a lungo orizzonte e di generalizzazione in domini nuovi. Queste limitazioni derivano dalla mancanza di un controllo granulare sulla selezione del contesto visivo storico e dall'assenza di un recupero di tutorial visivamente consapevole. Per colmare queste lacune, introduciamo OS-Symphony, un framework olistico che comprende un Orchestratore che coordina due innovazioni chiave per un'automazione robusta: (1) un Agente a Memoria-Riflessione che utilizza una memoria a lungo termine guidata da milestone per abilitare l'autocorrezione a livello di traiettoria, mitigando efficacemente la perdita del contesto visivo nei compiti a lungo orizzonte; (2) Agenti Strumento Versatili dotati di un Ricercatore Multimodale che adotta un paradigma SeeAct per navigare in una sandbox basata su browser per sintetizzare tutorial in tempo reale e allineati visivamente, risolvendo così i problemi di fedeltà negli scenari non visti. I risultati sperimentali dimostrano che OS-Symphony fornisce sostanziali miglioramenti delle prestazioni su varie scale di modelli, stabilendo nuovi risultati state-of-the-art su tre benchmark online, raggiungendo in particolare il 65,84% su OSWorld.
I modelli linguistici basati su diffusione (DLM) offrono un'alternativa promettente per la modellazione linguistica grazie alla possibilità di decodifica parallela tramite raffinamento iterativo. Tuttavia, la maggior parte dei DLM si basa su mascheramento binario rigido e assegnazioni discrete di token, che ostacolano la revisione delle decisioni iniziali e sottoutilizzano le rappresentazioni probabilistiche intermedie. In questo articolo proponiamo EvoToken-DLM, un innovativo approccio alla modellazione linguistica basato su diffusione che sostituisce le maschere binarie rigide con distribuzioni soft di token in evoluzione. EvoToken-DLM consente una transizione progressiva da stati mascherati a output discreti, supportando una decodifica revisionabile. Per supportare efficacemente questa evoluzione, introduciamo una supervisione continua della traiettoria, che allinea gli obiettivi di addestramento con gli aggiornamenti probabilistici iterativi. Esperimenti estesi su molteplici benchmark dimostrano che EvoToken-DLM raggiunge costantemente prestazioni superiori, superando i solidi baseline basati su diffusione e DLM mascherati. Pagina web del progetto: https://aim-uofa.github.io/EvoTokenDLM.
Il rapido sviluppo di sistemi di IA interattivi e autonomi segnala il nostro ingresso nell'era agentiva. L'addestramento e la valutazione di agenti su compiti agentivi complessi come l'ingegneria del software e l'utilizzo informatico richiedono non solo un'efficiente computazione dei modelli, ma anche un'infrastruttura sofisticata in grado di coordinare vaste interazioni agente-ambiente. Tuttavia, non esiste un'infrastruttura open-source in grado di supportare efficacemente l'addestramento e la valutazione su larga scala per tali compiti agentivi complessi. Per affrontare questa sfida, presentiamo MegaFlow, un sistema di orchestrazione distribuito su larga scala che abilita una pianificazione efficiente, l'allocazione delle risorse e una gestione granulare dei carichi di lavoro agente-ambiente. MegaFlow astrae l'infrastruttura di addestramento degli agenti in tre servizi indipendenti (Servizio Modello, Servizio Agente e Servizio Ambiente) che interagiscono attraverso interfacce unificate, consentendo uno scaling indipendente e un'allocazione flessibile delle risorse attraverso diverse configurazioni agente-ambiente. Nelle nostre implementazioni di addestramento degli agenti, MegaFlow orchestra con successo decine di migliaia di task agentivi concorrenti mantenendo un'elevata stabilità del sistema e raggiungendo un'utilizzazione efficiente delle risorse. Abilitando un addestramento degli agenti su così larga scala, MegaFlow colma una lacuna infrastrutturale critica nel panorama emergente dell'IA agentiva.
Man mano che gli agenti basati su LLM vengono sempre più utilizzati in interazioni a lungo termine, la memoria cumulativa è fondamentale per abilitare la personalizzazione e mantenere la coerenza stilistica. Tuttavia, la maggior parte dei sistemi esistenti adotta un approccio "tutto-o-nulla" nell'utilizzo della memoria: incorporare tutte le informazioni passate rilevanti può portare a un Ancoraggio alla Memoria, dove l'agente rimane intrappolato nelle interazioni passate, mentre escludere completamente la memoria comporta un sottoutilizzo e la perdita della cronologia interattiva importante. Dimostriamo che la dipendenza di un agente dalla memoria può essere modellata come una dimensione esplicita e controllabile dall'utente. Introduciamo prima una metrica comportamentale della dipendenza dalla memoria per quantificare l'influenza delle interazioni passate sugli output correnti. Proponiamo poi Steerable Memory Agent (SteeM), un framework che consente agli utenti di regolare dinamicamente l'affidamento sulla memoria, spaziando da una modalità di ripartenza che promuove l'innovazione a una modalità ad alta fedeltà che segue fedelmente la cronologia interattiva. Esperimenti condotti in diversi scenari dimostrano che il nostro approccio supera costantemente i metodi di prompting convenzionali e le strategie rigide di mascheramento della memoria, producendo un controllo più sfumato ed efficace per la collaborazione personalizzata tra uomo e agente.
Con l'aumentare della difficoltà di reperire dati di alta qualità, l'auto-evoluzione senza dati è emersa come un paradigma promettente. Questo approccio consente ai grandi modelli linguistici (LLM) di generare e risolvere autonomamente problemi complessi, migliorando così le loro capacità di ragionamento. Tuttavia, gli agenti di ricerca multi-turno lottano nell'auto-evoluzione senza dati a causa della limitata diversità delle domande e delle notevoli risorse computazionali richieste per il ragionamento multi-step e l'utilizzo di strumenti. In questo lavoro, introduciamo Dr. Zero, un framework che consente agli agenti di ricerca di auto-evolversi efficacemente senza alcun dato di addestramento. In particolare, progettiamo un ciclo di feedback di auto-evoluzione in cui un *proposer* genera domande diversificate per addestrare un *solver* inizializzato dallo stesso modello base. Man mano che il solver evolve, incentiva il proposer a produrre compiti progressivamente più difficili ma risolvibili, stabilendo così un curriculum automatizzato per affinare entrambi gli agenti. Per migliorare l'efficienza dell'addestramento, introduciamo anche l'ottimizzazione relativa delle politiche raggruppate per hop (HRPO). Questo metodo raggruppa domande strutturalmente simili per costruire baseline a livello di gruppo, minimizzando efficacemente il sovraccarico di campionamento nella valutazione della difficoltà e risolvibilità individuale di ogni query. Di conseguenza, HRPO riduce significativamente i requisiti computazionali per l'addestramento del solver senza compromettere prestazioni o stabilità. I risultati di esperimenti estensivi dimostrano che il Dr. Zero senza dati eguaglia o supera gli agenti di ricerca supervisionati, dimostrando che complesse capacità di ragionamento e ricerca possono emergere unicamente attraverso l'auto-evoluzione.
I modelli di generazione video, come forma di modelli del mondo, sono emersi come una delle frontiere più entusiasmanti nell'IA, promettendo agli agenti la capacità di immaginare il futuro modellando l'evoluzione temporale di scene complesse. Nella guida autonoma, questa visione dà vita ai modelli del mondo della guida: simulatori generativi che immaginano futuri percorsi dell'ego-veicolo e degli altri agenti, abilitando simulazioni scalabili, test sicuri di casi limite e la generazione di ricchi dati sintetici. Tuttavia, nonostante la rapida crescita dell'attività di ricerca, il campo manca di un benchmark rigoroso per misurare i progressi e guidare le priorità. Le valutazioni esistenti rimangono limitate: le metriche video generiche trascurano fattori critici per la sicurezza nell'imaging; la plausibilità della traiettoria è raramente quantificata; la coerenza temporale e a livello di agente viene trascurata; e la controllabilità rispetto ai condizionamenti dell'ego-veicolo è ignorata. Inoltre, gli attuali dataset non coprono la diversità di condizioni necessarie per il dispiegamento nel mondo reale. Per colmare queste lacune, presentiamo DrivingGen, il primo benchmark completo per i modelli generativi del mondo della guida. DrivingGen combina un dataset di valutazione diversificato, curato sia da dataset di guida che da fonti video su scala internet, che copre vari condizioni meteorologiche, momenti della giornata, regioni geografiche e manovre complesse, con una serie di nuove metriche che valutano congiuntamente realismo visivo, plausibilità della traiettoria, coerenza temporale e controllabilità. Il benchmarking di 14 modelli all'avanguardia rivela chiari compromessi: i modelli generalisti appaiono più realistici ma violano la fisica, mentre quelli specifici per la guida catturano il movimento in modo realistico ma sono in ritardo nella qualità visiva. DrivingGen offre un framework di valutazione unificato per promuovere modelli del mondo della guida affidabili, controllabili e distribuibili, abilitando simulazioni scalabili, pianificazione e processi decisionali basati sui dati.
I modelli di diffusione latente (LDM) generano immagini di alta qualità operando in uno spazio latente compresso, tipicamente ottenuto tramite tokenizzatori di immagine come gli autoencoder variazionali (VAE). Nel perseguimento di un VAE adatto alla generazione, studi recenti hanno esplorato l'utilizzo di modelli fondazione per la visione (VFM) come target di allineamento delle rappresentazioni per i VAE, riflettendo l'approccio comunemente adottato per gli LDM. Sebbene ciò comporti alcuni miglioramenti prestazionali, l'utilizzo dello stesso target di allineamento sia per i VAE che per gli LDM trascura le loro esigenze rappresentative fondamentalmente diverse. Sosteniamo che, mentre gli LDM beneficiano di latenti che conservano concetti semantici di alto livello, i VAE dovrebbero eccellere nella separazione semantica (disentanglement), permettendo la codifica delle informazioni a livello di attributo in modo strutturato. Per affrontare ciò, proponiamo il VAE a separazione semantica (Send-VAE), esplicitamente ottimizzato per l'apprendimento di rappresentazioni disentangled attraverso l'allineamento del suo spazio latente con la gerarchia semantica di VFM pre-addestrati. Il nostro approccio impiega una rete mapper non lineare per trasformare i latenti del VAE, allineandoli con i VFM per colmare il divario tra il disentanglement a livello di attributo e la semantica di alto livello, facilitando una guida efficace per l'apprendimento del VAE. Valutiamo il disentanglement semantico tramite linear probing su task di previsione di attributi, mostrando una forte correlazione con il miglioramento delle prestazioni di generazione. Infine, utilizzando Send-VAE, addestriamo transformer basati su flussi (SiT); gli esperimenti mostrano che Send-VAE accelera significativamente l'addestramento e raggiunge un FID state-of-the-art di 1.21 e 1.75 rispettivamente con e senza classifier-free guidance su ImageNet 256x256.
I Modelli Linguistici di Larga Scala (LLM) possono estendere i limiti delle conoscenze parametriche adottando il paradigma del Ragionamento con Integrazione di Strumenti (TIR). Tuttavia, gli attuali framework di addestramento per agenti basati su LLM si concentrano spesso sull'accuratezza delle risposte, tralasciando un allineamento specifico dei pattern comportamentali. Di conseguenza, l'agente spesso manifesta azioni inefficaci durante i compiti TIR, come chiamate a strumenti ridondanti o insufficienti. Calibrare i pattern comportamentali errati durante l'esecuzione di compiti TIR, esplorando così traiettorie efficaci, rimane un problema aperto. In questo articolo, proponiamo ET-Agent, un framework di addestramento per calibrare il comportamento d'uso degli strumenti dell'agente attraverso due prospettive sinergiche: Volano Dati Auto-evolutivo e Addestramento di Calibrazione Comportamentale. Nello specifico, introduciamo un volano dati auto-evolutivo per generare dati potenziati, utilizzati per affinare l'LLM e migliorarne la capacità esplorativa. Su questa base, implementiamo un framework di addestramento di calibrazione comportamentale a due fasi, progettato per correggere progressivamente i pattern comportamentali errati verso comportamenti ottimali. Esperimenti approfonditi confermano la superiorità multidimensionale del framework, inclusi correttezza, efficienza, concisione del ragionamento e accuratezza dell'esecuzione degli strumenti. Il nostro framework ET-Agent fornisce spunti pratici per la ricerca nel campo del TIR. I codici sono disponibili su https://github.com/asilverlight/ET-Agent.
Gli attuali benchmark visione-linguaggio presentano principalmente domande ben strutturate con prompt chiari ed espliciti. Tuttavia, le query degli utenti reali sono spesso informali e sottospecificate. Gli utenti lasciano naturalmente molto non detto, affidandosi alle immagini per veicolare il contesto. Introduciamo HAERAE-Vision, un benchmark di 653 domande visive del mondo reale provenienti da comunità online coreane (0,76% di sopravvivenza da 86.000 candidati), ciascuna abbinata a una riscrittura esplicita, per un totale di 1.306 varianti di query. Valutando 39 VLM, scopriamo che anche i modelli all'avanguardia (GPT-5, Gemini 2.5 Pro) ottengono meno del 50% sulle query originali. Crucialmente, la sola esplicitazione della query produce miglioramenti da 8 a 22 punti, con i modelli più piccoli che ne beneficiano maggiormente. Mostriamo inoltre che anche con la ricerca web, le query sottospecificate ottengono risultati inferiori rispetto alle query esplicite senza ricerca, rivelando che l'attuale retrieval non può compensare ciò che gli utenti lasciano non detto. I nostri risultati dimostrano che una parte sostanziale della difficoltà dei VLM deriva dalla sottospecificazione naturale della query invece che dalle capacità del modello, evidenziando un divario critico tra la valutazione sui benchmark e il dispiegamento nel mondo reale.
La pianificazione di viaggi è un sofisticato processo decisionale che richiede la sintesi di informazioni multiformi per costruire itinerari. Tuttavia, gli approcci esistenti affrontano diverse sfide: (1) Ridurre i punti di interesse (POI) candidati mantenendo un alto tasso di recupero; (2) Un singolo percorso di ragionamento limita la capacità di esplorazione dello spazio delle soluzioni fattibili; (3) Ottimizzare simultaneamente vincoli rigidi e vincoli morbidi rimane una difficoltà significativa. Per affrontare queste sfide, proponiamo TourPlanner, un framework completo che utilizza ragionamenti multi-percorso e reinforcement learning con meccanismi di gate basati su vincoli. Nello specifico, introduciamo prima un flusso di lavoro di Ottimizzazione Spaziale e Recupero Personalizzato (PReSO) per costruire un insieme di POI candidati spatialmente consapevoli. Successivamente, proponiamo Competitive Consensus Chain-of-Thought (CCoT), un paradigma di ragionamento multi-percorso che migliora la capacità di esplorare lo spazio delle soluzioni fattibili. Per perfezionare ulteriormente il piano, integriamo un meccanismo di gate basato sulla funzione sigmoide nella fase di reinforcement learning, che priorizza dinamicamente la soddisfazione dei vincoli morbidi solo dopo che i vincoli rigidi sono stati soddisfatti. I risultati sperimentali su benchmark di pianificazione di viaggi dimostrano che TourPlanner raggiunge prestazioni all'avanguardia, superando significativamente i metodi esistenti sia nella fattibilità che nell'allineamento alle preferenze dell'utente.
Mentre il ragionamento a catena (Chain-of-Thought) potenzia i grandi modelli visione-linguaggio con ragionamenti multi-step, le giustificazioni testuali esplicite soffrono di un collo di bottiglia nella banda passante informativa, in cui i dettagli visivi continui vengono scartati durante la tokenizzazione discreta. I recenti metodi di ragionamento latente tentano di affrontare questa sfida, ma spesso cadono vittima di un collasso semantico prematuro a causa di obiettivi autoregressivi rigidi. In questo articolo, proponiamo Laser, un nuovo paradigma che riformula la deduzione visiva tramite l'Apprendimento di Allineamento Dinamico a Finestra (Dynamic Windowed Alignment Learning, DWAL). Invece di forzare una previsione punto per punto, Laser allinea lo stato latente con una finestra di validità dinamica delle semantiche future. Questo meccanismo impone una gerarchia cognitiva "Foresta-prima-degli-Alberi", consentendo al modello di mantenere una sovrapposizione probabilistica di caratteristiche globali prima di restringersi ai dettagli locali. Fondamentalmente, Laser mantiene l'interpretabilità tramite traiettorie decodificabili, stabilizzando al contempo l'apprendimento non vincolato tramite Sovrapposizione Auto-Affinata (Self-Refined Superposition). Esperimenti estesi su 6 benchmark dimostrano che Laser raggiunge prestazioni allo stato dell'arte tra i metodi di ragionamento latente, superando di una media del 5,03% il solido baseline Monet. Notevolmente, ottiene questi vantaggi con estrema efficienza, riducendo i token di inferenza di oltre il 97%, dimostrando al contempo una robusta generalizzazione a domini fuori distribuzione.
Man mano che i Large Language Model (LLM) evolvono da interfacce di dialogo statiche ad agenti generali autonomi, una memoria efficace è di fondamentale importanza per garantire una coerenza a lungo termine. Tuttavia, i benchmark esistenti si concentrano principalmente su conversazioni informali o dialoghi orientati al compito, non riuscendo a catturare le interazioni **"orientate a progetti a lungo termine"** in cui gli agenti devono monitorare obiettivi in evoluzione. Per colmare questa lacuna, introduciamo **RealMem**, il primo benchmark basato su scenari progettuali realistici. RealMem comprende oltre 2.000 dialoghi cross-sessione in undici scenari, utilizzando query utente naturali per la valutazione. Proponiamo una pipeline di sintesi che integra la Costruzione della Base del Progetto, la Generazione di Dialogo Multi-Agente e la Gestione della Memoria e della Pianificazione per simulare l'evoluzione dinamica della memoria. Gli esperimenti rivelano che gli attuali sistemi di memoria affrontano sfide significative nella gestione degli stati progettuali a lungo termine e delle dipendenze contestuali dinamiche intrinseche ai progetti del mondo reale. Il nostro codice e i dataset sono disponibili all'indirizzo [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Presentiamo OpenTinker, un'infrastruttura per l'apprendimento per rinforzo (RL) di agenti basati su grandi modelli linguistici (LLM) costruita attorno a una separazione delle competenze tra progettazione algoritmica, esecuzione e interazione agente-ambiente. Invece di basarsi su pipeline RL monolitiche e end-to-end, OpenTinker scompone i sistemi di apprendimento agentistico in componenti leggeri e componibili con confini di astrazione chiaramente definiti. Gli utenti specificano agenti, ambienti e protocolli di interazione, mentre l'inferenza e l'addestramento sono delegati a un runtime di esecuzione gestito. OpenTinker introduce uno scheduler centralizzato per gestire i carichi di lavoro di addestramento e inferenza, inclusi RL basato su LoRA e a parametri interi, fine-tuning supervisionato e inferenza, su risorse condivise. Discutiamo inoltre i principi di progettazione per estendere OpenTinker all'addestramento multi-agente. Infine, presentiamo una serie di casi d'uso RL che dimostrano l'efficacia del framework in scenari pratici di apprendimento agentistico.
I grandi modelli linguistici (LLM) possono essere adattati a nuovi compiti utilizzando metodi di fine-tuning efficiente in parametri (PEFT) che modificano solo un piccolo numero di parametri addestrabili, spesso attraverso aggiornamenti di basso rango. In questo lavoro, adottiamo una prospettiva ispirata all'informazione quantistica per comprenderne l'efficacia. Da questa prospettiva, le parametrizzazioni di basso rango corrispondono naturalmente a rappresentazioni di Stati di Prodotto Matriciale (MPS) a bassa dimensionalità, che consentono caratterizzazioni basate sull'entanglement della struttura dei parametri. Pertanto, definiamo e misuriamo l'"Entanglement Artificiale", definito come l'entropia di entanglement dei parametri nelle reti neurali artificiali (in particolare gli LLM). Studiamo inizialmente il metodo PEFT rappresentativo di adattamento a basso rango (LoRA), insieme al fine-tuning completo (FFT), utilizzando modelli LLaMA alle scale 1B e 8B addestrati sui dataset Tulu3 e OpenThoughts3, e scopriamo: (i) L'entanglement artificiale interno negli aggiornamenti delle matrici di proiezione query e value in LoRA segue una legge del volume con una soppressione centrale (denominata "Valle dell'Entanglement"), che è sensibile agli iperparametri ed è distinta da quella in FFT; (ii) L'entanglement artificiale esterno nelle matrici di attenzione, corrispondente alle correlazioni token-token nello spazio delle rappresentazioni, segue una legge dell'area con correzioni logaritmiche e rimane robusto rispetto agli iperparametri LoRA e ai passi di addestramento. Tracciando un parallelo con il Teorema dell'Assenza di Capelli (No-Hair Theorem) nella fisica dei buchi neri, proponiamo che sebbene LoRA e FFT inducano distinte firme di entanglement interno, tali differenze non si manifestano negli output di attenzione, suggerendo una proprietà di "assenza di capelli" che risulta nell'efficacia degli aggiornamenti di basso rango. Forniamo inoltre supporto teorico basato sulla teoria delle matrici casuali ed estendiamo la nostra analisi a un metodo PEFT di Adattamento MPS, che mostra comportamenti qualitativamente simili.
I modelli linguistici di grandi dimensioni (LLM) sono in grado di produrre stime della propria incertezza sorprendentemente sofisticate. Tuttavia, rimane poco chiaro fino a che punto questa fiducia espressa sia legata al ragionamento, alla conoscenza o al processo decisionale del modello. Per testare ciò, introduciamo RiskEval: un framework progettato per valutare se i modelli adattano le loro politiche di astensione in risposta a diverse penalità per errore. La nostra valutazione di diversi modelli all'avanguardia rivela una dissociazione critica: i modelli non sono né consapevoli dei costi quando articolano la loro fiducia verbale, né strategicamente reattivi quando decidono se affrontare un compito o astenersi in condizioni di penalità elevate. Anche quando penalità estreme rendono l'astensione frequente la strategia matematicamente ottimale, i modelli quasi mai si astengono, risultando in un collasso dell'utilità. Ciò indica che punteggi di fiducia verbale calibrati potrebbero non essere sufficienti per creare sistemi di IA affidabili e interpretabili, poiché i modelli attuali mancano dell'agenzia strategica necessaria per convertire i segnali di incertezza in decisioni ottimali e sensibili al rischio.
Gli esseri umani comprendono principalmente il mondo attraverso concetti (ad esempio, "cane"), rappresentazioni mentali astratte che strutturano la percezione, il ragionamento e l'apprendimento. Tuttavia, il modo in cui i grandi modelli linguistici (LLM) acquisiscono, mantengono e dimenticano tali concetti durante il pre-addestramento continuativo rimane poco compreso. In questo lavoro, studiamo come i singoli concetti vengono acquisiti e dimenticati, e come più concetti interagiscano attraverso interferenza e sinergia. Colleghiamo queste dinamiche comportamentali ai Circuiti Concettuali interni degli LLM, sottografi computazionali associati a concetti specifici, e incorporiamo Metriche di Grafo per caratterizzare la struttura del circuito. La nostra analisi rivela: (1) I circuiti concettuali degli LLM forniscono un segnale statisticamente significativo e non banale dell'apprendimento e della dimenticanza dei concetti; (2) I circuiti concettuali mostrano un pattern temporale a stadi durante il pre-addestramento continuativo, con un iniziale aumento seguito da una graduale diminuzione e stabilizzazione; (3) I concetti con maggiori guadagni di apprendimento tendono a mostrare una maggiore dimenticanza sotto addestramento successivo; (4) Concetti semanticamente simili inducono un'interferenza più forte rispetto a concetti debolmente correlati; (5) La conoscenza concettuale differisce nella sua trasferibilità, con alcuni concetti che facilitano significativamente l'apprendimento di altri. Nel complesso, i nostri risultati offrono una visione a livello circuitale delle dinamiche di apprendimento dei concetti e forniscono indicazioni per la progettazione di strategie di addestramento più interpretabili, robuste e consapevoli dei concetti per gli LLM.
I moderni sistemi informativi spesso coinvolgono diversi tipi di elementi, ad esempio una query testuale, un'immagine, un videoclip o un segmento audio. Ciò motiva lo sviluppo di modelli di embedding onni-modali che mappano eterogenee modalità in uno spazio condiviso per un confronto diretto. Tuttavia, la maggior parte dei recenti embedding onni-modali si basa ancora pesantemente sull'allineamento implicito ereditato dai modelli backbone pre-addestrati visione-linguaggio (VLM). Nella pratica, ciò causa tre problemi comuni: (i) i logit di similarità presentano una nitidezza dipendente dalla modalità, quindi i punteggi non sono su una scala consistente; (ii) i negativi in-batch diventano meno efficaci nel tempo perché batch di modalità mista creano una distribuzione di difficoltà squilibrata; di conseguenza, molti negativi diventano rapidamente banali e contribuiscono poco al gradiente; e (iii) gli embedding tra le diverse modalità mostrano statistiche del primo e del secondo ordine non corrispondenti, il che rende le classificazioni meno stabili. Per affrontare questi problemi, proponiamo e5-omni, una ricetta leggera per l'allineamento esplicito che adatta VLM già disponibili in robusti modelli di embedding onni-modali. e5-omni combina tre semplici componenti: (1) una calibrazione della temperatura consapevole della modalità per allineare le scale di similarità, (2) un curriculum dei negativi controllabile con debiasing per focalizzarsi sui negativi confondenti riducendo l'impatto dei falsi negativi, e (3) uno sbiancamento batch con regolarizzazione della covarianza per far corrispondere meglio la geometria cross-modale nello spazio di embedding condiviso. Esperimenti su MMEB-V2 e AudioCaps mostrano miglioramenti consistenti rispetto a baseline bi-modali e onni-modali solide, e la stessa ricetta si trasferisce bene anche ad altri backbone VLM. Rilasciamo il nostro checkpoint del modello all'indirizzo https://huggingface.co/Haon-Chen/e5-omni-7B.
Mentre l'innovazione dell'IA accelera rapidamente, il processo intellettuale alla base delle scoperte – come i ricercatori identificano le lacune, sintetizzano il lavoro precedente e generano intuizioni – rimane poco compreso. La mancanza di dati strutturati sul ragionamento scientifico ostacola l'analisi sistematica e lo sviluppo di agenti di ricerca IA. Presentiamo Sci-Reasoning, il primo dataset che cattura la sintesi intellettuale alla base della ricerca IA di alta qualità. Utilizzando segnali di qualità convalidati dalla comunità e una pipeline accelerata da LLM e verificata da esseri umani, rintracciamo i contributi orali e selezionati (Spotlight) presentati a NeurIPS, ICML e ICLR (2023-2025) fino ai loro predecessori chiave, articolando specifici collegamenti logici in un formato strutturato. La nostra analisi identifica 15 distinti modelli di pensiero, con tre strategie dominanti che rappresentano il 52,7%: Riformulazione Guidata dalle Lacune (24,2%), Sintesi Interdominio (18,0%) e Cambiamento di Rappresentazione (10,5%). Le ricette per l'innovazione più potenti combinano più pattern: Riformulazione Guidata dalle Lacune + Cambiamento di Rappresentazione, Sintesi Interdominio + Cambiamento di Rappresentazione, e Riformulazione Guidata dalle Lacune + Sintesi Interdominio. Questo dataset consente studi quantitativi sul progresso scientifico e fornisce traiettorie di ragionamento strutturate per addestrare la prossima generazione di agenti di ricerca IA.
Gli approcci attuali alla gestione della memoria nei Large Language Model (LLM) si basano prevalentemente sulla Generazione Aumentata dal Recupero (RAG) statica, che spesso produce recuperi frammentati e non coglie le dipendenze strutturali necessarie per il ragionamento complesso. Per gli agenti autonomi, queste architetture passive e piatte mancano dell'organizzazione cognitiva necessaria per modellare la natura dinamica e associativa dell'interazione a lungo termine. Per affrontare questa limitazione, proponiamo la Structured Episodic Event Memory (SEEM), un framework gerarchico che sinergizza un livello di memoria a grafo per fatti relazionali con un livello di memoria episodica dinamica per la progressione narrativa. Basandosi sulla teoria cognitiva dei frame, SEEM trasforma i flussi interattivi in Episodic Event Frames (EEF) strutturati ancorati da puntatori di provenienza precisi. Inoltre, introduciamo un meccanismo di fusione associativa agentica e di Reverse Provenance Expansion (RPE) per ricostruire contesti narrativi coerenti da evidenze frammentate. I risultati sperimentali sui benchmark LoCoMo e LongMemEval dimostrano che SEEM supera significativamente i metodi baseline, consentendo agli agenti di mantenere una coerenza narrativa e una consistenza logica superiori.
Man mano che modelli linguistici di grandi dimensioni (LLM) come ChatGPT, Copilot, Claude e Gemini si integrano nei flussi di lavoro dello sviluppo software, gli sviluppatori lasciano sempre più tracce del coinvolgimento dell'IA nei commenti del codice. Tra questi, alcuni commenti riconoscono esplicitamente sia l'uso dell'IA generativa che la presenza di carenze tecniche. Analizzando 6.540 commenti di codice che fanno riferimento a LLM provenienti da repository GitHub pubblici basati su Python e JavaScript (novembre 2022-luglio 2025), abbiamo identificato 81 commenti che ammettono anche autonomamente debito tecnico (SATD). Gli sviluppatori descrivono più spesso test posticipati, adattamento incompleto e comprensione limitata del codice generato dall'IA, suggerendo che l'assistenza IA influisce sia sul momento in cui emerge il debito tecnico sia sulle ragioni per cui esso emerge. Proponiamo il termine "Debito Tecnico Auto-ammesso Indotto da IA Generativa" (GIST) come lente concettuale per descrivere casi ricorrenti in cui gli sviluppatori incorporano codice generato dall'IA esprimendo esplicitamente incertezza sul suo comportamento o correttezza.
L'inferenza deterministica è un ideale rassicurante nel software classico: lo stesso programma con lo stesso input dovrebbe sempre produrre lo stesso output. Con l'ingresso dei grandi modelli linguistici nelle implementazioni del mondo reale, questo ideale è stato importato in blocco negli stack di inferenza. Recenti lavori del Thinking Machines Lab hanno presentato un'analisi dettagliata del non-determinismo nell'inferenza degli LLM, mostrando come kernel invarianti al batch e attenzione deterministica possano imporre output identici a livello di bit, posizionando l'inferenza deterministica come un prerequisito per la riproducibilità e l'affidabilità aziendale. In questo articolo, assumiamo la posizione opposta. Sosteniamo che, per gli LLM, l'inferenza deterministica uccida. Uccide la capacità di modellare l'incertezza, sopprime le abilità emergenti, comprime il ragionamento in un unico percorso fragile e indebolisce l'allineamento alla sicurezza nascondendo i rischi di coda. Gli LLM implementano distribuzioni condizionate sugli output, non funzioni fisse. Comprimere queste distribuzioni in un singolo completamento canonico può apparire rassicurante, ma nasconde sistematicamente proprietà centrali per la cognizione artificiale. Noi sosteniamo invece lo Stochastic CHAOS, trattando la variabilità distribuzionale come un segnale da misurare e controllare. Empiricamente, dimostriamo che l'inferenza deterministica è sistematicamente fuorviante. La valutazione deterministica a campione singolo sottostima sia le capacità che la fragilità, mascherando la probabilità di fallimento sotto parafrasi e rumore. Transizioni di fase associate ad abilità emergenti scompaiono con il decoding greedy. Il ragionamento multi-percorso si degrada quando forzato su backbone deterministici, riducendo accuratezza e capacità diagnostica. Infine, la valutazione deterministica sottostima il rischio per la sicurezza nascondendo comportamenti rari ma pericolosi che compaiono solo sotto una valutazione multi-campione.
La prefigurazione e la risoluzione sono dispositivi narrativi onnipresenti attraverso i quali gli autori introducono degli impegni all'inizio di una storia e li risolvono mediante esiti concreti e osservabili. Tuttavia, nonostante i progressi nella generazione di storie, i grandi modelli linguistici (LLM) spesso non riescono a colmare queste dipendenze narrative a lungo raggio, lasciando frequentemente "i fucili di Čechov" inesplosi anche quando il contesto necessario è presente. Le valutazioni esistenti trascurano in larga misura questo fallimento strutturale, concentrandosi sulla coerenza di superficie piuttosto che sul soddisfacimento logico delle premesse narrative. In questo articolo, introduciamo la Generazione Codificata di Prefigurazione-Risoluzione (CFPG), un nuovo framework che riformula la qualità narrativa attraverso la lente della realizzazione della risoluzione. Riconoscendo che gli LLM faticano a cogliere intuitivamente il "meccanismo di innesco" di un evento prefigurato, il CFPG trasforma la continuità narrativa in un insieme di predicati causali eseguibili. Estraendo e codificando triple Prefigurazione-Innesco-Risoluzione dal corpus BookSum, forniamo una supervisione strutturata che garantisce che gli impegni prefigurati non siano solo menzionati, ma anche soddisfatti temporalmente e logicamente. Gli esperimenti dimostrano che il CFPG supera significativamente i baseline di prompting standard in termini di accuratezza della risoluzione e allineamento narrativo. I nostri risultati suggeriscono che codificare esplicitamente le meccaniche narrative sia essenziale per far evolvere gli LLM dalla fluidità di superficie a una competenza narrativa genuina.
Le interfacce grafiche utente (GUI) sono fondamentali per l'interazione uomo-computer, ma l'automazione di compiti complessi su GUI rimane una sfida importante per gli agenti autonomi, principalmente a causa della mancanza di dati di addestramento scalabili e di alta qualità. Sebbene le registrazioni di dimostrazioni umane costituiscano una ricca fonte di dati, queste sono tipicamente lunghe, non strutturate e prive di annotazioni, rendendole difficili da apprendere per gli agenti. Per affrontare questo problema, introduciamo ShowUI-Aloha, una pipeline completa che trasforma registrazioni non strutturate dello schermo umano, provenienti da ambienti desktop in contesti reali, in compiti strutturati e azionabili. Il nostro framework include quattro componenti chiave: Un registratore che cattura il video dello schermo insieme alle interazioni utente precise come clic del mouse, pressioni di tasti e scorrimenti. Un modulo di apprendimento che interpreta semanticamente queste interazioni grezze e il contesto visivo circostante, traducendoli in descrizioni in linguaggio naturale. Un pianificatore che legge le dimostrazioni analizzate, mantiene gli stati del compito e formula dinamicamente il piano d'azione di alto livello successivo basandosi sul ragionamento contestuale. Un esecutore che mette fedelmente in pratica questi piani d'azione a livello di sistema operativo, eseguendo clic precisi, trascinamenti, inserimenti di testo e operazioni sulle finestre con controlli di sicurezza e feedback in tempo reale. Insieme, questi componenti forniscono una soluzione scalabile per raccogliere e analizzare dati umani del mondo reale, dimostrando un percorso percorribile verso la creazione di agenti GUI generici in grado di apprendere efficacemente semplicemente osservando gli esseri umani.
I veicoli aerei senza pilota (UAV) sono sempre più impiegati in prossimità di esseri umani per applicazioni come la consegna di pacchi, il monitoraggio del traffico, la risposta ai disastri e le ispezioni alle infrastrutture. Garantire un funzionamento sicuro e affidabile in questi ambienti popolati da persone richiede una percezione accurata delle pose e delle azioni umane da una prospettiva aerea. Questa prospettiva mette alla prova i metodi esistenti a causa della bassa risoluzione, degli angoli di visuale ripidi e delle (auto)occlusioni, specialmente se l'applicazione richiede modelli fattibili in tempo reale. Addestriamo e implementiamo FlyPose, una pipeline leggera per la stima della posa umana di tipo "top-down" per le immagini aeree. Attraverso un addestramento multi-dataset, otteniamo un miglioramento medio di 6,8 mAP nella rilevazione di persone sui set di test di Manipal-UAV, VisDrone, HIT-UAV e sul nostro dataset personalizzato. Per la stima della posa umana 2D riportiamo un miglioramento di 16,3 mAP sul complesso dataset UAV-Human. FlyPose opera con una latenza di inferenza di circa 20 millisecondi, inclusa la pre-elaborazione, su una Jetson Orin AGX Developer Kit ed è implementato a bordo di un UAV quadrirotore durante esperimenti di volo. Pubbliciamo inoltre FlyPose-104, un dataset piccolo ma impegnativo per la stima della posa umana da prospettiva aerea, che include annotazioni manuali da angolazioni aeree difficili: https://github.com/farooqhassaan/FlyPose.
La fase di post-addestramento dei grandi modelli linguistici combina abitualmente il fine-tuning supervisionato (SFT) con l'apprendimento per rinforzo (RL). Questi due metodi presentano obiettivi diversi: l'SFT minimizza la perdita di entropia incrociata tra gli output del modello e le risposte esperte, mentre l'RL massimizza i segnali di ricompensa derivati da preferenze umane o verificatori basati su regole. I moderni modelli di ragionamento hanno ampiamente adottato la pratica di alternare l'addestramento SFT e RL. Tuttavia, non esiste una spiegazione teorica sulla possibilità di disaccoppiarli. Dimostriamo che il disaccoppiamento è impossibile in entrambi gli ordini: (1) accoppiamento SFT-poiché-RL: l'RL aumenta la perdita SFT in condizioni di ottimalità SFT, e (2) accoppiamento RL-poiché-SFT: l'SFT riduce la ricompensa ottenuta tramite RL. Esperimenti su Qwen3-0.6B confermano il degrado previsto, verificando che SFT e RL non possono essere separati senza una perdita delle prestazioni precedenti nel post-addestramento.
I modelli generativi di linguaggio parlato preaddestrati su larga scala di audio grezzo sono in grado di continuare un prompt vocale con contenuti appropriati, preservando attributi come il parlante e l'emozione, fungendo da modelli di base per il dialogo parlato. Nella letteratura precedente, questi modelli sono spesso valutati utilizzando la "perplessità globale dei token", che applica direttamente la formulazione della perplessità testuale ai token vocali. Tuttavia, questa pratica trascura le differenze fondamentali tra le modalità del parlato e del testo, portando potenzialmente a una sottostima delle caratteristiche vocali. In questo lavoro, proponiamo una varietà di metodi di valutazione basati sulla verosimiglianza e sulla generazione che sostituiscono l'ingenuo uso della perplessità globale dei token. Dimostriamo che le valutazioni proposte riflettono più fedelmente la qualità generativa percepita, come evidenziato da correlazioni più forti con i punteggi di opinione media (MOS) valutati da esseri umani. Quando valutati secondo le nuove metriche, il panorama delle prestazioni relative dei modelli di linguaggio parlato si modifica, rivelando un divario significativamente ridotto tra il modello con le migliori prestazioni e il livello di riferimento umano. Nel complesso, questi risultati suggeriscono che una valutazione appropriata è fondamentale per stimare accuratamente i progressi nella modellazione del linguaggio parlato.
I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano forti capacità generali, ma continuano a incontrare difficoltà nella Classificazione Visiva di Grana Fine (FGVC), un compito percettivo fondamentale che richiede una sottile discriminazione visiva ed è cruciale per molte applicazioni del mondo reale. Una strategia ampiamente adottata per migliorare le prestazioni su compiti impegnativi come la matematica e la codifica è il ragionamento a Catena del Pensiero (CoT). Tuttavia, diversi lavori precedenti hanno segnalato che il CoT può effettivamente danneggiare le prestazioni nei compiti di percezione visiva. Questi studi, tuttavia, esaminano il problema da angolature relativamente ristrette e lasciano aperta la questione del perché il CoT degradi le prestazioni ad alta intensità percettiva. Noi riesaminiamo sistematicamente il ruolo del CoT nella FGVC attraverso le lenti della valutazione zero-shot e di molteplici paradigmi di addestramento. In tutti questi contesti, scopriamo un paradosso centrale: il degrado indotto dal CoT è largamente guidato dalla lunghezza del ragionamento, in cui un ragionamento testuale più lungo abbassa costantemente l'accuratezza della classificazione. Definiamo questo fenomeno il "Costo del Pensiero". Sulla base di questa scoperta, forniamo due contributi chiave: (1) \alg, un semplice e generale metodo di normalizzazione plug-and-play per l'ottimizzazione multi-ricompensa che bilancia segnali di ricompensa eterogenei, e (2) ReFine-RFT, un quadro che combina ricompense di ensemble con \alg per vincolare la lunghezza del ragionamento fornendo al contempo un feedback denso orientato all'accuratezza. Esperimenti estensivi dimostrano l'efficacia delle nostre scoperte e del ReFine-RFT proposto, raggiungendo prestazioni all'avanguardia su vari benchmark FGVC. Il codice e i modelli sono disponibili all'indirizzo https://github.com/jiezhu23/ReFine-RFT{Collegamento al Progetto}.
Sebbene i Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) abbiano conseguito progressi notevoli nella comprensione visiva, spesso incontrano difficoltà di fronte alla natura non strutturata e ambigua degli schizzi generati dall'uomo. Questa limitazione è particolarmente evidente nel compito poco esplorato della valutazione visiva, dove i modelli non dovrebbero solo risolvere un problema, ma anche diagnosticare gli errori nei diagrammi disegnati a mano. Tali capacità diagnostiche dipendono da ragionamenti complessi di tipo strutturale, semantico e metacognitivo. Per colmare questa lacuna, introduciamo SketchJudge, un nuovo benchmark specificamente progettato per valutare gli MLLM nella valutazione di diagrammi STEM disegnati a mano. SketchJudge comprende 1.015 risposte di studenti disegnate a mano in quattro domini: geometria, fisica, diagrammi e flowchart, caratterizzate da variazioni stilistiche diversificate e tipologie di errore distinte. Le valutazioni su SketchJudge dimostrano che anche gli MLLM più avanzati rimangono significativamente indietro rispetto agli esseri umani, convalidando l'efficacia del benchmark nell'evidenziare la fragilità dell'allineamento visivo-linguistico attuale in contesti simbolici e rumorosi. Tutti i dati, il codice e gli script di valutazione sono pubblicamente disponibili all'indirizzo https://github.com/yuhangsu82/SketchJudge.
L'autoconsistenza è emersa come una tecnica popolare per migliorare l'accuratezza dei grandi modelli linguistici nei compiti di ragionamento. L'approccio è semplice: generare molteplici percorsi di ragionamento e selezionare la risposta più comune attraverso un voto a maggioranza. Sebbene questo metodo aumenti affidabilmente l'accuratezza, non è chiaro se questi guadagni riflettano un reale miglioramento della qualità del ragionamento. Investigiamo una questione fondamentale mai studiata prima: lo scaling inferenziale migliora la fedeltà del ragionamento? Abbiamo condotto uno studio empirico completo su quattro modelli all'avanguardia (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview e DeepSeek-v3.2) su 100 problemi di ragionamento matematico del dataset GSM8K. La nostra analisi utilizza intervalli di confidenza bootstrap, test di McNemar per confronti appaiati e dimensioni dell'effetto Cohen's d per quantificare rigorosamente gli effetti. I risultati rivelano differenze sorprendenti tra i modelli che sfidano le ipotesi comuni sull'autoconsistenza. GPT-5.2 mostra il pattern atteso: l'accuratezza migliora dal 78% al 90% a N=5, mentre la fedeltà rimane relativamente stabile (da 0,540 a 0,510). Claude Opus 4.5 racconta una storia completamente diversa. La sua accuratezza diminuisce infatti dal 78% al 74,3%, mentre la fedeltà aumenta drammaticamente da 0,270 a 0,891 a N=5. DeepSeek-v3.2, già al 98% di accuratezza, mostra effetti di tetto con guadagni modesti in fedeltà (da 0,440 a 0,541). Gemini-3-flash migliora dall'81% all'86% in accuratezza con una leggera diminuzione della fedeltà (da 0,260 a 0,212). L'analisi della difficoltà dei problemi rivela che GPT-5.2 risolve l'82% dei problemi difficili mentre sbaglia solo il 13% di quelli facili. Claude, al contrario, sbaglia il 23% dei problemi facili, spiegando così la sua diminuzione di accuratezza. Questi risultati sono importanti per i professionisti: l'autoconsistenza non è universalmente benefica e i team dovrebbero testare i propri modelli specifici prima del dispiegamento. Rilasciamo il nostro codice e forniamo raccomandazioni pratiche per orientarsi in questi compromessi.
Progettare una rete neurale unificata in grado di elaborare in modo efficiente e intrinseco dati sequenziali di lunghezza arbitraria rappresenta un problema centrale e complesso nella modellazione di sequenze. Le scelte progettuali del Transformer, inclusa la complessità quadratica e la debole estrapolazione di lunghezza, ne hanno limitato la capacità di scalare su sequenze lunghe. In questo lavoro, proponiamo Gecko, un'architettura neurale che eredita il design di Mega e Megalodon (media mobile esponenziale con attenzione gated), e introduce ulteriori componenti tecnici per migliorare la sua capacità di catturare dipendenze a lungo raggio, inclusi la normalizzazione per decadimento temporale, il meccanismo di attenzione a blocchi scorrevoli e la memoria di lavoro adattiva. In un confronto controllato di pre-addestramento con Llama2 e Megalodon sulla scala di 7 miliardi di parametri e 2 trilioni di token di training, Gecko raggiunge una migliore efficienza e scalabilità di contesto lungo. Gecko raggiunge una loss di training di 1.68, superando significativamente Llama2-7B (1.75) e Megalodon-7B (1.70), e avvicinandosi a Llama2-13B (1.67). Notevolmente, senza fare affidamento su tecniche di estensione del contesto, Gecko mostra capacità intrinseche di elaborazione e recupero di contesti lunghi, gestendo stabilmente sequenze fino a 4 milioni di token e recuperando informazioni da contesti fino a 4 volte più lunghi della sua finestra di attenzione. Codice: https://github.com/XuezheMax/gecko-llm
I log di sistema sono cruciali per il monitoraggio e la diagnostica dell'infrastruttura informatica moderna, ma la loro scala e complessità richiedono un'interpretazione automatizzata affidabile ed efficiente. Poiché i livelli di gravità sono metadati predefiniti nei messaggi di log di sistema, avere un modello che si limiti a classificarli offre un valore pratico autonomo limitato, rivelando poco sulla sua capacità sottostante di interpretare i log di sistema. Sosteniamo che la classificazione della gravità sia più informativa quando trattata come benchmark per sondare la comprensione runtime dei log, piuttosto che come compito finale. Utilizzando dati journalctl del mondo reale provenienti da server Linux di produzione, valutiamo nove piccoli modelli linguistici (SLM) e piccoli modelli linguistici di ragionamento (SRLM) con prompt zero-shot, few-shot e retrieval-augmented generation (RAG). I risultati rivelano una forte stratificazione. Qwen3-4B raggiunge la massima accuratezza al 95,64% con RAG, mentre Gemma3-1B migliora dal 20,25% sotto prompt few-shot all'85,28% con RAG. Notevolmente, il minuscolo Qwen3-0.6B raggiunge un'accuratezza dell'88,12% nonostante le scarse prestazioni senza retrieval. Al contrario, diversi SRLM, inclusi Qwen3-1.7B e DeepSeek-R1-Distill-Qwen-1.5B, peggiorano sostanzialmente quando abbinati a RAG. Le misurazioni di efficienza separano ulteriormente i modelli: la maggior parte delle varianti Gemma e Llama completano l'inferenza in meno di 1,2 secondi per log, mentre Phi-4-Mini-Reasoning supera i 228 secondi per log raggiungendo un'accuratezza <10%. Questi risultati suggeriscono che (1) il design architetturale, (2) gli obiettivi di addestramento e (3) la capacità di integrare il contesto recuperato sotto stringenti vincoli di output determinano congiuntamente le prestazioni. Enfatizzando modelli piccoli e distribuibili, questo benchmark si allinea con i requisiti in tempo reale dei sistemi di gemello digitale (DT) e mostra che la classificazione della gravità funge da lente per valutare la competenza del modello e la distribuibilità in tempo reale, con implicazioni per l'analisi della causa radice (RCA) e una più ampia integrazione DT.
Le espressioni non composizionali (ad esempio, idiomi, proverbi e metafore) pongono sfide significative per i sistemi di traduzione automatica neurale poiché il loro significato non può essere derivato dalla semplice somma delle parole componenti. Queste espressioni codificano significati culturali ricchi e possiedono sia accezioni figurative che letterali, rendendo difficile una traduzione accurata. Poiché i modelli sono già abbastanza abili nel tradurre testo composizionale, abbiamo investigato un fine-tuning in stile GRPO utilizzando modelli di Quality Estimation per la traduzione automatica (MTQE) come funzioni di reward per addestrare i modelli a tradurre meglio gli idiomi. Utilizzando dataset di idiomi cinesi e hindi, abbiamo riscontrato un miglioramento di circa 14 punti nelle capacità di traduzione idiomatica, un miglioramento implicito di circa 8 punti nella traduzione generale non idiomatica, e un miglioramento di circa 6 punti nelle abilità di traduzione cross-lingue (addestrato su una lingua, valutato su un'altra). Nel complesso, il nostro lavoro quantifica il divario nella traduzione non composizionale e offre spunti per sviluppare LLM con una comprensione più solida del linguaggio figurato e cross-culturale.
La valutazione dei modelli linguistici (LM) in domini specializzati e ad alto rischio come la finanza rimane una sfida significativa a causa della scarsità di dataset aperti, di alta qualità e specifici per il dominio. I benchmark generalisti esistenti forniscono un'ampia copertura, ma mancano della profondità e della fedeltà al dominio necessarie per valutare le capacità degli LM nel ragionamento finanziario reale, che richiede sia comprensione concettuale che rigore quantitativo. Per colmare questa lacuna, introduciamo FinForge, una pipeline semi-sintetica e scalabile per la costruzione di benchmark di valutazione specifici per la finanza attraverso un approccio ibrido di curatela dei dati guidata da esperti e sintesi controllata basata su LM. FinForge combina la costruzione manuale e programmatica di un corpus da fonti finanziarie autorevoli con la generazione strutturata di domande e la validazione utilizzando Gemini 2.5 Flash. Per dimostrare l'efficacia della pipeline, produciamo FinForge-5k, un benchmark istantaneo comprendente oltre 5.000 coppie domanda-risposta convalidate da esseri umani in 11 sottodomini finanziari, derivato da un corpus curato di 100.000 documenti verificati per un totale di 143 milioni di token. La valutazione di modelli open-source e proprietari all'avanguardia su FinForge-5k rivela differenze significative nel ragionamento finanziario, con i modelli leader che raggiungono livelli di accuratezza prossimi all'80%. Questi risultati sottolineano l'utilità del framework per diagnosticare le limitazioni attuali dei modelli e guidare futuri miglioramenti nella competenza nel dominio finanziario. Tutto il codice e i dati sono disponibili all'indirizzo https://github.com/gtfintechlab/FinForge.
L'ottimizzazione diretta delle preferenze (DPO) è un'alternativa metodologicamente solida e scalabile all'RLHF per l'allineamento di grandi modelli linguistici a partire da preferenze a coppie, ma la sua impronta geometrica interna rimane scarsamente caratterizzata, limitando audit, confronti tra checkpoint e previsione dei fallimenti. Introduciamo SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), uno strumento diagnostico che misura come l'allineamento rimodella le rappresentazioni attraverso la profondità del modello, tracciando il cambiamento strutturale localizzato strato per strato. Attraverso diverse famiglie di modelli, la DPO produce un effetto di calibrazione stratificato concentrato nei blocchi decoder finali (spesso strati 21-30), dove i gradienti delle preferenze influenzano più direttamente la distribuzione del token successivo. SPINAL codifica ogni checkpoint come una traccia di profondità su (indice dello strato, punteggio di contrazione, punteggio di trasporto). Il punteggio di contrazione riassume la rapidità con cui la coda dello spettro di uno strato decade (quanto velocemente le modalità piccole svaniscono); valori più alti indicano una contrazione più forte in meno direzioni efficaci. Il punteggio di trasporto riassume quanto la distribuzione dei token si sposta tra strati adiacenti utilizzando una misura di sovrapposizione limitata; valori più bassi indicano passi più brevi e uniformi attraverso lo spazio delle rappresentazioni. I checkpoint allineati mostrano un aumento progressivo della contrazione negli strati finali e una riduzione graduale del trasporto, coerente con una massa di policy più compatta e stabilizzata, mentre i modelli non allineati tracciano percorsi di profondità a curvatura più elevata, più entropici e geometricamente incoerenti. In sintesi, l'allineamento è geometricamente localizzato: gli strati finali codificano le correzioni dominanti indotte dalle preferenze. SPINAL trasforma questa localizzazione in un segnale di audit pratico, quantificando dove si concentra l'allineamento, con quale intensità si manifesta e quando inizia a destabilizzarsi durante l'addestramento.
L'intelligenza spaziale si riferisce alla capacità di percepire, ragionare e descrivere oggetti e le loro relazioni all'interno di ambienti tridimensionali, costituendo una base per la percezione incarnata e la comprensione della scena. Il captioning 3D mira a descrivere scene 3D in linguaggio naturale; tuttavia, rimane una sfida a causa della sparsità e irregolarità delle nuvole di punti e, ancor più criticamente, del debole grounding e della limitata generalizzazione out-of-distribution (OOD) dei captioner esistenti in ambienti drasticamente diversi, incluse scene 3D indoor e outdoor. Per affrontare questa sfida, proponiamo 3D CoCa v2, un framework di captioning 3D generalizzabile che unisce l'apprendimento contrastivo visione-linguaggio con la generazione di caption 3D e migliora ulteriormente la robustezza tramite una ricerca al tempo di test (TTS) senza aggiornare i parametri del captioner. 3D CoCa v2 si basa su un priore semantico congelato basato su CLIP, un codificatore di scene 3D spatialmente consapevole per la geometria e un decoder multimodale ottimizzato congiuntamente con obiettivi contrastivi e di captioning, evitando rilevatori esterni o proposte artigianali. In fase di inferenza, la TTS produce candidati di caption diversificati ed esegue una selezione guidata da ricompensa utilizzando un riepilogo compatto della scena. Gli esperimenti mostrano miglioramenti rispetto a 3D CoCa di +1.50 CIDEr@0.5IoU su ScanRefer e +1.61 CIDEr@0.5IoU su Nr3D, e +3.8 CIDEr@0.25 nella valutazione zero-shot OOD su TOD3Cap. Il codice sarà rilasciato su https://github.com/AIGeeksGroup/3DCoCav2.