Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto tecnico, presentiamo la serie di modelli Ring-linear, includendo specificamente Ring-mini-linear-2.0 e Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprende 16 miliardi di parametri e 957 milioni di attivazioni, mentre Ring-flash-linear-2.0 contiene 104 miliardi di parametri e 6,1 miliardi di attivazioni. Entrambi i modelli adottano un'architettura ibrida che integra efficacemente l'attenzione lineare e l'attenzione softmax, riducendo significativamente l'overhead di I/O e computazionale negli scenari di inferenza a contesto lungo. Rispetto a un modello denso da 32 miliardi di parametri, questa serie riduce il costo di inferenza a 1/10, e rispetto alla serie Ring originale, il costo è ridotto di oltre il 50%. Inoltre, attraverso un'esplorazione sistematica del rapporto tra diversi meccanismi di attenzione nell'architettura ibrida, abbiamo identificato la struttura del modello attualmente ottimale. In aggiunta, sfruttando la nostra libreria di operatori FP8 ad alte prestazioni auto-sviluppata, linghe, l'efficienza complessiva dell'addestramento è stata migliorata del 50%. Grazie all'elevata allineamento tra gli operatori del motore di addestramento e di inferenza, i modelli possono subire un'ottimizzazione a lungo termine, stabile e altamente efficiente durante la fase di apprendimento per rinforzo, mantenendo costantemente prestazioni SOTA su molteplici benchmark complessi e impegnativi di ragionamento.
L'apprendimento per rinforzo (RL) è recentemente diventato il paradigma centrale per allineare e potenziare i grandi modelli linguistici (LLM). Tuttavia, applicare il RL in contesti off-policy—dove vengono utilizzati dati obsoleti provenienti da politiche passate per l'addestramento—migliora l'efficienza del campionamento, ma rimane impegnativo: l'entropia della politica diminuisce drasticamente, l'ottimizzazione spesso diventa instabile e può persino collassare. Attraverso analisi teoriche ed empiriche, identifichiamo due intuizioni chiave: (i) uno squilibrio nell'ottimizzazione, in cui i campioni con vantaggio negativo dominano il gradiente della politica, sopprimendo comportamenti utili e rischiando esplosioni del gradiente; e (ii) la regola derivata dell'Entropia-Clip, che rivela come il meccanismo di clipping fisso negli obiettivi simili al PPO blocchi sistematicamente gli aggiornamenti che aumentano l'entropia, spingendo così la politica verso un eccessivo sfruttamento a scapito dell'esplorazione. Basandoci su queste intuizioni, proponiamo l'Ottimizzazione Bilanciata della Politica con Clipping Adattivo (BAPO), un metodo semplice ma efficace che regola dinamicamente i limiti di clipping per riequilibrare in modo adattivo i contributi positivi e negativi, preservare l'entropia e stabilizzare l'ottimizzazione del RL. In diversi scenari off-policy—inclusi il replay dei campioni e il rollout parziale—BAPO raggiunge un addestramento rapido, stabile ed efficiente in termini di dati. Sui benchmark AIME 2024 e AIME 2025, il nostro modello BAPO da 7B supera le controparti open-source come SkyWork-OR1-7B, mentre il nostro modello BAPO da 32B non solo ottiene risultati all'avanguardia tra i modelli della stessa scala, ma supera anche sistemi proprietari leader come o3-mini e Gemini-2.5-Flash-Thinking.
Il ragionamento su contesti lunghi è essenziale per i grandi modelli linguistici. Sebbene l'apprendimento per rinforzo (RL) migliori il ragionamento su contesti brevi inducendo momenti di "Aha" nella catena di pensiero, i modelli di pensiero avanzati necessari per il ragionamento su contesti lunghi rimangono in gran parte inesplorati, e i dati RL ad alta difficoltà sono scarsi. In questo articolo, introduciamo LoongRL, un metodo RL basato sui dati per il ragionamento avanzato su contesti lunghi. Al centro di LoongRL c'è KeyChain, un approccio di sintesi che trasforma QA multi-hop brevi in compiti ad alta difficoltà su contesti lunghi inserendo catene UUID che nascondono la vera domanda tra grandi raccolte di documenti distraenti. Risolvere questi compiti richiede che il modello segua la catena corretta passo dopo passo, identifichi la vera domanda, recuperi fatti rilevanti e ragioni su di essi per rispondere correttamente. L'addestramento RL sui dati di KeyChain induce un modello emergente di ragionamento pianifica-recupera-ragiona-ricontrolla che si generalizza ben oltre la lunghezza di addestramento. Modelli addestrati a 16K risolvono efficacemente compiti di 128K senza i costi proibitivi di un rollout RL a lunghezza completa. Su Qwen2.5-7B e 14B, LoongRL migliora sostanzialmente l'accuratezza del QA multi-hop su contesti lunghi con guadagni assoluti di +23.5% e +21.1%. Il risultante LoongRL-14B raggiunge un punteggio di 74.2, rivaleggiando con modelli di frontiera molto più grandi come o3-mini (74.5) e DeepSeek-R1 (74.9). Migliora anche il recupero su contesti lunghi, supera tutti i test di stress "ago in un pagliaio" a 128K e preserva le capacità di ragionamento su contesti brevi.
L'addestramento di modelli Vision-Language-Action (VLA) per robot generalisti richiede tipicamente dati robotici su larga scala provenienti dal mondo reale, la cui raccolta è costosa e dispendiosa in termini di tempo. L'inefficienza nella raccolta di dati fisici limita fortemente la scalabilità e la capacità di generalizzazione degli attuali sistemi VLA. Per affrontare questa sfida, introduciamo GigaBrain-0, un nuovo modello di fondazione VLA potenziato da dati generati da modelli del mondo (ad esempio, generazione di video, trasferimento real2real, trasferimento umano, trasferimento di visuale, dati sim2real). Sfruttando i modelli del mondo per generare dati diversificati su larga scala, GigaBrain-0 riduce significativamente la dipendenza dai dati robotici reali, migliorando al contempo la generalizzazione tra compiti. Il nostro approccio migliora ulteriormente la robustezza delle politiche attraverso la modellazione degli input RGBD e la supervisione embodied Chain-of-Thought (CoT), consentendo al modello di ragionare sulla geometria spaziale, sugli stati degli oggetti e sulle dipendenze a lungo termine durante l'esecuzione dei compiti. Ciò si traduce in sostanziali miglioramenti nelle prestazioni nel mondo reale per compiti di manipolazione dexterous, a lungo termine e mobile. Esperimenti estensivi dimostrano che GigaBrain-0 raggiunge una superiore generalizzazione rispetto a variazioni di aspetto (ad esempio, texture, colori), posizionamento degli oggetti e punti di vista della telecamera. Inoltre, presentiamo GigaBrain-0-Small, una variante leggera ottimizzata progettata per funzionare in modo efficiente su dispositivi come l'NVIDIA Jetson AGX Orin.
Componenti dei Transformer come le attivazioni non lineari e la normalizzazione sono intrinsecamente non iniettive, suggerendo che input diversi possano mappare sullo stesso output e impedire il recupero esatto dell'input dalle rappresentazioni del modello. In questo articolo, contestiamo questa visione. In primo luogo, dimostriamo matematicamente che i modelli linguistici Transformer che mappano sequenze di input discrete alle corrispondenti sequenze di rappresentazioni continue sono iniettivi e quindi privi di perdita, una proprietà stabilita all'inizializzazione e preservata durante l'addestramento. In secondo luogo, confermiamo questo risultato empiricamente attraverso miliardi di test di collisione su sei modelli linguistici all'avanguardia, osservando nessuna collisione. In terzo luogo, operazionalizziamo l'iniettività: introduciamo SipIt, il primo algoritmo che ricostruisce in modo dimostrabile ed efficiente l'esatto testo di input dalle attivazioni nascoste, stabilendo garanzie di tempo lineare e dimostrando l'invertibilità esatta nella pratica. Nel complesso, il nostro lavoro stabilisce l'iniettività come una proprietà fondamentale e sfruttabile dei modelli linguistici, con implicazioni dirette per la trasparenza, l'interpretabilità e il dispiegamento sicuro.
L'addestramento di agenti per l'uso del computer richiede grandi quantità di dati di interazione con le GUI, ma l'annotazione manuale delle traiettorie delle azioni su larga scala è proibitivamente costosa. Presentiamo VideoAgentTrek, una pipeline scalabile che estrae automaticamente dati di addestramento da video registrati pubblicamente su larga scala, eliminando la necessità di annotazione manuale. Il nostro approccio affronta una sfida chiave: i video grezzi contengono dimostrazioni implicite ma mancano di etichette esplicite per le azioni. Per risolvere questo problema, sviluppiamo Video2Action, un modulo di dinamica inversa (IDM) con due componenti: (1) un modello di grounding video che rileva e localizza le azioni GUI con confini temporali e contesto precisi, e (2) un riconoscitore di contenuti azionali che estrae parametri strutturati come coordinate dei clic e testo digitato con alta fedeltà. Applicato a 39.000 video tutorial di YouTube, la nostra pipeline genera automaticamente 1,52 milioni di passi di interazione. Sfruttiamo questi dati attraverso un pre-addestramento continuo seguito da un fine-tuning supervisionato. Su OSWorld-Verified, il nostro approccio migliora i tassi di successo delle attività dal 9,3% (baseline solo SFT) al 15,8%, un miglioramento relativo del 70%. Su AgentNetBench, l'accuratezza dei passi aumenta dal 64,1% al 69,3%. I nostri risultati dimostrano che i video passivi su Internet possono essere trasformati in supervisione di alta qualità per agenti di uso del computer, fornendo un'alternativa scalabile alla costosa annotazione manuale.
Gli Agenti per Telefoni Mobili (MPA) sono emersi come una promettente direzione di ricerca grazie alla loro ampia applicabilità in scenari diversificati. Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) costituiscano la base per gli MPA, la loro efficacia nel gestire contemporaneamente più attività sui telefoni mobili rimane limitata. Nonostante il fine-tuning supervisionato multitask (SFT) sia ampiamente adottato per l'apprendimento multitask, gli approcci esistenti faticano a determinare le composizioni ottimali dei dati di training per ottenere prestazioni massime. Per affrontare questa sfida, proponiamo DaMo (Data Mixture Optimizer) - una soluzione innovativa che utilizza una rete addestrabile per prevedere le miscele ottimali di dati, stimando le prestazioni delle attività downstream per qualsiasi rapporto di dataset. Per supportare una valutazione completa, introduciamo PhoneAgentBench, il primo benchmark specializzato per valutare gli MLLM su attività multimodali per telefoni mobili, comprendente 1235 coppie di domande e risposte che coprono diversi scenari reali di applicazioni industriali mobili. Dimostrando una forte capacità predittiva (R^2=0.81) in esperimenti pilota su piccola scala, DaMo estrapola in modo efficiente le configurazioni ottimali di miscelazione dei dati. I nostri risultati mostrano che DaMo ottiene un miglioramento delle prestazioni del 3.38% su PhoneAgentBench rispetto ai metodi alternativi. Inoltre, esperimenti estesi su benchmark consolidati come BFCL-v3, MME-Reasoning, MME-Perception e OCRBench rivelano la superiore generalizzazione di DaMo, superando altri approcci del 2.57% in termini di punteggio medio. Quando utilizzato esclusivamente per l'ottimizzazione degli MLLM sul task BFCL-v3, DaMo migliora le metriche del 12.47% rispetto ad altri metodi. È importante notare che DaMo mantiene una robusta scalabilità, preservando la sua efficacia quando applicato ad altre architetture di modelli. Il codice e il dataset sono disponibili all'indirizzo https://github.com/OPPO-Mente-Lab/DaMo.git.
I modelli visione-linguaggio (VLMs) hanno raggiunto progressi notevoli, ma la loro ampia scala li rende spesso impraticabili in ambienti con risorse limitate. Questo articolo introduce Unified Reinforcement and Imitation Learning (RIL), un algoritmo di addestramento innovativo ed efficiente progettato per creare VLMs potenti e leggeri. RIL combina in modo distintivo i punti di forza dell'apprendimento per rinforzo con l'apprendimento per imitazione avversariale. Ciò consente ai VLMs studente più piccoli non solo di imitare la generazione sofisticata di testo dei grandi modelli insegnante, ma anche di migliorare sistematicamente le loro capacità generative attraverso segnali di rinforzo. Elemento chiave del nostro framework di imitazione è un discriminatore basato su LLM che distingue abilmente tra gli output dello studente e dell'insegnante, integrato dalla guida di più grandi VLMs insegnante per garantire un apprendimento diversificato. Questa strategia di apprendimento unificata, che sfrutta sia il rinforzo che l'imitazione, consente ai modelli studente di ottenere significativi miglioramenti delle prestazioni, rendendoli competitivi con i principali VLMs closed-source. Esperimenti estesi su vari benchmark visione-linguaggio dimostrano che RIL riduce significativamente il divario di prestazioni con i VLMs open- e closed-source all'avanguardia e, in diversi casi, li supera.
I recenti progressi nei modelli multimodali hanno dimostrato capacità straordinarie di modifica delle immagini guidata da testo, con sistemi come GPT-4o e Nano-Banana che stabiliscono nuovi benchmark. Tuttavia, i progressi della comunità di ricerca rimangono limitati dall'assenza di dataset su larga scala, di alta qualità e accessibili pubblicamente, costruiti a partire da immagini reali. Presentiamo Pico-Banana-400K, un dataset completo di 400.000 immagini per la modifica delle immagini basata su istruzioni. Il nostro dataset è stato costruito sfruttando Nano-Banana per generare coppie di modifiche diverse da fotografie reali della collezione OpenImages. Ciò che distingue Pico-Banana-400K dai precedenti dataset sintetici è il nostro approccio sistematico alla qualità e alla diversità. Utilizziamo una tassonomia dettagliata della modifica delle immagini per garantire una copertura completa dei tipi di modifica, mantenendo al contempo una conservazione precisa del contenuto e una fedeltà alle istruzioni attraverso un punteggio di qualità basato su MLLM e un'attenta curatela. Oltre alla modifica a singolo passaggio, Pico-Banana-400K consente la ricerca in scenari di modifica complessi. Il dataset include tre sottoinsiemi specializzati: (1) una collezione di 72.000 esempi multi-passaggio per studiare la modifica sequenziale, il ragionamento e la pianificazione attraverso modifiche consecutive; (2) un sottoinsieme di preferenze di 56.000 esempi per la ricerca sull'allineamento e l'addestramento di modelli di ricompensa; e (3) coppie di istruzioni di modifica lunghe e brevi per sviluppare capacità di riscrittura e riassunto delle istruzioni. Fornendo questa risorsa su larga scala, di alta qualità e ricca di compiti, Pico-Banana-400K stabilisce una solida base per l'addestramento e il benchmarking della prossima generazione di modelli di modifica delle immagini guidata da testo.
La generazione di report finanziari professionali è un processo ad alta intensità di lavoro e intellettualmente impegnativo che i sistemi di intelligenza artificiale attuali faticano a automatizzare completamente. Per affrontare questa sfida, introduciamo FinSight (Financial InSight), un innovativo framework multi-agente per la produzione di report finanziari multimodali di alta qualità. Il fondamento di FinSight è l'architettura Code Agent with Variable Memory (CAVM), che unisce dati esterni, strumenti progettati e agenti in uno spazio variabile programmabile, consentendo una raccolta dati flessibile, l'analisi e la generazione di report attraverso codice eseguibile. Per garantire una visualizzazione di livello professionale, proponiamo un Meccanismo di Miglioramento Iterativo della Visione che affina progressivamente gli output visivi grezzi in grafici finanziari raffinati. Inoltre, un Framework di Scrittura a due fasi espande segmenti concisi di Catena di Analisi in report coerenti, consapevoli delle citazioni e multimodali, garantendo sia profondità analitica che coerenza strutturale. Esperimenti su vari compiti a livello aziendale e di settore dimostrano che FinSight supera significativamente tutte le baseline, inclusi i principali sistemi di ricerca avanzata, in termini di accuratezza fattuale, profondità analitica e qualità della presentazione, mostrando un percorso chiaro verso la generazione di report che si avvicinano alla qualità degli esperti umani.
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più utilizzati nelle interazioni uomo-IA, le loro capacità di ragionamento sociale in contesti interpersonali diventano cruciali. Introduciamo SCRIPTS, un dataset di 1.000 dialoghi in inglese e coreano, tratti da sceneggiature cinematografiche. Il compito consiste nel valutare la capacità di ragionamento sociale dei modelli per dedurre le relazioni interpersonali (ad esempio, amici, sorelle, amanti) tra i parlanti in ciascun dialogo. Ogni dialogo è annotato con etichette relazionali probabilistiche (Molto Probabile, Meno Probabile, Improbabile) da parlanti nativi (o equivalenti) di coreano e inglese provenienti dalla Corea e dagli Stati Uniti. Valutando nove modelli sul nostro compito, gli attuali LLM proprietari raggiungono circa il 75-80% sul dataset in inglese, mentre le loro prestazioni sul coreano scendono al 58-69%. Ancora più sorprendente, i modelli selezionano relazioni Improbabili nel 10-25% delle loro risposte. Inoltre, scopriamo che i modelli di pensiero e il prompting a catena di pensiero, efficaci per il ragionamento generale, offrono benefici minimi per il ragionamento sociale e occasionalmente amplificano i pregiudizi sociali. I nostri risultati rivelano significative limitazioni nelle capacità di ragionamento sociale degli attuali LLM, evidenziando la necessità di sforzi per sviluppare modelli linguistici socialmente consapevoli.
I modelli mondiali per la guida autonoma sono attesi per funzionare efficacemente su tre dimensioni fondamentali: stato, azione e ricompensa. Tuttavia, i modelli esistenti sono tipicamente limitati a modalità di stato ristrette, sequenze video brevi, controllo impreciso delle azioni e una mancanza di consapevolezza della ricompensa. In questo articolo, introduciamo OmniNWM, un modello mondiale di navigazione panoramica onnisciente che affronta tutte e tre le dimensioni all'interno di un framework unificato. Per lo stato, OmniNWM genera congiuntamente video panoramici di RGB, semantica, profondità metrica e occupazione 3D. Una strategia di forzatura flessibile consente una generazione auto-regressiva di alta qualità su lunghi orizzonti temporali. Per l'azione, introduciamo una rappresentazione normalizzata a mappa di raggi Plucker panoramica che codifica le traiettorie di input in segnali a livello di pixel, consentendo un controllo altamente preciso e generalizzabile sulla generazione di video panoramici. Per quanto riguarda la ricompensa, andiamo oltre l'apprendimento di funzioni di ricompensa con modelli esterni basati su immagini: invece, sfruttiamo l'occupazione 3D generata per definire direttamente ricompense dense basate su regole per la conformità e la sicurezza della guida. Esperimenti estensivi dimostrano che OmniNWM raggiunge prestazioni all'avanguardia nella generazione video, precisione di controllo e stabilità su lunghi orizzonti temporali, fornendo al contempo un framework affidabile di valutazione a ciclo chiuso attraverso ricompense basate sull'occupazione. La pagina del progetto è disponibile all'indirizzo https://github.com/Arlo0o/OmniNWM.
I Modelli Linguistici a Diffusione Mascherata (DLMs) sono recentemente emersi come una promettente alternativa ai tradizionali Modelli Autoregressivi (ARMs). I DLMs impiegano encoder basati su trasformatori con attenzione bidirezionale, consentendo la generazione parallela di token pur mantenendo prestazioni competitive. Sebbene la loro efficienza ed efficacia siano state ampiamente studiate, i meccanismi interni che governano i DLMs rimangono in gran parte inesplorati. In questo lavoro, conduciamo un'analisi empirica dei modelli di attenzione nei DLMs, concentrandoci sul fenomeno dell'"attenzione sinking", un effetto precedentemente osservato in varie architetture basate su trasformatori. I nostri risultati rivelano che anche i DLMs presentano "attenzione sinking", ma con caratteristiche distinte. In primo luogo, a differenza degli ARMs, le posizioni dei sink nei DLMs tendono a spostarsi durante il processo di generazione, mostrando un comportamento dinamico. In secondo luogo, mentre gli ARMs sono altamente sensibili alla rimozione dei sink di attenzione, i DLMs rimangono robusti: mascherare i sink comporta solo un lieve degrado delle prestazioni. Questi risultati forniscono nuove intuizioni sul funzionamento interno dei modelli linguistici basati sulla diffusione e evidenziano differenze fondamentali nel modo in cui allocano e utilizzano l'attenzione rispetto ai modelli autoregessivi.
Introduciamo Chart2Code, un nuovo benchmark per valutare le capacità di comprensione dei grafici e generazione di codice dei modelli multimodali di grandi dimensioni (LMM). Chart2Code è progettato esplicitamente da una prospettiva guidata dall'utente, catturando scenari reali diversificati e aumentando progressivamente la difficoltà dei compiti. È composto da tre livelli: Livello 1 (Riproduzione del Grafico) riproduce grafici da una figura di riferimento e una query dell'utente; Livello 2 (Modifica del Grafico) coinvolge modifiche complesse come cambiare il tipo di grafico o aggiungere elementi; e Livello 3 (Generazione di Grafici da Tabelle Lunghe) richiede ai modelli di trasformare tabelle lunghe e dense di informazioni in grafici fedeli seguendo le istruzioni dell'utente. A nostra conoscenza, questo è il primo benchmark gerarchico che riflette l'uso pratico di chart2code mentre scala sistematicamente la complessità dei compiti. In totale, Chart2Code contiene 2.023 compiti su 22 tipi di grafici, abbinati a metriche di valutazione multilivello che valutano sia la correttezza del codice che la fedeltà visiva dei grafici renderizzati. Abbiamo valutato 25 LMM all'avanguardia (SoTA), inclusi sia modelli proprietari che i più recenti modelli open-source come GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL e Seed-1.6-VL. I risultati sperimentali dimostrano che anche il modello SoTA GPT-5 raggiunge in media solo 0.57 nella valutazione basata sul codice e 0.22 nella valutazione della qualità del grafico nei compiti di modifica, sottolineando la difficoltà di Chart2Code. Anticipiamo che questo benchmark spingerà i progressi nel ragionamento multimodale e favorirà lo sviluppo di LMM più robusti e general-purpose. Il nostro codice e i dati sono disponibili su Chart2Code.
I grandi modelli multimodali codificano un'ampia conoscenza fattuale nei loro pesi pre-addestrati. Tuttavia, tale conoscenza rimane statica e limitata, incapace di tenere il passo con gli sviluppi del mondo reale, il che ostacola l'acquisizione continua di conoscenza. L'iniezione efficace della conoscenza diventa quindi cruciale, coinvolgendo due obiettivi: l'adattamento della conoscenza (iniettare nuove conoscenze) e la ritenzione della conoscenza (preservare le conoscenze esistenti). I metodi esistenti spesso faticano ad apprendere nuove conoscenze e soffrono di oblio catastrofico. Per affrontare questo problema, proponiamo KORE, un metodo sinergico di aumentazioni e vincoli orientati alla conoscenza (KnOwledge-oRientEd) per iniettare nuove conoscenze nei grandi modelli multimodali preservando al contempo le conoscenze esistenti. A differenza dell'aumentazione generale di dati testuali o visivi, KORE converte automaticamente singoli elementi di conoscenza in conoscenza strutturata e completa, garantendo che il modello apprenda accuratamente nuove conoscenze, consentendo un adattamento preciso. Nel frattempo, KORE memorizza le conoscenze precedenti nella matrice di covarianza delle attivazioni dello strato lineare del modello multimodale e inizializza l'adattatore proiettando i pesi originali nello spazio nullo della matrice, definendo una direzione di fine-tuning che minimizza l'interferenza con le conoscenze precedenti, consentendo una potente ritenzione. Esperimenti estesi su vari modelli multimodali, tra cui LLaVA-v1.5-7B, LLaVA-v1.5-13B e Qwen2.5-VL-7B, dimostrano che KORE raggiunge prestazioni superiori nell'iniezione di nuove conoscenze e mitiga efficacemente l'oblio catastrofico.
Presentiamo olmOCR 2, l'ultimo membro della nostra famiglia di potenti sistemi OCR per convertire documenti stampati digitalizzati, come i PDF, in testo semplice, pulito e ordinato in modo naturale. olmOCR 2 è alimentato da olmOCR-2-7B-1025, un modello linguistico visivo (VLM) specializzato da 7 miliardi di parametri, addestrato utilizzando il reinforcement learning con ricompense verificabili (RLVR), dove le nostre ricompense sono un insieme diversificato di test unitari binari. Per scalare la creazione di test unitari, abbiamo sviluppato una pipeline per generare documenti sintetici con layout diversificati e complessi, codice HTML sorgente noto e casi di test estratti. Dimostriamo che l'addestramento RL su questi casi di test porta a prestazioni all'avanguardia su olmOCR-Bench, il nostro benchmark OCR in lingua inglese, con i miglioramenti più significativi nella conversione di formule matematiche, nell'analisi di tabelle e nei layout a più colonne rispetto alle versioni precedenti. Rilasciamo il nostro modello, i dati e il codice con licenze open permissive.
Dall'introduzione del Model Context Protocol (MCP), il numero di strumenti disponibili per i Large Language Models (LLM) è aumentato significativamente. Questi set di strumenti specifici per task offrono un'alternativa agli strumenti generici come i browser web, risultando più semplici da sviluppare e mantenere rispetto alle interfacce grafiche (GUI). Tuttavia, gli agenti generici attuali si basano principalmente sui browser web per interagire con l'ambiente. Qui presentiamo TheMCPCompany, un benchmark per valutare gli agenti che richiamano strumenti su task che implicano l'interazione con vari servizi del mondo reale. Utilizziamo le API REST di questi servizi per creare server MCP, che includono oltre 18.000 strumenti. Forniamo inoltre strumenti di riferimento annotati manualmente per ciascun task. Nei nostri esperimenti, utilizziamo gli strumenti di riferimento per dimostrare il potenziale degli agenti che richiamano strumenti sia nel migliorare le prestazioni che nel ridurre i costi, assumendo un recupero perfetto degli strumenti. Successivamente, esploriamo le prestazioni degli agenti utilizzando il recupero degli strumenti per studiare l'effettiva praticità degli agenti basati su strumenti nel mondo reale. Mentre tutti i modelli con recupero degli strumenti performano in modo simile o migliore rispetto agli agenti basati su browser, i modelli più piccoli non riescono a sfruttare appieno gli strumenti disponibili tramite il recupero. D'altra parte, le prestazioni di GPT-5 con il recupero degli strumenti sono molto vicine a quelle ottenute con gli strumenti di riferimento. Nel complesso, il nostro lavoro dimostra che i modelli di ragionamento più avanzati sono efficaci nel scoprire strumenti in ambienti più semplici, ma incontrano serie difficoltà nel navigare ambienti aziendali complessi. TheMCPCompany rivela che navigare tra decine di migliaia di strumenti e combinarli in modi non banali per risolvere problemi complessi rimane un compito impegnativo per i modelli attuali e richiede sia un migliore ragionamento che modelli di recupero più efficaci.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) dimostrano una forte capacità di comprensione video focalizzandosi su token visivi rilevanti per le query testuali. Per adattare direttamente questa capacità alla localizzazione in modo privo di addestramento, trasformiamo la segmentazione basata sul ragionamento video in un task di domanda-risposta video e estraiamo mappe di attenzione tramite un meccanismo di rollout. Tuttavia, le mappe di attenzione grezze sono rumorose e mal allineate con le regioni degli oggetti. Proponiamo la Fusione di Attenzione Decomposta (DecAF), che affina queste mappe attraverso due meccanismi: (1) fusione contrastiva oggetto-sfondo e (2) fusione complementare dei frame video. Questo metodo sopprime le attivazioni irrilevanti e migliora i segnali focalizzati sugli oggetti, consentendo la conversione diretta delle mappe di attenzione in maschere di segmentazione approssimative. Inoltre, introduciamo il prompting SAM2 guidato dall'attenzione per ottenere maschere più dettagliate. A differenza dei metodi esistenti che addestrano congiuntamente MLLMs con SAM, il nostro metodo opera completamente senza riaddestramento. DecAF supera i metodi privi di addestramento e raggiunge prestazioni comparabili ai metodi basati su addestramento sia sui benchmark di segmentazione video referenziale che di ragionamento. Il codice sarà disponibile all'indirizzo https://github.com/HYUNJS/DecAF.
Con i progressi nell'hardware, nel software e nelle tecnologie dei modelli linguistici di grandi dimensioni, l'interazione tra esseri umani e sistemi operativi è evoluta dall'interfaccia a riga di comando alle interazioni con agenti di intelligenza artificiale che stanno emergendo rapidamente. Costruire un agente per sistemi operativi (OS) in grado di eseguire le istruzioni dell'utente e seguire fedelmente i desideri dell'utente sta diventando una realtà. In questo rapporto tecnico, presentiamo ColorAgent, un agente OS progettato per interagire in modo robusto e a lungo termine con l'ambiente, consentendo al contempo un'interazione personalizzata e proattiva con l'utente. Per abilitare interazioni a lungo termine con l'ambiente, potenziamo le capacità del modello attraverso l'apprendimento per rinforzo graduale e l'addestramento auto-evolutivo, sviluppando inoltre un framework multi-agente su misura che garantisce generalità, coerenza e robustezza. Per quanto riguarda l'interazione con l'utente, esploriamo il riconoscimento personalizzato delle intenzioni dell'utente e l'engagement proattivo, posizionando l'agente OS non solo come uno strumento di automazione, ma come un partner collaborativo e accogliente. Valutiamo ColorAgent sui benchmark AndroidWorld e AndroidLab, raggiungendo tassi di successo rispettivamente del 77,2% e del 50,7%, stabilendo un nuovo stato dell'arte. Tuttavia, osserviamo che gli attuali benchmark sono insufficienti per una valutazione completa degli agenti OS e proponiamo di esplorare ulteriori direzioni nel lavoro futuro, in particolare nelle aree dei paradigmi di valutazione, della collaborazione tra agenti e della sicurezza. Il nostro codice è disponibile all'indirizzo https://github.com/MadeAgents/mobile-use.
I Large Multimodal Models (LMM) codificano una ricca conoscenza fattuale attraverso il pre-addestramento cross-modale, tuttavia le loro rappresentazioni statiche faticano a mantenere una comprensione accurata delle conoscenze fattuali sensibili al tempo. I benchmark esistenti rimangono limitati da progettazioni statiche, valutando in modo inadeguato la capacità degli LMM di comprendere conoscenze sensibili al tempo. Per colmare questa lacuna, proponiamo MINED, un benchmark completo che valuta la consapevolezza temporale lungo 6 dimensioni chiave e 11 compiti impegnativi: cognizione, consapevolezza, affidabilità, comprensione, ragionamento e robustezza. MINED è costruito da Wikipedia da due annotatori professionisti e contiene 2.104 campioni di conoscenza sensibili al tempo che coprono sei tipi di conoscenza. La valutazione di 15 LMM ampiamente utilizzati su MINED mostra che Gemini-2.5-Pro raggiunge il punteggio CEM medio più alto di 63.07, mentre la maggior parte degli LMM open-source manca ancora di capacità di comprensione temporale. Nel frattempo, gli LMM ottengono i migliori risultati sulla conoscenza organizzativa, mentre le loro prestazioni sono più deboli nello sport. Per affrontare queste sfide, indaghiamo la fattibilità di aggiornare le conoscenze sensibili al tempo negli LMM attraverso metodi di editing della conoscenza e osserviamo che gli LMM possono aggiornare efficacemente la conoscenza tramite metodi di editing in scenari di modifica singola.
La modellizzazione di ottimizzazione consente decisioni critiche in vari settori, ma rimane difficile da automatizzare: il linguaggio informale deve essere mappato su formulazioni matematiche precise e codice eseguibile per i risolutori. Gli approcci precedenti basati su LLM si affidano a prompt fragili o a costosi riaddestramenti con una generalizzazione limitata. Presentiamo AlphaOPT, una libreria di esperienze auto-migliorante che consente a un LLM di apprendere da dimostrazioni limitate (anche solo dalle risposte, senza programmi di riferimento) e dal feedback del risolutore, senza tracce di ragionamento annotate o aggiornamenti dei parametri. AlphaOPT opera in un ciclo continuo a due fasi: (i) una fase di Apprendimento della Libreria che riflette sui tentativi falliti, estraendo intuizioni strutturate verificate dal risolutore come {tassonomia, condizione, spiegazione, esempio}; e (ii) una fase di Evoluzione della Libreria che diagnostica disallineamenti nel recupero e affina le condizioni di applicabilità delle intuizioni memorizzate, migliorando il trasferimento tra i compiti. Questo design (1) apprende in modo efficiente da dimostrazioni limitate senza razionali curati, (2) si espande continuamente senza costosi riaddestramenti aggiornando la libreria anziché i pesi del modello, e (3) rende la conoscenza esplicita e interpretabile per l'ispezione e l'intervento umano. Gli esperimenti mostrano che AlphaOPT migliora costantemente con più dati (dal 65% al 72% da 100 a 300 elementi di addestramento) e supera il baseline più forte del 7,7% sul dataset out-of-distribution OptiBench quando addestrato solo sulle risposte. Codice e dati sono disponibili su: https://github.com/Minw913/AlphaOPT.
I metodi esistenti di fine-tuning efficiente in termini di parametri (PEFT) rientrano principalmente in due categorie: adattamento basato su aggiunta e adattamento selettivo in-situ. Il primo, come LoRA, introduce moduli aggiuntivi per adattare il modello ai task downstream, offrendo una forte efficienza in termini di memoria. Tuttavia, la loro capacità rappresentativa è spesso limitata, rendendoli meno adatti per adattamenti granulari. Al contrario, il secondo effettua il fine-tuning diretto di un sottoinsieme accuratamente selezionato dei parametri originali del modello, consentendo un adattamento più preciso ed efficace, ma al costo di un consumo di memoria significativamente aumentato. Per conciliare questo compromesso, proponiamo NeuroAda, un nuovo metodo PEFT che consente il fine-tuning granulare del modello mantenendo un'elevata efficienza in termini di memoria. Il nostro approccio identifica prima i parametri importanti (cioè, le connessioni all'interno della rete) come nell'adattamento selettivo, e poi introduce connessioni di bypass per questi parametri selezionati. Durante il fine-tuning, vengono aggiornate solo le connessioni di bypass, lasciando congelati i parametri originali del modello. I risultati empirici su oltre 23 task che spaziano dalla generazione alla comprensione del linguaggio naturale dimostrano che NeuroAda raggiunge prestazioni all'avanguardia con appena ≤ 0,02% di parametri addestrabili, riducendo l'uso della memoria CUDA fino al 60%. Rilasciamo il nostro codice qui: https://github.com/FightingFighting/NeuroAda.git.
I modelli linguistici multimodali di grandi dimensioni (MLLM) stanno avanzando rapidamente, ma la loro capacità di ragionamento spesso rimane indietro rispetto a quella delle controparti basate esclusivamente su testo. I metodi esistenti per colmare questa lacuna si basano su un affinamento supervisionato su larga scala di dati di ragionamento multimodale o sull'apprendimento per rinforzo, entrambi intensivi in termini di risorse. Un'alternativa promettente è la fusione di modelli, che interpola i parametri tra LLM potenziati per il ragionamento e varianti multimodali. Tuttavia, la nostra analisi mostra che una fusione ingenua non è sempre una "soluzione gratuita": la sua efficacia varia drasticamente tra le famiglie di modelli, con alcuni (ad esempio, LLaVA, Idefics) che ne traggono beneficio mentre altri (ad esempio, Qwen) subiscono un degrado delle prestazioni. Per affrontare questo problema, proponiamo l'Iniezione Direzionale di Ragionamento per l'Affinamento (DRIFT) degli MLLM, un metodo leggero che trasferisce la conoscenza del ragionamento nello spazio dei gradienti, senza destabilizzare l'allineamento multimodale. DRIFT precalcola un prior di ragionamento come differenza nello spazio dei parametri tra le varianti di ragionamento e quelle multimodali, quindi lo utilizza per influenzare i gradienti durante l'affinamento multimodale. Questo approccio preserva la semplicità delle pipeline standard di affinamento supervisionato, consentendo un trasferimento efficiente del ragionamento. Esperimenti estesi su benchmark di ragionamento multimodale, tra cui MathVista e MathVerse, dimostrano che DRIFT migliora costantemente le prestazioni di ragionamento rispetto alla fusione ingenua e all'affinamento supervisionato, eguagliando o superando metodi ad alto costo di addestramento a una frazione del costo.
Dati di pre-addestramento di alta qualità sono cruciali per i modelli linguistici di grandi dimensioni, dove la qualità cattura l'affidabilità fattuale e il valore semantico, mentre la diversità garantisce una copertura ampia e un'eterogeneità distributiva. Gli approcci esistenti si basano tipicamente su una selezione basata su punteggi mono o multi-dimensionali. Tuttavia, selezionare direttamente i dati con i punteggi più alti spesso degrada le prestazioni, ed è necessario campionare da un intervallo più ampio per recuperare i risultati. La suddetta non monotonicità tra i punteggi del dataset e i risultati dei benchmark downstream rivela un bias fondamentale: i metodi basati su punteggi collassano le dimensioni correlate, facendo apparire i dati con punteggi più alti come di alta qualità mentre trascurano sistematicamente la diversità. Sosteniamo che garantire la diversità richiede di scomporre le metriche correlate in dimensioni di caratteristiche ortogonali, dalle quali i dati con i punteggi più alti possono essere selezionati direttamente. Pertanto, abbiamo proposto l'algoritmo di selezione Orthogonal Diversity-Aware Selection (ODiS), che preserva sia la qualità che la diversità durante la selezione dei dati. In primo luogo, ODiS valuta i dati da più dimensioni, coprendo la qualità linguistica, la qualità della conoscenza e la difficoltà di comprensione. I punteggi multi-dimensionali vengono poi decorrelati tramite l'analisi delle componenti principali (PCA), ottenendo dimensioni di valutazione ortogonali. Per ciascuna dimensione, un valutatore basato su Roberta viene addestrato per regredire i dati sui punteggi proiettati dalla PCA, consentendo un'inferenza scalabile su grandi corpora. Infine, ODiS costruisce il dataset di addestramento selezionando i dati con i punteggi più alti all'interno di ciascuna dimensione ortogonale, garantendo così sia la qualità che la diversità. I risultati empirici mostrano che i dati selezionati da ODiS presentano meno del 2% di sovrapposizione inter-dimensionale, confermando l'ortogonalità tra le dimensioni. Ancora più importante, i modelli addestrati con i dati selezionati da ODiS superano significativamente altri baseline sui benchmark downstream, evidenziando la necessità di una selezione dei dati ortogonale e consapevole della diversità per i modelli linguistici di grandi dimensioni.
Le risposte impulsive di una stanza (RIR) rappresentano una risorsa fondamentale per la dereverberazione, il riconoscimento vocale robusto, la localizzazione delle sorgenti e la stima dell'acustica ambientale. Presentiamo RIR-Mega, un'ampia raccolta di RIR simulate descritte da uno schema di metadati compatto e adatto all'elaborazione automatica, distribuita con strumenti semplici per la validazione e il riutilizzo. Il dataset è fornito con un caricatore per Hugging Face Datasets, script per il controllo dei metadati e dei checksum, e una baseline di regressione di riferimento che predice obiettivi RT60 a partire dalle forme d'onda. Su una suddivisione di addestramento e validazione di 36.000 e 4.000 esempi, un piccolo Random Forest basato su caratteristiche temporali e spettrali leggere raggiunge un errore assoluto medio di circa 0,013 s e un errore quadratico medio di circa 0,022 s. Ospitiamo un sottoinsieme con 1.000 RIR per array lineari e 3.000 RIR per array circolari su Hugging Face per lo streaming e test rapidi, e conserviamo l'archivio completo di 50.000 RIR su Zenodo. Il dataset e il codice sono pubblici per supportare studi riproducibili.
Valutare i progressi nei modelli linguistici di grandi dimensioni (LLM) è spesso limitato dalla difficoltà di verificare le risposte, restringendo le valutazioni a compiti come matematica, programmazione e risposte brevi a domande. Tuttavia, molte applicazioni nel mondo reale richiedono di valutare gli LLM nell'elaborazione di documenti professionali, nella sintesi di informazioni e nella generazione di report completi in risposta alle query degli utenti. Introduciamo ProfBench: un insieme di oltre 7000 coppie risposta-criterio valutate da esperti umani con conoscenze professionali in ambiti come PhD in Fisica, PhD in Chimica, MBA in Finanza e MBA in Consulenza. Costruiamo giudici LLM robusti ed economici per valutare i criteri di ProfBench, mitigando il bias di auto-miglioramento e riducendo il costo della valutazione di 2-3 ordini di grandezza, rendendola equa e accessibile a una comunità più ampia. I nostri risultati rivelano che ProfBench pone sfide significative anche per gli LLM all'avanguardia, con i modelli migliori come GPT-5-high che raggiungono solo il 65,9% di prestazione complessiva. Inoltre, identifichiamo notevoli disparità di prestazione tra modelli proprietari e modelli open-weight e forniamo approfondimenti sul ruolo che il pensiero esteso svolge nell'affrontare compiti complessi in domini professionali. Dati: https://huggingface.co/datasets/nvidia/ProfBench e Codice: https://github.com/NVlabs/ProfBench
Le persone vedono il testo. Gli esseri umani leggono riconoscendo le parole come oggetti visivi, inclusi le loro forme, disposizioni e modelli, prima di collegarle al significato, il che ci permette di gestire efficacemente errori di battitura, caratteri distorti e vari tipi di scrittura. I moderni modelli linguistici di grandi dimensioni (LLM), tuttavia, si basano sulla tokenizzazione a livello di sottoparola, frammentando il testo in pezzi provenienti da un vocabolario fisso. Sebbene efficace per le lingue ad alta risorsa, questo approccio sovra-segmenta le lingue a bassa risorsa, producendo sequenze lunghe e linguisticamente prive di significato e aumentando il carico computazionale. In questo lavoro, sfidiamo questo paradigma consolidato e ci muoviamo verso un'alternativa centrata sulla visione. Il nostro metodo, SeeTok, rappresenta il testo come immagini (testo visivo) e sfrutta modelli linguistici multimodali pre-addestrati per interpretarle, riutilizzando le forti capacità di riconoscimento ottico dei caratteri (OCR) e di allineamento testo-visione apprese da un addestramento multimodale su larga scala. In tre diverse attività linguistiche, SeeTok eguaglia o supera i tokenizzatori a livello di sottoparola, richiedendo 4,43 volte meno token e riducendo i FLOP del 70,5%, con ulteriori vantaggi nella generalizzazione cross-linguistica, nella robustezza al rumore tipografico e nella gerarchia linguistica. SeeTok segnala un passaggio dalla tokenizzazione simbolica a una lettura visiva simile a quella umana e compie un passo verso modelli linguistici più naturali e ispirati alla cognizione.
I modelli Text-to-Image (T2I) hanno fatto rapidi progressi, ma rimangono vulnerabili alla perdita semantica, ovvero al trasferimento involontario di caratteristiche semanticamente correlate tra entità distinte. Le strategie di mitigazione esistenti sono spesso basate sull'ottimizzazione o dipendono da input esterni. Introduciamo DeLeaker, un approccio leggero e privo di ottimizzazione al momento dell'inferenza, che mitiga la perdita intervenendo direttamente sulle mappe di attenzione del modello. Durante il processo di diffusione, DeLeaker ricalcola dinamicamente i pesi delle mappe di attenzione per sopprimere le interazioni eccessive tra entità, rafforzando al contempo l'identità di ciascuna entità. Per supportare una valutazione sistematica, introduciamo SLIM (Semantic Leakage in IMages), il primo dataset dedicato alla perdita semantica, composto da 1.130 campioni verificati manualmente che coprono scenari diversificati, insieme a un nuovo framework di valutazione automatica. Gli esperimenti dimostrano che DeLeaker supera costantemente tutti i metodi di riferimento, anche quando questi dispongono di informazioni esterne, ottenendo una mitigazione efficace della perdita senza compromettere la fedeltà o la qualità. Questi risultati sottolineano il valore del controllo dell'attenzione e aprono la strada a modelli T2I semanticamente più precisi.
Sebbene gli attacchi di inferenza di appartenenza (MIAs) e il rilevamento di testi generati da macchine perseguano obiettivi diversi, ovvero l'identificazione di campioni di addestramento e di testi sintetici, i loro metodi spesso sfruttano segnali simili basati sulla distribuzione di probabilità di un modello linguistico. Nonostante questa base metodologica condivisa, i due compiti sono stati studiati in modo indipendente, il che può portare a conclusioni che trascurano metodi più robusti e intuizioni preziose sviluppate nell'altro ambito. In questo lavoro, indaghiamo teoricamente ed empiricamente la trasferibilità, ovvero quanto bene un metodo originariamente sviluppato per un compito si presti all'altro, tra MIAs e il rilevamento di testi generati da macchine. Per il nostro contributo teorico, dimostriamo che la metrica che raggiunge le prestazioni asintoticamente più elevate in entrambi i compiti è la stessa. Unifichiamo una grande parte della letteratura esistente nel contesto di questa metrica ottimale e ipotizziamo che l'accuratezza con cui un determinato metodo approssima questa metrica sia direttamente correlata alla sua trasferibilità. I nostri esperimenti empirici su larga scala, che includono 7 metodi MIA all'avanguardia e 5 rilevatori di testi generati da macchine all'avanguardia in 13 domini e con 10 generatori, dimostrano una forte correlazione di rango (rho > 0,6) nelle prestazioni tra i compiti. Notiamo in particolare che Binoculars, originariamente progettato per il rilevamento di testi generati da macchine, raggiunge prestazioni all'avanguardia anche nei benchmark MIA, dimostrando l'impatto pratico della trasferibilità. Le nostre scoperte evidenziano la necessità di una maggiore consapevolezza e collaborazione tra le due comunità di ricerca. Per facilitare sviluppi e valutazioni eque tra i compiti, introduciamo MINT, una suite di valutazione unificata per MIAs e il rilevamento di testi generati da macchine, con l'implementazione di 15 metodi recenti di entrambi i compiti.
I trasformatori spesso non riescono a apprendere algoritmi generalizzabili, affidandosi invece a euristiche fragili. Utilizzando la connettività dei grafi come banco di prova, spieghiamo questo fenomeno sia teoricamente che empiricamente. Consideriamo un'architettura semplificata di trasformatore, il trasformatore disaccoppiato, e dimostriamo che un modello a L strati ha la capacità di risolvere grafi con diametri fino a esattamente 3^L, implementando un algoritmo equivalente al calcolo delle potenze della matrice di adiacenza. Analizziamo le dinamiche di addestramento e mostriamo che la strategia appresa dipende dal fatto che la maggior parte delle istanze di addestramento rientri o meno in questa capacità del modello. I grafi all'interno della capacità (diametro ≤ 3^L) guidano l'apprendimento di una soluzione algoritmica corretta, mentre i grafi oltre la capacità portano all'apprendimento di una semplice euristica basata sui gradi dei nodi. Infine, dimostriamo empiricamente che limitare i dati di addestramento entro la capacità del modello porta sia ai trasformatori standard che a quelli disaccoppiati a apprendere l'algoritmo esatto piuttosto che l'euristica basata sui gradi.