Articoli di ricerca IA selezionati quotidianamente con traduzioni
La relazione tra i sistemi computazionali e il cervello ha rappresentato una motivazione per i teorici pionieri fin dai tempi di John von Neumann e Alan Turing. Le reti biologiche uniformi e senza scala, come il cervello, possiedono proprietà potenti, tra cui la capacità di generalizzare nel tempo, che rappresenta il principale ostacolo per l'apprendimento automatico nel percorso verso modelli di ragionamento universale. Introduciamo `Dragon Hatchling' (BDH), una nuova architettura di Large Language Model basata su una rete biologicamente ispirata e senza scala di particelle neuronali che interagiscono localmente. BDH combina solide fondamenta teoriche e un'intrinseca interpretabilità senza sacrificare prestazioni simili a quelle dei Transformer. BDH è un'architettura pratica e performante all'avanguardia per l'apprendimento sequenziale basato su stati e attenzione. Oltre ad essere un modello a grafo, BDH ammette una formulazione ottimizzata per GPU. Mostra leggi di scala simili ai Transformer: empiricamente, BDH rivaleggia con le prestazioni di GPT2 in compiti linguistici e di traduzione, con lo stesso numero di parametri (da 10M a 1B) e gli stessi dati di addestramento. BDH può essere rappresentato come un modello cerebrale. La memoria di lavoro di BDH durante l'inferenza si basa interamente sulla plasticità sinaptica con apprendimento Hebbiano utilizzando neuroni a spiking. Confermiamo empiricamente che specifiche sinapsi individuali rafforzano le connessioni ogni volta che BDH ascolta o ragiona su un concetto specifico durante l'elaborazione degli input linguistici. La rete di interazione neuronale di BDH è un grafo ad alta modularità con una distribuzione dei gradi a coda pesante. Il modello BDH è biologicamente plausibile, spiegando un possibile meccanismo che i neuroni umani potrebbero utilizzare per produrre il linguaggio. BDH è progettato per l'interpretabilità. I vettori di attivazione di BDH sono sparsi e positivi. Dimostriamo la monosemanticità di BDH in compiti linguistici. L'interpretabilità dello stato, che va oltre l'interpretabilità dei neuroni e dei parametri del modello, è una caratteristica intrinseca dell'architettura BDH.
MCP standardizza il modo in cui i modelli linguistici di grandi dimensioni (LLM) interagiscono con sistemi esterni, costituendo la base per agenti generali. Tuttavia, gli attuali benchmark MCP rimangono limitati nell'ambito: si concentrano su attività con un'elevata componente di lettura o su compiti con una profondità di interazione limitata, e non riescono a catturare la complessità e il realismo dei flussi di lavoro del mondo reale. Per colmare questa lacuna, proponiamo MCPMark, un benchmark progettato per valutare l'uso di MCP in modo più realistico e completo. Esso consiste in 127 compiti di alta qualità creati in collaborazione da esperti di dominio e agenti di intelligenza artificiale. Ogni compito inizia con uno stato iniziale curato e include uno script programmatico per la verifica automatica. Questi compiti richiedono interazioni più ricche e diversificate con l'ambiente, coinvolgendo un'ampia gamma di operazioni di creazione, lettura, aggiornamento e cancellazione (CRUD). Eseguiamo una valutazione completa dei migliori LLM utilizzando un framework minimale per agenti che opera in un ciclo di chiamata di strumenti. I risultati empirici mostrano che il modello con le migliori prestazioni, gpt-5-medium, raggiunge solo il 52,56% di pass@1 e il 33,86% di pass^4, mentre altri modelli ampiamente considerati forti, tra cui claude-sonnet-4 e o3, si attestano al di sotto del 30% di pass@1 e del 15% di pass^4. In media, gli LLM richiedono 16,2 turni di esecuzione e 17,4 chiamate di strumenti per compito, superando significativamente quelli dei precedenti benchmark MCP e sottolineando la natura di stress test di MCPMark.
Sebbene l'apprendimento per rinforzo (RL) possa potenziare efficacemente le capacità di ragionamento dei modelli visione-linguaggio (VLMs), i metodi attuali rimangono fortemente dipendenti da dataset laboriosi che richiedono un'ampia costruzione e verifica manuale, portando a costi di formazione estremamente elevati e, di conseguenza, limitando l'implementazione pratica dei VLMs. Per affrontare questa sfida, proponiamo Vision-Zero, un framework agnostico al dominio che consente l'auto-miglioramento dei VLMs attraverso giochi visivi competitivi generati da coppie di immagini arbitrarie. Nello specifico, Vision-Zero comprende tre attributi principali: (1) Framework di Auto-Gioco Strategico: Vision-Zero addestra i VLMs in giochi in stile "Chi è la Spia", in cui i modelli si impegnano in ragionamenti e azioni strategiche attraverso più ruoli. Attraverso il gameplay interattivo, i modelli generano autonomamente i propri dati di addestramento senza annotazioni umane. (2) Gameplay da Immagini Arbitrarie: A differenza dei framework gamificati esistenti, Vision-Zero può generare giochi da immagini arbitrarie, migliorando così la capacità di ragionamento del modello in diversi domini e mostrando una forte generalizzazione su diversi compiti. Dimostriamo questa versatilità utilizzando tre tipi distinti di dataset di immagini: scene sintetiche basate su CLEVR, grafici e immagini del mondo reale. (3) Guadagno di Prestazione Sostenibile: Introduciamo l'Iterative Self-Play Policy Optimization (Iterative-SPO), un nuovo algoritmo di addestramento che alterna tra Auto-Gioco e apprendimento per rinforzo con ricompense verificabili (RLVR), mitigando il plateau di prestazione spesso osservato nell'addestramento basato esclusivamente sull'auto-gioco e ottenendo miglioramenti sostenuti a lungo termine. Nonostante l'uso di dati privi di etichette, Vision-Zero raggiunge prestazioni all'avanguardia in compiti di ragionamento, risposta a domande su grafici e comprensione centrata sulla visione, superando altri metodi basati su annotazioni. Modelli e codice sono stati rilasciati su https://github.com/wangqinsi1/Vision-Zero.
Il ragionamento è emerso come una capacità fondamentale nei Modelli Linguistici di Grande Scala (LLMs). Attraverso l'Apprendimento per Rinforzo (Reinforcement Learning, RL), tipicamente l'Ottimizzazione delle Politiche Relative al Gruppo (Group Relative Policy Optimization, GRPO), questi modelli sono in grado di risolvere compiti complessi come la matematica e la generazione di codice. Basandosi su questi progressi, ricerche recenti hanno cercato di estendere il ragionamento ai Modelli Visivo-Linguistici (Vision-Language Models, VLMs), ottenendo risultati promettenti in una vasta gamma di compiti visivi. Nonostante questi avanzamenti, il nostro studio rivela la natura duale del ragionamento multimodale: sebbene migliori sostanzialmente l'inferenza logica e faciliti le prestazioni su problemi complessi, può gradualmente compromettere il radicamento percettivo, portando a fallimenti nel riconoscimento di domande visive altrimenti basilari. Attraverso un'ulteriore analisi, attribuiamo questo fenomeno al dimenticare visivo, in cui un ragionamento prolungato induce il modello a trascurare sempre più l'input visivo. Per affrontare questo problema, proponiamo l'Ottimizzazione delle Politiche Ancorate alla Visione (Vision-Anchored Policy Optimization, VAPO), un metodo semplice ma efficace che orienta esplicitamente il processo di ragionamento verso traiettorie radicate visivamente. Il nostro modello risultante, VAPO-Thinker-7B, rafforza significativamente la dipendenza del modello dalle informazioni visive e raggiunge nuovi risultati all'avanguardia su una vasta gamma di benchmark consolidati. Pagina del progetto: https://xytian1008.github.io/VAPO/
Man mano che il fine-tuning supervisionato (SFT) evolve da un passaggio leggero post-addestramento a una fase intensiva dal punto di vista computazionale, paragonabile per scala alla fase intermedia dell'addestramento, l'efficienza dei dati è diventata cruciale per allineare i grandi modelli linguistici (LLM) con budget limitati. I metodi esistenti di pruning dei dati soffrono di una progettazione frammentata: operano isolatamente a livello di campione o di token, senza ottimizzare congiuntamente entrambe le dimensioni. Questa disconnessione porta a significative inefficienze: campioni di alto valore possono comunque contenere token ridondanti, mentre il pruning a livello di token spesso scarta segnali cruciali di istruzione o correzione incorporati in singoli esempi. Per affrontare questo collo di bottiglia, introduciamo il Piano Errore-Incertezza (EU), un framework diagnostico che caratterizza congiuntamente l'utilità eterogenea dei dati di addestramento attraverso campioni e token. Guidati da questa intuizione, proponiamo il Quadrant-based Tuning (Q-Tuning), un framework unificato che coordina strategicamente il pruning a livello di campione e di token. Q-Tuning impiega una strategia in due fasi: prima, esegue una triage a livello di campione per mantenere esempi ricchi di misconcezioni informative o segnali di calibrazione; in secondo luogo, applica una politica asimmetrica di pruning dei token, utilizzando un meccanismo di punteggio contestuale per eliminare i token meno salienti esclusivamente dai campioni di misconcezione, preservando interamente i campioni di calibrazione. Il nostro metodo stabilisce un nuovo stato dell'arte su cinque benchmark diversi. In modo notevole, su SmolLM2-1.7B, Q-Tuning ottiene un miglioramento medio del +38% rispetto alla baseline SFT con dati completi, utilizzando solo il 12,5% dei dati di addestramento originali. Come primo approccio di pruning dinamico a superare costantemente l'addestramento con dati completi, Q-Tuning fornisce una guida pratica e scalabile per massimizzare l'utilizzo dei dati nel SFT di LLM con budget limitati.
Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato prestazioni solide nel rispondere a domande fattuali, sono ancora soggetti a allucinazioni e risposte non veritiere, specialmente quando i compiti richiedono informazioni al di fuori della loro conoscenza parametrica. In effetti, la veridicità richiede più che precisione: i modelli devono anche riconoscere l'incertezza e astenersi quando non sono sicuri per evitare allucinazioni. Ciò rappresenta una sfida fondamentale per i metodi esistenti: approcci che ottimizzano per la precisione spesso amplificano le allucinazioni, mentre quelli che incoraggiano l'astensione possono diventare eccessivamente conservativi, sacrificando risposte corrette. Entrambi gli estremi compromettono alla fine la veridicità. In questo lavoro, presentiamo TruthRL, un framework generale di apprendimento per rinforzo (RL) che ottimizza direttamente la veridicità degli LLM. Nello specifico, implementiamo TruthRL utilizzando GRPO con una ricompensa ternaria semplice ma efficace che distingue risposte corrette, allucinazioni e astensioni. Incentiva i modelli a ridurre le allucinazioni non solo fornendo risposte corrette, ma anche consentendo l'astensione quando incerti, migliorando così la veridicità. Esperimenti estensivi su quattro benchmark ad alta intensità di conoscenza mostrano che, rispetto al RL standard, TruthRL riduce significativamente le allucinazioni del 28,9% e migliora la veridicità del 21,1%, con guadagni consistenti su vari modelli di base (ad esempio, Qwen, Llama) sia in configurazioni con che senza recupero di informazioni. Uno studio di ablazione approfondito dimostra che i metodi standard guidati dalla precisione, come il fine-tuning supervisionato o il RL con una ricompensa binaria, faticano a bilanciare correttezza fattuale e incertezza. Al contrario, il nostro TruthRL guidato dalla veridicità raggiunge prestazioni forti sia in termini di precisione che di veridicità, sottolineando l'importanza della progettazione degli obiettivi di apprendimento per sviluppare LLM veritieri.
I Large Language Models (LLM), nonostante siano addestrati esclusivamente su testo, sviluppano sorprendentemente ricchi prior visivi. Questi prior consentono di sbloccare capacità visive latenti per compiti di visione con una quantità relativamente piccola di dati multimodali e, in alcuni casi, di eseguire compiti visivi senza aver mai visto un'immagine. Attraverso un'analisi sistematica, riveliamo che i prior visivi - la conoscenza implicita ed emergente sul mondo visivo acquisita durante il pre-training linguistico - sono composti da prior di percezione e ragionamento separabili, con tendenze di scalabilità e origini uniche. Dimostriamo che la capacità di ragionamento visivo latente di un LLM si sviluppa principalmente attraverso il pre-training su dati incentrati sul ragionamento (ad esempio, codice, matematica, ambito accademico) e scala progressivamente. Questo prior di ragionamento acquisito dal pre-training linguistico è trasferibile e universalmente applicabile al ragionamento visivo. Al contrario, un prior di percezione emerge in modo più diffuso da corpora ampi e la capacità di percezione è più sensibile all'encoder visivo e ai dati di tuning delle istruzioni visive. Parallelamente, il testo che descrive il mondo visivo si rivela cruciale, sebbene il suo impatto sulle prestazioni si saturi rapidamente. Sfruttando queste intuizioni, proponiamo una ricetta centrata sui dati per il pre-training di LLM consapevoli della visione e la verifichiamo in un pre-training su scala di 1T di token. Le nostre scoperte sono basate su oltre 100 esperimenti controllati che hanno consumato 500.000 ore di GPU, coprendo l'intera pipeline di costruzione degli MLLM - dal pre-training degli LLM all'allineamento visivo e al fine-tuning multimodale supervisionato - attraverso cinque scale di modelli, un'ampia gamma di categorie e miscele di dati e molteplici configurazioni di adattamento. Insieme ai nostri risultati principali, proponiamo e investigiamo diverse ipotesi e introduciamo il Multi-Level Existence Bench (MLE-Bench). Insieme, questo lavoro fornisce un nuovo modo di coltivare deliberatamente prior visivi dal pre-training linguistico, aprendo la strada alla prossima generazione di LLM multimodali.
Introduciamo DC-VideoGen, un framework di accelerazione post-addestramento per la generazione efficiente di video. DC-VideoGen può essere applicato a qualsiasi modello di diffusione video pre-addestrato, migliorandone l'efficienza adattandolo a uno spazio latente di compressione profonda con un fine-tuning leggero. Il framework si basa su due innovazioni chiave: (i) un Autoencoder Video a Compressione Profonda con un design temporale chunk-causale innovativo che raggiunge una compressione spaziale di 32x/64x e temporale di 4x, preservando la qualità della ricostruzione e la generalizzazione a video più lunghi; e (ii) AE-Adapt-V, una strategia di adattamento robusta che consente un trasferimento rapido e stabile dei modelli pre-addestrati nel nuovo spazio latente. L'adattamento del modello Wan-2.1-14B pre-addestrato con DC-VideoGen richiede solo 10 giorni di GPU su una GPU NVIDIA H100. I modelli accelerati raggiungono una latenza di inferenza fino a 14,8 volte inferiore rispetto alle loro controparti base senza compromettere la qualità, e consentono ulteriormente la generazione di video 2160x3840 su una singola GPU. Codice: https://github.com/dc-ai-projects/DC-VideoGen.
Presentiamo OceanGym, il primo benchmark completo per agenti incarnati subacquei oceanici, progettato per far progredire l'IA in uno degli ambienti reali più impegnativi. A differenza dei domini terrestri o aerei, gli ambienti subacquei presentano sfide percettive e decisionali estreme, tra cui visibilità ridotta e correnti oceaniche dinamiche, rendendo il dispiegamento efficace degli agenti eccezionalmente difficile. OceanGym comprende otto domini di task realistici e un framework unificato per gli agenti guidato da Modelli Linguistici Multimodali di Grande Scala (MLLM), che integra percezione, memoria e processo decisionale sequenziale. Gli agenti devono comprendere dati ottici e sonar, esplorare autonomamente ambienti complessi e raggiungere obiettivi a lungo termine in queste condizioni avverse. Esperimenti estensivi rivelano notevoli lacune tra gli agenti all'avanguardia guidati da MLLM e gli esperti umani, evidenziando la persistente difficoltà di percezione, pianificazione e adattabilità negli ambienti subacquei oceanici. Fornendo una piattaforma ad alta fedeltà e rigorosamente progettata, OceanGym stabilisce un banco di prova per sviluppare IA incarnata robusta e trasferire queste capacità a veicoli autonomi subacquei oceanici reali, segnando un passo decisivo verso agenti intelligenti in grado di operare in una delle ultime frontiere inesplorate della Terra. Il codice e i dati sono disponibili all'indirizzo https://github.com/OceanGPT/OceanGym.
Il Reinforcement Learning con Ricompensa Verificabile (RLVR) risolve efficacemente compiti complessi ma richiede contesti estremamente lunghi durante l'addestramento, portando a costi computazionali sostanziali. Sebbene l'addestramento multi-stadio possa mitigare parzialmente questo problema, iniziare con contesti eccessivamente brevi spesso causa un degrado irreversibile delle prestazioni, fallendo nel ridurre significativamente il calcolo complessivo dell'addestramento. In questo articolo, introduciamo **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), un adattamento semplice ma efficace per RLVR che collega la distillazione a lunga Catena di Pensiero (CoT) e il RLVR standard. TFPI utilizza una semplice operazione *ThinkFree*, scartando esplicitamente il contenuto di pensiero tramite un'aggiunta diretta di *</think>*, per ridurre l'uso di token durante l'inferenza. L'addestramento con input adattati *ThinkFree* migliora le prestazioni e riduce il consumo di token, anche nella modalità originale di pensiero lento. Esperimenti estesi su vari benchmark hanno dimostrato che TFPI accelera la convergenza del RL, raggiunge un limite di prestazioni più elevato e produce modelli di ragionamento più efficienti in termini di token senza ricompense specializzate o progetti di addestramento complessi. Con il solo TFPI, abbiamo addestrato un modello da 4B per raggiungere un'accuratezza dell'89,0% su AIME24 e del 65,5% su LiveCodeBench utilizzando meno di 4K ore di H20.
I giudizi basati su Large Language Model (LLM) sfruttano potenti LLM per valutare in modo efficiente i contenuti candidati e fornire punteggi di giudizio. Tuttavia, i pregiudizi intrinseci e le vulnerabilità dei giudizi generati da LLM sollevano preoccupazioni, sottolineando la necessità urgente di distinguerli in scenari sensibili come la revisione accademica tra pari. In questo lavoro, proponiamo e formalizziamo il compito di rilevamento dei giudizi e investigiamo sistematicamente la rilevabilità dei giudizi generati da LLM. A differenza del rilevamento di testo generato da LLM, il rilevamento dei giudizi si basa esclusivamente sui punteggi di giudizio e sui candidati, riflettendo scenari reali in cui il feedback testuale è spesso assente durante il processo di rilevamento. La nostra analisi preliminare mostra che i metodi esistenti per il rilevamento di testo generato da LLM hanno prestazioni scarse a causa della loro incapacità di catturare l'interazione tra i punteggi di giudizio e il contenuto dei candidati — un aspetto cruciale per un efficace rilevamento dei giudizi. Ispirati da ciò, introduciamo J-Detector, un rilevatore neurale leggero e trasparente potenziato con caratteristiche linguistiche esplicitamente estratte e caratteristiche potenziate da LLM per collegare i pregiudizi dei giudici LLM con le proprietà dei candidati per un rilevamento accurato. Esperimenti su diversi dataset dimostrano l'efficacia di J-Detector e mostrano come la sua interpretabilità consenta di quantificare i pregiudizi nei giudici LLM. Infine, analizziamo i fattori chiave che influenzano la rilevabilità dei giudizi generati da LLM e validiamo l'utilità pratica del rilevamento dei giudizi in scenari reali.
L'affidabilità dei modelli linguistici di grandi dimensioni (LLM) durante il ridimensionamento in fase di test è spesso valutata mediante verificatori esterni o modelli di ricompensa che distinguono il ragionamento corretto dalla logica difettosa. Il lavoro precedente generalmente presuppone che i modelli di ricompensa basati sul processo (PRM), che valutano ogni passaggio intermedio del ragionamento, superino i modelli di ricompensa basati sul risultato (ORM) che valutano solo la risposta finale. Questa visione si basa principalmente su evidenze provenienti da ambiti ristretti e vicini alla matematica. Presentiamo la prima valutazione unificata di quattro varianti di modelli di ricompensa: ORM e PRM discriminativi (\DisORM, \DisPRM) e ORM e PRM generativi (\GenORM, \GenPRM), in 14 domini diversi. Contrariamente alla saggezza convenzionale, scopriamo che (i) \DisORM performa alla pari con \DisPRM, (ii) \GenPRM non è competitivo, e (iii) nel complesso, \GenORM è il più robusto, ottenendo guadagni significativi e consistenti in ogni dominio testato. Attribuiamo ciò alla valutazione passo-passo dello stile PRM, che eredita il rumore delle etichette dall'auto-etichettatura degli LLM e ha difficoltà a valutare traiettorie di ragionamento lunghe, comprese quelle che coinvolgono ragionamenti auto-correttivi. La nostra analisi teorica mostra che l'aggregazione passo-passo amplifica gli errori man mano che la lunghezza del ragionamento aumenta, e le nostre osservazioni empiriche confermano questo effetto. Questi risultati sfidano l'assunzione prevalente che una supervisione fine sia sempre migliore e supportano la verifica generativa del risultato per il dispiegamento in più domini. Rilasciamo pubblicamente il nostro codice, dataset e checkpoint su https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} per facilitare la ricerca futura in contesti multi-dominio.
Panorama ha un campo visivo completo (360^circtimes180^circ), offrendo una descrizione visiva più completa rispetto alle immagini prospettiche. Grazie a questa caratteristica, la stima della profondità panoramica sta guadagnando sempre più attenzione nella visione 3D. Tuttavia, a causa della scarsità di dati panoramici, i metodi precedenti sono spesso limitati a contesti in-domain, portando a una scarsa generalizzazione zero-shot. Inoltre, a causa delle distorsioni sferiche intrinseche nei panorami, molti approcci si basano sulla suddivisione prospettica (ad esempio, cubemap), che porta a un'efficienza subottimale. Per affrontare queste sfide, proponiamo DA^{2}: Depth Anything in Any Direction, un stimatore di profondità panoramico accurato, generalizzabile zero-shot e completamente end-to-end. Nello specifico, per aumentare i dati panoramici, introduciamo un motore di curatela dei dati per generare dati di profondità panoramici di alta qualità a partire da immagini prospettiche, creando sim543K coppie RGB-profondità panoramiche, portando il totale a sim607K. Per mitigare ulteriormente le distorsioni sferiche, presentiamo SphereViT, che sfrutta esplicitamente le coordinate sferiche per rafforzare la coerenza geometrica sferica nelle caratteristiche delle immagini panoramiche, ottenendo prestazioni migliorate. Un benchmark completo su più dataset dimostra chiaramente le prestazioni SoTA di DA^{2}, con un miglioramento medio del 38% su AbsRel rispetto al più forte baseline zero-shot. Sorprendentemente, DA^{2} supera persino i precedenti metodi in-domain, evidenziando la sua superiore generalizzazione zero-shot. Inoltre, come soluzione end-to-end, DA^{2} mostra un'efficienza molto maggiore rispetto agli approcci basati su fusione. Sia il codice che i dati panoramici curati saranno rilasciati. Pagina del progetto: https://depth-any-in-any-dir.github.io/.
Le straordinarie capacità dei moderni modelli di ragionamento su larga scala sono in gran parte sbloccate attraverso tecniche di post-addestramento come il fine-tuning supervisionato e l'apprendimento per rinforzo. Tuttavia, i meccanismi architetturali alla base di tali miglioramenti rimangono in gran parte opachi. In questo lavoro, utilizziamo l'analisi dei circuiti per dimostrare che il post-addestramento per il ragionamento complesso innesca l'emergere di nuove teste di attenzione funzionalmente specializzate. Queste teste supportano collettivamente il ragionamento strutturato e il calcolo. La nostra analisi comparativa tra le famiglie Qwen e il modello DeepSeek-distilled rivela che queste teste emergenti si evolvono in modo diverso sotto diversi regimi di addestramento. La distillazione e il fine-tuning supervisionato favoriscono un'aggiunta cumulativa di teste di ragionamento stabili. Al contrario, l'ottimizzazione relativa delle politiche di gruppo opera in una modalità di ricerca dinamica: relativamente poche teste di attenzione vengono attivate, valutate e potate in modo iterativo, con la loro sopravvivenza che segue da vicino le fluttuazioni del segnale di ricompensa del compito. Inoltre, scopriamo che i modelli controllabili con attivazione/disattivazione del pensiero non possiedono teste di pensiero dedicate. Invece, la disattivazione del ragionamento esplicito attiva un insieme più ampio, ma meno efficiente, di teste compensatorie. Attraverso analisi di ablazione e qualitative, colleghiamo queste dinamiche a livello di circuito a un cruciale compromesso di prestazioni: teste rafforzate abilitano strategie di problem-solving sofisticate per problemi difficili, ma possono anche introdurre modalità di fallimento da eccesso di pensiero, come errori di calcolo o loop logici su compiti più semplici. Questi risultati collegano le dinamiche a livello di circuito alle prestazioni a livello macro, identificando una tensione intrinseca in cui il ragionamento complesso avviene a scapito di calcoli elementari. Più in generale, il nostro lavoro indica future direzioni per la progettazione delle politiche di addestramento, sottolineando la necessità di bilanciare lo sviluppo di strategie di ragionamento efficaci con la garanzia di un'esecuzione affidabile e impeccabile.
Man mano che gli agenti basati su LLM vengono sempre più impiegati in scenari reali, i benchmark esistenti non riescono a catturare la loro intrinseca complessità nel gestire informazioni estese, sfruttare risorse diversificate e gestire interazioni dinamiche con gli utenti. Per colmare questa lacuna, introduciamo VitaBench, un benchmark impegnativo che valuta gli agenti su compiti interattivi versatili radicati in contesti reali. Traendo spunto da applicazioni quotidiane come la consegna di cibo, il consumo in negozio e i servizi di viaggio online, VitaBench presenta agli agenti l'ambiente di simulazione più complesso mai realizzato per servizi legati alla vita quotidiana, comprendente 66 strumenti. Attraverso un framework che elimina politiche specifiche per dominio, consentiamo una composizione flessibile di questi scenari e strumenti, producendo 100 task cross-scenario (risultati principali) e 300 task single-scenario. Ogni task è derivato da molteplici richieste reali degli utenti e richiede agli agenti di ragionare attraverso dimensioni temporali e spaziali, utilizzare set di strumenti complessi, chiarire proattivamente istruzioni ambigue e monitorare l'intento mutevole dell'utente durante conversazioni multi-turn. Inoltre, proponiamo un valutatore basato su rubriche con finestra scorrevole, che consente una valutazione robusta di percorsi di soluzione diversi in ambienti complessi e interazioni stocastiche. La nostra valutazione completa rivela che anche i modelli più avanzati raggiungono solo un tasso di successo del 30% sui task cross-scenario e meno del 50% su altri. Nel complesso, crediamo che VitaBench servirà come una risorsa preziosa per far progredire lo sviluppo di agenti AI in applicazioni pratiche del mondo reale. Il codice, il dataset e la classifica sono disponibili su https://vitabench.github.io/
La generazione di video da immagini ha compiuto progressi significativi con i recenti sviluppi nei modelli di diffusione, ma la creazione di video con movimenti realistici rimane una sfida complessa. Questa difficoltà deriva dalla complessità nel modellare accuratamente il movimento, che implica la cattura di vincoli fisici, interazioni tra oggetti e dinamiche specifiche del dominio che non sono facilmente generalizzabili in scenari diversi. Per affrontare questo problema, proponiamo MotionRAG, un framework potenziato dal retrieval che migliora il realismo del movimento adattando prior di movimento da video di riferimento rilevanti attraverso l'Adattamento Contestuale del Movimento (CAMA). Le principali innovazioni tecniche includono: (i) una pipeline basata su retrieval che estrae caratteristiche di movimento di alto livello utilizzando un encoder video e resampler specializzati per distillare rappresentazioni semantiche del movimento; (ii) un approccio di apprendimento in-context per l'adattamento del movimento implementato attraverso un'architettura transformer causale; (iii) un adattatore basato su attenzione per l'iniezione del movimento che integra in modo fluido le caratteristiche di movimento trasferite nei modelli di diffusione video pre-addestrati. Esperimenti estensivi dimostrano che il nostro metodo ottiene miglioramenti significativi in molteplici domini e su vari modelli di base, con un sovraccarico computazionale trascurabile durante l'inferenza. Inoltre, il design modulare consente una generalizzazione zero-shot a nuovi domini semplicemente aggiornando il database di retrieval senza dover riaddestrare alcun componente. Questa ricerca potenzia la capacità fondamentale dei sistemi di generazione video, abilitando il recupero e il trasferimento efficace di prior di movimento e facilitando la sintesi di dinamiche di movimento realistiche.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente attirato notevole attenzione all'interno della comunità di ricerca come una promettente alternativa alla generazione autoregressiva, offrendo previsioni parallele di token e una minore latenza di inferenza. Tuttavia, il loro potenziale di decodifica parallela rimane in gran parte inesplorato, poiché i modelli open-source esistenti richiedono ancora un numero di passaggi di decodifica quasi pari alla lunghezza del token per garantire le prestazioni. Per affrontare questo problema, introduciamo dParallel, un metodo semplice ed efficace che sblocca il parallelismo intrinseco dei dLLM per un campionamento rapido. Identifichiamo che il principale collo di bottiglia per la decodifica parallela deriva dalla convergenza sequenziale della certezza per i token mascherati. Basandoci su questa intuizione, introduciamo il cuore del nostro approccio: la distillazione forzata della certezza, una nuova strategia di addestramento che distilla il modello per seguire le sue traiettorie di campionamento originali mentre lo obbliga a raggiungere un'elevata certezza sui token mascherati più rapidamente e in parallelo. Esperimenti estesi su vari benchmark dimostrano che il nostro metodo può ridurre drasticamente il numero di passaggi di decodifica mantenendo le prestazioni. Quando applicato al modello LLaDA-8B-Instruct, dParallel riduce i passaggi di decodifica da 256 a 30 su GSM8K, ottenendo un'accelerazione di 8,5x senza degradazione delle prestazioni. Sul benchmark MBPP, riduce i passaggi di decodifica da 256 a 24, ottenendo un'accelerazione di 10,5x mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://github.com/czg1225/dParallel.
L'ottimizzatore Muon è costantemente più veloce di Adam nell'addestramento di Large Language Models (LLMs), ma il meccanismo alla base del suo successo rimane poco chiaro. Questo articolo chiarisce tale meccanismo attraverso la lente della memoria associativa. Ablendo i componenti del transformer ottimizzati da Muon, riveliamo che i parametri della memoria associativa degli LLMs, ovvero i pesi di attenzione Value e Output (VO) e le Feed-Forward Networks (FFNs), sono i principali contributori alla superiorità di Muon. Motivati da questa visione della memoria associativa, spieghiamo poi la superiorità di Muon su corpora reali, che sono intrinsecamente a coda pesante: alcune classi (classi di coda) appaiono molto meno frequentemente rispetto ad altre. La superiorità è spiegata attraverso due proprietà chiave: (i) la sua regola di aggiornamento produce costantemente uno spettro singolare più isotropo rispetto a Adam; e di conseguenza, (ii) su dati a coda pesante, ottimizza le classi di coda in modo più efficace rispetto a Adam. Oltre alle evidenze empiriche, confermiamo teoricamente questi risultati analizzando un modello di memoria associativa a un livello con dati sbilanciati per classe. Dimostriamo che Muon raggiunge costantemente un apprendimento bilanciato tra le classi indipendentemente dagli embedding delle feature, mentre Adam può indurre grandi disparità negli errori di apprendimento a seconda delle proprietà degli embedding. In sintesi, le nostre osservazioni empiriche e analisi teoriche rivelano il vantaggio fondamentale di Muon: la sua regola di aggiornamento si allinea con la struttura a prodotto esterno delle memorie associative lineari, consentendo un apprendimento più bilanciato ed efficace delle classi di coda in distribuzioni a coda pesante rispetto a Adam.
Garantire un allineamento multimodale preciso tra le immagini generate tramite diffusione e i prompt di input è stata una sfida di lunga data. I lavori precedenti ottimizzano i pesi della diffusione utilizzando dati di preferenza di alta qualità, che tendono a essere limitati e difficili da scalare. I metodi recenti basati sull'editing perfezionano ulteriormente le regioni locali delle immagini generate, ma possono compromettere la qualità complessiva dell'immagine. In questo lavoro, proponiamo Implicit Multimodal Guidance (IMG), un innovativo framework di allineamento multimodale basato sulla rigenerazione che non richiede dati aggiuntivi o operazioni di editing. Nello specifico, data un'immagine generata e il suo prompt, IMG a) utilizza un modello linguistico multimodale di grandi dimensioni (MLLM) per identificare i disallineamenti; b) introduce un Implicit Aligner che manipola le caratteristiche di condizionamento della diffusione per ridurre i disallineamenti e consentire la rigenerazione; e c) formula l'obiettivo di riallineamento in un obiettivo addestrabile, denominato Iteratively Updated Preference Objective. Valutazioni qualitative e quantitative estensive su SDXL, SDXL-DPO e FLUX dimostrano che IMG supera i metodi di allineamento esistenti. Inoltre, IMG funziona come un adattatore plug-and-play flessibile, migliorando senza soluzione di continuità i metodi di allineamento basati su ottimizzazione precedenti. Il nostro codice sarà disponibile all'indirizzo https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
Gli esseri umani possono identificare i video generati dall'IA (falsi) e fornire motivazioni fondate? Sebbene i modelli di generazione video abbiano fatto rapidi progressi, una dimensione critica -- se gli esseri umani possano rilevare tracce di deepfake all'interno di un video generato, ovvero artefatti visivi spaziotemporali fondati che rivelano un video come generato da una macchina -- è stata ampiamente trascurata. Introduciamo DeeptraceReward, il primo benchmark granulare, consapevole a livello spaziale e temporale, che annota le tracce percepite come false dagli esseri umani per la ricompensa nella generazione video. Il dataset comprende 4.3K annotazioni dettagliate su 3.3K video generati di alta qualità. Ogni annotazione fornisce una spiegazione in linguaggio naturale, individua una regione delimitata da un riquadro contenente la traccia percepita e segna i timestamp precisi di inizio e fine. Consolidiamo queste annotazioni in 9 categorie principali di tracce deepfake che portano gli esseri umani a identificare un video come generato dall'IA, e addestriamo modelli linguistici multimodali (LMs) come modelli di ricompensa per imitare i giudizi e le localizzazioni umane. Su DeeptraceReward, il nostro modello di ricompensa da 7B supera GPT-5 del 34.7% in media nell'identificazione degli indizi falsi, nel fondamento e nella spiegazione. È interessante notare che osserviamo un gradiente di difficoltà costante: la classificazione binaria falso contro reale è sostanzialmente più semplice rispetto al rilevamento granulare delle tracce deepfake; all'interno di quest'ultimo, le prestazioni diminuiscono dalle spiegazioni in linguaggio naturale (più facili), al fondamento spaziale, fino all'etichettatura temporale (più difficile). Mettendo in primo piano le tracce deepfake percepite dagli esseri umani, DeeptraceReward fornisce un banco di prova rigoroso e un segnale di addestramento per una generazione video socialmente consapevole e affidabile.
Mentre i precedenti sistemi di AI Scientist possono generare scoperte innovative, spesso mancano della focalizzazione necessaria per produrre contributi scientificamente preziosi che affrontino sfide urgenti definite dall'uomo. Introduciamo DeepScientist, un sistema progettato per superare questo limite conducendo scoperte scientifiche completamente autonome e orientate a obiettivi su scale temporali mensili. Esso formalizza la scoperta come un problema di Ottimizzazione Bayesiana, operazionalizzato attraverso un processo di valutazione gerarchico composto da "ipotesi, verifica e analisi". Sfruttando una Memoria Cumulativa delle Scoperte, questo ciclo bilancia in modo intelligente l'esplorazione di nuove ipotesi con lo sfruttamento delle conoscenze, promuovendo selettivamente i risultati più promettenti a livelli di validazione di maggiore fedeltà. Consumando oltre 20.000 ore di GPU, il sistema ha generato circa 5.000 idee scientifiche uniche e ne ha validate sperimentalmente circa 1.100, superando infine i metodi all'avanguardia (SOTA) progettati dall'uomo in tre compiti di frontiera dell'IA rispettivamente del 183,7%, 1,9% e 7,9%. Questo lavoro fornisce la prima prova su larga scala di un'IA che raggiunge scoperte che superano progressivamente lo SOTA umano in compiti scientifici, producendo risultati preziosi che spingono genuinamente la frontiera della scoperta scientifica. Per facilitare ulteriori ricerche su questo processo, renderemo open-source tutti i log sperimentali e il codice del sistema all'indirizzo https://github.com/ResearAI/DeepScientist/.
Studiamo la regressione da codice a metrica: la previsione di risultati numerici derivanti dall'esecuzione di codice, un compito impegnativo a causa della natura aperta dei linguaggi di programmazione. Mentre i metodi precedenti hanno fatto ricorso a un'ingegnerizzazione di caratteristiche complessa e specifica per dominio, dimostriamo che un singolo modello di linguaggio per regressione (Regression Language Model, RLM) unificato può prevedere direttamente dal testo: (i) l'impronta di memoria del codice in più linguaggi di alto livello come Python e C++, (ii) la latenza dei kernel GPU Triton, e (iii) l'accuratezza e la velocità di reti neurali addestrate rappresentate in ONNX. In particolare, un RLM relativamente piccolo da 300 milioni di parametri, inizializzato da T5Gemma, ottiene un coefficiente di Spearman > 0,9 su submission di programmazione competitiva provenienti da APPS, e un singolo modello unificato raggiunge una media di Spearman > 0,5 su 17 linguaggi separati di CodeNet. Inoltre, l'RLM può ottenere il più alto valore medio di Kendall-Tau pari a 0,46 su cinque classici spazi di progettazione NAS precedentemente dominati da reti neurali grafiche, e prevedere simultaneamente le latenze delle architetture su numerose piattaforme hardware.
I modelli linguistici di grandi dimensioni (LLM) sono limitati da finestre di contesto ristrette, rendendo necessari sistemi di memoria esterni per la comprensione di informazioni a lungo termine. Gli attuali agenti potenziati dalla memoria dipendono tipicamente da istruzioni predefinite e strumenti per l'aggiornamento della memoria. Tuttavia, i modelli linguistici potrebbero non essere in grado di determinare quali informazioni memorizzare, come strutturarle e quando aggiornarle, specialmente man mano che i sistemi di memoria diventano più complessi. Ciò porta a una costruzione subottimale della memoria e a una perdita di informazioni. A tal fine, proponiamo Mem-alpha, un framework di apprendimento per rinforzo che addestra gli agenti a gestire efficacemente sistemi di memoria complessi attraverso l'interazione e il feedback. Costruiamo inoltre un dataset di addestramento specializzato che copre diversi modelli di interazione multi-turn, abbinati a domande di valutazione complete progettate per insegnare una gestione efficace della memoria. Durante l'addestramento, gli agenti elaborano sequenze di informazioni, imparano a estrarre e memorizzare contenuti rilevanti, quindi aggiornano il sistema di memoria. Il segnale di ricompensa deriva dall'accuratezza nella risposta alle domande sull'intera cronologia delle interazioni, ottimizzando direttamente la costruzione della memoria. Per dimostrare l'efficacia del nostro framework di addestramento, progettiamo un'architettura di memoria composta da componenti centrali, episodiche e semantiche, dotata di più strumenti per le operazioni di memoria. La valutazione empirica dimostra che Mem-alpha ottiene miglioramenti significativi rispetto ai baseline esistenti di agenti potenziati dalla memoria. Nonostante sia stato addestrato esclusivamente su istanze con una lunghezza massima di 30k token, i nostri agenti mostrano una notevole generalizzazione a sequenze che superano i 400k token, oltre 13 volte la lunghezza di addestramento, evidenziando la robustezza di Mem-alpha.
Le moderne Reti Neurali Ricorrenti sono diventate un'architettura competitiva per la ricostruzione 3D grazie alla loro complessità lineare nel tempo. Tuttavia, le loro prestazioni si degradano significativamente quando applicate oltre la lunghezza del contesto di addestramento, rivelando una limitata generalizzazione in termini di lunghezza. In questo lavoro, riprendiamo i modelli di base per la ricostruzione 3D da una prospettiva di Addestramento al Tempo di Test, inquadrando i loro progetti come un problema di apprendimento online. Basandoci su questa prospettiva, sfruttiamo la confidenza di allineamento tra lo stato della memoria e le osservazioni in arrivo per derivare un tasso di apprendimento in forma chiusa per gli aggiornamenti della memoria, bilanciando tra la conservazione delle informazioni storiche e l'adattamento alle nuove osservazioni. Questo intervento privo di addestramento, denominato TTT3R, migliora sostanzialmente la generalizzazione in termini di lunghezza, ottenendo un miglioramento di 2 volte nella stima della posa globale rispetto ai baseline, operando a 20 FPS con soli 6 GB di memoria GPU per elaborare migliaia di immagini. Il codice è disponibile su https://rover-xingyu.github.io/TTT3R.
I metodi di separazione audio-visiva del parlato (AVSS) sfruttano i segnali visivi per estrarre il parlato target e hanno dimostrato una qualità di separazione elevata in ambienti acustici rumorosi. Tuttavia, questi metodi di solito coinvolgono un numero elevato di parametri e richiedono un costo computazionale significativo, il che è inaccettabile in molte applicazioni in cui la separazione del parlato funge solo da fase di pre-elaborazione per ulteriori elaborazioni del parlato. Per affrontare questo problema, proponiamo un metodo AVSS efficiente, denominato Dolphin. Per l'estrazione delle caratteristiche visive, abbiamo sviluppato DP-LipCoder, un codificatore video leggero a doppio percorso che trasforma il movimento delle labbra in token semantici discreti allineati all'audio. Per la separazione audio, abbiamo costruito un separatore leggero encoder-decoder, in cui ogni livello incorpora un blocco di attenzione globale-locale (GLA) per catturare in modo efficiente le dipendenze multi-scala. Gli esperimenti su tre dataset di riferimento hanno dimostrato che Dolphin non solo ha superato il modello state-of-the-art (SOTA) attuale in termini di qualità di separazione, ma ha anche ottenuto miglioramenti significativi in termini di efficienza: oltre il 50% in meno di parametri, una riduzione di oltre 2,4x nelle operazioni MAC e una velocità di inferenza su GPU più di 6 volte più veloce. Questi risultati indicano che Dolphin offre una soluzione pratica e implementabile per l'AVSS ad alte prestazioni in scenari reali. Il nostro codice e la pagina demo sono disponibili pubblicamente all'indirizzo http://cslikai.cn/Dolphin/.
Il Reinforcement Learning (RL) ha dimostrato un notevole successo nel potenziare le capacità di ragionamento dei Large Language Models (LLMs). Il Process-Supervised RL (PSRL) è emerso come un paradigma più efficace rispetto al RL basato sui risultati. Tuttavia, gli approcci PSRL esistenti soffrono di una limitata efficienza nell'esplorazione, sia in termini di posizioni di ramificazione che di campionamento. In questo articolo, introduciamo un nuovo framework PSRL (AttnRL), che consente un'esplorazione efficiente per i modelli di ragionamento. Motivati da osservazioni preliminari che mostrano come i passaggi con punteggi di attenzione elevati siano correlati a comportamenti di ragionamento, proponiamo di ramificare dalle posizioni con valori alti. Inoltre, sviluppiamo una strategia di campionamento adattativa che tiene conto della difficoltà del problema e della dimensione storica del batch, garantendo che l'intero batch di training mantenga valori di vantaggio non nulli. Per migliorare ulteriormente l'efficienza del campionamento, progettiamo una pipeline di training off-policy a un passo per il PSRL. Esperimenti estesi su molteplici benchmark di ragionamento matematico dimostrano che il nostro metodo supera costantemente gli approcci precedenti in termini di prestazioni, efficienza di campionamento e di training.
L'allineamento online (ad esempio, GRPO) è generalmente più performante rispetto all'allineamento offline (ad esempio, DPO) — ma perché? Attingendo alla teoria del prospetto dell'economia comportamentale, proponiamo una spiegazione incentrata sull'essere umano. Dimostriamo che il campionamento on-policy online approssima meglio la distribuzione percepita dagli esseri umani di ciò che il modello può produrre, e il clipping in stile PPO/GRPO — introdotto originariamente per stabilizzare l'addestramento — recupera un bias percettivo nel modo in cui gli esseri umani percepiscono la probabilità. In questo senso, PPO/GRPO agiscono già come perdite percettive. La nostra teoria suggerisce inoltre che la dicotomia online/offline è di per sé incidentale per massimizzare l'utilità umana, poiché possiamo ottenere lo stesso effetto addestrandoci selettivamente su qualsiasi dato in modo che mimi la percezione umana, piuttosto che limitarci ai dati on-policy online. Questo ci permetterebbe di effettuare post-addestramenti in modo più rapido, economico e flessibile senza sacrificare le prestazioni. A tal fine, proponiamo un modello di progettazione che incorpora esplicitamente le distorsioni percettive della probabilità in obiettivi come DPO/KTO/GRPO, creando varianti "humanline" di essi. Sorprendentemente, scopriamo che queste varianti humanline, anche quando addestrate con dati offline off-policy, possono eguagliare le prestazioni delle loro controparti online sia su compiti verificabili che non verificabili.
La costruzione di agenti basati su modelli linguistici di grandi dimensioni che espandono le proprie capacità interagendo con strumenti esterni rappresenta una nuova frontiera nella ricerca e nelle applicazioni dell'IA. In questo articolo, presentiamo InfoAgent, un agente di ricerca avanzato alimentato da una pipeline innovativa di sintesi dei dati e orchestrato con strumenti di ricerca web. Per costruire query complesse e difficili da trovare, creiamo alberi di entità e applichiamo il campionamento di sotto-alberi con fuzzificazione delle entità per aumentare sistematicamente la difficoltà delle domande. A differenza dei lavori precedenti che si basano pesantemente su strumenti di ricerca commerciali, sviluppiamo un'infrastruttura di ricerca self-hosted dedicata, migliorando la trasparenza degli ambienti degli agenti e facilitando ulteriori progressi nella capacità degli agenti. Valutiamo l'efficacia della nostra pipeline di dati misurando il numero medio di chiamate agli strumenti necessarie per rispondere correttamente a una domanda e dimostriamo anche che il nostro agente ottiene prestazioni migliori quando equipaggiato con i nostri strumenti. Il nostro InfoAgent è post-addestrato a partire da Qwen3-14B utilizzando una ricetta in due fasi: un fine-tuning supervisionato in modalità cold-start per instillare comportamenti di ricerca a lungo termine, seguito da apprendimento per rinforzo che migliora significativamente l'uso degli strumenti guidati dal ragionamento. Con i nostri metodi, InfoAgent raggiunge un'accuratezza del 15,3\% su BrowseComp, del 29,2\% su BrowseComp-ZH e del 40,4\% su Xbench-DS, superando i precedenti agenti di ricerca avanzati open-source come WebSailor-72B e DeepDive-32B.
La sicurezza dei Large Language Model (LLM) è una delle sfide più urgenti per abilitare un dispiegamento su larga scala. Mentre la maggior parte degli studi e delle discussioni globali si concentra su danni generici, come l'assistenza fornita dai modelli agli utenti per danneggiare sé stessi o altri, le aziende affrontano una preoccupazione più fondamentale: se gli agenti basati su LLM siano sicuri per il loro caso d'uso specifico. Per affrontare questo problema, introduciamo il concetto di sicurezza operativa, definita come la capacità di un LLM di accettare o rifiutare in modo appropriato le query degli utenti quando è incaricato di uno scopo specifico. Proponiamo inoltre OffTopicEval, una suite di valutazione e benchmark per misurare la sicurezza operativa sia in generale che all'interno di specifici casi d'uso agentici. Le nostre valutazioni su sei famiglie di modelli che comprendono 20 LLM open-weight rivelano che, sebbene le prestazioni varino tra i modelli, tutti rimangono altamente insicuri dal punto di vista operativo. Anche i modelli più forti — Qwen-3 (235B) con il 77,77% e Mistral (24B) con il 79,96% — sono ben lontani da una sicurezza operativa affidabile, mentre i modelli GPT si attestano in un intervallo del 62-73%, Phi raggiunge solo punteggi intermedi (48-70%), e Gemma e Llama-3 crollano rispettivamente al 39,53% e al 23,84%. Sebbene la sicurezza operativa sia un problema centrale di allineamento del modello, per sopprimere questi fallimenti proponiamo metodi di guida basati su prompt: il grounding delle query (Q-ground) e il grounding dei prompt di sistema (P-ground), che migliorano sostanzialmente il rifiuto OOD. Q-ground fornisce guadagni consistenti fino al 23%, mentre P-ground offre incrementi ancora maggiori, aumentando Llama-3.3 (70B) del 41% e Qwen-3 (30B) del 27%. Questi risultati evidenziano sia l'urgente necessità di interventi sulla sicurezza operativa sia la promessa della guida basata su prompt come primo passo verso agenti basati su LLM più affidabili.
I recenti metodi di apprendimento per rinforzo (RL) hanno notevolmente migliorato le capacità di pianificazione dei Modelli Linguistici di Grande Dimensione (LLMs), tuttavia la base teorica della loro efficacia rimane elusiva. In questo lavoro, investigiamo i benefici e i limiti dell'RL attraverso un'astrazione trattabile basata su grafi, concentrandoci sui metodi di policy gradient (PG) e Q-learning. Le nostre analisi teoriche rivelano che il fine-tuning supervisionato (SFT) può introdurre soluzioni spurie basate sulla co-occorrenza, mentre l'RL raggiunge una pianificazione corretta principalmente attraverso l'esplorazione, sottolineando il ruolo dell'esplorazione nel consentire una migliore generalizzazione. Tuttavia, mostriamo anche che il PG soffre di collasso della diversità, dove la diversità degli output diminuisce durante l'addestramento e persiste anche dopo aver raggiunto un'accuratezza perfetta. Al contrario, il Q-learning offre due vantaggi chiave: apprendimento off-policy e preservazione della diversità alla convergenza. Dimostriamo inoltre che un'attenta progettazione della ricompensa è necessaria per prevenire il reward hacking nel Q-learning. Infine, applicando il nostro framework al benchmark di pianificazione del mondo reale Blocksworld, confermiamo che questi comportamenti si manifestano nella pratica.
La proliferazione di modelli linguistici di grandi dimensioni (LLM) open source sta favorendo un ecosistema vivace di ricerca e innovazione nell'intelligenza artificiale (IA). Tuttavia, i metodi di collaborazione utilizzati per sviluppare LLM open source, sia prima che dopo il loro rilascio pubblico, non sono ancora stati studiati in modo esaustivo, limitando la nostra comprensione di come i progetti di LLM open source vengano avviati, organizzati e governati, nonché delle opportunità esistenti per favorire ulteriormente questo ecosistema. Colmiamo questa lacuna attraverso un'analisi esplorativa della collaborazione aperta lungo l'intero ciclo di vita dello sviluppo e del riutilizzo degli LLM open source, basandoci su interviste semi-strutturate con gli sviluppatori di 14 LLM open source provenienti da progetti grassroots, istituti di ricerca, startup e grandi aziende tecnologiche in Nord America, Europa, Africa e Asia. Forniamo tre contributi chiave alla ricerca e alla pratica. In primo luogo, la collaborazione nei progetti di LLM open source si estende ben oltre gli LLM stessi, comprendendo dataset, benchmark, framework open source, classifiche, forum di condivisione di conoscenze e discussioni, e partnership di calcolo, tra gli altri. In secondo luogo, gli sviluppatori di LLM open source hanno una varietà di motivazioni sociali, economiche e tecnologiche, dalla democratizzazione dell'accesso all'IA e la promozione della scienza aperta alla costruzione di ecosistemi regionali e all'ampliamento della rappresentazione linguistica. In terzo luogo, i progetti di LLM open source campionati mostrano cinque distinti modelli organizzativi, che vanno da progetti di singole aziende a progetti grassroots sponsorizzati da organizzazioni non profit, i quali variano nella centralizzazione del controllo e nelle strategie di coinvolgimento della comunità utilizzate lungo l'intero ciclo di vita degli LLM open source. Concludiamo con raccomandazioni pratiche per le parti interessate che cercano di sostenere la comunità globale nella costruzione di un futuro più aperto per l'IA.
La comprensione visiva di base è davvero risolta nei modelli linguistici visivi (VLMs) all'avanguardia? Presentiamo VisualOverload, un benchmark leggermente diverso per il task di risposta a domande visive (VQA), composto da 2.720 coppie domanda-risposta, con risposte di riferimento mantenute private. A differenza dei precedenti dataset VQA che tipicamente si concentrano su una comprensione quasi globale dell'immagine, VisualOverload mette alla prova i modelli nell'esecuzione di semplici task visivi, privi di conoscenza contestuale, in scene densamente popolate (o "sovraccariche"). Il nostro dataset è costituito da scansioni ad alta risoluzione di dipinti di dominio pubblico, popolati da molteplici figure, azioni e sottotrame in sviluppo, ambientati su sfondi elaborati e dettagliati. Abbiamo annotato manualmente queste immagini con domande appartenenti a sei categorie di task, per sondare una comprensione approfondita della scena. Ipotesizziamo che i benchmark attuali sovrastimino le prestazioni dei VLMs, e che la codifica e il ragionamento sui dettagli rimangano un compito impegnativo per questi modelli, specialmente quando si confrontano con scene densamente popolate. Infatti, osserviamo che anche il miglior modello (o3) tra i 37 testati raggiunge solo il 19,6% di accuratezza sul nostro test split più difficile e un'accuratezza complessiva del 69,5% su tutte le domande. Oltre a una valutazione approfondita, integriamo il nostro benchmark con un'analisi degli errori che rivela molteplici modalità di fallimento, tra cui una carenza nelle abilità di conteggio, errori nel riconoscimento ottico dei caratteri (OCR) e sorprendenti incongruenze logiche in task complessi. Nel complesso, VisualOverload mette in luce una lacuna critica nei modelli visivi attuali e offre una risorsa cruciale per la comunità per sviluppare modelli migliori. Benchmark: http://paulgavrikov.github.io/visualoverload
Presentiamo Voice Evaluation of Reasoning Ability (VERA), un benchmark per valutare la capacità di ragionamento nei sistemi interattivi vocali sotto i vincoli di conversazione in tempo reale. VERA comprende 2.931 episodi nativi vocali derivati da benchmark testuali consolidati e organizzati in cinque tracce (Matematica, Web, Scienza, Contesto Lungo, Fattuale). Ogni elemento è adattato per l'interazione vocale mantenendo la difficoltà di ragionamento. VERA consente un confronto diretto testo-voce all'interno delle famiglie di modelli e supporta l'analisi di come le scelte architetturali influenzino l'affidabilità. Valutiamo 12 sistemi vocali contemporanei insieme a solidi baseline testuali e osserviamo ampi e consistenti gap di modalità: nella matematica competitiva, un modello testuale leader raggiunge il 74,8% di accuratezza mentre la sua controparte vocale arriva al 6,1%; in media macro tra le tracce, i migliori modelli testuali raggiungono il 54,0% contro l'11,3% dei modelli vocali. Le analisi latenza-accuratezza rivelano un plateau a bassa latenza, dove i sistemi vocali veloci si raggruppano intorno al ~10% di accuratezza, mentre avvicinarsi alle prestazioni testuali richiede di sacrificare l'interazione in tempo reale. Esperimenti diagnostici indicano che le mitigazioni comuni sono insufficienti. Aumentare il "tempo di pensiero" produce guadagni trascurabili; una cascata disaccoppiata che separa il ragionamento dalla narrazione migliora l'accuratezza ma rimane ben al di sotto del testo e introduce errori caratteristici di grounding/consistenza. Le analisi dei fallimenti mostrano inoltre firme di errore distinte tra i design nativi di streaming, end-to-end e a cascata. VERA fornisce un banco di prova riproducibile e diagnostiche mirate per architetture che disaccoppiano il pensiero dal parlare, offrendo un modo strutturato per misurare i progressi verso assistenti vocali in tempo reale che siano sia fluenti che affidabilmente ragionati.
Lo sviluppo di agenti autonomi che interagiscono efficacemente con le interfacce grafiche (GUI) rimane un problema aperto e impegnativo, specialmente per i modelli di piccole dimensioni eseguiti direttamente sui dispositivi. In questo articolo, presentiamo Ferret-UI Lite, un agente GUI compatto e end-to-end che opera su diverse piattaforme, inclusi dispositivi mobili, web e desktop. Utilizzando tecniche ottimizzate per lo sviluppo di modelli di piccole dimensioni, abbiamo costruito il nostro agente Ferret-UI Lite da 3B attraverso la creazione di un insieme diversificato di dati GUI provenienti da fonti reali e sintetiche, il potenziamento delle prestazioni in fase di inferenza mediante il ragionamento a catena di pensiero e l'uso di strumenti visivi, e l'apprendimento per rinforzo con ricompense progettate. Ferret-UI Lite raggiunge prestazioni competitive rispetto ad altri agenti GUI di piccole dimensioni. Nel grounding delle GUI, Ferret-UI Lite ottiene punteggi del 91,6%, 53,3% e 61,2% rispettivamente sui benchmark ScreenSpot-V2, ScreenSpot-Pro e OSWorld-G. Per la navigazione nelle GUI, Ferret-UI Lite raggiunge tassi di successo del 28,0% su AndroidWorld e del 19,8% su OSWorld. Condividiamo i nostri metodi e le lezioni apprese dallo sviluppo di agenti GUI compatti e eseguiti direttamente sui dispositivi.
I fornitori di modelli linguistici di grandi dimensioni (LLM) vantano numeri impressionanti per le dimensioni massime delle finestre di contesto. Per testare l'uso reale delle finestre di contesto, abbiamo 1) definito un concetto di finestra di contesto massima efficace, 2) formulato un metodo di test per valutare l'efficacia di una finestra di contesto su varie dimensioni e tipi di problemi, e 3) creato un modo standardizzato per confrontare l'efficacia del modello con dimensioni di finestra di contesto sempre più grandi, al fine di individuare il punto di fallimento. Abbiamo raccolto centinaia di migliaia di punti dati su diversi modelli e abbiamo riscontrato differenze significative tra la dimensione della Finestra di Contesto Massima (MCW) riportata e quella della Finestra di Contesto Massima Efficace (MECW). I nostri risultati mostrano che la MECW non solo è drasticamente diversa dalla MCW, ma varia anche in base al tipo di problema. Alcuni dei modelli più avanzati nel nostro gruppo di test hanno fallito con appena 100 token nel contesto; la maggior parte ha mostrato un grave deterioramento dell'accuratezza entro i 1000 token nel contesto. Tutti i modelli sono rimasti molto al di sotto della loro Finestra di Contesto Massima, fino al 99 percento. I nostri dati rivelano che la Finestra di Contesto Massima Efficace varia in base al tipo di problema fornito, offrendo chiare e praticabili indicazioni su come migliorare l'accuratezza del modello e ridurre i tassi di allucinazione del modello.
I modelli linguistici di grandi dimensioni (LLM) utilizzano l'interazione multi-turn come paradigma fondamentale per completare compiti complessi. Tuttavia, le loro prestazioni spesso si degradano nelle interazioni prolungate, poiché sono tipicamente addestrati su dati statici e single-turn, il che ostacola la loro capacità di adattarsi al feedback in tempo reale degli utenti. Per affrontare questa limitazione, proponiamo innanzitutto un nuovo paradigma: l'Adattamento della Politica al Tempo di Test per Interazioni Multi-Turn (T2PAM), che utilizza il feedback dell'utente dall'interazione in corso come segnale di ricompensa per stimare una politica ottimale latente allineata con le preferenze dell'utente, quindi aggiorna un piccolo sottoinsieme di parametri per orientare il modello verso questa politica, consentendo infine un'autocorrezione efficiente durante la conversazione. Introduciamo poi l'Adattamento One-Step con Riferimento all'Ottimo (ROSA), un algoritmo leggero che implementa T2PAM. ROSA guida i parametri del modello verso una politica ottimale teorica in un unico passo di aggiornamento efficiente, evitando costose ottimizzazioni iterative basate sul gradiente e minimizzando l'overhead computazionale. Forniamo un'analisi teorica rigorosa che garantisce che la politica di ROSA converga alle preferenze dell'utente all'aumentare del numero di interazioni. Esperimenti estesi su benchmark impegnativi dimostrano che ROSA ottiene miglioramenti significativi sia nell'efficacia che nell'efficienza del compito.
jina-reranker-v3 è un modello multilingue di riordinamento documenti da 0,6 miliardi di parametri che introduce una nuova interazione "last but not late". A differenza dei modelli a interazione tardiva come ColBERT, che eseguono una codifica separata seguita da un'accoppiamento multi-vettoriale, il nostro approccio esegue un'auto-attenzione causale tra query e documenti all'interno della stessa finestra contestuale, consentendo ricche interazioni cross-documento prima di estrarre gli embedding contestuali dall'ultimo token di ciascun documento. Questa architettura compatta raggiunge prestazioni all'avanguardia su BEIR con un nDCG@10 di 61,94, pur essendo dieci volte più piccola rispetto ai riordinatori generativi listwise.
I grandi modelli linguistici eccellono con l'apprendimento per rinforzo (RL), ma per sbloccare appieno questo potenziale è necessaria una fase intermedia di addestramento. Una fase intermedia efficace dovrebbe identificare un insieme compatto di azioni utili e consentire una rapida selezione tra di esse attraverso l'RL online. Formalizziamo questa intuizione presentando il primo risultato teorico su come la fase intermedia influenzi il post-addestramento: caratterizza un sottospazio di azioni che minimizza sia l'errore di approssimazione del valore derivante dalla potatura, sia l'errore di RL durante la successiva pianificazione. La nostra analisi rivela due determinanti chiave dell'efficacia della fase intermedia: l'efficienza della potatura, che modella il prior della politica iniziale di RL, e il suo impatto sulla convergenza dell'RL, che governa la misura in cui tale politica può essere migliorata attraverso interazioni online. Questi risultati suggeriscono che la fase intermedia è più efficace quando lo spazio decisionale è compatto e l'orizzonte effettivo è breve, evidenziando l'importanza di operare nello spazio delle astrazioni di azione piuttosto che nelle azioni primitive. Basandoci su queste intuizioni, proponiamo Reasoning as Action Abstractions (RA3), un algoritmo scalabile per la fase intermedia. In particolare, deriviamo un limite inferiore variazionale sequenziale e lo ottimizziamo scoprendo iterativamente strutture latenti temporalmente coerenti tramite RL, seguito da un affinamento sui dati bootstrappati. Esperimenti su compiti di generazione di codice dimostrano l'efficacia del nostro approccio. Su più modelli di base, RA3 migliora le prestazioni medie su HumanEval e MBPP di 8 e 4 punti rispetto al modello di base e alla baseline di previsione del token successivo. Inoltre, RA3 raggiunge una convergenza più rapida e prestazioni asintotiche superiori in RLVR su HumanEval+, MBPP+, LiveCodeBench e Codeforces.
La compressione della cache KV promette un aumento della produttività e dell'efficienza con una perdita trascurabile delle prestazioni. Sebbene i guadagni in termini di produttività siano indiscutibili e la letteratura recente abbia effettivamente mostrato un degrado minimo su benchmark specifici, in generale le conseguenze della compressione in scenari realistici come il prompting multi-istruzione sono state insufficientemente studiate. In questo articolo, identifichiamo diverse insidie di cui i professionisti dovrebbero essere consapevoli quando implementano LLM con cache KV compressa. In particolare, dimostriamo che alcune istruzioni si degradano molto più rapidamente con la compressione, facendo sì che vengano completamente ignorate dall'LLM. Come esempio pratico di ciò, evidenziamo la fuoriuscita del prompt di sistema come caso di studio, mostrando empiricamente l'impatto della compressione sulla fuoriuscita e sul rispetto generale delle istruzioni. Mostriamo diversi fattori che giocano un ruolo nella fuoriuscita del prompt: metodo di compressione, ordine delle istruzioni e bias di eliminazione della cache KV. Proponiamo quindi semplici modifiche alle politiche di eliminazione della cache KV che possono ridurre l'impatto di questi fattori e migliorare le prestazioni complessive nei task multi-istruzione.
Le attuali tecniche di ricerca sono limitate alle applicazioni standard di query-documento RAG. In questo articolo, proponiamo una nuova tecnica per espandere il codice e l'indice per prevedere le API necessarie, abilitando direttamente una generazione di codice end-to-end di alta qualità per applicazioni di auto-completamento e AI agentica. Affrontiamo il problema delle fughe di API nei dataset di benchmark codice-a-codice attuali introducendo un nuovo dataset costruito da Script Includes di ServiceNow del mondo reale che catturano la sfida dell'intento d'uso poco chiaro delle API nel codice. Le nostre metriche di valutazione mostrano che questo metodo raggiunge un'accuratezza di recupero top-40 dell'87,86%, consentendo il contesto critico con le API necessario per una generazione di codice downstream di successo. Per abilitare previsioni in tempo reale, sviluppiamo una pipeline completa di post-addestramento che ottimizza un reranker compatto da 0,6B attraverso la generazione di dataset sintetici, fine-tuning supervisionato e apprendimento per rinforzo. Questo approccio consente al nostro reranker compatto di superare un modello molto più grande da 8B mantenendo una latenza ridotta di 2,5x, affrontando efficacemente le sfumature del codice specifico per le aziende senza il sovraccarico computazionale dei modelli più grandi.
I modelli linguistici di grandi dimensioni (LLM) sono stati sempre più studiati come basi di conoscenza neurale per supportare applicazioni ad alta intensità di conoscenza, come il question answering e il fact checking. Tuttavia, l'organizzazione strutturale della loro conoscenza rimane inesplorata. Ispirati da scoperte della neuroscienza cognitiva, come il clustering semantico e il priming, in cui la conoscenza di un fatto aumenta la probabilità di ricordare fatti correlati, investigiamo un modello analogo di omofilia della conoscenza negli LLM. A tal fine, mappiamo la conoscenza degli LLM in una rappresentazione grafica attraverso il controllo della conoscenza sia a livello di triplette che di entità. Successivamente, analizziamo la relazione di conoscenza tra un'entità e i suoi vicini, scoprendo che gli LLM tendono a possedere un livello simile di conoscenza riguardo alle entità posizionate più vicine nel grafo. Motivati da questo principio di omofilia, proponiamo un modello di regressione basato su una rete neurale a grafo (GNN) per stimare i punteggi di conoscenza a livello di entità per le triplette sfruttando i punteggi dei loro vicini. La conoscibilità predetta ci permette di dare priorità al controllo delle triplette meno conosciute, massimizzando così la copertura della conoscenza con lo stesso budget di etichettatura. Ciò non solo migliora l'efficienza dell'etichettatura attiva per il fine-tuning per iniettare conoscenza negli LLM, ma migliora anche il recupero di percorsi multi-hop nel question answering ad alta intensità di ragionamento.
Gli attuali algoritmi di apprendimento per rinforzo online (RL) come GRPO condividono una limitazione chiave nel ragionamento dei modelli linguistici di grandi dimensioni (LLM): non possono apprendere da problemi che sono "irrisolvibili" per il modello. In altre parole, possono solo migliorare le prestazioni su problemi in cui il modello è in grado di esplorare la risposta corretta. Di conseguenza, il "limite superiore" del modello rimane invariato dopo l'addestramento RL, anche se la probabilità di risolvere problemi più semplici e risolvibili può aumentare. Questi campioni difficili non possono contribuire all'addestramento, poiché nessun rollout produce ricompense e quindi non vengono generati gradienti. Per sbloccare l'apprendimento da questi campioni difficili, proponiamo NuRL, un metodo di "spinta" che mira a spingere il limite superiore del ragionamento degli LLM utilizzando suggerimenti auto-generati, ovvero indizi astratti che aiutano a ridurre la difficoltà del problema per il modello. Data una domanda e la sua risposta corretta, il modello genera una catena di pensiero (CoT) e poi produce un suggerimento contenente la conoscenza fondamentale necessaria per risolvere il problema. Durante l'addestramento, generiamo G rollout dalla politica di base e utilizziamo il tasso di successo per decidere se il suggerimento debba essere iniettato. Per i campioni difficili con un tasso di successo dello 0%, iniettiamo il suggerimento e rigeneriamo un nuovo batch di traiettorie. Ciò produce due vantaggi: (1) il suggerimento aumenta i tassi di successo (da 0% a un valore diverso da zero), introducendo così segnali di addestramento per campioni precedentemente irrisolvibili, e (2) i suggerimenti sono auto-generati, evitando uno spostamento distributivo e non dipendono da modelli esterni. NuRL ottiene miglioramenti consistenti su 6 benchmark e 3 modelli, rimanendo complementare al ridimensionamento al momento del test. In particolare, NuRL può aumentare il limite superiore del modello, mentre GRPO lascia invariato il pass@1024 rispetto al modello di base. Inoltre, presentiamo uno studio sistematico su ciò che rende un suggerimento efficace e quando i suggerimenti sono più utili. Interessante notare che i suggerimenti migliori sono astratti e di alto livello, e sono più vantaggiosi quando applicati necessariamente e dopo che GRPO ha raggiunto la convergenza.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM), nonostante le loro prestazioni promettenti, soffrono ancora di un'efficienza inferiore durante l'inferenza. Ciò è dovuto al fatto che i dLLM si basano su un'attenzione bidirezionale e non possono trarre vantaggio direttamente dalla cache chiave-valore (KV) standard come fanno i modelli autoregressivi (ARM). Per affrontare questo problema, introduciamo Dual Adaptive Cache (d^2Cache), un framework di cache KV approssimata senza necessità di addestramento, progettato per accelerare l'inferenza dei dLLM. d^2Cache presenta una strategia di selezione fine a due stadi per identificare i token e aggiornare in modo adattivo i loro stati KV a ogni passo di decodifica, memorizzando contemporaneamente gli stati KV dei token rimanenti per il riutilizzo. Inoltre, d^2Cache offre naturalmente un'alternativa più affidabile per la decodifica, che può abilitare una generazione quasi da sinistra a destra e mitigare la sovraconfidenza prematura nei token alla fine della sequenza. I risultati sperimentali estesi su due dLLM rappresentativi (\ie, LLaDA e Dream) dimostrano che d^2Cache non solo raggiunge accelerazioni sostanziali nell'inferenza, ma produce anche miglioramenti consistenti nella qualità della generazione. Il codice è disponibile all'indirizzo https://github.com/Kamichanw/d2Cache.
Recenti studi empirici hanno esplorato l'idea di continuare ad addestrare un modello durante il test per un determinato compito, noto come test-time training (TTT), e hanno riscontrato che ciò porta a significativi miglioramenti delle prestazioni. Tuttavia, c'è una comprensione limitata del perché e del quando il TTT sia efficace. Le spiegazioni precedenti si sono concentrate principalmente sull'osservazione che il TTT può essere utile quando applicato all'adattamento fuori distribuzione o utilizzato con dati privilegiati. Tuttavia, la crescente scala dei modelli di base, con la maggior parte dei dati di test che rientrano nella distribuzione, mette in discussione queste spiegazioni. Noi invece ipotizziamo che i modelli di base rimangano globalmente sottoparametrizzati, con il TTT che fornisce un meccanismo per la specializzazione dopo la generalizzazione, concentrando la capacità su concetti rilevanti per il compito di test. Nello specifico, sotto l'ipotesi di rappresentazione lineare, proponiamo un modello in cui il TTT raggiunge un errore di test in distribuzione sostanzialmente inferiore rispetto all'addestramento globale. Convalidiamo empiricamente le ipotesi chiave del nostro modello addestrando un autoencoder sparso su ImageNet, dimostrando che punti di dati semanticamente correlati sono spiegati da pochi concetti condivisi. Infine, conduciamo studi di scalabilità su compiti di immagini e linguaggio che confermano le implicazioni pratiche del nostro modello, identificando i regimi in cui la specializzazione è più efficace.
I modelli basati su Transformer hanno fatto significativi progressi nella previsione di serie temporali, con strategie di input basate su patch che offrono efficienza e un miglioramento nella modellazione a lungo termine. Tuttavia, gli approcci esistenti si basano su una costruzione di patch temporalmente agnostica, in cui posizioni di partenza arbitrarie e lunghezze fisse frammentano la coerenza temporale dividendo le transizioni naturali attraverso i confini. Questa segmentazione ingenua spesso interrompe le dipendenze a breve termine e indebolisce l'apprendimento della rappresentazione. In risposta, proponiamo EntroPE (Entropy-Guided Dynamic Patch Encoder), un nuovo framework temporalmente informato che rileva dinamicamente i punti di transizione tramite l'entropia condizionale e posiziona dinamicamente i confini delle patch. Questo preserva la struttura temporale mantenendo i vantaggi computazionali del patching. EntroPE è composto da due moduli chiave, ovvero un Dynamic Patcher basato su Entropia (EDP) che applica criteri teorici dell'informazione per individuare i cambiamenti temporali naturali e determinare i confini delle patch, e un Adaptive Patch Encoder (APE) che utilizza pooling e cross-attention per catturare le dipendenze intra-patch e produrre rappresentazioni latenti di dimensione fissa. Questi embedding vengono poi elaborati da un transformer globale per modellare le dinamiche inter-patch. Esperimenti su benchmark di previsione a lungo termine dimostrano che EntroPE migliora sia l'accuratezza che l'efficienza, stabilendo il dynamic patching guidato dall'entropia come un nuovo paradigma promettente per la modellazione di serie temporali. Il codice è disponibile all'indirizzo: https://github.com/Sachithx/EntroPE.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) richiedono informazioni visive ad alta risoluzione per eseguire una percezione fine, ma elaborare intere immagini ad alta risoluzione è computazionalmente proibitivo. Sebbene i metodi recenti sfruttino un meccanismo di Regione di Interesse (RoI) per concentrarsi su aree salienti, presentano tipicamente un difficile compromesso: gli approcci basati su addestramento dipendono da dataset annotati su larga scala, mentre i metodi senza addestramento che utilizzano l'attenzione interna del modello sono computazionalmente inefficienti e meno accurati, richiedendo fasi di prefill multi-pass o affidandosi al lento processo di decodifica auto-regressiva. In questo articolo, proponiamo una Rete di Proposta di Regioni Auto-Distillata (SD-RPN) efficiente e senza annotazioni che risolve questo compromesso. La SD-RPN è costruita attorno a una pipeline che trasforma le mappe di attenzione rumorose degli strati intermedi dell'MLLM in etichette pseudo-RoI di alta qualità, denoizzando esplicitamente il segnale e risolvendo le ambiguità. Utilizziamo queste etichette per addestrare una leggera Rete di Proposta di Regioni (RPN) che apprende una localizzazione più precisa. Questa RPN è anche altamente efficiente, prevedendo la RoI in un singolo passaggio in avanti utilizzando le caratteristiche degli strati intermedi dell'MLLM, disaccoppiando l'identificazione della RoI dalla generazione auto-regressiva ed evitando costose operazioni multi-pass. Per validare il nostro approccio, integriamo il framework nell'architettura LLaVA-1.5. Nonostante sia addestrato su pochi (ad esempio 10K) coppie domanda-risposta, il nostro metodo dimostra un'eccellente efficienza dei dati e generalizzazione, ottenendo un miglioramento assoluto di oltre il 10% in termini di accuratezza su benchmark non visti, tra cui TextVQA, DocVQA e V-Star. Il nostro lavoro presenta una soluzione pratica e scalabile per migliorare la percezione fine degli MLLM senza richiedere supervisione costosa o fine-tuning completo del modello. Il codice è disponibile all'indirizzo https://github.com/YuHengsss/SD-RPN.
I modelli audio-linguistici di grandi dimensioni stanno avanzando rapidamente, tuttavia la maggior parte delle valutazioni si concentra sul parlato o su suoni di provenienza globale, trascurando gli indizi culturalmente distintivi. Questa lacuna solleva una questione cruciale: i modelli attuali sono in grado di generalizzare suoni audio localizzati e non semantici che le comunità riconoscono immediatamente ma che gli estranei non colgono? Per affrontare questo problema, presentiamo TAU (Taiwan Audio Understanding), un benchmark di "suoni caratteristici" quotidiani taiwanesi. TAU è stato costruito attraverso una pipeline che combina fonti curate, editing umano e generazione di domande assistita da LLM, producendo 702 clip e 1.794 elementi a scelta multipla che non possono essere risolti solo con le trascrizioni. Gli esperimenti mostrano che i LALM all'avanguardia, tra cui Gemini 2.5 e Qwen2-Audio, hanno prestazioni molto inferiori rispetto agli esseri umani locali. TAU dimostra la necessità di benchmark localizzati per rivelare i punti ciechi culturali, guidare valutazioni multimodali più eque e garantire che i modelli servano comunità al di là del mainstream globale.
L'IA moderna si basa su reti neurali artificiali profonde (NN). A partire dal 2025, l'articolo scientifico più citato del XXI secolo è un lavoro sulle NN che tratta l'apprendimento residuo profondo con connessioni residue. Chi ha inventato questo? Presentiamo una cronologia dell'evoluzione dell'apprendimento residuo profondo.
La compilazione automatica di progetti software open-source (OSS) è un'attività cruciale, laboriosa e complessa, che la rende una sfida ideale per gli agenti basati su LLM (Large Language Models). I metodi esistenti si basano su regole e flussi di lavoro curati manualmente, che non possono adattarsi a OSS che richiedono configurazioni personalizzate o setup ambientali specifici. Tentativi recenti che utilizzano modelli linguistici di grandi dimensioni (LLM) hanno adottato una valutazione selettiva su un sottoinsieme di OSS altamente valutati, una pratica che sottostima le sfide realistiche della compilazione di OSS. Nella pratica, le istruzioni di compilazione sono spesso assenti, le dipendenze non sono documentate e build di successo possono persino richiedere la modifica di file sorgente o script di compilazione. Proponiamo un benchmark più impegnativo e realistico, BUILD-BENCH, che comprende OSS più diversificati in termini di qualità, scala e caratteristiche. Inoltre, proponiamo un solido agente basato su LLM, OSS-BUILD-AGENT, un sistema efficace con un modulo potenziato per il recupero delle istruzioni di compilazione, che raggiunge prestazioni all'avanguardia su BUILD-BENCH ed è adattabile a caratteristiche eterogenee degli OSS. Forniamo anche un'analisi dettagliata riguardo alle diverse scelte progettuali dei metodi di compilazione e alla loro influenza sull'intero compito, offrendo spunti per guidare i progressi futuri. Crediamo che le prestazioni su BUILD-BENCH possano riflettere fedelmente la capacità di un agente di affrontare la compilazione come un complesso compito di ingegneria del software e, in quanto tale, il nostro benchmark stimolerà l'innovazione con un impatto significativo sulle applicazioni downstream nei campi dello sviluppo software e della sicurezza del software.
I modelli di diffusione offrono un framework fisicamente fondato per la previsione probabilistica del tempo, ma la loro tipica dipendenza da risolutori lenti e iterativi durante l'inferenza li rende impraticabili per applicazioni sub-stagionali e stagionali (S2S), dove tempi di previsione lunghi e calibrazioni guidate dal dominio sono essenziali. Per affrontare questo problema, introduciamo Swift, un modello di consistenza a singolo passo che, per la prima volta, consente il fine-tuning autoregressivo di un modello di flusso di probabilità con un obiettivo di punteggio di probabilità classificata continua (CRPS). Ciò elimina la necessità di ensemble multi-modello o perturbazioni dei parametri. I risultati mostrano che Swift produce previsioni abili ogni 6 ore che rimangono stabili fino a 75 giorni, eseguendosi 39 volte più velocemente rispetto ai modelli di diffusione all'avanguardia, raggiungendo una capacità di previsione competitiva con il sistema operazionale IFS ENS basato su modelli numerici. Questo rappresenta un passo verso previsioni ensemble efficienti e affidabili, dalla scala di medio termine a quella stagionale.
I designer creano e modificano progetti grafici utilizzando una rappresentazione a livelli, ma l'editing basato su livelli diventa impossibile una volta che l'immagine viene composta in un'immagine raster. In questo lavoro, proponiamo LayerD, un metodo per scomporre progetti grafici raster in livelli, consentendo un flusso di lavoro creativo ri-editabile. LayerD affronta il compito di scomposizione estraendo iterativamente i livelli in primo piano non occlusi. Proponiamo un approccio di raffinamento semplice ma efficace che sfrutta l'assunzione che i livelli spesso presentano un aspetto uniforme nei progetti grafici. Poiché la scomposizione è un problema mal posto e la struttura dei livelli di riferimento potrebbe non essere affidabile, sviluppiamo una metrica di qualità che affronta questa difficoltà. Negli esperimenti, dimostriamo che LayerD riesce a ottenere una scomposizione di alta qualità e supera i metodi di base. Mostriamo inoltre l'utilizzo di LayerD con generatori di immagini all'avanguardia e l'editing basato su livelli.
La purificazione avversaria con modelli di diffusione è emersa come una promettente strategia di difesa, ma i metodi esistenti si basano tipicamente sull'iniezione uniforme di rumore, che perturba indiscriminatamente tutte le frequenze, corrompendo le strutture semantiche e minando la robustezza. Il nostro studio empirico rivela che le perturbazioni avversarie non sono distribuite uniformemente: sono prevalentemente concentrate nelle regioni ad alta frequenza, con modelli di intensità di magnitudine eterogenei che variano in base alle frequenze e ai tipi di attacco. Motivati da questa osservazione, introduciamo MANI-Pure, un framework di purificazione adattivo alla magnitudine che sfrutta lo spettro di magnitudine degli input per guidare il processo di purificazione. Invece di iniettare rumore omogeneo, MANI-Pure applica in modo adattivo rumore eterogeneo e mirato alle frequenze, sopprimendo efficacemente le perturbazioni avversarie nelle bande fragili ad alta frequenza e bassa magnitudine, preservando al contempo il contenuto semanticamente critico a bassa frequenza. Esperimenti estesi su CIFAR-10 e ImageNet-1K convalidano l'efficacia di MANI-Pure. Riducono il divario di accuratezza pulita a meno di 0,59 rispetto al classificatore originale, aumentando l'accuratezza robusta di 2,15, e raggiungono la massima accuratezza robusta nella classifica di RobustBench, superando il precedente metodo all'avanguardia.
I modelli esistenti di generazione audio multimodale spesso mancano di un controllo preciso da parte dell'utente, il che ne limita l'applicabilità nei flussi di lavoro professionali di Foley. In particolare, questi modelli si concentrano sull'intero video e non forniscono metodi precisi per dare priorità a un oggetto specifico all'interno di una scena, generando suoni di fondo non necessari o focalizzandosi sugli oggetti sbagliati. Per colmare questa lacuna, introduciamo il nuovo compito della generazione audio consapevole della segmentazione degli oggetti video, che condiziona esplicitamente la sintesi del suono sulle mappe di segmentazione a livello di oggetto. Presentiamo SAGANet, un nuovo modello generativo multimodale che consente una generazione audio controllata sfruttando maschere di segmentazione visiva insieme a segnali video e testuali. Il nostro modello offre agli utenti un controllo granulare e localizzato visivamente sulla generazione audio. Per supportare questo compito e ulteriori ricerche sul Foley consapevole della segmentazione, proponiamo Segmented Music Solos, un dataset di riferimento di video di esecuzione di strumenti musicali con informazioni di segmentazione. Il nostro metodo dimostra miglioramenti sostanziali rispetto ai metodi attuali all'avanguardia e stabilisce un nuovo standard per la sintesi Foley controllabile e ad alta fedeltà. Codice, campioni e Segmented Music Solos sono disponibili all'indirizzo https://saganet.notion.site.
I sistemi multi-agente (MAS) sono sempre più capaci di affrontare compiti complessi del mondo reale, tuttavia la loro dipendenza dalla coordinazione inter-agente, dall'uso di strumenti e dal ragionamento a lungo termine rende particolarmente difficile il riconoscimento degli errori. Errori minori possono propagarsi tra gli agenti, trasformandosi in fallimenti del compito mentre producono traiettorie di esecuzione lunghe e intrecciate che impongono costi significativi sia per gli sviluppatori umani che per i sistemi automatizzati per il debug e l'analisi. La nostra intuizione chiave è che, nonostante le differenze superficiali nelle traiettorie di fallimento (ad esempio, i log), gli errori nei MAS spesso si ripetono con schemi strutturali simili. Questo articolo presenta CORRECT, il primo framework leggero e senza addestramento che sfrutta una cache online di schemi di errore distillati per riconoscere e trasferire la conoscenza delle strutture di fallimento attraverso nuove richieste. Questo riutilizzo basato su cache consente ai LLM di eseguire una localizzazione mirata degli errori al momento dell'inferenza, evitando la necessità di costosi riaddestramenti mentre si adattano a implementazioni dinamiche dei MAS in frazioni di secondo. Per supportare uno studio rigoroso in questo dominio, introduciamo anche CORRECT-Error, un dataset su larga scala di oltre 2.000 traiettorie annotate raccolte attraverso una nuova pipeline di iniezione di errori guidata da distribuzioni del mondo reale e ulteriormente validata attraverso valutazioni umane per garantire l'allineamento con i modelli di fallimento naturali. Esperimenti su sette diverse applicazioni MAS mostrano che CORRECT migliora la localizzazione degli errori a livello di passo fino al 19,8% rispetto ai progressi esistenti, con un overhead quasi nullo, riducendo sostanzialmente il divario tra il riconoscimento degli errori automatizzato e quello umano.
I modelli di base per serie temporali (TSFM) offrono previsioni zero-shot robuste attraverso il pre-training su larga scala, ma il fine-tuning rimane cruciale per migliorare le prestazioni in domini con dati pubblici limitati. Con il crescente numero di TSFM, identificare in modo efficiente il modello migliore per il fine-tuning downstream diventa sempre più complesso. In questo lavoro, introduciamo TimeTic, un framework di stima della trasferibilità che riformula la selezione del modello come un problema di in-context learning: date osservazioni su dataset noti (sorgente), prevede come un TSFM si comporterà dopo il fine-tuning su un dataset downstream (target). TimeTic organizza in modo flessibile le relazioni modello-dati osservate come informazioni contestuali, consentendogli di adattarsi senza soluzione di continuità a vari scenari di test. Sfruttando la struttura tabulare naturale formata da meta-caratteristiche dei dataset, caratteristiche del modello e prestazioni dopo il fine-tuning, utilizziamo modelli di base tabulari come apprenditori in contesto. Introduciamo inoltre una nuova caratterizzazione del modello basata sull'evoluzione dell'entropia attraverso i livelli del modello, catturando le distinzioni nello spazio di embedding e consentendo a TimeTic di generalizzare su insiemi di modelli arbitrari. Stabiliamo un benchmark completo per la stima della trasferibilità, includendo 10 dataset, 10 modelli di base e 3 task di previsione. Su questo benchmark, la stima di TimeTic dimostra una forte corrispondenza con le prestazioni effettive dopo il fine-tuning per dataset mai visti prima, raggiungendo una correlazione di rango media di circa 0,6 e un miglioramento del 30% rispetto all'utilizzo delle prestazioni zero-shot come punteggio di trasferibilità.
Introduciamo il Convolutional Set Transformer (CST), una nuova architettura neurale progettata per elaborare insiemi di immagini di cardinalità arbitraria che sono visivamente eterogenei ma condividono una semantica di alto livello, come una categoria, una scena o un concetto comune. Le reti esistenti che accettano insiemi in input, ad esempio Deep Sets e Set Transformer, sono limitate a input vettoriali e non possono gestire direttamente tensori di immagini 3D. Di conseguenza, devono essere combinate con un estrattore di feature, tipicamente una CNN, che codifica le immagini in embedding prima che la rete a input di insieme possa modellare le relazioni inter-immagine. Al contrario, il CST opera direttamente su tensori di immagini 3D, eseguendo contemporaneamente l'estrazione di feature e la modellazione contestuale, consentendo così sinergie tra i due processi. Questo design offre prestazioni superiori in compiti come la Classificazione di Insiemi e il Rilevamento di Anomalie in Insiemi e fornisce inoltre una compatibilità nativa con metodi di spiegabilità delle CNN come Grad-CAM, a differenza degli approcci concorrenti che rimangono opachi. Infine, dimostriamo che i CST possono essere pre-addestrati su dataset su larga scala e successivamente adattati a nuovi domini e compiti attraverso schemi standard di Transfer Learning. Per supportare ulteriori ricerche, rilasciamo CST-15, un backbone CST pre-addestrato su ImageNet (https://github.com/chinefed/convolutional-set-transformer).
Mentre i grandi modelli linguistici (LLM) con capacità di ragionamento stanno progredendo rapidamente nelle competizioni di matematica delle scuole superiori e nella programmazione, possono ragionare efficacemente attraverso sfide complesse e aperte presenti nella ricerca di frontiera in fisica? E, soprattutto, quali tipi di compiti di ragionamento i fisici desiderano che gli LLM li assistano a svolgere? Per affrontare queste domande, presentiamo il CritPt (Complex Research using Integrated Thinking - Physics Test, pronunciato "punto critico"), il primo benchmark progettato per testare gli LLM su compiti di ragionamento a livello di ricerca non pubblicati, che coprono ampiamente le aree di ricerca moderna in fisica, tra cui materia condensata, fisica quantistica, fisica atomica, molecolare e ottica, astrofisica, fisica delle alte energie, fisica matematica, fisica statistica, fisica nucleare, dinamica non lineare, fluidodinamica e biofisica. CritPt consiste in 71 sfide di ricerca composite progettate per simulare progetti di ricerca su larga scala a livello introduttivo, che sono anche scomposti in 190 compiti più semplici per ottenere approfondimenti più granulari. Tutti i problemi sono stati creati ex novo da oltre 50 ricercatori attivi in fisica basandosi sulle loro ricerche. Ogni problema è stato curato manualmente per ammettere una risposta resistente alle congetture e verificabile automaticamente, ed è valutato da una pipeline di valutazione automatizzata altamente personalizzata per formati di output avanzati specifici della fisica. Scopriamo che, sebbene gli attuali LLM all'avanguardia mostrino promesse iniziali su compiti isolati, rimangono lontani dall'essere in grado di risolvere in modo affidabile sfide di ricerca su scala completa: la migliore accuratezza media tra i modelli di base è solo del 4,0%, raggiunta da GPT-5 (high), che sale moderatamente a circa il 10% quando equipaggiato con strumenti di programmazione. Attraverso la valutazione realistica ma standardizzata offerta da CritPt, evidenziamo un ampio divario tra le capacità attuali dei modelli e le esigenze realistiche della ricerca in fisica, offrendo una base per guidare lo sviluppo di strumenti di IA scientificamente fondati.
Il watermarking per i grandi modelli linguistici (LLM) incorpora un segnale statistico durante la generazione per consentire il rilevamento di testi prodotti dal modello. Sebbene il watermarking si sia dimostrato efficace in contesti benigni, la sua robustezza in caso di elusione avversaria rimane controversa. Per promuovere una comprensione e una valutazione rigorose di tali vulnerabilità, proponiamo l'attacco di riscrittura Bias-Inversion (BIRA), teoricamente motivato e indipendente dal modello. BIRA indebolisce il segnale di watermarking sopprimendo i logit dei token probabilmente marcati durante la riscrittura basata su LLM, senza alcuna conoscenza dello schema di watermarking sottostante. Sui recenti metodi di watermarking, BIRA raggiunge un tasso di elusione superiore al 99% preservando il contenuto semantico del testo originale. Oltre a dimostrare un attacco, i nostri risultati rivelano una vulnerabilità sistematica, sottolineando la necessità di stress test e difese robuste.
I recenti progressi nella generazione video hanno reso possibile la sintesi di video ad alta fedeltà a partire da prompt forniti dall'utente. Tuttavia, i modelli e i benchmark esistenti non riescono a cogliere la complessità e le esigenze della generazione video professionale. Verso questo obiettivo, introduciamo Stable Cinemetrics, un framework di valutazione strutturato che formalizza i controlli cinematografici in quattro tassonomie gerarchiche e disaccoppiate: Setup, Evento, Illuminazione e Camera. Insieme, queste tassonomie definiscono 76 nodi di controllo granulari basati su pratiche del settore. Utilizzando queste tassonomie, costruiamo un benchmark di prompt allineati a casi d'uso professionali e sviluppiamo una pipeline automatizzata per la categorizzazione dei prompt e la generazione di domande, consentendo una valutazione indipendente di ciascuna dimensione di controllo. Conduciamo uno studio su larga scala che coinvolge oltre 10 modelli e 20.000 video, annotati da un pool di oltre 80 professionisti del cinema. La nostra analisi, sia a livello macro che micro, rivela che anche i modelli attualmente più avanzati presentano lacune significative, in particolare nei controlli relativi agli Eventi e alla Camera. Per consentire una valutazione scalabile, addestriamo un valutatore automatico, un modello visione-linguaggio allineato con le annotazioni degli esperti, che supera i baseline zero-shot esistenti. SCINE è il primo approccio a collocare la generazione video professionale nel panorama dei modelli generativi video, introducendo tassonomie incentrate sui controlli cinematografici e supportandole con pipeline di valutazione strutturate e analisi dettagliate per guidare la ricerca futura.
Gli approcci esistenti per la stima della competenza spesso si basano su classificatori video a scatola nera, ignorando il contesto multi-vista e mancando di spiegabilità. Presentiamo ProfVLM, un modello compatto visione-linguaggio che riformula questo compito come ragionamento generativo: prevede congiuntamente il livello di competenza e genera feedback simili a quelli di esperti a partire da video egocentrici ed exocentrici. Elemento centrale del nostro metodo è un AttentiveGatedProjector che fonde dinamicamente le caratteristiche multi-vista, proiettate da un backbone TimeSformer congelato in un modello linguistico ottimizzato per la generazione di feedback. Addestrato su EgoExo4D con commenti di esperti, ProfVLM supera i metodi all'avanguardia utilizzando fino a 20 volte meno parametri e riducendo il tempo di addestramento fino al 60%. Il nostro approccio non solo raggiunge un'accuratezza superiore in diverse attività, ma produce anche critiche in linguaggio naturale allineate alla performance, offrendo un ragionamento trasparente. Questi risultati evidenziano la modellazione generativa visione-linguaggio come una nuova e potente direzione per la valutazione delle competenze.
Verso un'edizione intelligente delle immagini, la rimozione di oggetti dovrebbe eliminare sia l'oggetto target che i suoi artefatti visivi causali, come ombre e riflessi. Tuttavia, i metodi esistenti basati sull'aspetto dell'immagine seguono rigorosamente un addestramento allineato alla maschera e non riescono a rimuovere questi effetti causali che non sono esplicitamente mascherati, oppure adottano strategie allineate alla maschera in modo approssimativo che mancano di controllabilità e possono cancellare involontariamente altri oggetti. Identifichiamo che queste limitazioni derivano dall'ignorare la relazione causale tra la presenza geometrica di un oggetto e i suoi effetti visivi. Per affrontare questa limitazione, proponiamo un framework a due stadi consapevole della geometria che scompone la rimozione di oggetti in (1) rimozione della geometria e (2) rendering dell'aspetto. Nella prima fase, rimuoviamo l'oggetto direttamente dalla geometria (ad esempio, la profondità) utilizzando una supervisione rigorosamente allineata alla maschera, consentendo un'edizione consapevole della struttura con forti vincoli geometrici. Nella seconda fase, rendiamo un'immagine RGB fotorealistica condizionata sulla geometria aggiornata, dove gli effetti visivi causali sono considerati implicitamente come risultato della geometria 3D modificata. Per guidare l'apprendimento nella fase di rimozione della geometria, introduciamo un obiettivo guidato dalle preferenze basato su coppie di campioni positivi e negativi, incoraggiando il modello a rimuovere gli oggetti e i loro artefatti visivi causali evitando nuove inserzioni strutturali. Esperimenti estensivi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella rimozione sia degli oggetti che dei loro artefatti associati su due benchmark popolari. Il codice è disponibile all'indirizzo https://github.com/buxiangzhiren/GeoRemover.