Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione di codice in contesti lunghi sta diventando sempre più cruciale poiché i Large Language Models (LLM) devono ragionare su ampie quantità di informazioni presenti nel codebase. Sebbene i recenti progressi consentano ai LLM per il codice di elaborare input lunghi, gli elevati costi delle API e la latenza di generazione rimangono ostacoli significativi. Le tecniche esistenti di pruning del contesto, come LLMLingua, ottengono risultati promettenti per il testo generico ma trascurano le strutture e le dipendenze specifiche del codice, portando a prestazioni subottimali nei task di programmazione. In questo articolo, proponiamo LongCodeZip, un nuovo framework di compressione del codice plug-and-play progettato specificamente per i LLM per il codice. LongCodeZip utilizza una strategia a due fasi: (1) compressione a grana grossa, che identifica e classifica i chunk a livello di funzione utilizzando la perplexità condizionale rispetto all'istruzione, mantenendo solo le funzioni più rilevanti; e (2) compressione a grana fine, che segmenta le funzioni mantenute in blocchi basati sulla perplexità e seleziona un sottoinsieme ottimale sotto un budget adattivo di token per massimizzare la rilevanza. Le valutazioni su più task, tra cui completamento del codice, riassunto e risposta a domande, mostrano che LongCodeZip supera costantemente i metodi di base, raggiungendo un rapporto di compressione fino a 5,6x senza degradare le prestazioni del task. Riducendo efficacemente la dimensione del contesto preservando le informazioni essenziali, LongCodeZip consente ai LLM di scalare meglio a scenari di codice su larga scala del mondo reale, migliorando l'efficienza e le capacità delle applicazioni di intelligenza del codice.
I modelli di diffusione hanno rivoluzionato la generazione di immagini e video, raggiungendo una qualità visiva senza precedenti. Tuttavia, la loro dipendenza da architetture transformer comporta costi computazionali proibitivamente elevati, specialmente quando si estende la generazione a video lunghi. Recenti lavori hanno esplorato formulazioni autoregressive per la generazione di video lunghi, tipicamente distillando da insegnanti bidirezionali a breve orizzonte. Ciononostante, dato che i modelli insegnanti non possono sintetizzare video lunghi, l'estrapolazione dei modelli studente oltre il loro orizzonte di addestramento spesso porta a un marcato degrado della qualità, causato dall'accumulo di errori nello spazio latente continuo. In questo articolo, proponiamo un approccio semplice ma efficace per mitigare il degrado della qualità nella generazione di video a lungo orizzonte senza richiedere supervisione da insegnanti di video lunghi o riaddestramento su dataset di video lunghi. Il nostro approccio si concentra sullo sfruttamento della ricca conoscenza dei modelli insegnanti per fornire guida al modello studente attraverso segmenti campionati tratti da video lunghi autogenerati. Il nostro metodo mantiene la coerenza temporale mentre scala la lunghezza del video fino a 20 volte oltre la capacità dell'insegnante, evitando problemi comuni come sovraesposizione e accumulo di errori senza ricalcolare frame sovrapposti come nei metodi precedenti. Quando si scala il calcolo, il nostro metodo dimostra la capacità di generare video fino a 4 minuti e 15 secondi, equivalenti al 99,9% della durata massima supportata dall'embedding posizionale del nostro modello base e più di 50 volte più lunghi rispetto al nostro modello di riferimento. Esperimenti su benchmark standard e sul nostro benchmark migliorato dimostrano che il nostro approccio supera sostanzialmente i metodi di riferimento sia in fedeltà che in coerenza. La demo dei nostri video a lungo orizzonte è disponibile all'indirizzo https://self-forcing-plus-plus.github.io/.
L'apprendimento per rinforzo da ricompense verificabili (RLVR) è un paradigma emergente per migliorare le capacità di ragionamento dei grandi modelli linguistici. Tuttavia, l'addestramento on-policy standard scarta le esperienze di rollout dopo un singolo aggiornamento, portando a inefficienza computazionale e instabilità. Sebbene lavori precedenti sull'RL abbiano evidenziato i benefici del riutilizzo delle esperienze passate, il ruolo delle caratteristiche delle esperienze nel modellare le dinamiche di apprendimento dei grandi modelli di ragionamento rimane poco esplorato. In questo articolo, siamo i primi a indagare cosa rende preziosa un'esperienza di ragionamento e identifichiamo la correttezza del rollout e l'entropia come indicatori efficaci del valore dell'esperienza. Sulla base di queste intuizioni, proponiamo ExGRPO (Experiential Group Relative Policy Optimization), un framework che organizza e priorizza le esperienze preziose e impiega un obiettivo di politica mista per bilanciare l'esplorazione con lo sfruttamento delle esperienze. Esperimenti su cinque modelli di base (1,5B-8B parametri) mostrano che ExGRPO migliora costantemente le prestazioni di ragionamento su benchmark matematici/generali, con un guadagno medio di +3,5/7,6 punti rispetto all'RLVR on-policy. Inoltre, ExGRPO stabilizza l'addestramento sia su modelli più forti che più deboli dove i metodi on-policy falliscono. Questi risultati evidenziano la gestione delle esperienze basata su principi come un ingrediente chiave per un RLVR efficiente e scalabile.
I metodi di rappresentazione di scene 3D come i Neural Radiance Fields (NeRF) e il 3D Gaussian Splatting (3DGS) hanno significativamente avanzato la sintesi di nuove viste. Con il diffondersi di queste tecniche, diventa cruciale affrontarne le vulnerabilità. Analizziamo la robustezza del 3DGS contro attacchi di avvelenamento a livello di immagine e proponiamo un nuovo metodo di avvelenamento guidato dalla densità. Il nostro metodo inietta strategicamente punti gaussiani in regioni a bassa densità identificate tramite Kernel Density Estimation (KDE), incorporando oggetti illusori dipendenti dal punto di vista chiaramente visibili dalle viste avvelenate, mentre influenzano minimamente le viste innocenti. Inoltre, introduciamo una strategia di rumore adattivo per disturbare la consistenza multi-vista, migliorando ulteriormente l'efficacia dell'attacco. Proponiamo un protocollo di valutazione basato su KDE per valutare sistematicamente la difficoltà dell'attacco, consentendo un benchmarking oggettivo per la ricerca futura. Esperimenti estensivi dimostrano la prestazione superiore del nostro metodo rispetto alle tecniche più avanzate. Pagina del progetto: https://hentci.github.io/stealthattack/
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato forti capacità come agenti autonomi, mostrando promettenti risultati nel ragionamento, nell'uso di strumenti e nel processo decisionale sequenziale. Sebbene i benchmark precedenti abbiano valutato gli agenti LLM in domini come l'ingegneria del software e la scoperta scientifica, il dominio finanziario rimane poco esplorato, nonostante la sua rilevanza diretta per il valore economico e il processo decisionale ad alto rischio. Gli attuali benchmark finanziari testano principalmente la conoscenza statica attraverso il question answering, ma non riescono a catturare la natura dinamica e iterativa del trading. Per colmare questa lacuna, introduciamo StockBench, un benchmark privo di contaminazione progettato per valutare gli agenti LLM in ambienti realistici di trading azionario su più mesi. Gli agenti ricevono segnali di mercato giornalieri — inclusi prezzi, fondamentali e notizie — e devono prendere decisioni sequenziali di acquisto, vendita o mantenimento. Le prestazioni vengono valutate utilizzando metriche finanziarie come il rendimento cumulativo, il massimo drawdown e il rapporto Sortino. La nostra valutazione dei modelli proprietari all'avanguardia (ad esempio, GPT-5, Claude-4) e open-weight (ad esempio, Qwen3, Kimi-K2, GLM-4.5) mostra che, sebbene la maggior parte degli agenti LLM fatica a superare la semplice baseline di buy-and-hold, diversi modelli dimostrano il potenziale di generare rendimenti più elevati e gestire il rischio in modo più efficace. Questi risultati evidenziano sia le sfide che le opportunità nello sviluppo di agenti finanziari alimentati da LLM, dimostrando che eccellere in compiti di conoscenza finanziaria statica non si traduce necessariamente in strategie di trading di successo. Rilasciamo StockBench come risorsa open-source per supportare la riproducibilità e promuovere la ricerca futura in questo dominio.
Presentiamo F2LLM - Foundation to Feature Large Language Models, una suite di modelli di embedding all'avanguardia disponibili in tre dimensioni: 0.6B, 1.7B e 4B. A differenza dei precedenti modelli di embedding di alto livello che richiedono un pre-addestramento contrastivo massiccio, pipeline di addestramento sofisticate e costosi dati di addestramento sintetici, F2LLM viene direttamente perfezionato a partire da modelli di base su 6 milioni di tuple query-documento-negativo curate da dataset open-source e non sintetici, raggiungendo un forte equilibrio tra costo di addestramento, dimensione del modello e prestazioni di embedding. Nella classifica MTEB in lingua inglese, F2LLM-4B si posiziona al 2° posto tra i modelli con circa 4 miliardi di parametri e al 7° posto in generale, mentre F2LLM-1.7B si colloca al 1° posto tra i modelli nella gamma di dimensioni 1B-2B. Per favorire future ricerche nel campo, rilasciamo i modelli, il dataset di addestramento e il codice, posizionando F2LLM come una solida, riproducibile e conveniente baseline per lavori futuri.
L'addestramento tradizionale delle reti neurali segue tipicamente ricette di ottimizzazione fisse e predefinite, mancando della flessibilità necessaria per rispondere dinamicamente a instabilità o problemi emergenti durante il training. In questo articolo, introduciamo Interactive Training, un framework open-source che consente interventi in tempo reale e guidati dal feedback durante l'addestramento delle reti neurali, sia da parte di esperti umani che di agenti AI automatizzati. Al suo interno, Interactive Training utilizza un server di controllo per mediare la comunicazione tra utenti o agenti e il processo di addestramento in corso, permettendo agli utenti di regolare dinamicamente gli iperparametri dell'ottimizzatore, i dati di training e i checkpoint del modello. Attraverso tre casi di studio, dimostriamo che Interactive Training raggiunge una maggiore stabilità del training, una ridotta sensibilità agli iperparametri iniziali e una migliore adattabilità alle esigenze evolutive degli utenti, aprendo la strada a un futuro paradigma di addestramento in cui gli agenti AI monitorano autonomamente i log di training, risolvono proattivamente le instabilità e ottimizzano le dinamiche di addestramento.
Il paradigma dominante per l'addestramento di modelli di ragionamento su larga scala inizia con un pre-addestramento basato sulla perdita di previsione del token successivo su grandi quantità di dati. L'apprendimento per rinforzo, sebbene potente nel potenziare il ragionamento, viene introdotto solo come fase finale del post-addestramento, preceduto da un affinamento supervisionato. Ma è davvero il modo ottimale di addestrare? In questo articolo, presentiamo RLP, un obiettivo di pre-addestramento basato sull'informazione e guidato dall'apprendimento per rinforzo, che porta lo spirito fondamentale di quest'ultimo — l'esplorazione — all'ultima fase del pre-addestramento. L'idea chiave è trattare la catena di pensiero come un'azione esplorativa, con ricompense calcolate in base al guadagno informativo che fornisce per prevedere i token futuri. Questo obiettivo di addestramento incoraggia essenzialmente il modello a pensare autonomamente prima di prevedere ciò che segue, insegnando così un comportamento di pensiero indipendente già durante il pre-addestramento. Più concretamente, il segnale di ricompensa misura l'aumento della log-verosimiglianza del token successivo quando si condiziona sia sul contesto che su una catena di ragionamento campionata, rispetto al condizionamento sul solo contesto. Questo approccio produce un segnale di ricompensa denso e privo di verificatori, consentendo un addestramento efficiente sull'intero flusso di documenti durante il pre-addestramento. In particolare, RLP riformula l'apprendimento per rinforzo per il ragionamento come un obiettivo di pre-addestramento su testo ordinario, colmando il divario tra la previsione del token successivo e l'emergere di utili catene di pensiero. Il pre-addestramento con RLP su Qwen3-1.7B-Base aumenta la media complessiva su una suite di otto benchmark di matematica e scienze del 19%. Con un post-addestramento identico, i guadagni si cumulano, con i miglioramenti più significativi su compiti ad alto contenuto di ragionamento come AIME25 e MMLU-Pro. Applicando RLP all'ibrido Nemotron-Nano-12B-v2, la media complessiva passa dal 42,81% al 61,32%, con un aumento del 23% sulla media del ragionamento scientifico, dimostrando scalabilità tra architetture e dimensioni del modello.
I modelli di embedding multimodale stanno guadagnando popolarità, in particolare per il recupero di documenti come alternative efficienti alle pipeline basate esclusivamente sul testo. Questi modelli sono tipicamente costruiti ottimizzando grandi decoder visione-linguaggio (VLMs) con perdite contrastive su coppie testo-immagine. In questo lavoro, dimostriamo che, sebbene economicamente vantaggioso, questo approccio di riutilizzo spesso rappresenta un collo di bottiglia per le prestazioni di recupero. Attraverso esperimenti controllati, stabiliamo una ricetta metodologica per migliorare i modelli di recupero visivo di documenti. Misuriamo in particolare l'impatto del mascheramento dell'attenzione, della risoluzione delle immagini, dei regimi di allineamento delle modalità e degli obiettivi contrastive centrati sull'interazione tardiva, che emergono come fattori centrali per le prestazioni. Basandoci su queste intuizioni, rilasciamo ModernVBERT, un encoder visione-linguaggio compatto da 250M parametri che supera modelli fino a 10 volte più grandi quando ottimizzato per compiti di recupero di documenti. Modelli e codice sono disponibili all'indirizzo https://huggingface.co/ModernVBERT.
La generazione audio-video si è spesso basata su architetture complesse a più stadi o sulla sintesi sequenziale di suoni e immagini. Introduciamo Ovi, un paradigma unificato per la generazione audio-video che modella le due modalità come un unico processo generativo. Utilizzando una fusione cross-modale a blocchi di moduli twin-DiT, Ovi ottiene una sincronizzazione naturale ed elimina la necessità di pipeline separate o di allineamenti post-hoc. Per facilitare la modellazione di una fusione multimodale fine, inizializziamo una torre audio con un'architettura identica a quella di un modello video pre-addestrato di alta qualità. Addestrata da zero su centinaia di migliaia di ore di audio grezzo, la torre audio impara a generare effetti sonori realistici, nonché discorsi che trasmettono una ricca identità del parlante ed emozioni. La fusione viene ottenuta addestrando congiuntamente le torri video e audio identiche attraverso lo scambio a blocchi di informazioni temporali (tramite embedding scaled-RoPE) e semantiche (attraverso cross-attention bidirezionale) su un vasto corpus video. Il nostro modello consente la narrazione cinematografica con discorsi naturali ed effetti sonori precisi e contestualmente coerenti, producendo clip video di qualità cinematografica. Tutte le demo, il codice e i pesi del modello sono pubblicati su https://aaxwaz.github.io/Ovi.
Nonostante i recenti e rapidi progressi nella sicurezza dell'IA, gli attuali modelli linguistici di grandi dimensioni rimangono vulnerabili ad attacchi avversari in contesti di interazione multi-turn, dove gli aggressori adattano strategicamente i loro prompt attraverso i turni di conversazione, rappresentando una sfida più critica e realistica. Gli approcci esistenti che individuano vulnerabilità di sicurezza si basano su red-teaming manuale con esperti umani o impiegano metodi automatizzati utilizzando modelli predefiniti e dati di attacco curati da esseri umani, concentrandosi principalmente su attacchi single-turn. Tuttavia, questi metodi non hanno esplorato il vasto spazio dei possibili attacchi multi-turn, trascurando di considerare traiettorie di attacco innovative che emergono da dinamiche di dialogo complesse e pianificazione strategica della conversazione. Questa lacuna è particolarmente critica alla luce dei recenti risultati che dimostrano come i LLM siano significativamente più vulnerabili agli attacchi multi-turn rispetto a quelli single-turn. Proponiamo DialTree-RPO, un framework di apprendimento per rinforzo on-policy integrato con la ricerca ad albero che scopre autonomamente strategie di attacco multi-turn diversificate, trattando il dialogo come un problema decisionale sequenziale, consentendo un'esplorazione sistematica senza dati curati manualmente. Attraverso esperimenti estensivi, il nostro approccio non solo ottiene un ASR superiore del 25,9% su 10 modelli target rispetto agli approcci state-of-the-art precedenti, ma scopre anche efficacemente nuove strategie di attacco apprendendo politiche di dialogo ottimali che massimizzano il successo dell'attacco su più turni.
Lo steering delle attivazioni è una tecnica promettente per controllare il comportamento dei modelli linguistici (LLM) aggiungendo vettori semanticamente significativi direttamente negli stati nascosti del modello durante l'inferenza. Spesso viene presentato come un'alternativa precisa, interpretabile e potenzialmente più sicura rispetto al fine-tuning. Dimostriamo il contrario: lo steering compromette sistematicamente le salvaguardie di allineamento del modello, facendolo conformare a richieste dannose. Attraverso esperimenti estesi su diverse famiglie di modelli, mostriamo che anche lo steering in una direzione casuale può aumentare la probabilità di conformità dannosa dallo 0% al 2-27%. In modo allarmante, lo steering di caratteristiche benigne da un autoencoder sparso (SAE), una fonte comune di direzioni interpretabili, aumenta ulteriormente questi tassi del 2-4%. Infine, dimostriamo che combinando 20 vettori campionati casualmente che violano un singolo prompt si crea un attacco universale, aumentando significativamente la conformità dannosa su richieste non viste. Questi risultati mettono in discussione il paradigma della sicurezza attraverso l'interpretabilità, mostrando che un controllo preciso sugli interni del modello non garantisce un controllo preciso sul comportamento del modello.
Valutare la qualità degli output dei Modelli Linguistici di Grande Dimensione (LLM) rappresenta una sfida cruciale. I metodi precedenti si basano su informazioni a livello di testo (ad esempio, modelli di ricompensa, voto a maggioranza), che possono sovraadattarsi a indizi superficiali, o su una fiducia calibrata derivante dalle probabilità dei token, che fallirebbe su modelli meno calibrati. Tuttavia, entrambi questi segnali sono, in realtà, proiezioni parziali di una fonte di informazioni più ricca: gli stati interni nascosti del modello. Gli strati iniziali, più vicini agli embedding dei token, preservano caratteristiche semantiche e lessicali che sostengono i giudizi basati sul testo, mentre gli strati successivi si allineano sempre più con i logit di output, incorporando informazioni relative alla fiducia. Questo articolo esplora direttamente gli stati nascosti come fondamento unificato per la verifica. Dimostriamo che la correttezza di una soluzione è codificata come una firma geometricamente separabile all'interno della traiettoria delle attivazioni nascoste. Per validare ciò, presentiamo Clue (Clustering and Experience-based Verification), un verificatore volutamente minimalista e non parametrico. Senza parametri addestrabili, CLUE riassume ogni traccia di ragionamento con un delta dello stato nascosto e classifica la correttezza attraverso la distanza al centroide più vicino ai cluster di "successo" e "fallimento" formati dall'esperienza passata. La semplicità di questo metodo evidenzia la forza del segnale sottostante. Empiricamente, CLUE supera costantemente i baseline di LLM-as-a-judge eguaglia o supera i metodi moderni basati sulla fiducia nel riordinare i candidati, migliorando sia l'accuratezza top-1 che quella a maggioranza su AIME 24/25 e GPQA. Come punto di forza, su AIME 24 con un modello da 1.5B, CLUE aumenta l'accuratezza dal 56.7% (maggioranza@64) al 70.0% (top-maggioranza@16).
I modelli linguistici di grandi dimensioni (LLM) si stanno rapidamente affermando come sistemi potenti per l'automazione di attività in vari ambiti. Tuttavia, i progressi nella comunità open-source sono limitati dalla mancanza di dati di addestramento di alta qualità e con licenza permissiva per agenti strumentali. I dataset esistenti sono spesso limitati in termini di diversità, realismo e complessità, in particolare per quanto riguarda le interazioni multi-strumento e multi-turn. Per colmare questa lacuna, presentiamo Toucan, il più grande dataset pubblico di agenti strumentali disponibile fino ad oggi, contenente 1,5 milioni di traiettorie sintetizzate da quasi 500 Protocolli di Contesto Modello (MCP) del mondo reale. A differenza dei lavori precedenti, Toucan sfrutta ambienti MCP autentici per generare compiti diversificati, realistici e impegnativi con traiettorie che coinvolgono l'esecuzione reale di strumenti. La nostra pipeline produce prima un ampio spettro di query di utilizzo di strumenti utilizzando cinque modelli distinti, applica un filtraggio di qualità basato su modelli e poi genera traiettorie agentiche con tre modelli insegnanti utilizzando due framework agentici. Una rigorosa validazione basata su regole e modelli garantisce output di alta qualità. Introduciamo inoltre tre meccanismi di estensione per diversificare ulteriormente i compiti e simulare conversazioni multi-turn. I modelli fine-tuned su Toucan superano le controparti closed-source più grandi sul benchmark BFCL V3 e spingono in avanti la frontiera di Pareto su MCP-Universe Bench.
Gli agenti per l'uso del computer (CUAs) promettono di automatizzare le attività digitali quotidiane, ma la loro inaffidabilità e alta variabilità ne ostacolano l'applicazione a compiti complessi e a lungo termine. Introduciamo Behavior Best-of-N (bBoN), un metodo che scala sugli agenti generando più esecuzioni e selezionando tra di esse utilizzando narrazioni comportamentali che descrivono le esecuzioni degli agenti. Questo metodo consente sia un'ampia esplorazione che una selezione di traiettorie basata su principi, migliorando sostanzialmente la robustezza e i tassi di successo. Su OSWorld, il nostro metodo di scaling bBoN stabilisce un nuovo stato dell'arte (SoTA) al 69,9%, superando significativamente i metodi precedenti e avvicinandosi alle prestazioni umane al 72%, con ablazioni complete che convalidano le scelte progettuali chiave. Dimostriamo inoltre forti risultati di generalizzazione su diversi sistemi operativi in WindowsAgentArena e AndroidWorld. In modo cruciale, i nostri risultati evidenziano l'efficacia irragionevole dello scaling dei CUAs, quando eseguito correttamente: uno scaling efficace richiede una comprensione e una selezione strutturata delle traiettorie, e bBoN fornisce un framework pratico per raggiungere questo obiettivo.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) migliora il ragionamento nei grandi modelli linguistici (LLM), ma incontra difficoltà nell'esplorazione, un problema che persiste anche per i modelli linguistici multimodali (MLLM). I metodi attuali trattano l'input visivo come una condizione fissa e deterministica, trascurando una fonte critica di ambiguità e faticando a costruire politiche robuste rispetto a variazioni visive plausibili. Introduciamo VOGUE (Visual Uncertainty Guided Exploration), un metodo innovativo che sposta l'esplorazione dallo spazio di output (testo) a quello di input (visivo). Trattando l'immagine come un contesto stocastico, VOGUE quantifica la sensibilità della politica alle perturbazioni visive utilizzando la divergenza KL simmetrica tra un ramo "grezzo" e uno "rumoroso", creando un segnale diretto per un'esplorazione consapevole dell'incertezza. Questo segnale modella l'obiettivo di apprendimento attraverso un bonus proporzionale all'incertezza, che, combinato con un bonus sull'entropia dei token e una pianificazione di campionamento scalata, bilancia efficacemente esplorazione e sfruttamento. Implementato all'interno di GRPO su due scale di modello (Qwen2.5-VL-3B/7B), VOGUE aumenta l'accuratezza pass@1 in media del 2,6% su tre benchmark di matematica visiva e del 3,7% su tre benchmark di ragionamento in dominio generale, migliorando contemporaneamente le prestazioni pass@4 e mitigando il decadimento dell'esplorazione comunemente osservato durante il fine-tuning RL. Il nostro lavoro dimostra che ancorare l'esplorazione all'incertezza intrinseca degli input visivi è una strategia efficace per migliorare il ragionamento multimodale.
I modelli linguistici di grandi dimensioni (LLM) spesso generano allucinazioni -- contenuti non supportati che minano l'affidabilità. Mentre la maggior parte dei lavori precedenti inquadra il rilevamento delle allucinazioni come un compito binario, molte applicazioni reali richiedono l'identificazione di segmenti allucinati, che è un processo decisionale a più fasi. Ciò solleva naturalmente la questione se il ragionamento esplicito possa aiutare nel complesso compito di rilevare i segmenti di allucinazione. Per rispondere a questa domanda, valutiamo prima modelli preaddestrati con e senza il ragionamento a catena di pensiero (CoT), e dimostriamo che il ragionamento CoT ha il potenziale di generare almeno una risposta corretta quando campionato più volte. Motivati da ciò, proponiamo RL4HS, un framework di apprendimento per rinforzo che incentiva il ragionamento con una funzione di ricompensa a livello di segmento. RL4HS si basa sull'ottimizzazione relativa delle politiche di gruppo e introduce l'ottimizzazione delle politiche consapevole della classe per mitigare il problema dello squilibrio delle ricompense. Gli esperimenti sul benchmark RAGTruth (riassunto, risposta a domande, dati-a-testo) mostrano che RL4HS supera i modelli di ragionamento preaddestrati e l'ottimizzazione supervisionata, dimostrando la necessità dell'apprendimento per rinforzo con ricompense a livello di segmento per rilevare i segmenti di allucinazione.
L'intelligenza artificiale sta attraversando un cambiamento di paradigma, passando da modelli linguistici chiusi a sistemi di agenti interconnessi capaci di percezione esterna e integrazione delle informazioni. Come rappresentazione emblematica, i Deep Research Agent (DRA) dimostrano sistematicamente capacità di scomposizione dei compiti, recupero incrociato da diverse fonti, ragionamento multi-stadio e output strutturato, migliorando significativamente le prestazioni su compiti complessi e aperti. Tuttavia, i benchmark esistenti rimangono carenti nelle dimensioni di valutazione, nella formattazione delle risposte e nei meccanismi di punteggio, limitando la loro capacità di valutare efficacemente tali sistemi. Questo articolo introduce un benchmark rigoroso e un framework di valutazione multidimensionale specificamente progettato per i DRA e le risposte in formato report. Il benchmark comprende 214 query complesse curate da esperti, distribuite in 10 ampi domini tematici, ciascuna accompagnata da bundle di riferimento costruiti manualmente per supportare una valutazione composita. Il framework consente una valutazione completa dei report di lunga durata generati dai DRA, incorporando metriche di punteggio integrate per la qualità semantica, il focus tematico e l'affidabilità del recupero. Esperimenti estensivi confermano la prestazione superiore dei DRA mainstream rispetto ai modelli di ragionamento potenziati da strumenti di ricerca web, ma rivelano un ampio margine di miglioramento. Questo studio fornisce una solida base per la valutazione delle capacità, il perfezionamento architetturale e l'avanzamento del paradigma nei sistemi DRA.
Il ragionamento visivo fine-grained rimane una sfida fondamentale per i modelli linguistici multimodali di grandi dimensioni (MLLM). Il recente ReasonMap evidenzia questa lacuna dimostrando che anche gli MLLM avanzati faticano nel ragionamento spaziale in contesti strutturati e ricchi di informazioni come le mappe di transito, un compito di chiara importanza pratica e scientifica. Tuttavia, il reinforcement learning (RL) standard su tali compiti è ostacolato da ricompense sparse e ottimizzazione instabile. Per affrontare questo problema, abbiamo prima costruito ReasonMap-Plus, un dataset esteso che introduce segnali di ricompensa densi attraverso task di Visual Question Answering (VQA), consentendo un addestramento efficace in fase di cold-start per le abilità di comprensione visiva fine-grained. Successivamente, proponiamo RewardMap, un framework RL multi-stage progettato per migliorare sia la comprensione visiva che le capacità di ragionamento degli MLLM. RewardMap incorpora due design chiave. In primo luogo, introduciamo un design di ricompensa sensibile alla difficoltà che include ricompense dettagliate, affrontando direttamente il problema delle ricompense sparse fornendo una supervisione più ricca. In secondo luogo, proponiamo uno schema RL multi-stage che avvia l'addestramento da task di percezione semplice a task di ragionamento complesso, offrendo una strategia di cold-start più efficace rispetto al tradizionale Supervised Fine-Tuning (SFT). Gli esperimenti su ReasonMap e ReasonMap-Plus dimostrano che ogni componente di RewardMap contribuisce a guadagni di prestazioni consistenti, mentre la loro combinazione produce i migliori risultati. Inoltre, i modelli addestrati con RewardMap raggiungono un miglioramento medio del 3,47% su 6 benchmark che spaziano dal ragionamento spaziale, al ragionamento visivo fine-grained, a task generali oltre le mappe di transito, sottolineando una migliore comprensione visiva e capacità di ragionamento.
Presentiamo Aristotle, un sistema di intelligenza artificiale che combina verifica formale con ragionamento informale, raggiungendo prestazioni equivalenti a una medaglia d'oro sui problemi delle Olimpiadi Internazionali di Matematica del 2025. Aristotle integra tre componenti principali: un sistema di ricerca di dimostrazioni in Lean, un sistema di ragionamento informale che genera e formalizza lemmi, e un risolutore dedicato per la geometria. Il nostro sistema dimostra prestazioni all'avanguardia con proprietà di scalabilità favorevoli per la dimostrazione automatica di teoremi.
L'architettura Transformer, sostenuta dal meccanismo di Multi-Head Attention (MHA), è diventata lo standard de facto per i modelli all'avanguardia nell'intelligenza artificiale. Tuttavia, la complessità computazionale quadratica di MHA rispetto alla lunghezza della sequenza rappresenta un significativo ostacolo alla scalabilità, in particolare per le applicazioni che coinvolgono contesti lunghi. Le soluzioni prevalenti, come Multi-Query Attention (MQA) e Grouped-Query Attention (GQA), hanno affrontato efficacemente il collo di bottiglia della larghezza di banda della memoria che domina la latenza dell'inferenza autoregressiva condividendo le proiezioni di Chiave e Valore. Sebbene di grande successo, questi metodi non riducono il numero fondamentale di operazioni in virgola mobile (FLOP) richiesto per il calcolo del punteggio di attenzione, che rimane un collo di bottiglia critico per l'addestramento e l'elaborazione di sequenze complete. Questo articolo introduce Sparse Query Attention (SQA), una nuova architettura di attenzione che persegue un percorso di ottimizzazione alternativo e complementare. Invece di ridurre le teste di Chiave/Valore, SQA riduce il numero di teste di Query. Questa modifica architetturale diminuisce direttamente la complessità computazionale del meccanismo di attenzione di un fattore proporzionale alla riduzione delle teste di query, riducendo così i FLOP complessivi. Questo lavoro presenta le basi teoriche di SQA, la sua formulazione matematica e una famiglia di varianti architetturali. Benchmark empirici su sequenze lunghe (32k-200k token) dimostrano che SQA può ottenere miglioramenti significativi della velocità di elaborazione fino a 3x in scenari vincolati dal calcolo come il pre-addestramento del modello, il fine-tuning e i task basati su encoder, con un impatto minimo sulla qualità del modello in esperimenti preliminari su piccola scala. SQA è stata scoperta casualmente durante lo sviluppo della prossima architettura Reactive Transformer, suggerendo il suo potenziale come strumento potente per costruire modelli più efficienti e scalabili.
L'editing di immagini basato sul trascinamento ha a lungo sofferto di distorsioni nella regione target, principalmente perché i priori dei modelli base precedenti, come Stable Diffusion, sono insufficienti per proiettare i latenti ottimizzati nuovamente sul manifold delle immagini naturali. Con il passaggio dai DDPM basati su UNet a DiT più scalabili con flow matching (ad esempio, SD3.5, FLUX), i priori generativi sono diventati significativamente più forti, consentendo progressi in vari compiti di editing. Tuttavia, l'editing basato sul trascinamento non ha ancora beneficiato di questi priori più robusti. Questo lavoro propone il primo framework per sfruttare efficacemente il ricco prior di FLUX per l'editing basato sul trascinamento, denominato DragFlow, ottenendo miglioramenti sostanziali rispetto ai baseline. Inizialmente, dimostriamo che applicare direttamente l'editing basato su punti a DiT produce risultati scadenti: a differenza delle caratteristiche altamente compresse delle UNet, le caratteristiche di DiT non sono sufficientemente strutturate per fornire una guida affidabile per la supervisione del movimento punto per punto. Per superare questa limitazione, DragFlow introduce un paradigma di editing basato su regioni, in cui le trasformazioni affini consentono una supervisione delle caratteristiche più ricca e coerente. Inoltre, integriamo adattatori di personalizzazione pre-addestrati per domini aperti (ad esempio, IP-Adapter) per migliorare la coerenza del soggetto, preservando al contempo la fedeltà dello sfondo attraverso vincoli rigidi basati su maschere di gradiente. Modelli linguistici multimodali di grandi dimensioni (MLLM) vengono ulteriormente impiegati per risolvere le ambiguità dei compiti. Per la valutazione, abbiamo curato un nuovo benchmark di trascinamento basato su regioni (ReD Bench) che include istruzioni di trascinamento a livello di regione. Esperimenti estesi su DragBench-DR e ReD Bench dimostrano che DragFlow supera sia i baseline basati su punti che quelli basati su regioni, stabilendo un nuovo stato dell'arte nell'editing di immagini basato sul trascinamento. Codice e dataset saranno pubblicamente disponibili alla pubblicazione.
Le allucinazioni contestualizzate sono casi in cui gli output del modello contengono informazioni non verificabili rispetto al testo sorgente. Studiamo l'applicabilità dei modelli linguistici di grandi dimensioni (LLM) per localizzare tali allucinazioni, come alternativa più pratica alle complesse pipeline di valutazione esistenti. In assenza di benchmark consolidati per la meta-valutazione della localizzazione delle allucinazioni, ne costruiamo uno su misura per gli LLM, che coinvolge un'annotazione umana impegnativa di oltre 1.000 esempi. Integriamo il benchmark con un protocollo di valutazione basato su LLM, verificandone la qualità attraverso una valutazione umana. Poiché le rappresentazioni esistenti delle allucinazioni limitano i tipi di errori che possono essere espressi, proponiamo una nuova rappresentazione basata su descrizioni testuali libere, che cattura l'intera gamma di possibili errori. Condurremo uno studio completo, valutando quattro LLM su larga scala, che evidenzia la difficoltà del benchmark, poiché il modello migliore raggiunge un punteggio F1 di soli 0,67. Attraverso un'analisi attenta, offriamo approfondimenti sulle strategie di prompting ottimali per il compito e identifichiamo i principali fattori che lo rendono impegnativo per gli LLM: (1) una tendenza a contrassegnare erroneamente dettagli mancanti come incoerenti, nonostante venga loro richiesto di controllare solo i fatti nell'output; e (2) difficoltà con output che contengono informazioni fattualmente corrette assenti dalla sorgente - e quindi non verificabili - a causa dell'allineamento con la conoscenza parametrica del modello.
Sebbene gli attuali grandi modelli visione-linguaggio (VLMs) abbiano fatto progressi nella comprensione e nel ragionamento multimodale, le loro capacità percettive e di ragionamento di base rimangono limitate. In particolare, anche su semplici compiti di puzzle, i VLMs esistenti performano quasi casualmente, rivelando carenze nelle capacità fondamentali di percezione e ragionamento. Sebbene dati visione-linguaggio di alta qualità possano migliorare queste capacità, la loro scarsità e la limitata scalabilità impongono vincoli significativi. Per affrontare questo problema, proponiamo AGILE, un Agentic jiGsaw Interaction Learning per potenziare la percezione visiva e il ragionamento nei VLMs. AGILE formula la risoluzione dei puzzle come un processo interattivo, consentendo al modello di impegnarsi progressivamente con l'ambiente. Ad ogni passo, il modello genera codice eseguibile per eseguire un'azione basata sullo stato corrente, mentre l'ambiente fornisce un feedback visivo dettagliato per guidare il completamento del compito. Attraverso questo ciclo iterativo di osservazione e interazione, il modello migliora gradualmente le sue capacità percettive e di ragionamento tramite esplorazione e feedback. I risultati sperimentali mostrano che AGILE non solo aumenta significativamente le prestazioni su compiti di puzzle di varia complessità (ad esempio, aumentando l'accuratezza dal 9,5% all'82,8% nell'impostazione 2x2), ma dimostra anche una forte generalizzazione su 9 compiti visivi generali, ottenendo un miglioramento medio del 3,1%. Questi risultati indicano miglioramenti notevoli sia nelle capacità percettive che di ragionamento. Questo lavoro apre una nuova strada per avanzare il ragionamento e la generalizzazione nei modelli multimodali e fornisce una soluzione efficiente e scalabile alla scarsità di dati di apprendimento per rinforzo multimodale. Il codice e i dataset sono disponibili su https://github.com/yuzeng0-0/AGILE.
L'anonimizzazione del testo è essenziale per sviluppare e implementare l'IA in modo responsabile in ambiti ad alto rischio come la sanità, i servizi sociali e il diritto. In questo lavoro, proponiamo una metodologia innovativa per la generazione sintetica di testo che preserva la privacy, sfruttando i principi della de-identificazione e la teoria del "Hiding In Plain Sight" (HIPS). Il nostro approccio introduce codici di controllo consapevoli delle entità per guidare la generazione controllabile utilizzando l'apprendimento in contesto (ICL) o il prefix tuning. La variante ICL garantisce livelli di privacy coerenti con il sistema di de-identificazione sottostante, mentre la variante prefix tuning incorpora una strategia di mascheramento personalizzata e una funzione di perdita per supportare una generazione scalabile e di alta qualità. Esperimenti su dataset legali e clinici dimostrano che il nostro metodo raggiunge un forte equilibrio tra protezione della privacy e utilità, offrendo una soluzione pratica ed efficace per la generazione sintetica di testo in domini sensibili.
La comprensione video nei modelli linguistici multimodali rimane limitata dalla lunghezza del contesto: i modelli spesso perdono fotogrammi chiave di transizione e faticano a mantenere la coerenza su scale temporali lunghe. Per affrontare questo problema, adattiamo l'Attenzione Sparsa Nativa (NSA) ai modelli video-linguistici. Il nostro metodo, VideoNSA, adatta Qwen2.5-VL attraverso un addestramento end-to-end su un dataset di 216K istruzioni video. Utilizziamo un approccio ibrido consapevole dell'hardware per l'attenzione, preservando l'attenzione densa per il testo, mentre impieghiamo la NSA per il video. Rispetto ai baseline sparsi con compressione di token e senza addestramento, VideoNSA ottiene prestazioni migliorate nella comprensione di video lunghi, nel ragionamento temporale e nei benchmark spaziali. Un'ulteriore analisi di ablazione rivela quattro risultati chiave: (1) scalabilità affidabile fino a 128K token; (2) un'allocazione ottimale dell'attenzione globale-locale con un budget fisso; (3) modelli di utilizzo dei rami dipendenti dal compito; e (4) l'attenzione sparsa combinata apprendibile aiuta a indurre punti di attenzione dinamici.
I Sistemi Multi-Agente (MAS) potenziati da Modelli di Linguaggio Visivo (VLMs) abilitano compiti complessi, ma soffrono di un nuovo tipo di errore, il fenomeno di amplificazione delle allucinazioni visive multi-agente, in cui le allucinazioni vengono generate da un singolo agente e amplificate da quelli successivi a causa dell'eccessiva dipendenza dal flusso testuale per trasmettere informazioni visive. Attraverso analisi dell'attenzione a livello di turno, strato e token, forniamo approfondimenti dettagliati sull'essenza dell'amplificazione delle allucinazioni riguardo alla riduzione dell'allocazione dell'attenzione visiva. Questo ci porta a identificare un sottoinsieme di token visivi con un picco di attenzione unimodale negli strati intermedi che preservano al meglio le evidenze visive, ma che gradualmente si riducono nei turni più profondi degli agenti, causando l'amplificazione delle allucinazioni visive nei MAS. Pertanto, proponiamo ViF, un paradigma di mitigazione leggero e plug-and-play che trasmette messaggi inter-agente con un Flusso Visivo basato sui token visivi selezionati e applica una riallocazione dell'attenzione per amplificare questo schema. I risultati sperimentali dimostrano che il nostro metodo riduce significativamente l'amplificazione delle allucinazioni, migliorando costantemente le prestazioni su otto benchmark basati su quattro strutture MAS comuni e dieci modelli di base. Il codice sorgente sarà disponibile all'indirizzo: https://github.com/YU-deep/ViF.git.
Il ridimensionamento al momento del test (Test-time Scaling, TTS) ha dimostrato un successo notevole nel potenziare i grandi modelli linguistici, ma la sua applicazione alla generazione autoregressiva (AR) di immagini basata sulla previsione del token successivo (Next-token Prediction, NTP) rimane in gran parte inesplorata. Gli approcci TTS esistenti per l'AR visivo (Visual AR, VAR), che si basano su una decodifica parziale frequente e su modelli di ricompensa esterni, sono poco adatti alla generazione di immagini basata su NTP a causa dell'incompletezza intrinseca dei risultati di decodifica intermedi. Per colmare questa lacuna, introduciamo ScalingAR, il primo framework TTS specificamente progettato per la generazione di immagini AR basata su NTP che elimina la necessità di decodifica precoce o ricompense ausiliarie. ScalingAR sfrutta l'entropia dei token come segnale innovativo nella generazione di token visivi e opera su due livelli di ridimensionamento complementari: (i) Livello Profilo, che trasmette uno stato di confidenza calibrato fondendo segnali intrinseci e condizionali; e (ii) Livello Politica, che utilizza questo stato per terminare adattivamente traiettorie a bassa confidenza e pianificare dinamicamente la guida per una forza di condizionamento appropriata alla fase. Gli esperimenti su benchmark generali e compositivi mostrano che ScalingAR (1) migliora i modelli di base del 12,5% su GenEval e del 15,2% su TIIF-Bench, (2) riduce efficientemente il consumo di token visivi del 62,0% superando i baseline, e (3) migliora con successo la robustezza, mitigando i cali di prestazioni del 26,0% in scenari impegnativi.
Il ragionamento richiede andare oltre il semplice pattern matching o la memorizzazione di soluzioni per identificare e implementare "procedure algoritmiche" che possano essere utilizzate per dedurre risposte a problemi complessi. Ciò richiede la comprensione delle primitive più rilevanti, dei risultati intermedi o delle procedure condivise, e la costruzione su di essi. Sebbene il reinforcement learning (RL) post-addestramento su lunghe catene di pensiero miri a scoprire questo tipo di comportamento algoritmico, la maggior parte delle tracce di ragionamento apprese dai modelli di grandi dimensioni non riesce a catturare o riutilizzare in modo coerente le procedure, finendo invece per deviare in esplorazioni verbose e degenerate. Per affrontare un ragionamento più efficace, introduciamo le astrazioni di ragionamento: descrizioni concise in linguaggio naturale di conoscenze procedurali e fattuali che guidano il modello verso l'apprendimento di un ragionamento di successo. Addestriamo i modelli a essere in grado di proporre più astrazioni dato un problema, seguito da RL che incentiva la costruzione di una soluzione utilizzando le informazioni fornite da queste astrazioni. Ciò risulta in un paradigma di addestramento RL a due giocatori, abbreviato come RLAD, che addestra congiuntamente un generatore di astrazioni e un generatore di soluzioni. Questa configurazione abilita efficacemente un'esplorazione strutturata, disaccoppia i segnali di apprendimento della proposta di astrazioni e della generazione di soluzioni, e migliora la generalizzazione a problemi più difficili. Mostriamo inoltre che allocare più risorse computazionali al tempo di test per generare astrazioni è più vantaggioso per le prestazioni rispetto alla generazione di più soluzioni con budget di test elevati, illustrando il ruolo delle astrazioni nel guidare un'esplorazione significativa.
L'apprendimento per rinforzo off-policy (RL) per i grandi modelli linguistici (LLM) sta attirando un interesse crescente, spinto dai vincoli pratici nelle applicazioni del mondo reale, dalla complessità dell'infrastruttura LLM-RL e dalla necessità di ulteriori innovazioni nelle metodologie RL. Sebbene il classico REINFORCE e le sue varianti moderne come l'ottimizzazione relativa di gruppo delle politiche (GRPO) siano tipicamente considerati algoritmi on-policy con una tolleranza limitata all'off-policy, in questo lavoro presentiamo una derivazione dai principi primi per il REINFORCE relativo di gruppo senza assumere una specifica distribuzione dei dati di addestramento, dimostrando che ammette un'interpretazione nativa off-policy. Questa prospettiva fornisce due principi generali per adattare REINFORCE a contesti off-policy: regolarizzare gli aggiornamenti delle politiche e modellare attivamente la distribuzione dei dati. La nostra analisi demistifica alcuni miti sui ruoli del campionamento di importanza e del clipping nel GRPO, unifica e reinterpreta due algoritmi recenti -- il Mirror Descent delle politiche online (OPMD) e il REINFORCE asimmetrico (AsymRE) -- come forme regolarizzate della funzione di perdita REINFORCE, e offre una giustificazione teorica per strategie apparentemente euristiche di ponderazione dei dati. Le nostre scoperte portano a intuizioni pratiche che sono validate con ampi studi empirici e aprono nuove opportunità per la progettazione di algoritmi basati su principi nell'RL off-policy per LLM. Il codice sorgente di questo lavoro è disponibile all'indirizzo https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
I modelli Vision-Language-Action (VLA) mirano a unificare percezione, comprensione del linguaggio e generazione di azioni, offrendo una forte generalizzazione cross-task e cross-scenario con un impatto significativo sull'AI incarnata. Tuttavia, gli attuali modelli VLA spesso mancano di un ragionamento esplicito passo-passo, emettendo invece azioni finali senza considerare vincoli di affordance o relazioni geometriche. Le loro pipeline post-addestramento raramente rafforzano la qualità del ragionamento, basandosi principalmente su fine-tuning supervisionato con un design di ricompensa debole. Per affrontare queste sfide, presentiamo VLA-R1, un VLA potenziato nel ragionamento che integra il Reinforcement Learning from Verifiable Rewards (RLVR) con il Group Relative Policy Optimization (GRPO) per ottimizzare sistematicamente sia il ragionamento che l'esecuzione. Nello specifico, progettiamo una strategia post-addestramento basata su RLVR con ricompense verificabili per l'allineamento delle regioni, la coerenza della traiettoria e la formattazione dell'output, rafforzando così la robustezza del ragionamento e l'accuratezza dell'esecuzione. Inoltre, sviluppiamo VLA-CoT-13K, un dataset di alta qualità che fornisce una supervisione a catena del pensiero esplicitamente allineata con annotazioni di affordance e traiettoria. Inoltre, valutazioni estensive su piattaforme in-dominio, out-of-dominio, di simulazione e robot reali dimostrano che VLA-R1 raggiunge una generalizzazione e una performance nel mondo reale superiori rispetto ai precedenti metodi VLA. Prevediamo di rilasciare il modello, il codice e il dataset in seguito alla pubblicazione di questo lavoro. Codice: https://github.com/GigaAI-research/VLA-R1. Sito web: https://gigaai-research.github.io/VLA-R1.
Le Reti Neurali su Grafi (GNN) rappresentano l'architettura dominante per l'apprendimento automatico molecolare, in particolare per la previsione delle proprietà molecolari e per i potenziali interatomici basati su machine learning (MLIP). Le GNN eseguono il passaggio di messaggi su grafi predefiniti, spesso indotti da un raggio di cutoff fisso o da uno schema basato sui k-vicini più prossimi. Sebbene questo design si allinei con la località presente in molti compiti molecolari, un grafo hard-coded può limitare l'espressività a causa del campo ricettivo fisso e rallentare l'inferenza con operazioni su grafi sparsi. In questo lavoro, indaghiamo se i Transformer puri e non modificati, addestrati direttamente sulle coordinate cartesiane—senza grafi predefiniti o prior fisici—possano approssimare le energie e le forze molecolari. Come punto di partenza per la nostra analisi, dimostriamo come addestrare un Transformer per ottenere errori assoluti medi competitivi su energia e forza, con un budget di calcolo di addestramento equivalente, rispetto a una GNN equivariante all'avanguardia sul dataset OMol25. Scopriamo che il Transformer apprende schemi fisicamente consistenti—come pesi di attenzione che decadono inversamente con la distanza interatomica—e li adatta in modo flessibile in diversi ambienti molecolari grazie all'assenza di bias hard-coded. L'uso di un Transformer standard consente anche miglioramenti prevedibili rispetto alla scalabilità delle risorse di addestramento, in linea con le leggi di scalatura empiriche osservate in altri domini. I nostri risultati dimostrano che molte proprietà favorevoli delle GNN possono emergere in modo adattivo nei Transformer, mettendo in discussione la necessità di bias induttivi hard-coded sui grafi e indicando architetture standardizzate e scalabili per la modellazione molecolare.
La generazione automatica di referti radiologici strutturati (SRRG) da immagini radiografiche del torace offre un potenziale significativo per ridurre il carico di lavoro dei radiologi, producendo referti in formati strutturati che garantiscono chiarezza, coerenza e aderenza agli standard di refertazione clinica. Mentre i radiologi utilizzano efficacemente i contesti clinici disponibili nel loro ragionamento diagnostico, i sistemi SRRG esistenti trascurano questi elementi essenziali. Questa lacuna fondamentale porta a problemi critici, tra cui allucinazioni temporali quando si fa riferimento a contesti clinici inesistenti. Per affrontare queste limitazioni, proponiamo un SRRG contestualizzato (C-SRRG) che incorpora in modo completo un ricco contesto clinico per la generazione di referti. Abbiamo curato un dataset C-SRRG integrando un contesto clinico completo che comprende 1) immagini radiografiche multi-proiezione, 2) indicazione clinica, 3) tecniche di imaging e 4) studi precedenti con confronti corrispondenti basati sulle storie dei pazienti. Attraverso un ampio benchmarking con modelli linguistici multimodali all'avanguardia, dimostriamo che l'incorporazione del contesto clinico con il C-SRRG proposto migliora significativamente la qualità della generazione dei referti. Rilasciamo pubblicamente dataset, codice e checkpoint per facilitare future ricerche sulla generazione automatica di referti radiologici allineati clinicamente all'indirizzo https://github.com/vuno/contextualized-srrg.
Gli agenti per l'uso del computer (Computer-Use Agents, CUAs) rappresentano una classe di agenti sempre più diffusa che esegue azioni sulle interfacce grafiche (GUI) per raggiungere gli obiettivi degli utenti. In questo articolo, dimostriamo che i CUAs mostrano costantemente una Tendenza Cieca verso l'Obiettivo (Blind Goal-Directedness, BGD): una propensione a perseguire obiettivi indipendentemente dalla fattibilità, sicurezza, affidabilità o contesto. Identifichiamo tre modelli prevalenti di BGD: (i) mancanza di ragionamento contestuale, (ii) assunzioni e decisioni in condizioni di ambiguità, e (iii) obiettivi contraddittori o irrealizzabili. Sviluppiamo BLIND-ACT, un benchmark di 90 attività che catturano questi tre modelli. Basato su OSWorld, BLIND-ACT fornisce ambienti realistici e utilizza giudici basati su LLM per valutare il comportamento degli agenti, raggiungendo un accordo del 93,75% con le annotazioni umane. Utilizziamo BLIND-ACT per valutare nove modelli all'avanguardia, tra cui Claude Sonnet e Opus 4, Computer-Use-Preview e GPT-5, osservando alti tassi medi di BGD (80,8%) tra di essi. Dimostriamo che la BGD espone rischi sottili che emergono anche quando gli input non sono direttamente dannosi. Sebbene interventi basati su prompt riducano i livelli di BGD, permangono rischi significativi, evidenziando la necessità di interventi più robusti durante l'addestramento o l'inferenza. L'analisi qualitativa rivela i modelli di fallimento osservati: bias dell'esecuzione prioritaria (concentrarsi su come agire piuttosto che sul se agire), disconnessione pensiero-azione (esecuzione divergente dal ragionamento) e primato della richiesta (giustificare azioni a causa della richiesta dell'utente). Identificare la BGD e introdurre BLIND-ACT getta le basi per future ricerche sullo studio e la mitigazione di questo rischio fondamentale e per garantire un impiego sicuro dei CUAs.
I modelli di apprendimento di rappresentazioni multimodali hanno dimostrato un funzionamento efficace in compiti complessi, e l'integrazione di modelli visione-linguaggio (VLMs) ha ulteriormente abilitato i modelli di embedding con capacità di seguire istruzioni. Tuttavia, i modelli di embedding esistenti mancano di capacità visivo-interattive per specificare regioni di interesse da parte degli utenti (ad esempio, punto, bounding box, maschera), che sono state esplorate nei modelli generativi per ampliare la loro applicabilità interattiva umana. Dotare i modelli di embedding di interazioni visive non solo sbloccherebbe nuove applicazioni con un ancoraggio localizzato dell'intento dell'utente, che rimane inesplorato, ma consentirebbe anche ai modelli di apprendere informazioni a livello di entità all'interno delle immagini per integrare le loro rappresentazioni globali nei compiti di embedding convenzionali. In questo articolo, proponiamo un nuovo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) che estende le capacità del modello di segmentazione e del modello visione-linguaggio al campo dell'apprendimento di rappresentazioni. In VIRTUE, il modello di segmentazione può elaborare prompt visivi che individuano regioni specifiche all'interno di un'immagine, consentendo così all'embedder di gestire scenari complessi e ambigui con maggiore precisione. Per valutare la capacità visivo-interattiva di VIRTUE, introduciamo un benchmark su larga scala di Segmentazione e Recupero di Didascalie di Scene (SCaR) composto da 1 milione di campioni che mira a recuperare la didascalia testuale considerando congiuntamente l'entità con un oggetto specifico e la scena dell'immagine. VIRTUE raggiunge costantemente prestazioni all'avanguardia con miglioramenti significativi in 36 task universali MMEB (3,1%-8,5%) e cinque task visivo-interattivi SCaR (15,2%-20,3%).
La previsione di serie temporali è fondamentale per il processo decisionale in ambiti diversificati come l'energia, la finanza, il clima e la salute pubblica. Nella pratica, i previsori si trovano ad affrontare migliaia di serie brevi e rumorose che variano in frequenza, qualità e orizzonte temporale, dove il costo principale non risiede nell'adattamento del modello, ma nel preprocessamento, nella validazione e nell'ensembling laboriosi necessari per ottenere previsioni affidabili. I modelli statistici e di deep learning prevalenti sono adattati a specifici dataset o domini e generalizzano in modo insoddisfacente. È quindi urgente la necessità di un framework generale e agnostico rispetto al dominio che minimizzi l'intervento umano. In questo articolo, introduciamo TimeSeriesScientist (TSci), il primo framework agentico guidato da LLM per la previsione generale di serie temporali. Il framework comprende quattro agenti specializzati: Curator esegue diagnostiche guidate da LLM potenziate da strumenti esterni che ragionano sulle statistiche dei dati per scegliere un preprocessamento mirato; Planner riduce lo spazio delle ipotesi nella scelta del modello sfruttando diagnostiche multimodali e pianificazione autonoma sull'input; Forecaster esegue l'adattamento e la validazione del modello e, in base ai risultati, seleziona in modo adattivo la migliore configurazione del modello e la strategia di ensembling per produrre previsioni finali; e Reporter sintetizza l'intero processo in un report completo e trasparente. Con razionali in linguaggio naturale trasparenti e report esaustivi, TSci trasforma il flusso di lavoro di previsione in un sistema white-box che è sia interpretabile che estendibile tra diversi compiti. I risultati empirici su otto benchmark consolidati dimostrano che TSci supera costantemente sia i baseline statistici che quelli basati su LLM, riducendo l'errore di previsione in media del 10,4% e del 38,2%, rispettivamente. Inoltre, TSci produce un report chiaro e rigoroso che rende il flusso di lavoro di previsione più trasparente e interpretabile.
I modelli Text-to-Image (T2I) eccellono nel gestire prompt con una singola entità, ma incontrano difficoltà con descrizioni multi-soggetto, mostrando spesso perdita di attributi, intreccio di identità e omissioni di soggetti. Introduciamo il primo framework teorico con un obiettivo ottimizzabile e basato su principi per orientare la dinamica del campionamento verso la fedeltà multi-soggetto. Visualizzando il flow matching (FM) attraverso il controllo ottimo stocastico (SOC), formuliamo la separazione dei soggetti come controllo su un campionatore FM addestrato. Ciò porta a due algoritmi indipendenti dall'architettura: (i) un controllore test-time senza addestramento che perturba la velocità di base con un aggiornamento a singolo passaggio, e (ii) Adjoint Matching, una regola di fine-tuning leggera che regredisce una rete di controllo su un segnale aggiunto inverso preservando le capacità del modello di base. La stessa formulazione unifica euristiche di attenzione precedenti, si estende ai modelli di diffusione tramite una corrispondenza flow-diffusion e fornisce il primo percorso di fine-tuning esplicitamente progettato per la fedeltà multi-soggetto. Empiricamente, su Stable Diffusion 3.5, FLUX e Stable Diffusion XL, entrambi gli algoritmi migliorano costantemente l'allineamento multi-soggetto mantenendo lo stile del modello di base. Il controllo test-time è eseguito in modo efficiente su GPU commerciali, e i controllori fine-tuned addestrati su prompt limitati generalizzano a prompt non visti. Inoltre, evidenziamo FOCUS (Flow Optimal Control for Unentangled Subjects), che raggiunge una fedeltà multi-soggetto all'avanguardia tra i modelli.
L'addestramento al ragionamento incentiva i modelli linguistici di grandi dimensioni (LLM) a produrre lunghe catene di pensiero (long CoT), il che, tra le altre cose, consente loro di esplorare strategie di soluzione con autocontrollo. Ciò si traduce in una maggiore accuratezza, ma aumenta la lunghezza del contesto, il costo computazionale/token e la latenza delle risposte. Ci chiediamo: i modelli attuali possono sfruttare la loro metacognizione per fornire altre combinazioni su questa frontiera di Pareto, ad esempio una migliore accuratezza con una lunghezza del contesto e/o una latenza inferiori? In astratto, consideriamo il modello come un operatore di miglioramento sui propri "pensieri" con un continuum di strategie possibili. Identifichiamo un'interessante famiglia di inferenze, Parallel-Distill-Refine (PDR), che esegue le seguenti operazioni: (i) genera bozze diverse in parallelo; (ii) le distilla in un'area di lavoro testuale limitata; e (iii) le raffina condizionandole su questa area di lavoro, producendo un output che alimenta il round successivo. È importante notare che la lunghezza del contesto (e quindi il costo computazionale) è controllabile tramite il grado di parallelismo e non è più confusa con il numero totale di token generati. Riportiamo istanze PDR di modelli attuali che offrono una migliore accuratezza rispetto alle long CoT pur avendo una latenza inferiore. Impostando il grado di parallelismo a 1 si ottiene un interessante sottocaso, il Sequential Refinement (SR) (miglioramento iterativo di una singola risposta candidata), che fornisce prestazioni superiori alle long CoT. Il successo di tali orchestrazioni di modelli solleva la questione se un ulteriore addestramento potrebbe spostare la frontiera di Pareto. A tal fine, addestriamo un modello di pensiero da 8B con Reinforcement Learning (RL) per renderlo coerente con PDR come metodo di inferenza. Su compiti matematici con risposte verificabili, pipeline iterative superano le baseline a passaggio singolo con budget sequenziali equivalenti, con PDR che fornisce i maggiori guadagni (ad esempio, +11% su AIME 2024 e +9% su AIME 2025).
Il parallel scaling dell'inferenza di LLM prevede il campionamento di un insieme di N>1 risposte per un singolo prompt di input. Tuttavia, queste N risposte parallele tendono a essere generate in modo indipendente l'una dall'altra, suddividendo le risorse di calcolo e lasciando potenzialmente utili informazioni in una generazione non sfruttate dalle altre. Ciò è in contrasto con il response length scaling, dove il calcolo passato viene utilizzato in tutti i passaggi futuri. Per ottenere risposte e insiemi di risposte di qualità superiore, proponiamo Bridge per generare risposte interdipendenti in parallelo, ripensando gli stati nascosti degli LLM in batch come tensori olistici piuttosto che come sezioni indipendenti. Con solo una piccola quantità (2,8%-5,1%) di nuovi parametri, Bridge migliora i guadagni relativi di accuratezza media derivanti dall'apprendimento per rinforzo con ricompense verificabili fino al 50% e aumenta la coerenza delle risposte corrette. Una volta addestrato, Bridge si adatta a qualsiasi larghezza di generazione, ottenendo prestazioni superiori rispetto alle generazioni indipendenti, sbloccando una modalità più generale di parallel scaling che sfrutta efficacemente le informazioni tra le sequenze, compatibile con qualsiasi tecnica di aggregazione post-generazione.
Sebbene i Large Vision-Language Models (LVLM) abbiano compiuto progressi significativi nella comprensione video, la loro applicazione al ragionamento su video lunghi è ostacolata dal campionamento uniforme dei fotogrammi e dal ragionamento testuale statico, che risultano inefficienti e faticano a gestire compiti video visivamente intensivi. Per superare queste sfide, in questo articolo introduciamo il concetto di "pensare con video lunghi" e proponiamo un nuovo framework chiamato FrameThinker. All'interno di questo framework, i LVLM sono in grado di interrogare iterativamente il contenuto video. Sviluppare tali capacità di ragionamento video nei LVLM presenta notevoli sfide, in particolare nell'adattare il modello a nuove azioni video (ad esempio, selezionare un fotogramma) e nel progettare funzioni di ricompensa per guidare i LVLM ad adottare le azioni introdotte. Per risolvere queste sfide, proponiamo una strategia di addestramento in due fasi: prima impieghiamo il Supervised Fine-Tuning (SFT) per instillare capacità di azione fondamentali, seguito dal Reinforcement Learning (RL) per ottimizzare una politica decisionale strategica. In particolare, in questa fase di RL, conduciamo un'esplorazione approfondita e completa del design delle ricompense per ogni azione e del formato delle ricompense. Esperimenti estesi su benchmark di ragionamento come Video-Holmes, LongVideo-Reason e benchmark di comprensione video lunghi come LongVideoBench, MLVU, VideoMME e LVBench dimostrano che FrameThinker ottiene un miglioramento medio significativo del +10,4% rispetto ai baseline, riducendo drasticamente il numero di fotogrammi elaborati. Soprattutto, il nostro modello da 7B, FrameThinker, stabilisce un nuovo stato dell'arte su LongVideo-Reason, raggiungendo un'accuratezza del 76,1% utilizzando una media di soli 20,6 fotogrammi. Ciò non solo supera il competitivo LongVILA-R1 (72,0%), ma lo fa con oltre 20 volte meno fotogrammi (rispetto a 512), dimostrando un'efficienza e un'efficacia senza pari.
Il fine-tuning supervisionato (SFT) è il metodo predominante per adattare i grandi modelli linguistici (LLM), ma spesso incontra difficoltà nella generalizzazione rispetto all'apprendimento per rinforzo (RL). In questo lavoro, ipotizziamo che questa disparità di prestazioni non derivi solo dalla funzione di perdita, ma da una differenza più fondamentale: l'SFT apprende da un dataset fisso e pre-raccolto, mentre l'RL utilizza dati on-policy campionati dalla politica corrente. Basandoci su questa ipotesi, introduciamo il one-token rollout (OTR), un nuovo algoritmo di fine-tuning che guida l'SFT con il metodo del gradiente della politica. L'OTR riformula il processo di apprendimento autoregressivo trattando ogni generazione di token come una traiettoria di apprendimento per rinforzo a singolo passo. Ad ogni passo, esegue un "rollout" Monte Carlo campionando più token candidati dalla distribuzione della politica corrente. Il token ground-truth proveniente dai dati supervisionati viene quindi utilizzato per fornire un segnale di ricompensa a questi campioni. Guidato dal gradiente della politica, il nostro algoritmo trasforma dati supervisionati statici e off-policy in un segnale dinamico e on-policy a livello di token, catturando i benefici della generalizzazione dell'apprendimento on-policy evitando il costoso sovraccarico della generazione di frasi complete. Attraverso esperimenti estesi su una suite diversificata di benchmark impegnativi che spaziano dal ragionamento matematico, alla generazione di codice e al ragionamento in domini generali, dimostriamo che l'OTR supera costantemente l'SFT standard. I nostri risultati stabiliscono l'OTR come un'alternativa potente e pratica per il fine-tuning degli LLM e forniscono prove convincenti che la natura on-policy dei dati è un fattore critico per la generalizzazione, offrendo una nuova direzione promettente per il fine-tuning degli LLM.
I grandi modelli linguistici (LLM) ottengono ora risultati solidi su molte suite matematiche pubbliche, tuttavia la separazione all'avanguardia all'interno della matematica soffre sempre più di effetti di saturazione. Presentiamo due benchmark complementari: SKYLENAGE-ReasoningMATH, un set diagnostico di 100 elementi con consapevolezza strutturale, dotato di metadati per ogni elemento su lunghezza, densità numerica e complessità simbolica; e SKYLENAGE-MATH, una suite di 150 elementi in stile concorso che copre quattro livelli dalla scuola superiore al dottorato, organizzata secondo una tassonomia di sette materie. Valutiamo quindici varianti contemporanee di LLM in un'unica configurazione e analizziamo le prestazioni per materia x modello e grado x modello. Nella suite a concorso, il modello più forte raggiunge il 44%, mentre il secondo classificato arriva al 37%; l'accuratezza diminuisce dalla scuola superiore al dottorato, e i sistemi migliori mostrano una ritenzione dal dottorato alla scuola superiore vicina al 79%. Nel set di ragionamento, il modello migliore raggiunge l'81% complessivo, e i risultati delle sezioni più difficili rivelano chiari gap di robustezza tra i leader e la fascia intermedia. In sintesi, rilasciamo SKYLENAGE-ReasoningMATH e riportiamo i risultati aggregati per SKYLENAGE-MATH; insieme, SKYLENAGE fornisce un benchmark matematico difficile, centrato sul ragionamento e ampiamente coprente, con difficoltà calibrata e metadati ricchi, servendo come riferimento per future valutazioni del ragionamento matematico.
I recenti progressi nel Post-Addestramento con Rinforzo (RPT) hanno significativamente migliorato le capacità dei Modelli di Ragionamento su Grande Scala (LRMs), suscitando un crescente interesse nella generalizzazione del ragionamento basato su RL. Mentre il lavoro esistente si è principalmente concentrato sull'indagine della sua generalizzazione attraverso compiti o modalità, questo studio propone una prospettiva cross-linguistica innovativa per esplorare la generalizzazione del ragionamento. Ciò solleva una domanda cruciale: la capacità di ragionamento ottenuta dall'RPT in inglese si trasferisce efficacemente ad altre lingue? Affrontiamo questa questione valutando sistematicamente gli LRM centrati sull'inglese su benchmark di ragionamento multilingue e introducendo una metrica per quantificare la trasferibilità cross-linguistica. I nostri risultati rivelano che la trasferibilità cross-linguistica varia significativamente in base al modello iniziale, alla lingua target e al paradigma di addestramento. Attraverso studi interventistici, scopriamo che i modelli con capacità iniziali più forti in inglese tendono a fare eccessivo affidamento su modelli specifici dell'inglese, portando a una generalizzazione cross-linguistica ridotta. Per affrontare questo problema, conduciamo uno studio approfondito sull'addestramento parallelo. I risultati sperimentali producono tre scoperte chiave: il Primo Balzo Parallelo, un salto significativo nelle prestazioni quando si passa da una lingua monolingue a una sola lingua parallela, e una Legge di Scalabilità Parallela prevedibile, che rivela che il trasferimento del ragionamento cross-linguistico segue una legge di potenza con il numero di lingue parallele di addestramento. Inoltre, identifichiamo la discrepanza tra le prestazioni monolingue effettive e la previsione della legge di potenza come Divario di Generalizzazione Monolingue, indicando che gli LRM centrati sull'inglese non riescono a generalizzare completamente attraverso le lingue. Il nostro studio mette in discussione l'assunzione che il ragionamento degli LRM rispecchi la cognizione umana, fornendo intuizioni critiche per lo sviluppo di LRM più agnostici rispetto alla lingua.
I perceptroni multistrato (MLP) seguono convenzionalmente un design stretto-ampio-stretto in cui le connessioni skip operano alle dimensioni di input/output mentre l'elaborazione avviene in spazi nascosti espansi. Sfidiamo questa convenzione proponendo blocchi MLP ampio-stretto-ampio (Hourglass) in cui le connessioni skip operano a dimensioni espansive mentre il flusso residuo di calcolo passa attraverso colli di bottiglia stretti. Questa inversione sfrutta spazi a dimensioni più elevate per un affinamento incrementale mantenendo l'efficienza computazionale attraverso design bilanciati nei parametri. L'implementazione di MLP Hourglass richiede una proiezione iniziale per elevare i segnali di input a dimensioni espansive. Proponiamo che questa proiezione possa rimanere fissa all'inizializzazione casuale durante l'addestramento, consentendo implementazioni efficienti per training e inferenza. Valutiamo entrambe le architetture su task generativi su popolari dataset di immagini, caratterizzando i fronti di Pareto prestazioni-parametri attraverso una ricerca architetturale sistematica. I risultati mostrano che le architetture Hourglass raggiungono costantemente fronti di Pareto superiori rispetto ai design convenzionali. All'aumentare del budget di parametri, le configurazioni ottimali Hourglass favoriscono reti più profonde con connessioni skip più ampie e colli di bottiglia più stretti - uno schema di scalabilità distinto dai MLP convenzionali. I nostri risultati suggeriscono di riconsiderare il posizionamento delle connessioni skip nelle architetture moderne, con potenziali applicazioni che si estendono ai Transformer e ad altre reti residue.
Nella valutazione in stile arena dei modelli linguistici di grandi dimensioni (LLM), due LLM rispondono a una query dell'utente, e l'utente sceglie la risposta vincente o dichiara il "confronto" un pareggio, determinando un aggiustamento dei punteggi di entrambi i modelli. L'approccio prevalente per modellare queste dinamiche di valutazione consiste nel considerare i confronti come partite tra due giocatori, come negli scacchi, e applicare il sistema di punteggio Elo e le sue varianti. In questo articolo, esaminiamo criticamente questo paradigma. In particolare, ci chiediamo se un pareggio significhi davvero che i due modelli siano uguali e, quindi, se i loro punteggi debbano essere equiparati. Al contrario, ipotizziamo che i pareggi siano più indicativi della difficoltà della query: se la query è troppo semplice, è più probabile che entrambi i modelli abbiano successo in egual misura. Su tre dataset di arena del mondo reale, dimostriamo che ignorare gli aggiornamenti dei punteggi per i pareggi produce un aumento relativo dell'1-3% nell'accuratezza della previsione degli esiti dei confronti (che includono i pareggi) per tutti e quattro i sistemi di valutazione studiati. Ulteriori analisi suggeriscono che i pareggi si verificano più frequentemente per query valutate come molto facili e quelle altamente oggettive, con rapporti di rischio rispettivamente di 1,37 e 1,35. Raccomandiamo che i futuri sistemi di valutazione riconsiderino la semantica esistente dei pareggi e tengano conto delle proprietà delle query negli aggiornamenti dei punteggi.
La valutazione della qualità delle immagini mediche (IQA) rappresenta il primo controllo di sicurezza per l'IA clinica, tuttavia gli approcci esistenti rimangono limitati da metriche scalari basate su punteggi e non riescono a riflettere il processo descrittivo e ragionato, simile a quello umano, centrale nella valutazione esperta. Per colmare questa lacuna, introduciamo MedQ-Bench, un benchmark completo che stabilisce un paradigma di percezione-ragionamento per la valutazione basata sul linguaggio della qualità delle immagini mediche con Modelli Linguistici Multimodali di Grande Scala (MLLMs). MedQ-Bench definisce due compiti complementari: (1) MedQ-Perception, che esplora la capacità percettiva di basso livello attraverso domande curate da esseri umani su attributi visivi fondamentali; e (2) MedQ-Reasoning, che comprende sia compiti di ragionamento senza riferimento che di confronto, allineando la valutazione del modello al ragionamento simile a quello umano sulla qualità dell'immagine. Il benchmark copre cinque modalità di imaging e oltre quaranta attributi di qualità, per un totale di 2.600 query percettive e 708 valutazioni di ragionamento, includendo diverse fonti di immagini come acquisizioni cliniche autentiche, immagini con degradazioni simulate tramite ricostruzioni basate sulla fisica e immagini generate dall'IA. Per valutare la capacità di ragionamento, proponiamo un protocollo di giudizio multidimensionale che valuta gli output del modello lungo quattro assi complementari. Inoltre, conduciamo una rigorosa validazione dell'allineamento uomo-IA confrontando il giudizio basato su LLM con quello dei radiologi. La nostra valutazione di 14 MLLMs all'avanguardia dimostra che i modelli mostrano abilità percettive e di ragionamento preliminari ma instabili, con un'accuratezza insufficiente per un uso clinico affidabile. Questi risultati evidenziano la necessità di un'ottimizzazione mirata degli MLLMs nella IQA medica. Speriamo che MedQ-Bench catalizzi ulteriori esplorazioni e sblocchi il potenziale inesplorato degli MLLMs per la valutazione della qualità delle immagini mediche.
L'integrazione dei Large Language Models (LLM) con i sistemi Internet-of-Things (IoT) affronta sfide significative legate all'eterogeneità hardware e alla complessità di controllo. Il Model Context Protocol (MCP) emerge come un abilitatore critico, fornendo una comunicazione standardizzata tra i LLM e i dispositivi fisici. Proponiamo IoT-MCP, un framework innovativo che implementa il MCP attraverso server distribuiti ai margini della rete per collegare i LLM e gli ecosistemi IoT. Per supportare una valutazione rigorosa, introduciamo IoT-MCP Bench, il primo benchmark contenente 114 Task di Base (ad esempio, "Qual è la temperatura attuale?") e 1.140 Task Complessi (ad esempio, "Mi sento molto accaldato, hai qualche idea?") per i LLM abilitati all'IoT. La validazione sperimentale su 22 tipi di sensori e 6 unità microcontrollore dimostra che IoT-MCP raggiunge un tasso di successo del 100% nel generare chiamate di strumenti che soddisfano pienamente le aspettative e ottengono risultati completamente accurati, con un tempo di risposta medio di 205ms e un picco di utilizzo della memoria di 74KB. Questo lavoro fornisce sia un framework di integrazione open-source (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) che una metodologia di valutazione standardizzata per i sistemi LLM-IoT.
I retriever a doppio encoder si basano sul principio secondo cui i documenti rilevanti dovrebbero ottenere un punteggio più alto rispetto a quelli irrilevanti per una determinata query. Tuttavia, l'obiettivo dominante di Noise Contrastive Estimation (NCE), che sostiene la Contrastive Loss, ottimizza un surrogato di ranking ammorbidito che dimostriamo rigorosamente essere fondamentalmente insensibile alla qualità della separazione dei punteggi e non correlato all'AUC. Questa discrepanza porta a una scarsa calibrazione e a prestazioni subottimali in compiti downstream come la generazione aumentata da recupero (RAG). Per affrontare questa limitazione fondamentale, introduciamo la MW loss, un nuovo obiettivo di addestramento che massimizza la statistica U di Mann-Whitney, che è matematicamente equivalente all'Area sotto la Curva ROC (AUC). La MW loss incoraggia ogni coppia positivo-negativo a essere correttamente ordinata minimizzando l'entropia incrociata binaria sulle differenze di punteggio. Forniamo garanzie teoriche che la MW loss delimita direttamente l'AoC, allineando meglio l'ottimizzazione con gli obiettivi di recupero. Promuoviamo inoltre le curve ROC e l'AUC come diagnostiche naturali prive di soglia per valutare la calibrazione e la qualità del ranking dei retriever. Empiricamente, i retriever addestrati con la MW loss superano costantemente le controparti contrastive in termini di AUC e metriche di recupero standard. I nostri esperimenti dimostrano che la MW loss è un'alternativa empiricamente superiore alla Contrastive Loss, producendo retriever meglio calibrati e più discriminativi per applicazioni ad alto rischio come la RAG.
Man mano che i modelli linguistici di grandi dimensioni (LLM) si espandono, la questione non è solo quanto diventino grandi, ma quanto della loro capacità venga effettivamente utilizzata. Le leggi di scalatura esistenti correlano la dimensione del modello alla perdita, ma trascurano come i componenti sfruttino il loro spazio latente. Studiamo le reti feed-forward (FFN) e riformuliamo la selezione della larghezza come un problema di utilizzo spettrale. Utilizzando una suite diagnostica leggera -- Hard Rank (rapporto di partecipazione), Soft Rank (rango di Shannon), Concentrazione Spettrale e l'indice composito di Utilizzo Spettrale (SUI) -- quantifichiamo quante direzioni latenti vengono attivate in modo significativo nelle famiglie di modelli LLaMA, GPT-2 e nGPT. La nostra scoperta chiave è una legge di scalatura spettrale asimmetrica: il soft rank segue una legge di potenza quasi perfetta con la larghezza delle FFN, mentre l'hard rank cresce solo in modo sublineare e con alta varianza. Questa asimmetria suggerisce che l'ampliamento delle FFN aggiunge principalmente direzioni a bassa energia nella coda, mentre i sottospazi dei modi dominanti si saturano precocemente. Inoltre, a larghezze maggiori, la varianza collassa ulteriormente in un sottospazio ristretto, lasciando gran parte dello spazio latente sottoutilizzato. Questi risultati riformulano la selezione della larghezza delle FFN come un compromesso strutturato tra capacità della coda e capacità dei modi dominanti, offrendo una guida concreta per la progettazione di LLM efficienti nell'inferenza.
Il Recupero di Immagini Composte (Composed Image Retrieval, CIR) mira a recuperare immagini target che preservino il contenuto visivo di un'immagine di riferimento, incorporando modifiche testuali specificate dall'utente. Gli approcci di CIR zero-shot (ZS-CIR) senza addestramento, che non richiedono training specifico o dati etichettati, sono altamente desiderabili, ma catturare con precisione l'intento dell'utente rimane una sfida. In questo articolo, presentiamo SQUARE, un nuovo framework a due fasi senza addestramento che sfrutta i Modelli Linguistici Multimodali di Grande Scala (MLLMs) per migliorare lo ZS-CIR. Nella fase di Fusione Aumentata con Query Semantica (Semantic Query-Augmented Fusion, SQAF), arricchiamo l'embedding della query derivato da un modello visione-linguaggio (VLM) come CLIP con didascalie generate dall'MLLM dell'immagine target. Queste didascalie forniscono una guida semantica di alto livello, consentendo alla query di catturare meglio l'intento dell'utente e migliorare la qualità globale del recupero. Nella fase di Riorganizzazione Efficiente in Batch (Efficient Batch Reranking, EBR), i candidati meglio classificati vengono presentati come una griglia di immagini con segni visivi all'MLLM, che esegue un ragionamento visivo-semantico congiunto su tutti i candidati. La nostra strategia di riorganizzazione opera in un'unica passata e produce classificazioni più accurate. Gli esperimenti dimostrano che SQUARE, con la sua semplicità ed efficacia, offre prestazioni solide su quattro benchmark CIR standard. In particolare, mantiene alte prestazioni anche con modelli pre-addestrati leggeri, dimostrando la sua potenziale applicabilità.
La progettazione di sequenze che soddisfino obiettivi multipli e spesso conflittuali rappresenta una sfida centrale nell'ingegneria terapeutica e biomolecolare. I framework generativi esistenti operano principalmente in spazi continui con una guida a singolo obiettivo, mentre gli approcci discreti mancano di garanzie per l'ottimalità di Pareto multi-obiettivo. Introduciamo AReUReDi (Annealed Rectified Updates for Refining Discrete Flows), un algoritmo di ottimizzazione discreta con garanzie teoriche di convergenza verso il fronte di Pareto. Basandosi sui Rectified Discrete Flows (ReDi), AReUReDi combina la scalarizzazione di Tchebycheff, proposte localmente bilanciate e aggiornamenti di Metropolis-Hastings ricotti per orientare il campionamento verso stati Pareto-ottimali preservando l'invarianza distributiva. Applicato alla progettazione di sequenze peptidiche e SMILES, AReUReDi ottimizza simultaneamente fino a cinque proprietà terapeutiche (inclusa affinità, solubilità, emolisi, emivita e proprietà anti-adesione) e supera sia i metodi evolutivi che quelli basati sulla diffusione. Questi risultati stabiliscono AReUReDi come un potente framework basato su sequenze per la generazione di biomolecole con proprietà multiple.
I recenti modelli di pensiero risolvono compiti di ragionamento complesso scalando il calcolo al momento del test, ma questa scalabilità deve essere allocata in base alla difficoltà del compito. Da un lato, un ragionamento troppo breve (sottopensiero) porta a errori su problemi più difficili che richiedono passaggi di ragionamento estesi; dall’altro, un ragionamento eccessivamente lungo (sovrapensiero) può essere inefficiente in termini di token, generando passaggi non necessari anche dopo aver raggiunto una soluzione intermedia corretta. Definiamo questo fenomeno come sotto-adattività, in cui il modello non riesce a modulare adeguatamente la lunghezza della sua risposta in base alla difficoltà variabile dei problemi. Per affrontare la sotto-adattività e trovare un equilibrio tra sottopensiero e sovrapensiero, proponiamo TRAAC (Think Right with Adaptive, Attentive Compression), un metodo di reinforcement learning (RL) online post-addestramento che sfrutta l’auto-attenzione del modello su una traiettoria di ragionamento lunga per identificare i passaggi importanti ed eliminare quelli ridondanti. TRAAC stima inoltre la difficoltà e la incorpora nelle ricompense di addestramento, imparando così ad allocare un budget di ragionamento proporzionato alla difficoltà dell’esempio. Il nostro approccio migliora l’accuratezza, riduce i passaggi di ragionamento e abilita un pensiero adattivo rispetto ai modelli di base e ad altri baseline RL. Su una varietà di compiti (AIME, AMC, GPQA-D, BBEH), TRAAC (Qwen3-4B) ottiene un guadagno medio assoluto di accuratezza dell’8,4% con una riduzione relativa della lunghezza del ragionamento del 36,8% rispetto al modello di base, e un guadagno di accuratezza del 7,9% abbinato a una riduzione della lunghezza del 29,4% rispetto al miglior baseline RL. TRAAC mostra anche una forte generalizzazione: sebbene i nostri modelli siano addestrati su dataset matematici, dimostrano miglioramenti in accuratezza ed efficienza su dataset non matematici fuori distribuzione come GPQA-D, BBEH e OptimalThinkingBench. La nostra analisi verifica ulteriormente che TRAAC fornisce aggiustamenti granulari al budget di pensiero in base alla difficoltà e che una combinazione di calibrazione della difficoltà del compito e compressione basata sull’attenzione produce vantaggi su compiti diversificati.