Articoli di ricerca IA selezionati quotidianamente con traduzioni
I VLMs mostrano forti capacità multimodali, ma continuano a lottare con il ragionamento visione-linguaggio di tipo fine-grained. Rileviamo che il ragionamento a catena di pensiero (CoT) lungo espone diverse modalità di fallimento, inclusi errori di percezione, ragionamento, conoscenza e allucinazione, che possono accumularsi attraverso i passaggi intermedi. Tuttavia, la maggior parte dei dati visione-linguaggio esistenti utilizzati per il RLVR non coinvolge catene di ragionamento complesse che si basano su evidenze visive in tutto il processo, lasciando queste debolezze in gran parte inesplorate. Proponiamo quindi HopChain, un framework scalabile per sintetizzare dati di ragionamento visione-linguaggio multi-hop specificamente per l'addestramento RLVR dei VLMs. Ogni query multi-hop sintetizzata forma una catena logicamente dipendente di hop ancorati a istanze, in cui gli hop iniziali stabiliscono le istanze, gli insiemi o le condizioni necessarie per gli hop successivi, mentre la risposta finale rimane un numero specifico e non ambiguo, adatto per ricompense verificabili. Aggiungiamo i dati multi-hop sintetizzati da HopChain ai dati RLVR originali utilizzati per addestrare Qwen3.5-35B-A3B e Qwen3.5-397B-A17B, e confrontiamo i risultati con il RLVR sui soli dati RLVR originali su 24 benchmark che coprono STEM e Puzzle, VQA Generale, Riconoscimento del Testo e Comprensione di Documenti, e Comprensione Video. Sebbene questi dati multi-hop non siano sintetizzati per targettizzare benchmark specifici, la loro aggiunta migliora 20 su 24 benchmark su entrambi i modelli, indicando guadagni ampi e generalizzabili. Per dimostrare l'importanza delle query a catena completa, le sostituiamo con varianti half-multi-hop o single-hop, riducendo rispettivamente l'accuratezza media sui 24 benchmark di 5.3 e 7.0 punti. L'addestramento multi-hop rafforza anche il ragionamento visione-linguaggio a CoT lungo, con guadagni che raggiungono picchi di oltre 50 punti di accuratezza nel regime ultra-lungo CoT. Questi esperimenti stabiliscono HopChain come un framework efficace e scalabile per sintetizzare dati multi-hop che migliorano il ragionamento visione-linguaggio generalizzabile.
I modelli video autoregressivi (AR) distillati consentono una generazione efficiente in streaming, ma spesso risultano disallineati rispetto alle preferenze visive umane. I framework di apprendimento per rinforzo (RL) esistenti non si adattano naturalmente a queste architetture, richiedendo tipicamente una costosa ri-distillazione o un'ottimizzazione del processo inverso accoppiata a un solver che introduce un notevole sovraccarico computazionale e di memoria. Presentiamo Astrolabe, un framework RL online efficiente progettato specificamente per modelli AR distillati. Per superare i colli di bottiglia esistenti, introduciamo una formulazione RL basata sul processo diretto e su una messa a punto *negative-aware*. Contrastando campioni positivi e negativi direttamente agli endpoint di inferenza, questo approccio stabilisce una direzione di miglioramento della politica implicita senza richiedere lo svolgimento del processo inverso. Per scalare questo allineamento a video lunghi, proponiamo uno schema di addestramento in streaming che genera sequenze progressivamente tramite un *rolling KV-cache*, applicando aggiornamenti RL esclusivamente a finestre di clip locali mentre si condiziona sul contesto precedente per garantire coerenza a lungo raggio. Infine, per mitigare il *reward hacking*, integriamo un obiettivo multi-ricompensa stabilizzato da una regolarizzazione selettiva *uncertainty-aware* e aggiornamenti dinamici del riferimento. Esperimenti estensivi dimostrano che il nostro metodo migliora costantemente la qualità della generazione su molteplici modelli video AR distillati, rappresentando una soluzione di allineamento robusta e scalabile.
I modelli visione-linguaggio (VLM) hanno mostrato potenzialità nel campo dell'osservazione terrestre (EO), ma incontrano difficoltà con compiti che richiedono l'ancoraggio di ragionamenti spaziali complessi a rappresentazioni visive precise a livello di pixel. Per affrontare questo problema, introduciamo TerraScope, un VLM unificato che fornisce ragionamenti geospaziali ancorati ai pixel con due capacità chiave: (1) ragionamento modale-flessibile: gestisce input a modalità singola (ottica o SAR) e fonde adattivamente diverse modalità nel processo di ragionamento quando entrambe sono disponibili; (2) ragionamento multi-temporale: integra sequenze temporali per l'analisi dei cambiamenti su più punti temporali. Inoltre, abbiamo curato Terra-CoT, un dataset su larga scala contenente 1 milione di campioni con maschere a livello di pixel incorporate in catene di ragionamento provenienti da molteplici fonti. Proponiamo anche TerraScope-Bench, il primo benchmark per il ragionamento geospaziale ancorato ai pixel con sei sotto-compiti che valuta sia l'accuratezza delle risposte che la qualità delle maschere per garantire un ragionamento autenticamente ancorato ai pixel. Gli esperimenti mostrano che TerraScope supera significativamente i VLM esistenti nel ragionamento geospaziale ancorato ai pixel, fornendo al contempo evidenze visive interpretabili.
Una collaborazione efficace inizia sapendo quando chiedere aiuto. Ad esempio, quando si cerca di identificare un oggetto occluso, un essere umano chiederebbe a qualcuno di rimuovere l'ostruzione. I Modelli Linguistici Multimodali (MLLM) possono mostrare un comportamento "proattivo" simile, richiedendo semplici interventi dell'utente? Per indagare ciò, introduciamo ProactiveBench, un benchmark creato a partire da sette dataset riconvertiti che testa la proattività in diversi compiti, come il riconoscimento di oggetti occlusi, il miglioramento della qualità dell'immagine e l'interpretazione di schizzi approssimativi. Valutiamo 22 MLLM su ProactiveBench, dimostrando che (i) generalmente mancano di proattività; (ii) la proattività non correla con la capacità del modello; (iii) "suggerire" la proattività produce solo guadagni marginali. Sorprendentemente, abbiamo scoperto che le cronologie delle conversazioni e l'apprendimento in-context introducono bias negativi, ostacolando le prestazioni. Infine, esploriamo una semplice strategia di fine-tuning basata sull'apprendimento per rinforzo: i suoi risultati suggeriscono che la proattività può essere appresa, generalizzando persino a scenari non visti. Rilasciamo pubblicamente ProactiveBench come primo passo verso la costruzione di modelli multimodali proattivi.
La generazione di scene ha ampie applicazioni industriali, richiedendo sia un alto realismo che un controllo preciso su geometria e aspetto. I metodi di retrieval basati sul linguaggio compongono scene plausibili da un ampio database di oggetti, ma trascurano il controllo a livello di oggetto e spesso non riescono a garantire la coerenza stilistica a livello di scena. Le formulazioni basate su grafi offrono una maggiore controllabilità sugli oggetti e garantiscono una coerenza olistica modellando esplicitamente le relazioni, tuttavia i metodi esistenti faticano a produrre risultati testurizzati ad alta fedeltà, limitandone così l'utilità pratica. Presentiamo FlowScene, un modello generativo di scene a tre rami condizionato da grafi multimodali che genera collaborativamente layout di scene, forme degli oggetti e texture degli oggetti. Il suo nucleo è costituito da un modello di flusso rettificato strettamente accoppiato che scambia informazioni sugli oggetti durante la generazione, abilitando un ragionamento collaborativo attraverso il grafo. Ciò consente un controllo granulare delle forme, delle texture e delle relazioni degli oggetti, imponendo al contempo una coerenza stilistica a livello di scena attraverso struttura e aspetto. Esperimenti estensivi mostrano che FlowScene supera le baseline condizionate sia linguisticamente che tramite grafo in termini di realismo della generazione, coerenza stilistica e allineamento con le preferenze umane.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come ragionatori generici, ma gli input lunghi rimangono limitati da una finestra di contesto fissa. I Modelli Linguistici Ricorsivi (RLM) affrontano questo problema esternalizzando il prompt e risolvendo ricorsivamente i sottoproblemi. Tuttavia, gli RLM esistenti dipendono da un ciclo read-eval-print loop (REPL) aperto in cui il modello genera codice di controllo arbitrario, rendendo l'esecuzione difficile da verificare, prevedere e analizzare. Introduciamo λ-RLM, un framework per il ragionamento a contesto lungo che sostituisce la generazione di codice ricorsivo libero con un runtime funzionale tipato basato sul λ-calcolo. Questo framework esegue una libreria compatta di combinatori pre-verificati e utilizza l'inferenza neurale solo su sottoproblemi foglia delimitati, trasformando il ragionamento ricorsivo in un programma funzionale strutturato con un flusso di controllo esplicito. Dimostriamo che λ-RLM ammette garanzie formali assenti negli RLM standard, inclusi la terminazione, limiti di costo in forma chiusa, un controllo della precisione in scala con la profondità della ricorsione e una regola di partizione ottimale sotto un semplice modello di costo. Empiricamente, in quattro compiti di ragionamento a contesto lungo e nove modelli base, λ-RLM supera l'RLM standard in 29 su 36 confronti modello-compito, migliora la precisione media fino a +21,9 punti attraverso i diversi livelli di modello e riduce la latenza fino a 4,1 volte. Questi risultati mostrano che il controllo simbolico tipato fornisce una base più affidabile ed efficiente per il ragionamento a contesto lungo rispetto alla generazione di codice ricorsivo aperta. L'implementazione completa di λ-RLM è open-source e disponibile per la comunità all'indirizzo: https://github.com/lambda-calculus-LLM/lambda-RLM.
I sistemi di IA auto-miglioranti mirano a ridurre la dipendenza dall'ingegneria umana imparando a migliorare i propri processi di apprendimento e problem-solving. Gli approcci esistenti all'auto-miglioramento si basano su meccanismi meta-livello fissi e artigianali, limitando fondamentalmente la velocità con cui tali sistemi possono migliorare. La Darwin Gödel Machine (DGM) dimostra un auto-miglioramento aperto nella codifica generando e valutando ripetutamente varianti auto-modificate. Poiché sia la valutazione che l'auto-modifica sono compiti di codifica, i progressi nelle capacità di codifica possono tradursi in progressi nella capacità di auto-miglioramento. Tuttavia, questo allineamento generalmente non vale al di fuori dei domini di codifica. Introduciamo gli iperagenti, agenti autoreferenziali che integrano un agente compito (che risolve il compito target) e un meta-agente (che modifica sé stesso e l'agente compito) in un unico programma modificabile. Fondamentalmente, la procedura di modifica a meta-livello è essa stessa modificabile, consentendo l'auto-modifica metacognitiva, migliorando non solo il comportamento di risoluzione dei compiti, ma anche il meccanismo che genera i miglioramenti futuri. Istanziamo questo framework estendendo la DGM per creare DGM-Hyperagents (DGM-H), eliminando l'assunzione di un allineamento dominio-specifico tra prestazione del compito e abilità di auto-modifica per supportare potenzialmente progressi auto-acceleranti su qualsiasi compito computabile. In vari domini, il DGM-H migliora le prestazioni nel tempo e supera i baseline senza auto-miglioramento o esplorazione aperta, così come i precedenti sistemi auto-miglioranti. Inoltre, il DGM-H migliora il processo con cui genera nuovi agenti (ad esempio, memoria persistente, monitoraggio delle prestazioni), e questi miglioramenti a meta-livello si trasferiscono tra domini e si accumulano tra le esecuzioni. Gli DGM-Hyperagents offrono uno sguardo su sistemi di IA aperti che non si limitano a cercare soluzioni migliori, ma migliorano continuamente la loro ricerca su come migliorare.
I recenti progressi nei modelli di diffusione hanno migliorato significativamente la generazione video da testo, consentendo la creazione di contenuti personalizzati con un controllo granulare sia sugli elementi in primo piano che sullo sfondo. Tuttavia, l'allineamento preciso degli attributi facciali tra diversi soggetti rimane una sfida, poiché i metodi esistenti mancano di meccanismi espliciti per garantire la coerenza intra-gruppo. Colmare questa lacuna richiede sia strategie di modellazione esplicite che risorse dati consapevoli degli attributi facciali. Proponiamo quindi LumosX, un framework che avanza sia la progettazione dei dati che quella del modello. Sul fronte dati, una pipeline di raccolta personalizzata orchestra didascalie e segnali visivi da video indipendenti, mentre i modelli linguistici multimodali di grandi dimensioni (MLLM) inferiscono e assegnano dipendenze specifiche per soggetto. Questi priori relazionali estratti impongono una struttura più granulare che amplifica il controllo espressivo della generazione video personalizzata e consente la costruzione di un benchmark completo. Sul lato modellistico, l'Attenzione Relazionale di Sé (Relational Self-Attention) e l'Attenzione Incrociata Relazionale (Relational Cross-Attention) intrecciano incorporamenti posizionali con dinamiche di attenzione raffinate per inscrivere dipendenze esplicite soggetto-attributo, imponendo una disciplinata coesione intra-gruppo e amplificando la separazione tra distinti cluster di soggetti. Valutazioni complete sul nostro benchmark dimostrano che LumosX raggiunge prestazioni all'avanguardia nella generazione video multi-soggetto personalizzata, granulare, coerente nell'identità e allineata semanticamente. Codice e modelli sono disponibili all'indirizzo https://jiazheng-xing.github.io/lumosx-home/.
Il prompting a Catena di Pensiero (CoT) migliora l'accuratezza dei LLM su compiti complessi, ma spesso aumenta l'utilizzo di token e i costi di inferenza. I metodi esistenti di "Budget Forcing", che riducono i costi tramite fine-tuning con penalità euristiche sulla lunghezza, sopprimono sia il ragionamento essenziale che i riempitivi ridondanti. Noi riformuliamo il ragionamento efficiente come un problema di compressione con perdita secondo il principio del Collo di Bottiglia Informativo (IB) e identifichiamo un'importante lacuna teorica nell'applicazione dell'IB ingenuo ai transformer: l'attenzione viola la proprietà di Markov tra prompt, traccia di ragionamento e risposta. Per risolvere questo problema, modelliamo la generazione CoT sotto il principio del Collo di Bottiglia Informativo Condizionato (CIB), dove la traccia di ragionamento Z funge da ponte computazionale che contiene solo le informazioni sulla risposta Y non direttamente accessibili dal prompt X. Ciò produce un obiettivo generale di Apprendimento per Rinforzo: massimizzare la ricompensa del compito comprimendo i completamenti sotto una prior sulle tracce di ragionamento, ricomprendendo le euristiche comuni (ad es., penalità di lunghezza) come casi speciali (ad es., prior uniformi). In contrasto con gli approcci ingenui basati sul conteggio dei token, introduciamo una prior semantica che misura il costo dei token tramite la sorpresa (surprisal) sotto una prior di modello linguistico. Empiricamente, il nostro obiettivo CIB elimina il gonfiore cognitivo preservando fluidità e logica, migliorando l'accuratezza a compressione moderata e permettendo una compressione aggressiva con un calo minimo di accuratezza.
Gli agenti basati su grandi modelli linguistici (LLM) sono emersi come potenti controllori autonomi per ambienti digitali, incluse interfacce mobili, sistemi operativi e browser web. La navigazione web, ad esempio, richiede la gestione di contenuti dinamici e lunghe sequenze di azioni, rendendola particolarmente impegnativa. Gli agenti esistenti basati su LLM incontrano difficoltà nella pianificazione a lungo termine principalmente in due modi. Durante l'esecuzione online, perdono spesso la traiettoria con l'arrivo di nuove informazioni, mancando di un percorso chiaro e adattivo verso l'obiettivo finale. Questo problema è ulteriormente esacerbato durante la messa a punto tramite apprendimento per rinforzo (RL), dove ricompense sparse e ritardate rendono difficile per gli agenti identificare quali azioni portano al successo, impedendo loro di mantenere un ragionamento coerente su compiti estesi. Per affrontare queste sfide, proponiamo due contributi. In primo luogo, introduciamo un framework per agenti che sfrutta modelli proprietari per la pianificazione online attraverso la scomposizione in sottobiettivi. In secondo luogo, presentiamo MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un framework di addestramento RL che utilizza segnali di ricompensa densi e basati su milestone. Il meccanismo di pianificazione in tempo reale migliora modelli proprietari come Gemini di circa un aumento assoluto del 10% nel tasso di successo (SR) sul benchmark WebArena-Lite. Nel frattempo, applicare MiRA al modello open Gemma3-12B aumenta il suo tasso di successo dal 6,4% al 43,0%. Questa prestazione supera sistemi proprietari come GPT-4-Turbo (17,6%) e GPT-4o (13,9%), nonché il precedente stato dell'arte per modelli open, WebRL (38,4%). Nel complesso, i nostri risultati dimostrano che combinare una pianificazione esplicita al momento dell'inferenza con ricompense basate su milestone migliora significativamente le capacità a lungo termine di un agente, spianando la strada a sistemi autonomi più robusti e generici.
La generazione controllata di video ha registrato miglioramenti drastici negli ultimi anni. Tuttavia, modificare azioni ed eventi dinamici, o inserire contenuti che dovrebbero influenzare il comportamento di altri oggetti in video del mondo reale, rimane una sfida importante. I modelli esistenti addestrati faticano con modifiche complesse, probabilmente a causa della difficoltà di raccogliere dati di addestramento pertinenti. Allo stesso modo, i metodi esistenti *training-free* sono intrinsecamente limitati a modifiche che preservano struttura e movimento e non supportano la modifica del moto o delle interazioni. Qui presentiamo DynaEdit, un metodo di editing *training-free* che sblocca capacità versatili di modifica video con modelli di flusso *text-to-video* preaddestrati. Il nostro metodo si basa sull'approccio *inversion-free* recentemente introdotto, che non interviene sugli aspetti interni del modello ed è quindi *model-agnostic*. Dimostriamo che tentare ingenuamente di adattare questo approccio a un editing generale e senza vincoli si traduce in un grave disallineamento a basse frequenze e un *jitter* ad alte frequenze. Spieghiamo le fonti di questi fenomeni e introduciamo nuovi meccanismi per superarli. Attraverso esperimenti estesi, mostriamo che DynaEdit ottiene risultati allo stato dell'arte su compiti complessi di editing video basato su testo, inclusi la modifica di azioni, l'inserimento di oggetti che interagiscono con la scena e l'introduzione di effetti globali.
I modelli linguistici di grandi dimensioni spesso faticano con compiti analitici complessi a lungo termine su tabelle non strutturate, che tipicamente presentano intestazioni gerarchiche e bidirezionali e layout non canonici. Formalizziamo questa sfida come Ricerca Tabellare Profonda (DTR), che richiede un ragionamento a più fasi su regioni tabellari interdipendenti. Per affrontare la DTR, proponiamo una nuova framework agenziale che tratta il ragionamento tabellare come un processo decisionale a ciclo chiuso. Progettiamo accuratamente una comprensione accoppiata di query e tabella per il processo decisionale del percorso e l'esecuzione operativa. Nello specifico, (i) la DTR costruisce prima un meta-grafo gerarchico per catturare la semantica bidirezionale, mappando le query in linguaggio naturale in uno spazio di ricerca a livello operativo; (ii) Per navigare in questo spazio, introduciamo una politica di selezione expectation-aware che prioritizza i percorsi di esecuzione ad alta utilità; (iii) Fondamentalmente, i risultati delle esecuzioni passate vengono sintetizzati in una memoria strutturata siamese, ovvero aggiornamenti parametrici e testi astratti, consentendo un affinamento continuo. Esperimenti estesi su benchmark tabellari non strutturati e impegnativi verificano l'efficacia e evidenziano la necessità di separare la pianificazione strategica dall'esecuzione a basso livello per il ragionamento tabellare a lungo termine.
Data la straordinaria capacità dei modelli fondazionali di immagini 2D di generare output ad alta fedeltà, ci poniamo una domanda fondamentale: i modelli fondazionali di immagini 2D possiedono intrinsecamente capacità di modellazione del mondo 3D? Per rispondere, valutiamo sistematicamente molteplici modelli all'avanguardia per la generazione di immagini e Modelli Visione-Linguaggio (VLM) sul compito di sintesi del mondo 3D. Per sfruttare e misurare il loro potenziale capability 3D implicito, proponiamo un approccio agentivo per facilitare la generazione del mondo 3D. Il nostro metodo impiega un'architettura multi-agente: un direttore basato su VLM che formula prompt per guidare la sintesi delle immagini, un generatore che sintetizza nuove viste immagine e un verificatore a due fasi supportato da VLM che valuta e seleziona in modo curato i fotogrammi generati sia dallo spazio dell'immagine 2D che dalla ricostruzione 3D. In modo cruciale, dimostriamo che il nostro approccio agentivo fornisce una ricostruzione 3D coerente e robusta, producendo scene di output che possono essere esplorate tramite il rendering di nuove viste. Attraverso esperimenti estesi su vari modelli fondazionali, dimostriamo che i modelli 2D racchiudono effettivamente una comprensione dei mondi 3D. Sfruttando questa comprensione, il nostro metodo sintetizza con successo mondi espansivi, realistici e 3D-consistenti.
L'espansione esponenziale delle finestre contestuali negli LLM ha sbloccato capacità di comprensione di documenti lunghi, ma ha introdotto severi colli di bottiglia nella latenza di inferenza e nell'utilizzo delle informazioni. I metodi di compressione esistenti spesso soffrono di elevati costi di addestramento o di frammentazione semantica a causa di una potatura aggressiva dei token. In questo articolo, proponiamo BEAVER, un nuovo framework senza addestramento che sposta la compressione dalla rimozione lineare dei token a una selezione gerarchica consapevole della struttura. BEAVER massimizza il parallelismo hardware mappando contesti a lunghezza variabile in tensori densi a livello di pagina tramite pooling a doppio percorso e preserva l'integrità del discorso attraverso un pianificatore ibrido che combina una selezione a doppio ramo semantico e lessicale con un livellamento delle frasi. Valutazioni estese su quattro benchmark a contesto lungo dimostrano che BEAVER raggiunge prestazioni comparabili a metodi all'avanguardia (SOTA) come LongLLMLingua. In particolare, sul benchmark RULER, BEAVER mantiene un'alta fedeltà nel recupero multi-ago, dove i metodi baseline si deteriorano. In termini di efficienza, BEAVER riduce la latenza di 26,4 volte su contesti di 128k, offrendo una soluzione scalabile per applicazioni ad alto throughput. Il nostro codice è disponibile all'indirizzo https://cslikai.cn/BEAVER/.
L'answer reasoning su video di lunga durata richiede un ragionamento su contesti temporali estesi, rendendo la selezione dei frame critica per i grandi modelli visione-linguaggio (LVLM) vincolati da finestre di contesto finite. I metodi esistenti affrontano un netto compromesso: i selettori basati su similarità sono veloci ma comprimono query compositive in un singolo vettore denso, perdendo l'ordinamento dei sotto-eventi e i legami cross-modali; i metodi agent-based recuperano questa struttura attraverso inferenze LVLM iterative, ma a costi proibitivi. Introduciamo HiMu, un framework senza training che colma questa lacuna. Una singola chiamata a un LLM esclusivamente testuale scompone la query in un albero logico gerarchico le cui foglie sono predicati atomici, ciascuno indirizzato a un esperto leggero che copre visione (CLIP, rilevamento open-vocabulary, OCR) e audio (ASR, CLAP). I segnali risultanti vengono normalizzati, temporalmente levigati per allineare le diverse modalità, e composti bottom-up attraverso operatori di fuzzy-logic che impongono sequenzialità e adiacenza temporale, producendo una curva di soddisfacimento continua. Le valutazioni su Video-MME, LongVideoBench e HERBench-Lite mostrano che HiMu avanza il fronte di Pareto efficienza-accuratezza: a 16 frame con Qwen3-VL 8B supera tutti i selettori concorrenti, e con GPT-4o supera i sistemi agentistici operanti a 32-512 frame richiedendo circa 10 volte meno FLOP.
Un'ipotesi ampiamente condivisa sul motivo per cui i modelli di recommendation generativi (GR) superano i modelli convenzionali basati sugli ID degli item è la loro maggiore capacità di generalizzazione. Tuttavia, esistono pochi metodi sistematici per verificare questa ipotesi al di là di un confronto superficiale delle prestazioni complessive. Per colmare questa lacuna, classifichiamo ogni istanza di dati in base alla capacità specifica richiesta per una predizione corretta: memorizzazione (riutilizzo di pattern di transizione tra item osservati durante l'addestramento) o generalizzazione (combinazione di pattern noti per predire transizioni tra item non viste). Esperimenti estesi mostrano che i modelli GR performano meglio sulle istanze che richiedono generalizzazione, mentre i modelli basati su ID degli item sono superiori quando la memorizzazione è più importante. Per spiegare questa divergenza, spostiamo l'analisi dal livello dell'item al livello del token e dimostriamo che ciò che appare come generalizzazione a livello di item spesso si riduce a memorizzazione a livello di token per i modelli GR. Infine, mostriamo che i due paradigmi sono complementari. Proponiamo un semplice indicatore consapevole della memorizzazione che li combina in modo adattivo su base per-istanza, portando a un miglioramento delle prestazioni complessive di recommendation.
I modelli linguistici ad anello (LoopLM) eseguono calcoli latenti iterativi per affinare le rappresentazioni interne, offrendo un'alternativa promettente al ragionamento esplicito a catena del pensiero (CoT). Tuttavia, i paradigmi di apprendimento per rinforzo (RL) esistenti prendono di mira principalmente i token di output, creando una mancata corrispondenza strutturale con le architetture ad anello il cui ragionamento si svolge in modo implicito. In questo lavoro, proponiamo LoopRPT, un framework di pre-addestramento per rinforzo specifico per i LoopLM. Riformulando la previsione del token successivo come un compito di ragionamento sul token successivo, LoopRPT assegna i segnali di rinforzo direttamente ai passi latenti utilizzando un riferimento di un teacher EMA e rollout latenti rumorosi. Questa formulazione consente all'RL di modellare direttamente le rappresentazioni intermedie, comprimendo il ragionamento efficace in un numero minore di iterazioni. Istanziamo LoopRPT sull'architettura Ouro su più scale di modelli. I risultati dimostrano che LoopRPT migliora costantemente la qualità della rappresentazione per passo, raggiungendo una dominanza di Pareto nei compromessi precisione-calcolo. In particolare, i significativi guadagni sui token difficili indicano che LoopRPT potenzia il ragionamento nelle fasi iniziali piuttosto che limitarsi a incoraggiare uscite premature. Le nostre scoperte evidenziano il pre-addestramento per rinforzo come un paradigma principiato per apprendere un ragionamento latente efficiente nei LoopLM.
L'apprendimento per rinforzo (RL) è diventato un paradigma standard per il post-addestramento e l'allineamento dei Large Language Model (LLM), eppure recenti evidenze suggeriscono che esso affronti un persistente "limite di capacità": a differenza dei sistemi RL classici che scoprono strategie innovative, il RL per gli LLM agisce spesso come un mero raffinatore di pattern già latenti nei pesi pre-addestrati. In questo lavoro, identifichiamo un collo di bottiglia strutturale fondamentale: mentre il RL classico si basa su stati di Markov compatti e informativi, le attuali formulazioni di post-addestramento per LLM sono vincolate a una storia di azioni in continua espansione. Revisitiamo un principio classico, a lungo centrale nel RL ma assente nel post-addestramento degli LLM: gli stati di Markov espliciti. Teoricamente, forniamo garanzie rigorose che dimostrano come lo sfruttamento di stati di Markov stimati possa ridurre significativamente la complessità campionaria. Empiricamente, mostriamo che l'introduzione di stati di Markov supera costantemente i limiti prestazionali del post-addestramento RL standard in una serie di complessi rompicapi logici. I nostri risultati suggeriscono che andare oltre la modellazione "della storia come stato" a favore di rappresentazioni markoviane strutturate è essenziale per sbloccare una scoperta aperta e capacità di ragionamento genuinamente nuove nell'IA generativa.
Attualmente è difficile effettuare il distillation di modelli di diffusione discreti. Al contrario, la letteratura sulla diffusione continua dispone di numerosi metodi di distillation che possono ridurre i passaggi di campionamento a una manciata. Il nostro metodo, Discrete Moment Matching Distillation (D-MMD), sfrutta idee che hanno avuto grande successo nel dominio continuo. Mentre i precedenti metodi di distillation discreta collassano, il D-MMD mantiene un'elevata qualità e diversità (dato un numero sufficiente di passaggi di campionamento). Ciò è dimostrato sia su dataset testuali che di immagini. Inoltre, i generatori appena distillati possono superare le prestazioni dei loro modelli insegnanti.
I modelli generativi di mondi hanno mostrato potenzialità nella simulazione di ambienti dinamici, ma i video egocentrici rimangono una sfida a causa dei rapidi cambiamenti del punto di vista, delle frequenti interazioni mano-oggetto e delle procedure finalizzate la cui evoluzione dipende dall'intento umano latente. Gli approcci esistenti si concentrano sulla sintesi istruzionale centrata sulla mano con un'evoluzione della scena limitata, eseguono una traduzione di vista statica senza modellare la dinamica delle azioni, o si basano su supervisione densa, come traiettorie della telecamera, prefissi video lunghi, acquisizione multicamera sincronizzata, ecc. In questo lavoro, introduciamo EgoForge, un simulatore di mondo egocentrico finalizzato che genera rollout video in prima persona coerenti a partire da input statici minimi: una singola immagine egocentrica, un'istruzione di alto livello e una vista esocentrica ausiliaria opzionale. Per migliorare l'allineamento all'intento e la coerenza temporale, proponiamo VideoDiffusionNFT, un perfezionamento guidato da ricompensa a livello di traiettoria che ottimizza il completamento dell'obiettivo, la causalità temporale, la coerenza della scena e la fedeltà percettiva durante il campionamento per diffusione. Esperimenti estensivi mostrano che EgoForge ottiene guadagni consistenti nell'allineamento semantico, nella stabilità geometrica e nella fedeltà del movimento rispetto a baseline solide, e prestazioni robuste in esperimenti con occhiali intelligenti nel mondo reale.
Sviluppiamo un metodo per produrre schizzi vettoriali una parte alla volta. A tal fine, addestriamo un agente basato su un modello linguistico multimodale utilizzando un innovativo processo di reinforcement learning multi-turn con ricompensa basata sul processo, successivo ad una messa a punto supervisionata. Il nostro approccio è reso possibile da un nuovo dataset che chiamiamo ControlSketch-Part, contenente ricche annotazioni a livello di parte per gli schizzi, ottenute tramite una nuova e generica pipeline di annotazione automatica che segmenta gli schizzi vettoriali in parti semantiche e assegna i tracciati alle parti con un processo di etichettatura strutturato e multi-stadio. I nostri risultati indicano che l'incorporazione di dati strutturati a livello di parte e la fornitura di feedback visivo all'agente durante il processo abilitano una generazione di schizzi vettoriali da testo interpretabile, controllabile e localmente modificabile.
Presentiamo un sistema SLAM RGB robusto e in tempo reale che gestisce ambienti dinamici sfruttando un Bundle Adjustment differenziabile e consapevole dell'incertezza. I metodi SLAM tradizionali assumono tipicamente scene statiche, portando a fallimenti nel tracking in presenza di movimento. I recenti approcci SLAM dinamici tentano di affrontare questa sfida utilizzando prior dinamici predefiniti o mappature consapevoli dell'incertezza, ma rimangono limitati quando confrontati con oggetti dinamici sconosciuti o scene altamente disordinate dove la mappatura geometrica diventa inaffidabile. Al contrario, il nostro metodo stima l'incertezza per pixel sfruttando l'inconsistenza delle caratteristiche visive multi-vista, consentendo un tracking e una ricostruzione robusti anche in ambienti reali. Il sistema proposto raggiunge pose della camera e geometrie della scene allo stato dell'arte in scenari dinamici e disordinati, funzionando in tempo reale a circa 10 FPS. Il codice e i dataset sono disponibili all'indirizzo https://github.com/MoyangLi00/DROID-W.git.
La scienza dei dati svolge un ruolo cruciale nel trasformare dati complessi in insight azionabili in numerosi domini. I recenti sviluppi nei grandi modelli linguistici (LLM) e negli agenti di intelligenza artificiale (IA) hanno automatizzato significativamente il flusso di lavoro della scienza dei dati. Tuttavia, rimane poco chiaro in che misura gli agenti di IA possano eguagliare le prestazioni di esperti umani in compiti di data science specifici per dominio, e in quali aspetti l'esperienza umana continui a fornire vantaggi. Presentiamo AgentDS, un benchmark e una competizione progettati per valutare le prestazioni sia degli agenti di IA che della collaborazione uomo-IA nella scienza dei dati domain-specific. AgentDS consiste in 17 sfide relative a sei industrie: commercio, produzione alimentare, sanità, assicurazioni, manifatturiero e banche al dettaglio. Abbiamo condotto una competizione aperta che ha coinvolto 29 team e 80 partecipanti, consentendo un confronto sistematico tra approcci di collaborazione uomo-IA e baseline esclusivamente basate sull'IA. I nostri risultati mostrano che gli attuali agenti di IA faticano nel ragionamento domain-specific. Le baseline esclusivamente IA performano vicino o al di sotto della mediana dei partecipanti alla competizione, mentre le soluzioni più robuste emergono dalla collaborazione uomo-IA. Questi risultati sfidano la narrativa dell'automazione completa da parte dell'IA e sottolineano l'importanza duratura dell'esperienza umana nella scienza dei dati, illuminando al contempo le direzioni per la prossima generazione di IA. Visita il sito web di AgentDS qui: https://agentds.org/ e i dataset open source qui: https://huggingface.co/datasets/lainmn/AgentDS.
Studiamo la sintesi di politiche tramite LLM: l'utilizzo di un grande modello linguistico per generare iterativamente politiche agente programmatiche per ambienti multi-agente. Invece di addestrare politiche neurali tramite apprendimento per rinforzo, il nostro framework sollecita un LLM a produrre funzioni di politica in Python, le valuta in self-play e le affina utilizzando il feedback sulle prestazioni attraverso le iterazioni. Investigiamo l'ingegneria del feedback (la progettazione di quali informazioni valutative vengono mostrate all'LLM durante l'affinamento) confrontando il feedback sparso (solo ricompensa scalare) con il feedback denso (ricompensa più metriche sociali: efficienza, equità, sostenibilità, pace). In due Dilemmi Sociali Sequenziali canonici (Gathering e Cleanup) e due LLM all'avanguardia (Claude Sonnet 4.6, Gemini 3.1 Pro), il feedback denso eguaglia o supera costantemente quello sparso su tutte le metriche. Il vantaggio è maggiore nel gioco dei beni pubblici Cleanup, dove fornire metriche sociali aiuta l'LLM a calibrare il costoso tradeoff tra pulizia e raccolta. Piuttosto che innescare un'over-ottimizzazione dell'equità, le metriche sociali fungono da segnale di coordinamento che guida l'LLM verso strategie cooperative più efficaci, inclusa la suddivisione del territorio, l'assegnazione adattiva dei ruoli e l'evitamento di aggressioni dispendiose. Eseguiamo inoltre un esperimento avversario per determinare se gli LLM possono manipolare le ricompense in questi ambienti. Caratterizziamo cinque classi di attacco e discutiamo le mitigazioni, evidenziando una tensione intrinseca nella sintesi di politiche tramite LLM tra espressività e sicurezza. Codice disponibile su https://github.com/vicgalle/llm-policies-social-dilemmas.
I grandi modelli visione-linguaggio (VLM) utilizzano spesso un backbone visivo congelato, le cui caratteristiche immagine vengono mappate in un grande modello linguistico attraverso un connettore leggero. Sebbene gli encoder basati su transformer siano il backbone visivo standard, ci chiediamo se i backbone visivi basati su modelli a spazio di stati (SSM) possano rappresentare una valida alternativa. Valutiamo sistematicamente i backbone visivi SSM per i VLM in un contesto controllato. In condizioni di inizializzazione ImageNet-1K comparabile, il backbone SSM raggiunge le prestazioni complessive più solide sia nel VQA che nella grounding/localizzazione. Adattiamo ulteriormente sia i backbone SSM che quelli della famiglia ViT con training di detection o segmentazione e scopriamo che la messa a punto per task densi generalmente migliora le prestazioni tra le famiglie; dopo questo adattamento, il backbone SSM rimane competitivo pur operando a una scala di modello sostanzialmente inferiore. Osserviamo inoltre che (i) una maggiore accuratezza su ImageNet o backbone più grandi non si traducono in modo affidabile in prestazioni VLM migliori, e (ii) alcuni backbone visivi sono instabili nella localizzazione. Sulla base di questi risultati, proponiamo strategie di stabilizzazione che migliorano la robustezza per entrambe le famiglie di backbone e evidenziamo i backbone SSM come una valida alternativa agli encoder visivi basati su transformer nei VLM.
I grandi modelli linguistici (LLM) mostrano una forte intelligenza generale, ma le loro prestazioni multilingue rimangono fortemente squilibrate. Sebbene gli LLM codifichino una sostanziale conoscenza cross-linguale in uno spazio semantico unificato, spesso faticano a interfacciare in modo affidabile questa conoscenza con lingue a risorse limitate o non viste. Fortunatamente, i modelli di traduzione preaddestrati di tipo encoder-decoder possiedono già capacità multilingue bilanciate, suggerendo un complemento naturale per gli LLM. In questo lavoro, proponiamo XBridge, un'architettura composita encoder-LLM-decoder che delega la comprensione e la generazione multilingue a modelli di traduzione preaddestrati esterni, preservando al contempo l'LLM come nucleo incentrato sull'inglese per l'elaborazione della conoscenza generale. Per affrontare il conseguente disallineamento delle rappresentazioni tra i modelli, introduciamo strati di mappatura cross-modello leggeri e un obiettivo di allineamento basato sul trasporto ottimo, consentendo una consistenza semantica granulare per la generazione multilingue. Esperimenti su quattro LLM in compiti di comprensione, ragionamento, riassunto e generazione multilingue indicano che XBridge supera baseline robuste, specialmente su lingue a risorse limitate e precedentemente non viste, senza riaddestrare l'LLM.
La revisione del codice è una pratica fondamentale nell'ingegneria del software, in cui gli sviluppatori esaminano le modifiche al codice prima dell'integrazione per garantirne la qualità, individuare i difetti e migliorarne la manutenibilità. Negli ultimi anni, agenti di IA in grado di comprendere il contesto del codice, pianificare azioni di revisione e interagire con gli ambienti di sviluppo sono stati integrati sempre più nel processo di code review. Tuttavia, esistono ancora poche evidenze empiriche che confrontino l'efficacia degli agenti di IA e dei revisori umani in flussi di lavoro collaborativi. Per colmare questa lacuna, abbiamo condotto un'analisi empirica su larga scala di 278.790 conversazioni di code review relative a 300 progetti open-source su GitHub. Nel nostro studio, ci proponiamo di confrontare le differenze nel feedback fornito dai revisori umani e dagli agenti di IA. Investigiamo i modelli di collaborazione uomo-IA nelle conversazioni di revisione per comprendere come l'interazione influisca sugli esiti della revisione. Inoltre, analizziamo l'adozione nel codice base dei suggerimenti forniti sia dai revisori umani che dagli agenti di IA, e come i suggerimenti adottati modifichino la qualità del codice. I nostri risultati indicano che i revisori umani forniscono un feedback aggiuntivo rispetto agli agenti di IA, includendo la comprensione, i test e il trasferimento di conoscenze. I revisori umani scambiano l'11,8% in più di interazioni quando revisionano codice generato da IA rispetto a codice scritto da umani. Inoltre, i suggerimenti di codice proposti dagli agenti di IA vengono adottati nel codice base con una frequenza significativamente inferiore rispetto a quelli proposti dai revisori umani. Oltre la metà dei suggerimenti non adottati provenienti da agenti di IA sono risultati o incorretti o affrontati tramite correzioni alternative dagli sviluppatori. Quando adottati, i suggerimenti forniti dagli agenti di IA producono aumenti significativamente maggiori nella complessità e nelle dimensioni del codice rispetto a quelli forniti dai revisori umani. Le nostre scoperte suggeriscono che, sebbene gli agenti di IA possano scalare lo screening dei difetti, la supervisione umana rimane fondamentale per garantire la qualità dei suggerimenti e fornire quel feedback contestuale di cui gli agenti di IA sono carenti.
La generazione automatica di aspetti fotorealistici e autocoerenti per modelli 3D non texturizzati è una sfida cruciale nella creazione di contenuti digitali. I progressi nei modelli di generazione video su larga scala offrono un approccio naturale: la sintesi diretta di video a girotondo (TTV) a 360 gradi, che possono fungere non solo da anteprime dinamiche di alta qualità, ma anche da rappresentazione intermedia per guidare la sintesi delle texture e il rendering neurale. Tuttavia, gli attuali modelli di diffusione video generici faticano a mantenere una rigorosa coerenza geometrica e stabilità dell'aspetto attraverso l'intera gamma di visuali, rendendo i loro output inadatti per una ricostruzione 3D di alta qualità. A tal fine, presentiamo TAPESTRY, un framework per generare TTV ad alta fedeltà condizionati da geometria 3D esplicita. Riformuliamo il compito della generazione dell'aspetto 3D come un problema di diffusione video condizionato dalla geometria: dato una mesh 3D, prima renderizziamo e codifichiamo caratteristiche geometriche multimodali per vincolare il processo di generazione video con precisione a livello di pixel, permettendo così la creazione di TTV di alta qualità e coerenti. Sulla base di ciò, progettiamo anche un metodo per i compiti di ricostruzione a valle a partire dall'input TTV, che presenta una pipeline multi-stadio con Inpainting Consapevole del 3D. Ruotando il modello ed eseguendo una generazione secondaria context-aware, questa pipeline completa efficacemente le regioni auto-occluse per ottenere una copertura completa della superficie. I video generati da TAPESTRY non sono solo anteprime dinamiche di alta qualità, ma fungono anche da rappresentazione intermedia affidabile e consapevole del 3D, che può essere retroproiettata senza soluzione di continuità in texture UV o utilizzata per supervisionare metodi di rendering neurale come il 3DGS. Ciò consente la creazione automatizzata di asset 3D completi e pronti per la produzione a partire da mesh non texturizzate. I risultati sperimentali dimostrano che il nostro metodo supera gli approcci esistenti sia nella coerenza video che nella qualità della ricostruzione finale.
La ricostruzione di asset 3D a partire da immagini ha a lungo richiesto pipeline separate per la ricostruzione geometrica, la stima dei materiali e il recupero dell'illuminazione, ciascuna con limitazioni distinte e un elevato costo computazionale. Presentiamo ReLi3D, la prima pipeline unificata end-to-end che ricostruisce simultaneamente la geometria 3D completa, materiali fisicamente basati a variazione spaziale e l'illuminazione ambientale da immagini multi-vista sparse in meno di un secondo. La nostra intuizione chiave è che i vincoli multi-vista possono migliorare drasticamente la separazione di materiali e illuminazione, un problema che rimane fondamentalmente mal posto per i metodi basati su singola immagine. Elemento cruciale del nostro approccio è la fusione dell'input multi-vista tramite un'architettura transformer a condizionamento incrociato, seguita da una nuova strategia di previsione unificata a due percorsi. Il primo percorso prevede la struttura e l'aspetto dell'oggetto, mentre il secondo prevede l'illuminazione ambientale dallo sfondo dell'immagine o dai riflessi sull'oggetto. Questo, combinato con un renderer differenziabile per l'importance sampling Monte Carlo multiplo, crea una pipeline di addestramento ottimale per la separazione dell'illuminazione. Inoltre, con il nostro protocollo di addestramento in dominio misto, che combina dataset sintetici PBR con acquisizioni RGB del mondo reale, otteniamo risultati generalizzabili in termini di geometria, accuratezza dei materiali e qualità dell'illuminazione. Unificando compiti di ricostruzione precedentemente separati in un unico passaggio in avanti, permettiamo la generazione quasi istantanea di asset 3D completi e riluminabili. Pagina del progetto: https://reli3d.jdihlmann.com/
I modelli linguistici multimodali di grandi dimensioni hanno ottenuto un successo significativo nella comprensione video offline, ma la loro applicazione a video in streaming è fortemente limitata dall'esplosione lineare di token visivi, che spesso porta a errori di memoria insufficiente (OOM) o a oblio catastrofico. I metodi esistenti di ritenzione visiva e gestione della memoria si basano tipicamente su campionamento uniforme, metriche fisiche di basso livello o espulsione passiva dalla cache. Tuttavia, queste strategie spesso mancano di una consapevolezza semantica intrinseca, rischiando di interrompere la coerenza contestuale e di offuscare transizioni semantiche transitorie ma critiche. Per affrontare queste limitazioni, proponiamo CurveStream, un framework di gestione della memoria visiva gerarchica, consapevole della curvatura e che non richiede addestramento. Il nostro approccio è motivato dall'osservazione chiave che le regioni ad alta curvatura lungo le traiettorie continue delle feature si allineano strettamente con transizioni semantiche globali critiche. Basandoci su questa intuizione geometrica, CurveStream valuta l'intensità semantica in tempo reale tramite un Punteggio di Curvatura e integra una soglia dinamica online K-Sigma per instradare in modo adattivo i fotogrammi verso stati di memoria chiari e fuzzy sotto un rigoroso budget di token. Le valutazioni su diverse scale temporali confermano che questo framework leggero, CurveStream, produce costantemente guadagni assoluti di prestazioni superiori al 10% (ad esempio, il 10,69% su StreamingBench e il 13,58% su OVOBench) rispetto alle rispettive baseline, stabilendo nuovi risultati all'avanguardia per la percezione di video in streaming. Il codice sarà rilasciato su https://github.com/streamingvideos/CurveStream.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più impiegati in applicazioni con impatto sociale, sollevando preoccupazioni riguardo ai pregiudizi culturali che codificano. Indaghiamo queste rappresentazioni valutando se gli LLM siano in grado di eseguire la profilazione degli autori a partire dai testi delle canzoni in uno scenario zero-shot, inferendo il genere e l'etnia dei cantanti senza una messa a punto specifica per il compito. Valutando diversi modelli open-source su oltre 10.000 testi, riscontriamo che gli LLM raggiungono prestazioni di profilazione non banali ma dimostrano un allineamento culturale sistematico: la maggior parte dei modelli tende a prediligere l'etnia nordamericana, mentre DeepSeek-1.5B si allinea più fortemente con l'etnia asiatica. Questa scoperta emerge sia dalle distribuzioni predittive dei modelli che da un'analisi delle loro ragioni generate. Per quantificare queste disparità, introduciamo due metriche di equità, la Divergenza di Accuratezza Modale (MAD) e la Divergenza di Richiamo (RD), e dimostriamo che Ministral-8B presenta il pregiudizio etnico più marcato tra i modelli valutati, mentre Gemma-12B mostra il comportamento più equilibrato. Il nostro codice è disponibile su GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).
Problemi di tipo off-policy come l'obsolescenza della policy e la discrepanza tra addestramento e inferenza sono diventati un collo di bottiglia principale per la stabilità dell'addestramento e l'ulteriore esplorazione nell'RL per LLM. Per migliorare l'efficienza inferenziale, il divario distributivo tra la policy di inferenza e quella aggiornata si amplia, portando a rapporti di importanza dalla coda pesante. Questi rapporti si manifestano quando la policy è localmente ripida, il che amplifica ulteriormente gradienti accentuati e può spingere gli aggiornamenti al di fuori della regione di fiducia. Per affrontare ciò, proponiamo Perturbazione Adattiva Strato per Strato (ALP), iniettando piccole perturbazioni apprendibili negli stati nascosti di input di ogni strato durante gli aggiornamenti, che vengono utilizzate come numeratore del rapporto di importanza rispetto alla policy di inferenza invariata nell'obiettivo. Intuitivamente, aggiungendo rumore controllato alle rappresentazioni intermedie, ALP impedisce alla policy aggiornata di discostarsi troppo bruscamente da quella di inferenza e amplia la famiglia di policy per coprire quella di inferenza con rumori di disallineamento. Pertanto, la distribuzione appiattita può naturalmente ridurre il divario tra policy aggiornata e di inferenza e attenuare la coda dei rapporti di importanza, mantenendo così la stabilità dell'addestramento. Ciò è ulteriormente validato empiricamente. Esperimenti su compiti di ragionamento matematico a turno singolo e di ragionamento con integrazione di strumenti a turni multipli mostrano che ALP non solo migliora le prestazioni finali, ma evita anche l'esplosione della coda del rapporto di importanza e i picchi di KL durante l'addestramento iterativo, insieme a un'esplorazione potenziata. Studi di ablazione dimostrano che le perturbazioni a livello di rappresentazione su tutti gli strati sono le più efficaci, superando sostanzialmente le varianti a strati parziali e solo logit.
Gli approcci neurosimbolici che sfruttano i Large Language Model (LLM) insieme a metodi formali hanno recentemente ottenuto risultati significativi su benchmark di dimostrazione di teoremi orientati alla matematica. Tuttavia, il successo in matematica di tipo competitivo non dimostra di per sé la capacità di costruire dimostrazioni su implementazioni del mondo reale. Colmiamo questa lacuna con un benchmark derivato da una libreria crittografica industriale le cui routine in assembly sono già verificate in HOL Light. s2n-bignum è una libreria utilizzata in AWS per fornire routine assembly veloci per la crittografia, e la sua correttezza è stabilita dalla verifica formale. Il compito di verificare formalmente questa libreria è stato un risultato significativo per l'Automated Reasoning Group. Esso ha coinvolto due compiti: (1) specificare precisamente il comportamento corretto di un programma come una proposizione matematica, e (2) dimostrare che la proposizione è corretta. Nel caso di s2n-bignum, entrambi i compiti sono stati eseguiti da esperti umani. In s2n-bignum-bench, forniamo la specifica formale e chiediamo all'LLM di generare uno script di dimostrazione che sia accettato da HOL Light entro un timeout fisso per il controllo delle dimostrazioni. A nostra conoscenza, s2n-bignum-bench è il primo benchmark pubblico focalizzato sulla sintesi di dimostrazioni verificabili automaticamente per routine crittografiche industriali di basso livello in assembly in HOL Light. Questo benchmark fornisce un banco di prova impegnativo e praticamente rilevante per valutare la dimostrazione automatica di teoremi basata su LLM al di là della matematica competitiva. Il codice per configurare e utilizzare il benchmark è disponibile qui: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.
I benchmark esistenti per il rilevamento di manipolazioni si basano in larga misura su maschere di oggetti, le quali risultano fortemente disallineate rispetto al vero segnale di modifica: molti pixel all'interno di una maschera rimangono inalterati o sono modificati solo in modo trascurabile, mentre modifiche sottili ma significative al di fuori della maschera vengono trattate come naturali. Noi riformuliamo il problema del rilevamento di manipolazioni nelle immagini per VLM (Vision-Language Models), passando da etichette di regioni approssimative a un compito ancorato a livello di pixel, consapevole del significato e del linguaggio. In primo luogo, introduciamo una tassonomia che spazia dai primitivi di modifica (sostituire/rimuovere/inserire/inpaint/attribuire/colorizzare, ecc.) alla classe semantica dell'oggetto manipolato, collegando così i cambiamenti di basso livello a una comprensione di alto livello. In secondo luogo, rilasciamo un nuovo benchmark con mappe di manipolazione per pixel e supervisione di categoria abbinata, per valutare il rilevamento e la classificazione all'interno di un protocollo unificato. In terzo luogo, proponiamo un framework di addestramento e metriche di valutazione che quantificano la correttezza a livello di pixel con localizzazione, per valutare la confidenza o la previsione sulla reale intensità della modifica, e misurano ulteriormente la comprensione del significato della manipolazione attraverso una classificazione consapevole della semantica e descrizioni in linguaggio naturale per le regioni predette. Rivalutiamo inoltre le solide baseline esistenti di segmentazione/localizzazione sui recenti e potenti rilevatori di manipolazioni, rivelando una sostanziale sovra- e sotto-valutazione quando si utilizzano metriche basate solo sulle maschere, ed esponendo le modalità di fallimento su micro-modifiche e cambiamenti al di fuori della maschera. Il nostro framework avanza il campo dalle maschere ai pixel, ai significati e alle descrizioni linguistiche, stabilendo uno standard rigoroso per la localizzazione delle manipolazioni, la classificazione semantica e la descrizione. Il codice e i dati del benchmark sono disponibili all'indirizzo https://github.com/VILA-Lab/PIXAR.
La rapida proliferazione dei Large Language Model ha aumentato significativamente la difficoltà di distinguere tra testi scritti da esseri umani e testi generati dall'IA, sollevando questioni critiche in ambito accademico, editoriale e sociale. Questo articolo indaga il problema della rilevazione del testo generato dall'IA attraverso la progettazione, l'implementazione e la valutazione comparata di più rilevatori basati sul machine learning. Vengono sviluppate e analizzate quattro architetture neurali: un Perceptron Multistrato, una rete neurale convoluzionale monodimensionale, una CNN basata su MobileNet e un modello Transformer. I modelli proposti vengono confrontati con rilevatori online ampiamente utilizzati, tra cui ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase e Writer. Gli esperimenti sono condotti sul COLING Multilingual Dataset, considerando sia le configurazioni in lingua inglese che italiana, nonché su un dataset tematico originale incentrato su Arte e Salute Mentale. I risultati mostrano che i rilevatori supervisionati raggiungono prestazioni più stabili e robuste rispetto agli strumenti commerciali in diverse lingue e domini, evidenziando i punti di forza e le limitazioni principali delle attuali strategie di rilevamento.
La segmentazione delle immagini ecografiche mediche affronta sfide significative a causa della limitata disponibilità di dati etichettati e dei caratteristici artefatti di imaging, tra cui il rumore speckle e i bordi a basso contrasto. Sebbene gli approcci di apprendimento semi-supervisionato (SSL) siano emersi per affrontare la scarsità di dati, i metodi esistenti soffrono di un utilizzo subottimale dei dati non etichettati e della mancanza di meccanismi robusti di rappresentazione delle feature. In questo articolo, proponiamo Switch, un nuovo framework SSL con due innovazioni chiave: (1) la strategia Multiscale Switch (MSS) che impiega un mixing gerarchico di patch per ottenere una copertura spaziale uniforme; (2) il Frequency Domain Switch (FDS) con apprendimento contrastivo che esegue lo switching di ampiezza nello spazio di Fourier per rappresentazioni di feature robuste. Il nostro framework integra questi componenti all'interno di un'architettura teacher-student per sfruttare efficacemente sia i dati etichettati che quelli non etichettati. Una valutazione completa su sei diversi dataset ecografici (linfonodi, lesioni mammarie, noduli tiroidei e prostata) dimostra una superiorità consistente rispetto ai metodi allo stato dell'arte. Con un rapporto di etichettatura del 5%, Switch raggiunge miglioramenti notevoli: 80,04% di Dice su LN-INT, 85,52% di Dice su DDTI e 83,48% di Dice sui dataset della prostata, con il nostro approccio semi-supervisionato che supera persine i baseline fully supervised. Il metodo mantiene l'efficienza dei parametri (1,8M di parametri) fornendo al contempo prestazioni superiori, convalidando la sua efficacia per le applicazioni di imaging medico con risorse limitate. Il codice sorgente è pubblicamente disponibile all'indirizzo https://github.com/jinggqu/Switch.
La riduzione della latenza e del consumo energetico è fondamentale per migliorare l'efficienza dei sistemi di memoria nell'informatica moderna. Questo lavoro introduce ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), un framework spiegabile di apprendimento per rinforzo multi-agente online che ottimizza dinamicamente i parametri del controller di memoria utilizzando la scomposizione della ricompensa. ReLMXEL opera all'interno del controller di memoria, sfruttando metriche dettagliate del comportamento della memoria per guidare il processo decisionale. Le valutazioni sperimentali su diversi carichi di lavoro dimostrano miglioramenti prestazionali costanti rispetto alle configurazioni baseline, con perfezionamenti guidati dal comportamento specifico degli accessi alla memoria. Incorporando la spiegabilità nel processo di apprendimento, ReLMXEL non solo migliora le prestazioni ma aumenta anche la trasparenza delle decisioni di controllo, aprendo la strada a progetti di sistemi di memoria più responsivi e adattativi.