Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i modelli linguistici di diffusione (DLM) si stiano evolvendo rapidamente, molti modelli recenti convergono su un insieme di componenti condivise. Tuttavia, queste componenti sono distribuite in codebase di ricerca ad-hoc o mancano di implementazioni trasparenti, rendendole difficili da riprodurre o estendere. Con l'accelerazione del campo, emerge chiaramente l'esigenza di un framework unificato che standardizzi queste componenti comuni, rimanendo al contempo sufficientemente flessibile per supportare nuovi metodi e architetture. Per colmare questa lacuna, presentiamo dLLM, un framework open-source che unifica i componenti fondamentali della modellazione linguistica di diffusione – addestramento, inferenza e valutazione – e li rende facili da personalizzare per nuovi progetti. Con dLLM, gli utenti possono riprodurre, mettere a punto, distribuire e valutare grandi DLM open-source come LLaDA e Dream attraverso una pipeline standardizzata. Il framework fornisce inoltre ricette minime e riproducibili per costruire piccoli DLM da zero con risorse computazionali accessibili, inclusa la conversione di qualsiasi encoder in stile BERT o LM autoregressivo in un DLM. Rilasciamo anche i checkpoint di questi piccoli DLM per rendere i DLM più accessibili e accelerare la ricerca futura.
L'ottimizzazione dei kernel GPU è fondamentale per il deep learning moderno ma rimane un compito altamente specializzato che richiede una profonda competenza hardware. Nonostante le forti prestazioni nella programmazione generale, i grandi modelli linguistici (LLM) rimangono non competitivi rispetto a sistemi basati su compilatori come torch.compile per la generazione di kernel CUDA. Gli approcci esistenti per la generazione di codice CUDA si basano su raffinamenti senza training o su modelli addestrati in loop di esecuzione-feedback multi-turno fissi, ma entrambi i paradigmi non riescono a migliorare fondamentalmente l'intrinseca capacità di ottimizzazione CUDA del modello, risultando in guadagni prestazionali limitati. Presentiamo CUDA Agent, un sistema su larga scala di apprendimento per rinforzo agente che sviluppa competenza nei kernel CUDA attraverso tre componenti: una pipeline scalabile di sintesi dati, un ambiente di sviluppo CUDA arricchito con verifica e profilazione automatizzate per fornire segnali di reward affidabili, e tecniche algoritmiche di reinforcement learning che abilitano un addestramento stabile. CUDA Agent ottiene risultati all'avanguardia su KernelBench, raggiungendo rispettivamente il 100%, 100% e 92% di velocizzazione superiore a torch.compile sulle partizioni Level-1, Level-2 e Level-3 di KernelBench, superando i modelli proprietari più potenti come Claude Opus 4.5 e Gemini 3 Pro di circa il 40% sullo scenario più difficile di Level-3.
I recenti progressi nella generazione di immagini da testo hanno notevolmente migliorato la fedeltà visiva e la creatività, ma hanno anche imposto richieste più elevate sulla complessità dei prompt, in particolare per quanto riguarda la codifica di intricate relazioni spaziali. In questi casi, ottenere risultati soddisfacenti richiede spesso molteplici tentativi di campionamento. Per affrontare questa sfida, introduciamo un metodo innovativo che rafforza la comprensione spaziale degli attuali modelli di generazione di immagini. Inizialmente costruiamo il dataset SpatialReward con oltre 80.000 coppie di preferenze. Basandoci su questo dataset, sviluppiamo SpatialScore, un modello di reward progettato per valutare l'accuratezza delle relazioni spaziali nella generazione di immagini da testo, raggiungendo prestazioni che superano persino i principali modelli proprietari nella valutazione spaziale. Dimostriamo inoltre che questo modello di reward abilita efficacemente l'apprendimento per rinforzo online per la generazione spaziale complessa. Esperimenti estesi su molteplici benchmark mostrano che il nostro modello di reward specializzato produce miglioramenti significativi e consistenti nella comprensione spaziale per la generazione di immagini.
L'affidabilità della valutazione dei modelli linguistici multilingue di grandi dimensioni (LLM) è attualmente compromessa dalla qualità disomogenea dei benchmark tradotti. Le risorse esistenti soffrono spesso di deriva semantica e perdita di contesto, che possono portare a metriche di performance fuorvianti. In questo lavoro, presentiamo un framework completamente automatizzato progettato per affrontare queste sfide, consentendo una traduzione scalabile e di alta qualità di dataset e benchmark. Dimostriamo che l'adattamento di strategie di scalabilità computazionale al momento del test, in particolare l'Automiglioramento Universale (USI) e il nostro metodo di classificazione multi-round proposto, T-RANK, permette di ottenere output di qualità significativamente superiore rispetto alle pipeline tradizionali. Il nostro framework garantisce che i benchmark preservino la loro struttura task originale e le sfumature linguistiche durante la localizzazione. Applichiamo questo approccio per tradurre benchmark e dataset popolari in otto lingue dell'Europa orientale e meridionale (ucraino, bulgaro, slovacco, rumeno, lituano, estone, turco, greco). Le valutazioni che utilizzano sia metriche basate su riferimento sia il giudizio di LLM come valutatore mostrano che le nostre traduzioni superano le risorse esistenti, producendo una valutazione più accurata dei modelli a valle. Rilasciamo sia il framework che i benchmark migliorati per facilitare uno sviluppo multilingue dell'IA robusto e riproducibile.
Il passaggio dalla generazione di video di pochi secondi a quelli di diversi minuti incontra un collo di bottiglia critico: mentre i dati per video brevi sono abbondanti e ad alta fedeltà, i dati coerenti per video lunghi sono scarsi e limitati a domini ristretti. Per affrontare questo problema, proponiamo un paradigma di addestramento in cui la Ricerca della Moda incontra la Ricerca della Media, disaccoppiando la fedeltà locale dalla coerenza a lungo termine basandosi su una rappresentazione unificata tramite un Trasformatore di Diffusione Disaccoppiato. Il nostro approccio utilizza una testa globale di Flow Matching addestrata tramite apprendimento supervisionato su video lunghi per catturare la struttura narrativa, mentre impiega simultaneamente una testa locale di Distribution Matching che allinea finestre scorrevoli a un insegnante per video brevi congelato tramite una divergenza reverse-KL di tipo mode-seeking. Questa strategia consente la sintesi di video della durata di minuti che apprende coerenza e movimenti a lungo raggio da video lunghi limitati tramite il flow matching supervisionato, mentre eredita il realismo locale allineando ogni segmento a finestra scorrevole dello studente a un insegnante per video brevi congelato, dando vita a un generatore di video lunghi veloce che richiede pochi passi. Le valutazioni mostrano che il nostro metodo riduce efficacemente il divario fedeltà-orizzonte migliorando congiuntamente la nitidezza locale, il movimento e la coerenza a lungo raggio. Sito del progetto: https://primecai.github.io/mmm/.
La decodifica speculativa accelera l'inferenza dei grandi modelli linguistici (LLM) autoregressivi utilizzando un modello draft leggero per proporre token candidati, che vengono poi verificati in parallelo dal modello target. Lo speedup è significativamente determinato dal tasso di accettazione, eppure l'addestramento standard minimizza la divergenza di Kullback-Leibler (KL) come obiettivo surrogato. Sebbene la divergenza KL e il tasso di accettazione condividano lo stesso ottimo globale, i piccoli modelli draft, avendo capacità limitata, convergono tipicamente verso soluzioni subottimali in cui minimizzare la KL non garantisce la massimizzazione del tasso di accettazione. Per affrontare questo problema, proponiamo le perdite LK, obiettivi di addestramento speciali che mirano direttamente al tasso di accettazione. Esperimenti completi su quattro architetture draft e sei modelli target, che vanno da 8B a 685B di parametri, dimostrano miglioramenti consistenti nelle metriche di accettazione in tutte le configurazioni rispetto all'addestramento standard basato su KL. Valutiamo il nostro approccio in domini generali, di programmazione e matematici, e riportiamo guadagni fino all'8-10% nella lunghezza media di accettazione. Le perdite LK sono facili da implementare, non introducono overhead computazionale e possono essere integrate direttamente in qualsiasi framework di addestramento speculatore esistente, rendendole un'alternativa convincente agli obiettivi di addestramento draft attuali.
La ricerca scientifica si basa su citazioni accurate per l'attribuzione e l'integrità, ma i grandi modelli linguistici (LLM) introducono un nuovo rischio: riferimenti fabbricati che appaiono plausibili ma non corrispondono a pubblicazioni reali. Tali citazioni allucinate sono già state osservate in submission e articoli accettati in importanti conferenze di machine learning, esponendo vulnerabilità nella revisione paritaria. Nel frattempo, le liste di riferimento in rapida crescita rendono impraticabile la verifica manuale, e gli strumenti automatizzati esistenti rimangono fragili rispetto a formati di citazione rumorosi ed eterogenei e mancano di una valutazione standardizzata. Presentiamo il primo benchmark completo e un framework di rilevamento per le citazioni allucinate nella scrittura scientifica. La nostra pipeline di verifica multi-agente scompone il controllo delle citazioni in estrazione dell'affermazione, recupero delle evidenze, corrispondenza dei passaggi, ragionamento e giudizio calibrato per valutare se una fonte citata supporti veramente la sua affermazione. Costruiamo un dataset su larga scala convalidato da esseri umani in vari domini e definiamo metriche unificate per la fedeltà della citazione e l'allineamento delle evidenze. Esperimenti con LLM all'avanguardia rivelano errori sostanziali nelle citazioni e mostrano che il nostro framework supera significativamente i metodi precedenti sia in accuratezza che interpretabilità. Questo lavoro fornisce la prima infrastruttura scalabile per l'audit delle citazioni nell'era degli LLM e strumenti pratici per migliorare l'affidabilità dei riferimenti scientifici.
La generalizzazione composizionale, la capacità di riconoscere parti familiari in contesti nuovi, è una proprietà distintiva dei sistemi intelligenti. Sebbene i modelli moderni vengano addestrati su dataset di enormi dimensioni, questi coprono solo una minuscola frazione dello spazio combinatorio dei possibili input, sollevando la questione di quale struttura debbano avere le rappresentazioni per supportare la generalizzazione a combinazioni non viste. Formalizziamo tre desiderata per la generalizzazione composizionale sotto addestramento standard (divisibilità, trasferibilità, stabilità) e dimostriamo che essi impongono vincoli geometrici necessari: le rappresentazioni devono scomporsi linearmente in componenti per concetto, e queste componenti devono essere ortogonali tra i concetti. Ciò fornisce un fondamento teorico per l'Ipotesi della Rappresentazione Lineare: la struttura lineare ampiamente osservata nelle rappresentazioni neurali è una conseguenza necessaria della generalizzazione composizionale. Deriviamo inoltre limiti dimensionali che collegano il numero di concetti componibili alla geometria dell'embedding. Empiricamente, valutiamo queste previsioni su modelli visivi moderni (CLIP, SigLIP, DINO) e troviamo che le rappresentazioni esibiscono una fattorizzazione lineare parziale con fattori per concetto di basso rango e quasi-ortogonali, e che il grado di questa struttura si correla con la generalizzazione composizionale su combinazioni non viste. Man mano che i modelli continuano a scalare, queste condizioni predicono la geometria rappresentazionale a cui potrebbero convergere. Il codice è disponibile all'indirizzo https://github.com/oshapio/necessary-compositionality.
La memorabilità delle immagini, ovvero la probabilità che un'immagine venga ricordata, è stata tradizionalmente studiata nell'ambito della computer vision come un compito di predizione passiva, con modelli che stimano un punteggio scalare, o con metodi generativi che alterano l'input visivo per aumentare la probabilità che l'immagine venga ricordata. Tuttavia, nessuno di questi paradigmi supporta gli utenti al momento dello scatto, quando la domanda cruciale è come migliorare la memorabilità di una foto. Introduciamo il compito del Feedback di Memorabilità (MemFeed), in cui un modello automatizzato dovrebbe fornire una guida azionabile e interpretabile dall'utente con l'obiettivo di migliorare il futuro ricordo di un'immagine. Presentiamo inoltre MemCoach, il primo approccio progettato per fornire suggerimenti concreti in linguaggio naturale per il miglioramento della memorabilità (ad esempio, "enfatizza l'espressione facciale", "avvicina il soggetto in primo piano"). Il nostro metodo, basato su Modelli Linguistici Multimodali di Grande Dimensioni (MLLM), non richiede addestramento e impiega una strategia di orientamento teacher-student, allineando le attivazioni interne del modello verso pattern più memorabili appresi da un modello insegnante che progredisce lungo campioni ordinati da meno a più memorabili. Per consentire una valutazione sistematica di questo nuovo compito, introduciamo inoltre MemBench, un nuovo benchmark che presenta sessioni fotografiche con sequenze allineate e punteggi di memorabilità annotati. I nostri esperimenti, condotti su molteplici MLLM, dimostrano l'efficacia di MemCoach, mostrando un miglioramento delle prestazioni in modo consistente rispetto a diversi modelli zero-shot. I risultati indicano che la memorabilità non può solo essere predetta, ma anche insegnata e istruita, spostando il focus dalla mera predizione a un feedback azionabile per i creatori umani.
L'apprendimento contrastivo è diventato un pilastro dell'apprendimento di rappresentazioni moderno, consentendo l'addestramento con enormi quantità di dati non etichettati sia per modelli specifici per un compito che per modelli generali (fondamentali). Una funzione di perdita prototipica nell'addestramento contrastivo è InfoNCE e le sue varianti. In questo lavoro, dimostriamo che l'obiettivo InfoNCE induce una struttura gaussiana nelle rappresentazioni che emergono dall'addestramento contrastivo. Stabiliamo questo risultato in due regimi complementari. In primo luogo, mostriamo che, sotto determinate ipotesi di allineamento e concentrazione, le proiezioni della rappresentazione ad alta dimensionalità si avvicinano asintoticamente a una distribuzione gaussiana multivariata. Successivamente, sotto ipotesi meno restrittive, mostriamo che l'aggiunta di un piccolo termine di regolarizzazione, asintoticamente trascurabile, che promuove una bassa norma delle feature e un'alta entropia delle feature, porta a risultati asintotici simili. Supportiamo la nostra analisi con esperimenti su dataset sintetici e CIFAR-10 su molteplici architetture e dimensioni di encoder, dimostrando un comportamento gaussiano coerente. Questa prospettiva fornisce una spiegazione principiata per la gaussianità comunemente osservata nelle rappresentazioni contrastive. Il modello gaussiano risultante consente un trattamento analitico principiato delle rappresentazioni apprese e si prevede che supporti un'ampia gamma di applicazioni nell'apprendimento contrastivo.
La Comprensione delle Espressioni Referenziali (REC) collega il linguaggio alla percezione visiva a livello di regione. I benchmark standard (RefCOCO, RefCOCO+, RefCOCOg) hanno progredito rapidamente con i modelli linguistici multimodali, ma rimangono test deboli per il ragionamento visivo e il grounding: (i) molte espressioni sono molto brevi, lasciando poca richiesta di ragionamento; (ii) le immagini spesso contengono pochi elementi di disturbo, rendendo facile individuare il target; e (iii) descrittori ridondanti abilitano soluzioni scorciatoia che bypassano la genuina comprensione del testo e il ragionamento visivo. Introduciamo Ref-Adv, un benchmark REC moderno che sopprime le scorciatoie accoppiando espressioni linguisticamente non banali con solo le informazioni necessarie per identificare univocamente il target. Il dataset contiene espressioni referenziali su immagini reali, curate con elementi di disturbo difficili e annotate con aspetti di ragionamento inclusa la negazione. Eseguiamo ablazioni complete (perturbazioni dell'ordine delle parole e test di sufficienza tramite cancellazione di descrittori) per dimostrare che risolvere Ref-Adv richiede un ragionamento che va oltre semplici indizi, e valutiamo un'ampia gamma di modelli linguistici multimodali contemporanei su Ref-Adv. Nonostante i risultati solidi su RefCOCO, RefCOCO+ e RefCOCOg, le performance dei modelli calano marcatamente su Ref-Adv, rivelando una dipendenza da scorciatoie e lacune nel ragionamento visivo e nel grounding. Forniamo un'analisi approfondita degli errori e ci auguriamo che Ref-Adv guidi il lavoro futuro sul ragionamento visivo e il grounding nei MLLM.
Questo articolo affronta la sfida critica e poco esplorata della comprensione di video lunghi con budget computazionali ridotti. Proponiamo LongVideo-R1, un agente attivo, dotato di capacità di ragionamento e basato su un modello linguistico multimodale di grandi dimensioni (MLLM), progettato per una navigazione efficiente del contesto video, evitando la ridondanza della ricerca esaustiva. Il cuore di LongVideo-R1 risiede in un modulo di ragionamento che sfrutta indizi visivi di alto livello per inferire il clip video più informativo per l'elaborazione successiva. Durante l'inferenza, l'agente avvia l'attraversamento a partire da riepiloghi visivi di livello superiore e affina iterativamente il proprio focus, interrompendo immediatamente il processo di esplorazione non appena acquisisce conoscenze sufficienti per rispondere alla query. Per facilitare l'addestramento, estraiamo inizialmente didascalie video gerarchiche da CGBench, un corpus video con annotazioni di grounding, e guidiamo GPT-5 per generare 33K traiettorie di ragionamento a catena con strumento (chain-of-thought-with-tool) di alta qualità. L'agente LongVideo-R1 viene messo a punto (fine-tuned) a partire dal modello Qwen-3-8B attraverso un paradigma in due fasi: messa a punto supervisionata (SFT) seguita da apprendimento per rinforzo (RL), dove RL impiega una funzione di ricompensa specificamente progettata per massimizzare una navigazione selettiva ed efficiente dei clip. Esperimenti su molteplici benchmark di video lunghi convalidano l'efficacia di LongVideo-R1, che mostra un compromesso superiore tra accuratezza nelle domande e risposte (QA) ed efficienza. Tutti i dati curati e il codice sorgente sono forniti nel materiale supplementare e saranno resi pubblicamente disponibili. Codice e dati sono disponibili al seguente indirizzo: https://github.com/qiujihao19/LongVideo-R1
I modelli di generazione di immagini mascherate (MIGM) hanno ottenuto un grande successo, ma la loro efficienza è ostacolata dai molteplici passaggi di attenzione bidirezionale. In effetti, esiste una notevole ridondanza nei loro calcoli: durante il campionamento di token discreti, la ricca semantica contenuta nelle feature continue va persa. Alcuni lavori esistenti tentano di memorizzare nella cache le feature per approssimare quelle future. Tuttavia, questi metodi mostrano un errore di approssimazione considerevole sotto tassi di accelerazione aggressivi. Noi attribuiamo ciò alla loro limitata espressività e all'incapacità di tenere conto delle informazioni di campionamento. Per colmare questa lacuna, proponiamo di apprendere un modello leggero che incorpori sia le feature precedenti che i token campionati, e che regredisca il campo di velocità medio dell'evoluzione delle feature. Il modello ha una complessità moderata, sufficiente per catturare la dinamica sottile pur rimanendo leggero rispetto al modello base originale. Applichiamo il nostro metodo, MIGM-Shortcut, a due architetture e compiti MIGM rappresentativi. In particolare, sul Lumina-DiMOO all'avanguardia, esso raggiunge un'accelerazione di oltre 4x nella generazione di immagini da testo mantenendo la qualità, spingendo significativamente in avanti la frontiera di Pareto della generazione di immagini mascherate. Il codice e i pesi del modello sono disponibili su https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
I modelli di diffusione raggiungono una qualità di generazione video allo stato dell'arte, ma la loro inferenza rimane costosa a causa del gran numero di passaggi di denoising sequenziali. Ciò ha motivato una crescente linea di ricerca sull'accelerazione dell'inferenza di diffusione. Tra i metodi di accelerazione senza addestramento, il caching riduce il calcolo riutilizzando output del modello precedentemente calcolati attraverso i timestep. I metodi di caching esistenti si basano su criteri euristici per scegliere i timestep di cache/riutilizzo e richiedono un'ampia ottimizzazione. Affrontiamo questa limitazione con un framework di caching consapevole della sensibilità e basato su principi. Nello specifico, formalizziamo l'errore di caching attraverso un'analisi della sensibilità dell'output del modello a perturbazioni negli input di denoising, cioè il latente rumoroso e il timestep, e dimostriamo che questa sensibilità è un predittore chiave dell'errore di caching. Sulla base di questa analisi, proponiamo Sensitivity-Aware Caching (SenCache), una politica di caching dinamica che seleziona adattivamente i timestep di caching su base per-campione. Il nostro framework fornisce una base teorica per il caching adattativo, spiega perché le euristiche empiriche precedenti possono essere parzialmente efficaci e le estende in un approccio dinamico e specifico per campione. Esperimenti su Wan 2.1, CogVideoX e LTX-Video mostrano che SenCache raggiunge una qualità visiva migliore rispetto ai metodi di caching esistenti con budget computazionali simili.
I transformer sono diventati di fatto l'architettura di base per la maggior parte dei recenti progressi nella modellazione di sequenze, principalmente grazie alla loro crescente capacità di memoria che scala con la lunghezza del contesto. Sebbene ciò sia vantaggioso per compiti di recupero, comporta una complessità quadratica, motivando così studi recenti a esplorare alternative ricorrenti sub-quadratiche valide. Nonostante mostrino risultati preliminari promettenti in diversi domini, queste architetture ricorrenti sono inferiori ai transformer nei compiti ad alta intensità di richiamo, spesso a causa della loro memoria di dimensione fissa. In questo articolo, introduciamo il Memory Caching (MC), una tecnica semplice ma efficace che potenzia i modelli ricorrenti memorizzando checkpoint dei loro stati di memoria (detti anche stati nascosti). Il Memory Caching permette alla capacità di memoria effettiva delle RNN di crescere con la lunghezza della sequenza, offrendo un compromesso flessibile che interpola tra la memoria fissa (cioè complessità O(L)) delle RNN e la memoria crescente (cioè complessità O(L²)) dei transformer. Proponiamo quattro varianti di MC, inclusi meccanismi di aggregazione controllata (gated) e di selezione sparsa, e discutiamo le loro implicazioni sia per moduli di memoria lineari che profondi. I nostri risultati sperimentali sul modellamento del linguaggio e su compiti di comprensione a contesto lungo mostrano che MC migliora le prestazioni dei modelli ricorrenti, supportandone l'efficacia. I risultati dei compiti di richiamo in contesto (in-context recall) indicano che, sebbene i transformer raggiungano la migliore accuratezza, le nostre varianti MC mostrano prestazioni competitive, riducono il divario con i transformer e superano i modelli ricorrenti allo stato dell'arte.
I Modelli Linguistici di Grande Dimensione (LLM) stanno convergendo verso un unico Intelletto Collettivo Artificiale, in cui una Natura condivisa (pregiudizi di pre-addestramento) determina un profondo collasso della diversità distribuzionale, limitando le prospettive distinte necessarie per l'esplorazione creativa e la scoperta scientifica. Per affrontare questo problema, proponiamo di dotare i modelli di una Cura (traiettorie epistemiche individualizzate) al momento dell'inferenza, utilizzando il paradigma dell'Evoluzione Epistemica, che progredisce attraverso le fasi di esplorazione, interiorizzazione ed espressione. Istanziamo questo approccio tramite PRISM (Ragionamento Pluralistico tramite Modellazione Strutturale In-Contesto), un sistema agnostico rispetto al modello che potenzia gli LLM con Grafi Epistemici Dinamici On-the-fly. Su tre benchmark di creatività, PRISM raggiunge uno stato dell'arte in termini di novità e amplifica significativamente la diversità distribuzionale. Inoltre, valutiamo l'utilità nel mondo reale attraverso un benchmark impegnativo sulla diagnosi di malattie rare. I risultati dimostrano che PRISM scopre con successo diagnosi corrette ma rare che i LLM standard non individuano, confermando che la sua divergenza origina da un'esplorazione significativa piuttosto che da rumore incoerente. Nel complesso, questo lavoro stabilisce un nuovo paradigma per l'IA Pluralistica, spostandosi oltre un consenso monolitico verso un ecosistema diversificato di individui cognitivi unici, capaci di una scoperta collettiva e multi-prospettica.
La retrieval generativa è emersa come un paradigma potente per la raccomandazione basata su LLM. Tuttavia, i sistemi di raccomandazione industriali traggono spesso vantaggio dalla limitazione dello spazio di output a un sottoinsieme ristretto di elementi basato sulla logica di business (ad esempio, imponendo la freschezza dei contenuti o la categoria del prodotto), operazione che la decodifica autoregressiva standard non supporta nativamente. Inoltre, i metodi di decodifica vincolata esistenti che utilizzano alberi dei prefissi (Trie) comportano severe penalità di latenza sugli acceleratori hardware (TPU/GPU). In questo lavoro, introduciamo STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding), una tecnica di decodifica vincolata efficiente e scalabile, progettata specificamente per la retrieval generativa ad alto throughput basata su LLM su TPU/GPU. Appiattendo l'albero dei prefissi in una matrice statica Compressed Sparse Row (CSR), trasformiamo le traversate irregolari dell'albero in operazioni completamente vettorizzate su matrici sparse, sbloccando notevoli guadagni di efficienza sugli acceleratori hardware. Abbiamo implementato STATIC su una piattaforma di raccomandazione video industriale su larga scala che serve miliardi di utenti. STATIC produce un impatto significativo sulle metriche di prodotto con un overhead di latenza minimo (0,033 ms per passo e lo 0,25% del tempo di inferenza), ottenendo un'accelerazione di 948x rispetto a un'implementazione Trie su CPU e un'accelerazione di 47-1033x rispetto a una baseline con ricerca binaria accelerata via hardware. Inoltre, l'overhead runtime di STATIC rimane estremamente basso in un'ampia gamma di configurazioni pratiche. Per quanto a nostra conoscenza, STATIC abilita la prima implementazione su scala produttiva della retrieval generativa rigorosamente vincolata. In aggiunta, la valutazione su benchmark accademici dimostra che STATIC può migliorare considerevolmente le prestazioni in cold-start per la retrieval generativa. Il nostro codice è disponibile all'indirizzo https://github.com/youtube/static-constraint-decoding.
I modelli visione-linguaggio (VLM) hanno raggiunto capacità multimodali di comprensione e ragionamento notevoli, ma rimangono computazionalmente costosi a causa della tokenizzazione visiva densa. Gli approcci esistenti per l'efficienza uniscono i token visivi ridondanti o li scartano progressivamente nel backbone linguistico, spesso sacrificando l'accuratezza per la velocità. In questo lavoro, proponiamo DUET-VLM, un framework versatile di compressione duale plug-and-play che consiste in (a) una compressione visiva, consapevole della ridondanza, dell'output dell'encoder visivo in token che preservano le informazioni, seguita da (b) uno scarto stratificato e saliente, guidato dal testo, dei token visivi all'interno del backbone linguistico per potare progressivamente i token meno informativi. Questa gestione coordinata dei token consente una compressione aggressiva preservando la semantica critica. Su LLaVA-1.5-7B, il nostro approccio mantiene oltre il 99% dell'accuratezza di base con il 67% in meno di token e conserva ancora >97% anche con una riduzione dell'89%. Con questa compressione a doppio stadio durante l'addestramento, raggiunge un'accuratezza del 99,7% al 67% di riduzione e del 97,6% all'89%, superando i precedenti metodi SoTA per la riduzione dei token visivi su molteplici benchmark. Quando integrato in Video-LLaVA-7B, supera persine il baseline – ottenendo un'accuratezza >100% con una sostanziale riduzione del 53,1% dei token e mantenendo il 97,6% di accuratezza in un'impostazione estrema del 93,4%. Questi risultati evidenziano l'addestramento end-to-end con DUET-VLM, che consente una robusta adattazione a input visivi (immagine/video) ridotti senza sacrificare l'accuratezza, producendo rappresentazioni compatte ma semanticamente ricche entro lo stesso budget computazionale. Il nostro codice è disponibile all'indirizzo https://github.com/AMD-AGI/DUET-VLM.
Sono stati compiuti progressi significativi nel campo dei Modelli di Modifica di Immagini basati su Istruzioni (IIEM). Tuttavia, sebbene questi modelli dimostrino un'aderenza plausibile alle istruzioni e una forte capacità di ragionamento sugli attuali benchmark, la loro capacità di modificare oggetti di piccole dimensioni rimane poco esplorata, nonostante la sua importanza per una modifica locale precisa e per la rifinitura dei dettagli sia nelle immagini reali che in quelle generate. In questo articolo, presentiamo DeepLookEditBench (DLEBench), il primo benchmark dedicato a valutare le capacità degli IIEM nella modifica di oggetti su piccola scala. Nello specifico, abbiamo costruito un banco di prova impegnativo comprendente 1889 campioni, suddivisi in sette tipologie di istruzioni. In questi campioni, gli oggetti target occupano solo l'1%-10% dell'area dell'immagine, coprendo scenari complessi come l'occlusione parziale e la modifica multi-oggetto. Per garantire una valutazione robusta su questo benchmark, proponiamo un protocollo di valutazione con griglie di punteggio raffinate per minimizzare la soggettività e l'ambiguità in due criteri: Rispetto dell'Istruzione e Coerenza Visiva. Questo protocollo introduce anche una struttura di valutazione dual-mode (Modalità Guidata da Strumento e Modalità Guidata da Oracle) per affrontare il disallineamento tra il giudizio tramite LMM (Large Multimodal Model) e i giudizi umani su DLEBench. I risultati empirici su 10 IIEM rivelano significative lacune prestazionali nella modifica di oggetti su piccola scala, evidenziando la necessità di benchmark specializzati per far progredire questa capacità.
L'ingegneria del contesto è emersa come paradigma cruciale per sbloccare il potenziale dei Large Language Model (LLM) nelle attività di Ingegneria del Software (SE), consentendo miglioramenti delle prestazioni al momento del test senza fine-tuning del modello. Nonostante il suo successo, la ricerca esistente manca di una tassonomia sistematica dei tipi di contesto specifici per il SE e di un benchmark dedicato per quantificare gli effetti eterogenei di diversi contesti attraverso i flussi di lavoro fondamentali del SE. Per colmare questa lacuna, proponiamo CL4SE (Context Learning for Software Engineering), un benchmark completo che presenta una tassonomia granulare di quattro tipi di contesto orientati al SE (esempi interpretabili, contesto specifico del progetto, contesto procedurale per il decision-making, e contesto positivo e negativo), ciascuno mappato su un'attività rappresentativa (generazione di codice, summarization del codice, code review e valutazione della correttezza delle patch). Costruiamo dataset di alta qualità comprendenti oltre 13.000 campioni provenienti da più di 30 progetti open-source e valutiamo cinque LLM mainstream su nove metriche. Esperimenti estensivi dimostrano che l'apprendimento contestuale produce un miglioramento medio delle prestazioni del 24,7% su tutte le attività. Nello specifico, il contesto procedurale aumenta le prestazioni della code review fino al 33% (Qwen3-Max), il contesto misto positivo-negativo migliora la valutazione delle patch del 30% (DeepSeek-V3), il contesto specifico del progetto aumenta il BLEU della summarization del codice del 14,78% (GPT-Oss-120B) e gli esempi interpretabili migliorano il PASS@1 della generazione di codice del 5,72% (DeepSeek-V3). CL4SE stabilisce il primo framework di valutazione standardizzato per l'apprendimento contestuale nel SE, fornisce insight empirici azionabili per la progettazione di contesti specifici per attività e rilascia un dataset su larga scala per facilitare la ricerca riproducibile in questo dominio.
L'addestramento post-rinforzo (RL) ha recentemente prodotto notevoli miglioramenti nei grandi modelli linguistici (LLM) per il ragionamento a catena di pensiero complessa, ma l'elevato costo inferenziale di tali modelli motiva la distillazione in studenti più piccoli. La maggior parte dei metodi di distillazione della conoscenza (KD) esistenti sono progettati per l'addestramento supervisionato (SFT), basandosi su tracce fisse del insegnante o su una regolarizzazione basata sulla divergenza di Kullback-Leibler (KL) insegnante-studente. Se combinati con l'RL, questi approcci spesso soffrono di disallineamento distributivo e interferenza degli obiettivi: la supervisione del insegnante potrebbe non allinearsi con la distribuzione in evoluzione dello studente, e il regolarizzatore KL può competere con la massimizzazione della ricompensa e richiedere un bilanciamento accurato delle perdite. Per affrontare questi problemi, proponiamo la distillazione consapevole dell'RL (RLAD), che esegue un'imitazione selettiva durante l'RL – guidando lo studente verso il insegnante solo quando ciò migliora l'aggiornamento della politica corrente. Il nostro componente principale, la Distillazione del Rapporto nella Regione di Fiducia (TRRD), sostituisce il regolarizzatore KL insegnante-studente con un obiettivo a rapporto di verosimiglianza in stile PPO/GRPO ancorato a una miscela insegnante–politica precedente, producendo una distillazione vantaggio-consapevole e delimitata dalla regione di fiducia sui rollout dello studente e bilanciando naturalmente esplorazione, sfruttamento e imitazione. In vari benchmark di ragionamento logico e matematico, RLAD supera costantemente la distillazione offline, il GRPO standard e la distillazione della conoscenza insegnante-studente on-policy basata su KL.
Sebbene i moderni grandi modelli linguistici (LLM) siano sempre più capaci se considerati singolarmente, permangono molti problemi complessi che vanno al di là delle abilità di un singolo LLM. Per tali compiti, sussiste ancora incertezza su come sia meglio considerare più LLM come parti e combinarli in un insieme più ampio. Questo position paper sostiene che potenziali modelli per progettare tali agenti linguistici modulari possano essere rinvenuti nella letteratura esistente sui modelli cognitivi e sugli algoritmi di intelligenza artificiale (IA). Per chiarire questo concetto, formalizziamo l'idea di un *template* di agente che specifica i ruoli per i singoli LLM e come le loro funzionalità debbano essere composte. Successivamente, esaminiamo una varietà di agenti linguistici esistenti in letteratura e mettiamo in luce i loro template sottostanti, derivati direttamente da modelli cognitivi o algoritmi di IA. Evidenziando questi progetti, miriamo a richiamare l'attenzione sui template di agente ispirati alle scienze cognitive e all'IA come strumento potente per sviluppare agenti linguistici efficaci e interpretabili.