Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli video del mondo hanno dimostrato un immenso potenziale nella simulazione del mondo fisico, tuttavia i meccanismi di memoria esistenti trattano principalmente gli ambienti come tele statiche. Quando soggetti dinamici si nascondono alla vista per poi riemergere, i metodi attuali spesso incontrano difficoltà, portando a soggetti congelati, distorti o che scompaiono. Per affrontare questo problema, introduciamo Hybrid Memory, un paradigma innovativo che richiede ai modelli di agire simultaneamente come archivisti precisi per gli sfondi statici e come tracker vigili per i soggetti dinamici, garantendo la continuità del movimento durante gli intervalli in cui sono fuori campo. Per facilitare la ricerca in questa direzione, abbiamo costruito HM-World, il primo dataset video su larga scala dedicato alla memoria ibrida. Presenta 59K clip ad alta fedeltà con traiettorie disaccoppiate di telecamera e soggetto, che abbracciano 17 scene diverse, 49 soggetti distinti ed eventi di uscita-entrata meticolosamente progettati per valutare rigorosamente la coerenza ibrida. Inoltre, proponiamo HyDRA, un'architettura di memoria specializzata che comprime la memoria in token e utilizza un meccanismo di recupero guidato dalla rilevanza spaziotemporale. Prestando selettivamente attenzione agli indizi di movimento rilevanti, HyDRA preserva efficacemente l'identità e il movimento dei soggetti nascosti. Esperimenti estensivi su HM-World dimostrano che il nostro metodo supera significativamente gli approcci all'avanguardia sia nella coerenza dei soggetti dinamici che nella qualità generale della generazione.
La generazione di video multi-inquadratura è cruciale per la narrazione di lunghe storie, ma le attuali architetture bidirezionali soffrono di interattività limitata e alta latenza. Proponiamo ShotStream, una nuova architettura causale multi-inquadratura che abilita la narrazione interattiva e la generazione efficiente di fotogrammi al volo. Riformulando il compito come una generazione dell'inquadratura successiva condizionata dal contesto storico, ShotStream consente agli utenti di guidare dinamicamente narrazioni in corso tramite prompt in streaming. Raggiungiamo questo obiettivo prima addestrando per transfer learning un modello testo-video in un generatore bidirezionale di inquadrature successive, che viene poi distillato in uno studente causale tramite Distribution Matching Distillation. Per superare le sfide della coerenza inter-inquadratura e dell'accumulo di errori intrinseche alla generazione autoregressiva, introduciamo due innovazioni chiave. Primo, un meccanismo di memoria a doppia cache preserva la coerenza visiva: una cache di contesto globale conserva i fotogrammi condizionanti per la coerenza inter-inquadratura, mentre una cache di contesto locale trattiene i fotogrammi generati all'interno dell'inquadratura corrente per la coerenza intra-inquadratura. Viene impiegato un indicatore di discontinuità RoPE per distinguere esplicitamente le due cache ed eliminare l'ambiguità. Secondo, per mitigare l'accumulo di errori, proponiamo una strategia di distillazione in due fasi. Questa inizia con un auto-forzamento intra-inquadratura condizionato alle inquadrature storiche di ground-truth e si estende progressivamente a un auto-forzamento inter-inquadratura utilizzando storie auto-generate, colmando efficacemente il divario addestramento-test. Esperimenti estensivi dimostrano che ShotStream genera video multi-inquadratura coerenti con latenza inferiore al secondo, raggiungendo 16 FPS su una singola GPU. Eguaglia o supera la qualità di modelli bidirezionali più lenti, aprendo la strada alla narrazione interattiva in tempo reale. Il codice di addestramento e inferenza, così come i modelli, sono disponibili sul nostro
I modelli di diffusione video autoregressivi hanno dimostrato progressi notevoli, ma rimangono limitati dalla crescita intrattabile della cache KV lineare, dalla ripetizione temporale e dagli errori cumulativi durante la generazione di video lunghi. Per affrontare queste sfide, presentiamo PackForcing, un framework unificato che gestisce efficientemente la cronologia di generazione attraverso una nuova strategia di cache KV a tre partizioni. Nello specifico, categorizziamo il contesto storico in tre tipi distinti: (1) Token Sink, che preservano i frame di ancoraggio iniziali a piena risoluzione per mantenere la semantica globale; (2) Token Mid, che raggiungono una compressione spaziotemporale massiva (riduzione di 32x dei token) tramite una rete a doppio ramo che fonde convoluzioni 3D progressive con una ricodifica VAE a bassa risoluzione; e (3) Token Recenti, mantenuti a piena risoluzione per garantire la coerenza temporale locale. Per delimitare rigorosamente l'occupazione di memoria senza sacrificare la qualità, introduciamo un meccanismo di selezione del contesto top-k dinamico per i token mid, abbinato a un continuo Adeguamento Temporale RoPE che riallinea perfettamente i gap posizionali causati dai token eliminati con un overhead trascurabile. Grazie a questa compressione contestuale gerarchica e principiata, PackForcing può generare video coerenti di 2 minuti a 832x480 e 16 FPS su una singola GPU H200. Raggiunge una cache KV limitata a soli 4 GB e abilita una notevole estrapolazione temporale 24x (da 5s a 120s), operando efficacemente in modalità zero-shot o addestrandosi su clip di soli 5 secondi. Risultati estensivi su VBench dimostrano una consistenza temporale (26.07) e un grado dinamico (56.25) all'avanguardia, provando che la supervisione su video brevi è sufficiente per una sintesi di video lunghi di alta qualità. https://github.com/ShandaAI/PackForcing
Dotare gli agenti di Large Language Model (LLM) di competenze specifiche per dominio è fondamentale per affrontare compiti complessi. Tuttavia, la creazione manuale rappresenta un grave collo di bottiglia per la scalabilità. Al contrario, la generazione automatica di competenze spesso produce risultati fragili o frammentati, poiché si basa su conoscenze parametriche superficiali o sovradatta sequenzialmente a lezioni locali alla traiettoria non generalizzabili. Per superare questo limite, introduciamo Trace2Skill, un framework che rispecchia il modo in cui gli esperti umani creano competenze: analizzando in modo olistico un'ampia esperienza esecutiva prima di distillarla in una guida singola e completa. Invece di reagire sequenzialmente a singole traiettorie, Trace2Skill dispiega una flotta parallela di sub-agent per analizzare un insieme diversificato di esecuzioni. Estrae lezioni specifiche per traiettoria e le consolida gerarchicamente in una directory di competenze unificata e priva di conflitti tramite ragionamento induttivo. Trace2Skill supporta sia l'approfondimento di competenze esistenti scritte da umani, sia la creazione di nuove da zero. Esperimenti in domini impegnativi, come fogli di calcolo, VisionQA e ragionamento matematico, mostrano che Trace2Skill migliora significativamente baseline solide, incluse le competenze ufficiali xlsx di Anthropic. Crucialmente, questa evoluzione basata sulle traiettorie non si limita a memorizzare istanze di compiti o peculiarità specifiche del modello: le competenze evolute si trasferiscono attraverso diverse scale di LLM e generalizzano a contesti out-of-distribution (OOD). Ad esempio, competenze evolute da Qwen3.5-35B sulle proprie traiettorie hanno migliorato un agente Qwen3.5-122B fino a 57,65 punti percentuali assoluti su WikiTableQuestions. In definitiva, i nostri risultati dimostrano che l'esperienza complessa di un agente può essere impacchettata in competenze dichiarative altamente trasferibili – che non richiedono aggiornamenti dei parametri, né moduli esterni di retrieval, e utilizzano modelli open-source di dimensioni ridotte fino a 35B parametri.
Attualmente, la valutazione dei modelli visione-linguaggio (VLM) per compiti di imaging medico semplifica eccessivamente la realtà clinica, basandosi su immagini 2D pre-selezionate che richiedono un notevole lavoro manuale per la loro preparazione. Questa impostazione trascura la sfida fondamentale della diagnostica nel mondo reale: un vero agente clinico deve essere in grado di navigare attivamente volumi 3D completi attraverso sequenze o modalità multiple per raccogliere evidenze e supportare infine una decisione finale. Per affrontare questo problema, proponiamo MEDOPENCLAW, un runtime verificabile progettato per permettere ai VLM di operare dinamicamente all'interno di strumenti o visualizzatori medici standard (ad esempio, 3D Slicer). Su questo runtime, introduciamo MEDFLOWBENCH, un benchmark di imaging medico a livello di studio completo che copre risonanza magnetica cerebrale multi-sequenza e TC/PET polmonare. Esso valuta sistematicamente le capacità agentiche mediche attraverso tre percorsi: solo visualizzatore, uso di strumenti e metodi aperti. I risultati iniziali rivelano un'osservazione critica: sebbene i migliori LLM/VLM all'avanguardia (ad esempio, Gemini 3.1 Pro e GPT-5.4) siano in grado di navigare con successo nel visualizzatore per risolvere compiti di base a livello di studio, le loro prestazioni paradossalmente peggiorano quando viene loro dato accesso a strumenti di supporto professionali, a causa di una mancanza di ancoraggio spaziale preciso. Colmando il divario tra la percezione su immagini statiche e i flussi di lavoro clinici interattivi, MEDOPENCLAW e MEDFLOWBENCH pongono le basi riproducibili per lo sviluppo di agenti di imaging medico verificabili e basati sullo studio completo.
I modelli visione-linguaggio (VLM) hanno dimostrato capacità impressionanti nella generazione di codice in vari domini. Tuttavia, la loro abilità di replicare visualizzazioni complesse e multi-pannello a partire da dati del mondo reale rimane in gran parte non valutata. Per colmare questa lacuna, introduciamo \texttt{RealChart2Code}, un nuovo benchmark su larga scala con oltre 2.800 istanze basate su dataset autentici e caratterizzate da compiti con una chiara intenzione analitica. Crucialmente, è il primo benchmark a valutare sistematicamente la generazione di grafici a partire da dati grezzi su larga scala e a valutare l'affinamento iterativo del codice in un contesto conversazionale multi-turn. La nostra valutazione completa di 14 VLM leader su RealChart2Code rivela un significativo degrado delle prestazioni rispetto a benchmark più semplici, evidenziando le loro difficoltà con strutture di grafici complesse e dati autentici. La nostra analisi scopre un divario prestazionale sostanziale tra modelli proprietari e open-weight e conferma che anche i VLM all'avanguardia spesso non riescono a replicare accuratamente grafici intricati e multi-pannello. Questi risultati forniscono spunti preziosi sui limiti attuali dei VLM e guidano le future direzioni di ricerca. Rilasciamo il benchmark e il codice all'indirizzo https://github.com/Speakn0w/RealChart2Code.
In domini reali come la guida autonoma, la generalizzazione a scenari rari rimane una sfida fondamentale. Per affrontare questo problema, introduciamo un nuovo dataset progettato per la guida end-to-end che si concentra su eventi di guida a coda lunga. Forniamo dati video multi-prospettici, traiettorie, istruzioni di alto livello e tracce di ragionamento dettagliate, facilitando l'apprendimento contestuale e la generalizzazione few-shot. Il benchmark risultante per modelli multimodali, come VLM e VLA, va oltre le metriche di sicurezza e comfort valutando l'aderenza alle istruzioni e la coerenza semantica tra le uscite del modello. Le tracce di ragionamento multilingue in inglese, spagnolo e cinese provengono da esperti di dominio con background culturali diversificati. Pertanto, il nostro dataset rappresenta una risorsa unica per studiare come diverse forme di ragionamento influenzino la competenza di guida. Il nostro dataset è disponibile all'indirizzo: https://hf.co/datasets/kit-mrt/kitscenes-longtail
Le prestazioni degli agenti dipendono sempre più dall'ingegneria degli harness, eppure la progettazione degli harness è solitamente nascosta nel codice del controller e in convenzioni specifiche del runtime, rendendo difficile il trasferimento, il confronto e lo studio come oggetto scientifico. Ci chiediamo se la logica di controllo di alto livello di un harness per agenti possa invece essere esternalizzata come un artefatto eseguibile portabile. Introduciamo gli Natural-Language Agent Harnesses (NLAH), che esprimono il comportamento dell'harness in linguaggio naturale modificabile, e l'Intelligent Harness Runtime (IHR), un runtime condiviso che esegue questi harness attraverso contratti espliciti, artefatti durevoli e adattatori leggeri. Su benchmark di programmazione e utilizzo del computer, conduciamo valutazioni controllate di fattibilità operativa, ablazione dei moduli e migrazione di harness da codice a testo.
I recenti progressi nella generazione 3D hanno migliorato la fedeltà e i dettagli geometrici degli asset 3D sintetizzati. Tuttavia, a causa dell'ambiguità intrinseca delle osservazioni da singola vista e della mancanza di robusti prior strutturali globali causati dai limitati dati di addestramento 3D, le regioni non visibili generate dai modelli esistenti sono spesso stocastiche e difficili da controllare, il che a volte può non allinearsi con le intenzioni dell'utente o produrre geometrie implausibili. In questo articolo, proponiamo Know3D, un framework innovativo che incorpora la ricca conoscenza dei modelli linguistici multimodali di grandi dimensioni nei processi generativi 3D tramite l'iniezione di stati latenti nascosti, abilitando una generazione controllabile linguisticamente della vista posteriore per asset 3D. Utilizziamo un modello basato su VLM-diffusion, dove il VLM è responsabile della comprensione e della guida semantica. Il modello di diffusion funge da ponte che trasferisce la conoscenza semantica dal VLM al modello di generazione 3D. In questo modo, colmiamo con successo il divario tra le istruzioni testuali astratte e la ricostruzione geometrica delle regioni non osservate, trasformando la tradizionalmente stocastica allucinazione della vista posteriore in un processo semanticamente controllabile, dimostrando una direzione promettente per i futuri modelli di generazione 3D.
Con il passaggio del paradigma dell'IA da modelli linguistici di grandi dimensioni (LLM) basati su testo a modelli linguistici vocali (SLM), cresce la domanda di sistemi full-duplex in grado di interagire con gli esseri umani in tempo reale e in modo naturale. Tuttavia, lo sviluppo di tali modelli è limitato dalla scarsità di dati conversazionali di alta qualità e con più parlanti, poiché le risorse su larga scala esistenti sono prevalentemente a parlante singolo o di volume limitato. Affrontare le dinamiche complesse del dialogo naturale, come le sovrapposizioni e i segnali di feedback (back-channeling), rimane una sfida, con le pipeline di elaborazione standard che soffrono di errori di diarizzazione e allucinazioni dei sistemi di riconoscimento vocale automatico (ASR). Per colmare questa lacuna, presentiamo una pipeline di elaborazione dati open-source, robusta e scalabile, progettata per modelli full-duplex.
Composer 2 è un modello specializzato progettato per l'ingegneria del software agentica. Il modello dimostra una forte capacità di pianificazione a lungo termine e un'intelligenza nella codifica, mantenendo al contempo l'abilità di risolvere problemi in modo efficiente per un uso interattivo. Il modello viene addestrato in due fasi: prima, un pre-addestramento continuato per migliorare la conoscenza e le capacità latenti di codifica del modello, seguito da un apprendimento per rinforzo su larga scala per migliorare le prestazioni di codifica end-to-end attraverso un ragionamento più forte, un'esecuzione accurata multi-step e una coerenza su problemi di codifica realistici a lungo orizzonte. Sviluppiamo un'infrastruttura per supportare l'addestramento nello stesso ambiente Cursor utilizzato dal modello distribuito, con strumenti e struttura equivalenti, e utilizziamo ambienti che corrispondono da vicino a problemi reali. Per misurare l'abilità del modello su compiti di difficoltà crescente, introduciamo un benchmark derivato da problemi reali di ingegneria del software in grandi codebase, inclusa la nostra. Composer 2 è un modello di codifica di livello frontier e dimostra un processo per l'addestramento di modelli fortemente specializzati in un dominio. Nelle nostre valutazioni CursorBench, il modello raggiunge un miglioramento significativo in accuratezza rispetto ai modelli Composer precedenti (61.3). Su benchmark pubblici, il modello ottiene un punteggio di 61.7 su Terminal-Bench e 73.7 su SWE-bench Multilingual nel nostro ambiente, risultati comparabili a quelli dei sistemi all'avanguardia.
Gli approcci recenti per la segmentazione hanno sfruttato modelli generativi preaddestrati come estrattori di feature, trattando la segmentazione come un task di adattamento downstream tramite recupero indiretto delle caratteristiche. Questo utilizzo implicito soffre di un disallineamento fondamentale nella rappresentazione. Dipende inoltre fortemente da pipeline di estrazione indiretta delle feature, che complicano il flusso di lavoro e limitano l'adattamento. In questo articolo, sosteniamo che invece di un adattamento indiretto, i task di segmentazione dovrebbero essere addestrati direttamente in maniera generativa. Identifichiamo un ostacolo chiave per questa formulazione unificata: i latenti VAE delle maschere binarie hanno distribuzione netta, sono robusti al rumore e linearmente separabili, distinti dai latenti delle immagini naturali. Per colmare questa lacuna, introduciamo una strategia di campionamento dei timestep per le maschere binarie che enfatizza livelli di rumore estremi per la segmentazione e moderati per la generazione di immagini, consentendo un addestramento congiunto armonioso. Presentiamo GenMask, un DiT addestrato per generare maschere di segmentazione in bianco e nero così come immagini colorate nello spazio RGB sotto l'obiettivo generativo originale. GenMask preserva l'architettura originale del DiT eliminando al contempo la necessità di pipeline di estrazione di feature specifiche per i task di segmentazione. Empiricamente, GenMask raggiunge prestazioni state-of-the-art su benchmark di segmentazione referenziale e ragionata, e le ablation study quantificano il contributo di ciascun componente.
I modelli linguistici a diffusione mascherata (MDLM) sono emersi come una valida alternativa non autoregressiva ai modelli linguistici su larga scala standard; tuttavia, la loro applicazione alle lingue morfologicamente ricche rimane limitata. In questo articolo presentiamo Diffutron, un modello linguistico a diffusione mascherata specificamente progettato per il turco. Il nostro approccio sfrutta una pipeline di addestramento efficiente in termini di risorse, che inizia con un pre-addestramento continuo basato su LoRA di un encoder multilingue su un corpus di larga scala. Per abilitare capacità generative, impieghiamo una strategia di instruction-tuning progressivo, adattando sequenzialmente il modello su set di istruzioni generali e specifici per compito. I risultati sperimentali su benchmark completi dimostrano che, nonostante le dimensioni compatte, il nostro modello raggiunge prestazioni competitive rispetto ai baseline esistenti con parametri nell'ordine dei miliardi. Questi risultati convalidano l'efficacia della modellazione a diffusione mascherata combinata con una messa a punto multi-stadio per la generazione di testo non autoregressiva in turco.
Gli agenti di programmazione basati su modelli linguistici di grandi dimensioni (LLM) ottengono risultati impressionanti su benchmark controllati, ma producono sistematicamente pull request che vengono rifiutate dai maintainer reali. La causa principale non è l'incorrettezza funzionale, ma la mancanza di organicità: il codice generato ignora le convenzioni specifiche del progetto, duplica funzionalità già fornite da API interne e viola i vincoli architetturali impliciti accumulati in anni di sviluppo. Esporre semplicemente un agente all'ultima snapshot del repository non è sufficiente: la snapshot rivela lo stato finale della codebase, ma non i pattern di cambiamento specifici del repository attraverso i quali tale stato è stato raggiunto. Introduciamo Learning to Commit, un framework che colma questa lacuna attraverso la Memoria di Repository Online. Dato un repository con una suddivisione cronologica rigorosa, l'agente esegue una riflessione contrastiva supervisionata sui commit precedenti: tenta ciecamente di risolvere ogni issue storica, confronta la sua previsione con il diff oracle e condensa il divario in un insieme in continua crescita di skill - pattern riutilizzabili che catturano lo stile di codifica, l'utilizzo delle API interne e gli invarianti architetturali. Quando arriva una nuova descrizione di PR, l'agente condiziona la sua generazione su queste skill accumulate, producendo cambiamenti radicati nell'evoluzione del progetto stesso piuttosto che in priorità generiche del pre-addestramento. La valutazione viene condotta su pull request future autentiche e già mergeate, che non avrebbero potuto essere viste durante la fase di costruzione delle skill, e abbraccia molteplici dimensioni tra cui correttezza funzionale, coerenza dello stile di codice, tasso di riutilizzo delle API interne e plausibilità delle regioni modificate. Esperimenti su un repository mantenuto da esperti con una ricca cronologia dei commit mostrano che la Memoria di Repository Online migliora efficacemente i punteggi di organicità su task futuri tenuti da parte.
Il ragionamento a catena di pensiero (CoT) è stato proposto come meccanismo di trasparenza per i grandi modelli linguistici in contesti critici per la sicurezza, ma la sua efficacia dipende dalla fedeltà (se i modelli verbalizzano accuratamente i fattori che influenzano realmente le loro uscite), una proprietà che le valutazioni precedenti hanno esaminato solo in due modelli proprietari, riscontrando tassi di riconoscimento bassi come il 25% per Claude 3.7 Sonnet e il 39% per DeepSeek-R1. Per estendere questa valutazione all'ecosistema open-weight, questo studio testa 12 modelli di ragionamento open-weight appartenenti a 9 famiglie architetturali (da 7B a 685B parametri) su 498 domande a scelta multipla tratte da MMLU e GPQA Diamond, iniettando sei categorie di suggerimenti di ragionamento (servilismo, coerenza, pattern visivo, metadati, manipolazione del valutatore e informazioni non etiche) e misurando la frequenza con cui i modelli riconoscono l'influenza del suggerimento nel loro CoT quando i suggerimenti alterano con successo le risposte. Su 41.832 esecuzioni di inferenza, i tassi complessivi di fedeltà variano dal 39,7% (Seed-1.6-Flash) all'89,9% (DeepSeek-V3.2-Speciale) tra le famiglie di modelli, con i suggerimenti di coerenza (35,5%) e di servilismo (53,9%) che mostrano i tassi di riconoscimento più bassi. La metodologia di addestramento e la famiglia del modello predicono la fedeltà più fortemente del numero di parametri, e un'analisi basata su parole chiave rivela un divario notevole tra il riconoscimento nei token di pensiero (circa 87,5%) e il riconoscimento nel testo della risposta (circa 28,6%), suggerendo che i modelli riconoscono internamente l'influenza del suggerimento ma sopprimono sistematicamente questo riconoscimento nelle loro uscite. Questi risultati hanno implicazioni dirette per la fattibilità del monitoraggio CoT come meccanismo di sicurezza e suggeriscono che la fedeltà non è una proprietà fissa dei modelli di ragionamento, ma varia sistematicamente con l'architettura, il metodo di addestramento e la natura dello stimolo influenzante.