Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre i sistemi di IA passano dalla generazione di testi al raggiungimento di obiettivi attraverso interazioni prolungate, la capacità di modellare le dinamiche ambientali diventa un collo di bottiglia centrale. Gli agenti che manipolano oggetti, navigano software, coordinano con altri o progettano esperimenti richiedono modelli ambientali predittivi, eppure il termine "modello del mondo" assume significati diversi tra le comunità di ricerca. Introduciamo una tassonomia "livelli x leggi" organizzata lungo due assi. Il primo definisce tre livelli di capacità: L1 Predittore, che apprende operatori di transizione locale a un passo; L2 Simulatore, che li compone in rollout multi-passo condizionati alle azioni che rispettano le leggi del dominio; e L3 Evolutore, che rivede autonomamente il proprio modello quando le previsioni falliscono rispetto a nuove evidenze. Il secondo identifica quattro regimi di leggi governative: fisico, digitale, sociale e scientifico. Questi regimi determinano quali vincoli un modello del mondo deve soddisfare e dove è più probabile che fallisca. Utilizzando questo quadro, sintetizziamo oltre 400 lavori e riassumiamo più di 100 sistemi rappresentativi che spaziano dall'apprendimento per rinforzo basato su modelli, alla generazione video, agli agenti web e GUI, alla simulazione sociale multi-agente e alla scoperta scientifica guidata dall'IA. Analizziamo metodi, modalità di fallimento e pratiche di valutazione attraverso le coppie livello-regime, proponiamo principi di valutazione decision-centric e un pacchetto di valutazione minimo riproducibile, e delineiamo linee guida architetturali, problemi aperti e sfide di governance. La roadmap risultante collega comunità precedentemente isolate e traccia un percorso dalla predizione passiva del passo successivo verso modelli del mondo che possono simulare, e infine rimodellare, gli ambienti in cui operano gli agenti.
Le trasformazioni prodotte dai modelli di generazione di immagini e video spesso evolvono in modo altamente non lineare: a lunghi tratti in cui il contenuto cambia a malapena seguono improvvisi e bruschi salti semantici. Per analizzare e correggere questo comportamento, introduciamo una Funzione di Progresso Semantico, una rappresentazione unidimensionale che cattura come il significato di una determinata sequenza si evolve nel tempo. Per ogni fotogramma, calcoliamo le distanze tra gli embedding semantici e adattiamo una curva regolare che riflette lo spostamento semantico cumulativo lungo la sequenza. Gli scostamenti di questa curva da una linea retta rivelano un ritmo semantico irregolare. Basandoci su questa intuizione, proponiamo una procedura di linearizzazione semantica che riparametriza (o ritiming) la sequenza in modo che il cambiamento semantico si dispieghi a una velocità costante, producendo transizioni più fluide e coerenti. Oltre alla linearizzazione, il nostro framework fornisce una base indipendente dal modello per identificare irregolarità temporali, confrontare il ritmo semantico tra diversi generatori e guidare sia sequenze video generate che del mondo reale verso un ritmo target arbitrario.
Le rappresentazioni neurali (NR), come i campi neurali e i Gaussian 3D, modellano efficacemente i dati volumetrici nella tomografia computerizzata (TC) ma soffrono di severi artefatti in condizioni di acquisizione sparse. Per affrontare questo problema, proponiamo DiffNR, un nuovo framework che migliora l'ottimizzazione delle NR mediante prior di diffusione. Il suo elemento centrale è SliceFixer, un modello di diffusione a singolo passo progettato per correggere gli artefatti in sezioni degradate. Integriamo strati di condizionamento specializzati nella rete e sviluppiamo strategie mirate di preparazione dei dati per supportare il fine-tuning del modello. Durante la ricostruzione, SliceFixer genera periodicamente volumi pseudo-riferimento, fornendo una supervisione percettiva 3D ausiliaria per correggere le regioni sottovincolate. Rispetto ai metodi precedenti che incorporano risolutori TC in un dispendioso processo iterativo di denoising, la nostra strategia di riparazione e aumento evita frequenti interrogazioni del modello di diffusione, portando a migliori prestazioni temporali. Esperimenti estensivi dimostrano che DiffNR migliora il PSNR di 3.99 dB in media, si generalizza bene tra diversi domini e mantiene un'ottimizzazione efficiente.
I modelli guardia sono ampiamente utilizzati per rilevare contenuti dannosi nei prompt utente e nelle risposte degli LLM. Tuttavia, i modelli guardia allo stato dell'arte si basano esclusivamente sulle rappresentazioni dello strato terminale e trascurano le ricche caratteristiche rilevanti per la sicurezza distribuite tra gli strati interni. Presentiamo SIREN, un modello guardia leggero che sfrutta queste caratteristiche interne. Identificando i neuroni della sicurezza tramite linear probing e combinandoli attraverso una strategia adattiva di ponderazione degli strati, SIREN costruisce un rilevatore di dannosità dagli stati interni degli LLM senza modificare il modello sottostante. La nostra valutazione completa mostra che SIREN supera sostanzialmente i modelli guardia open-source allo stato dell'arte in molteplici benchmark, utilizzando 250 volte in meno di parametri addestrabili. Inoltre, SIREN mostra una generalizzazione superiore su benchmark non visti, abilita naturalmente il rilevamento in streaming in tempo reale e migliora significativamente l'efficienza inferenziale rispetto ai modelli guardia generativi. Nel complesso, i nostri risultati evidenziano come gli stati interni degli LLM costituiscano una base promettente per un rilevamento pratico e ad alte prestazioni della dannosità.
Proponiamo FlowAnchor, un framework senza training per l'editing video basato su flussi, stabile, efficiente e senza inversione. I metodi di editing senza inversione hanno recentemente dimostrato un'efficienza e una preservazione della struttura impressionanti nelle immagini, guidando direttamente la traiettoria di campionamento con un segnale di editing. Tuttavia, estendere questo paradigma ai video rimane impegnativo, fallendo spesso in scene multi-oggetto o con un numero di fotogrammi elevato. Identifichiamo la causa principale nell'instabilità del segnale di editing negli spazi latenti video ad alta dimensionalità, che sorge da una localizzazione spaziale imprecisa e da un'attenuazione di magnitudine indotta dalla lunghezza. Per superare questa sfida, FlowAnchor ancorizza esplicitamente sia dove editare che quanto intensamente editare. Introduce lo Spatial-aware Attention Refinement, che impone un allineamento coerente tra la guida testuale e le regioni spaziali, e l'Adaptive Magnitude Modulation, che preserva in modo adattivo una forza di editing sufficiente. Insieme, questi meccanismi stabilizzano il segnale di editing e guidano l'evoluzione basata sui flussi verso la distribuzione target desiderata. Esperimenti estensivi dimostrano che FlowAnchor raggiunge un editing video più fedele, temporalmente coerente e computazionalmente efficiente in scenari impegnativi multi-oggetto e a movimento rapido. La pagina del progetto è disponibile all'indirizzo https://cuc-mipg.github.io/FlowAnchor.github.io/.
La risposta a domande su documenti del mondo reale è una sfida complessa. Gli analisti devono sintetizzare le evidenze provenienti da documenti multipli e da diverse parti di ciascun documento. Tuttavia, qualsiasi finestra di contesto fissa di un LLM può essere superata man mano che le raccolte di documenti crescono. Una soluzione comune consiste nel scomporre i documenti in segmenti (chunk) e assemblare le risposte dagli output a livello di segmento, ma questo introduce un collo di bottiglia nell'aggregazione: all'aumentare del numero di segmenti, i sistemi devono comunque combinare e ragionare su un corpus di evidenze estratte sempre più vasto. Presentiamo SLIDERS, un framework per la risposta a domande su lunghe raccolte di documenti attraverso un ragionamento strutturato. SLIDERS estrae le informazioni salienti in un database relazionale, permettendo un ragionamento scalabile su uno stato strutturato persistente tramite SQL piuttosto che su testo concatenato. Per rendere questa rappresentazione estratta localmente coerente a livello globale, SLIDERS introduce una fase di riconciliazione dei dati che sfrutta la provenienza, le motivazioni dell'estrazione e i metadati per rilevare e correggere record duplicati, inconsistenti e incompleti. SLIDERS supera tutti i baseline su tre benchmark esistenti per contesti lunghi, nonostante tutti rientrino nella finestra di contesto di LLM base potenti, superando GPT-4.1 di 6,6 punti in media. Migliora inoltre di circa 19 e 32 punti rispetto al baseline successivo migliore su due nuovi benchmark rispettivamente a 3,9 milioni e 36 milioni di token.
I modelli video-linguaggio (VLM) apprendono a ragionare sul mondo visivo dinamico attraverso il linguaggio naturale. Presentiamo una suite di dataset aperti, benchmark e metodologie per la supervisione scalabile che abilitano una descrizione video precisa. In primo luogo, definiamo una specifica strutturata per descrivere soggetti, scene, movimento, dinamiche spaziali e della telecamera, ancorata a centinaia di primitive visive accuratamente definite sviluppate con creatori video professionisti come filmmaker. Successivamente, per curare didascalie di alta qualità, introduciamo CHAI (Critique-based Human-AI Oversight), un framework in cui esperti formati revisionano e correggono le pre-didascalie generate dal modello trasformandole in post-didascalie migliorate. Questa divisione del lavoro migliora accuratezza ed efficienza dell'annotazione demandando la generazione del testo ai modelli, permettendo agli umani di concentrarsi meglio sulla verifica. Inoltre, queste critiche e le preferenze tra pre- e post-didascalie forniscono una supervisione ricca per migliorare modelli open-source (Qwen3-VL) sulla generazione di didascalie, modellazione della ricompensa e generazione di critiche attraverso SFT, DPO e scaling al momento dell'inferenza. I nostri studi di ablazione mostrano che la qualità della critica in termini di precisione, recall e costruttività, garantita dal nostro framework di supervisione, governa direttamente le prestazioni downstream. Con una moderata supervisione esperta, il modello risultante supera modelli closed-source come Gemini-3.1-Pro. Infine, applichiamo il nostro approccio per ridefinire didascalie per video professionali su larga scala (ad es. film, spot pubblicitari, giochi) e addestriamo modelli di generazione video come Wan per seguire meglio prompt dettagliati fino a 400 parole, ottenendo un controllo più fine sulla cinematografia, inclusi movimento della telecamera, angolazione, obiettivo, messa a fuoco, punto di vista e inquadratura. I nostri risultati dimostrano che specifiche precise e una supervisione umano-IA sono la chiave per la comprensione e la generazione video di livello professionale. Dati e codice sono disponibili sulla nostra pagina progetto: https://linzhiqiu.github.io/papers/chai/
La rapida crescita degli ecosistemi di agenti di IA sta trasformando il modo in cui i compiti complessi vengono delegati ed eseguiti, creando una nuova sfida: identificare gli agenti adatti per un determinato compito. A differenza degli strumenti tradizionali, le capacità degli agenti sono spesso compositive e dipendenti dall'esecuzione, rendendole difficili da valutare basandosi solo su descrizioni testuali. Tuttavia, la ricerca e i benchmark esistenti tipicamente presuppongono funzionalità ben specificate, pool di candidati controllati o solo query di compiti eseguibili, lasciando scenari realistici di ricerca di agenti insufficientemente studiati. Introduciamo AgentSearchBench, un benchmark su larga scala per la ricerca di agenti in contesti reali, costruito da quasi 10.000 agenti del mondo reale provenienti da molteplici fornitori. Il benchmark formalizza la ricerca di agenti come problemi di recupero e riordinamento sia con query di compiti eseguibili che con descrizioni di compiti di alto livello, e valuta la rilevanza utilizzando segnali di performance ancorati all'esecuzione. Gli esperimenti rivelano un divario consistente tra la similarità semantica e le prestazioni effettive degli agenti, evidenziando i limiti dei metodi di recupero e riordinamento basati sulla descrizione. Mostriamo inoltre che segnali comportamentali leggeri, inclusi i probing consapevoli dell'esecuzione, possono migliorare sostanzialmente la qualità del ranking, sottolineando l'importanza di incorporare segnali di esecuzione nella scoperta degli agenti. Il nostro codice è disponibile all'indirizzo https://github.com/Bingo-W/AgentSearchBench.
La transizione dall'inferenza di modelli linguistici senza stato ad agenti autonomi persistenti e multi-sessione ha rivelato che la memoria rappresenta un collo di bottiglia architetturale primario nella distribuzione di sistemi agentici di livello production. Le metodologie esistenti dipendono in larga misura da architetture ibride di grafi semantici, che impongono un sovraccarico computazionale sostanziale sia durante l'ingestione che il recupero. Questi sistemi richiedono tipicamente l'estrazione di entità mediata da grandi modelli linguistici, la manutenzione esplicita di schemi di grafo e pipeline di recupero multi-query. Questo articolo introduce Memanto, un layer di memoria universale per l'intelligenza artificiale agentica che sfida l'assunzione prevalente secondo cui la complessità dei grafi della conoscenza sia necessaria per ottenere una memoria agentica ad alta fedeltà. Memanto integra uno schema di memoria semantica tipizzato comprendente tredici categorie di memoria predefinite, un meccanismo automatizzato di risoluzione dei conflitti e un versionamento temporale. Questi componenti sono abilitati da Moorcheh's Information Theoretic Search engine, un database semantico senza indicizzazione che fornisce un recupero deterministico con latenza inferiore a novanta millisecondi, eliminando al contempo il ritardo di ingestione. Attraverso benchmark sistematici sulle suite di valutazione LongMemEval e LoCoMo, Memanto raggiunge punteggi di accuratezza state-of-the-art rispettivamente dell'89,8 percento e dell'87,1 percento. Questi risultati superano tutti i sistemi ibridi basati su grafi e vettori valutati, richiedendo solamente una singola query di recupero, non comportando costi di ingestione e mantenendo una complessità operativa sostanzialmente inferiore. Viene presentato uno studio di ablazione progressiva a cinque stadi per quantificare il contributo di ciascun componente architetturale, seguito da una discussione sulle implicazioni per la distribuzione scalabile di sistemi di memoria agentici.
La modellazione sequenziale moderna è dominata da due famiglie: i Transformer, la cui self-attention può accedere a elementi arbitrari della sequenza visibile, e i modelli strutturati a spazio degli stati, che propagano le informazioni attraverso uno stato ricorrente esplicito. Questi meccanismi presentano limitazioni diverse nei contesti lunghi: quando l'attenzione è diffusa, l'influenza dei singoli token viene diluita attraverso il supporto effettivo, mentre la propagazione dello stato ricorrente può perdere sensibilità a lungo raggio a meno che le informazioni non vengano attivamente preservate. Di conseguenza, entrambi i meccanismi affrontano sfide nel preservare e recuperare selettivamente le informazioni su contesti lunghi. Proponiamo Sessa, un decoder che posiziona l'attenzione all'interno di un percorso di feedback ricorrente. Ciò crea molti percorsi basati sull'attenzione attraverso i quali i token passati possono influenzare gli stati futuri, piuttosto che affidarsi a una singola lettura attentiva o a una singola catena ricorrente. Dimostriamo che, sotto ipotesi esplicite e regimi corrispondenti, Sessa ammette code di memoria a legge di potenza O(ell^{-β}) per 0 < β < 1, con un decadimento più lento rispetto ai corrispondenti baseline di tipo Transformer e Mamba. Forniamo inoltre una costruzione esplicita che raggiunge questo tasso a legge di potenza. Sotto le stesse ipotesi, Sessa è l'unica classe di modello tra quelle considerate che realizza un recupero selettivo flessibile, inclusi profili la cui influenza non decade con la distanza. Coerentemente con questo vantaggio teorico, in esperimenti comparabili, Sessa raggiunge le prestazioni più solide su benchmark di contesto lungo, rimanendo allo stesso tempo competitivo con i baseline di tipo Transformer e Mamba sulla modellazione linguistica a contesto breve.
I modelli Vision-Language-Action (VLA) ereditano le loro capacità visive e linguistiche dai modelli Vision-Language (VLM), eppure la maggior parte dei VLA è costruita a partire da VLM standard non adattati al dominio embodied, limitandone le prestazioni downstream. In questo lavoro, proponiamo EmbodiedMidtrain per colmare il divario tra VLM e VLA. Iniziamo caratterizzando il divario nella distribuzione dei dati tra di essi, mostrando che i dati VLA occupano regioni compatte largamente separate dalla più ampia distribuzione VLM, mentre il grado di allineamento varia sostanzialmente sia tra le diverse fonti di dati VLM che al loro interno. Successivamente, costruiamo un motore di dati per il mid-training che sfrutta un stimatore di prossimità leggero e addestrabile per selezionare i candidati più allineati ai VLA da un ampio pool VLM, e addestriamo il VLM su questa miscela curata prima del fine-tuning downstream per i VLA. Esperimenti su tre benchmark per la manipolazione robotica mostrano che il mid-training migliora costantemente le prestazioni su diverse architetture VLM di base, ottenendo risultati competitivi con VLA specializzati e VLM standard addestrati con scala modellistica e budget di addestramento maggiori. Un'analisi più approfondita rivela che il mid-training fornisce un'inizializzazione più solida per il fine-tuning VLA, con guadagni che emergono dai primi step e si ampliano durante l'addestramento. Inoltre, il motore di dati cattura sia segnali di allineamento a livello di dataset che a livello di campione, favorendo il ragionamento spaziale rispetto a task centrati sul testo, preservando al contempo la diversità dei dati VLM. Rilasceremo tutto il codice, i dati e i modelli per future ricerche.
La valutazione di politiche robotiche su migliaia di ambienti e migliaia di compiti risulta impraticabile con gli approcci esistenti. Ciò motiva la necessità di una nuova metodologia per la valutazione scalabile delle politiche robotiche. In questo articolo proponiamo dWorldEval, che utilizza un modello del mondo a diffusione discreta come proxy di valutazione scalabile per le politiche robotiche. Nello specifico, dWorldEval mappa tutte le modalità - inclusi visione, linguaggio e azioni robotiche - in uno spazio token unificato, modellandole tramite una singola rete di denoising basata su transformer. Sulla base di questa architettura, impieghiamo una memoria sparsa di fotogrammi chiave per mantenere la coerenza spaziotemporale. Introduciamo inoltre un token di progresso che indica il grado di completamento del compito. In fase di inferenza, il modello predice congiuntamente le osservazioni future e il token di progresso, consentendo di determinare automaticamente il successo quando il progresso raggiunge 1. Esperimenti estensivi dimostrano che dWorldEval supera significativamente gli approcci precedenti, come WorldEval, Ctrl-World e WorldGym, su LIBERO, RoboTwin e su molteplici compiti con robot reali. Esso apre la strada a un nuovo paradigma architetturale nella costruzione di simulatori del mondo per la valutazione robotica su larga scala.
I grandi modelli linguistici (LLM) possiedono notevoli capacità di ragionamento, ma spesso trascurano prove decisive quando queste sono sepolte in contesti lunghi e rumorosi. Introduciamo HiLight, un framework di Evidenziazione delle Prove che separa la selezione delle prove dal ragionamento per risolutori LLM congelati. HiLight evita di comprimere o riscrivere l'input, operazioni che potrebbero scartare o distorcere le prove, addestrando un Attore di Evidenziazione leggero a inserire tag di evidenziazione minimi attorno agli span pivotali nel contesto originale. Un Risolutore congelato esegue quindi il ragionamento downstream sull'input evidenziato. Inquadriamo l'evidenziazione come un problema decisionale debolmente supervisionato e ottimizziamo l'Attore con l'apprendimento per rinforzo utilizzando solo la ricompensa del compito del Risolutore, senza necessità di etichette sulle prove né di accesso o modifica del Risolutore. In ambiti come la raccomandazione sequenziale e la risposta a domande su contesti lunghi, HiLight migliora costantemente le prestazioni rispetto a solide baseline basate su prompt e sull'ottimizzazione automatica dei prompt. La politica di evidenziazione appresa si trasferisce zero-shot sia a famiglie di Risolutori più piccole che più grandi non viste durante l'addestramento, inclusi Risolutori basati su API, suggerendo che l'Attore cattura una struttura delle prove genuina e riutilizzabile piuttosto che adattarsi eccessivamente a un singolo modello di base.
Questo articolo presenta AgriIR, un framework configurabile di retrieval augmented generation (RAG) progettato per fornire risposte fondate e specifiche del dominio, mantenendo al contempo flessibilità e basso costo computazionale. Invece di basarsi su modelli monolitici di grandi dimensioni, AgriIR scompone il processo di accesso all'informazione in fasi modulari dichiarative: raffinamento della query, pianificazione delle sotto-query, recupero, sintesi e valutazione. Questo progetto consente ai professionisti di adattare il framework a nuovi verticali conoscitivi senza modificare l'architettura. La nostra implementazione di riferimento è mirata all'accesso alle informazioni agricole in India, integrando modelli linguistici da 1 miliardo di parametri con retriever adattivi e cataloghi di agenti con consapevolezza del dominio. Il sistema applica citazioni deterministiche, integra la telemetria per la trasparenza e include risorse di deployment automatizzate per garantire un'operazione verificabile e riproducibile. Enfatizzando il progetto architetturale e il controllo modulare, AgriIR dimostra che pipeline ben ingegnerizzate possono ottenere un retrieval accurato dal punto di vista del dominio e affidabile anche con risorse limitate. Sosteniamo che questo approccio esemplifichi l'``IA per l'Agricoltura'' promuovendo accessibilità, sostenibilità e responsabilità nei sistemi di retrieval augmented generation.
I recenti progressi nei sistemi autonomi di "scienziato IA" hanno dimostrato la capacità di scrivere automaticamente manoscritti scientifici e codici eseguibili. Tuttavia, la produzione di un diagramma scientifico di livello pubblicabile (ad esempio, una figura introduttiva o "teaser") rimane un collo di bottiglia principale nel processo di generazione "end-to-end" di un articolo. Ad esempio, una figura teaser funge da interfaccia visiva strategica e svolge uno scopo diverso rispetto ai grafici derivati dai dati. Richiede una sintesi concettuale e una pianificazione per tradurre un flusso di lavoro logico complesso in una grafica avvincente che guidi l'intuizione e susciti curiosità. I sistemi esistenti di scienziato IA di solito omettono questo componente o ricadono su un'alternativa inferiore. Per colmare questa lacuna, presentiamo DiagramBank, un dataset su larga scala costituito da 89.422 diagrammi schematici selezionati da pubblicazioni scientifiche di alto livello esistenti, progettato per il retrieval multimodale e la generazione di figure scientifiche basata su esempi. DiagramBank è stato sviluppato attraverso la nostra pipeline di selezione automatizzata che estrae le figure e i corrispondenti riferimenti nel testo, e utilizza un filtro basato su CLIP per differenziare i diagrammi schematici dai grafici standard o dalle immagini naturali. Ogni istanza è associata a un contesto ricco, che va dall'abstract e dalla didascalia alle coppie figura-riferimento, consentendo il recupero delle informazioni con diverse granularità di query. Rilasciamo DiagramBank in un formato pronto per l'indicizzazione e forniamo una codebase per la generazione aumentata dal retrieval per dimostrare la sintesi condizionata da esempi di figure teaser. DiagramBank è pubblicamente disponibile all'indirizzo https://huggingface.co/datasets/zhangt20/DiagramBank con il codice all'indirizzo https://github.com/csml-rpi/DiagramBank.
Man mano che la capacità di ragionamento e lo spettro di applicazione crescono di pari passo, i grandi modelli linguistici (LLM) acquisiscono la capacità di mettere in atto comportamenti finalizzati al perseguimento di propri obiettivi, una classe di rischi che definiamo Rischi Emergenti di Ragionamento Strategico (ESRR). Questi includono, ma non si limitano a, l'inganno (trarre intenzionalmente in errore utenti o valutatori), l'elusione delle valutazioni (manipolare strategicamente le prestazioni durante i test di sicurezza) e lo sfruttamento distorto dei reward (approfittare di obiettivi specificati in modo errato). Comprendere e misurare sistematicamente questi rischi rimane una sfida aperta. Per colmare questa lacuna, presentiamo ESRRSim, un framework agentivo guidato da una tassonomia per la valutazione automatizzata del rischio comportamentale. Costruiamo una tassonomia estensibile dei rischi composta da 7 categorie, scomposte a loro volta in 20 sottocategorie. ESRRSim genera scenari di valutazione progettati per elicitare un ragionamento fedele, abbinati a rubriche duali che valutano sia le risposte del modello che le tracce di ragionamento, in un'architettura scalabile e indipendente dal giudice. La valutazione su 11 LLM dotati di ragionamento rivela una variazione sostanziale nei profili di rischio (tassi di rilevamento compresi tra il 14,45% e il 72,72%), con miglioramenti generazionali drammatici che suggeriscono che i modelli potrebbero riconoscere e adattarsi sempre più ai contesti di valutazione.