Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i progressi nell'IA scientifica, manca ancora un quadro coerente per l'Intelligenza Generale Scientifica (SGI) – la capacità di concepire, investigare e ragionare autonomamente attraverso diversi domini scientifici. Presentiamo una definizione operativa di SGI basata sul Modello di Indagine Pratica (PIM: Deliberazione, Concezione, Azione, Percezione) e la rendiamo operativa attraverso quattro compiti allineati con il lavoro dello scienziato: ricerca approfondita, generazione di idee, esperimenti a secco/bagnato e ragionamento sperimentale. SGI-Bench comprende oltre 1.000 campi interdisciplinari curati da esperti, ispirati ai 125 Grandi Interrogativi della Scienza, consentendo la valutazione sistematica degli LLM più avanzati. I risultati rivelano lacune: una bassa corrispondenza esatta (10-20%) nella ricerca approfondita nonostante l'allineamento a livello di passaggi; idee carenti in fattibilità e dettaglio; alta eseguibilità del codice ma bassa accuratezza dei risultati nell'esecuzione di esperimenti a secco; bassa fedeltà sequenziale nei protocolli di esperimenti a bagnato; e persistenti sfide nel ragionamento comparativo multimodale. Introduciamo inoltre il Reinforcement Learning al Tempo di Test (TTRL), che ottimizza le ricompense di novità aumentate dal retrieval durante l'inferenza, migliorando la novità delle ipotesi senza necessitare di risposte di riferimento. Insieme, la nostra definizione basata sul PIM, il benchmark incentrato sul flusso di lavoro e le intuizioni empiriche pongono le basi per sistemi di IA che partecipino genuinamente alla scoperta scientifica.
La generalizzazione robotica si basa sull'intelligenza fisica: la capacità di ragionare su cambiamenti di stato, interazioni ricche di contatto e pianificazione a lungo orizzonte sotto percezione e azione egocentrica. Tuttavia, la maggior parte dei VLM viene addestrata principalmente su dati in terza persona, creando una fondamentale discrepanza di punto di vista per i robot umanoidi. Scalare la raccolta di dati egocentrici robotici rimane impraticabile a causa degli alti costi e della limitata diversità, mentre i video egocentrici umani su larga scala offrono un'alternativa scalabile che cattura naturalmente un ricco contesto interattivo e struttura causale. La sfida principale è convertire video egocentrici grezzi in una supervisione di addestramento all'embodiment strutturata e affidabile. Di conseguenza, proponiamo una pipeline di traduzione Egocentric2Embodiment che trasforma video in prima persona in una supervisione VQA multilivello guidata da schemi, con grounding evidenziale forzato e coerenza temporale, consentendo la costruzione su larga scala del dataset Egocentric2Embodiment (E2E-3M). Un "cervello" incarnato consapevole dell'egocentrico, denominato PhysBrain, viene ottenuto addestrando sul dataset E2E-3M. PhysBrain mostra una comprensione egocentrica sostanzialmente migliorata, in particolare per la pianificazione su EgoThink. Fornisce un'inizializzazione egocentrico-consapevole che abilita un fine-tuning VLA più efficiente in termini di campioni e tassi di successo SimplerEnv più elevati (53,9%), dimostrando un trasferimento efficace dalla supervisione egocentrica umana al controllo robotico downstream.
Nonostante le prestazioni superiori dei Large Reasoning Model (LRM), i loro comportamenti deduttivi sono spesso controintuitivi, portando a capacità di ragionamento subottimali. Per formalizzare teoricamente i comportamenti deduttivi desiderati, questo articolo presenta le Leggi del Ragionamento (Laws of Reasoning - LoRe), un quadro unificato che caratterizza i modelli di ragionamento intrinseci negli LRM. Inizialmente proponiamo una legge computazionale basata sull'ipotesi che la potenza di calcolo dedicata al ragionamento debba scalare linearmente con la complessità della domanda. Oltre all'aspetto computazionale, estendiamo LoRe con una legge supplementare sull'accuratezza. Poiché la complessità della domanda è difficile da quantificare nella pratica, esaminiamo queste ipotesi attraverso due proprietà delle leggi: la monotonicità e la composizionalità. Introduciamo quindi LoRe-Bench, un benchmark che misura sistematicamente queste due proprietà trattabili per i modelli di ragionamento su larga scala. La valutazione mostra che la maggior parte dei modelli di ragionamento presenta una monotonicità ragionevole ma manca di composizionalità. In risposta a ciò, sviluppiamo un efficace approccio di fine-tuning che impone la composizionalità della legge computazionale. Studi empirici estesi dimostrano che una migliore conformità alle leggi computazionali produce un miglioramento costante delle prestazioni deduttive su molteplici benchmark e rivela effetti sinergici tra le proprietà e le leggi. Pagina del progetto: https://lore-project.github.io/
I modelli linguistici di grandi dimensioni hanno recentemente compiuto progressi significativi nella generazione di dimostrazioni matematiche rigorose. Al contrario, l'utilizzo di LLM per la dimostrazione di teoremi in linguaggi formali (come Lean) rimane impegnativo e computazionalmente costoso, in particolare quando si affrontano problemi di livello universitario e superiori. In questo lavoro, presentiamo Seed-Prover 1.5, un modello per la dimostrazione formale di teoremi addestrato tramite apprendimento per rinforzo agente su larga scala, affiancato da un flusso di lavoro efficiente di scalatura al tempo di test (TTS). Attraverso interazioni estensive con Lean e altri strumenti, il modello accumula continuamente esperienza durante il processo di RL, migliorando sostanzialmente la capacità e l'efficienza della dimostrazione formale di teoremi. Inoltre, sfruttando i recenti progressi nella dimostrazione in linguaggio naturale, il nostro flusso di lavoro TTS colma efficientemente il divario tra linguaggi naturali e formali. Rispetto ai metodi all'avanguardia, Seed-Prover 1.5 raggiunge prestazioni superiori con un budget computazionale inferiore. Risolve l'88% dei problemi di PutnamBench (livello universitario), l'80% di Fate-H (livello magistrale) e il 33% di Fate-X (livello dottorale). Notevolmente, utilizzando il nostro sistema, abbiamo risolto 11 dei 12 problemi del Putnam 2025 in meno di 9 ore. I nostri risultati suggeriscono che la scalabilità dell'apprendimento dall'esperienza, guidato da feedback formale di alta qualità, detiene un immenso potenziale per il futuro del ragionamento matematico formale.
I moderni modelli di diffusione latente (LDM) operano tipicamente in spazi latenti di autoencoder variazionali (VAE) di basso livello, ottimizzati principalmente per la ricostruzione a livello di pixel. Per unificare generazione e comprensione visiva, una tendenza emergente è l'adozione di feature ad alta dimensionalità provenienti da encoder di rappresentazione come latenti generativi. Tuttavia, identifichiamo empiricamente due ostacoli fondamentali in questo paradigma: (1) lo spazio delle feature discriminative manca di regolarizzazione compatta, rendendo i modelli di diffusione inclini a latenti fuori varietà che portano a strutture oggettuali inaccurate; e (2) la ricostruzione a livello di pixel intrinsecamente debole dell'encoder ostacola l'apprendimento di geometria e texture granulari accurate da parte del generatore. In questo articolo, proponiamo un framework sistematico per adattare feature di encoder orientati alla comprensione per task generativi. Introduciamo un obiettivo di ricostruzione semantico-pixel per regolarizzare lo spazio latente, consentendo la compressione sia di informazioni semantiche che di dettagli granulari in una rappresentazione altamente compatta (96 canali con downsampling spaziale 16x16). Questo progetto garantisce che lo spazio latente rimanga semanticamente ricco e raggiunga una ricostruzione d'immagine allo stato dell'arte, pur restando abbastanza compatto per una generazione accurata. Sfruttando questa rappresentazione, progettiamo un modello unificato di Text-to-Image (T2I) e editing d'immagine. Confrontando vari spazi di feature, dimostriamo che il nostro approccio raggiunge una ricostruzione allo stato dell'arte, una convergenza più rapida e sostanziali miglioramenti prestazionali sia nei task T2I che di editing, convalidando che gli encoder di rappresentazione possono essere efficacemente adattati in componenti generative robuste.
Nonostante i progressi nei Modelli Linguistici Multimodali (MLLM), la loro capacità di ragionare su strutture 3D e dinamiche temporali rimane limitata, vincolata da una debole percezione 4D e una comprensione temporale inadeguata. Anche i benchmark esistenti per il Question Answering su video 3D e 4D (VQA) enfatizzano scene statiche e mancano di prompt a livello di regione. Affrontiamo questi problemi introducendo: (a) 4D-RGPT, un MLLM specializzato progettato per catturare rappresentazioni 4D da input video con percezione temporale potenziata; (b) Perceptual 4D Distillation (P4D), un framework di training che trasferisce rappresentazioni 4D da un modello esperto congelato in 4D-RGPT per una percezione 4D completa; e (c) R4D-Bench, un benchmark per scene dinamiche con consapevolezza della profondità e prompt a livello di regione, costruito tramite una pipeline ibrida automatizzata e convalidata da umani. Il nostro 4D-RGPT ottiene miglioramenti significativi sia sui benchmark 4D VQA esistenti che sul benchmark R4D-Bench proposto.
LLM-as-a-Judge è stato ampiamente adottato come metodo di valutazione e utilizzato come ricompensa supervisionata nell'addestramento dei modelli. Tuttavia, i benchmark esistenti per LLM-as-a-Judge si basano principalmente su ground truth annotati da esseri umani, il che introduce un bias umano che mina la valutazione dell'affidabilità e impone vincoli di scalabilità. Per superare queste limitazioni, introduciamo Sage, una nuova suite di valutazione che valuta la qualità dei giudici LLM senza necessitare di alcuna annotazione umana. Ispirandosi agli assiomi della teoria della scelta razionale, Sage introduce due nuove lenti per misurare LLM-as-a-Judge: l'autoconsistenza locale (stabilità delle preferenze a coppie) e la consistenza logica globale (transitività attraverso un insieme completo di preferenze). Abbiamo curato un dataset di 650 domande combinando problemi di benchmark strutturati con query di utenti reali. I nostri esperimenti dimostrano sia la stabilità delle nostre metriche che la loro alta correlazione con benchmark supervisionati come LLMBar e RewardBench2, confermando l'affidabilità di Sage come suite di valutazione per la robustezza e l'accuratezza di LLM-as-a-Judge. Basandoci su Sage, riveliamo che gli attuali LLM all'avanguardia presentano problemi di affidabilità significativi quando agiscono come giudici sia in contesti di punteggio che di confronto a coppie; anche i modelli con le prestazioni migliori, Gemini-2.5-Pro e GPT-5, non riescono a mantenere preferenze consistenti in quasi un quarto dei casi difficili. Attribuiamo ciò a un nuovo fenomeno chiamato preferenza situazionale, che spiega perché rubriche o criteri espliciti possono aiutare il modello a giudicare in modo coerente tra coppie di risposte. La nostra ulteriore analisi mostra che LLM-as-a-Judge affinato è un metodo fattibile per migliorare le prestazioni, e che il giudice basato su panel così come il ragionamento profondo possono migliorare la coerenza del giudizio. Troviamo inoltre un'incongruenza sostanziale nei giudizi umani, il che indica che l'annotazione umana potrebbe non essere uno standard di riferimento affidabile.
Presentiamo RadarGen, un modello di diffusione per la sintesi di nuvole di punti radar automobilistiche realistiche a partire da immagini multi-vista di telecamere. RadarGen adatta l'efficiente diffusione in spazio latente delle immagini al dominio radar rappresentando le misure radar in forma di vista dall'alto (bird's-eye-view, BEV) che codifica la struttura spaziale insieme agli attributi di sezione radar equivalente (RCS) e Doppler. Un passo di ricostruzione leggero ricostruisce le nuvole di punti dalle mappe generate. Per allineare meglio la generazione con la scena visiva, RadarGen incorpora segnali di profondità, semantica e movimento allineati in BEV, estratti da modelli foundation pre-addestrati, che guidano il processo di generazione stocastica verso pattern radar fisicamente plausibili. Il condizionamento sulle immagini rende l'approccio ampiamente compatibile, in linea di principio, con dataset visivi esistenti e framework di simulazione, offrendo una direzione scalabile per la simulazione generativa multimodale. Le valutazioni su dati di guida su larga scala mostrano che RadarGen cattura le distribuzioni caratteristiche delle misure radar e riduce il divario rispetto ai modelli di percezione addestrati su dati reali, segnando un passo verso una simulazione generativa unificata tra le modalità di sensing.
Il grounding visivo, che consiste nel localizzare oggetti a partire da descrizioni in linguaggio naturale, rappresenta un ponte cruciale tra la comprensione del linguaggio e quella visiva. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) raggiungano punteggi impressionanti sui benchmark esistenti, rimane una domanda fondamentale: gli MLLM possono veramente ancorare il linguaggio alla visione con la sofisticatezza umana, o si limitano a riconoscere pattern su dataset semplificati? Gli attuali benchmark non catturano la complessità del mondo reale, in cui gli esseri umani navigano senza sforzo tra riferimenti ambigui e riconoscono quando il grounding è impossibile. Per valutare rigorosamente le vere capacità degli MLLM, introduciamo GroundingME, un benchmark che mette sistematicamente alla prova i modelli lungo quattro dimensioni critiche: (1) Discriminativa, distinguere oggetti molto simili, (2) Spaziale, comprendere descrizioni relazionali complesse, (3) Limitata, gestire occlusioni o oggetti minuscoli, e (4) Rifiuto, riconoscere query non ancorabili. Attraverso una curatela attenta che combina generazione automatizzata e verifica umana, creiamo 1.005 esempi impegnativi che rispecchiano la complessità del mondo reale. La valutazione di 25 MLLM all'avanguardia rivela un profondo divario di capacità: il modello migliore raggiunge solo il 45,1% di accuratezza, mentre la maggior parte ottiene lo 0% sui task di rifiuto, allucinando riflessivamente oggetti invece di riconoscerne l'assenza, sollevando serie preoccupazioni sulla sicurezza per il deployment. Esploriamo due strategie di miglioramento: (1) lo scaling al test-time seleziona la risposta ottimale tramite la traiettoria di pensiero, migliorando il grounding complesso fino al 2,9%, e (2) l'addestramento con mistura di dati insegna ai modelli a riconoscere query non ancorabili, aumentando l'accuratezza di rifiuto dallo 0% al 27,9%. GroundingME funge quindi sia da strumento diagnostico che rivela le limitazioni attuali degli MLLM, sia da roadmap verso un grounding visivo di livello umano.
Comprendere le differenze architetturali nei modelli linguistici è complesso, specialmente a scale di pre-addestramento accademiche (ad esempio, 1,3 miliardi di parametri, 100 miliardi di token), dove i risultati sono spesso dominati da rumore e casualità. Per superare questo limite, introduciamo task di pre-addestramento sintetici e controllati che isolano e valutano le capacità fondamentali del modello. All'interno di questo framework, scopriamo i CANON LAYERS: componenti architetturali leggeri – che prendono il nome dal termine musicale "canone" – che promuovono il flusso orizzontale di informazioni tra token adiacenti. I Canon Layers calcolano somme ponderate delle rappresentazioni dei token vicini e si integrano perfettamente nei Transformer, nell'attenzione lineare, nei modelli state-space o in qualsiasi architettura sequenziale. Presentiamo 12 risultati chiave. Tra questi, come i Canon Layers potenziano la profondità di ragionamento (ad esempio, di 2 volte), l'ampiezza di ragionamento, la manipolazione della conoscenza, ecc. Consentono ad architetture deboli come NoPE di eguagliare RoPE, e all'attenzione lineare di rivaleggiare con modelli lineari all'avanguardia come Mamba2/GDN – validato sia attraverso task sintetici che pre-addestramento reale su scala accademica. Questo playground sintetico offre un percorso economico e principiato per isolare le capacità fondamentali del modello spesso oscurate alle scale accademiche. Dotato di dati di alta qualità infiniti, potrebbe addirittura PREDIRE come si comporteranno le future architetture con il miglioramento delle pipeline di training – ad esempio, attraverso una migliore curatela dei dati o post-training basato su RL – sbloccando un ragionamento più profondo e inferenze gerarchiche.
I modelli Vision-Language-Action (VLA) stanno guidando una rivoluzione nella robotica, consentendo alle macchine di comprendere le istruzioni e interagire con il mondo fisico. Questo campo sta esplodendo con nuovi modelli e dataset, rendendo sia entusiasmante che impegnativo stare al passo. Questa survey offre una guida chiara e strutturata del panorama VLA. La progettiamo per seguire il percorso di apprendimento naturale di un ricercatore: iniziamo con i Moduli di base di qualsiasi modello VLA, ripercorriamo la storia attraverso le Pietre Miliari chiave e quindi approfondiamo le Sfide fondamentali che definiscono le recenti frontiere della ricerca. Il nostro contributo principale è una scomposizione dettagliata delle cinque maggiori sfide in: (1) Rappresentazione, (2) Esecuzione, (3) Generalizzazione, (4) Sicurezza e (5) Dataset e Valutazione. Questa struttura riflette il percorso di sviluppo di un agente generalista: stabilire il ciclo fondamentale percezione-azione, scalare le capacità attraverso diverse embodiment e ambienti, e infine garantire un dispiegamento affidabile, il tutto supportato dall'essenziale infrastruttura dati. Per ciascuna di esse, esaminiamo gli approcci esistenti ed evidenziamo le opportunità future. Posizioniamo questo articolo sia come guida fondamentale per i nuovi arrivati che come roadmap strategica per i ricercatori esperti, con il duplice obiettivo di accelerare l'apprendimento e ispirare nuove idee nell'intelligenza embodied. Una versione live di questa survey, con aggiornamenti continui, è mantenuta sulla nostra {pagina del progetto} https://suyuz1.github.io/Survery/.
L'apprendimento per rinforzo (RL) è riemerso come un approccio naturale per addestrare agenti LLM interattivi in ambienti reali. Tuttavia, l'applicazione diretta del diffuso algoritmo di Ottimizzazione della Politica di Gruppo Relativa (GRPO) a compiti multi-turno rivela limitazioni significative, specialmente in scenari che richiedono ragionamenti a lungo termine. Per affrontare queste sfide, investigiamo strategie di stima del vantaggio più stabili ed efficaci, in particolare per contesti multi-turno. Inizialmente esploriamo l'Ottimizzazione della Politica Prossimale (PPO) come alternativa e la troviamo più robusta rispetto al GRPO. Per potenziare ulteriormente il PPO negli scenari multi-turno, introduciamo turn-PPO, una variante che opera su una formulazione MDP a livello di turno, in contrapposizione all'usuale MDP a livello di token. I nostri risultati sui dataset WebShop e Sokoban dimostrano l'efficacia di turn-PPO, sia con che senza componenti di ragionamento complesso.
I modelli linguistici di grandi dimensioni per video (Video-LLM) stanno migliorando rapidamente, tuttavia, gli attuali benchmark per il Question Answering su Video (VideoQA) spesso consentono di rispondere alle domande basandosi su un singolo indizio saliente, sottovalutando il ragionamento che richiede l'integrazione di molteplici evidenze visive separate temporalmente. Presentiamo HERBench, un benchmark VideoQA concepito specificamente per valutare l'integrazione di evidenze multiple nel tempo. Ogni domanda richiede l'aggregazione di almeno tre indizi evidenti non sovrapposti in segmenti video distinti, in modo che né i preconcetti linguistici né un singolo fotogramma siano sufficienti. HERBench comprende 26 mila domande a scelta multipla a cinque opzioni, organizzate in dodici task composizionali che indagano il binding di identità, le relazioni tra entità, l'ordinamento temporale, la verifica della co-occorrenza e il conteggio. Per rendere misurabile la richiesta di evidenze, introduciamo l'Insieme Minimo di Fotogrammi Richiesti (MRFS), il numero minimo di fotogrammi che un modello deve fondere per rispondere correttamente, e dimostriamo che HERBench impone una richiesta sostanzialmente più elevata rispetto ai dataset precedenti (MRFS medio 5,5 vs. 2,6-4,2). La valutazione di 13 Video-LLM all'avanguardia su HERBench rivela fallimenti pervasivi: accuratezze del 31-42% sono solo leggermente superiori al baseline del 20% di risposte casuali. Scomponiamo questo fallimento in due colli di bottiglia critici: (1) un deficit di recupero, in cui i selettori di fotogrammi trascurano evidenze chiave, e (2) un deficit di fusione, in cui i modelli non riescono a integrare le informazioni anche quando tutte le evidenze necessarie sono fornite. Rendendo le evidenze temporali sia inevitabili che quantificabili, HERBench stabilisce un obiettivo principiato per far progredire una comprensione video robusta e composizionale.
I recenti progressi nei modelli di mondo hanno notevolmente potenziato la simulazione interattiva degli ambienti. I metodi esistenti rientrano principalmente in due categorie: (1) modelli di generazione di mondi statici, che costruiscono ambienti 3D senza agenti attivi, e (2) modelli di entità controllabili, che consentono a una singola entità di compiere azioni limitate in un ambiente altrimenti non controllabile. In questo lavoro, introduciamo AniX, sfruttando il realismo e l'ancoraggio strutturale della generazione di mondi statici, estendendo al contempo i modelli di entità controllabili per supportare personaggi specificati dall'utente in grado di compiere azioni aperte. Gli utenti possono fornire una scena 3DGS e un personaggio, per poi dirigere il personaggio tramite linguaggio naturale affinché esegua comportamenti diversificati, dalla locomozione di base alle interazioni centrate sugli oggetti, esplorando liberamente l'ambiente. AniX sintetizza clip video temporalmente coerenti che preservano la fedeltà visiva con la scena e il personaggio forniti, formulando il problema come una generazione video autoregressiva condizionata. Basata su un generatore video pre-addestrato, la nostra strategia di training migliora significativamente la dinamica del movimento mantenendo la generalizzazione attraverso azioni e personaggi. La nostra valutazione copre un'ampia gamma di aspetti, inclusi la qualità visiva, la coerenza del personaggio, la controllabilità delle azioni e la coerenza a lungo termine.
Introduciamo Bolmo, la prima famiglia di modelli linguistici (LM) competitivi e completamente open a livello di byte, alle scale di 1B e 7B di parametri. A differenza delle ricerche precedenti sugli LM a livello di byte, che si concentrano prevalentemente sull'addestramento da zero, noi addestriamo Bolmo "byteificando" modelli linguistici esistenti a livello di sottoparole. La byteificazione consente di superare i limiti della tokenizzazione basata su sottoparole – come una comprensione insufficiente dei caratteri e vincoli di efficienza dovuti al vocabolario fisso di sottoparole – pur performando al livello dei migliori LM a livello di sottoparole. Bolmo è progettato specificamente per la byteificazione: la nostra architettura risolve una discrepanza tra l'espressività delle architetture precedenti a livello di byte e quella degli LM a livello di sottoparole, il che rende possibile impiegare un obiettivo di distillazione esatta ed efficace tra Bolmo e il modello sorgente a sottoparole. Ciò permette di convertire un LM a livello di sottoparole in un LM a livello di byte investendo meno dell'1% del tipico budget di token per il pre-addestramento. Bolmo supera sostanzialmente tutti i precedenti LM a livello di byte di dimensioni comparabili e supera i modelli sorgente a livello di sottoparole nella comprensione dei caratteri e, in alcuni casi, nel coding, avvicinandosi alle prestazioni degli LM originali in altri compiti. Inoltre, dimostriamo che Bolmo può raggiungere velocità di inferenza competitive con gli LM a livello di sottoparole addestrandolo con rapporti di compressione dei token più elevati, e può essere post-addestrato in modo economico ed efficace sfruttando l'ecosistema esistente attorno al modello sorgente a sottoparole. I nostri risultati rendono finalmente gli LM a livello di byte una scelta pratica e competitiva con gli LM a livello di sottoparole in un'ampia gamma di casi d'uso.
Benchmark come SWE-bench hanno standardizzato la valutazione di Large Language Model (LLM) su compiti di ingegneria del software a livello di repository. Tuttavia, questi sforzi rimangono limitati dalla curatela manuale, da dataset statici e da un focus su correzioni di bug basate su Python. Introduciamo SWE-Bench++, un framework automatizzato che genera compiti di codifica a livello di repository a partire da progetti GitHub open-source. A differenza degli approcci sintetici, la nostra pipeline raccoglie pull request attive per coprire sia correzioni di bug che richieste di funzionalità in 11 linguaggi. SWE-Bench++ trasforma le pull request (PR) di GitHub in compiti riproducibili e basati sull'esecuzione attraverso quattro fasi: approvvigionamento programmatico, sintesi dell'ambiente, estrazione di oracoli di test e assicurazione della qualità. Un ultimo passo di sintesi di traiettorie guidata da suggerimenti converte le istanze su cui i modelli più potenti falliscono in traiettorie di addestramento. Il nostro benchmark iniziale consiste di 11.133 istanze provenienti da 3.971 repository in 11 linguaggi. Su un sottoinsieme di 1.782 istanze di questo benchmark, i modelli più potenti di oggi performano come segue: claude-sonnet-4.5 raggiunge il 36,20% di pass@10, gpt-5-2025-08-07 il 34,57%, gemini/gemini-2.5-pro il 24,92% e gpt-4o il 16,89%. Dimostriamo ulteriormente l'utilità del nostro dataset mostrando che il fine-tuning su istanze di SWE-Bench++ produce miglioramenti misurabili sul benchmark SWE-bench Multilingual. SWE-Bench++ fornisce un benchmark scalabile e multilingue per valutare e migliorare la generazione di codice a livello di repository.
L'apprendimento per rinforzo (RL) ha permesso di addestrare agenti basati su grandi modelli linguistici (LLM) per interagire con l'ambiente e risolvere compiti multi-turno a lungo termine. Tuttavia, gli agenti addestrati con RL spesso incontrano difficoltà in compiti che richiedono un'esplorazione attiva e non riescono ad adattarsi efficientemente dalle esperienze per tentativi ed errori. In questo articolo, presentiamo LaMer, un framework generale di Meta-RL che consente agli agenti LLM di esplorare attivamente e apprendere dal feedback ambientale durante il test. LaMer è composto da due elementi chiave: (i) un framework di addestramento cross-episodio per incentivare l'esplorazione e l'ottimizzazione delle ricompense a lungo termine; e (ii) un adattamento della politica in-context tramite reflection, che permette all'agente di adattare la propria politica dal segnale di feedback del compito senza aggiornamenti del gradiente. Esperimenti condotti in vari ambienti dimostrano che LaMer migliora significativamente le prestazioni rispetto ai baseline RL, con guadagni prestazionali dell'11%, 14% e 19% rispettivamente su Sokoban, MineSweeper e Webshop. Inoltre, LaMer mostra anche una migliore generalizzazione verso compiti più complessi o non visti in precedenza rispetto agli agenti addestrati con RL. Nel complesso, i nostri risultati dimostrano che il Meta-RL fornisce un approccio principiato per indurre l'esplorazione negli agenti linguistici, consentendo un adattamento più robusto a nuovi ambienti attraverso strategie di esplorazione apprese.
La modellazione VAR (Visual Autoregressive) si discosta dal paradigma di previsione del token successivo dei modelli AR tradizionali attraverso la previsione a scala successiva, abilitando una generazione di immagini di alta qualità. Tuttavia, il paradigma VAR soffre di una complessità computazionale e un tempo di esecuzione che aumentano drasticamente con passi di scala grandi. Sebbene i metodi di accelerazione esistenti riducano il runtime per passi di scala grandi, essi si basano su una selezione manuale dei passi e trascurano l'importanza variabile delle diverse fasi nel processo di generazione. Per affrontare questa sfida, presentiamo StageVAR, uno studio sistematico e un framework di accelerazione consapevole delle fasi per i modelli VAR. La nostra analisi mostra che i primi passi sono critici per preservare la coerenza semantica e strutturale e dovrebbero rimanere intatti, mentre i passi successivi perfezionano principalmente i dettagli e possono essere potati o approssimati per l'accelerazione. Basandosi su queste intuizioni, StageVAR introduce una strategia di accelerazione plug-and-play che sfrutta l'irrilevanza semantica e le proprietà di basso rango nei calcoli delle fasi tardive, senza richiedere training aggiuntivo. Il nostro StageVAR proposto raggiunge un speedup fino a 3.4x con un calo di soli 0.01 su GenEval e una diminuzione di 0.26 su DPG, superando costantemente i baseline di accelerazione esistenti. Questi risultati evidenziano il design consapevole delle fasi come un principio potente per una generazione di immagini autoregressiva visiva efficiente.
I modelli linguistici multimodali di grandi dimensioni faticano a mantenere prestazioni affidabili in condizioni di degrado visivo estremo del mondo reale, il che ne ostacola la robustezza pratica. I modelli MLLM robusti esistenti si basano prevalentemente su addestramento/adattamento implicito che si concentra esclusivamente sulla generalizzazione dell'encoder visivo, soffrendo di limitata interpretabilità e ottimizzazione isolata. Per superare queste limitazioni, proponiamo Robust-R1, un framework innovativo che modella esplicitamente il degrado visivo attraverso catene di ragionamento strutturate. Il nostro approccio integra: (i) fine-tuning supervisionato per fondamenta di ragionamento consapevole del degrado, (ii) allineamento guidato da ricompense per percepire accuratamente i parametri di degrado, e (iii) scalatura dinamica della profondità di ragionamento adattata all'intensità del degrado. Per facilitare questo approccio, introduciamo un dataset specializzato di 11K elementi che presenta degradi realistici sintetizzati attraverso quattro fasi critiche dell'elaborazione visiva del mondo reale, ciascuno annotato con catene strutturate che collegano parametri di degrado, influenza percettiva, catena di ragionamento semantico originale e conclusione. Valutazioni complete dimostrano una robustezza allo stato dell'arte: Robust-R1 supera tutti i baseline generali e robusti sul benchmark di degrado reale R-Bench, mantenendo al contempo prestazioni anti-degrado superiori sotto degradi avversari multi-intensità su MMMB, MMStar e RealWorldQA.
I recenti progressi nella generazione di scene 3D producono risultati visivamente accattivanti, ma le attuali rappresentazioni ostacolano i flussi di lavoro degli artisti che richiedono scene di mesh 3D texturizzate e modificabili per gli effetti visivi e lo sviluppo di videogiochi. Nonostante i significativi avanzamenti, gli attuali metodi di ricostruzione di scene in mesh texturizzate sono ben lontani dall'essere pronti per l'uso artistico, soffrendo di una scomposizione errata degli oggetti, relazioni spaziali inaccurate e assenza di sfondi. Presentiamo 3D-RE-GEN, un framework composizionale che ricostruisce una singola immagine in oggetti 3D texturizzati e uno sfondo. Dimostriamo che combinare modelli all'avanguardia provenienti da domini specifici permette di raggiungere prestazioni all'avanguardia nella ricostruzione di scene, affrontando le esigenze degli artisti. La nostra pipeline di ricostruzione integra modelli per il rilevamento degli asset, la ricostruzione e il posizionamento, spingendo alcuni modelli oltre i loro domini originariamente previsti. L'ottenimento di oggetti occlusi è trattato come un compito di editing di immagini con modelli generativi per inferire e ricostruire con un ragionamento a livello di scena sotto un'illuminazione e una geometria consistenti. A differenza dei metodi attuali, 3D-RE-GEN genera uno sfondo completo che vincola spazialmente gli oggetti durante l'ottimizzazione e fornisce una base per compiti realistici di illuminazione e simulazione negli effetti visivi e nei videogiochi. Per ottenere layout fisicamente realistici, impieghiamo una nuova ottimizzazione differenziabile a 4-DoF che allinea gli oggetti ricostruiti con il piano terreno stimato. 3D-RE-GEN raggiunge prestazioni all'avanguardia nella ricostruzione di scene 3D da singola immagine, producendo scene coerenti e modificabili attraverso una generazione composizionale guidata da un preciso recupero della camera e un'ottimizzazione spaziale.
La comprensione multimodale di video di lunga durata richiede l'integrazione di segnali visivi, vocali e audio ambientale con un ragionamento coerente a lungo raggio. I benchmark esistenti enfatizzano la lunghezza temporale o la ricchezza multimodale, ma raramente entrambi, e sebbene alcuni incorporino domande aperte e metriche avanzate, si basano principalmente su accuratezza a punteggio singolo, oscurando le modalità di fallimento. Introduciamo LongShOTBench, un benchmark diagnostico con domande aperte e guidate dall'intento; dialoghi a turno singolo e multiplo; e compiti che richiedono ragionamento multimodale e uso strumentale agentico attraverso video, audio e parlato. Ogni elemento include una risposta di riferimento e una rubrica graduata per una valutazione interpretabile e tracciabile. LongShOTBench è prodotto tramite una pipeline scalabile e convalidata da esseri umani per garantire copertura e riproducibilità. Tutti i campioni nel nostro LongShOTBench sono verificati e corretti da esseri umani. Inoltre, presentiamo LongShOTAgent, un sistema agentico che analizza video lunghi tramite pre-elaborazione, ricerca e raffinamento iterativo. Su LongShOTBench, i modelli MLLM allo stato dell'arte mostrano ampi divari: Gemini-2.5-Flash raggiunge il 52,95%, i modelli open-source rimangono sotto il 30% e LongShOTAgent ottiene il 44,66%. Questi risultati sottolineano la difficoltà della comprensione di video lunghi nel mondo reale. LongShOTBench fornisce una base pratica e riproducibile per valutare e migliorare i modelli MLLM. Tutte le risorse sono disponibili su GitHub: https://github.com/mbzuai-oryx/longshot.
I modelli Text-to-Image (TTI) generano immagini basandosi su prompt testuali, che spesso lasciano ambigui alcuni aspetti dell'immagine desiderata. Di fronte a queste ambiguità, è stato dimostrato che i modelli TTI mostrano pregiudizi (bias) nelle loro interpretazioni. Questi bias possono avere impatti sociali, ad esempio mostrando solo una certa etnia per una professione indicata. Possono anche influenzare l'esperienza utente creando ridondanza all'interno di un insieme di immagini generate, invece di coprire diverse possibilità. Qui presentiamo MineTheGap, un metodo per individuare automaticamente i prompt che causano la generazione di output distorti da parte di un modello TTI. Il nostro metodo va oltre la semplice rilevazione del bias per un prompt dato. Piuttosto, sfrutta un algoritmo genetico per perfezionare iterativamente un pool di prompt, cercando quelli che espongono i bias. Questo processo di ottimizzazione è guidato da un nuovo punteggio di bias, che classifica i pregiudizi in base alla loro gravità, come convalidiamo su un dataset con bias noti. Per un dato prompt, questo punteggio si ottiene confrontando la distribuzione delle immagini generate con la distribuzione di testi generati da LLM che costituiscono variazioni sul prompt. Il codice e gli esempi sono disponibili sulla pagina web del progetto.