Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Segment Anything Model (SAM) 3, un modello unificato in grado di rilevare, segmentare e tracciare oggetti in immagini e video sulla base di prompt concettuali, che definiamo come brevi frasi nominali (ad esempio, "scuolabus giallo"), esempi immagine o una combinazione di entrambi. La Promptable Concept Segmentation (PCS) accetta tali prompt e restituisce maschere di segmentazione e identità univoche per tutte le istanze di oggetti corrispondenti. Per far progredire la PCS, abbiamo costruito un motore di dati scalabile che produce un dataset di alta qualità con 4 milioni di etichette concettuali uniche, inclusi hard negative, su immagini e video. Il nostro modello è composto da un rilevatore a livello di immagine e da un tracker video basato su memoria che condividono un'unica backbone. Il riconoscimento e la localizzazione sono disaccoppiati mediante una testa di presenza, che migliora l'accuratezza del rilevamento. SAM 3 raddoppia l'accuratezza dei sistemi esistenti sia nella PCS su immagini che su video e migliora le precedenti capacità di SAM nelle attività di segmentazione visiva. RendiAMo open source SAM 3 insieme al nostro nuovo benchmark Segment Anything with Concepts (SA-Co) per la segmentazione concettuale promptabile.
La ricerca attuale sul ragionamento visivo agentico consente una comprensione multimodale approfondita, ma si concentra principalmente su strumenti di manipolazione delle immagini, lasciando un vuoto verso modelli agentici più generalisti. In questo lavoro, esaminiamo nuovamente il compito di geolocalizzazione, che richiede non solo un grounding visivo sfumato ma anche la ricerca web per confermare o affinare le ipotesi durante il ragionamento. Poiché i benchmark di geolocalizzazione esistenti non soddisfano la necessità di immagini ad alta risoluzione e la sfida di localizzazione per un ragionamento agentico profondo, abbiamo curato GeoBench, un benchmark che include foto e panorami da tutto il mondo, insieme a un sottoinsieme di immagini satellitari di diverse città, per valutare rigorosamente l'abilità di geolocalizzazione dei modelli agentici. Proponiamo inoltre GeoVista, un modello agentico che integra perfettamente l'invocazione di strumenti all'interno del ciclo di ragionamento, includendo uno strumento di zoom sull'immagine per ingrandire le regioni di interesse e uno strumento di ricerca web per recuperare informazioni correlate dal web. Sviluppiamo una pipeline di addestramento completa per esso, che include una fase iniziale di supervised fine-tuning (SFT) per apprendere pattern di ragionamento e conoscenze pregiane sull'uso degli strumenti, seguita da una fase di reinforcement learning (RL) per migliorare ulteriormente l'abilità di ragionamento. Adottiamo un reward gerarchico per sfruttare le informazioni geografiche multilivello e migliorare le prestazioni complessive di geolocalizzazione. I risultati sperimentali mostrano che GeoVista supera di gran lunga altri modelli agentici open-source nel compito di geolocalizzazione e raggiunge prestazioni paragonabili a modelli closed-source come Gemini-2.5-flash e GPT-5 sulla maggior parte delle metriche.
La dimensione intrinseca (ID) è uno strumento importante nell'analisi moderna dei LLM, che informa gli studi sulle dinamiche di addestramento, sul comportamento di scaling e sulla struttura dei dataset, eppure i suoi determinanti testuali rimangono poco esplorati. Forniamo il primo studio completo che ancorà l'ID a proprietà testuali interpretabili attraverso l'analisi cross-encoder, caratteristiche linguistiche e autoencoder sparsi (SAE). In questo lavoro, stabiliamo tre risultati chiave. In primo luogo, l'ID è complementare alle metriche basate sull'entropia: dopo aver controllato per la lunghezza, le due sono incorrelate, con l'ID che cattura una complessità geometrica ortogonale alla qualità predittiva. In secondo luogo, l'ID mostra una stratificazione robusta per genere: la prosa scientifica mostra ID bassa (~8), i contenuti enciclopedici ID media (~9) e la scrittura creativa/d'opinione ID alta (~10,5) in tutti i modelli testati. Ciò rivela che i LLM contemporanei trovano il testo scientifico "rappresentazionalmente semplice", mentre la narrativa richiede gradi di libertà aggiuntivi. In terzo luogo, utilizzando gli SAE, identifichiamo caratteristiche causali: i segnali scientifici (tono formale, modelli di report, statistiche) riducono l'ID; i segnali umanizzati (personalizzazione, emozione, narrazione) la aumentano. Esperimenti di steering confermano che questi effetti sono causali. Pertanto, per i modelli contemporanei, la scrittura scientifica appare relativamente "facile", mentre la narrativa, l'opinione e l'affetto aggiungono gradi di libertà rappresentazionali. La nostra analisi multisfaccettata fornisce una guida pratica per l'uso corretto dell'ID e per l'interpretazione solida dei risultati basati sull'ID.
I recenti progressi nei modelli di ragionamento su larga scala hanno alimentato un crescente interesse nell'estendere tali capacità a domini multimodali. Tuttavia, nonostante i notevoli avanzamenti nel ragionamento visivo, la mancanza di strategie trasparenti e riproducibili per la curatela dei dati e l'addestramento rimane una barriera significativa per la ricerca scalabile. In questo lavoro, presentiamo OpenMMReasoner, una ricetta completamente trasparente in due fasi per il ragionamento multimodale, che comprende il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL). Nella fase SFT, costruiamo un dataset di avvio a freddo composto da 874K campioni con una rigorosa validazione passo-passo, fornendo una solida base per le capacità di ragionamento. La successiva fase RL sfrutta un dataset di 74K campioni in diversi domini per affinare e stabilizzare ulteriormente queste abilità, risultando in un processo di apprendimento più robusto ed efficiente. Valutazioni estensive dimostrano che la nostra ricetta di addestramento non solo supera i forti benchmark, ma evidenzia anche il ruolo cruciale della qualità dei dati e del design dell'addestramento nel modellare le prestazioni del ragionamento multimodale. In particolare, il nostro metodo raggiunge un miglioramento dell'11,6% rispetto al baseline Qwen2.5-VL-7B-Instruct su nove benchmark di ragionamento multimodale, stabilendo una solida base empirica per la futura ricerca su larga scala nel ragionamento multimodale. Abbiamo reso open-source tutti i nostri codici, pipeline e dati all'indirizzo https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Introduciamo RynnVLA-002, un modello unificato Visione-Linguaggio-Azione (VLA) e modello del mondo. Il modello del mondo utilizza input azionali e visivi per prevedere gli stati immagine futuri, apprendendo la fisica sottostante dell'ambiente per affinare la generazione delle azioni. Viceversa, il modello VLA produce le azioni successive a partire dalle osservazioni di immagini, migliorando la comprensione visiva e supportando la generazione di immagini del modello del mondo. Il framework unificato di RynnVLA-002 consente l'apprendimento congiunto delle dinamiche ambientali e della pianificazione delle azioni. I nostri esperimenti mostrano che RynnVLA-002 supera i modelli VLA e del mondo individuali, dimostrandone il miglioramento reciproco. Valutiamo RynnVLA-002 sia in compiti di simulazione che in compiti robotici nel mondo reale. RynnVLA-002 raggiunge un tasso di successo del 97,4% sul benchmark di simulazione LIBERO senza pre-addestramento, mentre negli esperimenti reali su LeRobot, il suo modello del mondo integrato aumenta il tasso di successo complessivo del 50%.
I recenti progressi negli agenti basati su LLM hanno dimostrato un potenziale significativo nella generazione di risposte simili a quelle umane; tuttavia, continuano ad affrontare sfide nel mantenere interazioni a lungo termine in ambienti complessi, principalmente a causa di limitazioni nella coerenza contestuale e nella personalizzazione dinamica. I sistemi di memoria esistenti spesso dipendono dal raggruppamento semantico prima del recupero, il che può trascurare informazioni critiche dell'utente semanticamente irrilevanti e introdurre rumore nel recupero. In questo rapporto, proponiamo il progetto iniziale di O-Mem, un nuovo framework di memoria basato sulla profilazione attiva dell'utente che estrae e aggiorna dinamicamente le caratteristiche dell'utente e i record degli eventi dalle loro interazioni proattive con gli agenti. O-Mem supporta il recupero gerarchico degli attributi della persona e del contesto relativo agli argomenti, consentendo risposte personalizzate più adattive e coerenti. O-Mem raggiunge il 51,67% sul benchmark pubblico LoCoMo, un miglioramento di quasi il 3% rispetto a LangMem, il precedente stato dell'arte, e ottiene il 62,99% su PERSONAMEM, un miglioramento del 3,5% rispetto a A-Mem, il precedente stato dell'arte. O-Mem migliora anche l'efficienza del tempo di risposta dei token e dell'interazione rispetto ai precedenti framework di memoria. Il nostro lavoro apre promettenti direzioni per lo sviluppo futuro di assistenti IA personalizzati efficienti e simili a quelli umani.
La comprensione di video ricchi di testo richiede la lettura di piccoli indizi testuali transitori che spesso necessitano di ispezioni ripetute. Tuttavia, la maggior parte dei modelli di domanda-risposta su video si basa su una percezione a passaggio singolo su fotogrammi fissi, portando ad allucinazioni e fallimenti su evidenze granulari. Ispirati dal modo in cui gli esseri umani mettono in pausa, zoomano e rileggono regioni critiche, introduciamo Video-R4 (Rinforzare il Ragionamento su Video Ricchi di Testo con la Ruminazione Visiva), un LMM per il ragionamento video che esegue la ruminazione visiva: selezionando iterativamente fotogrammi, zoomando su regioni informative, ricodificando i pixel recuperati e aggiornando il suo stato di ragionamento. Costruiamo due dataset con traiettorie di ruminazione eseguibili: Video-R4-CoT-17k per la pratica supervisionata e Video-R4-RL-30k per l'apprendimento per rinforzo. Proponiamo un framework di apprendimento per ruminazione multi-stadio che affina progressivamente un LMM da 7B per apprendere operazioni visive atomiche e di miscelazione tramite SFT e RL basato su GRPO. Video-R4-7B raggiunge risultati all'avanguardia su M4-ViteVQA e si generalizza ulteriormente al QA su documenti multi-pagina, QA su slide e QA video generico, dimostrando che la ruminazione iterativa è un paradigma efficace per il ragionamento multimodale ancorato ai pixel.
Introduciamo WorldGen, un sistema che consente la creazione automatica di mondi 3D interattivi su larga scala direttamente da prompt testuali. Il nostro approccio trasforma descrizioni in linguaggio naturale in ambienti percorribili e completamente texturizzati che possono essere esplorati o modificati immediatamente all'interno di motori grafici standard. Combinando ragionamento sulla disposizione della scena guidato da LLM, generazione procedurale, generazione 3D basata su modelli di diffusione e scomposizione della scena con consapevolezza degli oggetti, WorldGen colma il divario tra intento creativo e spazi virtuali funzionali, permettendo ai creatori di progettare mondi coerenti e navigabili senza modellazione manuale o competenze specialistiche in 3D. Il sistema è completamente modulare e supporta un controllo granulare su layout, scala e stile, producendo mondi geometricamente consistenti, visivamente ricchi ed efficienti nel rendering in tempo reale. Questo lavoro rappresenta un passo verso la creazione generativa e accessibile di mondi su larga scala, avanzando la frontiera dell'IA generativa 3D per applicazioni nel gaming, nella simulazione e in ambienti sociali immersivi.
Questo studio presenta PARROT (Persuasion and Agreement Robustness Rating of Output Truth), un framework incentrato sulla robustezza progettato per misurare il degrado dell'accuratezza che si verifica sotto la pressione sociale esercitata sugli utenti tramite autorità e persuasione nei grandi modelli linguistici (LLM), il fenomeno della sicofanza (conformità eccessiva). PARROT (i) isola gli effetti causali confrontando la versione neutra della stessa domanda con una versione autorevolmente falsa utilizzando una valutazione in doppio cieco, (ii) quantifica gli spostamenti di confidenza verso le risposte corrette e quelle false imposte utilizzando un monitoraggio della calibrazione basato sulla verosimiglianza logaritmica, e (iii) classifica sistematicamente le modalità di fallimento (ad es., corretto robusto, accordo sicofante, errore rinforzato, errore persistente, autocorrezione, ecc.) utilizzando una tassonomia comportamentale a otto stati. Abbiamo valutato 22 modelli utilizzando 1.302 domande a scelta multipla in stile MMLU in 13 domini e modelli di autorità dominio-specifici. I risultati mostrano un'eterogeneità marcata: i modelli avanzati (ad es., GPT-5, GPT-4.1, Claude Sonnet 4.5) mostrano "tassi di adesione" bassi (≤ 11%, GPT-5: 4%) e una perdita di accuratezza minima, mentre i modelli più vecchi/piccoli mostrano un collasso epistemico severo (GPT-4: 80%, Qwen 2.5-1.5B: 94%). Il pericolo non è limitato ai cambiamenti di risposta; i modelli deboli riducono la confidenza nella risposta corretta mentre aumentano la confidenza nella risposta errata imposta. Sebbene il diritto internazionale e la conoscenza globale a livello di dominio mostrino un'elevata fragilità, la matematica elementare è relativamente resiliente. Di conseguenza, sosteniamo che l'obiettivo della "resistenza alla pressione di conformità" dovrebbe essere affrontato come un obiettivo primario insieme all'accuratezza, alla prevenzione dei danni e alla privacy per un dispiegamento sicuro nel mondo reale.
I tutorial di pittura passo-passo sono fondamentali per apprendere tecniche artistiche, ma le risorse video esistenti (ad esempio YouTube) mancano di interattività e personalizzazione. Sebbene i recenti modelli generativi abbiano fatto progressi nella sintesi di immagini artistiche, faticano a generalizzare tra diversi mezzi espressivi e mostrano spesso incoerenze temporali o strutturali, ostacolando la riproduzione fedele dei flussi di lavoro creativi umani. Per affrontare questo problema, proponiamo un framework unificato per la generazione di processi pittorici multi-mezzo con un meccanismo di controllo stilistico guidato dalla semantica, che incorpora multiple tecniche nello spazio condizionale dei modelli di diffusione e utilizza un'augmentazione stilistica cross-mezzo. Ciò permette un'evoluzione consistente della texture e un trasferimento di processo tra stili diversi. Una strategia di addestramento a pittura inversa garantisce ulteriormente una generazione fluida e allineata al processo umano. Abbiamo inoltre costruito un dataset su larga scala di processi pittorici reali e valutato la coerenza cross-mezzo, la coerenza temporale e la fedeltà dell'immagine finale, ottenendo risultati solidi nelle metriche LPIPS, DINO e CLIP. Infine, la nostra curva del Profilo di Distanza Percettiva (PDP) modella quantitativamente la sequenza creativa - composizione, definizione delle campiture cromatiche e rifinitura dei dettagli - rispecchiando la progressione artistica umana.
Nonostante il notevole successo dei Modelli Visione-Linguaggio (VLM), le loro prestazioni in una serie di compiti visivi complessi sono spesso ostacolate da un "collo di bottiglia nell'elaborazione visiva": una propensione a perdere l'ancoraggio all'evidenza visiva e a mostrare un deficit nell'esperienza visiva contestualizzata durante la generazione prolungata. Traendo ispirazione dalla teoria cognitiva umana della memoria, che distingue una memoria a breve termine a dominanza visiva e una memoria a lungo termine a dominanza semantica, proponiamo VisMem, un framework allineato ai principi cognitivi che equipaggia i VLM con memorie visive latenti dinamiche: un modulo a breve termine per la ritenzione percettiva fine e un modulo a lungo termine per il consolidamento semantico astratto. Queste memorie vengono richiamate in modo fluido durante l'inferenza, consentendo ai VLM di mantenere sia la fedeltà percettiva che la coerenza semantica durante il processo di pensiero e generazione. Esperimenti estesi su diversi benchmark visivi per la comprensione, il ragionamento e la generazione rivelano che VisMem apporta un significativo incremento medio delle prestazioni dell'11,8% rispetto al modello vanilla e supera tutte le controparti, stabilendo un nuovo paradigma per il potenziamento della memoria nello spazio latente. Il codice sarà disponibile al seguente indirizzo: https://github.com/YU-deep/VisMem.git.
I recenti progressi nei modelli Visione-Linguaggio-Azione (VLA) dimostrano che i segnali visivi possono integrare efficacemente supervisioni d'azione sparse. Tuttavia, far predire direttamente ai VLA stati visivi ad alta dimensionalità può distribuire la capacità del modello e comportare costi di addestramento proibitivi, mentre comprimere gli stati visivi in segnali di supervisione più compatti comporta inevitabilmente colli di bottiglia informativi. Inoltre, i metodi esistenti spesso soffrono di scarse capacità di comprensione e ragionamento a causa della trascuratezza della supervisione linguistica. Questo articolo introduce Mantis, un nuovo framework che presenta una Previsione Visiva Disaccoppiata (DVF) per affrontare questi problemi. Nello specifico, Mantis disaccoppia la previsione visiva futura dal backbone combinando meta query e una testa di Transformer a diffusione (DiT). Fornendo lo stato visivo corrente al DiT attraverso una connessione residua, un semplice obiettivo di predizione dello stato successivo consente alle meta query di catturare automaticamente le azioni latenti che delineano la traiettoria visiva, potenziando così l'apprendimento delle azioni esplicite. Il disaccoppiamento riduce il carico sul backbone VLA, permettendogli di mantenere le capacità di comprensione e ragionamento attraverso la supervisione linguistica. Sperimentalmente, dopo pre-addestramento su video di manipolazione umana, dimostrazioni robotiche e coppie immagine-testo, Mantis raggiunge un tasso di successo del 96.7% sul benchmark LIBERO dopo il fine-tuning, superando baseline potenti e mostrando un'elevata velocità di convergenza. Valutazioni nel mondo reale mostrano che Mantis supera π_{0.5}, un importante modello VLA open-source, particolarmente nella capacità di seguire istruzioni, nella generalizzazione a istruzioni non viste e nell'abilità di ragionamento. Codice e pesi sono rilasciati per supportare la comunità open-source.
Affrontiamo il compito di modifica di immagini multi-vista a partire da input sparsi, dove gli input possono essere visti come un insieme di immagini che catturano la scena da diverse angolazioni. L'obiettivo è modificare la scena secondo un'istruzione testuale preservando la coerenza tra tutte le viste. I metodi esistenti, basati su campi neurali per singola scena o meccanismi di attenzione temporale, mostrano difficoltà in questo contesto, producendo spesso artefatti e modifiche incoerenti. Proponiamo InstructMix2Mix (I-Mix2Mix), un framework che distilla le capacità di modifica di un modello di diffusione 2D in un modello di diffusione multi-vista preaddestrato, sfruttando il suo priore 3D basato sui dati per la coerenza cross-view. Un contributo chiave è la sostituzione del consolidatore a campo neurale convenzionale nello Score Distillation Sampling (SDS) con uno studente di diffusione multi-vista, che richiede adattamenti innovativi: aggiornamenti incrementali dello studente attraverso i timestep, uno scheduler del rumore specializzato per l'insegnante per prevenire la degenerazione, e una modifica del meccanismo di attenzione che migliora la coerenza cross-view senza costi aggiuntivi. Gli esperimenti dimostrano che I-Mix2Mix migliora significativamente la coerenza multi-vista mantenendo un'alta qualità di modifica per singolo fotogramma.
Il potenziamento dei modelli multimodali ha consentito progressi notevoli nella comprensione e nel ragionamento visivo, ma le esigenze pratiche richiedono sistemi più piccoli ed efficienti. In questo lavoro, conduciamo un'analisi sistematica del ridimensionamento dell'intelligenza nei modelli multimodali, esaminando come la ridotta capacità dei grandi modelli linguistici (LLM) influisca sulle capacità multimodali. Le nostre prime scoperte rivelano una tendenza interessante: il ridimensionamento degli LLM compromette in modo sproporzionato le capacità visive, piuttosto che le abilità ereditate dall'LLM. Successivamente, analizziamo se questo calo rifletta principalmente il previsto declino nel ragionamento visivo o una perdita più fondamentale delle abilità percettive. Isolando l'effetto del ridimensionamento degli LLM sulla percezione, riscontriamo che le prestazioni calano comunque bruscamente, spesso eguagliando o superando l'impatto sul ragionamento. Per affrontare questo collo di bottiglia, introduciamo il visual extraction tuning, che addestra esplicitamente il modello a estrarre dettagli visivi rilevanti per l'istruzione in modo coerente tra i diversi compiti. Utilizzando questi dettagli visivi estratti, applichiamo quindi un ragionamento passo-passo per generare le risposte. Insieme, questi componenti formano il nostro approccio Extract+Think, stabilendo un nuovo standard per efficienza e prestazioni in questo ambito.
La modellazione di sequenze genomiche affronta due sfide irrisolte: la densità informativa varia ampiamente tra regioni diverse, mentre non esiste un'unità lessicale minima chiaramente definita. Basandosi sulle quattro basi primordiali o su tokenizzatori di DNA progettati indipendentemente, gli approcci esistenti con pre-addestramento basato su modelli linguistici mascherati ingenuo spesso falliscono nell'adattarsi alle complessità variabili delle sequenze genomiche. Sfruttando le tecniche di Token Merging, questo articolo introduce un'architettura gerarchica che ottimizza congiuntamente un tokenizzatore genomico dinamico e Transformer latenti con compiti di pre-addestramento contestuale. Per quanto riguarda le strutture di rete, il modulo di tokenizzazione suddivide automaticamente le basi adiacenti in parole impilando più strati di blocchi differenziabili di fusione di token con vincoli a finestra locale, mentre un Encoder Latente cattura il contesto globale di queste parole fuse attraverso blocchi di attenzione completa. Impiegando simmetricamente un Decodificatore Latente e un Decodificatore Locale, MergeDNA apprende con due compiti di pre-addestramento: la Ricostruzione di Token Fusi addestra simultaneamente il modulo di tokenizzazione dinamica e filtra adattativamente i token importanti, mentre la Modellazione Adattiva di Token Mascherati apprende a predire questi token filtrati per catturare contenuti informativi. Esperimenti estensivi dimostrano che MergeDNA raggiunge prestazioni superiori su tre benchmark di DNA popolari e diverse attività multi-omiche con valutazione fine-tuning o zero-shot, superando i metodi di tokenizzazione tipici e i modelli fondazionali di DNA su larga scala.
I modelli visione-linguaggio-azione (VLA) mostrano potenziale per compiti robotici generali, ma rimangono problematici nella manipolazione spaziotemporalmente coerente, che richiede rappresentazioni a grana fine. Tipicamente, i metodi esistenti incorporano posizioni 3D nelle rappresentazioni visive per migliorare la precisione spaziale delle azioni. Tuttavia, questi metodi faticano a ottenere un controllo temporalmente coerente sull'esecuzione delle azioni. In questo lavoro, proponiamo VLA-4D, un modello VLA generale con consapevolezza 4D per la manipolazione robotica spaziotemporalmente coerente. Il nostro modello è guidato da due progetti chiave: 1) Rappresentazione visiva 4D-consapevole. Estraiamo caratteristiche visive, incorporiamo il tempo 1D nelle posizioni 3D per ottenere embedding 4D, e li fondiamo in una rappresentazione visiva unificata tramite un meccanismo di cross-attention. 2) Rappresentazione azionale spaziotemporale. Estendiamo le convenzionali rappresentazioni azionali spaziali con informazioni temporali per abilitare la pianificazione spaziotemporale, e allineiamo le rappresentazioni multimodali nell'LLM per la predizione azionale spaziotemporale. All'interno di questo framework unificato, le rappresentazioni visive e azionali progettate congiuntamente rendono la manipolazione robotica spazialmente fluida e temporalmente coerente. Inoltre, estendiamo il dataset VLA con annotazioni azionali temporali per il fine-tuning del nostro modello. Esperimenti estensivi sono stati condotti per verificare la superiorità del nostro metodo in diversi compiti di manipolazione robotica.
La revisione tra pari è una pietra angolare della pubblicazione scientifica, incluso in prestigiose conferenze di machine learning come ICLR. Con l'aumento dei volumi di submission, comprendere la natura e le dinamiche del processo di revisione è cruciale per migliorarne l'efficienza, l'efficacia e la qualità dei paper pubblicati. Presentiamo un'analisi su larga scala dei processi di revisione tra pari di ICLR 2024 e 2025, concentrandoci sui punteggi pre e post-replica e sulle interazioni tra revisori e autori. Esaminiamo i punteggi delle revisioni, il coinvolgimento autore-revisore, gli schemi temporali nella consegna delle revisioni e gli effetti di influenza tra co-revisori. Combinando analisi quantitative con la categorizzazione basata su LLM dei testi di revisione e delle discussioni di replica, identifichiamo punti di forza e debolezze comuni per ogni gruppo di valutazione, nonché tendenze nelle strategie di replica più fortemente associate alle variazioni dei punteggi. I nostri risultati mostrano che i punteggi iniziali e le valutazioni dei co-revisori sono i predittori più forti delle variazioni di punteggio durante la replica, indicando un certo grado di influenza tra revisori. Le repliche svolgono un ruolo prezioso nel migliorare gli esiti per i paper borderline, dove risposte ponderate degli autori possono modificare significativamente le prospettive dei revisori. Più in generale, il nostro studio offre spunti basati su evidenze per migliorare il processo di revisione tra pari, guidando gli autori su strategie di replica efficaci e aiutando la comunità a progettare processi di revisione più equi ed efficienti. Il nostro codice e i dati sulle variazioni dei punteggi sono disponibili su https://github.com/papercopilot/iclr-insights.
Con il rapido sviluppo dei Large Language Model (LLM), gli agenti di intelligenza artificiale hanno dimostrato una competenza crescente in compiti scientifici, che spaziano dalla generazione di ipotesi e la progettazione sperimentale alla stesura di manoscritti. Tali sistemi agenti sono comunemente indicati come "Scienziati IA". Tuttavia, gli attuali Scienziati IA formulano prevalentemente la scoperta scientifica come un problema isolato di ricerca o ottimizzazione, trascurando il fatto che la ricerca scientifica è intrinsecamente un'impresa sociale e collaborativa. La scienza del mondo reale si basa su una complessa infrastruttura scientifica composta da meccanismi collaborativi, attribuzione dei contributi, revisione paritaria e reti strutturate di conoscenza scientifica. A causa della mancanza di modellazione di queste dimensioni critiche, i sistemi attuali faticano a stabilire un ecosistema di ricerca genuino o a interagire in profondità con la comunità scientifica umana. Per colmare questa lacuna, introduciamo OmniScientist, un framework che codifica esplicitamente i meccanismi sottostanti della ricerca umana nel flusso di lavoro scientifico dell'IA. OmniScientist non solo raggiunge l'automazione end-to-end attraverso la fondazione dati, la revisione della letteratura, l'ideazione della ricerca, l'automazione sperimentale, la scrittura scientifica e la revisione paritaria, ma fornisce anche un supporto infrastrutturale completo simulando il sistema scientifico umano, comprendente: (1) un sistema di conoscenza strutturato basato su reti di citazione e correlazioni concettuali; (2) un protocollo di ricerca collaborativa (OSP), che consente una collaborazione multi-agente senza soluzione di continuità e la partecipazione di ricercatori umani; e (3) una piattaforma di valutazione aperta (ScienceArena) basata su votazioni utente pairwise in cieco e classifiche Elo. Questa infrastruttura consente agli agenti non solo di comprendere e sfruttare i sistemi di conoscenza umani, ma anche di collaborare e co-evolversi, favorendo un ecosistema di innovazione sostenibile e scalabile.
I modelli autoregressivi visivi (VAR) hanno recentemente attirato notevole attenzione per il loro innovativo paradigma di predizione a scala successiva, offrendo vantaggi significativi sia nell'efficienza inferenziale che nella qualità dell'immagine rispetto ai tradizionali modelli autoregressivi (AR) multi-step e ai modelli di diffusione. Tuttavia, nonostante la loro efficienza, i modelli VAR soffrono spesso di un collasso della diversità, ovvero una riduzione della variabilità degli output, analoga a quella osservata nei modelli di diffusione distillati a pochi step. In questo articolo, introduciamo DiverseVAR, un approccio semplice ma efficace che ripristina la diversità generativa dei modelli VAR senza richiedere alcun addestramento aggiuntivo. La nostra analisi rivela che la componente pivot della mappa delle caratteristiche è un fattore chiave che governa la formazione della diversità nelle scale iniziali. Sopprimendo la componente pivot nell'input del modello e amplificandola nell'output del modello, DiverseVAR sblocca efficacemente il potenziale generativo intrinseco dei modelli VAR preservando al contempo una sintesi di alta fedeltà. I risultati empirici dimostrano che il nostro approccio migliora sostanzialmente la diversità generativa con influenze prestazionali trascurabili. Il nostro codice sarà pubblicamente rilasciato all'indirizzo https://github.com/wangtong627/DiverseVAR.
L'addestramento di modelli per il rilevamento di oggetti proibiti richiede una grande quantità di immagini radiografiche di sicurezza, ma la raccolta e l'annotazione di queste immagini sono operazioni che richiedono molto tempo e fatica. Per ovviare all'insufficienza dei dati, i metodi di sintesi di immagini radiografiche di sicurezza compongono immagini per aumentare la dimensione dei dataset. Tuttavia, i metodi precedenti seguono principalmente una pipeline a due stadi: nella prima fase implementano un'estrazione laboriosa dei primi piani, per poi comporre le immagini nella seconda fase. Tale pipeline introduce inevitabilmente costi di manodopera aggiuntivi e non è efficiente. In questo articolo, proponiamo una pipeline di sintesi di immagini radiografiche di sicurezza a stadio unico (Xsyn) basata sulla generazione di immagini da testo, che incorpora due strategie efficaci per migliorare l'usabilità delle immagini sintetiche. La strategia di Affinamento con Cross-Attention (CAR) sfrutta la mappa di cross-attention del modello di diffusione per perfezionare l'annotazione del bounding box. La strategia di Modellazione dell'Occlusione dello Sfondo (BOM) modella esplicitamente l'occlusione dello sfondo nello spazio latente per aumentare la complessità dell'imaging. Per quanto a nostra conoscenza, rispetto ai metodi precedenti, Xsyn è il primo a raggiungere una sintesi di immagini radiografiche di sicurezza di alta qualità senza costi di manodopera aggiuntivi. Gli esperimenti dimostrano che il nostro metodo supera tutti i metodi precedenti con un miglioramento dell'1.2% nel mAP, e le immagini sintetiche generate dal nostro metodo sono utili per migliorare le prestazioni di rilevamento di oggetti proibiti su vari dataset e rilevatori di sicurezza a raggi X. Il codice è disponibile all'indirizzo https://github.com/pILLOW-1/Xsyn/.
Gli approcci recenti per la generazione video si basano sempre più sulla pianificazione di segnali di controllo intermedi, come le traiettorie degli oggetti, per migliorare la coerenza temporale e la fedeltà del movimento. Tuttavia, questi metodi utilizzano per lo più piani monostadio tipicamente limitati a movimenti semplici, oppure raffinatezze iterative che richiedono molteplici chiamate al generatore video, comportando un elevato costo computazionale. Per superare queste limitazioni, proponiamo SketchVerify, un framework di pianificazione basato sulla verifica di schizzi, privo di addestramento, che migliora la qualità della pianificazione del movimento con traiettorie dinamicamente più coerenti (ovvero movimenti fisicamente plausibili e coerenti con l'istruzione) prima della generazione completa del video, introducendo un ciclo di campionamento e verifica al momento del test. Dato un prompt e un'immagine di riferimento, il nostro metodo prevede molteplici piani di movimento candidati e li classifica utilizzando un verificatore visione-linguaggio che valuta congiuntamente l'allineamento semantico con l'istruzione e la plausibilità fisica. Per valutare efficientemente i piani di movimento candidati, renderizziamo ogni traiettoria come uno schizzo video leggero componendo gli oggetti su uno sfondo statico, aggirando così la necessità di una costosa sintesi ripetuta basata sulla diffusione, pur ottenendo prestazioni comparabili. Raffiniamo iterativamente il piano di movimento finché non ne viene identificato uno soddisfacente, che viene poi passato al generatore condizionato dalla traiettoria per la sintesi finale. Gli esperimenti su WorldModelBench e PhyWorldBench dimostrano che il nostro metodo migliora significativamente la qualità del movimento, il realismo fisico e la coerenza a lungo termine rispetto a baseline competitive, risultando sostanzialmente più efficiente. Il nostro studio di ablazione mostra inoltre che aumentare il numero di traiettorie candidate migliora costantemente le prestazioni complessive.
Il crescente uso improprio dei Modelli Visione-Linguaggio (VLM) ha spinto i fornitori a implementare molteplici salvaguardie, tra cui allineamento tramite tuning, prompt di sistema e moderazione dei contenuti. Tuttavia, la robustezza nel mondo reale di queste difese contro attacchi avversari rimane poco esplorata. Introduciamo Multi-Faceted Attack (MFA), un framework che espone sistematicamente vulnerabilità generali di sicurezza nei principali VLM dotati di difese, come GPT-4o, Gemini-Pro e Llama-4. Il componente centrale di MFA è l'Attention-Transfer Attack (ATA), che nasconde istruzioni dannose all'interno di un meta-compito con obiettivi in competizione. Forniamo una prospettiva teorica basata sul reward hacking per spiegare il successo di questo attacco. Per migliorare la trasferibilità cross-modello, introduciamo inoltre un algoritmo leggero di potenziamento del trasferimento combinato con una semplice strategia di ripetizione che bypassa congiuntamente sia i filtri a livello di input che di output senza un fine-tuning specifico per modello. Empiricamente, dimostriamo che immagini avversarie ottimizzate per un encoder visivo si trasferiscono ampiamente a VLM non visti, indicando che le rappresentazioni visive condivise creano una vulnerabilità di sicurezza cross-modello. Nel complesso, MFA raggiunge un tasso di successo del 58,5% e supera costantemente i metodi esistenti. Sui modelli commerciali allo stato dell'arte, MFA raggiunge un tasso di successo del 52,8%, superando il secondo miglior attacco del 34%. Questi risultati mettono in discussione la robustezza percepita degli attuali meccanismi di difesa ed evidenziano persistenti debolezze di sicurezza nei VLM moderni. Codice: https://github.com/cure-lab/MultiFacetedAttack
Riportiamo il primo studio su larga scala di pre-addestramento di modelli Mixture-of-Experts (MoE) condotto esclusivamente su hardware AMD, utilizzando GPU MI300X con interconnessione Pollara. Distilliamo indicazioni pratiche sia per la progettazione dei sistemi che dei modelli. Dal punto di vista dei sistemi, forniamo una caratterizzazione completa del cluster e delle reti: micro-benchmark per tutte le operazioni collettive fondamentali (all-reduce, reduce-scatter, all-gather, broadcast) su diverse dimensioni dei messaggi e numeri di GPU su Pollara. A nostra conoscenza, questo è il primo studio di questa portata. Forniamo inoltre micro-benchmark MI300X sulla dimensione dei kernel e sulla larghezza di banda della memoria per orientare la progettazione del modello. Sul versante modellistico, introduciamo e applichiamo regole di dimensionamento per transformer ottimizzate per MI300X per i blocchi di attention e MLP, e giustifichiamo ampiezze MoE che ottimizzano congiuntamente il throughput di addestramento e la latenza di inferenza. Descriviamo in profondità il nostro stack di addestramento, includendo utility spesso trascurate come la tolleranza ai guasti e il rimodellamento dei checkpoint, oltre a informazioni dettagliate sulla nostra ricetta di addestramento. Forniamo anche un'anteprima della nostra architettura di modello e del modello base - ZAYA1 (760M parametri attivi, 8.3B parametri totali MoE) - che sarà ulteriormente migliorato nei prossimi articoli. ZAYA1-base raggiunge prestazioni paragonabili a modelli base leader come Qwen3-4B e Gemma3-12B della sua scala e superiori, e supera modelli tra cui Llama-3-8B e OLMoE in benchmark di ragionamento, matematica e coding. Nel complesso, questi risultati dimostrano che l'hardware AMD, la rete e lo stack software sono sufficientemente maturi e ottimizzati per un pre-addestramento competitivo su larga scala.
Le mappe di salienza sono ampiamente utilizzate per le spiegazioni visive nell'ambito del deep learning, ma persiste una fondamentale mancanza di consenso riguardo al loro scopo inteso e all'allineamento con le diverse query degli utenti. Questa ambiguità ostacola la valutazione efficace e l'utilità pratica dei metodi esplicativi. Affrontiamo questa lacuna introducendo la tassonomia Reference-Frame per Granularità (RFxG), un quadro concettuale principiato che organizza le spiegazioni di salienza lungo due assi essenziali: * **Reference-Frame (Quadro di Riferimento):** Distingue tra spiegazioni puntuali ("Perché questa previsione?") e contrastive ("Perché questo e non un'alternativa?"). * **Granularità:** Spazia da interpretazioni a grana fine a livello di classe (ad es., "Perché Husky?") a interpretazioni a grana grossa a livello di gruppo (ad es., "Perché Cane?"). Utilizzando la lente RFxG, dimostriamo limitazioni critiche nelle metriche di valutazione esistenti, che privilegiano in modo schiacciante la fedeltà puntuale trascurando il ragionamento contrastivo e la granularità semantica. Per valutare sistematicamente la qualità delle spiegazioni lungo entrambe le dimensioni RFxG, proponiamo quattro nuove metriche di fedeltà. La nostra struttura di valutazione completa applica queste metrici a dieci metodi di salienza all'avanguardia, quattro architetture di modelli e tre dataset. Promuovendo un cambiamento verso una valutazione guidata dall'intento dell'utente, il nostro lavoro fornisce sia le basi concettuali che gli strumenti pratici necessari per sviluppare spiegazioni visive che non solo sono fedeli al comportamento del modello sottostante, ma sono anche significativamente allineate con la complessità della comprensione e dell'indagine umana.