Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo 4KAgent, un sistema generalista unificato per la super-risoluzione agentica progettato per aumentare universalmente qualsiasi immagine alla risoluzione 4K (e anche superiore, se applicato in modo iterativo). Il nostro sistema è in grado di trasformare immagini con risoluzioni estremamente basse e gravi degradazioni, ad esempio input altamente distorti a 256x256, in output 4K nitidi e fotorealistici. 4KAgent è composto da tre componenti principali: (1) Profiling, un modulo che personalizza la pipeline di 4KAgent in base a casi d'uso specifici; (2) Un Agente di Percezione, che sfrutta modelli visione-linguaggio insieme a esperti di valutazione della qualità dell'immagine per analizzare l'immagine di input e creare un piano di ripristino su misura; e (3) Un Agente di Ripristino, che esegue il piano seguendo un paradigma di esecuzione-riflessione ricorsivo, guidato da una politica di miscela di esperti orientata alla qualità per selezionare l'output ottimale per ogni fase. Inoltre, 4KAgent include una pipeline specializzata per il ripristino dei volti, migliorando significativamente i dettagli facciali nelle foto ritratto e selfie. Valutiamo rigorosamente il nostro 4KAgent su 11 categorie di task distinte, comprendenti un totale di 26 benchmark diversi, stabilendo nuovi state-of-the-art in un'ampia gamma di domini di imaging. Le nostre valutazioni coprono immagini naturali, foto ritratto, contenuti generati da IA, immagini satellitari, microscopia a fluorescenza e imaging medico come fundoscopia, ecografia e raggi X, dimostrando prestazioni superiori sia in termini di metriche percettuali (ad esempio, NIQE, MUSIQ) che di fedeltà (ad esempio, PSNR). Stabilendo un nuovo paradigma agentico per task di visione di basso livello, miriamo a catalizzare un interesse più ampio e l'innovazione all'interno di agenti autonomi centrati sulla visione in diverse comunità di ricerca. Rilasceremo tutto il codice, i modelli e i risultati su: https://4kagent.github.io.
Presentiamo Skywork-R1V3, un avanzato modello visione-linguaggio (VLM) open-source che introduce un nuovo approccio al ragionamento visivo. La sua innovazione chiave risiede nel trasferire efficacemente le capacità di ragionamento dai modelli linguistici di grandi dimensioni (LLM) basati esclusivamente su testo ai compiti visivi. L'eccellente prestazione di Skywork-R1V3 deriva principalmente dal nostro sofisticato framework di post-addestramento RL, che attiva e potenzia in modo efficace la capacità di ragionamento del modello, senza la necessità di ulteriori fasi di pre-addestramento. Attraverso questo framework, scopriamo ulteriormente il ruolo fondamentale del modulo connettore nel raggiungere un solido allineamento cross-modale per i modelli di ragionamento multimodale. Inoltre, introduciamo un indicatore unico della capacità di ragionamento, l'entropia dei token critici di ragionamento, che si è dimostrato altamente efficace per la selezione dei checkpoint durante l'addestramento RL. Skywork-R1V3 raggiunge risultati all'avanguardia su MMMU, migliorando significativamente dal 64,3% al 76,0%. Questa prestazione eguaglia le capacità umane di livello base. Notevolmente, il nostro approccio di post-addestramento basato su RL consente persino al modello da 38B parametri di competere con i migliori VLM closed-source. L'implementazione trasferisce con successo il ragionamento matematico ad altri compiti di ragionamento legati a materie specifiche. Includiamo anche un'analisi delle strategie di curriculum learning e di fine-tuning con rinforzo, insieme a una discussione più ampia sul ragionamento multimodale. Skywork-R1V3 rappresenta un salto significativo nel ragionamento multimodale, dimostrando che l'RL è un potente motore per avanzare le capacità dei VLM open-source.
Sebbene le capacità di memoria degli agenti di IA stiano attirando un'attenzione crescente, le soluzioni esistenti rimangono fondamentalmente limitate. La maggior parte si affida a componenti di memoria piatti e con un ambito ristretto, limitando la loro capacità di personalizzare, astrarre e richiamare in modo affidabile informazioni specifiche dell'utente nel tempo. A tal fine, introduciamo MIRIX, un sistema di memoria modulare e multi-agente che ridefinisce il futuro della memoria dell'IA risolvendo la sfida più critica del settore: consentire ai modelli linguistici di ricordare veramente. A differenza degli approcci precedenti, MIRIX trascende il testo per abbracciare esperienze visive e multimodali ricche, rendendo la memoria genuinamente utile in scenari reali. MIRIX è composto da sei tipi di memoria distinti e accuratamente strutturati: Core, Episodica, Semantica, Procedurale, Memoria delle Risorse e Knowledge Vault, abbinati a un framework multi-agente che controlla e coordina dinamicamente aggiornamenti e recupero. Questo design consente agli agenti di persistere, ragionare e recuperare con precisione dati utente diversificati e a lungo termine su larga scala. Validiamo MIRIX in due contesti impegnativi. Innanzitutto, su ScreenshotVQA, un benchmark multimodale complesso che comprende quasi 20.000 screenshot di computer ad alta risoluzione per sequenza, che richiede una profonda comprensione contestuale e dove nessun sistema di memoria esistente può essere applicato, MIRIX raggiunge un'accuratezza del 35% superiore rispetto alla baseline RAG riducendo i requisiti di archiviazione del 99,9%. In secondo luogo, su LOCOMO, un benchmark di conversazione a lungo termine con input testuale a modalità singola, MIRIX raggiunge una performance all'avanguardia dell'85,4%, superando di gran lunga le baseline esistenti. Questi risultati dimostrano che MIRIX stabilisce un nuovo standard di prestazione per gli agenti LLM potenziati dalla memoria. Per consentire agli utenti di sperimentare il nostro sistema di memoria, forniamo un'applicazione confezionata alimentata da MIRIX. Monitora lo schermo in tempo reale, costruisce una base di memoria personalizzata e offre una visualizzazione intuitiva e un archivio locale sicuro per garantire la privacy.
Generare sequenze di movimento umano diversificate e naturali basate su descrizioni testuali costituisce un'area di ricerca fondamentale e impegnativa nei domini della visione artificiale, della grafica e della robotica. Nonostante i significativi progressi in questo campo, le metodologie attuali spesso affrontano sfide riguardanti le capacità di generalizzazione zero-shot, attribuibili principalmente alle dimensioni limitate dei dataset di addestramento. Inoltre, la mancanza di un framework di valutazione completo ostacola l'avanzamento di questo compito, poiché non identifica le direzioni per il miglioramento. In questo lavoro, miriamo a portare la generazione di movimento da testo in una nuova era, ovvero a raggiungere la capacità di generalizzazione zero-shot. A tal fine, in primo luogo, sviluppiamo una pipeline di annotazione efficiente e introduciamo MotionMillion, il più grande dataset di movimento umano fino ad oggi, con oltre 2.000 ore e 2 milioni di sequenze di movimento di alta qualità. Inoltre, proponiamo MotionMillion-Eval, il benchmark più completo per la valutazione della generazione di movimento zero-shot. Sfruttando un'architettura scalabile, ridimensioniamo il nostro modello a 7 miliardi di parametri e ne validiamo le prestazioni su MotionMillion-Eval. I nostri risultati dimostrano una forte generalizzazione a movimenti fuori dominio e composizionali complessi, segnando un passo significativo verso la generazione di movimento umano zero-shot. Il codice è disponibile all'indirizzo https://github.com/VankouF/MotionMillion-Codes.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato una strategia altamente efficace per dotare i Modelli Linguistici di Grande Scala (LLMs) di robuste capacità di ragionamento multi-step. Tuttavia, il suo design e le sue ottimizzazioni rimangono adattati a domini puramente testuali, risultando in prestazioni subottimali quando applicati a compiti di ragionamento multimodale. In particolare, osserviamo che una delle principali fonti di errore nel ragionamento multimodale attuale risiede nella percezione degli input visivi. Per affrontare questo collo di bottiglia, proponiamo la Perception-Aware Policy Optimization (PAPO), un'estensione semplice ma efficace di GRPO che incoraggia il modello a imparare a percepire mentre impara a ragionare, interamente da segnali di supervisione interni. È importante notare che PAPO non si affida a ulteriori operazioni di curatela dei dati, modelli di ricompensa esterni o modelli proprietari. Nello specifico, introduciamo la Perdita di Percezione Implicita sotto forma di un termine di divergenza KL nell'obiettivo GRPO, che, nonostante la sua semplicità, produce miglioramenti complessivi significativi (4.4%) su benchmark multimodali diversificati. I miglioramenti sono più pronunciati, avvicinandosi all'8.0%, su compiti con alta dipendenza visiva. Osserviamo anche una sostanziale riduzione (30.5%) degli errori di percezione, indicando capacità percettive migliorate con PAPO. Conduciamo un'analisi completa di PAPO e identifichiamo un problema unico di "loss hacking", che analizziamo rigorosamente e mitigiamo attraverso una Double Entropy Loss. Nel complesso, il nostro lavoro introduce un'integrazione più profonda della supervisione consapevole della percezione negli obiettivi di apprendimento RLVR e getta le basi per un nuovo framework RL che incoraggia il ragionamento basato su elementi visivi. Pagina del progetto: https://mikewangwzhl.github.io/PAPO.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente ottenuto un successo significativo nei benchmark di generazione di codice come HumanEval e LiveCodeBench. Tuttavia, un esame dettagliato rivela che queste suite di valutazione spesso comprendono solo un numero limitato di casi di test omogenei, con il risultato che difetti sottili passano inosservati. Ciò non solo infla artificialmente le prestazioni misurate, ma compromette anche una stima accurata della ricompensa nei framework di apprendimento per rinforzo che utilizzano ricompense verificabili (RLVR). Per affrontare queste criticità, investigiamo sistematicamente il compito di generazione di casi di test (TCG) proponendo metriche multidimensionali progettate per quantificare rigorosamente la completezza delle suite di test. Inoltre, introduciamo un metodo collaborativo uomo-LLM (SAGA), che sfrutta l'esperienza di programmazione umana e la capacità di ragionamento degli LLM, con l'obiettivo di migliorare significativamente sia la copertura che la qualità dei casi di test generati. In aggiunta, sviluppiamo un TCGBench per facilitare lo studio del compito TCG. Gli esperimenti mostrano che SAGA raggiunge un tasso di rilevamento del 90,62% e un'accuratezza del verificatore del 32,58% su TCGBench. L'accuratezza del verificatore (Verifier Acc) del benchmark di valutazione della generazione di codice sintetizzato da SAGA è del 10,78% superiore rispetto a quella di LiveCodeBench-v6. Questi risultati dimostrano l'efficacia del metodo proposto. Speriamo che questo lavoro contribuisca a costruire una base scalabile per una valutazione affidabile del codice generato da LLM, avanzando ulteriormente l'RLVR nella generazione di codice e aprendo la strada alla sintesi automatizzata di test avversari e all'integrazione adattativa dei benchmark.
Lo sviluppo di kernel nell'ambito del deep learning richiede l'ottimizzazione delle unità computazionali su diversi hardware, bilanciando la gestione della memoria, il parallelismo e le ottimizzazioni specifiche per l'hardware attraverso un'ampia sintonizzazione empirica. Sebbene linguaggi specifici per dominio come Triton semplifichino la programmazione GPU astraendo i dettagli di basso livello, gli sviluppatori devono comunque sintonizzare manualmente parametri critici come le dimensioni dei tile e i pattern di accesso alla memoria attraverso sperimentazioni iterative, creando ostacoli significativi alle prestazioni ottimali e a una più ampia adozione. In questo lavoro, introduciamo AutoTriton, il primo modello dedicato alla programmazione Triton basato sull'apprendimento per rinforzo (RL). AutoTriton esegue un fine-tuning supervisionato (SFT) per acquisire competenze essenziali nella programmazione Triton utilizzando una pipeline di raccolta dati di alta qualità, e conduce l'RL con l'algoritmo Group Relative Policy Optimization (GRPO), combinando una ricompensa basata su regole e una ricompensa basata sull'esecuzione per migliorare ulteriormente, in modo sequenziale, le capacità di programmazione Triton. Esperimenti condotti su cinque canali di valutazione di TritonBench e KernelBench dimostrano che il nostro modello da 8B, AutoTriton, raggiunge prestazioni paragonabili ai principali modelli di grandi dimensioni, inclusi Claude-4-Sonnet e DeepSeek-R1-0528. Un'ulteriore analisi sperimentale evidenzia il ruolo cruciale di ciascun modulo all'interno di AutoTriton, inclusa la fase SFT, la fase RL e la strategia di progettazione delle ricompense. Questi risultati sottolineano il potenziale dell'RL per la generazione automatica di kernel ad alte prestazioni, e poiché i kernel ad alte prestazioni sono componenti fondamentali dei sistemi di intelligenza artificiale, questa svolta stabilisce una base importante per la costruzione di sistemi AI più efficienti. Il modello e il codice saranno disponibili su https://github.com/AI9Stars/AutoTriton.
Il Reinforcement Learning da Ricompense Verificabili (RLVR) migliora le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), ma incontra difficoltà con un'esplorazione instabile. Proponiamo FR3E (First Return, Entropy-Eliciting Explore), un framework strutturato di esplorazione che identifica punti decisionali ad alta incertezza nelle traiettorie di ragionamento e esegue rollouts mirati per costruire feedback intermedi semanticamente fondati. Il nostro metodo fornisce una guida mirata senza fare affidamento su una supervisione densa. I risultati empirici sui benchmark di ragionamento matematico (AIME24) dimostrano che FR3E promuove un addestramento più stabile, produce risposte più lunghe e coerenti e aumenta la proporzione di traiettorie completamente corrette. Questi risultati evidenziano l'efficacia del framework nel migliorare il ragionamento dei LLM attraverso un'esplorazione più robusta e strutturata.
I Transformer affrontano complessità quadratica e problemi di memoria con sequenze lunghe, portando all'adozione di meccanismi di attenzione lineare che utilizzano stati nascosti di dimensione fissa. Tuttavia, i modelli lineari spesso soffrono di prestazioni di richiamo limitate, dando origine ad architetture ibride che combinano strati di attenzione lineare e completa. Nonostante l'ampia ricerca sulle architetture ibride, la scelta del componente di attenzione lineare non è stata approfondita. Valutiamo sistematicamente vari modelli di attenzione lineare attraverso diverse generazioni - dalle ricorrenze vettoriali ai meccanismi di gating avanzati - sia in modalità autonoma che ibrida. Per consentire questa analisi completa, abbiamo addestrato e reso disponibili 72 modelli: 36 con 340M di parametri (20B token) e 36 con 1.3B di parametri (100B token), coprendo sei varianti di attenzione lineare attraverso cinque rapporti di ibridazione. Il benchmarking su compiti standard di modellazione del linguaggio e di richiamo rivela che i modelli lineari autonomi superiori non necessariamente eccellono nelle configurazioni ibride. Mentre la modellazione del linguaggio rimane stabile attraverso i rapporti di attenzione lineare-completa, il richiamo migliora significativamente con l'aumento degli strati di attenzione completa, in particolare al di sotto di un rapporto 3:1. Il nostro studio evidenzia il gating selettivo, la ricorrenza gerarchica e l'oblio controllato come elementi critici per modelli ibridi efficaci. Raccomandiamo architetture come HGRN-2 o GatedDeltaNet con un rapporto lineare-completo tra 3:1 e 6:1 per ottenere un richiamo a livello Transformer in modo efficiente. I nostri modelli sono disponibili su https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
Il Teorema Automatico (ATP) nei linguaggi formali rappresenta una sfida fondamentale per l'IA. Sebbene i Modelli Linguistici di Grande Scala (LLMs) abbiano portato a progressi notevoli, rimane un divario significativo tra le loro potenti capacità di ragionamento informale e le loro deboli prestazioni nelle dimostrazioni formali. Studi recenti mostrano che l'accuratezza informale supera l'80%, mentre il successo formale rimane al di sotto dell'8% su benchmark come PutnamBench. Sosteniamo che questo divario persista perché i dimostratori all'avanguardia attuali, accoppiando strettamente ragionamento e dimostrazione, vengono addestrati con paradigmi che puniscono involontariamente il ragionamento profondo a favore di strategie superficiali basate su tattiche. Per colmare questo divario fondamentale, proponiamo un nuovo framework che separa il ragionamento di alto livello dalla generazione di dimostrazioni di basso livello. Il nostro approccio utilizza due modelli distinti e specializzati: un potente Ragionatore generico per generare lemmi subobiettivo strategici e diversificati, e un efficiente Dimostratore per verificarli rigorosamente. Questo design modulare libera il pieno potenziale di ragionamento del modello e aggira le insidie dell'addestramento end-to-end. Valutiamo il nostro metodo su un insieme impegnativo di problemi IMO post-2000, un set di problemi su cui nessun dimostratore open-source precedente ha riportato successo. Il nostro framework disaccoppiato risolve con successo 5 di questi problemi, dimostrando un passo significativo verso il ragionamento automatico su sfide matematiche eccezionalmente difficili. Per favorire la ricerca futura, rilasciamo il nostro dataset completo di lemmi generati e verificati per una vasta gamma di problemi IMO, disponibile all'indirizzo https://tencent-imo.github.io/.
Il rapido progresso dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha aperto la strada ai paradigmi Visione-Linguaggio-Azione (VLA), che integrano percezione visiva, comprensione del linguaggio naturale e controllo all'interno di una singola policy. I ricercatori nel campo della guida autonoma stanno attivamente adattando questi metodi al dominio veicolare. Tali modelli promettono veicoli autonomi in grado di interpretare istruzioni di alto livello, ragionare su scenari di traffico complessi e prendere decisioni autonome. Tuttavia, la letteratura rimane frammentata e si sta espandendo rapidamente. Questa survey offre la prima panoramica completa dei VLA per la Guida Autonoma (VLA4AD). Noi (i) formalizziamo i blocchi costitutivi architetturali condivisi dai lavori recenti, (ii) tracciamo l'evoluzione dai primi modelli esplicativi ai modelli VLA centrati sul ragionamento, e (iii) confrontiamo oltre 20 modelli rappresentativi in base ai progressi dei VLA nel dominio della guida autonoma. Consolidiamo inoltre i dataset e i benchmark esistenti, evidenziando i protocolli che misurano congiuntamente sicurezza di guida, accuratezza e qualità delle spiegazioni. Infine, dettagliamo le sfide aperte - robustezza, efficienza in tempo reale e verifica formale - e delineiamo le direzioni future dei VLA4AD. Questa survey fornisce un riferimento conciso ma completo per avanzare verso veicoli autonomi interpretabili e allineati socialmente. Il repository Github è disponibile all'indirizzo https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
I recenti progressi nella modellazione del linguaggio hanno dimostrato l'efficacia dei Modelli a Spazio di Stati (SSM) per la modellazione efficiente di sequenze. Sebbene architetture ibride come Samba e l'architettura decoder-decoder, YOCO, abbiano mostrato promettenti miglioramenti delle prestazioni rispetto ai Transformer, i lavori precedenti non hanno esplorato il potenziale di efficienza derivante dalla condivisione delle rappresentazioni tra i livelli SSM. In questo articolo, introduciamo l'Unità di Memoria Controllata (GMU), un meccanismo semplice ma efficace per la condivisione efficiente della memoria tra i livelli. Lo applichiamo per creare SambaY, un'architettura decoder-ibrido-decoder che incorpora GMU nel cross-decoder per condividere gli stati di lettura della memoria da un self-decoder basato su Samba. SambaY migliora significativamente l'efficienza di decodifica, preserva la complessità temporale lineare del pre-riempimento e potenzia le prestazioni su contesti lunghi, tutto ciò eliminando la necessità di codifica posizionale esplicita. Attraverso esperimenti di scalabilità estensivi, dimostriamo che il nostro modello presenta una perdita irriducibile significativamente inferiore rispetto a un solido baseline YOCO, indicando una superiore scalabilità delle prestazioni in regimi di calcolo su larga scala. Il nostro modello più grande, potenziato con Attenzione Differenziale, Phi4-mini-Flash-Reasoning, ottiene prestazioni significativamente migliori rispetto a Phi4-mini-Reasoning su compiti di ragionamento come Math500, AIME24/25 e GPQA Diamond senza alcun apprendimento per rinforzo, fornendo fino a 10 volte maggiore throughput di decodifica su prompt di lunghezza 2K con una lunghezza di generazione di 32K nel framework di inferenza vLLM. Rilasciamo il nostro codice di addestramento su dati open-source all'indirizzo https://github.com/microsoft/ArchScale.
L'elucidazione della struttura molecolare a partire dagli spettri è un problema fondamentale in chimica, con profonde implicazioni per l'identificazione dei composti, la sintesi e lo sviluppo di farmaci. I metodi tradizionali si basano fortemente sull'interpretazione degli esperti e mancano di scalabilità. I metodi pionieristici di machine learning hanno introdotto strategie basate sul recupero, ma la loro dipendenza da librerie finite limita la generalizzazione a molecole nuove. I modelli generativi offrono un'alternativa promettente, tuttavia la maggior parte adotta architetture autoregressive basate su SMILES che trascurano la geometria 3D e faticano a integrare modalità spettrali diverse. In questo lavoro, presentiamo DiffSpectra, un framework generativo che inferisce direttamente sia strutture molecolari 2D che 3D da dati spettrali multi-modali utilizzando modelli di diffusione. DiffSpectra formula l'elucidazione della struttura come un processo di generazione condizionata. La sua rete di denoising è parametrizzata da Diffusion Molecule Transformer, un'architettura SE(3)-equivariante che integra informazioni topologiche e geometriche. Il condizionamento è fornito da SpecFormer, un encoder spettrale basato su transformer che cattura le dipendenze intra- e inter-spettrali da spettri multi-modali. Esperimenti estensivi dimostrano che DiffSpectra raggiunge un'elevata accuratezza nell'elucidazione della struttura, recuperando strutture esatte con un'accuratezza top-1 del 16,01% e un'accuratezza top-20 del 96,86% attraverso il campionamento. Il modello beneficia significativamente della modellazione geometrica 3D, del pre-training di SpecFormer e del condizionamento multi-modale. Questi risultati evidenziano l'efficacia della modellazione di diffusione condizionata agli spettri nell'affrontare la sfida dell'elucidazione della struttura molecolare. A nostra conoscenza, DiffSpectra è il primo framework a unificare il ragionamento spettrale multi-modale e la modellazione generativa congiunta 2D/3D per l'elucidazione de novo della struttura molecolare.
Il ragionamento su contesti lunghi richiede l'identificazione accurata di informazioni rilevanti in input estesi e rumorosi. Ricerche precedenti dimostrano che l'utilizzo dell'apprendimento al momento del test per codificare direttamente il contesto nei parametri del modello può abilitare efficacemente il ragionamento su informazioni rumorose. Tuttavia, i metodi di meta-apprendimento per abilitare l'apprendimento al momento del test sono eccessivamente intensivi in termini di memoria, impedendo la loro applicazione a contesti lunghi. In questo lavoro, proponiamo PERK (Parameter Efficient Reasoning over Knowledge), un approccio scalabile per apprendere a codificare contesti di input lunghi utilizzando aggiornamenti del gradiente a un adattatore leggero al momento del test. Nello specifico, PERK impiega due cicli di ottimizzazione annidati in una fase di meta-addestramento. Il ciclo interno codifica rapidamente i contesti in un adattatore a basso rango (LoRA) che funge da modulo di memoria efficiente in termini di parametri per il modello base. Contemporaneamente, il ciclo esterno apprende a utilizzare l'adattatore aggiornato per richiamare e ragionare accuratamente sulle informazioni rilevanti dal contesto lungo codificato. Le nostre valutazioni su diversi compiti di ragionamento su contesti lunghi mostrano che PERK supera significativamente la baseline standard basata su prompt per contesti lunghi, ottenendo miglioramenti assoluti medi delle prestazioni fino al 90% per modelli più piccoli (GPT-2) e fino al 27% per il nostro modello più grande valutato, Qwen-2.5-0.5B. In generale, PERK è più robusto rispetto alla complessità del ragionamento, all'estrapolazione della lunghezza e alle posizioni delle informazioni rilevanti nei contesti. Infine, dimostriamo che, sebbene PERK sia intensivo in termini di memoria durante l'addestramento, scala in modo più efficiente al momento dell'inferenza rispetto all'inferenza basata su prompt per contesti lunghi.
Introduciamo FlexOlmo, una nuova classe di modelli linguistici (LM) che supporta (1) l'addestramento distribuito senza condivisione di dati, dove diversi parametri del modello vengono addestrati in modo indipendente su dataset chiusi, e (2) l'inferenza flessibile rispetto ai dati, dove questi parametri insieme ai loro dati associati possono essere inclusi o esclusi in modo flessibile dalle inferenze del modello senza ulteriore addestramento. FlexOlmo utilizza un'architettura mixture-of-experts (MoE) in cui ogni esperto viene addestrato in modo indipendente su dataset chiusi e successivamente integrato attraverso un nuovo routing informato dal dominio senza alcun addestramento congiunto. FlexOlmo viene addestrato su FlexMix, un corpus che abbiamo curato comprendente dataset pubblicamente disponibili insieme a sette insiemi specifici per dominio, rappresentanti approssimazioni realistiche di set chiusi. Valutiamo modelli con fino a 37 miliardi di parametri (20 miliardi attivi) su 31 task downstream diversi. Mostriamo che un esperto generale addestrato su dati pubblici può essere efficacemente combinato con esperti addestrati in modo indipendente da altri proprietari di dati, portando a un miglioramento relativo medio del 41% consentendo agli utenti di rinunciare a determinati dati in base ai requisiti di licenza o permesso dei dati. Il nostro approccio supera anche i precedenti metodi di fusione di modelli del 10,1% in media e supera il MoE standard addestrato senza restrizioni sui dati utilizzando gli stessi FLOP di addestramento. Nel complesso, questa ricerca presenta una soluzione sia per i proprietari di dati che per i ricercatori in settori regolamentati con dati sensibili o protetti. FlexOlmo consente di trarre vantaggio dai dati chiusi rispettando le preferenze dei proprietari di dati mantenendo i loro dati locali e supportando un controllo granulare dell'accesso ai dati durante l'inferenza.
Nonostante i progressi nel ragionamento video basato sull'apprendimento per rinforzo (RL) con modelli linguistici di grandi dimensioni (LLM), la raccolta dei dati e il fine-tuning rimangono sfide significative. Questi metodi spesso si basano su un fine-tuning supervisionato su larga scala (SFT) con ampi set di dati video e lunghe annotazioni a catena di pensiero (CoT), rendendoli costosi e difficili da scalare. Per affrontare questo problema, presentiamo Video-RTS, un nuovo approccio per migliorare la capacità di ragionamento video con un'efficienza dei dati drasticamente migliorata, combinando un RL efficiente dal punto di vista dei dati con una strategia di ridimensionamento adattivo al momento del test (TTS) per i video. Sulla base di osservazioni riguardanti la scalabilità dei dati dei campioni di RL, saltiamo il passo ad alta intensità di risorse del SFT e utilizziamo un addestramento RL puro ed efficiente con ricompense basate sull'output, senza richiedere ulteriori annotazioni o un esteso fine-tuning. Inoltre, per utilizzare le risorse computazionali in modo più efficiente, introduciamo una strategia TTS video da sparso a denso che migliora l'inferenza aggiungendo iterativamente frame in base alla coerenza dell'output. Validiamo il nostro approccio su più benchmark di ragionamento video, dimostrando che Video-RTS supera i modelli esistenti di ragionamento video di una media del 2,4% in accuratezza utilizzando solo il 3,6% dei campioni di addestramento. Ad esempio, Video-RTS ottiene un miglioramento del 4,2% su Video-Holmes, un recente e impegnativo benchmark di ragionamento video, e un miglioramento del 2,6% su MMVU. È importante notare che il nostro addestramento RL puro e il TTS video adattivo offrono punti di forza complementari, consentendo a Video-RTS di ottenere prestazioni di ragionamento solide.
Il rilevamento automatico del linguaggio tossico è fondamentale per creare spazi online sicuri e inclusivi. Tuttavia, si tratta di un compito altamente soggettivo, in cui le percezioni del linguaggio tossico sono influenzate dalle norme comunitarie e dalle esperienze vissute. I modelli esistenti per il rilevamento della tossicità sono tipicamente addestrati su annotazioni che condensano le diverse prospettive degli annotatori in un'unica verità di riferimento, cancellando importanti nozioni contestuali di tossicità come il linguaggio reclamato. Per affrontare questo problema, introduciamo MODELCITIZENS, un dataset composto da 6.8K post sui social media e 40K annotazioni di tossicità attraverso diversi gruppi identitari. Per catturare il ruolo del contesto conversazionale sulla tossicità, tipico dei post sui social media, abbiamo arricchito i post di MODELCITIZENS con scenari conversazionali generati da LLM. Gli strumenti all'avanguardia per il rilevamento della tossicità (ad esempio, OpenAI Moderation API, GPT-o4-mini) ottengono prestazioni inferiori su MODELCITIZENS, con un ulteriore peggioramento sui post arricchiti dal contesto. Infine, rilasciamo LLAMACITIZEN-8B e GEMMACITIZEN-12B, modelli basati su LLaMA e Gemma ottimizzati su MODELCITIZENS, che superano GPT-o4-mini del 5.5% nelle valutazioni in-distribuzione. I nostri risultati evidenziano l'importanza di annotazioni e modellazioni informate dalla comunità per una moderazione dei contenuti inclusiva. I dati, i modelli e il codice sono disponibili su https://github.com/asuvarna31/modelcitizens.
Nova Premier è il modello fondazionale multimodale più avanzato di Amazon e funge da insegnante per la distillazione di modelli. Elabora testo, immagini e video con una finestra contestuale di un milione di token, consentendo l'analisi di grandi codebase, documenti di 400 pagine e video di 90 minuti in un singolo prompt. Presentiamo la prima valutazione completa del profilo di rischio critico di Nova Premier nell'ambito del Frontier Model Safety Framework. Le valutazioni si concentrano su tre domini ad alto rischio: Chimico, Biologico, Radiologico e Nucleare (CBRN), Operazioni Informatiche Offensive e Sviluppo Automatizzato dell'IA, combinando benchmark automatizzati, red-teaming di esperti e studi di miglioramento per determinare se il modello supera le soglie di rilascio. Riassumiamo la nostra metodologia e riportiamo i risultati principali. Sulla base di questa valutazione, riteniamo che Nova Premier sia sicuro per il rilascio pubblico, in linea con gli impegni assunti al Vertice sulla Sicurezza dell'IA di Parigi del 2025. Continueremo a migliorare le nostre pipeline di valutazione e mitigazione della sicurezza man mano che vengono identificati nuovi rischi e capacità associati ai modelli di frontiera.
La ricerca sulla chirurgia autonoma si è concentrata principalmente sull'automazione di compiti semplici in ambienti controllati. Tuttavia, le applicazioni chirurgiche nel mondo reale richiedono una manipolazione abile per periodi prolungati e la generalizzazione alla variabilità intrinseca dei tessuti umani. Queste sfide rimangono difficili da affrontare utilizzando approcci esistenti basati sulla logica o sull'apprendimento end-to-end convenzionale. Per colmare questa lacuna, proponiamo un framework gerarchico per eseguire passaggi chirurgici abili e a lungo termine. Il nostro approccio utilizza una politica di alto livello per la pianificazione dei compiti e una politica di basso livello per la generazione di traiettorie del robot. Il pianificatore di alto livello opera nello spazio linguistico, generando istruzioni a livello di compito o correttive che guidano il robot attraverso i passaggi a lungo termine e correggono gli errori della politica di basso livello. Validiamo il nostro framework attraverso esperimenti ex vivo sulla colecistectomia, una procedura minimamente invasiva comunemente praticata, e conduciamo studi di ablazione per valutare i componenti chiave del sistema. Il nostro metodo raggiunge un tasso di successo del 100% su otto cistifellee ex vivo mai viste, operando in modo completamente autonomo senza intervento umano. Questo lavoro dimostra l'autonomia a livello di passaggio in una procedura chirurgica, segnando una pietra miliare verso il dispiegamento clinico di sistemi chirurgici autonomi.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno reso possibile la capacità di rispondere a domande basate su immagini. Tuttavia, una limitazione chiave è l'uso di CLIP come codificatore visivo; sebbene possa catturare informazioni globali approssimative, spesso può perdere dettagli fini che sono rilevanti per la query di input. Per affrontare queste carenze, questo lavoro studia se i modelli di diffusione pre-addestrati da testo a immagine possano fungere da codificatori visivi sensibili alle istruzioni. Attraverso un'analisi delle loro rappresentazioni interne, scopriamo che le caratteristiche di diffusione sono sia ricche di semantica che in grado di codificare un forte allineamento immagine-testo. Inoltre, troviamo che possiamo sfruttare il condizionamento del testo per focalizzare il modello sulle regioni rilevanti per la domanda di input. Successivamente, indaghiamo su come allineare queste caratteristiche con i modelli linguistici di grandi dimensioni e scopriamo un fenomeno di dispersione, in cui l'LLM può recuperare involontariamente informazioni dal prompt di diffusione originale. Analizziamo le cause di questa dispersione e proponiamo una strategia di mitigazione. Sulla base di queste intuizioni, esploriamo una semplice strategia di fusione che utilizza sia le caratteristiche di CLIP che quelle di diffusione condizionale. Valutiamo il nostro approccio su benchmark generali di VQA e su benchmark specializzati di MLLM, dimostrando il potenziale dei modelli di diffusione per la comprensione visiva, in particolare nei task centrati sulla visione che richiedono ragionamento spaziale e compositivo. La pagina del nostro progetto è disponibile all'indirizzo https://vatsalag99.github.io/mustafar/.
I grandi modelli linguistici (LLM) e i loro classificatori di sicurezza spesso hanno prestazioni scarse nelle lingue a bassa risorsa a causa della limitata disponibilità di dati di addestramento e benchmark di valutazione. Questo articolo introduce RabakBench, un nuovo benchmark di sicurezza multilingue localizzato nel contesto linguistico unico di Singapore, che copre Singlish, cinese, malese e tamil. RabakBench è costruito attraverso una pipeline scalabile in tre fasi: (i) Generazione - creazione di esempi avversari aumentando contenuti web reali in Singlish con tecniche di red teaming guidate da LLM; (ii) Etichettatura - annotazione semi-automatizzata multi-etichetta di sicurezza utilizzando classificatori LLM con voto a maggioranza allineati ai giudizi umani; e (iii) Traduzione - traduzione ad alta fedeltà che preserva le sfumature linguistiche e la tossicità tra le lingue. Il dataset finale comprende oltre 5.000 esempi etichettati per la sicurezza in quattro lingue e sei categorie di sicurezza granulari con livelli di gravità. Le valutazioni di 11 popolari classificatori di sicurezza open-source e closed-source rivelano un significativo degrado delle prestazioni. RabakBench non solo consente una valutazione robusta della sicurezza in contesti multilingue del Sud-est asiatico, ma offre anche un framework riproducibile per la creazione di dataset di sicurezza localizzati in ambienti a bassa risorsa. Il benchmark, incluse le traduzioni verificate da esseri umani, e il codice di valutazione sono pubblicamente disponibili.
La proliferazione di meme multimodali nell'era dei social media richiede che i Modelli Linguistici Multimodali di Grande Dimensione (mLLM) comprendano efficacemente la dannosità dei meme. Gli attuali benchmark per valutare gli mLLM nella comprensione dei meme dannosi si basano su valutazioni agnostiche al modello e orientate all'accuratezza, utilizzando dataset statici. Questi benchmark sono limitati nella loro capacità di fornire valutazioni aggiornate e approfondite, poiché i meme online evolvono dinamicamente. Per affrontare questo problema, proponiamo AdamMeme, un framework di valutazione flessibile e basato su agenti che esplora in modo adattivo le capacità di ragionamento degli mLLM nel decifrare la dannosità dei meme. Attraverso la collaborazione multi-agente, AdamMeme fornisce valutazioni complete aggiornando iterativamente i dati dei meme con campioni complessi, esponendo così specifiche limitazioni nel modo in cui gli mLLM interpretano la dannosità. Esperimenti estesi dimostrano che il nostro framework rivela sistematicamente le prestazioni variabili di diversi mLLM target, offrendo analisi approfondite e granulari delle debolezze specifiche dei modelli. Il nostro codice è disponibile all'indirizzo https://github.com/Lbotirx/AdamMeme.