Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto introduce Kandinsky 5.0, una famiglia di modelli fondazionali all’avanguardia per la sintesi di immagini ad alta risoluzione e video della durata di 10 secondi. Il framework comprende tre linee principali di modelli: Kandinsky 5.0 Image Lite - una serie di modelli di generazione di immagini con 6 miliardi di parametri, Kandinsky 5.0 Video Lite - modelli leggeri e veloci con 2 miliardi di parametri per la generazione di video da testo e da immagini, e Kandinsky 5.0 Video Pro - modelli con 19 miliardi di parametri che raggiungono una qualità superiore nella generazione di video. Forniamo una revisione completa del ciclo di vita della curatela dei dati - inclusi raccolta, elaborazione, filtraggio e clustering - per la pipeline di addestramento multi-stadio che coinvolge un’ampia pre-addestramento e incorpora tecniche di miglioramento della qualità come il fine-tuning auto-supervisionato (SFT) e il post-addestramento basato su apprendimento per rinforzo (RL). Presentiamo inoltre nuove ottimizzazioni architetturali, di addestramento e di inferenza che consentono a Kandinsky 5.0 di raggiungere velocità di generazione elevate e prestazioni all’avanguardia in varie attività, come dimostrato dalla valutazione umana. Come framework generativo su larga scala e pubblicamente disponibile, Kandinsky 5.0 sfrutta appieno il potenziale del suo pre-addestramento e delle fasi successive per essere adattato a un’ampia gamma di applicazioni generative. Speriamo che questo rapporto, insieme al rilascio del nostro codice open-source e dei checkpoint di addestramento, contribuisca significativamente allo sviluppo e all’accessibilità di modelli generativi di alta qualità per la comunità di ricerca.
I modelli video hanno ottenuto un successo notevole nella generazione di video ad alta fedeltà con dinamiche di movimento coerenti. Analogamente allo sviluppo dalla generazione di testo al ragionamento basato sul testo nella modellazione linguistica, l'evoluzione dei modelli video ci spinge a chiederci: i modelli video possono ragionare tramite la generazione di video? Rispetto al corpus testuale discreto, il video ancorail ragionamento in layout spaziali espliciti e continuità temporale, rappresentando un substrato ideale per il ragionamento spaziale. In questo lavoro, esploriamo il paradigma del ragionamento tramite video e introduciamo VR-Bench, un benchmark completo progettato per valutare sistematicamente le capacità di ragionamento dei modelli video. Basandosi su compiti di risoluzione di labirinti che richiedono intrinsecamente pianificazione spaziale e ragionamento a più fasi, VR-Bench contiene 7.920 video generati proceduralmente su cinque tipologie di labirinto e diversi stili visivi. La nostra analisi empirica dimostra che l'SFT può elicitare efficientemente l'abilità di ragionamento del modello video. I modelli video mostrano una percezione spaziale più forte durante il ragionamento, superando i principali VLM e generalizzando bene attraverso scenari, compiti e livelli di complessità diversi. Scopriamo inoltre un effetto di scaling al momento del test, dove un campionamento diversificato durante l'inferenza migliora l'affidabilità del ragionamento del 10-20%. Questi risultati evidenziano il potenziale unico e la scalabilità del ragionamento tramite video per compiti di ragionamento spaziale.
Gli agenti di ricerca basati sull'intelligenza artificiale promettono di accelerare il progresso scientifico automatizzando la progettazione, l'implementazione e l'addestramento di modelli di machine learning. Tuttavia, il campo è ancora alle sue fasi iniziali e i fattori chiave che determinano il successo o il fallimento delle traiettorie degli agenti non sono ancora del tutto compresi. Esaminiamo il ruolo che la diversità ideativa gioca nella performance degli agenti. In primo luogo, analizziamo le traiettorie degli agenti su MLE-bench, un benchmark noto per valutare gli agenti di ricerca IA, attraverso diversi modelli e architetture di agenti. La nostra analisi rivela che modelli e architetture diverse producono diversi gradi di diversità ideativa, e che gli agenti con prestazioni superiori tendono ad avere una maggiore diversità ideativa. Inoltre, conduciamo un esperimento controllato in cui modifichiamo il grado di diversità ideativa, dimostrando che una maggiore diversità ideativa si traduce in prestazioni più solide. Infine, rafforziamo i nostri risultati esaminando metriche di valutazione aggiuntive oltre al punteggio standard basato su medaglie di MLE-bench, mostrando che le nostre scoperte rimangono valide anche attraverso altre metriche di performance degli agenti.
L’apprendimento per rinforzo (RL) fornisce un framework principiato per migliorare i Modelli Visione-Linguaggio (VLM) su compiti di ragionamento complesso. Tuttavia, gli approcci RL esistenti spesso fanno affidamento su etichette annotate manualmente o euristiche specifiche per il compito per definire ricompense verificabili, entrambe costose e difficili da scalare. Introduciamo VisPlay, un framework RL auto-evolutivo che consente ai VLM di migliorare autonomamente le proprie capacità di ragionamento utilizzando grandi quantità di dati immagine non etichettati. Partendo da un singolo VLM base, VisPlay assegna al modello due ruoli interagenti: un Interrogatore Condizionato all'Immagine che formula domande visive impegnative ma risolvibili, e un Ragionatore Multimodale che genera risposte "d'argento" (silver). Questi ruoli sono addestrati congiuntamente tramite Group Relative Policy Optimization (GRPO), che incorpora ricompense basate sulla diversità e sulla difficoltà per bilanciare la complessità delle domande generate con la qualità delle risposte d'argento. VisPlay scala efficientemente su due famiglie di modelli. Quando addestrato su Qwen2.5-VL e MiMo-VL, VisPlay raggiunge miglioramenti consistenti nel ragionamento visivo, nella generalizzazione composizionale e nella riduzione delle allucinazioni su otto benchmark, inclusi MM-Vet e MMMU, dimostrando un percorso scalabile verso un'intelligenza multimodale auto-evolutiva. La pagina del progetto è disponibile all'indirizzo https://bruno686.github.io/VisPlay/.
L'applicabilità dei modelli attuali di segmentazione delle lesioni per radiografie del torace (CXR) è stata limitata sia dal ridotto numero di etichette target che dalla dipendenza da input testuali lunghi e dettagliati a livello esperto, creando una barriera all'uso pratico. Per affrontare queste limitazioni, introduciamo un nuovo paradigma: la segmentazione delle lesioni guidata da istruzioni (ILS), progettata per segmentare diversi tipi di lesioni basandosi su istruzioni semplici e user-friendly. In questo paradigma, costruiamo MIMIC-ILS, il primo dataset su larga scala di istruzioni-risposte per la segmentazione delle lesioni nelle CXR, utilizzando la nostra pipeline multimodale completamente automatizzata che genera annotazioni da immagini di radiografie del torace e dai relativi referti. MIMIC-ILS contiene 1,1 milioni di coppie istruzione-risposta derivate da 192.000 immagini e 91.000 maschere di segmentazione uniche, coprendo sette principali tipi di lesioni. Per dimostrarne empiricamente l'utilità, introduciamo ROSALIA, un modello visione-linguaggio addestrato su MIMIC-ILS. ROSALIA è in grado di segmentare diverse lesioni e fornire spiegazioni testuali in risposta alle istruzioni dell'utente. Il modello raggiunge un'elevata accuratezza sia nella segmentazione che nella produzione testuale nella nostra nuova task proposta, evidenziando l'efficacia della nostra pipeline e il valore di MIMIC-ILS come risorsa fondamentale per il grounding a livello di pixel delle lesioni nelle CXR.
La proliferazione di video della durata di un'ora (ad esempio lezioni, podcast, documentari) ha intensificato la richiesta di una strutturazione efficiente dei contenuti. Tuttavia, gli approcci esistenti sono limitati da un addestramento su piccola scala con annotazioni tipicamente brevi e grossolane, il che ne restringe la generalizzazione alle transizioni sfumate nei video lunghi. Introduciamo ARC-Chapter, il primo modello di suddivisione in capitoli video su larga scala addestrato su oltre un milione di capitoli di video lunghi, caratterizzato da annotazioni di capitoli bilingui, temporalmente ancorate e gerarchiche. Per raggiungere questo obiettivo, abbiamo curato un dataset bilingue inglese-cinese di capitoli attraverso una pipeline strutturata che unisce trascrizioni ASR, testi delle scene e didascalie visive in annotazioni multilivello, dal titolo breve ai riassunti lunghi. Dimostriamo chiari miglioramenti delle prestazioni con la scalabilità dei dati, sia in volume di dati che in intensità di etichettatura. Inoltre, progettiamo una nuova metrica di valutazione denominata GRACE, che incorpora sovrapposizioni di segmenti many-to-one e similarità semantica, riflettendo meglio la flessibilità della suddivisione in capitoli nel mondo reale. Esperimenti estensivi dimostrano che ARC-Chapter stabilisce un nuovo stato dell'arte con un margine significativo, superando il precedente migliore del 14,0% nell'F1-score e dell'11,3% nel SODA score. Inoltre, ARC-Chapter mostra un'eccellente trasferibilità, migliorando lo stato dell'arte su compiti downstream come la descrizione video densa su YouCook2.
Presentiamo MHR, un modello parametrico del corpo umano che combina il paradigma scheletro/forma disaccoppiato di ATLAS con un rig flessibile e moderno e un sistema di correzioni di posa ispirato alla libreria Momentum. Il nostro modello consente un'animazione umana espressiva e anatomicamente plausibile, supporta correzioni di posa non lineari ed è progettato per un'integrazione robusta in pipeline di realtà aumentata/virtuale e grafica.
Introduciamo MoS (Mixture of States), un nuovo paradigma di fusione per modelli di diffusione multimodale che combina le modalità mediante interazioni flessibili basate sugli stati. Il cuore di MoS è un router apprendibile, operante a livello di token, che crea interazioni dipendenti dal timestep di denoising e dall'input tra gli stati nascosti delle diverse modalità, allineando con precisione le caratteristiche a livello di token con la traiettoria di diffusione. Questo router seleziona in modo sparso i top-k stati nascosti ed è addestrato con una strategia ε-greedy, selezionando in modo efficiente le caratteristiche contestuali con parametri apprendibili minimi e un overhead computazionale trascurabile. Convalidiamo il nostro progetto con la generazione (MoS-Image) e l'editing (MoS-Editing) testo-immagine, che raggiungono risultati all'avanguardia. Con soli 3-5 miliardi di parametri, i nostri modelli eguagliano o superano controparti fino a 4 volte più grandi. Questi risultati stabiliscono MoS come un paradigma flessibile e computazionalmente efficiente per il scaling dei modelli di diffusione multimodale.
Con l'emergere dell'intelligenza embodied come frontiera centrale della ricerca sull'intelligenza artificiale, le piattaforme di simulazione devono evolversi oltre le interazioni fisiche di basso livello per catturare comportamenti sociali complessi e incentrati sull'umano. Presentiamo FreeAskWorld, un framework di simulazione interattivo che integra grandi modelli linguistici (LLM) per la pianificazione comportamentale di alto livello e l'interazione semanticamente fondata, ispirandosi a teorie sull'intenzione e sulla cognizione sociale. Il nostro framework supporta simulazioni umano-agente scalabili e realistiche e include una pipeline modulare per la generazione di dati progettata per vari compiti embodied. Per validare il framework, estendiamo il classico compito di Vision-and-Language Navigation (VLN) in un contesto di Direction Inquiry arricchito dall'interazione, in cui gli agenti possono cercare attivamente e interpretare indicazioni navigazionali. Presentiamo e rendiamo pubblico FreeAskWorld, un dataset di benchmark su larga scala che comprende ambienti ricostruiti, sei tipologie di compiti diverse, 16 categorie di oggetti principali, 63.429 fotogrammi campione annotati e oltre 17 ore di dati di interazione per supportare l'addestramento e la valutazione di sistemi di AI embodied. Effettuiamo benchmark su modelli VLN e partecipanti umani in contesti sia ad anello aperto che chiuso. I risultati sperimentali dimostrano che i modelli addestrati su FreeAskWorld superano le loro controparti originali, raggiungendo una migliore comprensione semantica e una maggiore competenza interattiva. Questi risultati sottolineano l'efficacia di framework di simulazione socialmente fondati nel far progredire i sistemi di AI embodied verso una pianificazione di alto livello più sofisticata e un'interazione umano-agente più naturalistica. È importante notare che il nostro lavoro evidenzia come l'interazione stessa costituisca una modalità informativa aggiuntiva.
L'accoppiamento denso di caratteristiche mira a stimare tutte le corrispondenze tra due immagini di una scena 3D e si è recentemente affermato come metodo di riferimento grazie alla sua elevata accuratezza e robustezza. Tuttavia, i metodi di accoppiamento denso esistenti falliscono o si comportano in modo insoddisfacente in molti scenari reali complessi, e i modelli ad alta precisione sono spesso lenti, limitandone l'applicabilità. In questo articolo, affrontiamo queste debolezze su un ampio fronte attraverso una serie di miglioramenti sistematici che, insieme, producono un modello significativamente migliore. In particolare, costruiamo un'architettura di accoppiamento e una funzione di perdita innovativa che, combinate con una distribuzione di addestramento curata e diversificata, consentono al nostro modello di risolvere molti compiti complessi di accoppiamento. Rendiamo inoltre l'addestramento più veloce attraverso una pipeline disaccoppiata in due fasi (prima accoppiamento, poi raffinamento) e, allo stesso tempo, riduciamo significativamente l'utilizzo della memoria durante la raffinazione mediante un kernel CUDA personalizzato. Infine, sfruttiamo il recente modello foundation DINOv3 insieme a molteplici altre intuizioni per rendere il modello più robusto e imparziale. Nella nostra ampia serie di esperimenti dimostriamo che il nuovo metodo di accoppiamento risultante stabilisce un nuovo stato dell'arte, essendo significativamente più accurato dei suoi predecessori. Il codice è disponibile all'indirizzo https://github.com/Parskatt/romav2.
I recenti progressi nell'IA generativa per la musica hanno raggiunto una fedeltà e una diversità stilistica notevoli, tuttavia questi sistemi spesso non si allineano con le preferenze umane più sfumate a causa delle specifiche funzioni di perdita che utilizzano. Questo articolo sostiene l'applicazione sistematica di tecniche di allineamento delle preferenze per la generazione musicale, affrontando il divario fondamentale tra l'ottimizzazione computazionale e l'apprezzamento musicale umano. Attingendo a recenti svolte, tra cui l'apprendimento su larga scala delle preferenze di MusicRL, framework di allineamento multi-preferenza come l'ottimizzazione delle preferenze basata su diffusione in DiffRhythm+, e tecniche di ottimizzazione al momento dell'inferenza come Text2midi-InferAlign, discutiamo come queste tecniche possano affrontare le sfide uniche della musica: coerenza temporale, consistenza armonica e valutazione soggettiva della qualità. Identifichiamo le principali sfide di ricerca, tra cui la scalabilità per composizioni di lunga durata e l'affidabilità nella modellazione delle preferenze. Guardando al futuro, prevediamo che una generazione musicale allineata alle preferenze possa abilitare applicazioni trasformative in strumenti di composizione interattiva e servizi musicali personalizzati. Questo lavoro invoca una ricerca interdisciplinare sostenuta che combini i progressi nell'apprendimento automatico e nella teoria musicale per creare sistemi di IA musicale che servano veramente le esigenze creative ed esperienziali umane.
Introduciamo Medal S, un modello fondante per la segmentazione medica che supporta prompt spaziali a risoluzione nativa e prompt testuali all'interno di un framework addestrabile end-to-end. A differenza dei metodi basati solo sul testo che mancano di consapevolezza spaziale, Medal S raggiunge un allineamento per canale tra i prompt volumetrici e gli embedding testuali, mitigando le imprecisioni dovute a mismatch di risoluzione. Preservando il contesto 3D completo, elabora efficientemente multiple maschere a risoluzione nativa in parallelo, migliorando le prestazioni nella segmentazione multi-classe. Un modulo convoluzionale 3D leggero consente una raffinazione precisa nello spazio dei voxel guidata da entrambi i tipi di prompt, supportando fino a 243 classi attraverso le modalità TC, risonanza magnetica, PET, ultrasuoni e microscopia nel dataset BiomedSegFM. Medal S offre due modalità di prompting: una modalità solo testo, in cui le previsioni del modello fungono da prompt spaziali per un auto-affinamento senza input umano, e una modalità ibrida, che incorpora annotazioni manuali per una maggiore flessibilità. Per la segmentazione a 24 classi, il prompting spaziale parallelo riduce il tempo di inferenza di oltre il 90% rispetto al prompting sequenziale. Proponiamo un ricampionamento dinamico per affrontare lo squilibrio del rapporto target-patch, estendendo SAT e nnU-Net per l'aumento dei dati. Inoltre, sviluppiamo una pre-elaborazione del testo ottimizzata, una strategia di inferenza a due stadi e tecniche di post-elaborazione per migliorare l'efficienza della memoria, la precisione e la velocità di inferenza. Sulla media delle cinque modalità nel set di validazione, Medal S supera SAT con un DSC di 75.44 (vs. 69.83), NSD di 77.34 (vs. 71.06), F1 di 38.24 (vs. 24.88) e DSC TP di 65.46 (vs. 46.97). Medal S raggiunge prestazioni eccellenti armonizzando la precisione spaziale con la guida semantica testuale, dimostrando un'efficienza e un'accuratezza superiori nei compiti di segmentazione medica multi-classe rispetto agli approcci basati su prompt sequenziali. Medal S sarà pubblicamente disponibile all'indirizzo https://github.com/yinghemedical/Medal-S.