Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento tramite feedback di ricompensa (ReFL) si è dimostrato efficace per allineare la generazione di immagini alle preferenze umane. Tuttavia, la sua estensione alla generazione video affronta sfide significative. I modelli di ricompensa video esistenti si basano su modelli visione-linguaggio progettati per input nello spazio dei pixel, confinando l'ottimizzazione ReFL a fasi di denoising quasi completate, dopo la costosa decodifica VAE. Questo approccio nello spazio dei pixel comporta un sovraccarico di memoria sostanziale e un aumento del tempo di addestramento, e la sua ottimizzazione in fase avanzata manca di supervisione nelle fasi iniziali, affinando solo la qualità visiva piuttosto che le dinamiche di movimento fondamentali e la coerenza strutturale. In questo lavoro, dimostriamo che i modelli pre-addestrati per la generazione video sono naturalmente adatti alla modellazione della ricompensa nello spazio latente rumoroso, poiché sono esplicitamente progettati per elaborare rappresentazioni latenti rumorose in step temporali arbitrari e preservano intrinsecamente le informazioni temporali attraverso le loro capacità di modellazione sequenziale. Di conseguenza, proponiamo l'Apprendimento tramite Feedback di Ricompensa sul Processo (PRFL), un framework che conduce l'ottimizzazione delle preferenze interamente nello spazio latente, consentendo una efficiente backpropagazione del gradiente lungo l'intera catena di denoising senza decodifica VAE. Esperimenti estensivi dimostrano che PRFL migliora significativamente l'allineamento con le preferenze umane, raggiungendo al contempo riduzioni sostanziali nel consumo di memoria e nel tempo di addestramento rispetto al ReFL RGB.
Sebbene i moderni modelli di diffusione eccellano nella generazione di immagini di alta qualità e diversificate, continuano a lottare con un controllo compositivo e multimodale ad alta fedeltà, specialmente quando gli utenti specificano simultaneamente prompt testuali, riferimenti a soggetti, disposizioni spaziali, vincoli di posa e annotazioni di layout. Introduciamo Canvas-to-Image, un framework unificato che consolida questi controlli eterogenei in un'unica interfaccia a canvas, consentendo agli utenti di generare immagini che riflettono fedelmente la loro intenzione. La nostra idea chiave è codificare i diversi segnali di controllo in un'unica immagine composita del canvas che il modello possa interpretare direttamente per un ragionamento visivo-spaziale integrato. Curiamo inoltre una suite di dataset multi-task e proponiamo una strategia di Addestramento su Canvas Multi-Task che ottimizza il modello di diffusione per comprendere e integrare congiuntamente i controlli eterogenei nella generazione di testo-immagine all'interno di un paradigma di apprendimento unificato. Questo addestramento congiunto consente a Canvas-to-Image di ragionare su molteplici modalità di controllo invece di affidarsi a euristiche specifiche per task, e generalizza bene a scenari multi-controllo durante l'inferenza. Esperimenti estensivi mostrano che Canvas-to-Image supera significativamente i metodi all'avanguardia nella conservazione dell'identità e nell'aderenza al controllo su benchmark impegnativi, inclusi la composizione multi-persona, la composizione controllata dalla posa, la generazione vincolata dal layout e la generazione multi-controllo.
La cognizione incarnata sostiene che l'intelligenza emerga dall'interazione sensorimotoria piuttosto che dall'osservazione passiva. Ciò solleva una domanda intrigante: i moderni modelli visione-linguaggio (VLM), addestrati in gran parte in modo disincarnato, mostrano segni di cognizione incarnata? Introduciamo ENACT, un benchmark che inquadra la valutazione della cognizione incarnata come modellazione del mondo a partire dall'interazione egocentrica in un formato di domanda-risposta visiva (VQA). Inquadrato come un processo decisionale di Markov parzialmente osservabile (POMDP) le cui azioni sono cambiamenti di grafi della scena, ENACT comprende due compiti complementari di riordinamento di sequenze: modellazione del mondo in avanti (riordinare osservazioni mescolate date le azioni) e modellazione del mondo inversa (riordinare azioni mescolate date le osservazioni). Sebbene concettualmente semplici, la risoluzione di questi compiti richiede implicitamente capacità centrali per la cognizione incarnata: riconoscimento delle affordance, ragionamento azione-effetto, consapevolezza incarnata e memoria interattiva a lungo orizzonte da input egocentrico parzialmente osservabile, evitando al contempo la sintesi di immagini a basso livello che potrebbe confondere la valutazione. Forniamo una pipeline scalabile che sintetizza coppie domanda-risposta dalla simulazione robotica (BEHAVIOR) e valuta i modelli su 8.972 coppie QA che abbracciano attività domestiche a lungo orizzonte. Gli esperimenti rivelano un divario prestazionale tra i VLM all'avanguardia e gli esseri umani che si amplia con l'orizzonte interattivo. I modelli performano costantemente meglio nel compito inverso che in quello in avanti ed esibiscono bias antropocentrici, inclusa una preferenza per azioni con la mano destra e un degrado quando le intrinseche della camera o i punti di vista deviano dalla visione umana. Sito web all'indirizzo https://enact-embodied-cognition.github.io/.
La comprensione del linguaggio non implica solo l'estrazione del significato superficiale dell'input linguistico, ma la costruzione di ricchi modelli mentali della situazione descritta. Qui proponiamo che, poiché l'elaborazione all'interno del sistema linguistico centrale del cervello è fondamentalmente limitata, una comprensione profonda del linguaggio richieda l'esportazione di informazioni dal sistema linguistico verso altre regioni cerebrali che elaborano rappresentazioni percettive e motorie, costruiscono modelli mentali e conservano la nostra conoscenza del mondo e i ricordi autobiografici. Esaminiamo le prove esistenti a supporto di questa ipotesi e sosteniamo che i recenti progressi nelle neuroscienze cognitive forniscono sia le basi concettuali che i metodi per testarla direttamente, aprendo così una nuova strategia per rivelare cosa significhi, a livello cognitivo e neurale, comprendere il linguaggio.
L'editing di immagini guidato da istruzioni offre un modo intuitivo per modificare le immagini con linguaggio naturale. Tuttavia, i modelli di editing basati su diffusione spesso faticano a interpretare accuratamente istruzioni complesse, specialmente quelle che coinvolgono relazioni compositive, segnali contestuali o espressioni referenziali, portando a modifiche che scostano semanticamente o non riflettono i cambiamenti desiderati. Affrontiamo questo problema proponendo MIRA (Multimodal Iterative Reasoning Agent), un agente di ragionamento multimodale leggero e plug-and-play che esegue l'editing attraverso un ciclo iterativo percezione-ragionamento-azione, simulando efficacemente i processi di interazione umano-modello multiturbo. Invece di emettere un singolo prompt o piano statico, MIRA predice istruzioni di modifica atomiche passo dopo passo, utilizzando il feedback visivo per prendere decisioni. Il nostro dataset multimodale di 150K per l'uso di strumenti, MIRA-Editing, combinato con una pipeline di addestramento in due fasi SFT + GRPO, consente a MIRA di eseguire ragionamento e editing su istruzioni complesse. Se accoppiato con modelli di editing open-source come Flux.1-Kontext, Step1X-Edit e Qwen-Image-Edit, MIRA migliora significativamente sia la consistenza semantica che la qualità percettiva, raggiungendo prestazioni paragonabili o superiori a sistemi proprietari come GPT-Image e Nano-Banana.
I grandi modelli multimodali (LMM) vengono sempre più adottati come giudici nei sistemi di valutazione multimodale grazie alla loro forte capacità di seguire istruzioni e alla coerenza con le preferenze umane. Tuttavia, la loro abilità di seguire criteri di valutazione diversificati e granulari rimane poco esplorata. Sviluppiamo Multi-Crit, un benchmark per valutare i giudici multimodali sulla loro capacità di seguire criteri pluralistici e produrre giudizi affidabili a livello di criterio. Coprendo sia compiti di generazione aperta che compiti di ragionamento verificabile, Multi-Crit è costruito attraverso una pipeline rigorosa di curatela dei dati che raccoglie coppie di risposte complesse con annotazioni umane multi-criterio. Introduce inoltre tre nuove metriche per valutare sistematicamente l'aderenza pluralistica, la flessibilità nel cambio di criterio e l'abilità di riconoscere conflitti di preferenza a livello di criterio. Un'analisi completa di 25 LMM rivela che 1) i modelli proprietari faticano ancora a mantenere un'aderenza coerente a criteri pluralistici—specialmente nella valutazione di compiti aperti; 2) i modelli open-source sono ulteriormente in ritardo nel seguire flessibilmente criteri diversificati; e 3) il fine-tuning come critico con segnali di giudizio olistici migliora il grounding visivo ma non riesce a generalizzare per giudizi pluralistici a livello di criterio. Ulteriori analisi sul fine-tuning per il ragionamento, il scaling a tempo di test, e la consistenza dei confini tra modelli open-source e proprietari esplorano ulteriormente i limiti degli attuali giudici multimodali. Come studio pionieristico, Multi-Crit getta le basi per costruire una valutazione dell'IA multimodale affidabile e governabile.
I modelli linguistici multimodali (MLLM) mostrano forti capacità di ragionamento su singoli quesiti, ma operano *de novo*, risolvendo ogni problema in modo indipendente e ripetendo spesso gli stessi errori. Gli agenti potenziati con memoria esistenti memorizzano principalmente traiettorie passate per il riutilizzo. Tuttavia, la memoria basata su traiettorie soffre di un bias di brevità, perdendo gradualmente la conoscenza essenziale del dominio. Ancora più critico, persino in contesti di problem-solving veramente multimodali, essa registra solo una traccia unimodale del comportamento passato, non riuscendo a preservare come l'attenzione visiva e il ragionamento logico abbiano contribuito congiuntamente alla soluzione. Ciò è fondamentalmente disallineato con la cognizione umana: la memoria semantica è sia multimodale che integrata, preservando conoscenza visiva e astratta attraverso flussi rappresentativi coordinati ma distinti. Introduciamo quindi ViLoMem, un framework di memoria a doppio flusso che costruisce una memoria compatta e basata su schemi. Esso codifica separatamente i modelli di distrazione visiva e gli errori di ragionamento logico, consentendo agli MLLM di apprendere dalle proprie esperienze di successo e di fallimento. Seguendo un principio di crescita e raffinamento, il sistema accumula e aggiorna incrementalmente la conoscenza semantica multimodale, preservando strategie stabili e generalizzabili ed evitando al contempo l'oblio catastrofico. Su sei benchmark multimodali, ViLoMem migliora costantemente l'accuratezza pass@1 e riduce sostanzialmente gli errori visivi e logici ripetuti. Le ablazioni confermano la necessità della memoria a doppio flusso con una separazione esplicita tra distrazione e allucinazione, dimostrando il valore di una memoria multimodale consapevole degli errori per l'apprendimento agentivo lifelong e cross-dominio. La nostra pagina del progetto sarà disponibile all'indirizzo https://weihao-bo.github.io/ViLoMeo-page.