Articoli di ricerca IA selezionati quotidianamente con traduzioni
Yume mira a utilizzare immagini, testi o video per creare un mondo interattivo, realistico e dinamico, che consenta l'esplorazione e il controllo tramite dispositivi periferici o segnali neurali. In questo rapporto, presentiamo una versione preliminare di \method, che crea un mondo dinamico a partire da un'immagine di input e permette l'esplorazione del mondo mediante azioni da tastiera. Per ottenere questa generazione di video interattivi ad alta fedeltà, introduciamo un framework ben progettato, composto da quattro componenti principali: quantizzazione del movimento della telecamera, architettura di generazione video, campionatore avanzato e accelerazione del modello. Innanzitutto, quantizziamo i movimenti della telecamera per un addestramento stabile e un'interazione user-friendly tramite input da tastiera. Successivamente, presentiamo il Masked Video Diffusion Transformer~(MVDT) con un modulo di memoria per la generazione infinita di video in modo autoregressivo. In seguito, introduciamo nel campionatore il meccanismo Anti-Artifact (AAM) senza necessità di addestramento e il Time Travel Sampling basato su Equazioni Differenziali Stocastiche (TTS-SDE) per una migliore qualità visiva e un controllo più preciso. Inoltre, investigiamo l'accelerazione del modello attraverso l'ottimizzazione sinergica della distillazione avversaria e dei meccanismi di caching. Utilizziamo il dataset di esplorazione del mondo ad alta qualità \sekai per addestrare \method, che ottiene risultati notevoli in diverse scene e applicazioni. Tutti i dati, il codice e i pesi del modello sono disponibili su https://github.com/stdstu12/YUME. Yume verrà aggiornato mensilmente per raggiungere il suo obiettivo originale. Pagina del progetto: https://stdstu12.github.io/YUME-Project/.
Raggiungere una percezione e un ragionamento simili a quelli umani nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) rimane una sfida centrale nell'intelligenza artificiale. Sebbene la ricerca recente si sia concentrata principalmente sul potenziamento delle capacità di ragionamento negli MLLMs, una domanda fondamentale persiste: i Modelli Linguistici Multimodali di Grande Dimensione possono davvero percepire il mondo come fanno gli esseri umani? Questo articolo sposta l'attenzione dal ragionamento alla percezione. Piuttosto che costruire benchmark specifici per il ragionamento, introduciamo il Turing Eye Test (TET), un benchmark orientato alla percezione e particolarmente impegnativo, composto da quattro task diagnostici che valutano le prestazioni degli MLLMs su immagini sintetiche che gli esseri umani elaborano in modo intuitivo. I nostri risultati rivelano che gli MLLMs all'avanguardia mostrano fallimenti catastrofici nei nostri task percettivi, che per gli esseri umani sono banali. Sia l'apprendimento in contesto che l'addestramento sul backbone linguistico, efficaci per benchmark precedenti, non migliorano le prestazioni nei nostri task, mentre il fine-tuning della torre visiva consente un adattamento rapido, suggerendo che il nostro benchmark pone sfide per la generalizzazione della torre visiva piuttosto che per le conoscenze e le capacità di ragionamento del backbone linguistico—un divario chiave tra gli attuali MLLMs e la percezione umana. In questa versione rilasciamo un sottoinsieme rappresentativo dei task del TET e introdurremo in futuro task e metodi più diversificati per migliorare la generalizzazione visiva.
La progettazione di presentazioni di alta qualità può essere impegnativa per i non esperti a causa della complessità legata alla navigazione tra varie scelte di design. Numerosi strumenti automatizzati possono suggerire layout e combinazioni di colori, ma spesso mancano della capacità di affinare il proprio output, un aspetto cruciale nei flussi di lavoro reali. Proponiamo DesignLab, che separa il processo di design in due ruoli: il revisore di design, che identifica i problemi legati al design, e il contributore di design, che li corregge. Questa scomposizione consente un ciclo iterativo in cui il revisore rileva continuamente i problemi e il contributore li corregge, permettendo a una bozza di essere ulteriormente perfezionata ad ogni iterazione, raggiungendo qualità altrimenti irraggiungibili. Addestriamo modelli linguistici di grandi dimensioni per questi ruoli e simuliamo bozze intermedie introducendo perturbazioni controllate, consentendo al revisore di design di apprendere gli errori di progettazione e al contributore di imparare come correggerli. I nostri esperimenti dimostrano che DesignLab supera i metodi esistenti di generazione di design, inclusi uno strumento commerciale, abbracciando la natura iterativa della progettazione che può portare a presentazioni rifinite e professionali.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma potente per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). La ricerca esistente si è concentrata prevalentemente su domini di ragionamento isolati, come la risoluzione di problemi matematici, compiti di programmazione o ragionamento logico. Tuttavia, gli scenari di ragionamento nel mondo reale richiedono intrinsecamente un'applicazione integrata di molteplici abilità cognitive. Nonostante ciò, l'interazione tra queste abilità di ragionamento sotto il reinforcement learning rimane poco compresa. Per colmare questa lacuna, presentiamo un'indagine sistematica sul ragionamento multi-dominio all'interno del framework RLVR, concentrandoci esplicitamente su tre domini principali: ragionamento matematico, generazione di codice e risoluzione di puzzle logici. Condurremo uno studio completo che comprende quattro componenti chiave: (1) Sfruttando l'algoritmo GRPO e la famiglia di modelli Qwen-2.5-7B, il nostro studio valuta approfonditamente i miglioramenti in-dominio e le capacità di generalizzazione cross-dominio dei modelli quando addestrati su dataset di singoli domini. (2) Inoltre, esaminiamo le complesse interazioni, inclusi i miglioramenti reciproci e i conflitti che emergono durante l'addestramento combinato cross-dominio. (3) Per comprendere ulteriormente l'influenza del SFT (Supervised Fine-Tuning) sul RL, analizziamo e confrontiamo anche le differenze di prestazione tra modelli base e modelli instruct sotto configurazioni RL identiche. (4) Inoltre, approfondiamo dettagli critici dell'addestramento RL, esplorando sistematicamente gli impatti delle strategie di curriculum learning, delle variazioni nel design delle ricompense e dei fattori specifici del linguaggio. Attraverso esperimenti estesi, i nostri risultati offrono intuizioni significative sulle dinamiche che governano le interazioni tra domini, rivelando fattori chiave che influenzano sia le prestazioni di ragionamento specializzato che quelle generalizzabili. Questi risultati forniscono una guida preziosa per ottimizzare le metodologie RL al fine di promuovere capacità di ragionamento completo e multi-dominio negli LLM.
I recenti progressi nelle rappresentazioni sparse di voxel hanno migliorato significativamente la qualità della generazione di contenuti 3D, consentendo una modellazione ad alta risoluzione con geometrie dettagliate. Tuttavia, i framework esistenti soffrono di gravi inefficienze computazionali a causa della complessità quadratica dei meccanismi di attenzione nelle loro pipeline di diffusione a due stadi. In questo lavoro, proponiamo Ultra3D, un framework efficiente per la generazione 3D che accelera notevolmente la modellazione di voxel sparsi senza compromettere la qualità. Il nostro metodo sfrutta la rappresentazione compatta VecSet per generare in modo efficiente una struttura approssimativa dell'oggetto nella prima fase, riducendo il numero di token e accelerando la previsione delle coordinate dei voxel. Per affinare le caratteristiche latenti per voxel nella seconda fase, introduciamo Part Attention, un meccanismo di attenzione localizzato e consapevole della geometria che limita il calcolo dell'attenzione a regioni semanticamente coerenti. Questo design preserva la continuità strutturale evitando l'attenzione globale non necessaria, ottenendo un'accelerazione fino a 6,7x nella generazione latente. Per supportare questo meccanismo, costruiamo una pipeline scalabile per l'annotazione delle parti che converte mesh grezzi in voxel sparsi etichettati per parti. Esperimenti estesi dimostrano che Ultra3D supporta la generazione 3D ad alta risoluzione a 1024 e raggiunge prestazioni all'avanguardia sia nella fedeltà visiva che nella preferenza degli utenti.
La ricerca agentica, come paradigma più autonomo e adattivo di retrieval augmentation, sta guidando l'evoluzione dei sistemi di ricerca intelligenti. Tuttavia, gli attuali framework di valutazione non si allineano bene con gli obiettivi della ricerca agentica. In primo luogo, le query complesse comunemente utilizzate nei benchmark attuali spesso si discostano dagli scenari di ricerca realistici degli utenti. In secondo luogo, gli approcci precedenti tendono a introdurre rumore durante l'estrazione della ground truth per valutazioni end-to-end, portando a valutazioni distorte a un livello di granularità fine. In terzo luogo, la maggior parte dei framework attuali si concentra esclusivamente sulla qualità delle risposte finali, trascurando la valutazione del processo iterativo intrinseco alla ricerca agentica. Per affrontare queste limitazioni, proponiamo RAVine -- un framework di valutazione allineato alla realtà per LLM agentici con ricerca. RAVine si concentra su query multipunto e risposte di forma lunga che riflettono meglio le intenzioni degli utenti, e introduce una strategia di costruzione della ground truth attribuibile per migliorare l'accuratezza della valutazione a livello di granularità fine. Inoltre, RAVine esamina l'interazione del modello con gli strumenti di ricerca durante l'intero processo iterativo, e tiene conto dei fattori di efficienza. Abbiamo valutato una serie di modelli utilizzando RAVine e derivato diverse intuizioni, che speriamo contribuiranno a far progredire lo sviluppo dei sistemi di ricerca agentica. Il codice e i dataset sono disponibili all'indirizzo https://github.com/SwordFaith/RAVine.
I modelli linguistici su larga scala (LLM) esistenti basati su linguaggio informale (ad esempio, linguaggio umano) addestrati con apprendimento per rinforzo (RL) affrontano una sfida significativa: i loro processi di verifica, che forniscono segnali di addestramento cruciali, non sono né affidabili né scalabili. In effetti, i modelli proprietari di grandi dimensioni prevalenti difficilmente riescono a generare programmi verificabili. Un'alternativa promettente ma ancora largamente inesplorata è il ragionamento basato su linguaggio formale. Ancorare gli LLM a sistemi formali rigorosi, in cui i modelli generativi operano in spazi di linguaggio formale (ad esempio, Dafny), consente la verifica automatica e matematicamente dimostrabile dei loro processi e risultati di ragionamento. Questa capacità è fondamentale per ottenere una verifica formale del software su larga scala e affidabile. È pratica comune impiegare catene di pensiero annotate da esseri umani e altri precedenti umani per indurre le capacità di ragionamento e codifica degli LLM. Sfortunatamente, diventa inaccettabilmente dispendioso fornire tali precedenti per supervisionare compiti di programmazione complessi. In questo lavoro, esploriamo sistematicamente modi per ridurre i precedenti umani utilizzando il linguaggio formale Dafny come ambiente principale per il nostro studio pilota. La nostra pipeline si basa principalmente sull'introduzione di una pipeline di curatela dei dati automatica e scalabile, e su attenti progetti di RL integrati con feedback dal verificatore di linguaggio formale. Introduciamo DafnyComp, un benchmark di programmi formali compositivi con specifiche auto-formalizzate per il ragionamento sulle specifiche. La nostra fase di fine-tuning supervisionato (SFT) consente anche a modelli di piccole dimensioni (ad esempio, 0.5B) di generare codice Dafny sintatticamente valido e verificabile, superando i modelli proprietari. L'RL con regolarizzazione migliora ulteriormente le prestazioni, ottenendo una generalizzazione più forte per compiti fuori dominio e superando tutte le baseline forti sul benchmark impegnativo di DafnyComp.
I Large Language Model (LLM) ottengono i migliori risultati con prompt ben strutturati, tuttavia l'ingegneria dei prompt rimane un processo manuale, incoerente e inaccessibile ai non esperti. Introduciamo Promptomatix, un framework di ottimizzazione automatica dei prompt che trasforma descrizioni di task in linguaggio naturale in prompt di alta qualità senza richiedere regolazioni manuali o competenze specifiche del dominio. Promptomatix supporta sia un ottimizzatore leggero basato su meta-prompt sia un compilatore alimentato da DSPy, con un design modulare che consente future estensioni a framework più avanzati. Il sistema analizza l'intento dell'utente, genera dati di addestramento sintetici, seleziona strategie di prompting e affina i prompt utilizzando obiettivi consapevoli dei costi. Valutato in 5 categorie di task, Promptomatix raggiunge prestazioni competitive o superiori rispetto alle librerie esistenti, riducendo al contempo la lunghezza dei prompt e l'overhead computazionale, rendendo l'ottimizzazione dei prompt scalabile ed efficiente.
Risorse 3D di alta qualità sono essenziali per varie applicazioni nella computer grafica e nella visione 3D, ma rimangono scarse a causa dei costi di acquisizione significativi. Per affrontare questa carenza, introduciamo Elevate3D, un nuovo framework che trasforma risorse 3D di bassa qualità facilmente accessibili in risorse di qualità superiore. Al centro di Elevate3D c'è HFS-SDEdit, un metodo specializzato per il miglioramento delle texture che migliora significativamente la qualità delle texture preservando l'aspetto e la geometria, correggendo al contempo le sue degradazioni. Inoltre, Elevate3D opera in modalità vista per vista, alternando tra il perfezionamento della texture e della geometria. A differenza dei metodi precedenti che hanno largamente trascurato il perfezionamento della geometria, il nostro framework sfrutta indizi geometrici da immagini raffinate con HFS-SDEdit utilizzando predittori di geometria monoculare all'avanguardia. Questo approccio garantisce una geometria dettagliata e accurata che si allinea perfettamente con la texture migliorata. Elevate3D supera i recenti concorrenti raggiungendo una qualità all'avanguardia nel perfezionamento dei modelli 3D, affrontando efficacemente la scarsità di risorse 3D open-source di alta qualità.
Il rapido progresso dei modelli di diffusione video è stato ostacolato da limitazioni fondamentali nella modellazione temporale, in particolare dalla rigida sincronizzazione dell'evoluzione dei fotogrammi imposta dalle convenzionali variabili scalari di timestep. Sebbene adattamenti specifici per task e modelli autoregressivi abbiano cercato di affrontare queste sfide, rimangono vincolati da inefficienza computazionale, oblio catastrofico o applicabilità limitata. In questo lavoro, presentiamo Pusa, un paradigma rivoluzionario che sfrutta l'adattamento vettoriale dei timestep (VTA) per consentire un controllo temporale fine all'interno di un framework unificato di diffusione video. Inoltre, VTA è un adattamento non distruttivo, il che significa che preserva pienamente le capacità del modello di base. Ottimizzando il modello SOTA Wan2.1-T2V-14B con VTA, otteniamo un'efficienza senza precedenti, superando le prestazioni di Wan-I2V-14B con un costo di addestramento ≤ 1/200 (\500 vs. \geq 100.000) e una dimensione del dataset ≤ 1/2500 (4K vs. \geq 10M campioni). Pusa non solo stabilisce un nuovo standard per la generazione da immagine a video (I2V), raggiungendo un punteggio totale VBench-I2V dell'87,32% (vs. 86,86% di Wan-I2V-14B), ma sblocca anche molte capacità zero-shot multi-task come la generazione di fotogrammi iniziali e finali e l'estensione video, tutto senza addestramento specifico per task. Nel frattempo, Pusa può ancora eseguire la generazione da testo a video. Analisi meccanicistiche rivelano che il nostro approccio preserva i priori generativi del modello di base mentre inietta dinamicamente la temporalità, evitando l'esplosione combinatoria intrinseca ai timestep vettoriali. Questo lavoro stabilisce un paradigma scalabile, efficiente e versatile per la sintesi video di prossima generazione, democratizzando la generazione video ad alta fedeltà per la ricerca e l'industria. Il codice è open-source all'indirizzo https://github.com/Yaofang-Liu/Pusa-VidGen.
I modelli di diffusione testo-immagine (DMs) hanno ottenuto un notevole successo nella generazione di immagini. Tuttavia, persistono preoccupazioni riguardanti la privacy dei dati e la proprietà intellettuale a causa della loro potenziale capacità di memorizzare e replicare involontariamente i dati di addestramento. Recenti sforzi di mitigazione si sono concentrati sull'identificazione e la rimozione dei pesi responsabili dell'innesco della replicazione, basandosi sull'assunzione che la memorizzazione possa essere localizzata. La nostra ricerca valuta la robustezza di questi approcci basati sulla rimozione dei pesi. Dimostriamo che, anche dopo la rimozione, piccoli aggiustamenti agli embedding testuali degli input sono sufficienti per riattivare la replicazione dei dati, evidenziando la fragilità di queste difese. Inoltre, mettiamo in discussione l'assunzione fondamentale della località della memorizzazione, mostrando che la replicazione può essere attivata da diverse posizioni all'interno dello spazio degli embedding testuali e segue percorsi diversi nel modello. Le nostre scoperte indicano che le strategie di mitigazione esistenti sono insufficienti e sottolineano la necessità di metodi che rimuovano veramente i contenuti memorizzati, piuttosto che tentare di sopprimerne il recupero. Come primo passo in questa direzione, introduciamo un nuovo metodo di fine-tuning avversario che ricerca iterativamente i trigger di replicazione e aggiorna il modello per aumentarne la robustezza. Attraverso la nostra ricerca, forniamo nuove intuizioni sulla natura della memorizzazione nei DMs testo-immagine e una base per costrure un'IA generativa più affidabile e conforme.