Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Yume: Un Modello Interattivo per la Generazione di Mondi
Yume: An Interactive World Generation Model

Jul 23, 2025

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

776

Yume mira a utilizzare immagini, testi o video per creare un mondo interattivo, realistico e dinamico, che consenta l'esplorazione e il controllo tramite dispositivi periferici o segnali neurali. In questo rapporto, presentiamo una versione preliminare di \method, che crea un mondo dinamico a partire da un'immagine di input e permette l'esplorazione del mondo mediante azioni da tastiera. Per ottenere questa generazione di video interattivi ad alta fedeltà, introduciamo un framework ben progettato, composto da quattro componenti principali: quantizzazione del movimento della telecamera, architettura di generazione video, campionatore avanzato e accelerazione del modello. Innanzitutto, quantizziamo i movimenti della telecamera per un addestramento stabile e un'interazione user-friendly tramite input da tastiera. Successivamente, presentiamo il Masked Video Diffusion Transformer~(MVDT) con un modulo di memoria per la generazione infinita di video in modo autoregressivo. In seguito, introduciamo nel campionatore il meccanismo Anti-Artifact (AAM) senza necessità di addestramento e il Time Travel Sampling basato su Equazioni Differenziali Stocastiche (TTS-SDE) per una migliore qualità visiva e un controllo più preciso. Inoltre, investigiamo l'accelerazione del modello attraverso l'ottimizzazione sinergica della distillazione avversaria e dei meccanismi di caching. Utilizziamo il dataset di esplorazione del mondo ad alta qualità \sekai per addestrare \method, che ottiene risultati notevoli in diverse scene e applicazioni. Tutti i dati, il codice e i pesi del modello sono disponibili su https://github.com/stdstu12/YUME. Yume verrà aggiornato mensilmente per raggiungere il suo obiettivo originale. Pagina del progetto: https://stdstu12.github.io/YUME-Project/.

Pixel, Modelli, ma Nessuna Poesia: Vedere il Mondo come gli Umani
Pixels, Patterns, but No Poetry: To See The World like Humans

Jul 21, 2025

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

656

Raggiungere una percezione e un ragionamento simili a quelli umani nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) rimane una sfida centrale nell'intelligenza artificiale. Sebbene la ricerca recente si sia concentrata principalmente sul potenziamento delle capacità di ragionamento negli MLLMs, una domanda fondamentale persiste: i Modelli Linguistici Multimodali di Grande Dimensione possono davvero percepire il mondo come fanno gli esseri umani? Questo articolo sposta l'attenzione dal ragionamento alla percezione. Piuttosto che costruire benchmark specifici per il ragionamento, introduciamo il Turing Eye Test (TET), un benchmark orientato alla percezione e particolarmente impegnativo, composto da quattro task diagnostici che valutano le prestazioni degli MLLMs su immagini sintetiche che gli esseri umani elaborano in modo intuitivo. I nostri risultati rivelano che gli MLLMs all'avanguardia mostrano fallimenti catastrofici nei nostri task percettivi, che per gli esseri umani sono banali. Sia l'apprendimento in contesto che l'addestramento sul backbone linguistico, efficaci per benchmark precedenti, non migliorano le prestazioni nei nostri task, mentre il fine-tuning della torre visiva consente un adattamento rapido, suggerendo che il nostro benchmark pone sfide per la generalizzazione della torre visiva piuttosto che per le conoscenze e le capacità di ragionamento del backbone linguistico—un divario chiave tra gli attuali MLLMs e la percezione umana. In questa versione rilasciamo un sottoinsieme rappresentativo dei task del TET e introdurremo in futuro task e metodi più diversificati per migliorare la generalizzazione visiva.

DesignLab: Progettazione di Presentazioni Tramite Rilevamento e Correzione Iterativi
DesignLab: Designing Slides Through Iterative Detection and Correction

Jul 23, 2025

Jooyeol Yun, Heng Wang, Yotaro Shimose, Jaegul Choo, Shingo Takamatsu

471

La progettazione di presentazioni di alta qualità può essere impegnativa per i non esperti a causa della complessità legata alla navigazione tra varie scelte di design. Numerosi strumenti automatizzati possono suggerire layout e combinazioni di colori, ma spesso mancano della capacità di affinare il proprio output, un aspetto cruciale nei flussi di lavoro reali. Proponiamo DesignLab, che separa il processo di design in due ruoli: il revisore di design, che identifica i problemi legati al design, e il contributore di design, che li corregge. Questa scomposizione consente un ciclo iterativo in cui il revisore rileva continuamente i problemi e il contributore li corregge, permettendo a una bozza di essere ulteriormente perfezionata ad ogni iterazione, raggiungendo qualità altrimenti irraggiungibili. Addestriamo modelli linguistici di grandi dimensioni per questi ruoli e simuliamo bozze intermedie introducendo perturbazioni controllate, consentendo al revisore di design di apprendere gli errori di progettazione e al contributore di imparare come correggerli. I nostri esperimenti dimostrano che DesignLab supera i metodi esistenti di generazione di design, inclusi uno strumento commerciale, abbracciando la natura iterativa della progettazione che può portare a presentazioni rifinite e professionali.

Un Dominio Può Aiutare gli Altri? Uno Studio Centrato sui Dati sul Ragionamento Multi-Dominio tramite Apprendimento per Rinforzo
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Jul 23, 2025

Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu

351

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma potente per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). La ricerca esistente si è concentrata prevalentemente su domini di ragionamento isolati, come la risoluzione di problemi matematici, compiti di programmazione o ragionamento logico. Tuttavia, gli scenari di ragionamento nel mondo reale richiedono intrinsecamente un'applicazione integrata di molteplici abilità cognitive. Nonostante ciò, l'interazione tra queste abilità di ragionamento sotto il reinforcement learning rimane poco compresa. Per colmare questa lacuna, presentiamo un'indagine sistematica sul ragionamento multi-dominio all'interno del framework RLVR, concentrandoci esplicitamente su tre domini principali: ragionamento matematico, generazione di codice e risoluzione di puzzle logici. Condurremo uno studio completo che comprende quattro componenti chiave: (1) Sfruttando l'algoritmo GRPO e la famiglia di modelli Qwen-2.5-7B, il nostro studio valuta approfonditamente i miglioramenti in-dominio e le capacità di generalizzazione cross-dominio dei modelli quando addestrati su dataset di singoli domini. (2) Inoltre, esaminiamo le complesse interazioni, inclusi i miglioramenti reciproci e i conflitti che emergono durante l'addestramento combinato cross-dominio. (3) Per comprendere ulteriormente l'influenza del SFT (Supervised Fine-Tuning) sul RL, analizziamo e confrontiamo anche le differenze di prestazione tra modelli base e modelli instruct sotto configurazioni RL identiche. (4) Inoltre, approfondiamo dettagli critici dell'addestramento RL, esplorando sistematicamente gli impatti delle strategie di curriculum learning, delle variazioni nel design delle ricompense e dei fattori specifici del linguaggio. Attraverso esperimenti estesi, i nostri risultati offrono intuizioni significative sulle dinamiche che governano le interazioni tra domini, rivelando fattori chiave che influenzano sia le prestazioni di ragionamento specializzato che quelle generalizzabili. Questi risultati forniscono una guida preziosa per ottimizzare le metodologie RL al fine di promuovere capacità di ragionamento completo e multi-dominio negli LLM.

Ultra3D: Generazione 3D Efficiente e ad Alta Fedeltà con Attenzione alle Parti
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

Jul 23, 2025

Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin

301

I recenti progressi nelle rappresentazioni sparse di voxel hanno migliorato significativamente la qualità della generazione di contenuti 3D, consentendo una modellazione ad alta risoluzione con geometrie dettagliate. Tuttavia, i framework esistenti soffrono di gravi inefficienze computazionali a causa della complessità quadratica dei meccanismi di attenzione nelle loro pipeline di diffusione a due stadi. In questo lavoro, proponiamo Ultra3D, un framework efficiente per la generazione 3D che accelera notevolmente la modellazione di voxel sparsi senza compromettere la qualità. Il nostro metodo sfrutta la rappresentazione compatta VecSet per generare in modo efficiente una struttura approssimativa dell'oggetto nella prima fase, riducendo il numero di token e accelerando la previsione delle coordinate dei voxel. Per affinare le caratteristiche latenti per voxel nella seconda fase, introduciamo Part Attention, un meccanismo di attenzione localizzato e consapevole della geometria che limita il calcolo dell'attenzione a regioni semanticamente coerenti. Questo design preserva la continuità strutturale evitando l'attenzione globale non necessaria, ottenendo un'accelerazione fino a 6,7x nella generazione latente. Per supportare questo meccanismo, costruiamo una pipeline scalabile per l'annotazione delle parti che converte mesh grezzi in voxel sparsi etichettati per parti. Esperimenti estesi dimostrano che Ultra3D supporta la generazione 3D ad alta risoluzione a 1024 e raggiunge prestazioni all'avanguardia sia nella fedeltà visiva che nella preferenza degli utenti.

RAVine: Valutazione Allineata alla Realtà per la Ricerca Agente
RAVine: Reality-Aligned Evaluation for Agentic Search

Jul 22, 2025

Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao

281

La ricerca agentica, come paradigma più autonomo e adattivo di retrieval augmentation, sta guidando l'evoluzione dei sistemi di ricerca intelligenti. Tuttavia, gli attuali framework di valutazione non si allineano bene con gli obiettivi della ricerca agentica. In primo luogo, le query complesse comunemente utilizzate nei benchmark attuali spesso si discostano dagli scenari di ricerca realistici degli utenti. In secondo luogo, gli approcci precedenti tendono a introdurre rumore durante l'estrazione della ground truth per valutazioni end-to-end, portando a valutazioni distorte a un livello di granularità fine. In terzo luogo, la maggior parte dei framework attuali si concentra esclusivamente sulla qualità delle risposte finali, trascurando la valutazione del processo iterativo intrinseco alla ricerca agentica. Per affrontare queste limitazioni, proponiamo RAVine -- un framework di valutazione allineato alla realtà per LLM agentici con ricerca. RAVine si concentra su query multipunto e risposte di forma lunga che riflettono meglio le intenzioni degli utenti, e introduce una strategia di costruzione della ground truth attribuibile per migliorare l'accuratezza della valutazione a livello di granularità fine. Inoltre, RAVine esamina l'interazione del modello con gli strumenti di ricerca durante l'intero processo iterativo, e tiene conto dei fattori di efficienza. Abbiamo valutato una serie di modelli utilizzando RAVine e derivato diverse intuizioni, che speriamo contribuiranno a far progredire lo sviluppo dei sistemi di ricerca agentica. Il codice e i dataset sono disponibili all'indirizzo https://github.com/SwordFaith/RAVine.

Re:Form -- Riduzione dei Pregiudizi Umani nella Verifica Formale Scalabile del Software con RL nei Modelli Linguistici: Uno Studio Preliminare su Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22, 2025

Chuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu

171

I modelli linguistici su larga scala (LLM) esistenti basati su linguaggio informale (ad esempio, linguaggio umano) addestrati con apprendimento per rinforzo (RL) affrontano una sfida significativa: i loro processi di verifica, che forniscono segnali di addestramento cruciali, non sono né affidabili né scalabili. In effetti, i modelli proprietari di grandi dimensioni prevalenti difficilmente riescono a generare programmi verificabili. Un'alternativa promettente ma ancora largamente inesplorata è il ragionamento basato su linguaggio formale. Ancorare gli LLM a sistemi formali rigorosi, in cui i modelli generativi operano in spazi di linguaggio formale (ad esempio, Dafny), consente la verifica automatica e matematicamente dimostrabile dei loro processi e risultati di ragionamento. Questa capacità è fondamentale per ottenere una verifica formale del software su larga scala e affidabile. È pratica comune impiegare catene di pensiero annotate da esseri umani e altri precedenti umani per indurre le capacità di ragionamento e codifica degli LLM. Sfortunatamente, diventa inaccettabilmente dispendioso fornire tali precedenti per supervisionare compiti di programmazione complessi. In questo lavoro, esploriamo sistematicamente modi per ridurre i precedenti umani utilizzando il linguaggio formale Dafny come ambiente principale per il nostro studio pilota. La nostra pipeline si basa principalmente sull'introduzione di una pipeline di curatela dei dati automatica e scalabile, e su attenti progetti di RL integrati con feedback dal verificatore di linguaggio formale. Introduciamo DafnyComp, un benchmark di programmi formali compositivi con specifiche auto-formalizzate per il ragionamento sulle specifiche. La nostra fase di fine-tuning supervisionato (SFT) consente anche a modelli di piccole dimensioni (ad esempio, 0.5B) di generare codice Dafny sintatticamente valido e verificabile, superando i modelli proprietari. L'RL con regolarizzazione migliora ulteriormente le prestazioni, ottenendo una generalizzazione più forte per compiti fuori dominio e superando tutte le baseline forti sul benchmark impegnativo di DafnyComp.

Promptomatix: Un Framework Automatico per l'Ottimizzazione dei Prompt nei Modelli Linguistici di Grandi Dimensioni
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Jul 17, 2025

Rithesh Murthy, Ming Zhu, Liangwei Yang, Jielin Qiu, Juntao Tan, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Huan Wang

162

I Large Language Model (LLM) ottengono i migliori risultati con prompt ben strutturati, tuttavia l'ingegneria dei prompt rimane un processo manuale, incoerente e inaccessibile ai non esperti. Introduciamo Promptomatix, un framework di ottimizzazione automatica dei prompt che trasforma descrizioni di task in linguaggio naturale in prompt di alta qualità senza richiedere regolazioni manuali o competenze specifiche del dominio. Promptomatix supporta sia un ottimizzatore leggero basato su meta-prompt sia un compilatore alimentato da DSPy, con un design modulare che consente future estensioni a framework più avanzati. Il sistema analizza l'intento dell'utente, genera dati di addestramento sintetici, seleziona strategie di prompting e affina i prompt utilizzando obiettivi consapevoli dei costi. Valutato in 5 categorie di task, Promptomatix raggiunge prestazioni competitive o superiori rispetto alle librerie esistenti, riducendo al contempo la lunghezza dei prompt e l'overhead computazionale, rendendo l'ottimizzazione dei prompt scalabile ed efficiente.

Miglioramento dei Modelli 3D: Affinamento di Texture e Geometria di Alta Qualità a Partire da un Modello di Bassa Qualità
Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

Jul 15, 2025

Nuri Ryu, Jiyun Won, Jooeun Son, Minsu Gong, Joo-Haeng Lee, Sunghyun Cho

143

Risorse 3D di alta qualità sono essenziali per varie applicazioni nella computer grafica e nella visione 3D, ma rimangono scarse a causa dei costi di acquisizione significativi. Per affrontare questa carenza, introduciamo Elevate3D, un nuovo framework che trasforma risorse 3D di bassa qualità facilmente accessibili in risorse di qualità superiore. Al centro di Elevate3D c'è HFS-SDEdit, un metodo specializzato per il miglioramento delle texture che migliora significativamente la qualità delle texture preservando l'aspetto e la geometria, correggendo al contempo le sue degradazioni. Inoltre, Elevate3D opera in modalità vista per vista, alternando tra il perfezionamento della texture e della geometria. A differenza dei metodi precedenti che hanno largamente trascurato il perfezionamento della geometria, il nostro framework sfrutta indizi geometrici da immagini raffinate con HFS-SDEdit utilizzando predittori di geometria monoculare all'avanguardia. Questo approccio garantisce una geometria dettagliata e accurata che si allinea perfettamente con la texture migliorata. Elevate3D supera i recenti concorrenti raggiungendo una qualità all'avanguardia nel perfezionamento dei modelli 3D, affrontando efficacemente la scarsità di risorse 3D open-source di alta qualità.

PUSA V1.0: Superare Wan-I2V con un costo di addestramento di $500 grazie all'Adattamento Vettoriale dei Timestep
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Jul 22, 2025

Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel

101

Il rapido progresso dei modelli di diffusione video è stato ostacolato da limitazioni fondamentali nella modellazione temporale, in particolare dalla rigida sincronizzazione dell'evoluzione dei fotogrammi imposta dalle convenzionali variabili scalari di timestep. Sebbene adattamenti specifici per task e modelli autoregressivi abbiano cercato di affrontare queste sfide, rimangono vincolati da inefficienza computazionale, oblio catastrofico o applicabilità limitata. In questo lavoro, presentiamo Pusa, un paradigma rivoluzionario che sfrutta l'adattamento vettoriale dei timestep (VTA) per consentire un controllo temporale fine all'interno di un framework unificato di diffusione video. Inoltre, VTA è un adattamento non distruttivo, il che significa che preserva pienamente le capacità del modello di base. Ottimizzando il modello SOTA Wan2.1-T2V-14B con VTA, otteniamo un'efficienza senza precedenti, superando le prestazioni di Wan-I2V-14B con un costo di addestramento ≤ 1/200 (\500 vs. \geq 100.000) e una dimensione del dataset ≤ 1/2500 (4K vs. \geq 10M campioni). Pusa non solo stabilisce un nuovo standard per la generazione da immagine a video (I2V), raggiungendo un punteggio totale VBench-I2V dell'87,32% (vs. 86,86% di Wan-I2V-14B), ma sblocca anche molte capacità zero-shot multi-task come la generazione di fotogrammi iniziali e finali e l'estensione video, tutto senza addestramento specifico per task. Nel frattempo, Pusa può ancora eseguire la generazione da testo a video. Analisi meccanicistiche rivelano che il nostro approccio preserva i priori generativi del modello di base mentre inietta dinamicamente la temporalità, evitando l'esplosione combinatoria intrinseca ai timestep vettoriali. Questo lavoro stabilisce un paradigma scalabile, efficiente e versatile per la sintesi video di prossima generazione, democratizzando la generazione video ad alta fedeltà per la ricerca e l'industria. Il codice è open-source all'indirizzo https://github.com/Yaofang-Liu/Pusa-VidGen.

Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Jul 22, 2025

Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch

I modelli di diffusione testo-immagine (DMs) hanno ottenuto un notevole successo nella generazione di immagini. Tuttavia, persistono preoccupazioni riguardanti la privacy dei dati e la proprietà intellettuale a causa della loro potenziale capacità di memorizzare e replicare involontariamente i dati di addestramento. Recenti sforzi di mitigazione si sono concentrati sull'identificazione e la rimozione dei pesi responsabili dell'innesco della replicazione, basandosi sull'assunzione che la memorizzazione possa essere localizzata. La nostra ricerca valuta la robustezza di questi approcci basati sulla rimozione dei pesi. Dimostriamo che, anche dopo la rimozione, piccoli aggiustamenti agli embedding testuali degli input sono sufficienti per riattivare la replicazione dei dati, evidenziando la fragilità di queste difese. Inoltre, mettiamo in discussione l'assunzione fondamentale della località della memorizzazione, mostrando che la replicazione può essere attivata da diverse posizioni all'interno dello spazio degli embedding testuali e segue percorsi diversi nel modello. Le nostre scoperte indicano che le strategie di mitigazione esistenti sono insufficienti e sottolineano la necessità di metodi che rimuovano veramente i contenuti memorizzati, piuttosto che tentare di sopprimerne il recupero. Come primo passo in questa direzione, introduciamo un nuovo metodo di fine-tuning avversario che ricerca iterativamente i trigger di replicazione e aggiorna il modello per aumentarne la robustezza. Attraverso la nostra ricerca, forniamo nuove intuizioni sulla natura della memorizzazione nei DMs testo-immagine e una base per costrure un'IA generativa più affidabile e conforme.

Re:Form -- Riduzione dei Pregiudizi Umani nella Verifica Formale Scalabile del Software con RL nei Modelli Linguistici: Uno Studio Preliminare su Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22, 2025

Chuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu

171

Paper Giornalieri

Yume: Un Modello Interattivo per la Generazione di Mondi
Yume: An Interactive World Generation Model

Pixel, Modelli, ma Nessuna Poesia: Vedere il Mondo come gli Umani
Pixels, Patterns, but No Poetry: To See The World like Humans

DesignLab: Progettazione di Presentazioni Tramite Rilevamento e Correzione Iterativi
DesignLab: Designing Slides Through Iterative Detection and Correction

Un Dominio Può Aiutare gli Altri? Uno Studio Centrato sui Dati sul Ragionamento Multi-Dominio tramite Apprendimento per Rinforzo
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Ultra3D: Generazione 3D Efficiente e ad Alta Fedeltà con Attenzione alle Parti
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

RAVine: Valutazione Allineata alla Realtà per la Ricerca Agente
RAVine: Reality-Aligned Evaluation for Agentic Search

Re:Form -- Riduzione dei Pregiudizi Umani nella Verifica Formale Scalabile del Software con RL nei Modelli Linguistici: Uno Studio Preliminare su Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Promptomatix: Un Framework Automatico per l'Ottimizzazione dei Prompt nei Modelli Linguistici di Grandi Dimensioni
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Miglioramento dei Modelli 3D: Affinamento di Texture e Geometria di Alta Qualità a Partire da un Modello di Bassa Qualità
Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

PUSA V1.0: Superare Wan-I2V con un costo di addestramento di $500 grazie all'Adattamento Vettoriale dei Timestep
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Support

Support

Paper Giornalieri

Yume: Un Modello Interattivo per la Generazione di Mondi
Yume: An Interactive World Generation Model

Pixel, Modelli, ma Nessuna Poesia: Vedere il Mondo come gli Umani
Pixels, Patterns, but No Poetry: To See The World like Humans

DesignLab: Progettazione di Presentazioni Tramite Rilevamento e Correzione Iterativi
DesignLab: Designing Slides Through Iterative Detection and Correction

Un Dominio Può Aiutare gli Altri? Uno Studio Centrato sui Dati sul Ragionamento Multi-Dominio tramite Apprendimento per Rinforzo
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Ultra3D: Generazione 3D Efficiente e ad Alta Fedeltà con Attenzione alle Parti
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

RAVine: Valutazione Allineata alla Realtà per la Ricerca Agente
RAVine: Reality-Aligned Evaluation for Agentic Search

Re:Form -- Riduzione dei Pregiudizi Umani nella Verifica Formale Scalabile del Software con RL nei Modelli Linguistici: Uno Studio Preliminare su Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Promptomatix: Un Framework Automatico per l'Ottimizzazione dei Prompt nei Modelli Linguistici di Grandi Dimensioni
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Miglioramento dei Modelli 3D: Affinamento di Texture e Geometria di Alta Qualità a Partire da un Modello di Bassa Qualità
Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

PUSA V1.0: Superare Wan-I2V con un costo di addestramento di $500 grazie all'Adattamento Vettoriale dei Timestep
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Trovare Dori: La memorizzazione nei modelli di diffusione testo-immagine è meno localizzata di quanto si pensi
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed