HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

28 papers found

Uno Studio Teorico sul Collegamento tra Probabilità Interna e Autoconsistenza nel Ragionamento dei Modelli Linguistici di Grande Dimensione
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

Oct 17

ByZhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma

131

Il ridimensionamento al momento del test mira a migliorare le prestazioni di ragionamento dei grandi modelli linguistici (LLMs) aggiungendo risorse computazionali. Un approccio prevalente in questo campo è rappresentato dai metodi di ridimensionamento al momento del test basati sul campionamento, che migliorano il ragionamento generando percorsi di ragionamento multipli per un dato input durante l'inferenza. Tuttavia, nonostante il successo pratico, le basi teoriche rimangono poco esplorate. In questo articolo, forniamo il primo quadro teorico per analizzare i metodi di ridimensionamento al momento del test basati sul campionamento, fondato sulla prospettiva della stima della confidenza. Basandoci su questo quadro, analizziamo due paradigmi dominanti: l'autoconsistenza e la perplessità, e riveliamo le principali limitazioni: l'autoconsistenza soffre di un elevato errore di stima, mentre la perplessità presenta un sostanziale errore di modellazione e un possibile degrado della convergenza dell'errore di stima. Per affrontare queste limitazioni, introduciamo RPC, un metodo ibrido che sfrutta le nostre intuizioni teoriche attraverso due componenti chiave: la Consistenza della Perplessità e il Potatura del Ragionamento. La Consistenza della Perplessità combina i punti di forza dell'autoconsistenza e della perplessità, aumentando il tasso di convergenza dell'errore di stima da lineare a esponenziale, preservando l'errore del modello. Il Potatura del Ragionamento previene il degrado eliminando i percorsi di ragionamento a bassa probabilità. Sia l'analisi teorica che i risultati empirici su sette dataset di benchmark dimostrano che RPC ha un forte potenziale per ridurre l'errore di ragionamento. In particolare, RPC raggiunge prestazioni di ragionamento comparabili all'autoconsistenza, non solo migliorando l'affidabilità della confidenza, ma anche riducendo i costi di campionamento del 50%. Il codice e le risorse sono disponibili all'indirizzo https://wnjxyk.github.io/RPC.

OmniVinci: Potenziamento dell'Architettura e dei Dati per la Comprensione Omni-Modale LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Oct 17

ByHanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov

Il progresso dell'intelligenza artificiale richiede lo sviluppo della capacità di percepire attraverso molteplici modalità, proprio come gli esseri umani percepiscono il mondo. Presentiamo OmniVinci, un'iniziativa per costruire un modello linguistico multimodale (LLM) robusto e open-source. Analizziamo attentamente le scelte progettuali relative all'architettura del modello e alla curatela dei dati. Per l'architettura del modello, introduciamo tre innovazioni chiave: (i) OmniAlignNet per rafforzare l'allineamento tra gli embedding visivi e audio in uno spazio latente multimodale condiviso; (ii) Temporal Embedding Grouping per catturare l'allineamento temporale relativo tra i segnali visivi e audio; e (iii) Constrained Rotary Time Embedding per codificare informazioni temporali assolute negli embedding multimodali. Introduciamo una pipeline di curatela e sintesi che genera 24 milioni di conversazioni unimodali e multimodali. Osserviamo che le modalità si rafforzano reciprocamente sia nella percezione che nel ragionamento. Il nostro modello, OmniVinci, supera Qwen2.5-Omni con un miglioramento di +19.05 su DailyOmni (comprensione cross-modale), +1.7 su MMAR (audio) e +3.9 su Video-MME (visione), utilizzando solo 0.2 trilioni di token di addestramento, una riduzione di 6 volte rispetto ai 1.2 trilioni di Qwen2.5-Omni. Infine, dimostriamo i vantaggi multimodali in applicazioni downstream che spaziano dalla robotica, all'intelligenza artificiale medica, fino alla fabbrica intelligente.

NANO3D: Un approccio senza addestramento per un editing 3D efficiente senza maschere
NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Oct 16

ByJunliang Ye, Shenghao Xie, Ruowen Zhao, Zhengyi Wang, Hongyu Yan, Wenqiang Zu, Lei Ma, Jun Zhu

La modifica di oggetti 3D è essenziale per la creazione di contenuti interattivi nei settori del gaming, dell'animazione e della robotica, ma gli approcci attuali rimangono inefficienti, incoerenti e spesso non preservano le regioni non modificate. La maggior parte dei metodi si basa sulla modifica di rendering multi-vista seguita da una ricostruzione, il che introduce artefatti e limita la praticità. Per affrontare queste sfide, proponiamo Nano3D, un framework senza necessità di addestramento per la modifica precisa e coerente di oggetti 3D senza maschere. Nano3D integra FlowEdit in TRELLIS per eseguire modifiche localizzate guidate da rendering frontali e introduce ulteriori strategie di fusione basate sulle regioni, Voxel/Slat-Merge, che preservano adattivamente la fedeltà strutturale garantendo la coerenza tra aree modificate e non modificate. Gli esperimenti dimostrano che Nano3D raggiunge una superiore coerenza 3D e qualità visiva rispetto ai metodi esistenti. Basandoci su questo framework, abbiamo costruito il primo dataset su larga scala per la modifica 3D, Nano3D-Edit-100k, che contiene oltre 100.000 coppie di editing 3D di alta qualità. Questo lavoro affronta sfide di lunga data sia nella progettazione di algoritmi che nella disponibilità di dati, migliorando significativamente la generalità e l'affidabilità della modifica 3D e gettando le basi per lo sviluppo di modelli di modifica 3D feed-forward. Pagina del progetto: https://jamesyjl.github.io/Nano3D

Scalabilità dell'Editing Video Basato su Istruzioni con un Dataset Sintetico di Alta Qualità
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Oct 17

ByQingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen

L'editing video basato su istruzioni promette di democratizzare la creazione di contenuti, ma il suo progresso è fortemente ostacolato dalla scarsità di dati di addestramento su larga scala e di alta qualità. Presentiamo Ditto, un framework olistico progettato per affrontare questa sfida fondamentale. Al suo cuore, Ditto presenta una nuova pipeline di generazione dati che combina la diversità creativa di un editor di immagini leader con un generatore di video in contesto, superando i limiti dei modelli esistenti. Per rendere questo processo fattibile, il nostro framework risolve il compromesso proibitivo tra costo e qualità impiegando un'architettura di modello efficiente e distillata, potenziata da un miglioratore temporale, che riduce simultaneamente il sovraccarico computazionale e migliora la coerenza temporale. Infine, per raggiungere una piena scalabilità, l'intera pipeline è guidata da un agente intelligente che crea istruzioni diversificate e filtra rigorosamente l'output, garantendo il controllo di qualità su larga scala. Utilizzando questo framework, abbiamo investito oltre 12.000 giorni-GPU per costruire Ditto-1M, un nuovo dataset di un milione di esempi di editing video ad alta fedeltà. Abbiamo addestrato il nostro modello, Editto, su Ditto-1M con una strategia di apprendimento curriculare. I risultati dimostrano una superiore capacità di seguire le istruzioni e stabiliscono un nuovo stato dell'arte nell'editing video basato su istruzioni.

Disallineamento emergente tramite apprendimento in-context: Esempi ristretti in-context possono produrre LLM ampiamente disallineati
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

Oct 13

ByNikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov

Recenti lavori hanno dimostrato che un fine-tuning ristretto può produrre modelli linguistici di grandi dimensioni (LLM) ampiamente disallineati, un fenomeno denominato disallineamento emergente (EM). Sebbene preoccupanti, questi risultati erano limitati al fine-tuning e allo steering delle attivazioni, tralasciando l'apprendimento in contesto (ICL). Ci chiediamo quindi: l'EM emerge nell'ICL? Scopriamo che è così: su tre dataset, tre modelli all'avanguardia producono risposte ampiamente disallineate con tassi compresi tra il 2% e il 17% dati 64 esempi ristretti in contesto, e fino al 58% con 256 esempi. Esaminiamo inoltre i meccanismi dell'EM stimolando un ragionamento passo-passo (lasciando invariati gli esempi in contesto). L'analisi manuale della catena di pensiero risultante mostra che il 67,5% delle tracce disallineate giustifica esplicitamente output dannosi adottando una "persona" imprudente o pericolosa, riecheggiando risultati precedenti sull'EM indotto dal fine-tuning.

Skyfall-GS: Sintesi di Scene Urbane 3D Immersive da Immagini Satellitari
Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

Oct 17

ByJie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, Wei-Cheng Chang, Chung-Ho Wu, Jiewen Chan, Zhenjun Zhao, Chieh Hubert Lin, Yu-Lun Liu

La sintesi di scene urbane 3D su larga scala, esplorabili e geometricamente accurate è un compito impegnativo ma di grande valore per fornire applicazioni immersive e incarnate. Le sfide risiedono nella mancanza di scansioni 3D su larga scala e di alta qualità del mondo reale per addestrare modelli generativi generalizzabili. In questo articolo, seguiamo un percorso alternativo per creare scene 3D su larga scala, sinergizzando le immagini satellitari facilmente disponibili, che forniscono una geometria approssimativa realistica, e il modello di diffusione a dominio aperto per creare apparenze ravvicinate di alta qualità. Proponiamo Skyfall-GS, il primo framework di creazione di scene 3D su scala di isolato senza costose annotazioni 3D, caratterizzato anche da un'esplorazione 3D immersiva in tempo reale. Adottiamo una strategia di raffinamento iterativo guidata da un curriculum per migliorare progressivamente la completezza geometrica e le texture fotorealistiche. Esperimenti estesi dimostrano che Skyfall-GS fornisce una geometria coerente tra le viste e texture più realistiche rispetto agli approcci all'avanguardia. Pagina del progetto: https://skyfall-gs.jayinnn.dev/

Modello di Diffusione Latente senza Autoencoder Variazionale
Latent Diffusion Model without Variational Autoencoder

Oct 17

ByMinglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu

I recenti progressi nella generazione visiva basata su diffusione si sono principalmente basati su modelli di diffusione latente con autoencoder variazionali (VAE). Sebbene efficaci per la sintesi ad alta fedeltà, questo paradigma VAE+diffusione soffre di una limitata efficienza di addestramento, inferenza lenta e scarsa trasferibilità a compiti visivi più ampi. Questi problemi derivano da una limitazione chiave degli spazi latenti dei VAE: la mancanza di una chiara separazione semantica e di una struttura discriminativa forte. La nostra analisi conferma che queste proprietà sono cruciali non solo per i compiti di percezione e comprensione, ma anche per l'addestramento stabile ed efficiente dei modelli di diffusione latente. Motivati da questa intuizione, introduciamo SVG, un nuovo modello di diffusione latente senza autoencoder variazionali, che sfrutta rappresentazioni auto-supervisionate per la generazione visiva. SVG costruisce uno spazio di caratteristiche con una chiara discriminabilità semantica sfruttando le caratteristiche congelate di DINO, mentre un ramo residuo leggero cattura i dettagli fini per una ricostruzione ad alta fedeltà. I modelli di diffusione vengono addestrati direttamente su questo spazio latente strutturato semanticamente per facilitare un apprendimento più efficiente. Di conseguenza, SVG consente un addestramento accelerato della diffusione, supporta il campionamento in pochi passi e migliora la qualità generativa. I risultati sperimentali mostrano inoltre che SVG preserva le capacità semantiche e discriminative delle rappresentazioni auto-supervisionate sottostanti, fornendo un percorso strutturato verso rappresentazioni visive di alta qualità e generalizzabili a diversi compiti.

I Modelli Linguistici Modellano il Linguaggio
Language Models Model Language

Oct 14

ByŁukasz Borchmann

Il commento linguistico sui LLM, fortemente influenzato dai quadri teorici di de Saussure e Chomsky, è spesso speculativo e poco produttivo. I critici mettono in dubbio che i LLM possano modellare legittimamente il linguaggio, citando la necessità di una "struttura profonda" o di un "ancoraggio" per raggiungere una "competenza" linguistica idealizzata. Noi sosteniamo un radicale cambiamento di prospettiva verso i principi empiristi di Witold Mańczak, un eminente linguista generale e storico. Egli definisce il linguaggio non come un "sistema di segni" o un "sistema computazionale del cervello", ma come la totalità di tutto ciò che viene detto e scritto. Soprattutto, identifica la frequenza d'uso di particolari elementi linguistici come il principio primario che governa il linguaggio. Utilizzando il suo quadro teorico, contestiamo le critiche precedenti ai LLM e forniamo una guida costruttiva per progettare, valutare e interpretare i modelli linguistici.

LightsOut: Outpainting basato su diffusione per una rimozione avanzata dei riflessi di lente
LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

Oct 17

ByShr-Ruei Tsai, Wei-Cheng Chang, Jie-Ying Lee, Chih-Hai Su, Yu-Lun Liu

Il lens flare degrada significativamente la qualità dell'immagine, influenzando compiti critici di visione artificiale come il rilevamento di oggetti e la guida autonoma. I recenti metodi di rimozione del flare da singola immagine (SIFR) ottengono risultati scarsi quando le sorgenti luminose esterne al fotogramma sono incomplete o assenti. Proponiamo LightsOut, un framework di outpainting basato su modelli di diffusione, progettato per migliorare il SIFR ricostruendo le sorgenti luminose esterne al fotogramma. Il nostro metodo sfrutta un modulo di regressione multitask e un modello di diffusione fine-tuned con LoRA per garantire risultati di outpainting realistici e fisicamente coerenti. Esperimenti completi dimostrano che LightsOut migliora costantemente le prestazioni dei metodi SIFR esistenti in scenari complessi senza necessità di ulteriore riaddestramento, fungendo da soluzione di pre-elaborazione plug-and-play universalmente applicabile. Pagina del progetto: https://ray-1026.github.io/lightsout/

A^2FM: Un Modello Fondamentale Adattivo per Agenti con Ragionamento Ibrido Consapevole degli Strumenti
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

Oct 13

ByQianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou

I grandi modelli linguistici si dividono in due famiglie: i LLM centrati sul ragionamento, che rafforzano il ragionamento interno a catena di pensiero ma non possono invocare strumenti esterni, e i LLM agentici, che imparano a interagire con l'ambiente e a sfruttare strumenti ma spesso sono carenti nel ragionamento profondo. Questa divisione deriva da obiettivi di formazione fondamentalmente diversi, portando a punti di forza non allineati e inefficienza su query semplici, dove entrambe le famiglie tendono a sovrapensare o a utilizzare eccessivamente gli strumenti. In questo lavoro, presentiamo il Modello Fondamentale Agente Adattivo (A^2FM), un framework unificato che segue un principio di instradamento e allineamento: il modello prima impara l'instradamento consapevole del compito e poi allinea le traiettorie specifiche del modo sotto un'architettura condivisa. Per affrontare il divario di inefficienza, introduciamo una terza modalità istantanea che gestisce direttamente le query semplici, prevenendo ragionamenti o chiamate a strumenti non necessari mentre integra le modalità agentica e di ragionamento. Per migliorare congiuntamente accuratezza ed efficienza, proponiamo l'Ottimizzazione della Politica Adattiva (APO), che impone un campionamento adattivo tra le modalità e applica una ricompensa regolarizzata in base al costo. Su scala 32B, A^2FM raggiunge il 13,4% su BrowseComp, il 70,4% su AIME25 e il 16,7% su HLE, stabilendo nuovi record SOTA tra i modelli comparabili e competendo con i LLM di frontiera su benchmark agentici, di ragionamento e generali. In particolare, l'esecuzione adattiva raggiunge un costo di passaggio di soli $0,00487 per risposta corretta, riducendo i costi del 45,2% rispetto al ragionamento e del 33,5% rispetto alla modalità agentica, offrendo così un'efficienza di costo sostanzialmente maggiore mantenendo un'accuratezza comparabile.

Paper2Web: Rendiamo il tuo articolo vivo!
Paper2Web: Let's Make Your Paper Alive!

Oct 17

ByYuhang Chen, Tianpeng Lv, Siyi Zhang, Yixiang Yin, Yao Wan, Philip S. Yu, Dongping Chen

I siti web di progetti accademici possono diffondere la ricerca in modo più efficace quando presentano chiaramente i contenuti principali e consentono una navigazione e un'interazione intuitive. Tuttavia, gli approcci attuali come la generazione diretta tramite Large Language Model (LLM), l'uso di template o la conversione diretta in HTML faticano a produrre siti con layout consapevoli e interattivi, e una suite di valutazione completa per questo compito è stata carente. In questo articolo, introduciamo Paper2Web, un dataset di riferimento e un framework di valutazione multidimensionale per la generazione di pagine web accademiche. Esso incorpora metriche basate su regole come Connettività, Completezza e un sistema LLM-as-a-Judge verificato da esseri umani (che copre interattività, estetica e informatività), oltre a PaperQuiz, che misura la ritenzione delle conoscenze a livello di articolo. Presentiamo inoltre PWAgent, una pipeline autonoma che converte articoli scientifici in homepage accademiche interattive e ricche di multimedia. L'agente affina iterativamente sia i contenuti che il layout attraverso strumenti MCP che migliorano l'enfasi, l'equilibrio e la qualità della presentazione. I nostri esperimenti dimostrano che PWAgent supera costantemente i baseline end-to-end come pagine web basate su template e versioni arXiv/alphaXiv con un ampio margine, mantenendo costi contenuti e raggiungendo il Pareto-front nella generazione di pagine web accademiche.

BLIP3o-NEXT: La Nuova Frontiera della Generazione Nativa di Immagini
BLIP3o-NEXT: Next Frontier of Native Image Generation

Oct 17

ByJiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu

Presentiamo BLIP3o-NEXT, un modello di base completamente open-source della serie BLIP3 che avanza la prossima frontiera della generazione nativa di immagini. BLIP3o-NEXT unisce la generazione di immagini da testo e l'editing di immagini all'interno di un'unica architettura, dimostrando forti capacità sia nella generazione che nell'editing di immagini. Nello sviluppo di questo modello all'avanguardia per la generazione nativa di immagini, abbiamo identificato quattro intuizioni chiave: (1) La maggior parte delle scelte architetturali produce prestazioni comparabili; un'architettura può essere considerata efficace purché si ridimensioni in modo efficiente e supporti un'inferenza veloce; (2) L'applicazione riuscita del reinforcement learning può ulteriormente spingere la frontiera della generazione nativa di immagini; (3) L'editing di immagini rimane un compito impegnativo, ma il rispetto delle istruzioni e la coerenza tra le immagini generate e quelle di riferimento possono essere significativamente migliorati attraverso post-training e un motore di dati; (4) La qualità e la scala dei dati continuano a essere fattori decisivi che determinano il limite superiore delle prestazioni del modello. Basandoci su queste intuizioni, BLIP3o-NEXT sfrutta un'architettura Autoregressiva + Diffusion in cui un modello autoregressivo genera prima token di immagini discreti condizionati da input multimodali, i cui stati nascosti vengono poi utilizzati come segnali di condizionamento per un modello di diffusione per generare immagini ad alta fedeltà. Questa architettura integra la forza di ragionamento e il rispetto delle istruzioni dei modelli autoregressivi con la capacità di rendering dei dettagli fini dei modelli di diffusione, raggiungendo un nuovo livello di coerenza e realismo. Valutazioni estensive su vari benchmark di generazione di immagini da testo e di editing di immagini dimostrano che BLIP3o-NEXT raggiunge prestazioni superiori rispetto ai modelli esistenti.

MorphoBench: Un Benchmark con Difficoltà Adattabile al Ragionamento del Modello
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Oct 16

ByXukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong

Con il progresso dei potenti modelli di ragionamento su larga scala, valutare efficacemente le capacità di ragionamento di questi modelli è diventato sempre più importante. Tuttavia, i benchmark esistenti progettati per valutare le abilità di ragionamento dei modelli di grandi dimensioni tendono ad essere limitati nell'ambito e mancano della flessibilità necessaria per adattare la loro difficoltà in base alle capacità di ragionamento in evoluzione dei modelli. Per affrontare questo problema, proponiamo MorphoBench, un benchmark che incorpora domande multidisciplinari per valutare le capacità di ragionamento dei modelli di grandi dimensioni e può adattare e aggiornare la difficoltà delle domande in base alle capacità di ragionamento dei modelli avanzati. Nello specifico, abbiamo curato il benchmark selezionando e raccogliendo domande complesse di ragionamento da benchmark esistenti e fonti come competizioni di livello olimpico. Inoltre, MorphoBench modifica in modo adattivo la sfida analitica delle domande sfruttando affermazioni chiave generate durante il processo di ragionamento del modello. Inoltre, include domande generate utilizzando software di simulazione, consentendo un aggiustamento dinamico della difficoltà del benchmark con un consumo minimo di risorse. Abbiamo raccolto oltre 1.300 domande di test e abbiamo iterativamente adattato la difficoltà di MorphoBench in base alle capacità di ragionamento di modelli come o3 e GPT-5. MorphoBench migliora la completezza e la validità della valutazione del ragionamento dei modelli, fornendo una guida affidabile per migliorare sia le capacità di ragionamento che la robustezza scientifica dei modelli di grandi dimensioni. Il codice è stato rilasciato su https://github.com/OpenDCAI/MorphoBench.

VISTA: Un Agente di Generazione Video con Auto-Miglioramento in Tempo Reale
VISTA: A Test-Time Self-Improving Video Generation Agent

Oct 17

ByDo Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık

Nonostante i rapidi progressi nella sintesi testo-video, la qualità dei video generati rimane fortemente dipendente da prompt utente precisi. I metodi di ottimizzazione al momento del test, di successo in altri domini, faticano a gestire la natura multifaccettata del video. In questo lavoro, introduciamo VISTA (Video Iterative Self-improvemenT Agent), un innovativo sistema multi-agente che migliora autonomamente la generazione di video attraverso il perfezionamento iterativo dei prompt. VISTA scompone prima un'idea dell'utente in un piano temporale strutturato. Dopo la generazione, il miglior video viene identificato attraverso un robusto torneo a coppie. Questo video vincente viene poi analizzato da una triade di agenti specializzati che si concentrano sulla fedeltà visiva, audio e contestuale. Infine, un agente di ragionamento sintetizza questo feedback per riscrivere in modo introspettivo e migliorare il prompt per il ciclo di generazione successivo. Gli esperimenti su scenari di generazione video a scena singola e multi-scena mostrano che, mentre i metodi precedenti producono miglioramenti inconsistenti, VISTA migliora costantemente la qualità del video e l'allineamento con l'intento dell'utente, raggiungendo un tasso di vittoria a coppie fino al 60% rispetto ai benchmark di stato dell'arte. Anche i valutatori umani concordano, preferendo gli output di VISTA nel 66,4% dei confronti.

Modelli Fondamentali per la Scoperta Scientifica: Dal Potenziamento del Paradigma alla Transizione del Paradigma
Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

Oct 17

ByFan Liu, Jindong Han, Tengfei Lyu, Weijia Zhang, Zhe-Rui Yang, Lu Dai, Cancheng Liu, Hao Liu

I modelli fondazionali (FMs), come GPT-4 e AlphaFold, stanno ridefinendo il panorama della ricerca scientifica. Oltre ad accelerare compiti come la generazione di ipotesi, la progettazione di esperimenti e l'interpretazione dei risultati, sollevano una questione più fondamentale: i FMs stanno semplicemente potenziando le metodologie scientifiche esistenti, o stanno ridefinendo il modo in cui la scienza viene condotta? In questo articolo, sosteniamo che i FMs stanno catalizzando una transizione verso un nuovo paradigma scientifico. Introduciamo un framework in tre fasi per descrivere questa evoluzione: (1) Integrazione Meta-Scientifica, in cui i FMs potenziano i flussi di lavoro all'interno dei paradigmi tradizionali; (2) Co-Creazione Ibrida Uomo-AI, in cui i FMs diventano collaboratori attivi nella formulazione di problemi, nel ragionamento e nella scoperta; e (3) Scoperta Scientifica Autonoma, in cui i FMs operano come agenti indipendenti in grado di generare nuove conoscenze scientifiche con un intervento umano minimo. Attraverso questa lente, esaminiamo le applicazioni attuali e le capacità emergenti dei FMs nei paradigmi scientifici esistenti. Identifichiamo inoltre i rischi e le direzioni future per la scoperta scientifica abilitata dai FMs. Questo position paper mira a supportare la comunità scientifica nella comprensione del ruolo trasformativo dei FMs e a favorire una riflessione sul futuro della scoperta scientifica. Il nostro progetto è disponibile all'indirizzo https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.

DLER: Fare bene la penalità di lunghezza - Incentivare più intelligenza per token tramite apprendimento per rinforzo
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Oct 16

ByShih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov

I modelli di ragionamento linguistico come OpenAI-o1, DeepSeek-R1 e Qwen raggiungono prestazioni elevate attraverso catene di pensiero estese, ma spesso generano output eccessivamente lunghi. Massimizzare l'intelligenza per token—accuratezza relativa alla lunghezza della risposta—rimane un problema aperto. Riconsideriamo l'apprendimento per rinforzo (RL) con la penalità di lunghezza più semplice—troncamento—e dimostriamo che il degrado dell'accuratezza non deriva dalla mancanza di penalità sofisticate, ma da un'ottimizzazione RL inadeguata. Identifichiamo tre sfide chiave: (i) un grande bias nella stima del vantaggio, (ii) il collasso dell'entropia, e (iii) un segnale di ricompensa sparso. Le affrontiamo con Doing Length pEnalty Right (DLER), una ricetta di addestramento che combina normalizzazione batch-wise del reward, clipping più alto, campionamento dinamico e una semplice penalità di lunghezza per troncamento. DLER raggiunge compromessi stato dell'arte tra accuratezza ed efficienza, riducendo la lunghezza dell'output di oltre il 70% superando tutte le baseline di accuratezza precedenti. Migliora anche lo scaling in fase di test: rispetto a DeepSeek-R1-7B, DLER-7B genera più risposte concise in parallelo con un'accuratezza superiore del 28% e una latenza inferiore. Introduciamo inoltre Difficulty-Aware DLER, che adatta dinamicamente il troncamento su domande più semplici per ulteriori guadagni di efficienza. Proponiamo anche un metodo di fusione selettiva degli aggiornamenti che preserva l'accuratezza della baseline mantenendo la capacità di ragionamento conciso del modello DLER, utile negli scenari in cui i dati di addestramento RL sono scarsi.

Costruisci il Tuo Gruppo di Ricerca Personalizzato: Un Framework Multiagente per l'Automazione Continua e Interattiva della Scienza
Build Your Personalized Research Group: A Multiagent Framework for Continual and Interactive Science Automation

Oct 17

ByEd Li, Junyu Ren, Xintian Pan, Cat Yan, Chuanhao Li, Dirk Bergemann, Zhuoran Yang

L'automazione della scoperta scientifica rappresenta una pietra miliare fondamentale nella ricerca sull'Intelligenza Artificiale (IA). Tuttavia, i sistemi agentivi esistenti per la scienza presentano due limitazioni di base: flussi di lavoro rigidi e pre-programmati che non possono adattarsi ai risultati intermedi, e una gestione del contesto inadeguata che ostacola la ricerca a lungo termine. Presentiamo freephdlabor, un framework multiagente open-source che offre flussi di lavoro completamente dinamici determinati dal ragionamento in tempo reale degli agenti e un'architettura modulare che consente una personalizzazione senza soluzione di continuità: gli utenti possono modificare, aggiungere o rimuovere agenti per soddisfare requisiti specifici del dominio. Il framework fornisce un'infrastruttura completa che include la compattazione automatica del contesto, la comunicazione basata su workspace per prevenire il degrado delle informazioni, la persistenza della memoria tra le sessioni e meccanismi di intervento umano non bloccanti. Queste caratteristiche trasformano collettivamente la ricerca automatizzata da tentativi isolati e a singola esecuzione in programmi di ricerca continui che si basano sistematicamente su esplorazioni precedenti e incorporano il feedback umano. Fornendo sia i principi architettonici che l'implementazione pratica per costruire sistemi co-scienziati personalizzabili, questo lavoro mira a facilitare una più ampia adozione della ricerca automatizzata in vari ambiti scientifici, consentendo ai professionisti di implementare sistemi multiagente interattivi che conducono autonomamente ricerche end-to-end, dall'ideazione attraverso la sperimentazione fino alla produzione di manoscritti pronti per la pubblicazione.

Esplorare per Evolvere: Scalabilità della Logica di Aggregazione Evoluta tramite Esplorazione Online Proattiva per Agenti di Ricerca Profonda
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

Oct 16

ByRui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong

Gli agenti di ricerca approfondita sul web non solo recuperano informazioni da fonti diverse come ambienti web, file e input multimodali, ma, cosa ancora più importante, devono analizzare e aggregare rigorosamente le conoscenze per condurre ricerche approfondite. Tuttavia, gli attuali agenti di ricerca approfondita open source si concentrano principalmente sul potenziamento delle capacità di ricerca delle informazioni per localizzare dati specifici, trascurando l'essenziale necessità di aggregazione delle informazioni, il che limiterebbe la loro capacità di supportare ricerche approfondite. Proponiamo un paradigma "Esplorare per Evolvere" per costruire in modo scalabile dati di formazione verificabili per gli agenti web. Iniziando con un'esplorazione online proattiva, un agente raccoglie informazioni fondate esplorando il web reale. Utilizzando le prove raccolte, l'agente poi auto-evolve un programma di aggregazione selezionando, componendo e affinando operazioni da 12 tipi logici di alto livello per sintetizzare una coppia di domande e risposte verificabile. Questa evoluzione da una guida di alto livello a operazioni concrete ci ha permesso di produrre in modo scalabile WebAggregatorQA, un dataset di 10K campioni provenienti da 50K siti web e 11 domini. Basandoci su un framework open source per agenti, SmolAgents, raccogliamo traiettorie di fine-tuning supervisionato per sviluppare una serie di modelli di base, WebAggregator. WebAggregator-8B eguaglia le prestazioni di GPT-4.1, mentre la variante da 32B supera GPT-4.1 di oltre il 10% su GAIA-text e si avvicina molto a Claude-3.7-sonnet. Inoltre, data la limitata disponibilità di benchmark che valutano le capacità di aggregazione delle informazioni degli agenti web, costruiamo una suddivisione di valutazione annotata manualmente di WebAggregatorQA come set di test impegnativo. Su questo benchmark, Claude-3.7-sonnet raggiunge solo il 28%, e GPT-4.1 ottiene il 25.8%. Anche quando gli agenti riescono a recuperare tutti i riferimenti, continuano a lottare su WebAggregatorQA, evidenziando la necessità di rafforzare le capacità di aggregazione delle informazioni delle basi degli agenti web.

InfiMed-ORBIT: Allineamento di LLM su Compiti Complessi a Risposta Aperta tramite Addestramento Incrementale Basato su Griglie di Valutazione
InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

Oct 17

ByPengkai Wang, Qi Zuo, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang

I modelli linguistici di grandi dimensioni (LLM) hanno mostrato progressi significativi attraverso l'apprendimento per rinforzo (RL), in particolare in domini in cui le ricompense possono essere verificate programmaticamente, come la matematica e il codice. In queste aree, i modelli beneficiano di una base operativa ben definita guidata da obiettivi espliciti basati su regole. Tuttavia, questo progresso rivela una limitazione significativa: nei domini aperti in cui le ricompense sono ambigue, soggettive o dipendenti dal contesto, come la scrittura creativa, il ragionamento scientifico e, in particolare, la consultazione medica, mancano funzioni di ricompensa robuste, rendendo queste aree impegnative per le attuali strategie di RL. Per colmare questa lacuna, introduciamo ORBIT, un framework di formazione incrementale basato su rubriche progettato specificamente per dialoghi medici ad alto rischio. ORBIT integra la generazione di dialoghi sintetici con la creazione dinamica di rubriche, utilizzando queste rubriche per guidare un processo di RL incrementale. In particolare, questo approccio non dipende da conoscenze mediche esterne o regole manuali, ma utilizza invece feedback guidato da rubriche per modellare l'apprendimento. Quando implementato sul modello Qwen3-4B-Instruct, il nostro metodo può migliorare notevolmente le sue prestazioni sul benchmark HealthBench-Hard da 7.0 a 27.2 utilizzando solo 2k campioni, raggiungendo così risultati all'avanguardia per modelli di questa scala. La nostra analisi conferma che l'RL guidato da rubriche favorisce guadagni di prestazioni consistenti in diversi scenari di consultazione, andando oltre i semplici miglioramenti numerici. Questi risultati sottolineano il feedback basato su rubriche come una strategia scalabile per far progredire gli LLM in compiti complessi e aperti.

Imaginarium: Generazione di Layout di Scene 3D di Alta Qualità Guidata dalla Visione
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

Oct 17

ByXiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng

La generazione di layout di scene 3D artistici e coerenti è fondamentale nella creazione di contenuti digitali. I metodi tradizionali basati sull'ottimizzazione sono spesso limitati da regole manuali complesse, mentre i modelli generativi profondi incontrano difficoltà nel produrre contenuti ricchi e diversificati. Inoltre, gli approcci che utilizzano modelli linguistici di grandi dimensioni spesso mancano di robustezza e non riescono a catturare accuratamente le complesse relazioni spaziali. Per affrontare queste sfide, questo articolo presenta un innovativo sistema di generazione di layout 3D guidato dalla visione. Inizialmente, costruiamo una libreria di asset di alta qualità contenente 2.037 asset di scene e 147 layout di scene 3D. Successivamente, impieghiamo un modello di generazione di immagini per espandere le rappresentazioni dei prompt in immagini, perfezionandolo per allinearlo alla nostra libreria di asset. Sviluppiamo quindi un robusto modulo di analisi delle immagini per ricostruire il layout 3D delle scene basandoci sulla semantica visiva e sulle informazioni geometriche. Infine, ottimizziamo il layout della scene utilizzando grafi di scene e la semantica visiva complessiva per garantire coerenza logica e allineamento con le immagini. Test estensivi con utenti dimostrano che il nostro algoritmo supera significativamente i metodi esistenti in termini di ricchezza e qualità del layout. Il codice e il dataset saranno disponibili su https://github.com/HiHiAllen/Imaginarium.

FinTrust: Un Benchmark Completo per la Valutazione dell'Affidabilità nel Dominio Finanziario
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

Oct 17

ByTiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao

I recenti LLM (Large Language Models) hanno dimostrato una promettente capacità nel risolvere problemi legati alla finanza. Tuttavia, l'applicazione degli LLM in contesti finanziari reali rimane impegnativa a causa dell'elevato rischio e delle alte poste in gioco. Questo articolo introduce FinTrust, un benchmark completo progettato specificamente per valutare l'affidabilità degli LLM nelle applicazioni finanziarie. Il nostro benchmark si concentra su un'ampia gamma di problematiche di allineamento basate su contesti pratici e presenta task granulari per ogni dimensione della valutazione dell'affidabilità. Abbiamo valutato undici LLM su FinTrust e abbiamo riscontrato che modelli proprietari come o4-mini si distinguono nella maggior parte dei task, come la sicurezza, mentre modelli open-source come DeepSeek-V3 hanno un vantaggio in aree specifiche, come l'equità a livello di settore. Per task complessi come l'allineamento fiduciario e la divulgazione, tutti gli LLM risultano carenti, mostrando un significativo gap nella consapevolezza legale. Riteniamo che FinTrust possa rappresentare un benchmark prezioso per la valutazione dell'affidabilità degli LLM nel dominio finanziario.

I LLM "Provano Emozioni"? Scoperta e Controllo dei Circuiti Emotivi
Do LLMs "Feel"? Emotion Circuits Discovery and Control

Oct 13

ByChenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen

Con l'aumentare della domanda di intelligenza emotiva nei modelli linguistici di grandi dimensioni (LLM), una delle principali sfide risiede nella comprensione dei meccanismi interni che danno origine all'espressione emotiva e nel controllo delle emozioni nei testi generati. Questo studio affronta tre domande fondamentali: (1) I LLM contengono meccanismi indipendenti dal contesto che modellano l'espressione emotiva? (2) Quale forma assumono questi meccanismi? (3) Possono essere sfruttati per un controllo universale delle emozioni? In primo luogo, costruiamo un dataset controllato, SEV (Scenario-Evento con Valenza), per elicitare stati interni comparabili tra diverse emozioni. Successivamente, estraiamo direzioni emotive indipendenti dal contesto che rivelano una codifica coerente e trasversale delle emozioni (Q1). Identifichiamo neuroni e teste di attenzione che implementano localmente il calcolo emotivo attraverso la scomposizione analitica e l'analisi causale, e validiamo i loro ruoli causali tramite interventi di ablazione e potenziamento. Successivamente, quantifichiamo l'influenza causale di ciascun sottolivello sulla rappresentazione finale delle emozioni del modello e integriamo i componenti locali identificati in circuiti emotivi globali coerenti che guidano l'espressione emotiva (Q2). La modulazione diretta di questi circuiti raggiunge un'accuratezza del 99,65% nell'espressione emotiva sul set di test, superando i metodi basati su prompt e steering (Q3). Per quanto ne sappiamo, questo è il primo studio sistematico a scoprire e validare circuiti emotivi nei LLM, offrendo nuove intuizioni sull'interpretabilità e sull'intelligenza emotiva controllabile.

Regole di Scalatura Robuste per Livelli tramite Ottimizzazione del Decadimento dei Pesi
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Oct 17

ByZhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu

Le leggi di scaling empiriche prescrivono come allocare parametri, dati e risorse computazionali, mentre la parametrizzazione a massimo aggiornamento (muP) consente il trasferimento del tasso di apprendimento tra diverse larghezze bilanciando le magnitudini degli aggiornamenti nelle fasi iniziali. Tuttavia, nelle moderne architetture invarianti alla scala, l'allenamento entra rapidamente in uno stato stazionario governato dall'ottimizzatore, dove i livelli di normalizzazione creano una sensibilità alla scala nel backward e il tasso di apprendimento effettivo diventa dipendente dalla larghezza, degradando il trasferimento muP. Affrontiamo questo problema introducendo una regola di scaling del decadimento del peso per AdamW che preserva il guadagno dei sottolivelli tra diverse larghezze. Empiricamente, lo spettro dei valori singolari di ciascun parametro matriciale scala in norma come eta/lambda con una forma approssimativamente invariante; sotto scaling di larghezza d, osserviamo che il valore singolare più alto scala approssimativamente come eta/lambda * d^{0.75}. Combinando questa osservazione con la regola muP del tasso di apprendimento eta_2 ∝ d^{-1} per parametri di tipo matrice implica una regola empirica di scaling del decadimento del peso lambda_2 ∝ d che mantiene approssimativamente invarianti i guadagni dei sottolivelli rispetto alla larghezza. Insieme a parametri di tipo vettore allenati a eta_1 = Theta_d(1) e lambda_1 = 0, ciò permette il trasferimento zero-shot sia del tasso di apprendimento che del decadimento del peso dalle larghezze proxy a quelle target, eliminando la necessità di sweep per ogni larghezza. Validiamo la regola su Transformer in stile LLaMA e in un contesto sintetico minimale, e forniamo una semplice diagnostica, confrontando i valori singolari più alti, per verificare l'invarianza del guadagno dei sottolivelli. I nostri risultati estendono muP oltre il regime vicino all'inizializzazione controllando esplicitamente le scale dello stato stazionario impostate dall'ottimizzatore, offrendo una ricetta pratica per il trasferimento robusto agli iperparametri rispetto alla larghezza sotto AdamW.

Riorganizzazione Dinamica degli Esperti: Rerouting Continuo per un Miglior Adattamento Online nei Modelli Mixture-of-Experts
Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

Oct 16

ByGuinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping

I modelli Mixture-of-Experts (MoE) raggiungono un ridimensionamento efficiente attraverso l'attivazione sparsa degli esperti, ma spesso soffrono di decisioni di routing subottimali a causa di cambiamenti nella distribuzione durante il deployment. Sebbene i metodi esistenti di adattamento al tempo di test potrebbero potenzialmente affrontare questi problemi, si concentrano principalmente su modelli densi e richiedono l'accesso a dati esterni, limitando la loro applicabilità pratica alle architetture MoE. Tuttavia, abbiamo scoperto che, invece di fare affidamento su dati di riferimento, possiamo ottimizzare la selezione degli esperti MoE al volo basandoci solo sul contesto di input. Pertanto, proponiamo un framework online e senza dati per l'adattamento al tempo di test che adatta continuamente le decisioni di routing MoE durante la generazione di testo senza supervisione o dati esterni. Il nostro metodo alterna due fasi: durante la fase di prefill e successivamente a intervalli regolari, ottimizziamo le decisioni di routing del modello utilizzando l'auto-supervisione basata sulla sequenza già generata. Poi, generiamo testo normalmente, mantenendo il router modificato fino al prossimo adattamento. Implementiamo questo approccio attraverso vettori additivi leggeri che aggiornano solo i logit del router negli strati selezionati, mantenendo l'efficienza computazionale e prevenendo l'over-adaptation. I risultati sperimentali mostrano miglioramenti consistenti nelle prestazioni su compiti di ragionamento complessi, mantenendo la robustezza ai cambiamenti di contesto. Ad esempio, il nostro metodo raggiunge un miglioramento del 5,5\% su HumanEval con OLMoE. Inoltre, grazie alla sua proprietà plug-and-play, il nostro metodo si integra naturalmente con le tecniche esistenti di ridimensionamento al tempo di test, ad esempio ottenendo un miglioramento medio del 6\% quando combinato con la self-consistency su DeepSeek-V2-Lite.

ERGO: Reimpostazione Guidata dall'Entropia per l'Ottimizzazione della Generazione nei Modelli Linguistici Multi-turn
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

Oct 15

ByHaziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu

I Large Language Model (LLM) subiscono un significativo degrado delle prestazioni nelle conversazioni multi-turn quando le informazioni vengono presentate in modo incrementale. Considerando che le conversazioni multi-turn caratterizzano le interazioni quotidiane con gli LLM, questo degrado rappresenta una sfida critica per l'usabilità nel mondo reale. Ipotesizziamo che improvvisi aumenti dell'incertezza del modello segnalino un disallineamento nelle interazioni multi-turn degli LLM, e sfruttiamo questa intuizione per riallineare dinamicamente il contesto conversazionale. Introduciamo ERGO (Entropy-guided Resetting for Generation Optimization), che quantifica continuamente l'incertezza interna tramite l'entropia di Shannon sulle distribuzioni dei token successivi e attiva un consolidamento adattivo del prompt quando viene rilevato un picco improvviso nell'entropia. Trattando l'incertezza come un segnale di primaria importanza piuttosto che come un fastidio da eliminare, ERGO abbraccia la variabilità del linguaggio e della modellizzazione, rappresentando e rispondendo all'incertezza. In compiti multi-turn con istruzioni rivelate in modo incrementale, ERGO produce un miglioramento medio delle prestazioni del 56,6% rispetto ai baseline standard, aumenta l'abilità (capacità di picco delle prestazioni) del 24,7% e riduce l'inaffidabilità (variabilità delle prestazioni) del 35,3%, dimostrando che interventi consapevoli dell'incertezza possono migliorare sia l'accuratezza che l'affidabilità nell'IA conversazionale.

Addestra un Classificatore Unificato di Qualità dei Dati Multimodali con Dati Sintetici
Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Oct 16

ByWeizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) vengono continuamente pre-addestrati su una miscela di dati di didascalie immagine-testo e dati documentali intervallati, mentre il filtraggio di dati di alta qualità verso documenti intervallati immagine-testo è ancora poco esplorato. Proponiamo di addestrare un MLLM efficiente come Classificatore Unificato della Qualità dei Dati Multimodali per filtrare sia didascalie immagine-testo di alta qualità che dati intervallati (UniFilter). Per affrontare la sfida di raccogliere dati multimodali etichettati e diversificati, introduciamo un approccio semi-sintetico che sfrutta immagini grezze facilmente disponibili e genera testi corrispondenti su quattro livelli di qualità. Questo metodo consente la creazione efficiente di coppie campione-punteggio sia per i dati di didascalie che per i documenti intervallati, al fine di addestrare UniFilter. Applichiamo UniFilter per selezionare dati di didascalie di alta qualità dal dataset DataComp e dati intervallati dal dataset OBELICS di documenti intervallati immagine-testo. Gli MLLMs pre-addestrati sui dati filtrati dimostrano capacità significativamente migliorate rispetto a quelli addestrati su dati filtrati con metodi di base, raggiungendo migliori capacità di ragionamento zero-shot e apprendimento in contesto. Dopo un affinamento supervisionato visivo, questi MLLMs indotti da UniFilter raggiungono prestazioni più forti su vari benchmark, evidenziando i benefici a valle di un pre-addestramento multimodale di alta qualità. Rilasciamo alla comunità i dati sintetici di addestramento utilizzati per addestrare UniFilter, i checkpoint del modello UniFilter e il sottoinsieme di documenti intervallati di alta qualità OBELICS-HQ, curato da UniFilter, per la riproduzione e ulteriori sviluppi.

Adattare le rappresentazioni auto-supervisionate come spazio latente per una generazione efficiente
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

Oct 16

ByMing Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer

Introduciamo Representation Tokenizer (RepTok), un framework di modellazione generativa che rappresenta un'immagine utilizzando un singolo token latente continuo ottenuto da trasformatori visivi auto-supervisionati. Basandoci su un codificatore SSL pre-addestrato, ottimizziamo solo l'embedding del token semantico e lo associamo a un decodificatore generativo addestrato congiuntamente utilizzando un obiettivo di flow matching standard. Questa adattazione arricchisce il token con dettagli di basso livello rilevanti per la ricostruzione, consentendo una ricostruzione fedele dell'immagine. Per preservare la geometria favorevole dello spazio SSL originale, aggiungiamo una perdita di similarità coseno che regolarizza il token adattato, garantendo che lo spazio latente rimanga liscio e adatto alla generazione. La nostra formulazione a singolo token risolve le ridondanze spaziali degli spazi latenti 2D e riduce significativamente i costi di addestramento. Nonostante la sua semplicità ed efficienza, RepTok ottiene risultati competitivi nella generazione condizionata a classi su ImageNet e si estende naturalmente alla sintesi da testo a immagine, raggiungendo prestazioni competitive zero-shot su MS-COCO con budget di addestramento estremamente limitati. I nostri risultati evidenziano il potenziale delle rappresentazioni SSL ottimizzate come spazi latenti compatti ed efficaci per una modellazione generativa efficiente.

DriveGen3D: Potenziare la Generazione di Scene di Guida in Modalità Feed-Forward con Diffusione Video Efficiente
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

Oct 17

ByWeijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu

Presentiamo DriveGen3D, un framework innovativo per la generazione di scene di guida dinamiche 3D di alta qualità e altamente controllabili, che affronta le limitazioni critiche delle metodologie esistenti. Gli approcci attuali alla sintesi di scene di guida soffrono di richieste computazionali proibitive per la generazione temporale estesa, si concentrano esclusivamente sulla sintesi video prolungata senza rappresentazione 3D o si limitano alla ricostruzione statica di singole scene. Il nostro lavoro colma questo divario metodologico integrando la generazione video a lungo termine accelerata con la ricostruzione di scene dinamiche su larga scala attraverso il controllo condizionale multimodale. DriveGen3D introduce una pipeline unificata composta da due componenti specializzati: FastDrive-DiT, un efficiente video diffusion transformer per la sintesi video ad alta risoluzione e temporalmente coerente sotto la guida di testo e layout Bird's-Eye-View (BEV); e FastRecon3D, un modulo di ricostruzione feed-forward che costruisce rapidamente rappresentazioni 3D Gaussiane nel tempo, garantendo coerenza spazio-temporale. Insieme, questi componenti consentono la generazione in tempo reale di video di guida estesi (fino a 424x800 a 12 FPS) e delle corrispondenti scene 3D dinamiche, raggiungendo un SSIM di 0.811 e un PSNR di 22.84 nella sintesi di nuove viste, tutto mantenendo l'efficienza dei parametri.