HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

OmniSVG: Un Modello Unificato per la Generazione di Grafica Vettoriale Scalabile
OmniSVG: A Unified Scalable Vector Graphics Generation Model

Apr 8

ByYiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

180

Scalable Vector Graphics (SVG) è un importante formato di immagine ampiamente adottato nel design grafico grazie alla sua indipendenza dalla risoluzione e alla facilità di modifica. Lo studio sulla generazione di SVG di alta qualità ha continuato ad attirare l'attenzione sia dei designer che dei ricercatori nella comunità AIGC. Tuttavia, i metodi esistenti producono o output non strutturati con un elevato costo computazionale o sono limitati alla generazione di icone monocromatiche con strutture eccessivamente semplificate. Per produrre SVG di alta qualità e complessi, proponiamo OmniSVG, un framework unificato che sfrutta modelli Vision-Language (VLM) pre-addestrati per la generazione multimodale end-to-end di SVG. Parametrizzando i comandi e le coordinate SVG in token discreti, OmniSVG separa la logica strutturale dalla geometria di basso livello per un addestramento efficiente, mantenendo al contempo l'espressività delle strutture SVG complesse. Per promuovere ulteriormente lo sviluppo della sintesi SVG, introduciamo MMSVG-2M, un dataset multimodale con due milioni di asset SVG riccamente annotati, insieme a un protocollo di valutazione standardizzato per i task di generazione condizionata di SVG. Esperimenti estensivi dimostrano che OmniSVG supera i metodi esistenti e mostra il suo potenziale per l'integrazione nei flussi di lavoro professionali di design SVG.

Inferenza Hogwild!: Generazione Parallela di LLM tramite Attenzione Concorrente
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Apr 8

ByGleb Rodionov, Roman Garipov, Alina Shutova, George Yakushev, Vage Egiazarian, Anton Sinitsin, Denis Kuznedelev, Dan Alistarh

111

I Large Language Model (LLM) hanno dimostrato la capacità di affrontare compiti sempre più complessi attraverso ragionamenti avanzati, generazione di contenuti estesi e utilizzo di strumenti. Risolvere questi compiti spesso richiede calcoli prolungati durante l'inferenza. Nella risoluzione di problemi umana, una strategia comune per accelerare il lavoro è la collaborazione: suddividendo il problema in sotto-compiti, esplorando diverse strategie in parallelo, ecc. Ricerche recenti hanno mostrato che anche gli LLM possono operare in parallelo implementando framework di cooperazione esplicita, come meccanismi di voto o la creazione esplicita di sotto-compiti indipendenti che possono essere eseguiti in parallelo. Tuttavia, ciascuno di questi framework potrebbe non essere adatto a tutti i tipi di compiti, limitandone l'applicabilità. In questo lavoro, proponiamo un approccio di progettazione diverso: eseguiamo "lavoratori" LLM in parallelo, consentendo loro di sincronizzarsi tramite una cache di attenzione aggiornata in modo concorrente e spingendo questi lavoratori a decidere come collaborare al meglio. Il nostro approccio consente alle istanze di sviluppare la propria strategia di collaborazione per il problema in questione, pur "vedendo" i progressi parziali reciproci nella cache concorrente. Implementiamo questo approccio tramite Hogwild! Inference: un motore di inferenza parallela per LLM in cui più istanze dello stesso LLM vengono eseguite in parallelo con la stessa cache di attenzione, con accesso "istantaneo" ai token generati reciprocamente. Hogwild! inference sfrutta i Rotary Position Embeddings (RoPE) per evitare ricalcoli migliorando al contempo l'utilizzo dell'hardware parallelo. Abbiamo riscontrato che gli LLM moderni dotati di capacità di ragionamento possono eseguire inferenze con una cache Key-Value condivisa senza bisogno di ulteriori aggiustamenti.

Skywork R1V: Pionieristico Ragionamento Multimodale con Catena di Pensiero
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

Apr 8

ByYi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou

Presentiamo Skywork R1V, un modello di ragionamento multimodale che estende i modelli linguistici di grandi dimensioni (LLM) della serie R1 alle modalità visive attraverso un efficiente metodo di trasferimento multimodale. Sfruttando un proiettore visivo leggero, Skywork R1V facilita un adattamento multimodale senza soluzione di continuità, senza necessitare di riaddestramento né del modello linguistico di base né dell'encoder visivo. Per rafforzare l'allineamento visivo-testuale, proponiamo una strategia di ottimizzazione ibrida che combina l'Affinamento Supervisionato Iterativo (SFT) con l'Ottimizzazione delle Politiche Relative di Gruppo (GRPO), migliorando significativamente l'efficienza dell'integrazione cross-modale. Inoltre, introduciamo un approccio di distillazione a Catena di Pensiero (Chain-of-Thought) a lunghezza adattativa per la generazione di dati di ragionamento. Questo approccio ottimizza dinamicamente le lunghezze delle catene di ragionamento, migliorando così l'efficienza inferenziale e prevenendo un eccessivo sovraccarico di ragionamento. Le valutazioni empiriche dimostrano che Skywork R1V, con soli 38 miliardi di parametri, offre prestazioni competitive, raggiungendo un punteggio di 69,0 sul benchmark MMMU e 67,5 su MathVista. Allo stesso tempo, mantiene robuste prestazioni di ragionamento testuale, evidenziate da punteggi impressionanti di 72,0 su AIME e 94,0 su MATH500. I pesi del modello Skywork R1V sono stati resi pubblicamente disponibili per promuovere l'apertura e la riproducibilità.

Uno Studio Empirico sulle Capacità di Generazione di Immagini di GPT-4o
An Empirical Study of GPT-4o Image Generation Capabilities

Apr 8

BySixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, Lu Qi

Il panorama della generazione di immagini si è rapidamente evoluto, passando dai primi approcci basati su GAN ai modelli di diffusione e, più recentemente, a architetture generative unificate che cercano di colmare il divario tra compiti di comprensione e generazione. I recenti progressi, in particolare il GPT-4o, hanno dimostrato la fattibilità della generazione multimodale ad alta fedeltà, sebbene il loro design architetturale rimanga misterioso e non pubblicato. Ciò solleva la questione se la generazione di immagini e testo siano già state integrate con successo in un framework unificato per tali metodi. In questo lavoro, conduciamo uno studio empirico sulle capacità di generazione di immagini di GPT-4o, confrontandolo con i principali modelli open-source e commerciali. La nostra valutazione copre quattro categorie principali, tra cui generazione da testo a immagine, da immagine a immagine, da immagine a 3D e da immagine a X, con più di 20 task. La nostra analisi evidenzia i punti di forza e le limitazioni di GPT-4o in varie configurazioni e lo colloca all'interno della più ampia evoluzione della modellazione generativa. Attraverso questa indagine, identifichiamo direzioni promettenti per i futuri modelli generativi unificati, enfatizzando il ruolo del design architetturale e del ridimensionamento dei dati.

COIG-P: Un dataset cinese di alta qualità e su larga scala per le preferenze, allineato ai valori umani
COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values

Apr 7

ByM-A-P Team, Siwei Wu, Jincheng Ren, Xinrun Du, Shuyue Guo, Xingwei Qu, Yiming Liang, Jie Liu, Yunwen Li, Tianyu Zheng, Boyu Feng, Huaqing Yuan, Zenith Wang, Jiaheng Liu, Wenhao Huang, Chenglin Cai, Haoran Que, Jian Yang, Yuelin Bai, Zekun Moore Wang, Zhouliang Yu, Qunshu Lin, Ding Pan, Yuchen Jiang, Tiannan Wang, Wangchunshu Zhou, Shenzhi Wang, Xingyuan Bu, Minghao Liu, Guoyin Wang, Ge Zhang, Chenghua Lin

L'allineamento dei grandi modelli linguistici (LLM) con le preferenze umane ha ottenuto un successo notevole. Tuttavia, i dataset esistenti di preferenze cinesi sono limitati da una scala ridotta, una copertura di dominio ristretta e una mancanza di validazione rigorosa dei dati. Inoltre, la dipendenza da annotatori umani per l'etichettatura delle istruzioni e delle risposte limita significativamente la scalabilità dei dataset di preferenze umane. Per affrontare queste sfide, abbiamo progettato una pipeline di annotazione di dataset di preferenze cinesi basata su LLM senza intervento umano. Nello specifico, abbiamo raccolto e filtrato attentamente 92k query cinesi di alta qualità e abbiamo impiegato 15 LLM mainstream per generare e valutare coppie di risposte scartate e selezionate. Sulla base di ciò, introduciamo COIG-P (Chinese Open Instruction Generalist - Preference), un dataset di preferenze cinesi di alta qualità e su larga scala, che comprende 1.009k coppie di preferenze cinesi che coprono 6 domini diversi: Chat, Codice, Matematica, Logica, Romanzo e Ruolo. Basandoci su COIG-P, per ridurre il sovraccarico derivante dall'uso di LLM per la valutazione, abbiamo addestrato un modello di ricompensa cinese (CRM) di dimensioni 8B e abbiamo costruito meticolosamente un benchmark di ricompensa cinese (CRBench). I risultati di valutazione basati su AlignBench liu2024alignbenchbenchmarkingchinesealignment mostrano che COIG-P supera significativamente altri dataset di preferenze cinesi e apporta miglioramenti significativi delle prestazioni, compresi tra il 2% e il 12%, rispettivamente per le serie di modelli Qwen2/2.5 e Infinity-Instruct-3M-0625. I risultati su CRBench dimostrano che il nostro CRM ha una forte e robusta capacità di valutazione. Lo abbiamo applicato per filtrare le coppie di risposte scartate e selezionate in una divisione di test di COIG-P, e i nostri esperimenti mostrano che è comparabile a GPT-4o nell'identificazione di campioni di bassa qualità, mantenendo al contempo efficienza e convenienza economica. I nostri codici e dati sono rilasciati su https://github.com/multimodal-art-projection/COIG-P.

Generalizzazione da Meno a Più: Sbloccare Maggiore Controllabilità attraverso la Generazione in Contesto
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

Apr 2

ByShaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He

Sebbene la generazione guidata da soggetti sia stata ampiamente esplorata nella generazione di immagini grazie alle sue numerose applicazioni, presenta ancora sfide in termini di scalabilità dei dati e espandibilità dei soggetti. Per la prima sfida, il passaggio dalla creazione di dataset con un singolo soggetto a quelli con più soggetti e la loro scalabilità è particolarmente complesso. Per la seconda, la maggior parte dei metodi recenti si concentra sulla generazione di un singolo soggetto, rendendo difficile l'applicazione in scenari con più soggetti. In questo studio, proponiamo una pipeline di sintesi dati altamente coerente per affrontare questa sfida. Questa pipeline sfrutta le capacità intrinseche di generazione in-context dei trasformatori di diffusione e genera dati accoppiati multi-soggetto ad alta coerenza. Inoltre, introduciamo UNO, che consiste in un allineamento cross-modale progressivo e un embedding universale di posizione rotativa. Si tratta di un modello soggetto-immagine condizionato da più immagini, addestrato iterativamente a partire da un modello testo-immagine. Esperimenti estesi dimostrano che il nostro metodo può raggiungere un'elevata coerenza garantendo al contempo la controllabilità sia nella generazione guidata da un singolo soggetto che da più soggetti.

HybriMoE: Pianificazione Ibrida CPU-GPU e Gestione della Cache per Inferenza Efficiente di MoE
HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference

Apr 8

ByShuzhang Zhong, Yanfan Sun, Ling Liang, Runsheng Wang, Ru Huang, Meng Li

L'architettura Mixture of Experts (MoE) ha dimostrato significativi vantaggi in quanto consente di aumentare la capacità del modello senza un incremento proporzionale del calcolo. Tuttavia, le grandi dimensioni dei modelli MoE introducono comunque notevoli richieste di memoria, che solitamente richiedono lo scaricamento degli esperti su piattaforme con risorse limitate e comportano un sovraccarico significativo. L'inferenza ibrida CPU-GPU è stata proposta per sfruttare il calcolo della CPU al fine di ridurre il sovraccarico di caricamento degli esperti, ma affronta importanti sfide: da un lato, i modelli di attivazione degli esperti nei modelli MoE sono altamente instabili, rendendo inefficienti le strategie di mappatura fisse presenti nei lavori esistenti; dall'altro, la pianificazione ibrida CPU-GPU per MoE è intrinsecamente complessa a causa delle diverse dimensioni degli esperti, delle loro strutture, della distribuzione disomogenea del carico di lavoro, ecc. Per affrontare queste sfide, in questo articolo proponiamo HybriMoE, un framework di inferenza ibrida CPU-GPU che migliora l'utilizzo delle risorse attraverso un innovativo sistema di pianificazione CPU-GPU e gestione della cache. HybriMoE introduce (i) una strategia di pianificazione intra-layer dinamica per bilanciare il carico di lavoro tra CPU e GPU, (ii) un algoritmo di prefetching inter-layer guidato dall'impatto, e (iii) un algoritmo di caching basato su punteggio per mitigare l'instabilità dell'attivazione degli esperti. Implementiamo HybriMoE sul framework kTransformers e lo valutiamo su tre LLM basati su MoE ampiamente utilizzati. I risultati sperimentali dimostrano che HybriMoE raggiunge un'accelerazione media di 1,33 volte nella fase di prefill e di 1,70 volte nella fase di decodifica rispetto al framework di inferenza ibrida MoE più avanzato. Il nostro codice è disponibile all'indirizzo: https://github.com/PKU-SEC-Lab/HybriMoE.

HiFlow: Generazione di Immagini ad Alta Risoluzione senza Addestramento con Guida Allineata al Flusso
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Apr 8

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

I modelli di diffusione/flusso text-to-image (T2I) hanno attirato notevole attenzione di recente grazie alla loro straordinaria capacità di produrre creazioni visive flessibili. Tuttavia, la sintesi di immagini ad alta risoluzione presenta sfide considerevoli a causa della scarsità e della complessità dei contenuti ad alta risoluzione. A tal fine, presentiamo HiFlow, un framework agnostico rispetto al modello e privo di addestramento, progettato per sbloccare il potenziale di risoluzione dei modelli di flusso pre-addestrati. Nello specifico, HiFlow stabilisce un flusso di riferimento virtuale all'interno dello spazio ad alta risoluzione che cattura efficacemente le caratteristiche delle informazioni di flusso a bassa risoluzione, offrendo una guida per la generazione ad alta risoluzione attraverso tre aspetti chiave: allineamento dell'inizializzazione per la coerenza delle basse frequenze, allineamento della direzione per la preservazione della struttura e allineamento dell'accelerazione per la fedeltà dei dettagli. Sfruttando questa guida allineata al flusso, HiFlow eleva significativamente la qualità della sintesi di immagini ad alta risoluzione dei modelli T2I e dimostra versatilità attraverso le loro varianti personalizzate. Esperimenti estensivi convalidano la superiorità di HiFlow nel raggiungere una qualità di immagine ad alta risoluzione superiore rispetto ai metodi all'avanguardia attuali.

Valutazione Generativa del Ragionamento Complesso nei Modelli Linguistici di Grande Scala
Generative Evaluation of Complex Reasoning in Large Language Models

Apr 3

ByHaowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang

Con i potenti modelli linguistici di grandi dimensioni (LLM) che dimostrano capacità di ragionamento sovrumane, sorge una domanda cruciale: gli LLM ragionano veramente o si limitano a ricordare risposte dai loro estesi dataset di addestramento ottenuti dal web? I benchmark rilasciati pubblicamente diventano inevitabilmente contaminati una volta incorporati nei successivi set di addestramento degli LLM, minando la loro affidabilità come valutazioni fedeli. Per affrontare questo problema, introduciamo KUMO, un framework di valutazione generativo progettato specificamente per valutare il ragionamento negli LLM. KUMO combina sinergicamente gli LLM con motori simbolici per produrre dinamicamente compiti di ragionamento diversificati, multi-turn, parzialmente osservabili e regolabili in difficoltà. Attraverso una pipeline automatizzata, KUMO genera continuamente nuovi compiti in domini aperti, costringendo i modelli a dimostrare una vera generalizzazione piuttosto che memorizzazione. Abbiamo valutato 23 LLM all'avanguardia su 5.000 compiti in 100 domini creati da KUMO, confrontando le loro capacità di ragionamento con quelle degli studenti universitari. I nostri risultati rivelano che molti LLM hanno superato le prestazioni di livello universitario su compiti di ragionamento semplici, e gli LLM scalati per il ragionamento raggiungono prestazioni di livello universitario su sfide di ragionamento complesse. Inoltre, le prestazioni degli LLM sui compiti di KUMO correlano fortemente con i risultati su nuovi benchmark di ragionamento del mondo reale, sottolineando il valore di KUMO come strumento di valutazione robusto e duraturo per le genuine capacità di ragionamento degli LLM.

V-MAGE: Un Framework di Valutazione dei Giochi per Analizzare le Capacità Visivo-Centriche nei Modelli Linguistici Multimodali di Grande Scala
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

Apr 8

ByXiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang

I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno portato a significativi miglioramenti in vari benchmark multimodali. Tuttavia, con il passaggio delle valutazioni da dataset statici a ambienti dinamici e aperti, gli attuali benchmark basati su giochi si rivelano inadeguati poiché mancano di task centrati sulla visione e non riescono a valutare le diverse abilità di ragionamento necessarie per il processo decisionale nel mondo reale. Per affrontare questa problematica, introduciamo Visual-centric Multiple Abilities Game Evaluation (V-MAGE), un framework di valutazione basato su giochi progettato per valutare le capacità di ragionamento visivo degli MLLMs. V-MAGE include cinque giochi diversi con oltre 30 livelli progettati manualmente, testando i modelli su abilità visive fondamentali come il posizionamento, il tracciamento delle traiettorie, la tempistica e la memoria visiva, insieme a ragionamenti di livello superiore come la pianificazione a lungo termine e la deliberazione. Utilizziamo V-MAGE per valutare i principali MLLMs, rivelando significative sfide nella loro percezione e ragionamento visivo. In tutti gli ambienti di gioco, i migliori MLLMs, determinati attraverso confronti di valutazione Elo, mostrano un divario di prestazioni sostanziale rispetto agli esseri umani. Le nostre scoperte evidenziano limitazioni critiche, inclusi vari tipi di errori percettivi commessi dai modelli, e suggeriscono potenziali vie di miglioramento da una prospettiva centrata sull'agente, come il perfezionamento delle strategie dell'agente e la correzione delle inesattezze percettive. Il codice è disponibile all'indirizzo https://github.com/CSU-JPG/V-MAGE.

Modifica delle immagini senza necessità di ottimizzazione con fedeltà e editabilità tramite un modello unificato di diffusione latente
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

Apr 8

ByQi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang

Bilanciare fedeltà e modificabilità è essenziale nell'editing di immagini basato su testo (TIE), dove gli errori portano comunemente a problemi di sovra- o sotto-modifica. I metodi esistenti si basano tipicamente su iniezioni di attenzione per preservare la struttura e sfruttano le capacità intrinseche di allineamento al testo dei modelli pre-addestrati di testo-immagine (T2I) per la modificabilità, ma mancano di meccanismi espliciti e unificati per bilanciare correttamente questi due obiettivi. In questo lavoro, introduciamo UnifyEdit, un metodo senza tuning che esegue l'ottimizzazione latente della diffusione per consentire un'integrazione bilanciata di fedeltà e modificabilità all'interno di un framework unificato. A differenza delle iniezioni dirette di attenzione, sviluppiamo due vincoli basati sull'attenzione: un vincolo di preservazione dell'auto-attenzione (SA) per la fedeltà strutturale e un vincolo di allineamento dell'attenzione incrociata (CA) per migliorare l'allineamento al testo e aumentare la modificabilità. Tuttavia, applicare entrambi i vincoli simultaneamente può portare a conflitti di gradiente, dove la predominanza di un vincolo risulta in sovra- o sotto-modifica. Per affrontare questa sfida, introduciamo uno scheduler adattivo basato sul tempo che regola dinamicamente l'influenza di questi vincoli, guidando il latente di diffusione verso un equilibrio ottimale. Estesi esperimenti quantitativi e qualitativi convalidano l'efficacia del nostro approccio, dimostrando la sua superiorità nel raggiungere un robusto equilibrio tra preservazione della struttura e allineamento al testo in varie attività di editing, superando altri metodi all'avanguardia. Il codice sorgente sarà disponibile all'indirizzo https://github.com/CUC-MIPG/UnifyEdit.

Accelerare il ragionamento parallelizzabile attraverso il decoding parallelo all'interno di una singola sequenza
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Mar 26

ByYijiong Yu

I recenti progressi nei modelli di ragionamento hanno dimostrato significativi miglioramenti in termini di accuratezza, in particolare per compiti complessi come il ragionamento matematico, grazie all'impiego di processi di ragionamento dettagliati e completi. Tuttavia, la generazione di queste lunghe sequenze di ragionamento è computazionalmente costosa e richiede molto tempo. Per affrontare questa inefficienza, sfruttiamo l'intrinseca parallelizzabilità di determinati compiti per accelerare il processo di ragionamento. Nello specifico, quando esistono più rami di ragionamento paralleli, decodifichiamo più token per passo utilizzando una maschera di attenzione specializzata, elaborandoli all'interno di una singola sequenza e evitando un ulteriore utilizzo di memoria. I risultati sperimentali mostrano che il nostro metodo raggiunge un incremento di velocità superiore al 100% nel tempo di decodifica, mantenendo invariata la qualità delle risposte.

Affinamento Efficiente del Reinforcement Learning tramite Apprendimento Curriculare Adattivo
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Apr 7

ByTaiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao

Il fine-tuning con rinforzo (RFT) ha dimostrato un grande potenziale per migliorare le capacità di ragionamento matematico dei modelli linguistici di grandi dimensioni (LLM), ma spesso risulta inefficiente in termini di campioni e calcolo, richiedendo un addestramento esteso. In questo lavoro, introduciamo AdaRFT (Adaptive Curriculum Reinforcement Finetuning), un metodo che migliora significativamente sia l'efficienza che l'accuratezza finale del RFT attraverso l'apprendimento adattivo basato su curriculum. AdaRFT regola dinamicamente la difficoltà dei problemi di addestramento in base ai segnali di ricompensa recenti del modello, garantendo che il modello si alleni costantemente su compiti che sono impegnativi ma risolvibili. Questa strategia di campionamento adattivo accelera l'apprendimento mantenendo un intervallo di difficoltà ottimale, evitando di sprecare calcoli su problemi troppo facili o troppo difficili. AdaRFT richiede solo un'estensione leggera agli algoritmi RFT standard come il Proximal Policy Optimization (PPO), senza modificare la funzione di ricompensa o l'architettura del modello. Esperimenti su dataset matematici di livello competitivo, inclusi problemi di tipo AMC, AIME e IMO, dimostrano che AdaRFT migliora significativamente sia l'efficienza dell'addestramento che le prestazioni di ragionamento. Valutiamo AdaRFT su diverse distribuzioni di dati e dimensioni del modello, mostrando che riduce il numero di passi di addestramento fino a 2x e migliora l'accuratezza in modo considerevole, offrendo un framework RFT più scalabile ed efficace.

CrossWordBench: Valutazione delle Capacità di Ragionamento di LLM e LVLM con Generazione Controllata di Puzzle
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

Mar 30

ByJixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

I framework esistenti per la valutazione del ragionamento nei Large Language Models (LLMs) e nei Large Vision-Language Models (LVLMs) si concentrano prevalentemente sulla valutazione del ragionamento basato su testo o sulla comprensione multimodale di testo e immagini, con un'interazione dinamica limitata tra vincoli testuali e visivi. Per affrontare questa limitazione, introduciamo CrossWordBench, un benchmark progettato per valutare le capacità di ragionamento sia degli LLMs che dei LVLMs attraverso il medium dei cruciverba—un'attività che richiede l'aderenza a vincoli semantici derivati da indizi testuali e a vincoli intersezionali derivati dalla struttura visiva della griglia. CrossWordBench sfrutta un framework controllabile per la generazione di puzzle che produce enigmi in più formati (testo e immagine) e offre diverse strategie di valutazione, dalla risoluzione diretta dei puzzle a modalità interattive. La nostra valutazione estensiva di oltre 20 modelli rivela che gli LLMs specializzati nel ragionamento superano significativamente i modelli non specializzati, sfruttando efficacemente i vincoli delle lettere incrociate. Dimostriamo inoltre che i LVLMs faticano in questo compito, mostrando una forte correlazione tra le loro prestazioni nella risoluzione dei puzzle e l'accuratezza nell'analisi della griglia. I nostri risultati offrono approfondimenti sui limiti delle capacità di ragionamento degli attuali LLMs e LVLMs e forniscono un approccio efficace per la creazione di task multimodali vincolati per future valutazioni.

Leanabell-Prover: Scalabilità Post-Addestramento nel Ragionamento Formale
Leanabell-Prover: Posttraining Scaling in Formal Reasoning

Apr 8

ByJingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai

I recenti progressi nel campo del teorema automatico (ATP) attraverso i modelli linguistici di grandi dimensioni (LLMs) hanno evidenziato il potenziale del ragionamento formale con codici Lean 4. Tuttavia, l'ATP non è stato ancora rivoluzionato dal recente scalamento post-addestramento, come dimostrato da Open AI O1/O3 e Deepseek R1. In questo lavoro, indaghiamo l'intero processo post-addestramento dell'ATP, con l'obiettivo di allinearlo alle innovazioni nei modelli di ragionamento per i linguaggi naturali. Per iniziare, addestriamo continuamente i modelli ATP attuali con un dataset ibrido, composto da numerose coppie di enunciato-dimostrazione, e dati aggiuntivi mirati a incorporare comportamenti cognitivi che emulano il ragionamento umano e il perfezionamento delle ipotesi. Successivamente, esploriamo l'apprendimento per rinforzo utilizzando la ricompensa basata sui risultati restituiti dal compilatore Lean 4. Attraverso i nostri processi di addestramento continuo e apprendimento per rinforzo, abbiamo migliorato con successo i dimostratori formali esistenti, inclusi sia DeepSeek-Prover-v1.5 che Goedel-Prover, raggiungendo prestazioni all'avanguardia nel campo della generazione di dimostrazioni complete. Ad esempio, otteniamo un tasso di successo del 59,8% (pass@32) su MiniF2F. Questo è un progetto in corso e aggiorneremo progressivamente i nostri risultati, rilasciando i nostri dati e i dettagli dell'addestramento.

Modelli Mondiali Unificati: Accoppiamento di Diffusione Video e Azione per il Pretraining su Grandi Dataset Robotici
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

Apr 3

ByChuning Zhu, Raymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta

L'apprendimento per imitazione è emerso come un approccio promettente per la costruzione di robot generalisti. Tuttavia, scalare l'apprendimento per imitazione per modelli di robot di grandi dimensioni rimane una sfida a causa della sua dipendenza da dimostrazioni di esperti di alta qualità. Nel frattempo, sono disponibili grandi quantità di dati video che rappresentano una vasta gamma di ambienti e comportamenti diversi. Questi dati forniscono una ricca fonte di informazioni sulle dinamiche del mondo reale e sulle interazioni agente-ambiente. Sfruttare direttamente questi dati per l'apprendimento per imitazione, tuttavia, si è rivelato difficile a causa della mancanza di annotazioni delle azioni richieste dalla maggior parte dei metodi contemporanei. In questo lavoro, presentiamo Unified World Models (UWM), un framework che consente di sfruttare sia i dati video che quelli sulle azioni per l'apprendimento delle politiche. Nello specifico, un UWM integra un processo di diffusione delle azioni e un processo di diffusione video all'interno di un'architettura transformer unificata, dove passi temporali di diffusione indipendenti governano ciascuna modalità. Mostriamo che, semplicemente controllando ciascun passo temporale di diffusione, UWM può rappresentare in modo flessibile una politica, una dinamica diretta, una dinamica inversa e un generatore di video. Attraverso esperimenti simulati e nel mondo reale, dimostriamo che: (1) UWM consente un efficace pre-addestramento su grandi dataset multitask per robot con previsioni sia di dinamiche che di azioni, risultando in politiche più generalizzabili e robuste rispetto all'apprendimento per imitazione, (2) UWM facilita naturalmente l'apprendimento da dati video privi di azioni attraverso il controllo indipendente dei passi temporali di diffusione specifici per modalità, migliorando ulteriormente le prestazioni delle politiche fine-tuned. I nostri risultati suggeriscono che UWM offre un passo promettente verso lo sfruttamento di grandi dataset eterogenei per l'apprendimento scalabile dei robot e fornisce una semplice unificazione tra i paradigmi spesso disparati dell'apprendimento per imitazione e della modellazione del mondo. Video e codice sono disponibili all'indirizzo https://weirdlabuw.github.io/uwm/.

ProtoGCD: Apprendimento Unificato e Imparziale di Prototipi per la Scoperta Generalizzata di Categorie
ProtoGCD: Unified and Unbiased Prototype Learning for Generalized Category Discovery

Apr 2

ByShijie Ma, Fei Zhu, Xu-Yao Zhang, Cheng-Lin Liu

La scoperta generalizzata di categorie (GCD) è un problema pragmatico ma poco esplorato, che richiede ai modelli di raggruppare automaticamente e scoprire nuove categorie sfruttando i campioni etichettati delle classi note. La sfida risiede nel fatto che i dati non etichettati contengono sia classi note che nuove. I primi approcci che utilizzano pseudo-etichettatura con classificatori parametrici gestiscono separatamente le classi note e nuove, portando a una precisione sbilanciata tra di esse. I metodi recenti che impiegano l'apprendimento contrastivo trascurano potenziali positivi e sono disaccoppiati dall'obiettivo di clustering, risultando in rappresentazioni distorte e risultati sub-ottimali. Per affrontare questi problemi, introduciamo un framework unificato e imparziale di apprendimento prototipico, denominato ProtoGCD, in cui le classi note e nuove sono modellate con prototipi congiunti e obiettivi di apprendimento unificati, {consentendo una modellazione unificata tra classi note e nuove}. Nello specifico, proponiamo un meccanismo di pseudo-etichettatura adattivo a doppio livello per mitigare il bias di conferma, insieme a due termini di regolarizzazione che aiutano collettivamente a apprendere rappresentazioni più adatte per la GCD. Inoltre, per considerazioni pratiche, elaboriamo un criterio per stimare il numero di nuove classi. Estendiamo inoltre ProtoGCD per rilevare outlier non visti, raggiungendo un'unificazione a livello di task. Esperimenti completi dimostrano che ProtoGCD raggiunge prestazioni all'avanguardia sia su dataset generici che su dataset fine-grained. Il codice è disponibile all'indirizzo https://github.com/mashijie1028/ProtoGCD.

COIG-P: Un dataset cinese di alta qualità e su larga scala per le preferenze, allineato ai valori umani
COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values

Apr 7