HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

35 papers found

VCRL: Apprendimento per Rinforzo con Curriculum Basato sulla Varianza per Modelli Linguistici di Grandi Dimensioni
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

Sep 24

ByGuochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

117

L'apprendimento per rinforzo basato su politiche svolge attualmente un ruolo importante nel miglioramento dei modelli linguistici di grandi dimensioni (LLM) per i compiti di ragionamento matematico. Tuttavia, i metodi esistenti di apprendimento per rinforzo basati su rollout (GRPO, DAPO, GSPO, ecc.) non considerano esplicitamente la capacità di apprendimento degli LLM per campioni di diversi livelli di difficoltà, il che è in contrasto con il processo cognitivo umano dei compiti di ragionamento matematico che procede dal semplice al complesso. Intuitivamente, osserviamo che la varianza della ricompensa del gruppo di rollout in RLVR riflette in parte la difficoltà del campione corrente per gli LLM. I campioni troppo facili o troppo difficili hanno una varianza inferiore, mentre i campioni con difficoltà moderata presentano una varianza più elevata. Sulla base di ciò, proponiamo VCRL, un framework di apprendimento per rinforzo curriculare che controlla dinamicamente la difficoltà dei campioni di addestramento in base alla varianza delle ricompense di gruppo. Esperimenti condotti su cinque benchmark matematici e due modelli rivelano i vantaggi di VCRL rispetto alle attuali baseline di apprendimento per rinforzo per LLM.

MMR1: Potenziamento del Ragionamento Multimodale con Campionamento Consapevole della Varianza e Risorse Aperte
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

Sep 25

BySicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

100

I grandi modelli di ragionamento multimodale hanno compiuto rapidi progressi, ma il loro avanzamento è limitato da due principali criticità: l'assenza di dati aperti, su larga scala e di alta qualità con lunghe catene di pensiero (CoT), e l'instabilità degli algoritmi di apprendimento per rinforzo (RL) durante la fase di post-addestramento. L'ottimizzazione delle politiche relative al gruppo (GRPO), il framework standard per il fine-tuning RL, è soggetta alla scomparsa del gradiente quando la varianza della ricompensa è bassa, il che indebolisce i segnali di ottimizzazione e compromette la convergenza. Questo lavoro apporta tre contributi: (1) Proponiamo il campionamento consapevole della varianza (VAS), una strategia di selezione dei dati guidata dal punteggio di promozione della varianza (VPS) che combina la varianza dei risultati e la diversità delle traiettorie per promuovere la varianza della ricompensa e stabilizzare l'ottimizzazione delle politiche. (2) Rilasciamo risorse su larga scala, accuratamente curate, contenenti ~1,6 milioni di dati CoT lunghi a freddo e ~15 mila coppie QA RL, progettate per garantire qualità, difficoltà e diversità, insieme a un codice di addestramento end-to-end completamente riproducibile. (3) Rendiamo disponibili una famiglia di modelli di ragionamento multimodale in diverse scale, stabilendo baseline standardizzate per la comunità. Gli esperimenti su benchmark di ragionamento matematico dimostrano l'efficacia sia dei dati curati che del VAS proposto. Studi di ablazione e analisi complete forniscono ulteriori approfondimenti sui contributi di ciascun componente. Inoltre, dimostriamo teoricamente che la varianza della ricompensa limita inferiormente l'entità attesa del gradiente della politica, con il VAS che funge da meccanismo pratico per realizzare questa garanzia. Il nostro codice, i dati e i checkpoint sono disponibili su https://github.com/LengSicong/MMR1.

SciReasoner: Stabilire le Basi del Ragionamento Scientifico Attraverso le Discipline
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Sep 25

ByYizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai

Presentiamo un modello fondamentale per il ragionamento scientifico che allinea il linguaggio naturale con rappresentazioni scientifiche eterogenee. Il modello è pre-addestrato su un corpus di 206 miliardi di token che comprende testi scientifici, sequenze pure e coppie sequenza-testo, poi allineato tramite SFT su 40 milioni di istruzioni, avviato con un bootstrap a freddo per elicitare catene di pensiero lunghe e rafforzato con apprendimento per rinforzo e modellazione di ricompense specifiche per il compito, il che favorisce un ragionamento scientifico deliberato. Supporta quattro famiglie di capacità, coprendo fino a 103 task in diversi flussi di lavoro: (i) traduzione fedele tra testo e formati scientifici, (ii) estrazione di testo/conoscenza, (iii) previsione di proprietà, (iv) classificazione di proprietà, (v) generazione e progettazione di sequenze incondizionate e condizionate. Rispetto ai sistemi specializzati, il nostro approccio amplia la copertura delle istruzioni, migliora la generalizzazione cross-dominio e aumenta la fedeltà. Descriviamo in dettaglio la curatela dei dati e l'addestramento, dimostrando che l'apprendimento interdisciplinare rafforza il trasferimento e l'affidabilità downstream. Il modello, i dataset per il fine-tuning delle istruzioni e il codice di valutazione sono open-source su https://huggingface.co/SciReason e https://github.com/open-sciencelab/SciReason.

Ricerca ad Albero per il Rinforzo dell'Apprendimento degli Agenti LLM
Tree Search for LLM Agent Reinforcement Learning

Sep 25

ByYuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

I recenti progressi nell'apprendimento per rinforzo (RL) hanno significativamente migliorato le capacità agentive dei grandi modelli linguistici (LLMs). Nei compiti agentivi a lungo termine e multi-turn, gli approcci esistenti guidati esclusivamente da ricompense basate sui risultati spesso soffrono del problema della supervisione sparsa. Per affrontare questa sfida, proponiamo l'ottimizzazione relativa delle politiche basata su gruppi ad albero (Tree-GRPO), un metodo RL per agenti raggruppati basato sulla ricerca ad albero, in cui ogni nodo dell'albero rappresenta il passo completo di interazione dell'agente. Condividendo prefissi comuni, il campionamento della ricerca ad albero aumenta il numero di rollout ottenibili entro un budget fisso di token o chiamate a strumenti. Inoltre, scopriamo che la traiettoria strutturata ad albero permette naturalmente la costruzione di segnali di supervisione passo-passo anche utilizzando solo la ricompensa basata sul risultato. Sulla base di ciò, Tree-GRPO stima i vantaggi relativi raggruppati sia a livello intra-albero che inter-albero. Attraverso l'analisi teorica, dimostriamo che l'obiettivo dell'ottimizzazione relativa delle politiche a livello intra-albero è equivalente a quello dell'apprendimento diretto delle preferenze a livello di passo. Esperimenti su 11 dataset e 3 tipi di compiti di domanda-risposta dimostrano la superiorità del metodo RL basato su albero rispetto al metodo RL basato su catena.

Seedream 4.0: Verso la prossima generazione di generazione di immagini multimodali
Seedream 4.0: Toward Next-generation Multimodal Image Generation

Sep 24

ByTeam Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu

Presentiamo Seedream 4.0, un sistema efficiente e ad alte prestazioni per la generazione multimodale di immagini, che unisce la sintesi da testo a immagine (T2I), l'editing di immagini e la composizione di più immagini all'interno di un unico framework. Abbiamo sviluppato un transformer di diffusione altamente efficiente, dotato di un potente VAE (Variational Autoencoder) che riduce significativamente il numero di token delle immagini. Ciò consente un addestramento efficiente del nostro modello e permette la generazione rapida di immagini native ad alta risoluzione (ad esempio, 1K-4K). Seedream 4.0 è preaddestrato su miliardi di coppie testo-immagine che coprono una vasta gamma di tassonomie e concetti centrati sulla conoscenza. Una raccolta dati completa in centinaia di scenari verticali, unita a strategie ottimizzate, garantisce un addestramento stabile e su larga scala, con una forte generalizzazione. Incorporando un modello VLM (Vision-Language Model) accuratamente ottimizzato, eseguiamo un post-addestramento multimodale per addestrare congiuntamente sia i task T2I che quelli di editing di immagini. Per l'accelerazione dell'inferenza, integriamo tecniche come la distillazione avversaria, il matching di distribuzione, la quantizzazione e il decoding speculativo. Il sistema raggiunge un tempo di inferenza fino a 1,8 secondi per generare un'immagine 2K (senza l'uso di un LLM/VLM come modello PE). Valutazioni complete dimostrano che Seedream 4.0 può ottenere risultati all'avanguardia sia nel T2I che nell'editing multimodale di immagini. In particolare, mostra capacità multimodali eccezionali in task complessi, come l'editing preciso di immagini e il ragionamento contestuale, e consente anche il riferimento a più immagini, generando più immagini in output. Questo estende i tradizionali sistemi T2I in uno strumento creativo più interattivo e multidimensionale, spingendo i confini dell'IA generativa sia per la creatività che per applicazioni professionali. Seedream 4.0 è ora accessibile su https://www.volcengine.com/experience/ark?launch=seedream.

Hunyuan3D-Omni: Un Framework Unificato per la Generazione Controllabile di Asset 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

Sep 25

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao

I recenti progressi nei modelli generativi nativi 3D hanno accelerato la creazione di asset per giochi, film e design. Tuttavia, la maggior parte dei metodi si basa ancora principalmente sul condizionamento tramite immagini o testo e manca di controlli granulari e cross-modali, il che limita la controllabilità e l'adozione pratica. Per colmare questa lacuna, presentiamo Hunyuan3D-Omni, un framework unificato per la generazione di asset 3D granulari e controllabili, basato su Hunyuan3D 2.1. Oltre alle immagini, Hunyuan3D-Omni accetta nuvole di punti, voxel, bounding box e prior di pose scheletriche come segnali di condizionamento, consentendo un controllo preciso su geometria, topologia e pose. Invece di utilizzare testine separate per ogni modalità, il nostro modello unifica tutti i segnali in un'unica architettura cross-modale. Addestriamo il modello con una strategia di campionamento progressiva e consapevole della difficoltà, che seleziona una modalità di controllo per esempio e favorisce il campionamento verso segnali più complessi (ad esempio, pose scheletriche) mentre riduce il peso di quelli più semplici (ad esempio, nuvole di punti), promuovendo una fusione multi-modale robusta e una gestione elegante degli input mancanti. Gli esperimenti dimostrano che questi controlli aggiuntivi migliorano l'accuratezza della generazione, abilitano trasformazioni consapevoli della geometria e aumentano la robustezza per i flussi di lavoro di produzione.

AutoIntent: AutoML per la Classificazione del Testo
AutoIntent: AutoML for Text Classification

Sep 25

ByIlya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov

AutoIntent è uno strumento di machine learning automatizzato per attività di classificazione testuale. A differenza delle soluzioni esistenti, AutoIntent offre un'automazione end-to-end con selezione del modello di embedding, ottimizzazione del classificatore e regolazione della soglia decisionale, il tutto all'interno di un'interfaccia modulare simile a sklearn. Il framework è progettato per supportare la classificazione multi-label e il rilevamento di casi fuori contesto. AutoIntent dimostra prestazioni superiori rispetto agli strumenti AutoML esistenti su dataset standard di classificazione delle intenzioni e consente agli utenti di bilanciare efficacia e consumo di risorse.

TrustJudge: Inconsistenze di LLM-come-Giudice e Come Mitigarle
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

Sep 25

ByYidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang

L'adozione di Large Language Models (LLM) come valutatori automatizzati (LLM-as-a-judge) ha rivelato inconsistenze critiche negli attuali framework di valutazione. Identifichiamo due tipi fondamentali di inconsistenze: (1) Inconsistenza nel Confronto dei Punteggi, dove risposte con punteggi più bassi superano quelle con punteggi più alti in confronti a coppie, e (2) Inconsistenza nella Transitività a Coppie, manifestata attraverso catene di preferenze circolari (A>B>C>A) e contraddizioni di equivalenza (A=B=C≠A). Sosteniamo che questi problemi derivano dalla perdita di informazioni nei sistemi di valutazione discreta e da giudizi ambigui di parità durante la valutazione a coppie. Proponiamo TrustJudge, un framework probabilistico che affronta queste limitazioni attraverso due innovazioni chiave: 1) un punteggio sensibile alla distribuzione che calcola aspettative continue dalle probabilità di valutazione discrete, preservando l'entropia dell'informazione per un punteggio più preciso, e 2) un'aggregazione consapevole della verosimiglianza che risolve le violazioni della transitività utilizzando probabilità di preferenza bidirezionali o perplessità. Formalizziamo inoltre i limiti teorici degli attuali framework LLM-as-a-judge e dimostriamo come i componenti di TrustJudge li superino. Quando valutato con Llama-3.1-70B-Instruct come giudice utilizzando il nostro dataset, TrustJudge riduce l'inconsistenza nel Confronto dei Punteggi dell'8.43% (da 23.32% a 14.89%) e l'inconsistenza nella Transitività a Coppie del 10.82% (da 15.22% a 4.40%), mantenendo una maggiore accuratezza di valutazione. Il nostro lavoro fornisce la prima analisi sistematica delle inconsistenze nei framework di valutazione nei paradigmi LLM-as-a-judge, offrendo sia intuizioni teoriche che soluzioni pratiche per una valutazione automatizzata affidabile. Il framework dimostra miglioramenti consistenti attraverso varie architetture e scale di modelli, consentendo una valutazione più affidabile degli LLM senza richiedere ulteriori addestramenti o annotazioni umane. I codici sono disponibili all'indirizzo https://github.com/TrustJudge/TrustJudge.

Pensiero Aumentato Pre-addestramento
Thinking Augmented Pre-training

Sep 24

ByLiang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

Questo articolo introduce un approccio semplice e scalabile per migliorare l'efficienza dei dati nel training di grandi modelli linguistici (LLM) arricchendo i dati testuali esistenti con traiettorie di pensiero. Il calcolo necessario per il pre-training degli LLM è cresciuto a un ritmo senza precedenti, mentre la disponibilità di dati di alta qualità rimane limitata. Di conseguenza, massimizzare l'utilità dei dati disponibili costituisce una sfida di ricerca significativa. Un ostacolo primario è che certi token di alta qualità sono difficili da apprendere data una capacità fissa del modello, poiché la logica sottostante a un singolo token può essere eccezionalmente complessa e profonda. Per affrontare questo problema, proponiamo il Thinking augmented Pre-Training (TPT), una metodologia universale che arricchisce il testo con traiettorie di pensiero generate automaticamente. Tale arricchimento aumenta efficacemente il volume dei dati di training e rende i token di alta qualità più apprendibili attraverso ragionamenti e scomposizioni passo-passo. Applichiamo TPT in diverse configurazioni di training fino a 100B di token, comprendendo pre-training sia con dati limitati che abbondanti, nonché mid-training a partire da checkpoint open-source robusti. I risultati sperimentali indicano che il nostro metodo migliora sostanzialmente le prestazioni degli LLM in varie dimensioni e famiglie di modelli. In particolare, TPT aumenta l'efficienza dei dati nel pre-training degli LLM di un fattore 3. Per un modello da 3B di parametri, migliora le prestazioni post-training di oltre il 10% su diversi benchmark di ragionamento complessi.

RL Residuo Off-Policy per l'Affinamento di Politiche di Clonazione del Comportamento
Residual Off-Policy RL for Finetuning Behavior Cloning Policies

Sep 23

ByLars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

I recenti progressi nel comportamento clonato (BC) hanno permesso di sviluppare politiche di controllo visuomotorio impressionanti. Tuttavia, questi approcci sono limitati dalla qualità delle dimostrazioni umane, dallo sforzo manuale richiesto per la raccolta dei dati e dai rendimenti decrescenti derivanti dall'aumento dei dati offline. Al contrario, l'apprendimento per rinforzo (RL) addestra un agente attraverso l'interazione autonoma con l'ambiente e ha dimostrato un notevole successo in vari domini. Tuttavia, l'addestramento diretto di politiche RL su robot del mondo reale rimane impegnativo a causa dell'inefficienza campionaria, delle preoccupazioni legate alla sicurezza e della difficoltà di apprendere da ricompense sparse per compiti a lungo termine, specialmente per sistemi con un alto grado di libertà (DoF). Presentiamo una ricetta che combina i vantaggi di BC e RL attraverso un framework di apprendimento residuo. Il nostro approccio sfrutta le politiche BC come basi black-box e apprende correzioni residue leggere passo-passo tramite RL off-policy ad alta efficienza campionaria. Dimostriamo che il nostro metodo richiede solo segnali di ricompensa binari sparsi e può migliorare efficacemente le politiche di manipolazione su sistemi con alto grado di libertà (DoF) sia in simulazione che nel mondo reale. In particolare, dimostriamo, per quanto ne sappiamo, il primo addestramento RL di successo nel mondo reale su un robot umanoide con mani abili. I nostri risultati dimostrano prestazioni all'avanguardia in vari compiti basati sulla visione, indicando una via pratica per l'implementazione di RL nel mondo reale. Sito web del progetto: https://residual-offpolicy-rl.github.io

CE-GPPO: Controllo dell'Entropia tramite Ottimizzazione delle Politiche con Clipping Preservante il Gradiente nell'Apprendimento per Rinforzo
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Sep 25

ByZhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma potente per ottimizzare i modelli linguistici di grandi dimensioni (Large Language Models, LLMs) nella gestione di compiti di ragionamento complessi. Una sfida centrale in questo processo risiede nella gestione dell'entropia della policy, che riflette l'equilibrio tra esplorazione e sfruttamento durante l'addestramento. I metodi esistenti, come l'ottimizzazione prossimale della policy (Proximal Policy Optimization, PPO) e le sue varianti, scartano segnali di gradiente preziosi provenienti da token a bassa probabilità a causa del meccanismo di clipping. Analizziamo sistematicamente le dinamiche dell'entropia e riveliamo che questi token tagliati svolgono un ruolo critico ma trascurato nella regolazione dell'evoluzione dell'entropia. Proponiamo Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nuovo algoritmo che reintroduce i gradienti dai token tagliati nel PPO nativo in modo delicato e limitato. Controllando l'ampiezza dei gradienti provenienti da token al di fuori dell'intervallo di clipping, CE-GPPO è in grado di raggiungere un compromesso tra esplorazione e sfruttamento. Forniamo una giustificazione teorica e prove empiriche che dimostrano come CE-GPPO mitighi efficacemente l'instabilità dell'entropia. Esperimenti estesi su benchmark di ragionamento matematico mostrano che CE-GPPO supera costantemente i baseline forti su diverse scale di modelli.

Recon-Act: Un Sistema Multi-Agente Auto-Evolvente per l'Utilizzo del Browser tramite Ricognizione Web, Generazione di Strumenti ed Esecuzione di Attività
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Sep 25

ByKaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu

Negli ultimi anni, i modelli multimodali hanno compiuto progressi significativi, aprendo la strada a agenti intelligenti per l'uso del browser. Tuttavia, quando si tratta di risolvere compiti su pagine web reali in traiettorie multi-turn e a lungo termine, gli agenti attuali continuano a soffrire di sequenze di azioni disordinate e di un eccessivo ricorso a tentativi ed errori durante l'esecuzione. Questo articolo introduce Recon-Act, un framework multi-agente auto-evolvente basato sul paradigma comportamentale Ricognizione-Azione. Il sistema è composto da un Team di Ricognizione e un Team di Azione: il primo conduce analisi comparative e genera strumenti, mentre il secondo gestisce la scomposizione delle intenzioni, l'orchestrazione degli strumenti e l'esecuzione. Confrontando le traiettorie errate con quelle di successo, il Team di Ricognizione deduce rimedi e li astrae in una nozione unificata di strumenti generalizzati, espressi come suggerimenti o codici basati su regole, e li registra in tempo reale nell'archivio degli strumenti. Il Team di Azione rielabora il processo potenziato da questi strumenti mirati, stabilendo così una pipeline di addestramento a ciclo chiuso di dati-strumenti-azione-feedback. Seguendo la roadmap di implementazione a 6 livelli proposta in questo lavoro, abbiamo attualmente raggiunto il Livello 3 (con un intervento umano limitato in-the-loop). Sfruttando gli strumenti generalizzati ottenuti attraverso la ricognizione, Recon-Act migliora sostanzialmente l'adattabilità a siti web non visti e la risolvibilità di compiti a lungo termine, raggiungendo prestazioni all'avanguardia sul complesso dataset VisualWebArena.

CHARM: Modellazione Auto-Regressiva di Acconciature Anime 3D Basata su Punti di Controllo
CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

Sep 25

ByYuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang

Presentiamo CHARM, una rappresentazione parametrica innovativa e un framework generativo per la modellazione di acconciature anime. Mentre i metodi tradizionali di modellazione dei capelli si concentrano su capelli realistici utilizzando rappresentazioni basate su ciocche o volumetriche, le acconciature anime presentano una geometria altamente stilizzata e strutturata a tratti che mette alla prova le tecniche esistenti. I lavori esistenti spesso si basano su modellazione a mesh densa o curve spline create manualmente, rendendoli inefficienti per la modifica e inadatti per un apprendimento scalabile. CHARM introduce una parametrizzazione compatta e invertibile basata su punti di controllo, in cui una sequenza di punti di controllo rappresenta ogni ciocca di capelli, e ogni punto è codificato con solo cinque parametri geometrici. Questa rappresentazione efficiente e accurata supporta sia la progettazione artistica che la generazione basata sull'apprendimento. Basato su questa rappresentazione, CHARM introduce un framework generativo autoregressivo che genera efficacemente acconciature anime da immagini o nuvole di punti in input. Interpretando le acconciature anime come un "linguaggio dei capelli" sequenziale, il nostro trasformatore autoregressivo cattura sia la geometria locale che la topologia globale dell'acconciatura, ottenendo una creazione di acconciature anime ad alta fedeltà. Per facilitare sia l'addestramento che la valutazione della generazione di acconciature anime, abbiamo costruito AnimeHair, un dataset su larga scala di 37K acconciature anime di alta qualità con ciocche di capelli separate e dati mesh elaborati. Esperimenti estensivi dimostrano prestazioni all'avanguardia di CHARM sia in termini di accuratezza di ricostruzione che di qualità di generazione, offrendo una soluzione espressiva e scalabile per la modellazione di acconciature anime. Pagina del progetto: https://hyzcluster.github.io/charm/

FLUX Sa Già Come Eseguire una Composizione di Immagini Fisicamente Plausibile?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Sep 25

ByShilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

La composizione di immagini mira a inserire in modo fluido un oggetto specificato dall'utente in una nuova scena, ma i modelli esistenti faticano a gestire illuminazioni complesse (ad esempio, ombre accurate, riflessi sull'acqua) e input diversificati ad alta risoluzione. I moderni modelli di diffusione da testo a immagine (ad esempio, SD3.5, FLUX) codificano già priorità fisiche e di risoluzione essenziali, ma mancano di un framework per sfruttarle senza ricorrere all'inversione latente, che spesso blocca le pose degli oggetti in orientamenti contestualmente inappropriati, o a interventi fragili sull'attenzione. Proponiamo SHINE, un framework senza addestramento per un Inserimento Senza Soluzione di Continuità e ad Alta Fedeltà con Errori Neutralizzati. SHINE introduce una perdita di ancoraggio guidata dalla varietà, sfruttando adattatori di personalizzazione pre-addestrati (ad esempio, IP-Adapter) per guidare i latenti verso una rappresentazione fedele del soggetto preservando l'integrità dello sfondo. Vengono proposti una guida alla soppressione del degrado e una fusione adattiva dello sfondo per eliminare ulteriormente output di bassa qualità e cuciture visibili. Per affrontare la mancanza di benchmark rigorosi, introduciamo ComplexCompo, che presenta risoluzioni diversificate e condizioni impegnative come illuminazione ridotta, illuminazione intensa, ombre intricate e superfici riflettenti. Gli esperimenti su ComplexCompo e DreamEditBench mostrano prestazioni all'avanguardia su metriche standard (ad esempio, DINOv2) e punteggi allineati all'umano (ad esempio, DreamSim, ImageReward, VisionReward). Codice e benchmark saranno pubblicamente disponibili alla pubblicazione.

Comprendere il Processo di Pensiero dei Modelli di Ragionamento: Una Prospettiva dalla Teoria degli Episodi di Schoenfeld
Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

Sep 18

ByMing Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

Mentre i Large Reasoning Models (LRM) generano estese catene di ragionamento, manca un framework strutturato per comprendere come questi pensieri siano organizzati. In questo articolo, introduciamo un approccio innovativo applicando la Teoria degli Episodi di Schoenfeld, un classico framework cognitivo per la risoluzione di problemi matematici umani, per analizzare le tracce di ragionamento degli LRM. Abbiamo annotato migliaia di frasi e paragrafi provenienti da soluzioni generate da modelli per problemi matematici utilizzando sette etichette cognitive (ad esempio, Pianificare, Implementare, Verificare). Il risultato è il primo benchmark pubblicamente disponibile per l'analisi granulare del ragionamento automatico, comprendente un ampio corpus annotato e guide dettagliate per l'annotazione. La nostra analisi preliminare rivela modelli distinti nel ragionamento degli LRM, come le dinamiche di transizione tra stati cognitivi. Questo framework fornisce una metodologia teoricamente fondata per interpretare la cognizione degli LRM e consente futuri lavori su sistemi di ragionamento più controllabili e trasparenti.

UserRL: Addestramento di Agenti Interattivi Centrati sull'Utente tramite Apprendimento per Rinforzo
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

Sep 24

ByCheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

L'apprendimento per rinforzo (RL) ha dimostrato potenziale nell'addestrare modelli agentici che vanno oltre i benchmark statici per impegnarsi in interazioni dinamiche e multi-turn. Tuttavia, il valore ultimo di tali agenti risiede nella loro capacità di assistere gli utenti, un contesto in cui la diversità e la dinamicità delle interazioni con l'utente pongono sfide. In questo lavoro, proponiamo UserRL, un framework unificato per l'addestramento e la valutazione delle abilità centrate sull'utente attraverso ambienti gym standardizzati accoppiati con utenti simulati. Variamo sistematicamente l'assegnazione delle ricompense a livello di turno e il calcolo dei punteggi a livello di traiettoria per analizzare come diverse formulazioni influenzano l'apprendimento con l'algoritmo GRPO. I nostri esperimenti sui modelli Qwen3 rivelano tre risultati chiave: (i) l'avvio a freddo con SFT è cruciale per sbloccare l'abilità iniziale di interazione e consentire miglioramenti sostenuti con RL; (ii) il punteggio deliberato delle traiettorie produce interazioni multi-turn più efficienti ed efficaci; e (iii) sebbene utenti simulati più forti (ad esempio, GPT-4o) facilitino l'addestramento, i simulatori open-source (ad esempio, Qwen3-32B) rimangono un'opzione conveniente e trasferibile. Insieme, questi risultati evidenziano che un'attenta progettazione della modellazione delle ricompense e della scelta della simulazione degli utenti è tanto cruciale quanto la scala del modello, e stabiliscono UserRL come un percorso pratico per sviluppare modelli agentici robusti e centrati sull'utente. Tutti i codici e i dati sono pubblici per future ricerche.

SD3.5-Flash: Distillazione Guidata dalla Distribuzione di Flussi Generativi
SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

Sep 25

ByHmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani

Presentiamo SD3.5-Flash, un framework efficiente di distillazione a pochi passi che porta la generazione di immagini di alta qualità su dispositivi consumer accessibili. Il nostro approccio distilla modelli di flusso rettificato computazionalmente proibitivi attraverso un obiettivo riformulato di corrispondenza delle distribuzioni, specificamente adattato per la generazione a pochi passi. Introduciamo due innovazioni chiave: la "condivisione del timestep" per ridurre il rumore del gradiente e il "fine-tuning a timestep divisi" per migliorare l'allineamento con i prompt. Combinato con ottimizzazioni complete della pipeline come la ristrutturazione del codificatore di testo e una quantizzazione specializzata, il nostro sistema consente sia una generazione rapida che un'implementazione efficiente in termini di memoria su diverse configurazioni hardware. Ciò democratizza l'accesso su tutta la gamma di dispositivi, dai telefoni cellulari ai computer desktop. Attraverso una valutazione estesa che include studi su larga scala con utenti, dimostriamo che SD3.5-Flash supera costantemente i metodi esistenti a pochi passi, rendendo l'IA generativa avanzata veramente accessibile per l'implementazione pratica.

ScaleDiff: Scalabilità di Problemi Complessi per il Ragionamento Matematico Avanzato
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

Sep 25

ByQizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu

I Large Reasoning Models (LRM) hanno dimostrato capacità impressionanti nella risoluzione di problemi complessi, spesso beneficiando di un addestramento su problemi matematici difficili che stimolano ragionamenti intricati. Recenti sforzi hanno esplorato la sintesi automatizzata di problemi matematici mediante il prompting di modelli proprietari o modelli open-source su larga scala, partendo da dati di base o concetti matematici intrinseci. Tuttavia, scalare questi metodi rimane una sfida a causa del loro elevato costo computazionale/API, della complessità del prompting e del livello di difficoltà limitato dei problemi generati. Per superare queste limitazioni, proponiamo ScaleDiff, una pipeline semplice ma efficace progettata per scalare la creazione di problemi difficili. Identifichiamo in modo efficiente problemi difficili da dataset esistenti con un solo passaggio in avanti utilizzando un modello di pensiero adattivo, che può percepire la difficoltà del problema e passare automaticamente tra modalità "Thinking" e "NoThinking". Successivamente, addestriamo un generatore specializzato di problemi difficili (DiffGen-8B) su questi dati filtrati, che può produrre nuovi problemi difficili su larga scala, eliminando la necessità di un prompting complesso per ogni istanza e i relativi costi API elevati. Il fine-tuning di Qwen2.5-Math-7B-Instruct sul dataset ScaleDiff-Math produce un aumento sostanziale delle prestazioni dell'11,3% rispetto al dataset originale e raggiunge una precisione media del 65,9% su AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 e MATH500, superando recenti LRM forti come OpenThinker3. È importante notare che queste prestazioni sono ottenute utilizzando il modello Qwen3-8B, economicamente efficiente, come insegnante, dimostrando che la nostra pipeline può trasferire efficacemente capacità di ragionamento avanzate senza fare affidamento su modelli insegnanti più grandi e costosi. Inoltre, osserviamo un chiaro fenomeno di scaling nelle prestazioni del modello su benchmark difficili all'aumentare della quantità di problemi difficili. Codice: https://github.com/QizhiPei/ScaleDiff.

V-GameGym: Generazione Visiva di Giochi per Modelli Linguistici di Codice su Larga Scala
V-GameGym: Visual Game Generation for Code Large Language Models

Sep 24

ByWei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou

I modelli linguistici di grandi dimensioni per il codice hanno dimostrato capacità notevoli nelle attività di programmazione, tuttavia i benchmark attuali si concentrano principalmente su una singola modalità piuttosto che sullo sviluppo di giochi visivi. La maggior parte dei benchmark esistenti relativi al codice valuta la correttezza sintattica e l'accuratezza di esecuzione, tralasciando metriche critiche specifiche per i giochi come la giocabilità, l'estetica visiva e l'engagement degli utenti, essenziali per il dispiegamento nel mondo reale. Per colmare il divario tra le attuali capacità dei modelli linguistici nella risoluzione di problemi algoritmici e nella programmazione competitiva rispetto ai requisiti completi dello sviluppo pratico di giochi, presentiamo V-GameGym, un benchmark completo che comprende 2.219 campioni di alta qualità suddivisi in 100 cluster tematici derivati da repository del mondo reale, adottando una metodologia di curatela basata sul clustering per garantire sia la diversità che la completezza strutturale. Inoltre, introduciamo un framework di valutazione multimodale con una pipeline automatizzata guidata da modelli linguistici per la sintesi visiva del codice utilizzando ambienti sandbox UI completi. La nostra analisi estensiva rivela che V-GameGym colma efficacemente il divario tra l'accuratezza nella generazione del codice e i flussi di lavoro pratici per lo sviluppo di giochi, fornendo metriche di qualità quantificabili per la programmazione visiva e la generazione di elementi interattivi.

Dietro RoPE: Come la Maschera Causale Codifica le Informazioni Posizionali?
Behind RoPE: How Does Causal Mask Encode Positional Information?

Sep 25

ByJunu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

Mentre le codifiche posizionali esplicite come RoPE rappresentano una fonte primaria di informazioni posizionali nei decoder Transformer, anche la maschera causale fornisce informazioni posizionali. In questo lavoro, dimostriamo che la maschera causale può indurre pattern dipendenti dalla posizione nei punteggi di attenzione, anche senza parametri o dipendenza causale nell'input. La nostra analisi teorica indica che il pattern di attenzione indotto tende a favorire coppie query-chiave vicine, rispecchiando il comportamento delle comuni codifiche posizionali. L'analisi empirica conferma che i modelli addestrati mostrano lo stesso comportamento, con i parametri appresi che amplificano ulteriormente questi pattern. In particolare, abbiamo scoperto che l'interazione tra la maschera causale e RoPE distorce i pattern relativi dei punteggi di attenzione di RoPE in pattern non relativi. Abbiamo osservato costantemente questo effetto nei moderni modelli linguistici di grandi dimensioni, suggerendo l'importanza di considerare la maschera causale come una fonte di informazioni posizionali insieme alle codifiche posizionali esplicite.

SceneWeaver: Sintesi di Scene 3D Tutto-in-Uno con un Agente Estensibile e Auto-Riflessivo
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Sep 24

ByYandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

La sintesi di scene indoor è diventata sempre più importante con l'ascesa dell'Embodied AI, che richiede ambienti 3D non solo visivamente realistici, ma anche fisicamente plausibili e funzionalmente diversificati. Sebbene gli approcci recenti abbiano migliorato la fedeltà visiva, spesso rimangono limitati a categorie di scene fisse, mancano di dettagli sufficienti a livello di oggetti e di coerenza fisica, e faticano ad allinearsi con istruzioni complesse dell'utente. In questo lavoro, presentiamo SceneWeaver, un framework agentico riflessivo che unifica paradigmi diversi di sintesi di scene attraverso un affinamento iterativo basato su strumenti. Al suo core, SceneWeaver utilizza un pianificatore basato su modelli linguistici per selezionare da una suite di strumenti estensibili per la generazione di scene, che vanno da modelli generativi basati su dati a metodi visivi e basati su LLM, guidati da una autovalutazione della plausibilità fisica, del realismo visivo e dell'allineamento semantico con l'input dell'utente. Questo design a ciclo chiuso ragiona-agisci-riflette consente all'agente di identificare inconsistenze semantiche, invocare strumenti mirati e aggiornare l'ambiente attraverso iterazioni successive. Esperimenti estensivi su tipi di stanze comuni e a vocabolario aperto dimostrano che SceneWeaver non solo supera i metodi precedenti in termini di metriche fisiche, visive e semantiche, ma si generalizza efficacemente anche a scene complesse con istruzioni diversificate, segnando un passo verso la generazione di ambienti 3D a scopo generale. Sito web del progetto: https://scene-weaver.github.io/.

Trasformatore con Geometria Visiva Quantizzata e Ancorata
Quantized Visual Geometry Grounded Transformer

Sep 25

ByWeilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

I modelli di ricostruzione 3D basati sull'apprendimento, rappresentati dai Visual Geometry Grounded Transformers (VGGT), hanno compiuto progressi significativi grazie all'uso di trasformatori su larga scala. Tuttavia, i loro proibitivi costi computazionali e di memoria ostacolano gravemente il dispiegamento nel mondo reale. La Quantizzazione Post-Addestramento (PTQ) è diventata una pratica comune per comprimere e accelerare i modelli. Tuttavia, osserviamo empiricamente che la PTQ affronta ostacoli unici quando si tratta di comprimere VGGT su scala miliardaria: i token speciali indipendenti dai dati inducono distribuzioni di attivazione a coda pesante, mentre la natura multi-vista dei dati 3D rende altamente instabile la selezione dei campioni di calibrazione. Questo articolo propone il primo framework di quantizzazione per VGGT, denominato QuantVGGT. Questo si basa principalmente su due contributi tecnici: in primo luogo, introduciamo la Quantizzazione Fine-Grained a Doppia Lisciatura, che integra la rotazione di Hadamard pre-globale e la lisciatura locale post-canale per mitigare robustamente le distribuzioni a coda pesante e la varianza inter-canale. In secondo luogo, progettiamo il Campionamento Diversificato Filtrato dal Rumore, che filtra gli outlier tramite statistiche di strati profondi e costruisce cluster di calibrazione diversificati e consapevoli del frame per garantire intervalli di quantizzazione stabili. Esperimenti completi dimostrano che QuantVGGT raggiunge risultati all'avanguardia su diversi benchmark e bit-width, superando di gran lunga il precedente metodo di quantizzazione generico all'avanguardia. Sottolineiamo che il nostro QuantVGGT a 4 bit può offrire una riduzione della memoria di 3,7 volte e un'accelerazione di 2,5 volte nell'inferenza su hardware reale, mantenendo un'accuratezza di ricostruzione superiore al 98% rispetto alla controparte a precisione completa. Ciò dimostra i vasti vantaggi e la praticità di QuantVGGT in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/wlfeng0509/QuantVGGT.

Quando il giudizio diventa rumore: come i difetti di progettazione nei benchmark di valutazione degli LLM minano silenziosamente la validità
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

Sep 24

ByBenjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson

I benchmark valutati da LLM sono sempre più utilizzati per valutare comportamenti complessi dei modelli, ma il loro design introduce modalità di fallimento assenti nei benchmark convenzionali basati su ground truth. Sosteniamo che, senza obiettivi rigorosi e costruzioni verificabili, le classifiche dei benchmark possono produrre ranking ad alta confidenza che in realtà sono prevalentemente rumore. Introduciamo due meccanismi per diagnosticare questi problemi. L'aderenza schematica quantifica quanto del verdetto complessivo di un giudice è spiegato dallo schema di valutazione esplicito, rivelando varianza inspiegata quando i giudici deviano dal proprio criterio. La validità psicometrica aggrega segnali di coerenza interna e validità discriminante per quantificare l'incertezza irriducibile in qualsiasi esecuzione di benchmarking. Applicando questi strumenti ad Arena-Hard Auto, troviamo una grave incoerenza dello schema e un collasso dei fattori tra i giudici più popolari: ad esempio, una varianza inspiegata superiore al 90% per DeepSeek-R1-32B e correlazioni dei fattori superiori a 0,93 per la maggior parte dei criteri. Mostriamo inoltre che l'aggregazione in stile ELO utilizzata da Arena-Hard Auto collassa e maschera la genuina incertezza del ranking. I nostri risultati evidenziano fallimenti di progettazione che minano la validità e offrono principi attuabili per costruire benchmark valutati da LLM con un ambito migliore e consapevoli dell'affidabilità. Rilasciamo il nostro codice all'indirizzo https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.

CompLLM: Compressione per Q&A con Contesti Lunghi
CompLLM: Compression for Long Context Q&A

Sep 23

ByGabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah

I Large Language Model (LLM) affrontano significative sfide computazionali quando elaborano contesti lunghi a causa della complessità quadratica del meccanismo di self-attention. Sebbene i metodi di compressione soft del contesto, che mappano il testo di input in rappresentazioni latenti più piccole, abbiano mostrato potenziale, la loro adozione nel mondo reale è limitata. Le tecniche esistenti tipicamente comprimono il contesto come un’unica unità, il che comporta una complessità di compressione quadratica e l’impossibilità di riutilizzare i calcoli tra query con contesti sovrapposti. In questo lavoro, introduciamo CompLLM, una tecnica di compressione soft progettata per un impiego pratico. Invece di elaborare il contesto in modo olistico, CompLLM lo suddivide in segmenti e comprime ciascuno in modo indipendente. Questa scelta progettuale semplice produce tre proprietà critiche: efficienza, poiché il passo di compressione scala linearmente con la lunghezza del contesto; scalabilità, consentendo a modelli addestrati su sequenze brevi (ad esempio, 1k token) di generalizzare a contesti di 100k token; e riutilizzabilità, permettendo ai segmenti compressi di essere memorizzati nella cache e riutilizzati tra query diverse. I nostri esperimenti mostrano che, con un tasso di compressione di 2x, per contesti molto lunghi CompLLM accelera il Time To First Token (TTFT) fino a 4x e riduce la dimensione della cache KV del 50%. Inoltre, CompLLM raggiunge prestazioni comparabili a quelle ottenute con il contesto non compresso, e le supera persino su sequenze molto lunghe, dimostrando la sua efficacia e utilità pratica.

BESPOKE: Benchmark per la Personalizzazione di Modelli Linguistici di Grande Dimensione Potenziati dalla Ricerca tramite Feedback Diagnostico
BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

Sep 25

ByHyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee

I modelli linguistici di grandi dimensioni (LLM) potenziati dalla ricerca hanno fatto progredire le attività di ricerca di informazioni integrando il recupero nella generazione, riducendo il carico cognitivo degli utenti rispetto ai tradizionali sistemi di ricerca. Tuttavia, rimangono insufficienti per soddisfare appieno le diverse esigenze degli utenti, che richiedono il riconoscimento di come la stessa query possa riflettere intenzioni diverse tra gli utenti e la consegna delle informazioni nelle forme preferite. Sebbene sistemi recenti come ChatGPT e Gemini tentino la personalizzazione sfruttando le cronologie degli utenti, una valutazione sistematica di tale personalizzazione è ancora poco esplorata. Per colmare questa lacuna, proponiamo BESPOKE, il benchmark realistico per valutare la personalizzazione nei LLM potenziati dalla ricerca. BESPOKE è progettato per essere sia realistico, raccogliendo cronologie di chat e ricerche autentiche direttamente dagli esseri umani, sia diagnostico, abbinando le risposte a punteggi di preferenza dettagliati e feedback. Il benchmark è costruito attraverso un'annotazione umana a lungo termine e profondamente coinvolta, in cui gli annotatori umani hanno contribuito con le proprie cronologie, hanno formulato query con esigenze informative dettagliate e hanno valutato le risposte con punteggi e feedback diagnostici. Utilizzando BESPOKE, conduciamo analisi sistematiche che rivelano i requisiti chiave per una personalizzazione efficace nelle attività di ricerca di informazioni, fornendo una base per una valutazione dettagliata dei LLM potenziati dalla ricerca personalizzati. Il nostro codice e i dati sono disponibili all'indirizzo https://augustinlib.github.io/BESPOKE/.

OverLayBench: Un Benchmark per la Generazione da Layout a Immagine con Sovrapposizioni Dense
OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

Sep 23

ByBingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu

Nonostante i progressi costanti nella generazione di immagini da layout, i metodi attuali continuano a incontrare difficoltà con layout che presentano una sovrapposizione significativa tra le bounding box. Identifichiamo due principali sfide: (1) regioni di sovrapposizione ampie e (2) istanze sovrapposte con una distinzione semantica minima. Attraverso esempi qualitativi e analisi quantitative, dimostriamo come questi fattori degradino la qualità della generazione. Per valutare sistematicamente questo problema, introduciamo OverLayScore, una nuova metrica che quantifica la complessità delle bounding box sovrapposte. La nostra analisi rivela che i benchmark esistenti sono orientati verso casi più semplici con valori bassi di OverLayScore, limitando la loro efficacia nella valutazione delle prestazioni dei modelli in condizioni più impegnative. Per colmare questa lacuna, presentiamo OverLayBench, un nuovo benchmark che offre annotazioni di alta qualità e una distribuzione bilanciata tra diversi livelli di OverLayScore. Come primo passo verso il miglioramento delle prestazioni su sovrapposizioni complesse, proponiamo anche CreatiLayout-AM, un modello ottimizzato su un dataset curato di maschere amodali. Insieme, i nostri contributi gettano le basi per una generazione di immagini da layout più robusta in scenari realistici e impegnativi. Link del progetto: https://mlpc-ucsd.github.io/OverLayBench.

MOSS-ChatV: Apprendimento per Rinforzo con Ricompensa basata sul Ragionamento Processuale per il Ragionamento Temporale nei Video
MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

Sep 25

BySicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu

Il ragionamento video è emerso come una capacità cruciale per i modelli linguistici multimodali di grandi dimensioni (MLLM), richiedendo ai modelli di andare oltre la percezione statica verso una comprensione coerente delle dinamiche temporali in scene complesse. Tuttavia, gli MLLM esistenti spesso mostrano incoerenza nel processo, dove il ragionamento intermedio si discosta dalle dinamiche video anche quando la risposta finale è corretta, minando l'interpretabilità e la robustezza. Per affrontare questo problema, introduciamo MOSS-ChatV, un framework di apprendimento per rinforzo con una ricompensa basata sul Dynamic Time Warping (DTW). Questa ricompensa basata su regole allinea le tracce di ragionamento con riferimenti temporalmente ancorati, consentendo una supervisione efficiente del processo senza modelli di ricompensa ausiliari. Identifichiamo inoltre la previsione dinamica dello stato come una misura chiave del ragionamento video e costruiamo MOSS-Video, un benchmark con tracce di ragionamento annotate, dove la divisione di addestramento è utilizzata per affinare MOSS-ChatV e la divisione di valutazione è riservata per la valutazione. MOSS-ChatV raggiunge l'87,2\% su MOSS-Video (test) e migliora le prestazioni su benchmark video generali come MVBench e MMVU. Il framework produce guadagni consistenti su diverse architetture, tra cui Qwen2.5-VL e Phi-2, confermandone l'ampia applicabilità. Le valutazioni con GPT-4o come giudice mostrano inoltre che MOSS-ChatV produce tracce di ragionamento più coerenti e stabili.

Agente di Raccomandazione Interattivo con Comandi Attivi dell'Utente
Interactive Recommendation Agent with Active User Commands

Sep 25

ByJiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

I tradizionali sistemi di raccomandazione si basano su meccanismi di feedback passivi che limitano gli utenti a scelte semplici come "mi piace" e "non mi piace". Tuttavia, questi segnali a grana grossa non riescono a catturare le motivazioni e le intenzioni comportamentali sfumate degli utenti. Di conseguenza, i sistemi attuali non sono in grado di distinguere quali attributi specifici degli elementi determinano la soddisfazione o l'insoddisfazione dell'utente, portando a una modellazione imprecisa delle preferenze. Queste limitazioni fondamentali creano un divario persistente tra le intenzioni degli utenti e le interpretazioni del sistema, minando alla fine la soddisfazione degli utenti e compromettendo l'efficacia del sistema. Per affrontare queste limitazioni, introduciamo l'Interactive Recommendation Feed (IRF), un paradigma pionieristico che consente comandi in linguaggio naturale all'interno dei feed di raccomandazione mainstream. A differenza dei sistemi tradizionali che confinano gli utenti a un'influenza comportamentale implicita e passiva, l'IRF conferisce un controllo esplicito e attivo sulle politiche di raccomandazione attraverso comandi linguistici in tempo reale. Per supportare questo paradigma, sviluppiamo RecBot, un'architettura a doppio agente in cui un Parser Agent trasforma le espressioni linguistiche in preferenze strutturate e un Planner Agent orchestra dinamicamente catene di strumenti adattativi per l'aggiustamento immediato delle politiche. Per consentire un'implementazione pratica, utilizziamo la distillazione della conoscenza aumentata dalla simulazione per ottenere prestazioni efficienti mantenendo forti capacità di ragionamento. Attraverso esperimenti offline estesi e online a lungo termine, RecBot mostra miglioramenti significativi sia nella soddisfazione degli utenti che nei risultati aziendali.

Pensare Mentre si Ascolta: Scalabilità Semplice al Momento del Test per la Classificazione Audio
Thinking While Listening: Simple Test Time Scaling For Audio Classification

Sep 24

ByPrateek Verma, Mert Pilanci

Proponiamo un framework che consente ai modelli neurali di "pensare mentre ascoltano" suoni quotidiani, migliorando così le prestazioni nella classificazione audio. Ispirati dai recenti progressi nelle capacità di ragionamento dei grandi modelli linguistici, affrontiamo due questioni centrali: (i) come può essere incorporato il pensiero nelle pipeline esistenti di classificazione audio per abilitare il ragionamento nello spazio delle categorie e migliorare le prestazioni, e (ii) è possibile progettare una nuova architettura da zero che supporti sia il pensiero che lo scaling al momento del test? Dimostriamo che, in entrambi i contesti, i nostri modelli mostrano una maggiore accuratezza nella classificazione. Sfruttando lo scaling al momento del test, osserviamo miglioramenti costanti all'aumentare del numero di tracce campionate. Inoltre, valutiamo due modelli di ragionamento open-source, GPT-OSS-20B e Qwen3-14B, dimostrando che, sebbene tali modelli siano in grado di ragionamento zero-shot, un approccio leggero—riaddestrando solo la matrice di embedding di un modello più piccolo e congelato come GPT-2—può superare le prestazioni di modelli di ragionamento basati su testo con miliardi di parametri.

L'asimmetria imprevista tra ottimizzazione percettiva e valutazione
The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

Sep 25

ByJiabei Zhang, Qi Wang, Siyu Wu, Du Chen, Tianhe Wu

L'ottimizzazione percettiva è principalmente guidata dall'obiettivo di fedeltà, che impone sia la coerenza semantica che il realismo visivo complessivo, mentre l'obiettivo avversario fornisce un affinamento complementare migliorando la nitidezza percettiva e i dettagli fini. Nonostante il loro ruolo centrale, la correlazione tra la loro efficacia come obiettivi di ottimizzazione e la loro capacità come metriche di valutazione della qualità dell'immagine (IQA) rimane poco esplorata. In questo lavoro, conduciamo un'analisi sistematica e riveliamo un'asimmetria inaspettata tra ottimizzazione percettiva e valutazione: le metriche di fedeltà che eccellono nell'IQA non sono necessariamente efficaci per l'ottimizzazione percettiva, con questo disallineamento che emerge più distintamente durante l'addestramento avversario. Inoltre, sebbene i discriminatori sopprimano efficacemente gli artefatti durante l'ottimizzazione, le loro rappresentazioni apprese offrono solo benefici limitati quando riutilizzate come inizializzazioni del backbone per i modelli IQA. Oltre a questa asimmetria, i nostri risultati dimostrano ulteriormente che il design del discriminatore gioca un ruolo decisivo nel modellare l'ottimizzazione, con architetture a livello di patch e convoluzionali che forniscono una ricostruzione dei dettagli più fedele rispetto alle alternative vanilla o basate su Transformer. Queste intuizioni avanzano la comprensione del design delle funzioni di perdita e della sua connessione alla trasferibilità dell'IQA, aprendo la strada a approcci più principiati all'ottimizzazione percettiva.

Diffusione Discreta per Modelli Visione-Linguaggio-Azione Riflessivi nella Guida Autonoma
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

Sep 24

ByPengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

Le soluzioni End-to-End (E2E) sono emerse come approccio predominante per i sistemi di guida autonoma, con i modelli Vision-Language-Action (VLA) che rappresentano un nuovo paradigma che sfrutta la conoscenza multimodale pre-addestrata dei modelli Vision-Language (VLM) per interpretare e interagire con ambienti reali complessi. Tuttavia, questi metodi rimangono limitati dalle restrizioni dell'apprendimento per imitazione, che fatica a codificare intrinsecamente le regole fisiche durante l'addestramento. Gli approcci esistenti spesso si basano su complesse rifiniture basate su regole, impiegano l'apprendimento per rinforzo che rimane largamente confinato alla simulazione, o utilizzano una guida basata su diffusione che richiede calcoli di gradiente computazionalmente costosi. Per affrontare queste sfide, introduciamo ReflectDrive, un nuovo framework basato sull'apprendimento che integra un meccanismo di riflessione per la generazione sicura di traiettorie tramite diffusione discreta. Inizialmente discretizziamo lo spazio di guida bidimensionale per costruire un codebook di azioni, consentendo l'uso di modelli di linguaggio a diffusione pre-addestrati per compiti di pianificazione attraverso il fine-tuning. Al centro del nostro approccio c'è un meccanismo di riflessione consapevole della sicurezza che esegue un'autocorrezione iterativa senza calcolo del gradiente. Il nostro metodo inizia con la generazione di traiettorie condizionate da un obiettivo per modellare comportamenti di guida multimodali. Su questa base, applichiamo metodi di ricerca locale per identificare token non sicuri e determinare soluzioni fattibili, che fungono poi da ancore sicure per una rigenerazione basata sull'inpainting. Valutato sul benchmark NAVSIM, ReflectDrive dimostra significativi vantaggi nella generazione di traiettorie critiche per la sicurezza, offrendo una soluzione scalabile e affidabile per i sistemi di guida autonoma.

StyleBench: Valutazione degli stili di pensiero nei Modelli Linguistici di Grande Dimensione
StyleBench: Evaluating thinking styles in Large Language Models

Sep 25

ByJunyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

L'efficacia dei Large Language Models (LLM) è fortemente influenzata dalle strategie di ragionamento, o stili di pensiero, impiegati nei loro prompt. Tuttavia, l'interazione tra questi stili di ragionamento, l'architettura del modello e il tipo di task rimane poco compresa. Per affrontare questo problema, introduciamo StyleBench, un benchmark completo per valutare sistematicamente gli stili di ragionamento su task e modelli diversi. Valutiamo cinque stili di ragionamento rappresentativi, tra cui Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) e Chain-of-Draft (CoD), su cinque task di ragionamento, utilizzando 15 modelli open-source delle principali famiglie (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi e DeepSeek) con un numero di parametri compreso tra 270M e 120B. La nostra analisi su larga scala rivela che nessuno stile è universalmente ottimale. Dimostriamo che l'efficacia della strategia dipende fortemente sia dalla scala del modello che dal tipo di task: i metodi basati sulla ricerca (AoT, ToT) eccellono nei problemi aperti ma richiedono modelli di grandi dimensioni, mentre gli stili concisi (SoT, CoD) ottengono guadagni radicali in termini di efficienza su task ben definiti. Inoltre, identifichiamo alcuni pattern comportamentali chiave: i modelli più piccoli spesso non riescono a seguire le istruzioni di output e ricorrono a congetture, mentre la robustezza del ragionamento emerge come una funzione della scala. Le nostre scoperte offrono una roadmap cruciale per selezionare le strategie di ragionamento ottimali in base a vincoli specifici. Il benchmark è disponibile open source all'indirizzo https://github.com/JamesJunyuGuo/Style_Bench.

Mappe della Fiducia: Schede di Sistema AI per Trasparenza e Governance End-to-End
Blueprints of Trust: AI System Cards for End to End Transparency and Governance

Sep 23

ByHuzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

Questo articolo introduce l'Hazard-Aware System Card (HASC), un nuovo framework progettato per migliorare la trasparenza e la responsabilità nello sviluppo e nell'implementazione di sistemi di intelligenza artificiale (AI). L'HASC si basa sui concetti esistenti di model card e system card, integrando un registro completo e dinamico dello stato di sicurezza e sicurezza di un sistema AI. Il framework propone un sistema standardizzato di identificatori, tra cui un nuovo AI Safety Hazard (ASH) ID, per integrare gli identificatori di sicurezza esistenti come i CVE, consentendo una comunicazione chiara e coerente delle vulnerabilità risolte. Fornendo un'unica fonte di verità accessibile, l'HASC consente agli sviluppatori e agli stakeholder di prendere decisioni più informate sulla sicurezza dei sistemi AI durante tutto il loro ciclo di vita. Infine, confrontiamo le nostre proposte di system card AI con lo standard ISO/IEC 42001:2023 e discutiamo come possano essere utilizzate per integrarsi reciprocamente, offrendo una maggiore trasparenza e responsabilità per i sistemi AI.

MI-Fuse: Fusione di Etichette per l'Adattamento di Dominio Non Supervisionato con Modelli Linguistici su Grandi Dati Audio a Sorgente Chiusa
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

Sep 25

ByHsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

I grandi modelli audio-linguistici (LALM) dimostrano una forte capacità zero-shot nei compiti legati al parlato, suggerendo un potenziale promettente per il riconoscimento delle emozioni dal parlato (SER). Tuttavia, il SER nelle implementazioni del mondo reale spesso fallisce in caso di disallineamento di dominio, dove i dati di origine non sono disponibili e i potenti LALM sono accessibili solo tramite un'API. Ci chiediamo: dato solo audio non etichettato del dominio target e un LALM accessibile solo tramite API, è possibile adattare un modello studente per superare il LALM nel dominio target? A tal fine, proponiamo MI-Fuse, un framework di fusione delle etichette denoised che integra il LALM con un classificatore SER addestrato sul dominio di origine come insegnante ausiliario. Il framework estrae previsioni stocastiche multiple da entrambi gli insegnanti, pondera le loro distribuzioni medie in base all'incertezza basata sull'informazione reciproca e stabilizza l'addestramento con un insegnante a media mobile esponenziale. Esperimenti su tre dataset pubblici di emozioni e sei trasferimenti cross-domain mostrano guadagni consistenti, con lo studente che supera il LALM e supera il baseline più forte del 3,9%. Questo approccio rafforza i sistemi di riconoscimento delle emozioni dal parlato senza condividere i dati di origine, consentendo un adattamento realistico.

Valutazione dei Modelli Linguistici di Grandi Dimensioni per il Rilevamento dell'Antisemitismo
Evaluating Large Language Models for Detecting Antisemitism

Sep 22

ByJay Patel, Hrudayangam Mehta, Jeremy Blackburn

Rilevare contenuti d'odio è un problema complesso e di grande importanza. Strumenti automatizzati, come i modelli di machine learning, possono essere d'aiuto, ma richiedono un addestramento continuo per adattarsi al panorama in costante evoluzione dei social media. In questo lavoro, valutiamo la capacità di otto LLM open-source di rilevare contenuti antisemiti, sfruttando specificamente la definizione in contesto come linea guida politica. Esploriamo varie tecniche di prompting e progettiamo un nuovo prompt simile al CoT, chiamato Guided-CoT. Guided-CoT gestisce efficacemente la politica in contesto, migliorando le prestazioni di tutti i modelli valutati, indipendentemente dalla configurazione di decodifica, dalle dimensioni del modello o dalla capacità di ragionamento. In particolare, Llama 3.1 70B supera GPT-3.5 fine-tuned. Inoltre, esaminiamo gli errori degli LLM e introduciamo metriche per quantificare la divergenza semantica nelle razionalità generate dai modelli, rivelando differenze significative e comportamenti paradossali tra gli LLM. I nostri esperimenti evidenziano le differenze osservate nell'utilità, spiegabilità e affidabilità degli LLM.