HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

Scalabilità degli Agenti tramite Pre-addestramento Continuo
Scaling Agents via Continual Pre-training

Sep 16

ByLiangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

112

I grandi modelli linguistici (LLM) si sono evoluti in sistemi agentici capaci di utilizzare strumenti in modo autonomo e di ragionare in più fasi per risolvere problemi complessi. Tuttavia, gli approcci post-addestramento basati su modelli di fondazione generici continuano a ottenere prestazioni inferiori nei compiti agentici, specialmente nelle implementazioni open-source. Identifichiamo la causa principale: l'assenza di modelli di fondazione agentici robusti costringe i modelli durante il post-addestramento a imparare contemporaneamente comportamenti agentici diversificati e ad allinearli a dimostrazioni esperte, creando così tensioni fondamentali di ottimizzazione. A tal fine, siamo i primi a proporre l'integrazione dell'Addestramento Continuo Agente (Agentic CPT) nella pipeline di addestramento degli agenti di ricerca approfondita per costruire potenti modelli di fondazione agentici. Basandoci su questo approccio, sviluppiamo un modello di agente di ricerca approfondita denominato AgentFounder. Valutiamo il nostro AgentFounder-30B su 10 benchmark e otteniamo prestazioni all'avanguardia, mantenendo una forte capacità di utilizzo degli strumenti, in particolare il 39,9% su BrowseComp-en, il 43,3% su BrowseComp-zh e il 31,5% Pass@1 su HLE.

WebWeaver: Strutturazione di Prove su Scala Web con Strutture Dinamiche per Ricerche Approfondite e Aperte
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

Sep 16

ByZijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou

104

Questo articolo affronta la ricerca approfondita a ciclo aperto (OEDR), una sfida complessa in cui gli agenti di intelligenza artificiale devono sintetizzare vaste informazioni su scala web in report approfonditi. Gli approcci attuali sono afflitti da limitazioni duplici: pipeline di ricerca statiche che separano la pianificazione dall'acquisizione di prove e paradigmi di generazione one-shot che facilmente soffrono di problemi di fallimento del contesto lungo, come la "perdita nel mezzo" e le allucinazioni. Per affrontare queste sfide, introduciamo WebWeaver, un nuovo framework a doppio agente che emula il processo di ricerca umano. Il pianificatore opera in un ciclo dinamico, intervallando iterativamente l'acquisizione di prove con l'ottimizzazione della struttura per produrre una struttura completa e basata su fonti, collegata a una banca di memoria delle prove. Lo scrittore esegue quindi un processo gerarchico di recupero e scrittura, componendo il report sezione per sezione. Eseguendo il recupero mirato solo delle prove necessarie dalla banca di memoria per ogni parte, mitiga efficacemente i problemi del contesto lungo. Il nostro framework stabilisce un nuovo stato dell'arte nei principali benchmark OEDR, tra cui DeepResearch Bench, DeepConsult e DeepResearchGym. Questi risultati convalidano la nostra metodologia iterativa e centrata sull'uomo, dimostrando che la pianificazione adattiva e la sintesi focalizzata sono cruciali per produrre report di alta qualità, affidabili e ben strutturati.

WebSailor-V2: Colmare il Divario con gli Agenti Proprietari attraverso Dati Sintetici e Apprendimento per Rinforzo Scalabile
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

Sep 16

ByKuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Superare i limiti cognitivi umani rappresenta una frontiera cruciale nell'addestramento degli LLM. Sistemi agentici proprietari come DeepResearch hanno dimostrato capacità sovrumane su benchmark estremamente complessi per la ricerca di informazioni, come BrowseComp, un risultato precedentemente irraggiungibile. Proponiamo che il loro successo dipenda da un modello di ragionamento sofisticato assente nei modelli open-source: la capacità di ridurre sistematicamente l'incertezza estrema quando si naviga in vasti paesaggi informativi. Basandoci su questa intuizione, introduciamo WebSailor, una metodologia completa di post-training progettata per instillare questa capacità cruciale. Il nostro approccio prevede la generazione di nuovi compiti ad alta incertezza attraverso campionamento strutturato e offuscamento delle informazioni, un avvio a freddo con RFT e un efficiente algoritmo di addestramento RL agentico, Duplicating Sampling Policy Optimization (DUPO). Con questa pipeline integrata, WebSailor supera significativamente tutti gli agenti open-source in compiti complessi di ricerca di informazioni, eguagliando le prestazioni degli agenti proprietari e colmando il divario di capacità.

ReSum: Sbloccare l'intelligenza di ricerca a lungo termine tramite la sintesi contestuale
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

Sep 16

ByXixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou

I modelli linguistici di grandi dimensioni (LLM) basati su agenti web dimostrano prestazioni solide in compiti ad alta intensità di conoscenza, ma sono limitati dalle restrizioni della finestra contestuale in paradigmi come ReAct. Query complesse che coinvolgono più entità, relazioni intrecciate e un elevato grado di incertezza richiedono cicli di ricerca estesi che esauriscono rapidamente il budget contestuale prima di raggiungere soluzioni complete. Per superare questa sfida, introduciamo ReSum, un paradigma innovativo che consente un'esplorazione indefinita attraverso la periodica sintesi del contesto. ReSum trasforma le storie di interazione in crescita in stati di ragionamento compatti, mantenendo la consapevolezza delle scoperte precedenti mentre aggira i vincoli contestuali. Per l'adattamento del paradigma, proponiamo ReSum-GRPO, integrando GRPO con un addestramento a traiettorie segmentate e la diffusione di vantaggi per familiarizzare gli agenti con il ragionamento condizionato dalle sintesi. Esperimenti estesi su agenti web di diverse dimensioni in tre benchmark dimostrano che ReSum offre un miglioramento assoluto medio del 4,5\% rispetto a ReAct, con ulteriori guadagni fino all'8,2\% dopo l'addestramento ReSum-GRPO. In particolare, con soli 1K campioni di addestramento, il nostro WebResummer-30B (una versione addestrata con ReSum-GRPO di WebSailor-30B) raggiunge il 33,3\% di Pass@1 su BrowseComp-zh e il 18,3\% su BrowseComp-en, superando gli agenti web open-source esistenti.

Verso un'Intelligenza Agente Generale attraverso la Scalabilità dell'Ambiente
Towards General Agentic Intelligence via Environment Scaling

Sep 16

ByRunnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

L'intelligenza agentica avanzata è un prerequisito per il dispiegamento di Modelli Linguistici di Grande Scala in applicazioni pratiche del mondo reale. Le API del mondo reale, diverse e variegate, richiedono un'intelligenza di chiamata di funzioni precisa e robusta, che necessita che gli agenti sviluppino queste capacità attraverso l'interazione in ambienti vari. L'ampiezza della competenza nella chiamata di funzioni è strettamente legata alla diversità degli ambienti in cui gli agenti vengono addestrati. In questo lavoro, ampliamo gli ambienti come un passo verso il progresso dell'intelligenza agentica generale. Ciò dà origine a due sfide centrali: (i) come scalare gli ambienti in modo principiato, e (ii) come addestrare efficacemente le capacità agentiche dalle esperienze derivate attraverso interazioni con questi ambienti. Per affrontare queste sfide, progettiamo un framework scalabile che costruisce automaticamente ambienti eterogenei completamente simulati, ampliando sistematicamente lo spazio degli scenari di chiamata di funzioni. Adattiamo inoltre una strategia di fine-tuning degli agenti in due fasi: prima dotando gli agenti di capacità agentiche fondamentali, poi specializzandoli per contesti specifici di dominio. Esperimenti estesi su benchmark agentici, tau-bench, tau2-Bench e ACEBench, dimostrano che il nostro modello addestrato, AgentScaler, migliora significativamente la capacità di chiamata di funzioni dei modelli.

WebResearcher: Sfruttare la capacità di ragionamento illimitato negli agenti con orizzonti temporali lunghi
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

Sep 16

ByZile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

I recenti progressi nei sistemi di ricerca approfondita hanno dimostrato il potenziale degli agenti di intelligenza artificiale di scoprire e sintetizzare autonomamente conoscenza da fonti esterne. In questo articolo, presentiamo WebResearcher, un nuovo framework per costruire tali agenti attraverso due componenti chiave: (1) WebResearcher, un paradigma iterativo di ricerca approfondita che riformula la ricerca approfondita come un Processo Decisionale di Markov, in cui gli agenti consolidano periodicamente i risultati in report in evoluzione mantenendo spazi di lavoro focalizzati, superando il soffocamento contestuale e la contaminazione da rumore che affliggono gli approcci mono-contestuali esistenti; e (2) WebFrontier, un motore di sintesi dati scalabile che genera dati di addestramento di alta qualità attraverso l'escalation di complessità potenziata da strumenti, consentendo la creazione sistematica di task di ricerca che colmano il divario tra il richiamo passivo della conoscenza e la costruzione attiva della conoscenza. È importante notare che i dati di addestramento del nostro paradigma migliorano significativamente le capacità di utilizzo degli strumenti anche per i metodi mono-contestuali tradizionali. Inoltre, il nostro paradigma si scala naturalmente attraverso il pensiero parallelo, consentendo l'esplorazione concorrente multi-agente per conclusioni più complete. Esperimenti estesi su 6 benchmark impegnativi dimostrano che WebResearcher raggiunge prestazioni all'avanguardia, superando persino i sistemi proprietari più avanzati.

Hunyuan3D Studio: Pipeline AI End-to-End per la Generazione di Asset 3D Pronti per il Gioco
Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

Sep 16

ByBiwen Lei, Yang Li, Xinhai Liu, Shuhui Yang, Lixin Xu, Jingwei Huang, Ruining Tang, Haohan Weng, Jian Liu, Jing Xu, Zhen Zhou, Yiling Zhu, Jiankai Xing, Jiachen Xu, Changfeng Ma, Xinhao Yan, Yunhan Yang, Chunshi Wang, Duoteng Xu, Xueqi Ma, Yuguang Chen, Jing Li, Mingxin Yang, Sheng Zhang, Yifei Feng, Xin Huang, Di Luo, Zebin He, Puhua Jiang, Changrong Hu, Zihan Qin, Shiwei Miao, Haolin Liu, Yunfei Zhao, Zeqiang Lai, Qingxiang Lin, Zibo Zhao, Kunhong Li, Xianghui Yang, Huiwen Shi, Xin Yang, Yuxuan Wang, Zebin Yao, Yihang Lian, Sicong Liu, Xintong Han, Wangchen Qin, Caisheng Ouyang, Jianyin Liu, Tianwen Yuan, Shuai Jiang, Hong Duan, Yanqi Niu, Wencong Lin, Yifu Sun, Shirui Huang, Lin Niu, Gu Gong, Guojian Xiao, Bojian Zheng, Xiang Yuan, Qi Chen, Jie Xiao, Dongyang Zheng, Xiaofeng Yang, Kai Liu, Jianchen Zhu, Lifu Wang, Qinglin Lu, Jie Liu, Liang Dong, Fan Jiang, Ruibin Chen, Lei Wang, Chao Zhang, Jiaxin Lin, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Yinhe Wu, Jiayao Du, Jupeng Chen, Xinyue Mao, Dongyuan Guo, Yixuan Tang, Yulin Tsai, Yonghao Tan, Jiaao Yu, Junlin Yu, Keren Zhang, Yifan Li, Peng Chen, Tian Liu, Di Wang, Yuhong Liu, Linus, Jie Jiang, Zhuo Chen, Chunchao Guo

La creazione di asset 3D di alta qualità, un pilastro fondamentale dello sviluppo moderno dei videogiochi, è stata a lungo caratterizzata da flussi di lavoro laboriosi e altamente specializzati. Questo articolo presenta Hunyuan3D Studio, una piattaforma di creazione di contenuti end-to-end alimentata dall'intelligenza artificiale, progettata per rivoluzionare la pipeline di produzione dei giochi automatizzando e semplificando la generazione di asset 3D pronti per l'uso. Al suo interno, Hunyuan3D Studio integra una suite di moduli neurali avanzati (come Generazione 3D a livello di parti, Generazione di poligoni, UV semantico, ecc.) in un sistema coerente e user-friendly. Questo framework unificato consente la rapida trasformazione di una singola immagine concettuale o descrizione testuale in un modello 3D completo e di qualità produttiva, dotato di geometria ottimizzata e texture PBR ad alta fedeltà. Dimostriamo che gli asset generati da Hunyuan3D Studio non sono solo visivamente accattivanti, ma rispettano anche i rigorosi requisiti tecnici dei motori di gioco contemporanei, riducendo significativamente i tempi di iterazione e abbassando la barriera all'ingresso per la creazione di contenuti 3D. Fornendo un ponte senza soluzione di continuità dall'intento creativo all'asset tecnico, Hunyuan3D Studio rappresenta un significativo balzo in avanti per i flussi di lavoro assistiti dall'IA nello sviluppo di giochi e media interattivi.

Ottimizzazione della Politica a Singolo Flusso
Single-stream Policy Optimization

Sep 16

ByZhongwen Xu, Zihan Ding

Riconsideriamo l'ottimizzazione basata su gradienti di politica (policy-gradient) per i Modelli Linguistici di Grande Dimensione (LLMs) da una prospettiva a flusso singolo. I metodi prevalenti basati su gruppi, come GRPO, riducono la varianza utilizzando baseline calcolati al volo, ma presentano difetti critici: gruppi degeneri frequenti cancellano i segnali di apprendimento, e le barriere di sincronizzazione ostacolano la scalabilità. Introduciamo l'Ottimizzazione di Politica a Flusso Singolo (SPO), che elimina questi problemi per progettazione. SPO sostituisce le baseline per gruppo con un tracciatore di valore persistente e adattivo alla KL, e normalizza i vantaggi globalmente attraverso il batch, fornendo un segnale di apprendimento stabile e a bassa varianza per ogni campione. Essendo privo di gruppi, SPO consente una maggiore produttività e scala efficacemente in contesti a lungo orizzonte o con integrazione di strumenti, dove i tempi di generazione variano. Inoltre, il tracciatore di valore persistente abilita naturalmente un curriculum adattivo tramite campionamento prioritario. Esperimenti condotti con Qwen3-8B dimostrano che SPO converge in modo più regolare e raggiunge una maggiore accuratezza rispetto a GRPO, eliminando al contempo il calcolo sprecato su gruppi degeneri. Studi di ablazione confermano che i vantaggi di SPO derivano dal suo approccio principiato alla stima delle baseline e alla normalizzazione dei vantaggi, offrendo un percorso più robusto ed efficiente per il ragionamento degli LLMs. Su cinque benchmark matematici complessi con Qwen3 8B, SPO migliora la media maj@32 di +3,4 punti percentuali (pp) rispetto a GRPO, guidato da sostanziali guadagni assoluti su dataset impegnativi, tra cui +7,3 pp su BRUMO 25, +4,4 pp su AIME 25, +3,3 pp su HMMT 25, e raggiunge un guadagno relativo costante in pass@k attraverso i valori di k valutati. Il successo di SPO sfida la tendenza prevalente di aggiungere complessità incidentale agli algoritmi di RL, evidenziando un percorso in cui i principi fondamentali, non gli espedienti architetturali, guidano la prossima ondata di progressi nel ragionamento degli LLMs.

Modello Linguistico Visivo con Prompting Regionale 3D-Aware
3D Aware Region Prompted Vision Language Model

Sep 16

ByAn-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu

Presentiamo Spatial Region 3D (SR-3D), un modello visione-linguaggio consapevole del 3D che collega immagini 2D a singola vista e dati 3D multivista attraverso uno spazio condiviso di token visivi. SR-3D supporta un prompting flessibile delle regioni, consentendo agli utenti di annotare regioni con bounding box, maschere di segmentazione su qualsiasi fotogramma o direttamente in 3D, senza la necessità di un'etichettatura esaustiva su più fotogrammi. Raggiungiamo questo risultato arricchendo le caratteristiche visive 2D con incorporamenti posizionali 3D, che permettono al modello 3D di attingere a forti priorità 2D per un ragionamento spaziale più accurato tra i fotogrammi, anche quando gli oggetti di interesse non compaiono nella stessa vista. Esperimenti estesi su benchmark generali di visione-linguaggio 2D e specializzati per il ragionamento spaziale 3D dimostrano che SR-3D raggiunge prestazioni all'avanguardia, sottolineando la sua efficacia nell'unificare lo spazio di rappresentazione 2D e 3D per la comprensione delle scene. Inoltre, osserviamo l'applicabilità a video in contesti reali senza input sensoriali 3D o annotazioni 3D di ground truth, dove SR-3D inferisce accuratamente relazioni spaziali e misurazioni metriche.

EconProver: Verso un Ridimensionamento più Economico al Momento del Test per il Teorema Automatico
EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

Sep 16

ByMukai Li, Linfeng Song, Zhenwen Liang, Jiahao Xu, Shansan Gong, Qi Liu, Haitao Mi, Dong Yu

I Large Language Model (LLM) hanno recentemente fatto progredire il campo del Teorema Automatico (ATP), ottenendo miglioramenti significativi delle prestazioni attraverso strategie di scalatura ampiamente adottate durante il test, in particolare il ragionamento riflessivo a Catena di Pensiero (Chain-of-Thought, CoT) e l'aumento dei passaggi di campionamento. Tuttavia, entrambe introducono un sovraccarico computazionale significativo per l'inferenza. Inoltre, le analisi dei costi esistenti tipicamente regolano solo il numero di passaggi di campionamento, trascurando le sostanziali disparità nei costi di campionamento introdotte da diverse strategie di scalatura. In questo articolo, confrontiamo sistematicamente l'efficienza di diverse strategie di scalatura durante il test per i modelli ATP e dimostriamo l'inefficienza degli approcci open-source allo stato dell'arte (SOTA). Successivamente, indaghiamo approcci per ridurre significativamente l'uso di token e i passaggi di campionamento mantenendo le prestazioni originali. Nello specifico, proponiamo due metodi complementari che possono essere integrati in una pipeline unificata EconRL per benefici amplificati: (1) un meccanismo di commutazione dinamica della Catena di Pensiero (CoT) progettato per mitigare il consumo inutile di token, e (2) un apprendimento per rinforzo (RL) parallelo-scalato diversificato con prefissi addestrabili per migliorare i tassi di successo sotto vincoli di passaggi di campionamento. Gli esperimenti su miniF2F e ProofNet dimostrano che il nostro EconProver raggiunge prestazioni comparabili ai metodi di base con solo il 12% del costo computazionale. Questo lavoro fornisce intuizioni pratiche per il dispiegamento di modelli ATP leggeri senza sacrificare le prestazioni.

RAPTOR: Una Politica Fondamentale per il Controllo dei Quadrotor
RAPTOR: A Foundation Policy for Quadrotor Control

Sep 15

ByJonas Eschmann, Dario Albani, Giuseppe Loianno

Gli esseri umani sono straordinariamente efficienti nell'uso dei dati quando si adattano a nuove condizioni non viste in precedenza, come guidare una nuova auto. Al contrario, i moderni sistemi di controllo robotico, come le politiche di rete neurale addestrate utilizzando l'Apprendimento per Rinforzo (Reinforcement Learning, RL), sono altamente specializzati per singoli ambienti. A causa di questo overfitting, è noto che si rompono anche sotto piccole differenze come il gap Simulazione-Realtà (Simulation-to-Reality, Sim2Real) e richiedono l'identificazione del sistema e il riaddestramento anche per cambiamenti minimi al sistema. In questo lavoro, presentiamo RAPTOR, un metodo per addestrare una politica di base altamente adattabile per il controllo di quadricotteri. Il nostro metodo consente di addestrare una singola politica di rete neurale end-to-end per controllare una vasta gamma di quadricotteri. Testiamo 10 diversi quadricotteri reali, da 32 g a 2,4 kg, che differiscono anche per tipo di motore (a spazzole vs. brushless), tipo di telaio (morbido vs. rigido), tipo di elica (2/3/4 pale) e controller di volo (PX4/Betaflight/Crazyflie/M5StampFly). Troviamo che una piccola politica a tre strati con soli 2084 parametri è sufficiente per l'adattamento zero-shot a una vasta gamma di piattaforme. L'adattamento attraverso l'Apprendimento in Contesto (In-Context Learning) è reso possibile utilizzando una ricorrenza nello strato nascosto. La politica viene addestrata attraverso un nuovo algoritmo di Meta-Imitation Learning, in cui campioniamo 1000 quadricotteri e addestriamo una politica insegnante per ciascuno di essi utilizzando l'Apprendimento per Rinforzo. Successivamente, i 1000 insegnanti vengono distillati in una singola politica studente adattabile. Troviamo che, in pochi millisecondi, la politica di base risultante si adatta zero-shot a quadricotteri non visti in precedenza. Testiamo ampiamente le capacità della politica di base in numerose condizioni (tracciamento di traiettorie, interno/esterno, disturbo del vento, colpi, diverse eliche).

Ragionamento Multimodale per la Scienza: Rapporto Tecnico e Soluzione al Primo Posto della Sfida SeePhys di ICML 2025
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Sep 7

ByHao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong

Il ragionamento multimodale rimane una sfida fondamentale nell'intelligenza artificiale. Nonostante i notevoli progressi nel ragionamento basato su testo, anche i modelli all'avanguardia come GPT-3 faticano a mantenere prestazioni solide in scenari multimodali. Per colmare questa lacuna, introduciamo un framework di ragionamento assistito da didascalie che collega efficacemente le modalità visive e testuali. Il nostro approccio ha ottenuto il primo posto all'ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, evidenziandone l'efficacia e la robustezza. Inoltre, ne validiamo la generalizzazione sul benchmark MathVerse per il ragionamento geometrico, dimostrando la versatilità del nostro metodo. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/OpenDCAI/SciReasoner.

Stable Part Diffusion 4D: Generazione di Video Multi-Vista RGB e Parti Cinematiche
Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

Sep 12

ByHao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani

Presentiamo Stable Part Diffusion 4D (SP4D), un framework per la generazione di video accoppiati RGB e di parti cinematiche a partire da input monoculari. A differenza dei metodi convenzionali di segmentazione delle parti che si basano su indizi semantici legati all'aspetto, SP4D apprende a produrre parti cinematiche - componenti strutturali allineate con l'articolazione dell'oggetto e coerenti tra diverse viste e nel tempo. SP4D adotta un modello di diffusione a doppio ramo che sintetizza congiuntamente frame RGB e mappe di segmentazione delle parti corrispondenti. Per semplificare l'architettura e abilitare flessibilmente diversi conteggi di parti, introduciamo uno schema di codifica spaziale del colore che mappa le maschere delle parti a immagini continue simili a RGB. Questa codifica consente al ramo di segmentazione di condividere il VAE latente con il ramo RGB, permettendo al contempo di recuperare la segmentazione delle parti attraverso una semplice post-elaborazione. Un modulo di Fusione Diffusione Bidirezionale (BiDiFuse) migliora la coerenza tra i rami, supportato da una funzione di perdita di coerenza delle parti contrastiva per promuovere l'allineamento spaziale e temporale delle previsioni delle parti. Dimostriamo che le mappe 2D delle parti generate possono essere elevate a 3D per derivare strutture scheletriche e pesi di skinning armonici con pochi aggiustamenti manuali. Per addestrare e valutare SP4D, abbiamo costruito KinematicParts20K, un dataset curato di oltre 20K oggetti rigati selezionati e processati da Objaverse XL (Deitke et al., 2023), ciascuno accoppiato con sequenze video RGB e di parti multi-vista. Gli esperimenti mostrano che SP4D generalizza efficacemente a scenari diversi, inclusi video del mondo reale, oggetti generati nuovi e pose articolate rare, producendo output cinematicamente consapevoli adatti per compiti di animazione e movimento a valle.

Phi: Dirottamento delle Preferenze nei Modelli Linguistici Multimodali di Grande Scala durante l'Inferenza
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

Sep 15

ByYifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen

Recentemente, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato una significativa attenzione in vari ambiti. Tuttavia, la loro ampia adozione ha anche sollevato serie preoccupazioni riguardo alla sicurezza. In questo articolo, scopriamo un nuovo rischio per la sicurezza degli MLLMs: la preferenza di output degli MLLMs può essere arbitrariamente manipolata da immagini ottimizzate con cura. Tali attacchi spesso generano risposte contestualmente rilevanti ma distorte, che non sono apertamente dannose né eticamente discutibili, rendendole difficili da rilevare. Nello specifico, introduciamo un nuovo metodo, il Preference Hijacking (Phi), per manipolare le preferenze di risposta degli MLLMs utilizzando un'immagine con preferenza dirottata. Il nostro metodo opera durante l'inferenza e non richiede modifiche al modello. Inoltre, introduciamo una perturbazione universale di dirottamento -- un componente trasferibile che può essere incorporato in diverse immagini per dirottare le risposte degli MLLMs verso qualsiasi preferenza specificata dall'attaccante. I risultati sperimentali su vari compiti dimostrano l'efficacia del nostro approccio. Il codice per Phi è accessibile all'indirizzo https://github.com/Yifan-Lan/Phi.

zELO: Metodo di Addestramento Ispirato a ELO per Modelli di Reranking e di Embedding
zELO: ELO-inspired Training Method for Rerankers and Embedding Models

Sep 16

ByNicholas Pipitone, Ghita Houir Alami, Advaith Avadhanam, Anton Kaminskyi, Ashley Khoo

Introduciamo una nuova metodologia di addestramento denominata zELO, che ottimizza le prestazioni di recupero attraverso l'analisi che i task di ranking sono staticamente equivalenti a un modello di Thurstone. Basandoci sul metodo zELO, utilizziamo dati non supervisionati per addestrare una suite di modelli di reranking open-weight all'avanguardia: zerank-1 e zerank-1-small. Questi modelli raggiungono i punteggi di recupero più elevati in molteplici domini, tra cui finanza, legale, codice e STEM, superando i reranker proprietari closed-source sia su NDCG@10 che su Recall. Questi modelli dimostrano anche una grande versatilità, mantenendo le loro prestazioni 0-shot su dataset fuori dominio e su dataset privati dei clienti. I dati di addestramento includevano 112.000 query e 100 documenti per query, e il training è stato eseguito end-to-end da query e documenti non annotati in meno di 10.000 ore-H100.

Campionamento Esatto del Cosetto per Algoritmi Quantistici su Reticoli
Exact Coset Sampling for Quantum Lattice Algorithms

Sep 15

ByYifan Zhang

Forniamo una sostituzione semplice, completamente corretta e con poche assunzioni per il controverso "estensione del dominio" nel Passo 9 di un recente algoritmo a reticolo QFT finestrato con finestre Gaussiane complesse~chen2024quantum. Il Passo~9 pubblicato soffre di una discrepanza tra periodicità e supporto. Presentiamo una costruzione a differenza di spostamento a coppie che annulla coerentemente tutti gli offset sconosciuti, produce uno stato esatto di coset CRT uniforme su Z_{P}, e poi utilizza la QFT per imporre la relazione lineare modulare prevista. L'unità è reversibile, utilizza porte poly(log M_2) e preserva l'asintotica dell'algoritmo. Pagina del progetto: https://github.com/yifanzhang-pro/quantum-lattice.

Ottimizzazione del Ripristino Cerebrale per la Quantizzazione e la Sparsificazione Congiunta di Modelli Linguistici di Grande Dimensione
Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

Sep 14

ByHang Guo, Yawei Li, Luca Benini

I recenti progressi nella compressione dei Large Language Model (LLM), come la quantizzazione e il pruning, hanno ottenuto risultati significativi. Tuttavia, man mano che queste tecniche si avvicinano ai rispettivi limiti, affidarsi a un singolo metodo per un'ulteriore compressione è diventato sempre più impegnativo. In questo lavoro, esploriamo una soluzione alternativa combinando quantizzazione e sparsità. Questo approccio congiunto, sebbene promettente, introduce nuove difficoltà a causa dei requisiti intrinsecamente contrastanti sulle distribuzioni dei pesi: la quantizzazione favorisce intervalli compatti, mentre il pruning beneficia di un'elevata varianza. Per affrontare questo problema, proponiamo Optimal Brain Restoration (OBR), un framework generale e senza addestramento che allinea pruning e quantizzazione attraverso la compensazione degli errori tra entrambi. OBR minimizza il degrado delle prestazioni sui task downstream basandosi su un obiettivo di secondo ordine Hessiano, che viene poi riformulato in un problema trattabile attraverso un'approssimazione surrogata e infine raggiunge una soluzione in forma chiusa tramite la compensazione degli errori di gruppo. Gli esperimenti dimostrano che OBR consente una quantizzazione aggressiva W4A4KV4 con il 50% di sparsità sugli LLM esistenti, e offre un'accelerazione fino a 4,72x e una riduzione della memoria di 6,4x rispetto al baseline FP16-denso.

ROOM: Un Simulatore di Robot Continuo Basato sulla Fisica per la Generazione di Dataset Medici Fotorealistici
ROOM: A Physics-Based Continuum Robot Simulator for Photorealistic Medical Datasets Generation

Sep 16

BySalvatore Esposito, Matías Mattamala, Daniel Rebain, Francis Xiatian Zhang, Kevin Dhaliwal, Mohsen Khadem, Subramanian Ramamoorthy

I robot a continuum stanno rivoluzionando le procedure di broncoscopia, consentendo l'accesso a vie aeree polmonari complesse e interventi mirati. Tuttavia, il loro sviluppo è limitato dalla mancanza di ambienti realistici per l'addestramento e i test: i dati reali sono difficili da raccogliere a causa di vincoli etici e preoccupazioni per la sicurezza dei pazienti, e lo sviluppo di algoritmi di autonomia richiede feedback di imaging e fisici realistici. Presentiamo ROOM (Realistic Optical Observation in Medicine), un framework di simulazione completo progettato per generare dati di addestramento per broncoscopia fotorealistici. Utilizzando scansioni TC di pazienti, la nostra pipeline genera dati sensoriali multimodali, tra cui immagini RGB con rumore realistico e riflessi luminosi, mappe di profondità metriche, normali di superficie, flusso ottico e nuvole di punti su scale rilevanti dal punto di vista medico. Validiamo i dati generati da ROOM in due compiti canonici per la robotica medica -- la stima della posa multi-vista e la stima della profondità monoculare, dimostrando le diverse sfide che i metodi all'avanguardia devono superare per trasferirsi in questi contesti medici. Inoltre, mostriamo che i dati prodotti da ROOM possono essere utilizzati per affinare modelli esistenti di stima della profondità per superare queste sfide, abilitando anche altre applicazioni a valle come la navigazione. Ci aspettiamo che ROOM consentirà la generazione su larga scala di dati attraverso diverse anatomie dei pazienti e scenari procedurali che sono difficili da catturare in contesti clinici. Codice e dati: https://github.com/iamsalvatore/room.

Framework di Apprendimento Multi-istanza con Estrazione di Istanze Difficili Mascherare per l'Analisi di Immagini Istopatologiche Gigapixel
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis

Sep 15

ByWenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu

La digitalizzazione delle immagini patologiche in Whole Slide Images (WSI) gigapixel ha aperto nuove strade per la Patologia Computazionale (CPath). Poiché il tessuto positivo costituisce solo una piccola frazione delle WSI gigapixel, i metodi esistenti di Apprendimento Multi-Istanza (MIL) si concentrano tipicamente sull'identificazione di istanze salienti attraverso meccanismi di attenzione. Tuttavia, ciò porta a un bias verso istanze facili da classificare, trascurando quelle più complesse. Studi recenti hanno dimostrato che gli esempi difficili sono cruciali per modellare accuratamente i confini discriminativi. Applicando tale idea a livello di istanza, abbiamo elaborato un nuovo framework MIL con masked hard instance mining (MHIM-MIL), che utilizza una struttura Siamese con un vincolo di consistenza per esplorare le istanze difficili. Utilizzando una probabilità di istanza consapevole della classe, MHIM-MIL impiega un insegnante a momento per mascherare le istanze salienti e estrarre implicitamente le istanze difficili per addestrare il modello studente. Per ottenere istanze difficili diverse e non ridondanti, adottiamo un mascheramento casuale su larga scala, utilizzando una rete di riciclo globale per mitigare il rischio di perdere caratteristiche chiave. Inoltre, lo studente aggiorna l'insegnante utilizzando una media mobile esponenziale, che identifica nuove istanze difficili per le iterazioni di addestramento successive e stabilizza l'ottimizzazione. I risultati sperimentali su compiti di diagnosi del cancro, sottotipizzazione, analisi di sopravvivenza e 12 benchmark dimostrano che MHIM-MIL supera i metodi più recenti sia in termini di prestazioni che di efficienza. Il codice è disponibile all'indirizzo: https://github.com/DearCaat/MHIM-MIL.

Struct-Bench: Un Benchmark per la Generazione Differenzialmente Privata di Testi Strutturati
Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

Sep 12

ByShuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti

La generazione di dati sintetici con privacy differenziale (DP) è una tecnica promettente per utilizzare dataset privati che altrimenti non potrebbero essere esposti per l'addestramento di modelli o altre analisi. Mentre gran parte della letteratura di ricerca si è concentrata sulla generazione di dati non strutturati come testo e immagini, negli ambienti aziendali i dati strutturati (ad esempio, tabellari) sono più comuni e spesso includono campi o componenti in linguaggio naturale. Le tecniche esistenti per la valutazione dei dati sintetici (ad esempio, FID) faticano a catturare le proprietà strutturali e le correlazioni di tali dataset. In questo lavoro, proponiamo Struct-Bench, un framework e un benchmark per valutare dataset sintetici derivati da dataset strutturati che contengono dati in linguaggio naturale. Il framework Struct-Bench richiede agli utenti di fornire una rappresentazione della struttura del loro dataset come grammatica libera dal contesto (CFG). Il nostro benchmark comprende 5 dataset reali e 2 generati sinteticamente, ciascuno annotato con CFG. Dimostriamo che questi dataset rappresentano una sfida significativa anche per i metodi più avanzati di generazione di dati sintetici DP. Struct-Bench include anche implementazioni di riferimento di diverse metriche e una classifica, fornendo così ai ricercatori una piattaforma di valutazione standardizzata per confrontare e investigare metodi di generazione di dati sintetici che preservano la privacy. Inoltre, presentiamo uno studio di caso che mostra come utilizzare Struct-Bench per migliorare la qualità dei dati sintetici generati da Private Evolution (PE) su dati strutturati. Il benchmark e la classifica sono stati resi pubblicamente disponibili all'indirizzo https://struct-bench.github.io.

Abbinamento Sonoro di un Amplificatore di Livellamento Analogico Utilizzando il Metodo di Newton-Raphson
Sound Matching an Analogue Levelling Amplifier Using the Newton-Raphson Method

Sep 12

ByChin-Yun Yu, György Fazekas

La differenziazione automatica attraverso algoritmi di elaborazione del segnale digitale per la modellazione virtuale analogica ha recentemente guadagnato popolarità. Questi algoritmi sono tipicamente più efficienti dal punto di vista computazionale rispetto alle reti neurali black-box che si basano su moltiplicazioni di matrici dense. Grazie alla loro natura differenziabile, possono essere integrati con reti neurali e addestrati congiuntamente utilizzando algoritmi di discesa del gradiente, portando a sistemi più efficienti. Inoltre, gli algoritmi di elaborazione del segnale hanno un numero significativamente inferiore di parametri rispetto alle reti neurali, consentendo l'applicazione del metodo di Newton-Raphson. Questo metodo offre una convergenza più rapida e robusta rispetto alla discesa del gradiente, al costo di una memorizzazione quadratica. Questo articolo presenta un metodo per emulare amplificatori di livellamento analogici utilizzando un compressore digitale feed-forward con parametri ottimizzati tramite il metodo di Newton-Raphson. Dimostriamo che un compressore digitale può approssimare con successo il comportamento della nostra unità target, il Teletronix LA-2A. Vengono confrontate diverse strategie per il calcolo della matrice Hessiana. Sfruttiamo algoritmi paralleli per filtri ricorsivi per ottenere un addestramento efficiente su moderne GPU. Il modello risultante è stato trasformato in un plugin VST ed è open-source all'indirizzo https://github.com/aim-qmul/4a2a.

Hunyuan3D Studio: Pipeline AI End-to-End per la Generazione di Asset 3D Pronti per il Gioco
Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

Sep 16