HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

Una Rassegna sull'Apprendimento per Rinforzo per Modelli di Ragionamento su Grande Scala
A Survey of Reinforcement Learning for Large Reasoning Models

Sep 10

ByKaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

183

In questo articolo, esaminiamo i recenti progressi nell'apprendimento per rinforzo (Reinforcement Learning, RL) applicato al ragionamento con modelli linguistici di grandi dimensioni (Large Language Models, LLMs). L'RL ha ottenuto risultati notevoli nel potenziare le capacità degli LLMs, in particolare nell'affrontare compiti logici complessi come la matematica e la programmazione. Di conseguenza, l'RL è emerso come una metodologia fondamentale per trasformare gli LLMs in LRMs (Large Reasoning Models). Con il rapido avanzamento del campo, l'ulteriore scalabilità dell'RL per gli LRMs si scontra ora con sfide fondamentali non solo in termini di risorse computazionali, ma anche nella progettazione degli algoritmi, nei dati di addestramento e nelle infrastrutture. A tal fine, è opportuno riesaminare lo sviluppo di questo dominio, valutarne la traiettoria ed esplorare strategie per migliorare la scalabilità dell'RL verso la SuperIntelligenza Artificiale (Artificial SuperIntelligence, ASI). In particolare, analizziamo la ricerca che applica l'RL agli LLMs e agli LRMs per le capacità di ragionamento, soprattutto a partire dal rilascio di DeepSeek-R1, includendo componenti fondamentali, problemi centrali, risorse di addestramento e applicazioni downstream, per identificare opportunità e direzioni future in questo settore in rapida evoluzione. Speriamo che questa rassegna promuova ulteriori ricerche sull'RL per modelli di ragionamento più ampi. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

RewardDance: Scalatura delle Ricompense nella Generazione Visiva
RewardDance: Reward Scaling in Visual Generation

Sep 10

ByJie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang

I Modelli di Ricompensa (RMs) sono cruciali per migliorare i modelli di generazione tramite Apprendimento per Rinforzo (RL), tuttavia il paradigma di scalabilità degli RMs nella generazione visiva rimane ampiamente inesplorato. Ciò è principalmente dovuto a limitazioni fondamentali negli approcci esistenti: gli RMs basati su CLIP soffrono di vincoli architetturali e di modalità di input, mentre le perdite Bradley-Terry prevalenti sono fondamentalmente disallineate con il meccanismo di previsione del token successivo dei Modelli Visione-Linguaggio (VLMs), ostacolando una scalabilità efficace. Ancora più critico, il processo di ottimizzazione RLHF è afflitto dal problema del "Reward Hacking", in cui i modelli sfruttano difetti nel segnale di ricompensa senza migliorare la qualità effettiva. Per affrontare queste sfide, introduciamo RewardDance, un framework scalabile di modellazione della ricompensa che supera queste barriere attraverso un nuovo paradigma di ricompensa generativa. Riformulando il punteggio di ricompensa come la probabilità del modello di prevedere un token "sì", indicante che l'immagine generata supera un'immagine di riferimento secondo criteri specifici, RewardDance allinea intrinsecamente gli obiettivi di ricompensa con le architetture VLM. Questo allineamento sblocca la scalabilità su due dimensioni: (1) Scalabilità del Modello: Scalabilità sistematica degli RMs fino a 26 miliardi di parametri; (2) Scalabilità del Contesto: Integrazione di istruzioni specifiche per il compito, esempi di riferimento e ragionamento a catena di pensiero (CoT). Esperimenti estensivi dimostrano che RewardDance supera significativamente i metodi all'avanguardia nella generazione da testo a immagine, da testo a video e da immagine a video. In modo cruciale, risolviamo la persistente sfida del "reward hacking": i nostri RMs su larga scala mostrano e mantengono un'elevata varianza della ricompensa durante la messa a punto RL, dimostrando la loro resistenza all'hacking e la capacità di produrre output diversificati e di alta qualità. Ciò allevia notevolmente il problema del collasso modale che affligge i modelli più piccoli.

AgentGym-RL: Addestramento di Agenti LLM per il Processo Decisionale a Lungo Termine attraverso l'Apprendimento per Rinforzo Multi-Turn
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Sep 10

ByZhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

Lo sviluppo di agenti LLM autonomi in grado di prendere una serie di decisioni intelligenti per risolvere compiti complessi e reali rappresenta una frontiera in rapida evoluzione. Similmente allo sviluppo cognitivo umano, ci si aspetta che questi agenti acquisiscano conoscenze e competenze attraverso l'esplorazione e l'interazione con l'ambiente. Nonostante i progressi, la comunità manca ancora di un framework unificato e interattivo di apprendimento per rinforzo (RL) che possa addestrare efficacemente tali agenti da zero — senza fare affidamento su un affinamento supervisionato (SFT) — in ambienti diversi e realistici. Per colmare questa lacuna, introduciamo AgentGym-RL, un nuovo framework per addestrare agenti LLM nel processo decisionale interattivo multi-turn attraverso l'RL. Il framework presenta un'architettura modulare e disaccoppiata, garantendo alta flessibilità e estensibilità. Include una vasta gamma di scenari reali e supporta gli algoritmi RL principali. Inoltre, proponiamo ScalingInter-RL, un approccio di addestramento progettato per bilanciare esplorazione e sfruttamento e ottimizzare stabilmente l'RL. Nelle fasi iniziali, enfatizza lo sfruttamento limitando il numero di interazioni, per poi spostarsi gradualmente verso l'esplorazione con orizzonti più ampi, incoraggiando strategie di problem-solving diversificate. In questo modo, l'agente sviluppa comportamenti più vari ed è meno soggetto a collassare su orizzonti lunghi. Abbiamo condotto esperimenti estesi per validare la stabilità e l'efficacia sia del framework AgentGym-RL che dell'approccio ScalingInter-RL. I nostri agenti eguagliano o superano modelli commerciali in 27 task attraverso ambienti diversi. Offriamo intuizioni chiave e renderemo open-source l'intero framework AgentGym-RL — inclusi codice e dataset — per permettere alla comunità di ricerca di sviluppare la prossima generazione di agenti intelligenti.

Modellazione 3D e 4D del Mondo: Una Rassegna
3D and 4D World Modeling: A Survey

Sep 4

ByLingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu

La modellazione del mondo è diventata un pilastro fondamentale nella ricerca sull'intelligenza artificiale, consentendo agli agenti di comprendere, rappresentare e prevedere gli ambienti dinamici in cui operano. Mentre i lavori precedenti si sono concentrati principalmente su metodi generativi per dati bidimensionali come immagini e video, hanno trascurato il crescente corpus di ricerche che sfruttano rappresentazioni native 3D e 4D, come immagini RGB-D, griglie di occupazione e nuvole di punti LiDAR, per la modellazione di scene su larga scala. Allo stesso tempo, l'assenza di una definizione e tassonomia standardizzate per i "modelli del mondo" ha portato a affermazioni frammentate e talvolta incoerenti nella letteratura. Questa rassegna affronta queste lacune presentando la prima revisione completa dedicata esplicitamente alla modellazione e generazione di mondi 3D e 4D. Definiamo con precisione i concetti, introduciamo una tassonomia strutturata che abbraccia approcci basati su video (VideoGen), occupazione (OccGen) e LiDAR (LiDARGen), e riassumiamo sistematicamente i dataset e le metriche di valutazione adattate agli ambienti 3D/4D. Inoltre, discutiamo applicazioni pratiche, identifichiamo sfide aperte e evidenziamo direzioni di ricerca promettenti, con l'obiettivo di fornire un riferimento coerente e fondazionale per far progredire il campo. Un riepilogo sistematico della letteratura esistente è disponibile all'indirizzo https://github.com/worldbench/survey.

P3-SAM: Segmentazione nativa di parti in 3D
P3-SAM: Native 3D Part Segmentation

Sep 8

ByChangfeng Ma, Yang Li, Xinhao Yan, Jiachen Xu, Yunhan Yang, Chunshi Wang, Zibo Zhao, Yanwen Guo, Zhuo Chen, Chunchao Guo

La segmentazione di asset 3D nelle loro parti costituenti è cruciale per migliorare la comprensione 3D, facilitare il riutilizzo dei modelli e supportare varie applicazioni come la generazione di parti. Tuttavia, i metodi attuali presentano limitazioni, come una scarsa robustezza nel gestire oggetti complessi e l’incapacità di automatizzare completamente il processo. In questo articolo, proponiamo un modello nativo di segmentazione delle parti basato su prompt di punti 3D, denominato P3-SAM, progettato per automatizzare completamente la segmentazione di qualsiasi oggetto 3D in componenti. Ispirato da SAM, P3-SAM è composto da un estrattore di feature, multiple teste di segmentazione e un predittore di IoU, consentendo una segmentazione interattiva per gli utenti. Proponiamo inoltre un algoritmo per selezionare e unire automaticamente le maschere predette dal nostro modello per la segmentazione delle istanze delle parti. Il nostro modello è addestrato su un nuovo dataset contenente quasi 3,7 milioni di modelli con etichette di segmentazione ragionevoli. I confronti dimostrano che il nostro metodo ottiene risultati di segmentazione precisi e una forte robustezza su qualsiasi oggetto complesso, raggiungendo prestazioni all'avanguardia. Il nostro codice sarà rilasciato a breve.

La maggioranza non ha sempre ragione: addestramento RL per l'aggregazione di soluzioni
The Majority is not always right: RL training for solution aggregation

Sep 8

ByWenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov

L'aumento della potenza di calcolo durante il test, generando più soluzioni indipendenti e selezionando o aggregando tra di esse, è diventato un paradigma centrale per migliorare i grandi modelli linguistici (LLM) su compiti di ragionamento complessi. Mentre la maggior parte del lavoro precedente si basa su semplici votazioni a maggioranza o classificazioni tramite modelli di ricompensa per aggregare le soluzioni, questi approcci possono offrire solo benefici limitati. In questo lavoro, proponiamo di apprendere l'aggregazione come una capacità di ragionamento esplicita: dato un insieme di soluzioni candidate, addestriamo un modello aggregatore a rivedere, riconciliare e sintetizzare una risposta finale corretta utilizzando l'apprendimento per rinforzo con ricompense verificabili. Un elemento chiave è il bilanciamento accurato di esempi di addestramento facili e difficili, consentendo al modello di imparare sia a recuperare risposte corrette ma minoritarie sia risposte corrette di maggioranza. Empiricamente, scopriamo che il nostro metodo, AggLM, supera sia baseline basate su regole che modelli di ricompensa, su più benchmark. Inoltre, generalizza efficacemente a soluzioni provenienti da modelli diversi, inclusi modelli più potenti di quelli presenti nei dati di addestramento, richiedendo sostanzialmente meno token rispetto al voto a maggioranza con un numero maggiore di soluzioni.

Rapporto Tecnico di Hunyuan-MT
Hunyuan-MT Technical Report

Sep 5

ByMao Zheng, Zheng Li, Bingxin Qu, Mingyang Song, Yang Du, Mingrui Sun, Di Wang

In questo rapporto, presentiamo Hunyuan-MT-7B, il nostro primo modello open-source di traduzione multilingue, che supporta la traduzione bidirezionale tra 33 lingue principali e pone un'enfasi speciale sulla traduzione tra il mandarino e diverse lingue minoritarie nonché dialetti. Inoltre, per servire e affrontare scenari di traduzione diversificati e migliorare le prestazioni del modello durante i test, introduciamo Hunyuan-MT-Chimera-7B, un modello di traduzione ispirato al modo di pensiero lento. Questo modello integra molteplici output generati dal modello Hunyuan-MT-7B sotto diverse impostazioni di parametri, raggiungendo così prestazioni superiori rispetto ai modelli convenzionali di pensiero lento basati su Chain-of-Thought (CoT). Lo sviluppo dei nostri modelli segue un processo di formazione olistico specificamente progettato per la traduzione multilingue, che inizia con una pre-formazione generale e orientata alla traduzione per costruire capacità di base, procede con la Supervised Fine-Tuning (SFT) per l'adattamento specifico al compito e culmina in un allineamento avanzato attraverso il Reinforcement Learning (RL) e il weak-to-strong RL. Attraverso esperimenti completi, dimostriamo che sia Hunyuan-MT-7B che Hunyuan-MT-Chimera-7B superano significativamente tutti i modelli specifici per la traduzione di dimensioni comparabili e la maggior parte dei modelli SOTA di grandi dimensioni, in particolare nel compito di traduzione tra il mandarino e le lingue minoritarie nonché dialetti. Nel task condiviso WMT2025 (General Machine Translation), i nostri modelli dimostrano prestazioni all'avanguardia, classificandosi primi in 30 su 31 coppie di lingue. Questo risultato evidenzia la robustezza dei nostri modelli attraverso uno spettro linguistico diversificato, che comprende lingue ad alta risorsa come il cinese, l'inglese e il giapponese, nonché lingue a bassa risorsa tra cui il ceco, il marathi, l'estone e l'islandese.

<think> Quindi sostituiamo questa frase con un insulto... </think> Lezioni apprese dalla generazione di testi tossici con i LLM
<think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs

Sep 10

BySergey Pletenev, Daniil Moskovskiy, Alexander Panchenko

I moderni Large Language Models (LLM) sono eccellenti nella generazione di dati sintetici. Tuttavia, le loro prestazioni in domini sensibili come la detossificazione del testo non hanno ricevuto la dovuta attenzione da parte della comunità scientifica. Questo articolo esplora la possibilità di utilizzare dati tossici sintetici generati da LLM come alternativa ai dati generati da esseri umani per addestrare modelli di detossificazione. Utilizzando i modelli Llama 3 e Qwen con attivazione modificata, abbiamo generato controparti tossiche sintetiche per testi neutri provenienti dai dataset ParaDetox e SST-2. I nostri esperimenti dimostrano che i modelli fine-tuned su dati sintetici performano costantemente peggio rispetto a quelli addestrati su dati umani, con un calo delle prestazioni fino al 30% nelle metriche congiunte. La causa principale è stata identificata in un gap critico di diversità lessicale: gli LLM generano contenuti tossici utilizzando un vocabolario ristretto e ripetitivo di insulti che non riesce a catturare le sfumature e la varietà della tossicità umana. Questi risultati evidenziano i limiti degli attuali LLM in questo dominio e sottolineano l'importanza continua di dati diversificati e annotati da esseri umani per costruire sistemi di detossificazione robusti.

Metodi Statistici nell'Intelligenza Artificiale Generativa
Statistical Methods in Generative AI

Sep 8

ByEdgar Dobriban

L'Intelligenza Artificiale Generativa sta emergendo come una tecnologia importante, promettendo di essere trasformativa in molti ambiti. Allo stesso tempo, le tecniche di IA generativa si basano sul campionamento da modelli probabilistici e, di default, non offrono garanzie riguardo a correttezza, sicurezza, equità o altre proprietà. I metodi statistici rappresentano un approccio promettente per migliorare l'affidabilità delle tecniche di IA generativa. Inoltre, i metodi statistici sono anche promettenti per migliorare la qualità e l'efficienza della valutazione dell'IA, nonché per progettare interventi e esperimenti nell'ambito dell'IA. In questo articolo, esaminiamo alcuni dei lavori esistenti su questi temi, spiegando sia le tecniche statistiche generali utilizzate, sia le loro applicazioni all'IA generativa. Discutiamo inoltre i limiti e le potenziali direzioni future.

EnvX: Trasforma tutto in agenti con l'Intelligenza Artificiale Agente
EnvX: Agentize Everything with Agentic AI

Sep 9

ByLinyao Chen, Zimian Peng, Yingxuan Yang, Yikun Wang, Wenzheng Tom Tang, Hiroki H. Kobayashi, Weinan Zhang

La diffusa disponibilità di repository open-source ha portato a una vasta raccolta di componenti software riutilizzabili, ma il loro utilizzo rimane manuale, soggetto a errori e disconnesso. Gli sviluppatori devono navigare la documentazione, comprendere le API e scrivere codice di integrazione, creando significative barriere al riutilizzo efficiente del software. Per affrontare questo problema, presentiamo EnvX, un framework che sfrutta l'AI Agente per trasformare i repository GitHub in agenti intelligenti e autonomi capaci di interazione in linguaggio naturale e collaborazione inter-agente. A differenza degli approcci esistenti che trattano i repository come risorse di codice statiche, EnvX li reimmagina come agenti attivi attraverso un processo in tre fasi: (1) inizializzazione dell'ambiente guidata da TODO, che configura le dipendenze necessarie, i dati e i dataset di validazione; (2) automazione agente allineata all'umano, che consente agli agenti specifici del repository di eseguire autonomamente compiti nel mondo reale; e (3) protocollo Agente-Agente (A2A), che permette a più agenti di collaborare. Combinando le capacità dei modelli linguistici di grandi dimensioni con l'integrazione strutturata di strumenti, EnvX automatizza non solo la generazione di codice, ma l'intero processo di comprensione, inizializzazione e operativizzazione della funzionalità del repository. Valutiamo EnvX sul benchmark GitTaskBench, utilizzando 18 repository in domini come elaborazione delle immagini, riconoscimento vocale, analisi dei documenti e manipolazione video. I nostri risultati mostrano che EnvX raggiunge un tasso di completamento dell'esecuzione del 74,07% e un tasso di successo delle attività del 51,85%, superando i framework esistenti. Studi di caso dimostrano ulteriormente la capacità di EnvX di abilitare la collaborazione multi-repository tramite il protocollo A2A. Questo lavoro segna un passaggio dal trattare i repository come risorse di codice passive a considerarli come agenti intelligenti e interattivi, promuovendo una maggiore accessibilità e collaborazione all'interno dell'ecosistema open-source.

HumanAgencyBench: Valutazione Scalabile del Supporto all'Agenzia Umana negli Assistenti AI
HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

Sep 10

ByBenjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

Man mano che gli esseri umani delegano più compiti e decisioni all'intelligenza artificiale (IA), rischiamo di perdere il controllo dei nostri futuri individuali e collettivi. Sistemi algoritmici relativamente semplici già orientano il processo decisionale umano, come gli algoritmi dei feed dei social media che portano le persone a scorrere in modo inconsapevole e distratto contenuti ottimizzati per il coinvolgimento. In questo articolo, sviluppiamo il concetto di agenzia umana integrando teorie filosofiche e scientifiche dell'agenzia con metodi di valutazione assistiti dall'IA: utilizziamo modelli linguistici di grandi dimensioni (LLM) per simulare e validare le query degli utenti e per valutare le risposte dell'IA. Sviluppiamo HumanAgencyBench (HAB), un benchmark scalabile e adattabile con sei dimensioni dell'agenzia umana basate su casi d'uso tipici dell'IA. HAB misura la tendenza di un assistente o agente IA a Porre Domande Chiarificatrici, Evitare la Manipolazione dei Valori, Correggere la Disinformazione, Rinviare Decisioni Importanti, Incoraggiare l'Apprendimento e Mantenere i Confini Sociali. Rileviamo un supporto all'agenzia da basso a moderato negli assistenti contemporanei basati su LLM e una variazione sostanziale tra gli sviluppatori di sistemi e le dimensioni. Ad esempio, mentre gli LLM di Anthropic supportano maggiormente l'agenzia umana nel complesso, sono i meno supportivi in termini di Evitare la Manipolazione dei Valori. Il supporto all'agenzia non sembra derivare in modo consistente dall'aumento delle capacità degli LLM o dal comportamento di seguire le istruzioni (ad esempio, RLHF), e incoraggiamo un passaggio verso obiettivi di sicurezza e allineamento più robusti.

AgentGym-RL: Addestramento di Agenti LLM per il Processo Decisionale a Lungo Termine attraverso l'Apprendimento per Rinforzo Multi-Turn
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Sep 10