Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, esaminiamo i recenti progressi nell'apprendimento per rinforzo (Reinforcement Learning, RL) applicato al ragionamento con modelli linguistici di grandi dimensioni (Large Language Models, LLMs). L'RL ha ottenuto risultati notevoli nel potenziare le capacità degli LLMs, in particolare nell'affrontare compiti logici complessi come la matematica e la programmazione. Di conseguenza, l'RL è emerso come una metodologia fondamentale per trasformare gli LLMs in LRMs (Large Reasoning Models). Con il rapido avanzamento del campo, l'ulteriore scalabilità dell'RL per gli LRMs si scontra ora con sfide fondamentali non solo in termini di risorse computazionali, ma anche nella progettazione degli algoritmi, nei dati di addestramento e nelle infrastrutture. A tal fine, è opportuno riesaminare lo sviluppo di questo dominio, valutarne la traiettoria ed esplorare strategie per migliorare la scalabilità dell'RL verso la SuperIntelligenza Artificiale (Artificial SuperIntelligence, ASI). In particolare, analizziamo la ricerca che applica l'RL agli LLMs e agli LRMs per le capacità di ragionamento, soprattutto a partire dal rilascio di DeepSeek-R1, includendo componenti fondamentali, problemi centrali, risorse di addestramento e applicazioni downstream, per identificare opportunità e direzioni future in questo settore in rapida evoluzione. Speriamo che questa rassegna promuova ulteriori ricerche sull'RL per modelli di ragionamento più ampi. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
I Modelli di Ricompensa (RMs) sono cruciali per migliorare i modelli di generazione tramite Apprendimento per Rinforzo (RL), tuttavia il paradigma di scalabilità degli RMs nella generazione visiva rimane ampiamente inesplorato. Ciò è principalmente dovuto a limitazioni fondamentali negli approcci esistenti: gli RMs basati su CLIP soffrono di vincoli architetturali e di modalità di input, mentre le perdite Bradley-Terry prevalenti sono fondamentalmente disallineate con il meccanismo di previsione del token successivo dei Modelli Visione-Linguaggio (VLMs), ostacolando una scalabilità efficace. Ancora più critico, il processo di ottimizzazione RLHF è afflitto dal problema del "Reward Hacking", in cui i modelli sfruttano difetti nel segnale di ricompensa senza migliorare la qualità effettiva. Per affrontare queste sfide, introduciamo RewardDance, un framework scalabile di modellazione della ricompensa che supera queste barriere attraverso un nuovo paradigma di ricompensa generativa. Riformulando il punteggio di ricompensa come la probabilità del modello di prevedere un token "sì", indicante che l'immagine generata supera un'immagine di riferimento secondo criteri specifici, RewardDance allinea intrinsecamente gli obiettivi di ricompensa con le architetture VLM. Questo allineamento sblocca la scalabilità su due dimensioni: (1) Scalabilità del Modello: Scalabilità sistematica degli RMs fino a 26 miliardi di parametri; (2) Scalabilità del Contesto: Integrazione di istruzioni specifiche per il compito, esempi di riferimento e ragionamento a catena di pensiero (CoT). Esperimenti estensivi dimostrano che RewardDance supera significativamente i metodi all'avanguardia nella generazione da testo a immagine, da testo a video e da immagine a video. In modo cruciale, risolviamo la persistente sfida del "reward hacking": i nostri RMs su larga scala mostrano e mantengono un'elevata varianza della ricompensa durante la messa a punto RL, dimostrando la loro resistenza all'hacking e la capacità di produrre output diversificati e di alta qualità. Ciò allevia notevolmente il problema del collasso modale che affligge i modelli più piccoli.
Lo sviluppo di agenti LLM autonomi in grado di prendere una serie di decisioni intelligenti per risolvere compiti complessi e reali rappresenta una frontiera in rapida evoluzione. Similmente allo sviluppo cognitivo umano, ci si aspetta che questi agenti acquisiscano conoscenze e competenze attraverso l'esplorazione e l'interazione con l'ambiente. Nonostante i progressi, la comunità manca ancora di un framework unificato e interattivo di apprendimento per rinforzo (RL) che possa addestrare efficacemente tali agenti da zero — senza fare affidamento su un affinamento supervisionato (SFT) — in ambienti diversi e realistici. Per colmare questa lacuna, introduciamo AgentGym-RL, un nuovo framework per addestrare agenti LLM nel processo decisionale interattivo multi-turn attraverso l'RL. Il framework presenta un'architettura modulare e disaccoppiata, garantendo alta flessibilità e estensibilità. Include una vasta gamma di scenari reali e supporta gli algoritmi RL principali. Inoltre, proponiamo ScalingInter-RL, un approccio di addestramento progettato per bilanciare esplorazione e sfruttamento e ottimizzare stabilmente l'RL. Nelle fasi iniziali, enfatizza lo sfruttamento limitando il numero di interazioni, per poi spostarsi gradualmente verso l'esplorazione con orizzonti più ampi, incoraggiando strategie di problem-solving diversificate. In questo modo, l'agente sviluppa comportamenti più vari ed è meno soggetto a collassare su orizzonti lunghi. Abbiamo condotto esperimenti estesi per validare la stabilità e l'efficacia sia del framework AgentGym-RL che dell'approccio ScalingInter-RL. I nostri agenti eguagliano o superano modelli commerciali in 27 task attraverso ambienti diversi. Offriamo intuizioni chiave e renderemo open-source l'intero framework AgentGym-RL — inclusi codice e dataset — per permettere alla comunità di ricerca di sviluppare la prossima generazione di agenti intelligenti.
La modellazione del mondo è diventata un pilastro fondamentale nella ricerca sull'intelligenza artificiale, consentendo agli agenti di comprendere, rappresentare e prevedere gli ambienti dinamici in cui operano. Mentre i lavori precedenti si sono concentrati principalmente su metodi generativi per dati bidimensionali come immagini e video, hanno trascurato il crescente corpus di ricerche che sfruttano rappresentazioni native 3D e 4D, come immagini RGB-D, griglie di occupazione e nuvole di punti LiDAR, per la modellazione di scene su larga scala. Allo stesso tempo, l'assenza di una definizione e tassonomia standardizzate per i "modelli del mondo" ha portato a affermazioni frammentate e talvolta incoerenti nella letteratura. Questa rassegna affronta queste lacune presentando la prima revisione completa dedicata esplicitamente alla modellazione e generazione di mondi 3D e 4D. Definiamo con precisione i concetti, introduciamo una tassonomia strutturata che abbraccia approcci basati su video (VideoGen), occupazione (OccGen) e LiDAR (LiDARGen), e riassumiamo sistematicamente i dataset e le metriche di valutazione adattate agli ambienti 3D/4D. Inoltre, discutiamo applicazioni pratiche, identifichiamo sfide aperte e evidenziamo direzioni di ricerca promettenti, con l'obiettivo di fornire un riferimento coerente e fondazionale per far progredire il campo. Un riepilogo sistematico della letteratura esistente è disponibile all'indirizzo https://github.com/worldbench/survey.
La segmentazione di asset 3D nelle loro parti costituenti è cruciale per migliorare la comprensione 3D, facilitare il riutilizzo dei modelli e supportare varie applicazioni come la generazione di parti. Tuttavia, i metodi attuali presentano limitazioni, come una scarsa robustezza nel gestire oggetti complessi e l’incapacità di automatizzare completamente il processo. In questo articolo, proponiamo un modello nativo di segmentazione delle parti basato su prompt di punti 3D, denominato P3-SAM, progettato per automatizzare completamente la segmentazione di qualsiasi oggetto 3D in componenti. Ispirato da SAM, P3-SAM è composto da un estrattore di feature, multiple teste di segmentazione e un predittore di IoU, consentendo una segmentazione interattiva per gli utenti. Proponiamo inoltre un algoritmo per selezionare e unire automaticamente le maschere predette dal nostro modello per la segmentazione delle istanze delle parti. Il nostro modello è addestrato su un nuovo dataset contenente quasi 3,7 milioni di modelli con etichette di segmentazione ragionevoli. I confronti dimostrano che il nostro metodo ottiene risultati di segmentazione precisi e una forte robustezza su qualsiasi oggetto complesso, raggiungendo prestazioni all'avanguardia. Il nostro codice sarà rilasciato a breve.
L'aumento della potenza di calcolo durante il test, generando più soluzioni indipendenti e selezionando o aggregando tra di esse, è diventato un paradigma centrale per migliorare i grandi modelli linguistici (LLM) su compiti di ragionamento complessi. Mentre la maggior parte del lavoro precedente si basa su semplici votazioni a maggioranza o classificazioni tramite modelli di ricompensa per aggregare le soluzioni, questi approcci possono offrire solo benefici limitati. In questo lavoro, proponiamo di apprendere l'aggregazione come una capacità di ragionamento esplicita: dato un insieme di soluzioni candidate, addestriamo un modello aggregatore a rivedere, riconciliare e sintetizzare una risposta finale corretta utilizzando l'apprendimento per rinforzo con ricompense verificabili. Un elemento chiave è il bilanciamento accurato di esempi di addestramento facili e difficili, consentendo al modello di imparare sia a recuperare risposte corrette ma minoritarie sia risposte corrette di maggioranza. Empiricamente, scopriamo che il nostro metodo, AggLM, supera sia baseline basate su regole che modelli di ricompensa, su più benchmark. Inoltre, generalizza efficacemente a soluzioni provenienti da modelli diversi, inclusi modelli più potenti di quelli presenti nei dati di addestramento, richiedendo sostanzialmente meno token rispetto al voto a maggioranza con un numero maggiore di soluzioni.
In questo rapporto, presentiamo Hunyuan-MT-7B, il nostro primo modello open-source di traduzione multilingue, che supporta la traduzione bidirezionale tra 33 lingue principali e pone un'enfasi speciale sulla traduzione tra il mandarino e diverse lingue minoritarie nonché dialetti. Inoltre, per servire e affrontare scenari di traduzione diversificati e migliorare le prestazioni del modello durante i test, introduciamo Hunyuan-MT-Chimera-7B, un modello di traduzione ispirato al modo di pensiero lento. Questo modello integra molteplici output generati dal modello Hunyuan-MT-7B sotto diverse impostazioni di parametri, raggiungendo così prestazioni superiori rispetto ai modelli convenzionali di pensiero lento basati su Chain-of-Thought (CoT). Lo sviluppo dei nostri modelli segue un processo di formazione olistico specificamente progettato per la traduzione multilingue, che inizia con una pre-formazione generale e orientata alla traduzione per costruire capacità di base, procede con la Supervised Fine-Tuning (SFT) per l'adattamento specifico al compito e culmina in un allineamento avanzato attraverso il Reinforcement Learning (RL) e il weak-to-strong RL. Attraverso esperimenti completi, dimostriamo che sia Hunyuan-MT-7B che Hunyuan-MT-Chimera-7B superano significativamente tutti i modelli specifici per la traduzione di dimensioni comparabili e la maggior parte dei modelli SOTA di grandi dimensioni, in particolare nel compito di traduzione tra il mandarino e le lingue minoritarie nonché dialetti. Nel task condiviso WMT2025 (General Machine Translation), i nostri modelli dimostrano prestazioni all'avanguardia, classificandosi primi in 30 su 31 coppie di lingue. Questo risultato evidenzia la robustezza dei nostri modelli attraverso uno spettro linguistico diversificato, che comprende lingue ad alta risorsa come il cinese, l'inglese e il giapponese, nonché lingue a bassa risorsa tra cui il ceco, il marathi, l'estone e l'islandese.
I moderni Large Language Models (LLM) sono eccellenti nella generazione di dati sintetici. Tuttavia, le loro prestazioni in domini sensibili come la detossificazione del testo non hanno ricevuto la dovuta attenzione da parte della comunità scientifica. Questo articolo esplora la possibilità di utilizzare dati tossici sintetici generati da LLM come alternativa ai dati generati da esseri umani per addestrare modelli di detossificazione. Utilizzando i modelli Llama 3 e Qwen con attivazione modificata, abbiamo generato controparti tossiche sintetiche per testi neutri provenienti dai dataset ParaDetox e SST-2. I nostri esperimenti dimostrano che i modelli fine-tuned su dati sintetici performano costantemente peggio rispetto a quelli addestrati su dati umani, con un calo delle prestazioni fino al 30% nelle metriche congiunte. La causa principale è stata identificata in un gap critico di diversità lessicale: gli LLM generano contenuti tossici utilizzando un vocabolario ristretto e ripetitivo di insulti che non riesce a catturare le sfumature e la varietà della tossicità umana. Questi risultati evidenziano i limiti degli attuali LLM in questo dominio e sottolineano l'importanza continua di dati diversificati e annotati da esseri umani per costruire sistemi di detossificazione robusti.
L'Intelligenza Artificiale Generativa sta emergendo come una tecnologia importante, promettendo di essere trasformativa in molti ambiti. Allo stesso tempo, le tecniche di IA generativa si basano sul campionamento da modelli probabilistici e, di default, non offrono garanzie riguardo a correttezza, sicurezza, equità o altre proprietà. I metodi statistici rappresentano un approccio promettente per migliorare l'affidabilità delle tecniche di IA generativa. Inoltre, i metodi statistici sono anche promettenti per migliorare la qualità e l'efficienza della valutazione dell'IA, nonché per progettare interventi e esperimenti nell'ambito dell'IA. In questo articolo, esaminiamo alcuni dei lavori esistenti su questi temi, spiegando sia le tecniche statistiche generali utilizzate, sia le loro applicazioni all'IA generativa. Discutiamo inoltre i limiti e le potenziali direzioni future.
La diffusa disponibilità di repository open-source ha portato a una vasta raccolta di componenti software riutilizzabili, ma il loro utilizzo rimane manuale, soggetto a errori e disconnesso. Gli sviluppatori devono navigare la documentazione, comprendere le API e scrivere codice di integrazione, creando significative barriere al riutilizzo efficiente del software. Per affrontare questo problema, presentiamo EnvX, un framework che sfrutta l'AI Agente per trasformare i repository GitHub in agenti intelligenti e autonomi capaci di interazione in linguaggio naturale e collaborazione inter-agente. A differenza degli approcci esistenti che trattano i repository come risorse di codice statiche, EnvX li reimmagina come agenti attivi attraverso un processo in tre fasi: (1) inizializzazione dell'ambiente guidata da TODO, che configura le dipendenze necessarie, i dati e i dataset di validazione; (2) automazione agente allineata all'umano, che consente agli agenti specifici del repository di eseguire autonomamente compiti nel mondo reale; e (3) protocollo Agente-Agente (A2A), che permette a più agenti di collaborare. Combinando le capacità dei modelli linguistici di grandi dimensioni con l'integrazione strutturata di strumenti, EnvX automatizza non solo la generazione di codice, ma l'intero processo di comprensione, inizializzazione e operativizzazione della funzionalità del repository. Valutiamo EnvX sul benchmark GitTaskBench, utilizzando 18 repository in domini come elaborazione delle immagini, riconoscimento vocale, analisi dei documenti e manipolazione video. I nostri risultati mostrano che EnvX raggiunge un tasso di completamento dell'esecuzione del 74,07% e un tasso di successo delle attività del 51,85%, superando i framework esistenti. Studi di caso dimostrano ulteriormente la capacità di EnvX di abilitare la collaborazione multi-repository tramite il protocollo A2A. Questo lavoro segna un passaggio dal trattare i repository come risorse di codice passive a considerarli come agenti intelligenti e interattivi, promuovendo una maggiore accessibilità e collaborazione all'interno dell'ecosistema open-source.
Man mano che gli esseri umani delegano più compiti e decisioni all'intelligenza artificiale (IA), rischiamo di perdere il controllo dei nostri futuri individuali e collettivi. Sistemi algoritmici relativamente semplici già orientano il processo decisionale umano, come gli algoritmi dei feed dei social media che portano le persone a scorrere in modo inconsapevole e distratto contenuti ottimizzati per il coinvolgimento. In questo articolo, sviluppiamo il concetto di agenzia umana integrando teorie filosofiche e scientifiche dell'agenzia con metodi di valutazione assistiti dall'IA: utilizziamo modelli linguistici di grandi dimensioni (LLM) per simulare e validare le query degli utenti e per valutare le risposte dell'IA. Sviluppiamo HumanAgencyBench (HAB), un benchmark scalabile e adattabile con sei dimensioni dell'agenzia umana basate su casi d'uso tipici dell'IA. HAB misura la tendenza di un assistente o agente IA a Porre Domande Chiarificatrici, Evitare la Manipolazione dei Valori, Correggere la Disinformazione, Rinviare Decisioni Importanti, Incoraggiare l'Apprendimento e Mantenere i Confini Sociali. Rileviamo un supporto all'agenzia da basso a moderato negli assistenti contemporanei basati su LLM e una variazione sostanziale tra gli sviluppatori di sistemi e le dimensioni. Ad esempio, mentre gli LLM di Anthropic supportano maggiormente l'agenzia umana nel complesso, sono i meno supportivi in termini di Evitare la Manipolazione dei Valori. Il supporto all'agenzia non sembra derivare in modo consistente dall'aumento delle capacità degli LLM o dal comportamento di seguire le istruzioni (ad esempio, RLHF), e incoraggiamo un passaggio verso obiettivi di sicurezza e allineamento più robusti.