Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli di ragionamento (LRM), come OpenAI-o1 e DeepSeek-R1, dimostrano capacità impressionanti di ragionamento a lungo termine. Tuttavia, la loro dipendenza da conoscenze interne statiche limita le prestazioni su compiti complessi e ad alta intensità di conoscenza, ostacolando la capacità di produrre rapporti di ricerca completi che richiedono la sintesi di informazioni web diversificate. Per affrontare questo problema, proponiamo WebThinker, un agente di ricerca avanzato che potenzia i LRM per cercare autonomamente sul web, navigare tra le pagine web e redigere rapporti di ricerca durante il processo di ragionamento. WebThinker integra un modulo Deep Web Explorer, consentendo ai LRM di cercare, navigare ed estrarre dinamicamente informazioni dal web quando incontrano lacune di conoscenza. Utilizza inoltre una strategia autonoma Think-Search-and-Draft, che permette al modello di intervallare in modo fluido ragionamento, raccolta di informazioni e scrittura di rapporti in tempo reale. Per migliorare ulteriormente l'utilizzo degli strumenti di ricerca, introduciamo una strategia di addestramento basata su Reinforcement Learning (RL) tramite ottimizzazione iterativa online delle preferenze dirette (DPO). Esperimenti estesi su benchmark di ragionamento complesso (GPQA, GAIA, WebWalkerQA, HLE) e compiti di generazione di rapporti scientifici (Glaive) dimostrano che WebThinker supera significativamente i metodi esistenti e i sistemi proprietari avanzati. Il nostro approccio migliora l'affidabilità e l'applicabilità dei LRM in scenari complessi, aprendo la strada a sistemi di ricerca avanzati più capaci e versatili. Il codice è disponibile all'indirizzo https://github.com/RUC-NLPIR/WebThinker.
La diacritizzazione del testo arabo rimane una sfida persistente nell'elaborazione del linguaggio naturale a causa della ricchezza morfologica della lingua. In questo articolo, presentiamo Sadeed, un approccio innovativo basato su un modello linguistico decoder-only fine-tuned, adattato da Kuwain 1.5B Hennara et al. [2025], un modello compatto originariamente addestrato su corpora arabi diversificati. Sadeed è stato fine-tuned su dataset diacritizzati di alta qualità, accuratamente curati e costruiti attraverso una rigorosa pipeline di pulizia e normalizzazione dei dati. Nonostante l'utilizzo di risorse computazionali modeste, Sadeed ottiene risultati competitivi rispetto ai grandi modelli linguistici proprietari e supera i modelli tradizionali addestrati su domini simili. Inoltre, evidenziamo le principali limitazioni nelle pratiche attuali di benchmarking per la diacritizzazione araba. Per affrontare questi problemi, introduciamo SadeedDiac-25, un nuovo benchmark progettato per consentire una valutazione più equa e completa su diversi generi testuali e livelli di complessità. Insieme, Sadeed e SadeedDiac-25 forniscono una solida base per avanzare nelle applicazioni di NLP arabo, inclusi la traduzione automatica, la sintesi vocale e gli strumenti per l'apprendimento della lingua.
Presentiamo Phi-4-reasoning, un modello di ragionamento da 14 miliardi di parametri che ottiene prestazioni solide in compiti di ragionamento complessi. Addestrato tramite fine-tuning supervisionato di Phi-4 su un set accuratamente curato di prompt "insegnabili" - selezionati per il giusto livello di complessità e diversità - e dimostrazioni di ragionamento generate utilizzando o3-mini, Phi-4-reasoning produce catene di ragionamento dettagliate che sfruttano efficacemente il calcolo al momento dell'inferenza. Abbiamo inoltre sviluppato Phi-4-reasoning-plus, una variante potenziata attraverso una breve fase di reinforcement learning basato sui risultati, che offre prestazioni superiori generando tracce di ragionamento più lunghe. In un'ampia gamma di compiti di ragionamento, entrambi i modelli superano significativamente modelli open-weight più grandi come DeepSeek-R1-Distill-Llama-70B e si avvicinano ai livelli di prestazione del modello completo DeepSeek-R1. Le nostre valutazioni complete coprono benchmark di ragionamento matematico e scientifico, codifica, risoluzione di problemi algoritmici, pianificazione e comprensione spaziale. Interessante notare che osserviamo un trasferimento non banale dei miglioramenti anche a benchmark di uso generale. In questo report, forniamo approfondimenti sui nostri dati di addestramento, sulle metodologie di addestramento e sulle valutazioni. Dimostriamo che il vantaggio di una cura attenta dei dati per il fine-tuning supervisionato (SFT) si estende ai modelli linguistici di ragionamento e può essere ulteriormente amplificato dal reinforcement learning (RL). Infine, la nostra valutazione indica opportunità per migliorare come valutiamo le prestazioni e la robustezza dei modelli di ragionamento.
Chain-of-Thought (CoT) migliora significativamente le capacità di ragionamento formale nei Large Language Models (LLMs) addestrandoli a generare esplicitamente passaggi di ragionamento intermedi. Mentre i LLMs traggono facilmente vantaggio da tali tecniche, migliorare il ragionamento nei Small Language Models (SLMs) rimane una sfida a causa della loro limitata capacità del modello. Recenti lavori di Deepseek-R1 dimostrano che la distillazione da dati sintetici generati da LLM può migliorare sostanzialmente la capacità di ragionamento degli SLM. Tuttavia, la ricetta dettagliata di modellazione non è stata divulgata. In questo lavoro, presentiamo una ricetta di addestramento sistematica per gli SLM che consiste in quattro passaggi: (1) addestramento su larga scala su dati long-CoT distillati e diversificati, (2) fine-tuning supervisionato su dati long-CoT di alta qualità, (3) Rollout DPO sfruttando un dataset di preferenze accuratamente curato, e (4) Reinforcement Learning (RL) con ricompensa verificabile. Applichiamo il nostro metodo su Phi-4-Mini, un modello compatto da 3,8 miliardi di parametri. Il modello risultante, Phi-4-Mini-Reasoning, supera, nei compiti di ragionamento matematico, modelli di ragionamento molto più grandi, ad esempio superando DeepSeek-R1-Distill-Qwen-7B di 3,2 punti e DeepSeek-R1-Distill-Llama-8B di 7,7 punti su Math-500. I nostri risultati confermano che una ricetta di addestramento attentamente progettata, con dati CoT su larga scala e di alta qualità, è efficace per sbloccare forti capacità di ragionamento anche in modelli piccoli con risorse limitate.
Il recente sviluppo dei modelli linguistici di ragionamento (RLM) rappresenta una nuova evoluzione nei grandi modelli linguistici. In particolare, il recente rilascio di DeepSeek-R1 ha generato un ampio impatto sociale e ha suscitato entusiasmo nella comunità di ricerca per esplorare il paradigma di ragionamento esplicito dei modelli linguistici. Tuttavia, i dettagli implementativi dei modelli rilasciati non sono stati completamente open-source da parte di DeepSeek, inclusi DeepSeek-R1-Zero, DeepSeek-R1 e i modelli piccoli distillati. Di conseguenza, sono emersi molti studi di replicazione con l'obiettivo di riprodurre le prestazioni elevate raggiunte da DeepSeek-R1, ottenendo risultati comparabili attraverso procedure di addestramento simili e risorse dati completamente open-source. Questi lavori hanno esplorato strategie fattibili per il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo da ricompense verificabili (RLVR), concentrandosi sulla preparazione dei dati e sulla progettazione dei metodi, producendo varie intuizioni preziose. In questo rapporto, forniamo una sintesi dei recenti studi di replicazione per ispirare future ricerche. Ci concentriamo principalmente su SFT e RLVR come due direzioni principali, introducendo i dettagli per la costruzione dei dati, la progettazione dei metodi e le procedure di addestramento degli attuali studi di replicazione. Inoltre, concludiamo con i risultati chiave derivanti dai dettagli implementativi e dai risultati sperimentali riportati da questi studi, con l'obiettivo di ispirare future ricerche. Discutiamo anche tecniche aggiuntive per migliorare gli RLM, evidenziando il potenziale di espansione dell'ambito di applicazione di questi modelli e discutendo le sfide nello sviluppo. Con questa rassegna, miriamo a aiutare ricercatori e sviluppatori di RLM a rimanere aggiornati sugli ultimi progressi e a cercare di ispirare nuove idee per migliorare ulteriormente gli RLM.
Introduciamo softpick, una sostituzione diretta e rettificata, non a somma unitaria, per la funzione softmax nei meccanismi di attenzione dei transformer, che elimina i fenomeni di "attention sink" e le attivazioni massicce. I nostri esperimenti con modelli da 340 milioni di parametri dimostrano che softpick mantiene una performance equivalente a quella di softmax sui benchmark standard, raggiungendo un tasso di sink pari allo 0%. Il transformer con softpick produce stati nascosti con una curtosi significativamente inferiore (340 vs 33.510) e genera mappe di attenzione sparse (46,97% di sparsità). I modelli che utilizzano softpick superano costantemente quelli con softmax quando quantizzati, con vantaggi particolarmente evidenti a precisioni di bit inferiori. La nostra analisi e discussione mostra come softpick abbia il potenziale di aprire nuove possibilità per la quantizzazione, l'addestramento a bassa precisione, l'ottimizzazione della sparsità, il pruning e l'interpretabilità. Il nostro codice è disponibile all'indirizzo https://github.com/zaydzuhri/softpick-attention.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono in compiti semplici che coinvolgono visione e linguaggio, ma incontrano difficoltà di fronte a compiti complessi che richiedono molteplici capacità, come riconoscere oggetti, contarli e comprenderne le relazioni spaziali simultaneamente. Questo potrebbe essere in parte dovuto al fatto che il Visual Instruction Tuning (VIT), una fase critica di addestramento per gli MLLMs, si è tradizionalmente concentrato sull'aumento del volume dei dati, ma non sulla complessità compositiva degli esempi di addestramento. Proponiamo COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), che genera un dataset di addestramento controllando esplicitamente la complessità compositiva degli esempi. I dati di COMPACT consentono agli MLLMs di addestrarsi su combinazioni di capacità atomiche per apprendere capacità complesse in modo più efficiente. Su tutti i benchmark, COMPACT raggiunge prestazioni comparabili al VIT LLaVA-665k utilizzando meno del 10% del suo budget di dati, e lo supera in diversi casi, specialmente in quelli che coinvolgono compiti complessi multi-capacità. Ad esempio, COMPACT ottiene un miglioramento sostanziale dell'83,3% su MMStar e del 94,0% su MM-Vet rispetto al VIT su larga scala, in particolare su domande complesse che richiedono quattro o più capacità atomiche. COMPACT offre una ricetta scalabile, efficiente in termini di dati e basata su un tuning compositivo visivo per migliorare i compiti complessi di visione e linguaggio.
I Large Language Model (LLM) sfruttano il ragionamento passo-passo per risolvere problemi complessi. La pratica di valutazione standard prevede la generazione di una traccia di ragionamento completa e la valutazione della correttezza della risposta finale presentata alla sua conclusione. In questo articolo, mettiamo in discussione la dipendenza dalla risposta finale ponendo le seguenti due domande: la risposta finale rappresenta in modo affidabile la conclusione ottimale del modello? Percorsi di ragionamento alternativi possono produrre risultati diversi? Per rispondere a queste domande, analizziamo i passaggi intermedi di ragionamento, denominati subthought, e proponiamo un metodo basato sui nostri risultati. Il nostro approccio prevede la segmentazione di una traccia di ragionamento in subthought sequenziali basati su indizi linguistici. Iniziamo sollecitando il modello a generare continuazioni dal punto finale di ciascun subthought intermedio. Estraiamo una potenziale risposta da ogni continuazione completata originata da diversi subthought. Scopriamo che aggregare queste risorse selezionando quella più frequente (la moda) spesso produce un'accuratezza significativamente maggiore rispetto all'affidarsi esclusivamente alla risposta derivata dalla traccia completa originale. L'analisi della coerenza tra le risorse derivate da diversi subthought rivela caratteristiche che correlano con la fiducia e la correttezza del modello, suggerendo un potenziale per identificare risorse meno affidabili. I nostri esperimenti su vari LLM e su dataset impegnativi di ragionamento matematico (AIME2024 e AIME2025) mostrano miglioramenti consistenti nell'accuratezza, con guadagni che raggiungono rispettivamente fino al 13\% e al 10\%. L'implementazione è disponibile all'indirizzo: https://github.com/hammoudhasan/SubthoughtReasoner.
L'IA generativa sta ridefinendo l'arte, i giochi e, in modo particolarmente significativo, l'animazione. I recenti progressi nei modelli di base e nei modelli di diffusione hanno ridotto il tempo e i costi necessari per produrre contenuti animati. I personaggi sono componenti centrali dell'animazione, coinvolgendo movimento, emozioni, gesti ed espressioni facciali. La velocità e l'ampiezza degli avanzamenti degli ultimi mesi rendono difficile mantenere una visione coerente del campo, motivando la necessità di una revisione integrata. A differenza delle precedenti panoramiche che trattano avatar, gesti o animazione facciale in modo isolato, questo studio offre una prospettiva unica e completa su tutte le principali applicazioni dell'IA generativa per l'animazione dei personaggi. Iniziamo esaminando lo stato dell'arte nell'animazione facciale, nel rendering delle espressioni, nella sintesi delle immagini, nella creazione di avatar, nella modellazione dei gesti, nella sintesi del movimento, nella generazione di oggetti e nella sintesi delle texture. Evidenziamo le ricerche più avanzate, le implementazioni pratiche, i dataset comunemente utilizzati e le tendenze emergenti per ciascuna area. Per supportare i nuovi arrivati, forniamo anche una sezione introduttiva completa che presenta i modelli di base e le metriche di valutazione, dotando i lettori delle conoscenze necessarie per entrare nel campo. Discutiamo le sfide aperte e tracciamo le direzioni future della ricerca, fornendo una roadmap per avanzare le tecnologie di animazione dei personaggi guidate dall'IA. Questo studio è pensato come una risorsa per ricercatori e sviluppatori che entrano nel campo dell'animazione generativa o in campi affini. Le risorse sono disponibili all'indirizzo: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
Man mano che i grandi modelli linguistici (LLM) basati su trasformatori permeano sempre più la società, hanno rivoluzionato ambiti come l'ingegneria del software, la scrittura creativa e le arti digitali. Tuttavia, il loro utilizzo nella cybersecurity rimane limitato a causa di sfide come la scarsità di dati di addestramento specializzati e la complessità nella rappresentazione di conoscenze specifiche per la cybersecurity. Per colmare queste lacune, presentiamo Foundation-Sec-8B, un LLM focalizzato sulla cybersecurity, costruito sull'architettura Llama 3.1 e potenziato attraverso un pre-addestramento continuo su un corpus di cybersecurity accuratamente curato. Valutiamo Foundation-Sec-8B sia su benchmark consolidati che su nuovi test specifici per la cybersecurity, dimostrando che eguaglia Llama 3.1-70B e GPT-4o-mini in determinati compiti specifici per la cybersecurity. Rilasciando il nostro modello al pubblico, miriamo ad accelerare il progresso e l'adozione di strumenti guidati dall'intelligenza artificiale nei contesti di cybersecurity sia pubblici che privati.
Negli ultimi anni, la generazione di video ha registrato progressi significativi. Tuttavia, permangono sfide nella generazione di movimenti e interazioni complessi. Per affrontare queste sfide, introduciamo ReVision, un framework plug-and-play che integra esplicitamente conoscenze fisiche 3D parametrizzate in un modello preaddestrato di generazione condizionata di video, migliorando significativamente la sua capacità di generare video di alta qualità con movimenti e interazioni complessi. Nello specifico, ReVision si compone di tre fasi. Innanzitutto, un modello di diffusione video viene utilizzato per generare un video grezzo. Successivamente, estraiamo un insieme di caratteristiche 2D e 3D dal video grezzo per costruire una rappresentazione 3D centrata sugli oggetti, che viene poi raffinata dal nostro modello di conoscenza fisica parametrizzata proposto per produrre una sequenza di movimenti 3D accurata. Infine, questa sequenza di movimenti raffinata viene reinserita nello stesso modello di diffusione video come condizionamento aggiuntivo, consentendo la generazione di video coerenti nei movimenti, anche in scenari che coinvolgono azioni e interazioni complesse. Validiamo l'efficacia del nostro approccio su Stable Video Diffusion, dove ReVision migliora significativamente la fedeltà e la coerenza dei movimenti. Notevolmente, con soli 1,5 miliardi di parametri, supera addirittura un modello all'avanguardia di generazione video con oltre 13 miliardi di parametri nella generazione di video complessi con un margine sostanziale. I nostri risultati suggeriscono che, incorporando conoscenze fisiche 3D, anche un modello di diffusione video relativamente piccolo può generare movimenti e interazioni complessi con maggiore realismo e controllabilità, offrendo una soluzione promettente per la generazione di video fisicamente plausibili.
I Large Language Models (LLMs) per la Generative AI hanno raggiunto progressi notevoli, evolvendosi in strumenti sofisticati e versatili ampiamente adottati in vari domini e applicazioni. Tuttavia, l'ingente sovraccarico di memoria causato dal loro vasto numero di parametri, combinato con le elevate esigenze computazionali del meccanismo di attenzione, rappresenta sfide significative nel raggiungimento di bassa latenza e alto throughput per i servizi di inferenza degli LLM. Recenti progressi, guidati da ricerche pionieristiche, hanno accelerato significativamente l'avanzamento in questo campo. Questo articolo fornisce una rassegna completa di questi metodi, coprendo approcci fondamentali a livello di istanza, strategie approfondite a livello di cluster, direzioni emergenti per scenari specifici e altre aree secondarie ma importanti. A livello di istanza, esaminiamo il posizionamento del modello, la schedulazione delle richieste, la previsione della lunghezza di decodifica, la gestione dello storage e il paradigma di disaggregazione. A livello di cluster, esploriamo il deployment di cluster GPU, il bilanciamento del carico multi-istanza e le soluzioni di servizi cloud. Per gli scenari emergenti, organizziamo la discussione attorno a task specifici, moduli e metodi ausiliari. Per garantire una visione olistica, evidenziamo anche diverse aree di nicchia ma critiche. Infine, delineiamo potenziali direzioni di ricerca per ulteriori avanzamenti nel campo del servizio di inferenza degli LLM.
La scalabilità dei dati e i benchmark di valutazione standardizzati hanno guidato progressi significativi nell'elaborazione del linguaggio naturale e nella visione artificiale. Tuttavia, la robotica affronta sfide uniche nel ridimensionamento dei dati e nell'istituzione di protocolli di valutazione. La raccolta di dati nel mondo reale è dispendiosa in termini di risorse e inefficiente, mentre il benchmarking in scenari reali rimane estremamente complesso. I dati sintetici e la simulazione offrono alternative promettenti, ma gli sforzi esistenti spesso non raggiungono la qualità, la diversità e la standardizzazione dei benchmark necessarie. Per affrontare queste sfide, introduciamo RoboVerse, un framework completo che comprende una piattaforma di simulazione, un dataset sintetico e benchmark unificati. La nostra piattaforma di simulazione supporta più simulatori e configurazioni robotiche, consentendo transizioni senza soluzione di continuità tra diversi ambienti. Il dataset sintetico, caratterizzato da fisica ad alta fedeltà e rendering fotorealistico, è costruito attraverso molteplici approcci. Inoltre, proponiamo benchmark unificati per l'apprendimento per imitazione e l'apprendimento per rinforzo, consentendo la valutazione attraverso diversi livelli di generalizzazione. Al centro della piattaforma di simulazione c'è MetaSim, un'infrastruttura che astrae diversi ambienti di simulazione in un'interfaccia universale. Ristruttura gli ambienti di simulazione esistenti in un sistema di configurazione indipendente dal simulatore, nonché in un API che allinea diverse funzionalità dei simulatori, come l'avvio degli ambienti di simulazione, il caricamento di asset con stati iniziali, l'avanzamento del motore fisico, ecc. Questa astrazione garantisce interoperabilità e estensibilità. Esperimenti completi dimostrano che RoboVerse migliora le prestazioni dell'apprendimento per imitazione, dell'apprendimento per rinforzo, dell'apprendimento di modelli del mondo e del trasferimento da simulazione a realtà. Questi risultati convalidano l'affidabilità del nostro dataset e dei benchmark, stabilendo RoboVerse come una soluzione robusta per l'avanzamento dell'apprendimento robotico.
L'interpretazione multimodale delle immagini biomediche apre nuove opportunità nell'analisi delle immagini biomediche. Gli approcci convenzionali di intelligenza artificiale si basano tipicamente su addestramenti separati, ovvero modelli linguistici di grandi dimensioni (LLM) per la generazione di testi clinici e modelli di segmentazione per l'estrazione di target, il che si traduce in un'implementazione rigida nel mondo reale e in un mancato sfruttamento delle informazioni biomediche olistiche. A tal fine, introduciamo UniBiomed, il primo modello universale di base per l'interpretazione fondata delle immagini biomediche. UniBiomed si basa su una nuova integrazione tra un modello linguistico multimodale di grandi dimensioni (MLLM) e il modello Segment Anything (SAM), che unifica efficacemente la generazione di testi clinici e la segmentazione degli oggetti biomedici corrispondenti per un'interpretazione fondata. In questo modo, UniBiomed è in grado di affrontare un'ampia gamma di compiti biomedici attraverso dieci diverse modalità di imaging biomedico. Per sviluppare UniBiomed, abbiamo curato un dataset su larga scala che comprende oltre 27 milioni di triplette di immagini, annotazioni e descrizioni testuali in dieci modalità di imaging. Una validazione estensiva su 84 dataset interni ed esterni ha dimostrato che UniBiomed raggiunge prestazioni all'avanguardia nella segmentazione, nel riconoscimento delle malattie, nella diagnosi basata sulle regioni, nella risposta a domande visive e nella generazione di report. Inoltre, a differenza dei modelli precedenti che si affidano a esperti clinici per pre-diagnosticare le immagini e creare manualmente prompt testuali o visivi precisi, UniBiomed può fornire un'interpretazione fondata automatizzata e end-to-end per l'analisi delle immagini biomediche. Questo rappresenta un nuovo cambiamento di paradigma nei flussi di lavoro clinici, che migliorerà significativamente l'efficienza diagnostica. In sintesi, UniBiomed rappresenta una svolta innovativa nell'intelligenza artificiale biomedica, sbloccando potenti capacità di interpretazione fondata per un'analisi delle immagini biomediche più accurata ed efficiente.
L'analisi congiunta, un'applicazione del disegno sperimentale fattoriale, è uno strumento popolare nella ricerca delle scienze sociali per studiare preferenze multidimensionali. In tali esperimenti nel contesto dell'analisi politica, ai rispondenti viene chiesto di scegliere tra due candidati politici ipotetici con caratteristiche selezionate casualmente, che possono includere affiliazione partitica, posizioni politiche, genere e razza. Consideriamo il problema di identificare i profili ottimali dei candidati. Poiché il numero di combinazioni uniche di caratteristiche supera di gran lunga il numero totale di osservazioni in un tipico esperimento congiunto, è impossibile determinare esattamente il profilo ottimale. Per affrontare questa sfida di identificazione, deriviamo un intervento stocastico ottimale che rappresenta una distribuzione di probabilità di vari attributi mirata a ottenere il risultato medio più favorevole. Consideriamo prima un ambiente in cui un partito politico ottimizza la selezione dei propri candidati. Passiamo poi al caso più realistico in cui due partiti politici ottimizzano simultaneamente e in opposizione reciproca la selezione dei propri candidati. Applichiamo la metodologia proposta a un esperimento congiunto esistente sulla scelta dei candidati riguardante il voto per il presidente degli Stati Uniti. Troviamo che, in contrasto con l'approccio non avversariale, i risultati attesi nel regime avversariale rientrano nell'intervallo degli esiti elettorali storici, con le strategie ottimali suggerite dal metodo più propense a corrispondere ai candidati effettivamente osservati rispetto alle strategie derivate da un approccio non avversariale. Questi risultati indicano che l'incorporazione di dinamiche avversariali nell'analisi congiunta può fornire intuizioni uniche sui dati delle scienze sociali provenienti da esperimenti.