Articoli di ricerca IA selezionati quotidianamente con traduzioni
Per superare i limiti contestuali dei grandi modelli linguistici (LLM) che ostacolano l'accuratezza e l'efficienza del ragionamento, proponiamo il Thread Inference Model (TIM), una famiglia di LLM addestrati per la risoluzione ricorsiva e scomponibile di problemi, e TIMRUN, un runtime di inferenza che abilita il ragionamento strutturato a lungo orizzonte oltre i limiti contestuali. Insieme, TIM ospitato su TIMRUN supporta una memoria di lavoro virtualmente illimitata e chiamate multi-hop a strumenti all'interno di una singola inferenza di un modello linguistico, superando i limiti di output, i vincoli degli embedding posizionali e i colli di bottiglia della memoria GPU. Le prestazioni sono ottenute modellando il linguaggio naturale come alberi di ragionamento misurati sia in lunghezza che in profondità, anziché come sequenze lineari. Gli alberi di ragionamento consistono in task con pensieri, sottotask ricorsivi e conclusioni basati sul concetto che abbiamo proposto in Schroeder et al., 2025. Durante la generazione, manteniamo una memoria di lavoro che conserva solo gli stati chiave-valore dei token contestuali più rilevanti, selezionati da un meccanismo di potatura dei sottotask basato su regole, consentendo il riutilizzo degli embedding posizionali e delle pagine di memoria GPU durante il ragionamento. I risultati sperimentali mostrano che il nostro sistema mantiene un'elevata velocità di inferenza, anche quando manipola fino al 90% della cache KV nella memoria GPU. Inoltre, fornisce un ragionamento accurato su task matematici e gestisce sfide di recupero delle informazioni che richiedono ragionamento a lungo orizzonte e uso multi-hop di strumenti.
Questo articolo presenta Step-Audio~2, un modello linguistico multimodale end-to-end progettato per la comprensione audio e la conversazione vocale di livello industriale. Integrando un codificatore audio latente e un apprendimento per rinforzo (RL) centrato sul ragionamento, Step-Audio 2 raggiunge prestazioni promettenti nel riconoscimento vocale automatico (ASR) e nella comprensione audio. Per facilitare una vera conversazione vocale end-to-end, Step-Audio 2 incorpora la generazione di token audio discreti nella modellazione del linguaggio, migliorando significativamente la sua reattività alle informazioni paralinguistiche come gli stili di parlato e le emozioni. Per sfruttare efficacemente la ricca conoscenza testuale e acustica nei dati del mondo reale, Step-Audio 2 integra la generazione aumentata da recupero (RAG) ed è in grado di richiamare strumenti esterni come la ricerca web per mitigare le allucinazioni e la ricerca audio per cambiare i timbri. Addestrato su milioni di ore di dati vocali e audio, Step-Audio 2 offre intelligenza ed espressività in una vasta gamma di scenari conversazionali. I risultati delle valutazioni dimostrano che Step-Audio 2 raggiunge prestazioni all'avanguardia su vari benchmark di comprensione audio e conversazionale rispetto ad altre soluzioni open-source e commerciali. Per maggiori informazioni, visitare https://github.com/stepfun-ai/Step-Audio2.
Il ragionamento scientifico è fondamentale per sviluppare scienziati AI e supportare i ricercatori umani nell'avanzare le frontiere della scoperta nelle scienze naturali. Tuttavia, la comunità open-source si è principalmente concentrata sulla matematica e sulla programmazione, trascurando il dominio scientifico, principalmente a causa dell'assenza di dataset aperti, su larga scala, di alta qualità e verificabili per il ragionamento scientifico. Per colmare questa lacuna, presentiamo innanzitutto TextbookReasoning, un dataset aperto che include risposte di riferimento veritiere estratte da 12.000 libri di testo scientifici universitari, comprendente 650.000 domande di ragionamento che coprono 7 discipline scientifiche. Introduciamo inoltre MegaScience, una miscela su larga scala di dataset open-source di alta qualità per un totale di 1,25 milioni di istanze, sviluppata attraverso studi di ablazione sistematici che valutano varie metodologie di selezione dei dati per identificare il sottoinsieme ottimale per ciascun dataset scientifico disponibile pubblicamente. Nel frattempo, costruiamo un sistema di valutazione completo che copre diverse materie e tipi di domande su 15 benchmark, incorporando strategie complete di estrazione delle risposte per garantire metriche di valutazione accurate. I nostri esperimenti dimostrano che i nostri dataset raggiungono prestazioni superiori e un'efficienza di addestramento maggiore con lunghezze di risposta più concise rispetto ai dataset scientifici open-source esistenti. Inoltre, addestriamo i modelli base delle serie Llama3.1, Qwen2.5 e Qwen3 su MegaScience, che superano significativamente in media i corrispondenti modelli ufficiali instruct. In aggiunta, MegaScience mostra una maggiore efficacia per modelli più grandi e potenti, suggerendo un vantaggio di scalabilità per l'ottimizzazione scientifica. Rilasciamo alla comunità la nostra pipeline di curatela dei dati, il sistema di valutazione, i dataset e sette modelli addestrati per promuovere la ricerca sul ragionamento scientifico.
I compiti di ragionamento visione-linguaggio-azione (VLA) richiedono agli agenti di interpretare istruzioni multimodali, eseguire pianificazioni a lungo termine e agire in modo adattivo in ambienti dinamici. Gli approcci esistenti tipicamente addestrano i modelli VLA in modo end-to-end, mappando direttamente gli input alle azioni senza un ragionamento esplicito, il che limita la loro capacità di pianificare su più passaggi o di adattarsi a variazioni complesse del compito. In questo articolo, proponiamo ThinkAct, un framework a doppio sistema che collega il ragionamento di alto livello con l'esecuzione di azioni di basso livello attraverso una pianificazione latente visiva rinforzata. ThinkAct addestra un LLM multimodale a generare piani di ragionamento incarnati guidati da ricompense visive allineate alle azioni basate sul completamento dell'obiettivo e sulla coerenza della traiettoria. Questi piani di ragionamento vengono compressi in un latente visivo che condiziona un modello di azione a valle per un'esecuzione robusta delle azioni negli ambienti target. Esperimenti estesi su benchmark di ragionamento incarnato e manipolazione robotica dimostrano che ThinkAct abilita l'adattamento few-shot, la pianificazione a lungo termine e comportamenti di autocorrezione in complessi compiti di intelligenza artificiale incarnata.
I transformer di diffusione sono emersi come alternativa ai modelli di diffusione basati su U-net per la generazione di immagini e video ad alta fedeltà, offrendo una scalabilità superiore. Tuttavia, il loro elevato costo computazionale rimane un ostacolo significativo per il dispiegamento nel mondo reale. I metodi di accelerazione esistenti sfruttano principalmente la dimensione temporale, come il riutilizzo di feature memorizzate tra i passaggi temporali della diffusione. Qui proponiamo l'Upsampling Latente Adattivo alla Regione (RALU), un framework senza necessità di addestramento che accelera l'inferenza lungo la dimensione spaziale. RALU esegue un campionamento a risoluzione mista in tre fasi: 1) diffusione latente di denoising a bassa risoluzione per catturare in modo efficiente la struttura semantica globale, 2) upsampling adattivo alla regione su aree specifiche soggette ad artefatti a risoluzione completa, e 3) upsampling latente completo a risoluzione massima per il perfezionamento dei dettagli. Per stabilizzare le generazioni durante le transizioni di risoluzione, sfruttiamo una rischedulazione del livello di rumore per adattarlo alle diverse risoluzioni. Il nostro metodo riduce significativamente il carico computazionale preservando la qualità dell'immagine, ottenendo un incremento di velocità fino a 7,0 volte su FLUX e 3,0 volte su Stable Diffusion 3 con una degradazione minima. Inoltre, RALU è complementare alle accelerazioni temporali esistenti come i metodi di caching, e può quindi essere integrato senza soluzione di continuità per ridurre ulteriormente la latenza di inferenza senza compromettere la qualità della generazione.
Gli esseri umani spesso utilizzano ausili visivi, come diagrammi o schizzi, per risolvere problemi complessi. Addestrare modelli multimodali a fare lo stesso, noto come Catena di Pensiero Visiva (Visual CoT), è impegnativo a causa di: (1) scarse prestazioni immediate del Visual CoT, che ostacolano l'apprendimento per rinforzo, e (2) la mancanza di dati di addestramento di alta qualità per il Visual CoT. Presentiamo Zebra-CoT, un dataset ampio e diversificato con 182.384 campioni, contenente tracce di ragionamento intervallate testo-immagine logicamente coerenti. Ci concentriamo su quattro categorie di task in cui disegnare o ragionare visivamente è particolarmente naturale, spaziando da domande scientifiche come geometria, fisica e algoritmi; task di ragionamento visivo 2D come ricerca visiva e puzzle; task di ragionamento 3D tra cui inferenza multi-hop 3D, pianificazione embodied e robotica; problemi di logica visiva e giochi strategici come gli scacchi. Il fine-tuning del modello Anole-7B sul corpus di addestramento Zebra-CoT porta a un miglioramento del +12% nell'accuratezza sul nostro test set e a un guadagno di prestazioni fino al +13% nelle valutazioni standard dei benchmark VLM. Il fine-tuning di Bagel-7B produce un modello che genera catene di ragionamento visivo intervallate di alta qualità, sottolineando l'efficacia di Zebra-CoT nello sviluppare capacità di ragionamento multimodale. Rendiamo open-source il nostro dataset e i modelli per supportare lo sviluppo e la valutazione del Visual CoT.
Migliorare i grandi modelli visione-linguaggio (LVLM) con il ragionamento visivo a pensiero lento è cruciale per risolvere compiti multimodali complessi. Tuttavia, poiché i LVLM sono principalmente addestrati con l'allineamento visione-linguaggio, è difficile adottare il reinforcement learning (RL) on-policy per sviluppare la capacità di pensiero lento, poiché lo spazio di rollout è limitato dalle loro abilità iniziali. L'RL off-policy offre un modo per andare oltre la politica corrente, ma distillare direttamente le traiettorie da modelli esterni può causare allucinazioni visive a causa di capacità di percezione visiva non corrispondenti tra i modelli. Per affrontare questi problemi, questo articolo propone SOPHIA, un semplice e scalabile Semi-Off-Policy RL per il ragionamento a pensiero lento visione-linguaggio. SOPHIA costruisce un modello di comportamento semi-off-policy combinando la comprensione visiva on-policy da un LVLM addestrabile con il ragionamento a pensiero lento off-policy da un modello linguistico, assegna ricompense basate sui risultati al ragionamento e propaga le ricompense visive all'indietro. Quindi, il LVLM apprende la capacità di ragionamento a pensiero lento dalle traiettorie di ragionamento ottenute utilizzando le ricompense propagate tramite algoritmi RL off-policy. Esperimenti estesi con InternVL2.5 e InternVL3.0 di dimensioni 8B e 38B dimostrano l'efficacia di SOPHIA. In particolare, SOPHIA migliora InternVL3.0-38B dell'8.50% in media, raggiungendo prestazioni all'avanguardia tra i LVLM open-source su più benchmark di ragionamento multimodale, e supera persino alcuni modelli closed-source (ad esempio, GPT-4.1) su MathVision e OlympiadBench, raggiungendo rispettivamente il 49.08% e il 49.95% di accuratezza pass@1. L'analisi mostra che SOPHIA supera il fine-tuning supervisionato e i metodi RL on-policy diretti, offrendo una migliore inizializzazione della politica per ulteriori addestramenti on-policy.
I modelli visione-linguaggio (VLMs) sono stati ampiamente adottati nella robotica per abilitare la pianificazione autonoma. Tuttavia, adattare i VLMs, originariamente addestrati su dati provenienti da internet, a robot reali e diversificati rimane una sfida. Questo articolo presenta ExpTeach, un framework che adatta i VLMs ai robot fisici costruendo una memoria autogenerata di esperienze del mondo reale. In ExpTeach, il VLM pianifica autonomamente le azioni, verifica i risultati, riflette sugli errori e adatta i comportamenti del robot in un ciclo chiuso. Le esperienze autogenerate durante questo processo vengono poi sintetizzate in una memoria a lungo termine, consentendo il recupero delle conoscenze apprese per guidare compiti futuri tramite la generazione aumentata dal recupero (RAG). Inoltre, ExpTeach migliora la comprensione spaziale dei VLMs con un modulo di annotazione delle immagini su richiesta. Negli esperimenti, dimostriamo che la riflessione migliora i tassi di successo dal 36% all'84% in quattro compiti robotici impegnativi e osserviamo l'emergere di interazioni intelligenti con gli oggetti, incluso l'uso creativo di strumenti. In test estensivi su 12 scenari del mondo reale (inclusi otto non visti in precedenza), riscontriamo che l'adattamento con memoria a lungo termine aumenta i tassi di successo in singola prova dal 22% all'80%, dimostrando l'efficacia e la generalizzabilità di ExpTeach.
Con il rapido avanzamento dei Modelli Linguistici di Grande Scala (LLM), lo sviluppo di moduli critici efficaci per una guida precisa è diventato cruciale ma al tempo stesso impegnativo. In questo articolo, dimostriamo inizialmente che il fine-tuning supervisionato per la costruzione di moduli critici (ampiamente adottato nelle soluzioni attuali) non riesce a migliorare genuinamente le capacità di critica dei modelli, producendo critiche superficiali con riflessioni e verifiche insufficienti. Per sbloccare capacità di critica senza precedenti, proponiamo RefCritic, un modulo critico a catena di pensiero estesa basato sull'apprendimento per rinforzo con ricompense duali basate su regole: (1) correttezza a livello di istanza nei giudizi delle soluzioni e (2) accuratezze di raffinamento del modello di policy basate sulle critiche, con l'obiettivo di generare valutazioni di alta qualità con feedback azionabili che guidino efficacemente il raffinamento del modello. Valutiamo RefCritic su Qwen2.5-14B-Instruct e DeepSeek-R1-Distill-Qwen-14B attraverso cinque benchmark. Nelle impostazioni di critica e raffinamento, RefCritic dimostra vantaggi consistenti su tutti i benchmark, ad esempio, guadagni del 6,8% e 7,2% su AIME25 per i rispettivi modelli di base. In particolare, con il voto a maggioranza, i modelli di policy filtrati da RefCritic mostrano una scalabilità superiore con l'aumento del numero di voti. Inoltre, nonostante l'addestramento su supervisione a livello di soluzione, RefCritic supera gli approcci supervisionati a livello di passaggio su ProcessBench, un benchmark per identificare passaggi errati nel ragionamento matematico.
Mentre i metodi esistenti di composizione guidata da immagini possono aiutare a inserire un oggetto in primo piano in una regione specificata dall'utente di un'immagine di sfondo, ottenendo una fusione naturale all'interno della regione senza alterare il resto dell'immagine, osserviamo che questi metodi spesso incontrano difficoltà nel sintetizzare composizioni senza soluzione di continuità e consapevoli delle interazioni quando il compito coinvolge interazioni uomo-oggetto. In questo articolo, proponiamo innanzitutto HOComp, un approccio innovativo per comporre un oggetto in primo piano su un'immagine di sfondo centrata sull'uomo, garantendo interazioni armoniose tra l'oggetto in primo piano e la persona nello sfondo, nonché la coerenza delle loro apparenze. Il nostro approccio include due design chiave: (1) MLLMs-driven Region-based Pose Guidance (MRPG), che utilizza MLLMs per identificare la regione di interazione e il tipo di interazione (ad esempio, tenere e sollevare) per fornire vincoli da grossolani a fini alla posa generata per l'interazione, incorporando punti di riferimento della posa umana per tracciare le variazioni dell'azione e applicare vincoli di posa dettagliati; e (2) Detail-Consistent Appearance Preservation (DCAP), che unisce un meccanismo di modulazione dell'attenzione consapevole della forma, una perdita di aspetto multi-vista e una perdita di coerenza dello sfondo per garantire forme/tessiture coerenti dell'oggetto in primo piano e una riproduzione fedele della persona nello sfondo. Proponiamo quindi il primo dataset, denominato Interaction-aware Human-Object Composition (IHOC), per questo compito. I risultati sperimentali sul nostro dataset dimostrano che HOComp genera efficacemente interazioni armoniose uomo-oggetto con apparenze coerenti, superando qualitativamente e quantitativamente i metodi rilevanti.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno aperto nuove opportunità per il recupero della letteratura accademica. Tuttavia, i sistemi esistenti spesso si basano su pipeline rigide e mostrano capacità di ragionamento limitate. Introduciamo SPAR, un framework multi-agente che incorpora la scomposizione delle query basata su RefChain e l'evoluzione delle query per consentire una ricerca più flessibile ed efficace. Per facilitare una valutazione sistematica, abbiamo anche costruito SPARBench, un benchmark impegnativo con etichette di rilevanza annotate da esperti. I risultati sperimentali dimostrano che SPAR supera significativamente i baseline più robusti, raggiungendo un miglioramento fino a +56% F1 su AutoScholar e +23% F1 su SPARBench rispetto al baseline con le migliori prestazioni. Insieme, SPAR e SPARBench forniscono una base scalabile, interpretabile e ad alte prestazioni per avanzare la ricerca nel recupero accademico. Il codice e i dati saranno disponibili all'indirizzo: https://github.com/xiaofengShi/SPAR
La quantizzazione è una tecnica chiave per ridurre le dimensioni della rete e la complessità computazionale rappresentando i parametri della rete con una precisione inferiore. I metodi tradizionali di quantizzazione si basano sull'accesso ai dati di addestramento originali, che spesso sono limitati a causa di preoccupazioni relative alla privacy o sfide di sicurezza. La Quantizzazione Zero-Shot (ZSQ) affronta questo problema utilizzando dati sintetici generati da modelli pre-addestrati, eliminando la necessità di dati di addestramento reali. Recentemente, la ZSQ è stata estesa al rilevamento di oggetti. Tuttavia, i metodi esistenti utilizzano immagini sintetiche non etichettate e indipendenti dal compito, che mancano delle informazioni specifiche necessarie per il rilevamento di oggetti, portando a prestazioni subottimali. In questo articolo, proponiamo un nuovo framework ZSQ specifico per il compito per le reti di rilevamento di oggetti, che consiste in due fasi principali. Innanzitutto, introduciamo una strategia di campionamento delle bounding box e delle categorie per sintetizzare un set di calibrazione specifico per il compito dalla rete pre-addestrata, ricostruendo le posizioni, le dimensioni e le distribuzioni delle categorie degli oggetti senza alcuna conoscenza a priori. In secondo luogo, integriamo l'addestramento specifico per il compito nel processo di distillazione della conoscenza per ripristinare le prestazioni delle reti di rilevamento quantizzate. Esperimenti estensivi condotti sui dataset MS-COCO e Pascal VOC dimostrano l'efficienza e le prestazioni all'avanguardia del nostro metodo. Il nostro codice è disponibile pubblicamente all'indirizzo: https://github.com/DFQ-Dojo/dfq-toolkit.
Personalizzare i sistemi di intelligenza artificiale richiede non solo la comprensione delle preferenze degli utenti, ma anche delle ragioni che le sottendono. Tuttavia, i modelli di preferenza attuali trattano tipicamente il giudizio umano come una scatola nera. Introduciamo PrefPalette, un framework che scompone le preferenze in dimensioni attributive e adatta la previsione delle preferenze ai valori distinti delle comunità sociali in modo interpretabile dall'uomo. PrefPalette opera un principio delle scienze cognitive noto come decisione multi-attributo in due modi: (1) un passaggio scalabile di sintesi attributiva controfattuale che prevede la generazione di dati di addestramento sintetici per isolare gli effetti dei singoli attributi (ad esempio, formalità, umorismo, valori culturali), e (2) una modellazione delle preferenze basata sull'attenzione che apprende come diverse comunità sociali ponderano dinamicamente questi attributi. Questo approccio va oltre la modellazione aggregata delle preferenze per catturare i diversi framework di valutazione che guidano il giudizio umano. Quando valutato su 45 comunità sociali della piattaforma online Reddit, PrefPalette supera GPT-4o del 46,6% in termini di accuratezza media di previsione. Oltre ai miglioramenti predittivi, PrefPalette ha anche evidenziato profili intuitivi e specifici per comunità: le comunità accademiche privilegiano la verbosità e la stimolazione, le comunità orientate al conflitto valorizzano il sarcasmo e la direttezza, e le comunità di supporto enfatizzano l'empatia. Modellando la struttura mediata dagli attributi del giudizio umano, PrefPalette offre sia una modellazione delle preferenze superiore sia intuizioni trasparenti e interpretabili, rappresentando un primo passo verso applicazioni personalizzate più affidabili e consapevoli dei valori.
Il 3D Gaussian Splatting è rinomato per le sue ricostruzioni ad alta fedeltà e la sintesi in tempo reale di nuove visualizzazioni, ma la mancanza di comprensione semantica limita la percezione a livello di oggetto. In questo lavoro, proponiamo ObjectGS, un framework consapevole degli oggetti che unisce la ricostruzione di scene 3D con la comprensione semantica. Invece di trattare la scena come un insieme unificato, ObjectGS modella i singoli oggetti come ancore locali che generano Gaussiane neurali e condividono ID di oggetto, consentendo una ricostruzione precisa a livello di oggetto. Durante l'addestramento, espandiamo o potiamo dinamicamente queste ancore e ottimizziamo le loro caratteristiche, mentre una codifica one-hot ID con una perdita di classificazione impone chiari vincoli semantici. Attraverso esperimenti estensivi, dimostriamo che ObjectGS non solo supera i metodi all'avanguardia nei compiti di segmentazione open-vocabulary e panottica, ma si integra perfettamente con applicazioni come l'estrazione di mesh e la modifica delle scene. Pagina del progetto: https://ruijiezhu94.github.io/ObjectGS_page
Recentemente, Zaremba et al. hanno dimostrato che aumentare il calcolo durante l'inferenza migliora la robustezza nei grandi modelli di ragionamento LLM proprietari. In questo articolo, mostriamo innanzitutto che modelli open-source su scala ridotta (ad esempio, DeepSeek R1, Qwen3, Phi-reasoning) possono trarre vantaggio anche dallo scaling durante l'inferenza utilizzando una semplice strategia di forzatura del budget. Ancora più importante, riveliamo ed esaminiamo criticamente un'assunzione implicita nei lavori precedenti: i passaggi intermedi del ragionamento sono nascosti agli avversari. Rilassando questa assunzione, identifichiamo un importante rischio per la sicurezza, intuitivamente motivato e verificato empiricamente come una legge di scaling inversa: se i passaggi intermedi del ragionamento diventano esplicitamente accessibili, l'aumento del calcolo durante l'inferenza riduce costantemente la robustezza del modello. Infine, discutiamo scenari pratici in cui i modelli con catene di ragionamento nascoste sono ancora vulnerabili ad attacchi, come modelli con ragionamento integrato a strumenti e attacchi avanzati di estrazione del ragionamento. Le nostre scoperte dimostrano collettivamente che i benefici di robustezza dello scaling durante l'inferenza dipendono fortemente dal contesto avversario e di deployment. Esortiamo i professionisti a valutare attentamente questi sottili compromessi prima di applicare lo scaling durante l'inferenza in applicazioni real-world sensibili alla sicurezza.
Il fine-tuning di grandi modelli linguistici (LLM) può portare a una generalizzazione non intenzionale al di fuori della distribuzione. Gli approcci standard a questo problema si basano sulla modifica dei dati di addestramento, ad esempio aggiungendo dati che specificano meglio la generalizzazione desiderata. Tuttavia, ciò non è sempre pratico. Introduciamo il Concept Ablation Fine-Tuning (CAFT), una tecnica che sfrutta strumenti di interpretabilità per controllare come gli LLM generalizzano dal fine-tuning, senza bisogno di modificare i dati di addestramento o utilizzare dati dalla distribuzione target. Dato un insieme di direzioni nello spazio latente di un LLM corrispondenti a concetti indesiderati, CAFT opera ablazionando questi concetti con proiezioni lineari durante il fine-tuning, orientando il modello lontano da generalizzazioni non intenzionali. Abbiamo applicato con successo CAFT a tre task di fine-tuning, incluso il disallineamento emergente, un fenomeno in cui gli LLM sottoposti a fine-tuning su un task ristretto generalizzano fornendo risposte gravemente disallineate a domande generali. Senza alcuna modifica ai dati di fine-tuning, CAFT riduce le risposte disallineate di 10 volte senza degradare le prestazioni sulla distribuzione di addestramento. Nel complesso, CAFT rappresenta un approccio innovativo per orientare la generalizzazione degli LLM senza modificare i dati di addestramento.