Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo BitNet b1.58 2B4T, il primo Large Language Model (LLM) open-source nativo a 1-bit su scala di 2 miliardi di parametri. Addestrato su un corpus di 4 trilioni di token, il modello è stato rigorosamente valutato attraverso benchmark che coprono comprensione del linguaggio, ragionamento matematico, competenza nella programmazione e abilità conversazionale. I nostri risultati dimostrano che BitNet b1.58 2B4T raggiunge prestazioni paragonabili ai principali LLM open-weight a precisione completa di dimensioni simili, offrendo al contempo significativi vantaggi in termini di efficienza computazionale, tra cui una riduzione sostanziale dell'impronta di memoria, del consumo energetico e della latenza di decodifica. Per facilitare ulteriori ricerche e adozioni, i pesi del modello sono rilasciati tramite Hugging Face insieme a implementazioni open-source di inferenza per architetture sia GPU che CPU.
Mentre i modelli di ragionamento (ad esempio, DeepSeek R1) addestrati con l'apprendimento per rinforzo (RL) eccellono nel ragionamento testuale, faticano in scenari che richiedono risoluzione strutturata di problemi, come il ragionamento geometrico, calcoli concisi o la risoluzione di equazioni complesse, aree in cui strumenti computazionali come gli interpreti di codice (CI) dimostrano vantaggi distintivi. Per colmare questa lacuna, proponiamo ReTool, che migliora il ragionamento a lungo termine con l'apprendimento integrato di strumenti, includendo due caratteristiche chiave: (1) l'intercalazione dinamica dell'esecuzione di codice in tempo reale all'interno dei processi di ragionamento in linguaggio naturale, e (2) un paradigma RL automatizzato che consente rollout di politiche con esecuzione di codice multi-turn in tempo reale e insegna al modello quando e come invocare strumenti basandosi sul feedback dei risultati. ReTool impiega un framework di addestramento sistematico, iniziando con la generazione di dati sintetici di avvio a freddo per produrre tracce di ragionamento a lungo termine aumentate con codice per il fine-tuning dei modelli base. Il successivo addestramento RL sfrutta i risultati delle attività come ricompense per affinare iterativamente la strategia di utilizzo degli strumenti del modello, consentendo la scoperta autonoma di modelli ottimali di invocazione degli strumenti senza presupposti umani. Esperimenti sul benchmark impegnativo delle Olimpiadi Matematiche AIME dimostrano la superiorità di ReTool: il nostro modello da 32B raggiunge il 67% di accuratezza con 400 passi di addestramento, superando in efficienza e prestazioni la baseline RL basata su testo (40% di accuratezza, 1080 passi). Notevolmente, ReTool-32B raggiunge il 72,5% di accuratezza in impostazioni estese, superando di 27,9% l'o1-preview di OpenAI. Ulteriori analisi rivelano comportamenti emergenti come l'autocorrezione del codice, segnalando un "momento di intuizione" in cui il modello padroneggia autonomamente l'uso adattivo degli strumenti. Questi risultati evidenziano la promessa dell'integrazione di strumenti guidata dai risultati per avanzare il ragionamento matematico complesso e offrono nuove intuizioni sui sistemi neuro-simbolici ibridi.
Il colore svolge un ruolo importante nella percezione umana e fornisce solitamente indizi cruciali nel ragionamento visivo. Tuttavia, non è chiaro se e come i modelli visione-linguaggio (VLMs) possano percepire, comprendere e sfruttare il colore come gli esseri umani. Questo articolo introduce ColorBench, un benchmark innovativo meticolosamente progettato per valutare le capacità dei VLMs nella comprensione del colore, inclusa la percezione del colore, il ragionamento e la robustezza. Curando una serie di scenari di test diversificati, con un ancoraggio in applicazioni reali, ColorBench valuta come questi modelli percepiscono i colori, inferiscono significati da indizi basati sul colore e mantengono prestazioni consistenti sotto varie trasformazioni cromatiche. Attraverso una valutazione estensiva di 32 VLMs con diversi modelli linguistici e encoder visivi, il nostro articolo rivela alcune scoperte inedite: (i) La legge di scala (i modelli più grandi sono migliori) continua a valere su ColorBench, mentre il modello linguistico svolge un ruolo più importante rispetto all'encoder visivo. (ii) Tuttavia, le differenze di prestazione tra i modelli sono relativamente piccole, indicando che la comprensione del colore è stata largamente trascurata dai VLMs esistenti. (iii) Il ragionamento CoT migliora le accuratezze e la robustezza nella comprensione del colore, nonostante si tratti di compiti centrati sulla visione. (iv) Gli indizi cromatici sono effettivamente sfruttati dai VLMs su ColorBench, ma possono anche fuorviare i modelli in alcuni compiti. Questi risultati evidenziano le limitazioni critiche degli attuali VLMs e sottolineano la necessità di migliorare la comprensione del colore. Il nostro ColorBench può servire come strumento fondamentale per avanzare lo studio della comprensione del colore a livello umano nell'IA multimodale.
Questo lavoro riprende il paradigma dominante del fine-tuning supervisionato (SFT) seguito dall'apprendimento per rinforzo (RL) per l'addestramento di Modelli Linguistico-Visuali di Grande Scala (LVLM), e rivela una scoperta chiave: l'SFT può compromettere significativamente il successivo RL inducendo "percorsi di ragionamento pseudo" imitati da modelli esperti. Sebbene questi percorsi possano assomigliare ai percorsi di ragionamento nativi dei modelli RL, spesso includono passaggi prolungati, esitanti, meno informativi e ragionamenti errati. Per studiare sistematicamente questo effetto, introduciamo VLAA-Thinking, un nuovo dataset multimodale progettato per supportare il ragionamento nei LVLM. Costruito attraverso una pipeline in sei fasi che include la creazione di didascalie, la distillazione del ragionamento, la riscrittura delle risposte e la verifica, VLAA-Thinking comprende tracce di ragionamento visivo di alta qualità passo-passo per l'SFT, insieme a una divisione RL più impegnativa proveniente dalla stessa fonte di dati. Utilizzando questo dataset, conduciamo esperimenti estesi confrontando SFT, RL e le loro combinazioni. I risultati mostrano che, sebbene l'SFT aiuti i modelli a imparare i formati di ragionamento, spesso blocca i modelli allineati in modalità di ragionamento imitative e rigide che ostacolano ulteriori apprendimenti. Al contrario, basandosi sull'ottimizzazione delle politiche relative al gruppo (GRPO) con un nuovo modulo di ricompensa mista che integra sia segnali percettivi che cognitivi, il nostro approccio RL favorisce un comportamento di ragionamento più genuino e adattivo. In particolare, il nostro modello VLAA-Thinker, basato su Qwen2.5VL 3B, raggiunge la performance top-1 sulla Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) tra i LVLM di scala 4B, superando il precedente stato dell'arte dell'1,8%. Speriamo che le nostre scoperte forniscano intuizioni preziose nello sviluppo di LVLM capaci di ragionamento e possano informare future ricerche in questo ambito.
L'industria della produzione di fumetti richiede una colorazione del line art basata su riferimenti con elevata precisione, efficienza, coerenza contestuale e controllo flessibile. Una pagina di fumetto spesso coinvolge personaggi, oggetti e sfondi diversificati, il che complica il processo di colorazione. Nonostante i progressi nei modelli di diffusione per la generazione di immagini, la loro applicazione nella colorazione del line art rimane limitata, affrontando sfide legate alla gestione di un ampio numero di immagini di riferimento, inferenze che richiedono tempo e controllo flessibile. Investigiamo la necessità di una guida contestuale estesa delle immagini sulla qualità della colorazione del line art. Per affrontare queste sfide, introduciamo Cobra, un metodo efficiente e versatile che supporta suggerimenti di colore e utilizza oltre 200 immagini di riferimento mantenendo una bassa latenza. Al centro di Cobra c'è un'architettura Causal Sparse DiT, che sfrutta codifiche posizionali appositamente progettate, attenzione causale sparsa e Key-Value Cache per gestire efficacemente i riferimenti a lungo contesto e garantire la coerenza dell'identità del colore. I risultati dimostrano che Cobra raggiunge una colorazione accurata del line art attraverso un ampio riferimento contestuale, migliorando significativamente la velocità di inferenza e l'interattività, soddisfacendo così le esigenze critiche dell'industria. Rilasciamo i nostri codici e modelli sulla pagina del progetto: https://zhuang2002.github.io/Cobra/.
AlayaDB è un sistema di database vettoriale all'avanguardia, progettato nativamente per un'inferenza efficiente ed efficace su contesti lunghi per i Modelli Linguistici di Grande Dimensione (LLM) presso AlayaDB AI. Nello specifico, disaccoppia la cache KV e il calcolo dell'attenzione dai sistemi di inferenza degli LLM, incapsulandoli in un innovativo sistema di database vettoriale. Per i fornitori di Modelli come Servizio (MaaS), AlayaDB consuma meno risorse hardware e offre una qualità di generazione superiore per vari carichi di lavoro con diversi tipi di Obiettivi di Livello di Servizio (SLO), rispetto alle soluzioni alternative esistenti (ad esempio, disaggregazione della cache KV, attenzione sparsa basata su retrieval). Il punto cruciale di AlayaDB è che astrae il calcolo dell'attenzione e la gestione della cache per l'inferenza degli LLM in una procedura di elaborazione delle query, e ottimizza le prestazioni attraverso un ottimizzatore di query nativo. In questo lavoro, dimostriamo l'efficacia di AlayaDB attraverso (i) tre casi d'uso dei nostri partner industriali e (ii) risultati sperimentali estesi su benchmark di inferenza degli LLM.
In questo articolo affrontiamo una questione fondamentale: "Possiamo addestrare modelli di diffusione latente insieme al tokenizzatore di autoencoder variazionale (VAE) in modo end-to-end?" La saggezza tradizionale del deep learning suggerisce che l'addestramento end-to-end sia spesso preferibile quando possibile. Tuttavia, per i trasformatori di diffusione latente, si osserva che l'addestramento end-to-end sia del VAE che del modello di diffusione utilizzando la loss standard di diffusione è inefficace, causando persino un degrado delle prestazioni finali. Dimostriamo che, sebbene la loss di diffusione sia inefficace, l'addestramento end-to-end può essere sbloccato attraverso la loss di allineamento della rappresentazione (REPA) -- consentendo sia al VAE che al modello di diffusione di essere regolati congiuntamente durante il processo di addestramento. Nonostante la sua semplicità, la ricetta di addestramento proposta (REPA-E) mostra prestazioni notevoli; accelerando l'addestramento del modello di diffusione di oltre 17x e 45x rispetto alle ricette REPA e vanilla, rispettivamente. È interessante notare che osserviamo come la regolazione end-to-end con REPA-E migliori anche il VAE stesso; portando a una struttura dello spazio latente migliorata e a prestazioni di generazione a valle superiori. In termini di prestazioni finali, il nostro approccio stabilisce un nuovo stato dell'arte; raggiungendo un FID di 1.26 e 1.83 con e senza guida classifier-free su ImageNet 256 x 256. Il codice è disponibile all'indirizzo https://end2end-diffusion.github.io.
La valutazione esistente degli agenti basati su modelli linguistici di grandi dimensioni (LLM) nella scoperta scientifica manca di baseline oggettive e metriche per valutare la fattibilità dei metodi proposti. Per affrontare questo problema, introduciamo MLRC-Bench, un benchmark progettato per quantificare quanto efficacemente gli agenti linguistici possano affrontare competizioni di ricerca impegnative nel campo del Machine Learning (ML). Il nostro benchmark mette in evidenza problemi di ricerca aperti che richiedono metodologie innovative, in contrasto con benchmark recenti come MLE-Bench di OpenAI (Chan et al., 2024) e RE-Bench di METR (Wijk et al., 2024), che si concentrano su compiti di ricerca consolidati e largamente risolvibili attraverso un sufficiente sforzo ingegneristico. A differenza di lavori precedenti, come AI Scientist (Lu et al., 2024b), che valutano la pipeline agentica end-to-end utilizzando LLM come giudice, MLRC-Bench misura i passaggi chiave di proposta e implementazione di nuovi metodi di ricerca e li valuta con un protocollo rigoroso e metriche oggettive appositamente proposte. La nostra suite curata di 7 task di competizione rivela sfide significative per gli agenti LLM. Anche l'agente con le migliori prestazioni testato (gemini-exp-1206 sotto MLAB (Huang et al., 2024a)) chiude solo il 9,3% del divario tra i punteggi di baseline e quelli dei migliori partecipanti umani. Inoltre, la nostra analisi rivela una disallineamento tra l'innovazione giudicata dagli LLM e le loro prestazioni effettive su problemi di ricerca all'avanguardia nel ML. MLRC-Bench è un benchmark dinamico, progettato per crescere continuamente con nuove competizioni di ML, al fine di incoraggiare valutazioni rigorose e oggettive delle capacità di ricerca dell'IA.
Presentiamo SIFT (Speech Instruction Fine-Tuning), un dataset da 50 milioni di esempi progettato per il fine-tuning su istruzioni e il pre-addestramento di modelli linguistici di grandi dimensioni (LLM) per il testo e la voce. SIFT-50M è costruito a partire da corpora vocali disponibili pubblicamente, che complessivamente contengono 14.000 ore di parlato, e sfrutta LLM insieme a modelli esperti preesistenti. Il dataset copre cinque lingue, abbracciando un'ampia gamma di istruzioni per la comprensione del parlato e la generazione vocale controllata. Utilizzando SIFT-50M, addestriamo SIFT-LLM, che supera gli attuali LLM per testo e voce nei benchmark di esecuzione di istruzioni, ottenendo al contempo prestazioni competitive nei compiti fondamentali di elaborazione del parlato. Per supportare ulteriori ricerche, introduciamo anche EvalSIFT, un dataset di benchmark specificamente progettato per valutare le capacità di esecuzione di istruzioni degli LLM per testo e voce.
Un sistema di rilevazione ideale per i contenuti generati da macchine dovrebbe funzionare efficacemente con qualsiasi generatore, dato che modelli linguistici avanzati (LLM) sempre più sofisticati vengono sviluppati quotidianamente. I sistemi esistenti spesso incontrano difficoltà nell'identificare con precisione i contenuti generati da IA, specialmente nei testi più brevi. Inoltre, non tutti i testi potrebbero essere interamente scritti da un essere umano o da un LLM, pertanto ci siamo concentrati maggiormente sui casi parziali, ovvero testi co-autorizzati da umani e LLM. Il nostro articolo introduce una serie di modelli progettati per il compito di classificazione a livello di token, addestrati su un'ampia raccolta di testi co-autorizzati da umani e macchine, che hanno dimostrato buone prestazioni su testi di domini non visti, generatori non visti, testi di parlanti non nativi e quelli con input avversari. Introduciamo inoltre un nuovo dataset composto da oltre 2,4 milioni di tali testi, per lo più co-autorizzati da diversi LLM proprietari popolari in 23 lingue. Presentiamo anche i risultati delle prestazioni dei nostri modelli su testi di ciascun dominio e generatore. Ulteriori risultati includono il confronto delle prestazioni rispetto a ciascun metodo avversario, la lunghezza dei testi di input e le caratteristiche dei testi generati rispetto ai testi originali scritti da esseri umani.
Proponiamo CAL (Complete Anything in Lidar) per il completamento di forme basato su Lidar in contesti reali. Questo è strettamente correlato al completamento semantico/panottico di scene basato su Lidar. Tuttavia, i metodi contemporanei possono completare e riconoscere oggetti solo da un vocabolario chiuso etichettato nei dataset Lidar esistenti. Diversamente, il nostro approccio zero-shot sfrutta il contesto temporale proveniente da sequenze di sensori multi-modali per estrarre forme di oggetti e caratteristiche semantiche degli oggetti osservati. Queste vengono poi distillate in un modello di completamento e riconoscimento a livello di istanza basato esclusivamente su Lidar. Sebbene estraiamo solo completamenti parziali delle forme, scopriamo che il nostro modello distillato impara a inferire forme complete degli oggetti da molteplici osservazioni parziali presenti nel dataset. Dimostriamo che il nostro modello può essere utilizzato su benchmark standard per il completamento semantico e panottico di scene, localizzare oggetti come bounding box 3D (amodali) e riconoscere oggetti oltre i vocabolari di classi predefiniti. La pagina del nostro progetto è disponibile all'indirizzo https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
La ricostruzione di scene dinamiche 4D da video monoculari acquisiti casualmente è un compito di grande valore ma estremamente impegnativo, poiché ogni istante temporale è osservato da un singolo punto di vista. Introduciamo Vivid4D, un approccio innovativo che migliora la sintesi di video monoculari 4D aumentando le viste di osservazione, sintetizzando video multi-vista da un input monoculare. A differenza dei metodi esistenti che si basano esclusivamente su prior geometriche per la supervisione o utilizzano prior generative trascurando la geometria, noi integriamo entrambi gli aspetti. Questo riformula l'aumento delle viste come un'attività di inpainting video, in cui le viste osservate vengono deformate in nuovi punti di vista basandosi su prior di profondità monoculari. Per raggiungere questo obiettivo, addestriamo un modello di inpainting video su video web non posizionati con maschere sinteticamente generate che imitano le occlusioni dovute alla deformazione, garantendo un completamento spazialmente e temporalmente coerente delle regioni mancanti. Per mitigare ulteriormente le imprecisioni nelle prior di profondità monoculari, introduciamo una strategia iterativa di aumento delle viste e una funzione di perdita di ricostruzione robusta. Gli esperimenti dimostrano che il nostro metodo migliora efficacemente la ricostruzione e il completamento di scene 4D monoculari.
Il prompting a Catena di Pensiero (Chain-of-Thought, CoT) migliora il ragionamento dei grandi modelli linguistici (Large Language Models, LLMs) scomponendo i problemi in passaggi sequenziali, imitando la logica umana e riducendo gli errori. Tuttavia, compiti complessi con ampi spazi di soluzione e vincoli vaghi spesso superano la capacità di una singola catena di ragionamento. Ispirati dalla Risoluzione Libera Minima (Minimal Free Resolution, MFR) in algebra commutativa e geometria algebrica, proponiamo la Sizigia di Pensieri (Syzygy of Thoughts, SoT), un nuovo framework che estende il CoT introducendo percorsi di ragionamento ausiliari e interconnessi. SoT cattura dipendenze logiche più profonde, consentendo una risoluzione dei problemi più robusta e strutturata. La MFR scompone un modulo in una sequenza di moduli liberi con rango minimo, fornendo un approccio analitico strutturato a sistemi complessi. Questo metodo introduce i concetti di "Modulo", "Numeri di Betti", "Libertà", "Mappatura", "Esattezza" e "Minimalità", permettendo la scomposizione sistematica del problema complesso originale in sottoproblemi minimi logicamente completi, preservando le caratteristiche chiave del problema e riducendo la lunghezza del ragionamento. Abbiamo testato SoT su diversi dataset (ad esempio, GSM8K, MATH) e modelli (ad esempio, GPT-4o-mini, Qwen2.5), ottenendo un'accuratezza inferenziale che eguaglia o supera gli standard CoT mainstream. Inoltre, allineando il processo di campionamento con i vincoli algebrici, il nostro approccio migliora la scalabilità del tempo di inferenza nei LLM, garantendo sia un ragionamento trasparente che alte prestazioni. Il nostro codice sarà pubblicamente disponibile all'indirizzo https://github.com/dlMARiA/Syzygy-of-thoughts.
I recenti progressi nel campo del 3D Gaussian Splatting (3DGS) hanno dimostrato un potenziale notevole nelle attività di sintesi di nuove viste. Il paradigma divide-et-impera ha reso possibile la ricostruzione di scene su larga scala, ma permangono sfide significative nei processi di partizionamento della scena, ottimizzazione e fusione. Questo articolo introduce BlockGaussian, un nuovo framework che incorpora una strategia di partizionamento della scena basata sul contenuto e un'ottimizzazione a blocchi consapevole della visibilità, per ottenere una ricostruzione efficiente e di alta qualità di scene su larga scala. Nello specifico, il nostro approccio considera la variazione della complessità del contenuto tra diverse regioni e bilancia il carico computazionale durante il partizionamento della scena, consentendo una ricostruzione efficiente. Per affrontare il problema della mancata corrispondenza della supervisione durante l'ottimizzazione indipendente dei blocchi, introduciamo punti ausiliari durante l'ottimizzazione dei singoli blocchi per allineare la supervisione con la verità di base, migliorando così la qualità della ricostruzione. Inoltre, proponiamo un vincolo geometrico pseudo-visuale che mitiga efficacemente il degrado del rendering causato dai floater nello spazio aereo durante la fusione dei blocchi. Esperimenti estesi su scene di grandi dimensioni dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia sia in termini di efficienza di ricostruzione che di qualità del rendering, con un'accelerazione di 5x nell'ottimizzazione e un miglioramento medio del PSNR di 1.21 dB su più benchmark. È importante notare che BlockGaussian riduce significativamente i requisiti computazionali, consentendo la ricostruzione di scene su larga scala su un singolo dispositivo con 24GB di VRAM. La pagina del progetto è disponibile all'indirizzo https://github.com/SunshineWYC/BlockGaussian.
Presentiamo FreshStack, un framework riutilizzabile per la costruzione automatica di benchmark di valutazione per il recupero delle informazioni (IR) a partire da domande e risposte della comunità. FreshStack esegue i seguenti passaggi: (1) raccolta automatica del corpus da codice e documentazione tecnica, (2) generazione di "nugget" (frammenti informativi) da domande e risposte della comunità, e (3) supporto a livello di nugget, recuperando documenti mediante una fusione di tecniche di recupero e architetture ibride. Utilizziamo FreshStack per costruire cinque dataset su argomenti di nicchia, recenti e in rapida crescita, al fine di garantire che i compiti siano sufficientemente impegnativi. Su FreshStack, i modelli di recupero esistenti, quando applicati senza modifiche, ottengono prestazioni significativamente inferiori rispetto agli approcci oracolari su tutti e cinque gli argomenti, indicando un ampio margine di miglioramento per la qualità dell'IR. Inoltre, identifichiamo casi in cui i sistemi di riordinamento (rerankers) non migliorano chiaramente l'accuratezza del recupero nella prima fase (due su cinque argomenti). Speriamo che FreshStack possa facilitare futuri lavori verso la costruzione di benchmark di valutazione per l'IR e il RAG realistici, scalabili e non contaminati. I dataset di FreshStack sono disponibili all'indirizzo: https://fresh-stack.github.io.
I recenti progressi nelle tecnologie di generazione del parlato e clonazione vocale basate sull'intelligenza artificiale (IA) hanno prodotto un parlato naturalistico e una replica vocale accurata, tuttavia il loro impatto sui sistemi sociotecnici attraverso diversi accenti e tratti linguistici non è ancora completamente compreso. Questo studio valuta due servizi vocali sintetici basati su IA (Speechify e ElevenLabs) attraverso un approccio misto che utilizza sondaggi e interviste per valutare le prestazioni tecniche e scoprire come le esperienze vissute dagli utenti influenzino le loro percezioni delle variazioni di accento in queste tecnologie vocali. I nostri risultati rivelano disparità nelle prestazioni tecniche tra cinque accenti regionali di lingua inglese e dimostrano come le attuali tecnologie di generazione del parlato possano involontariamente rafforzare i privilegi linguistici e la discriminazione basata sull'accento, potenzialmente creando nuove forme di esclusione digitale. Nel complesso, il nostro studio evidenzia la necessità di un design inclusivo e di una regolamentazione, fornendo spunti pratici per sviluppatori, responsabili politici e organizzazioni per garantire tecnologie vocali basate su IA eque e socialmente responsabili.