Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo MiniMax-M1, il primo modello al mondo open-weight su larga scala con architettura ibrida di attenzione e ragionamento. MiniMax-M1 è alimentato da un'architettura ibrida Mixture-of-Experts (MoE) combinata con un meccanismo di attenzione lightning. Il modello è sviluppato basandosi sul nostro precedente modello MiniMax-Text-01, che contiene un totale di 456 miliardi di parametri, con 45,9 miliardi di parametri attivati per token. Il modello M1 supporta nativamente una lunghezza contestuale di 1 milione di token, 8 volte la dimensione contestuale di DeepSeek R1. Inoltre, il meccanismo di attenzione lightning in MiniMax-M1 consente un efficiente ridimensionamento del calcolo durante il test. Queste caratteristiche rendono M1 particolarmente adatto per compiti complessi che richiedono l'elaborazione di input lunghi e un ragionamento esteso. MiniMax-M1 è addestrato utilizzando l'apprendimento per rinforzo (RL) su larga scala su problemi diversificati, inclusi ambienti di ingegneria del software basati su sandbox e scenari reali. Oltre al vantaggio intrinseco di efficienza di M1 per l'addestramento RL, proponiamo CISPO, un nuovo algoritmo RL per migliorare ulteriormente l'efficienza dell'apprendimento per rinforzo. CISPO limita i pesi di campionamento di importanza anziché gli aggiornamenti dei token, superando altre varianti competitive di RL. La combinazione di attenzione ibrida e CISPO consente l'addestramento RL completo di MiniMax-M1 su 512 GPU H800 in sole tre settimane, con un costo di noleggio di appena $534.700. Rilasciamo due versioni dei modelli MiniMax-M1 con budget di pensiero rispettivamente di 40K e 80K, dove il modello 40K rappresenta una fase intermedia dell'addestramento 80K. Esperimenti su benchmark standard dimostrano che i nostri modelli sono comparabili o superiori a modelli open-weight di riferimento come l'originale DeepSeek-R1 e Qwen3-235B, con punti di forza particolari nell'ingegneria del software complessa, nell'utilizzo di strumenti e nei compiti a contesto lungo. Rilasciamo pubblicamente MiniMax-M1 all'indirizzo https://github.com/MiniMax-AI/MiniMax-M1.
Le scoperte scientifiche si basano sempre più su un ragionamento multimodale complesso che utilizza dati scientifici ad alta intensità informativa e competenze specifiche del dominio. Potenziati da benchmark scientifici di livello esperto, i Modelli Linguistici Multimodali (MLLM) scientifici hanno il potenziale di migliorare significativamente questo processo di scoperta nei flussi di lavoro realistici. Tuttavia, gli attuali benchmark scientifici si concentrano principalmente sulla valutazione delle capacità di comprensione delle conoscenze degli MLLM, portando a una valutazione inadeguata delle loro abilità percettive e di ragionamento. Per colmare questa lacuna, presentiamo il benchmark Scientists' First Exam (SFE), progettato per valutare le capacità cognitive scientifiche degli MLLM attraverso tre livelli interconnessi: percezione del segnale scientifico, comprensione degli attributi scientifici, ragionamento comparativo scientifico. Nello specifico, SFE comprende 830 coppie domanda-risposta verificate da esperti, suddivise in tre tipologie di domande, che coprono 66 task multimodali in cinque discipline ad alto valore. Esperimenti estensivi rivelano che gli attuali modelli all'avanguardia GPT-3 e InternVL-3 raggiungono solo il 34,08% e il 26,52% su SFE, evidenziando un significativo margine di miglioramento per gli MLLM nei contesti scientifici. Ci auguriamo che le intuizioni ottenute da SFE possano facilitare ulteriori sviluppi nelle scoperte scientifiche potenziate dall'IA.
Gli Agenti di Ricerca Profonda (Deep Research Agents, DRA) rappresentano una categoria di spicco tra gli agenti basati su modelli linguistici di grandi dimensioni (LLM). Orchestrando in modo autonomo esplorazioni web multi-step, recupero mirato e sintesi di ordine superiore, trasformano vaste quantità di informazioni online in report di livello analitico, ricchi di citazioni, comprimendo ore di ricerca manuale in pochi minuti. Tuttavia, manca ancora un benchmark completo per valutare sistematicamente le capacità di questi agenti. Per colmare questa lacuna, presentiamo DeepResearch Bench, un benchmark composto da 100 task di ricerca di livello PhD, ciascuno meticolosamente progettato da esperti di dominio in 22 campi distinti. La valutazione dei DRA è intrinsecamente complessa e laboriosa. Proponiamo quindi due metodologie innovative che raggiungono un forte allineamento con il giudizio umano. La prima è un metodo basato su riferimenti con criteri adattivi per valutare la qualità dei report di ricerca generati. L'altro framework è introdotto per valutare le capacità di recupero e raccolta delle informazioni del DRA, analizzando il conteggio effettivo delle citazioni e l'accuratezza complessiva delle citazioni. Abbiamo reso open-source DeepResearch Bench e i componenti chiave di questi framework all'indirizzo https://github.com/Ayanami0730/deep_research_bench per accelerare lo sviluppo di agenti pratici basati su LLM.
In questo articolo, presentiamo DoTA-RAG (Dynamic-of-Thought Aggregation RAG), un sistema di generazione aumentata da recupero ottimizzato per indici di conoscenza web su larga scala e ad alta produttività. Le pipeline RAG tradizionali spesso soffrono di latenza elevata e precisione limitata su dataset massicci e diversificati. DoTA-RAG affronta queste sfide con una pipeline a tre fasi: riscrittura delle query, instradamento dinamico verso sotto-indici specializzati e recupero e ranking multi-stadio. Miglioriamo ulteriormente il recupero valutando e selezionando un modello di embedding superiore, ri-embedding del grande corpus FineWeb-10BT. Inoltre, creiamo un dataset Q&A diversificato di 500 domande generate tramite la configurazione DataMorgana su un'ampia gamma di argomenti e formati WebOrganizer. DoTA-RAG migliora il punteggio di correttezza delle risposte da 0.752 (baseline, utilizzando lo store vettoriale pre-costruito LiveRAG) a 1.478 mantenendo una bassa latenza, e raggiunge un punteggio di correttezza di 0.929 nel Live Challenge Day. Questi risultati evidenziano il potenziale di DoTA-RAG per il dispiegamento pratico in domini che richiedono un accesso rapido e affidabile a fonti di conoscenza ampie e in evoluzione.
I recenti progressi nei modelli di ragionamento su larga scala hanno reso possibile un ragionamento complesso e passo-passo, ma spesso introducono un eccesso di riflessione, producendo output verbosi e ridondanti che compromettono l'efficienza. In questo studio, esaminiamo se l'autoriflessione esplicita, segnalata da token come "Wait" e "Hmm", sia necessaria per un ragionamento avanzato. Proponiamo NoWait, un approccio semplice ma efficace che disabilita l'autoriflessione esplicita sopprimendo questi token durante l'inferenza. Esperimenti estesi su dieci benchmark che coprono compiti di ragionamento testuale, visivo e video dimostrano che NoWait riduce la lunghezza della traiettoria del ragionamento a catena fino al 27%-51% in cinque serie di modelli in stile R1, senza compromettere l'utilità del modello. NoWait offre quindi una soluzione plug-and-play per un ragionamento multimodale efficiente e che preserva l'utilità.
Presentiamo TransDiff, il primo modello di generazione di immagini che unisce il Transformer Autoregressivo (AR) con i modelli di diffusione. In questo framework di modellazione congiunta, TransDiff codifica etichette e immagini in caratteristiche semantiche di alto livello e utilizza un modello di diffusione per stimare la distribuzione dei campioni di immagini. Sul benchmark ImageNet 256x256, TransDiff supera significativamente altri modelli di generazione di immagini basati esclusivamente su Transformer AR o modelli di diffusione. Nello specifico, TransDiff raggiunge un Fréchet Inception Distance (FID) di 1.61 e un Inception Score (IS) di 293.4, offrendo inoltre una latenza di inferenza x2 più veloce rispetto ai metodi all'avanguardia basati su Transformer AR e x112 più veloce rispetto ai modelli basati esclusivamente su diffusione. Inoltre, basandoci sul modello TransDiff, introduciamo un nuovo paradigma di generazione di immagini chiamato Autoregressione Multi-Riferimento (MRAR), che esegue la generazione autoregressiva prevedendo l'immagine successiva. MRAR consente al modello di fare riferimento a più immagini generate in precedenza, facilitando così l'apprendimento di rappresentazioni più diversificate e migliorando la qualità delle immagini generate nelle iterazioni successive. Applicando MRAR, le prestazioni di TransDiff migliorano, con il FID che si riduce da 1.61 a 1.42. Ci aspettiamo che TransDiff apra una nuova frontiera nel campo della generazione di immagini.
Presentiamo Ego-R1, un nuovo framework per il ragionamento su video egocentrici ultra-lunghi (cioè di giorni e settimane), che sfrutta un processo strutturato di Catena-di-Pensiero-Strumentale (CoTT), orchestrato da un Agente Ego-R1 addestrato tramite apprendimento per rinforzo (RL). Ispirato dalle strategie umane di risoluzione dei problemi, CoTT scompone il ragionamento complesso in passi modulari, con l'agente RL che invoca strumenti specifici, uno per passo, per rispondere in modo iterativo e collaborativo a sotto-domande affrontando compiti come il recupero temporale e la comprensione multi-modale. Progettiamo un paradigma di addestramento in due fasi che include il fine-tuning supervisionato (SFT) di un modello linguistico preaddestrato utilizzando dati CoTT e RL per consentire al nostro agente di proporre dinamicamente strumenti passo-passo per il ragionamento a lungo raggio. Per facilitare l'addestramento, costruiamo un dataset chiamato Ego-R1 Data, che consiste in Ego-CoTT-25K per SFT e Ego-QA-4.4K per RL. Inoltre, il nostro agente Ego-R1 viene valutato su un nuovo benchmark di QA su video di una settimana, Ego-R1 Bench, che contiene coppie QA verificate da esseri umani provenienti da fonti ibride. I risultati estesi dimostrano che il ragionamento dinamico e potenziato da strumenti tramite Catena-di-Pensiero del nostro Agente Ego-R1 può affrontare efficacemente le sfide uniche della comprensione di video egocentrici ultra-lunghi, estendendo significativamente la copertura temporale da poche ore a una settimana.
In questo lavoro, forniamo una revisione sistematica dei Modelli Linguistici a Diffusione Discreta (dLLM) e dei Modelli Linguistici Multimodali a Diffusione Discreta (dMLLM). A differenza dei modelli autoregressivi (AR), i dLLM e i dMLLM adottano un paradigma di decodifica parallela multi-token, utilizzando l'attenzione completa e una strategia di generazione basata sulla rimozione del rumore. Questo paradigma consente naturalmente la generazione parallela, la controllabilità fine-grana dell'output e una percezione dinamica e consapevole della risposta. Queste capacità erano precedentemente difficili da ottenere con i modelli AR. Recentemente, un numero crescente di d(M)LLM proprietari su scala industriale, così come un gran numero di d(M)LLM open-source accademici, hanno dimostrato prestazioni comparabili alle loro controparti autoregressive, raggiungendo un'accelerazione fino a 10x nella velocità di inferenza. L'avanzamento dei dLLM e dMLLM a diffusione discreta è stato largamente guidato dai progressi in due ambiti. Il primo è lo sviluppo dei modelli linguistici autoregressivi (AR) e multimodali (MLLM), che ha accumulato grandi quantità di dati, benchmark e infrastrutture di base per l'addestramento e l'inferenza. Il secondo ambito contribuente è l'evoluzione dei modelli matematici sottostanti alla diffusione discreta. Insieme, questi progressi hanno catalizzato un'impennata nella ricerca sui dLLM e dMLLM all'inizio del 2025. In questo lavoro, presentiamo una panoramica completa della ricerca nei domini dei dLLM e dMLLM. Tracciamo lo sviluppo storico dei dLLM e dMLLM, formalizziamo i framework matematici sottostanti e categorizziamo i modelli rappresentativi. Analizziamo ulteriormente le tecniche chiave per l'addestramento e l'inferenza e riassumiamo le applicazioni emergenti nei domini linguistici, visione-linguaggio e biologici. Concludiamo discutendo le future direzioni per la ricerca e il dispiegamento. Raccolta dei paper: https://github.com/LiQiiiii/DLLM-Survey
I dati svolgono il ruolo più prominente nel modo in cui i modelli linguistici acquisiscono competenze e conoscenze. La mancanza di dataset di pre-addestramento massicci e ben organizzati si traduce in pipeline di dati costose e di difficile accesso. Presentiamo Essential-Web v1.0, un dataset da 24 trilioni di token in cui ogni documento è annotato con una tassonomia a dodici categorie che copre argomento, formato, complessità del contenuto e qualità. Le etichette della tassonomia sono prodotte da EAI-Distill-0.5b, un modello fine-tuned da 0,5 miliardi di parametri che raggiunge un accordo tra annotatori entro il 3% rispetto a Qwen2.5-32B-Instruct. Utilizzando semplici filtri in stile SQL, otteniamo dataset curati dal web competitivi in matematica (-8,0% rispetto allo stato dell'arte), codice web (+14,3%), STEM (+24,5%) e medicina (+8,6%). Essential-Web v1.0 è disponibile su HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
I compiti agentivi, che richiedono risoluzione di problemi multi-step con autonomia, uso di strumenti e ragionamento adattivo, stanno diventando sempre più centrali per l'avanzamento dell'NLP e dell'IA. Tuttavia, i dati di istruzione esistenti mancano di interazione con strumenti, e i benchmark agentivi attuali si basano su costose annotazioni umane, limitandone la scalabilità. Introduciamo TaskCraft, un flusso di lavoro automatizzato per generare compiti agentivi scalabili in difficoltà, multi-strumento e verificabili, con traiettorie di esecuzione. TaskCraft espande compiti atomici utilizzando estensioni basate sulla profondità e sulla larghezza per creare sfide strutturalmente e gerarchicamente complesse. I risultati empirici mostrano che questi compiti migliorano l'ottimizzazione dei prompt nel flusso di generazione e potenziano il fine-tuning supervisionato di modelli di base agentivi. Presentiamo un dataset sintetico su larga scala di circa 36.000 compiti con difficoltà variabile per supportare la ricerca futura sulla regolazione e valutazione degli agenti.
Introduciamo l'Autoregressive Retrieval Augmentation (AR-RAG), un nuovo paradigma che migliora la generazione di immagini incorporando in modo autoregressivo recuperi di k-vicini più prossimi a livello di patch. A differenza dei metodi precedenti che eseguono un singolo recupero statico prima della generazione e condizionano l'intera generazione su immagini di riferimento fisse, AR-RAG esegue recuperi contestuali ad ogni passo della generazione, utilizzando le patch generate in precedenza come query per recuperare e incorporare i riferimenti visivi a livello di patch più rilevanti, consentendo al modello di rispondere alle esigenze evolutive della generazione evitando limitazioni (ad esempio, copia eccessiva, bias stilistico, ecc.) prevalenti nei metodi esistenti. Per realizzare AR-RAG, proponiamo due framework paralleli: (1) Distribution-Augmentation in Decoding (DAiD), una strategia di decodifica plug-and-use senza addestramento che unisce direttamente la distribuzione delle patch previste dal modello con la distribuzione delle patch recuperate, e (2) Feature-Augmentation in Decoding (FAiD), un metodo di fine-tuning efficiente in termini di parametri che smussa progressivamente le caratteristiche delle patch recuperate tramite operazioni di convoluzione multi-scala e le sfrutta per aumentare il processo di generazione delle immagini. Validiamo l'efficacia di AR-RAG su benchmark ampiamente adottati, tra cui Midjourney-30K, GenEval e DPG-Bench, dimostrando significativi miglioramenti delle prestazioni rispetto ai modelli di generazione di immagini all'avanguardia.
I metodi di matching denso come DUSt3R regrediscono mappe di punti a coppie per la ricostruzione 3D. Tuttavia, la dipendenza dalla previsione a coppie e la limitata capacità di generalizzazione intrinsecamente restringono la coerenza geometrica globale. In questo lavoro, introduciamo Test3R, una tecnica di apprendimento al momento del test sorprendentemente semplice che migliora significativamente l'accuratezza geometrica. Utilizzando triplette di immagini (I_1,I_2,I_3), Test3R genera ricostruzioni dalle coppie (I_1,I_2) e (I_1,I_3). L'idea centrale è ottimizzare la rete al momento del test tramite un obiettivo auto-supervisionato: massimizzare la coerenza geometrica tra queste due ricostruzioni rispetto all'immagine comune I_1. Ciò garantisce che il modello produca output coerenti tra coppie, indipendentemente dagli input. Esperimenti estensivi dimostrano che la nostra tecnica supera significativamente i precedenti metodi all'avanguardia nei compiti di ricostruzione 3D e stima della profondità multi-vista. Inoltre, è universalmente applicabile e quasi a costo zero, rendendola facilmente applicabile ad altri modelli e implementabile con un sovraccarico minimo di addestramento al momento del test e un'impronta di parametri ridotta. Il codice è disponibile all'indirizzo https://github.com/nopQAQ/Test3R.
In questo lavoro, indaghiamo la sinergia tra il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL) nello sviluppo di modelli di ragionamento robusti. Iniziamo curando i dati di addestramento per l'SFT attraverso due strategie di scalabilità: aumentare il numero di prompt raccolti e il numero di risposte generate per ciascun prompt. Entrambi gli approcci portano a miglioramenti significativi nelle prestazioni di ragionamento, con un aumento più sostanziale ottenuto scalando il numero di prompt. Successivamente, esploriamo le seguenti domande riguardanti la sinergia tra SFT e RL: (i) Un modello SFT più forte porta costantemente a migliori prestazioni finali dopo un addestramento RL su larga scala? (ii) Come possiamo determinare una temperatura di campionamento appropriata durante l'addestramento RL per bilanciare efficacemente esplorazione e sfruttamento per una data inizializzazione SFT? I nostri risultati suggeriscono che la (i) è vera, a condizione che venga condotto un addestramento RL efficace, in particolare quando la temperatura di campionamento viene scelta con cura per mantenere l'entropia aggiustata per la temperatura intorno a 0,3, un'impostazione che raggiunge un buon equilibrio tra esplorazione e sfruttamento. È interessante notare che il divario di prestazioni tra i modelli SFT iniziali si riduce significativamente durante il processo RL. Sfruttando una solida base SFT e approfondimenti sull'interazione sinergica tra SFT e RL, il nostro modello AceReason-Nemotron-1.1 7B supera significativamente AceReason-Nemotron-1.0 e raggiunge nuove prestazioni all'avanguardia tra i modelli di ragionamento basati su Qwen2.5-7B su benchmark impegnativi di matematica e codice, dimostrando così l'efficacia della nostra ricetta di post-addestramento. Rilasciamo il modello e i dati all'indirizzo: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
Con il rapido miglioramento delle capacità generali degli LLM, la personalizzazione degli LLM, ovvero come costruire sistemi LLM in grado di generare risposte o servizi personalizzati adatti a distinti profili utente, è diventata un problema di ricerca e ingegneria sempre più importante. Tuttavia, a differenza di molti nuovi benchmark impegnativi rilasciati per valutare le capacità generali/di ragionamento, la mancanza di benchmark di alta qualità per valutare la personalizzazione degli LLM ostacola notevolmente i progressi in questo campo. Per affrontare questo problema, introduciamo PersonaFeedback, un nuovo benchmark che valuta direttamente la capacità degli LLM di fornire risposte personalizzate date specifiche persone utente e query predefinite. A differenza dei benchmark esistenti che richiedono ai modelli di dedurre persone utente implicite da interazioni storiche, PersonaFeedback separa l'inferenza della persona dalla personalizzazione, concentrandosi sulla valutazione della capacità del modello di generare risposte adattate a persone esplicite. PersonaFeedback è composto da 8298 casi di test annotati manualmente, classificati in livelli facile, medio e difficile in base alla complessità contestuale delle persone utente e alla difficoltà nel distinguere sottili differenze tra due risposte personalizzate. Eseguiamo valutazioni complete su un'ampia gamma di modelli. I risultati empirici rivelano che anche gli LLM all'avanguardia in grado di risolvere complessi compiti di ragionamento nel mondo reale potrebbero non raggiungere il livello difficile di PersonaFeedback, dove persino i valutatori umani potrebbero trovare le distinzioni impegnative. Inoltre, conduciamo un'analisi approfondita delle modalità di fallimento tra vari tipi di sistemi, dimostrando che l'attuale framework potenziato dal recupero delle informazioni non dovrebbe essere considerato una soluzione di fatto per i compiti di personalizzazione. Tutti i dati del benchmark, i protocolli di annotazione e la pipeline di valutazione saranno resi pubblicamente disponibili per facilitare la ricerca futura sulla personalizzazione degli LLM.
Nel campo del ragionamento multimodale a catena di pensiero (CoT), gli approcci esistenti si basano prevalentemente sul ragionamento nello spazio puramente linguistico, il quale soffre intrinsecamente di bias linguistici ed è largamente confinato ai domini della matematica o delle scienze. Questo focus ristretto limita la loro capacità di gestire compiti complessi di ragionamento visivo che richiedono una comprensione approfondita dei dettagli delle immagini. Per affrontare queste limitazioni, questo articolo introduce VGR, un nuovo modello linguistico multimodale (MLLM) di ragionamento con capacità potenziate di percezione visiva fine. A differenza dei tradizionali MLLM che rispondono alle domande o ragionano esclusivamente nello spazio linguistico, il nostro VGR rileva prima le regioni rilevanti che possono aiutare a risolvere i problemi, e poi fornisce risposte precise basate sulle regioni delle immagini riprodotte. Per raggiungere questo obiettivo, abbiamo creato un ampio dataset SFT chiamato VGR-SFT che contiene dati di ragionamento con una combinazione di ancoraggio visivo e deduzione linguistica. La pipeline di inferenza di VGR consente al modello di selezionare bounding box per il riferimento visivo e introduce una fase di riproduzione che integra le regioni corrispondenti nel processo di ragionamento, migliorando la comprensione multimodale. Gli esperimenti condotti sul baseline LLaVA-NeXT-7B dimostrano che VGR raggiunge prestazioni superiori nei benchmark multimodali che richiedono una comprensione dettagliata delle immagini. Rispetto al baseline, VGR utilizza solo il 30% del conteggio dei token delle immagini, ottenendo punteggi di +4,1 su MMStar, +7,1 su AI2D e un miglioramento di +12,9 su ChartQA.
I Large Language Model (LLM) hanno dimostrato notevoli capacità di generalizzazione attraverso compiti e lingue, rivoluzionando l'elaborazione del linguaggio naturale. Questo articolo indaga l'allineamento delle rappresentazioni che emerge naturalmente nei LLM, in particolare negli strati intermedi, e le sue implicazioni per la separazione delle informazioni specifiche della lingua e indipendenti dalla lingua. Confermiamo empiricamente l'esistenza di questo allineamento, analizziamo il suo comportamento rispetto a modelli di allineamento progettati esplicitamente e dimostriamo il suo potenziale per la manipolazione specifica della lingua senza degradazione semantica. Basandoci su questi risultati, proponiamo Inference-Time Language Control (ITLC), un metodo innovativo che sfrutta l'iniezione latente per abilitare un controllo linguistico cross-linguale preciso e mitigare la confusione linguistica nei LLM. I nostri esperimenti evidenziano le forti capacità di controllo cross-linguale di ITLC preservando l'integrità semantica nelle lingue target. Inoltre, dimostriamo la sua efficacia nell'alleviare il problema della confusione linguistica cross-linguale, che persiste anche negli attuali LLM su larga scala, portando a una generazione linguistica incoerente. Questo lavoro avanza la nostra comprensione dell'allineamento delle rappresentazioni nei LLM e introduce una soluzione pratica per migliorare le loro prestazioni cross-linguali.
La ricerca di dati di istruzione diversificati, complessi e su larga scala è cruciale per allineare automaticamente i grandi modelli linguistici (LLM). Sebbene esistano metodi in grado di generare istruzioni sintetiche su larga scala, essi soffrono o di fonti di ancoraggio limitate, che portano a una distribuzione ristretta, o si basano su estensioni banali che non riescono a produrre traiettorie significative in termini di complessità. Al contrario, le istruzioni che favoriscono un allineamento efficiente sono tipicamente progettate con intuizioni cognitive e ancorate a casi d'uso reali. In questo articolo, sintetizziamo tali istruzioni utilizzando un ancoraggio attribuito, che prevede 1) un processo di attribuzione top-down che ancorizza un insieme selezionato di istruzioni reali a utenti situati, e 2) un processo di sintesi bottom-up che sfrutta i documenti web per generare prima una situazione, poi un'istruzione significativa. Questo framework ci consente di raccogliere istruzioni diversificate e complesse su larga scala, sfruttando la vasta gamma di documenti web. Nello specifico, costruiamo un dataset di 1 milione di istruzioni, chiamato SynthQuestions, e dimostriamo che i modelli addestrati su di esso raggiungono prestazioni leader su diversi benchmark comuni, con miglioramenti che continuano a scalare con l'aggiunta di più corpora web. Dati, modelli e codici saranno disponibili su https://github.com/Ignoramus0817/SynthQuestions.
Recentemente, l'utilizzo di modelli pre-addestrati visione-linguaggio (VLMs) per costruire modelli visione-linguaggio-azione (VLA) è emerso come un approccio promettente per un apprendimento efficace della manipolazione robotica. Tuttavia, solo pochi metodi incorporano segnali 3D nei VLMs per la previsione delle azioni, e non sfruttano appieno la struttura spaziale intrinseca dei dati 3D, portando a una bassa efficienza campionaria. In questo articolo, introduciamo BridgeVLA, un nuovo modello VLA 3D che (1) proietta gli input 3D in multiple immagini 2D, garantendo l'allineamento degli input con il backbone VLM, e (2) utilizza mappe di calore 2D per la previsione delle azioni, unificando gli spazi di input e output all'interno di uno spazio immagine 2D coerente. Inoltre, proponiamo un metodo di pre-addestramento scalabile che equipaggia il backbone VLM con la capacità di prevedere mappe di calore 2D prima dell'apprendimento della politica downstream. Esperimenti estensivi dimostrano che il metodo proposto è in grado di apprendere la manipolazione 3D in modo efficiente ed efficace. BridgeVLA supera i metodi baseline all'avanguardia in tre benchmark di simulazione. In RLBench, migliora il tasso di successo medio dall'81,4% all'88,2%. In COLOSSEUM, dimostra prestazioni significativamente migliori in contesti di generalizzazione impegnativi, aumentando il tasso di successo medio dal 56,7% al 64,0%. In GemBench, supera tutti i metodi baseline di confronto in termini di tasso di successo medio. Negli esperimenti con robot reali, BridgeVLA supera un metodo baseline all'avanguardia del 32% in media. Generalizza robustamente in molteplici contesti out-of-distribution, inclusi disturbi visivi e istruzioni non viste. Notevolmente, è in grado di raggiungere un tasso di successo del 96,8% su più di 10 task con solo 3 traiettorie per task, evidenziando la sua straordinaria efficienza campionaria. Sito del progetto: https://bridgevla.github.io/
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno permesso lo sviluppo di agenti AI che mostrano comportamenti sempre più simili a quelli umani, inclusi pianificazione, adattamento e dinamiche sociali in scenari diversi, interattivi e aperti. Questi comportamenti non sono esclusivamente il prodotto delle architetture interne dei modelli sottostanti, ma emergono dalla loro integrazione in sistemi agentici che operano in contesti specifici, dove fattori ambientali, segnali sociali e feedback interattivi modellano il comportamento nel tempo. Questa evoluzione richiede una nuova prospettiva scientifica: la Scienza del Comportamento degli Agenti AI. Piuttosto che concentrarsi solo sui meccanismi interni, questa prospettiva enfatizza l'osservazione sistematica del comportamento, la progettazione di interventi per testare ipotesi e l'interpretazione guidata dalla teoria di come gli agenti AI agiscono, si adattano e interagiscono nel tempo. Sistematizziamo un corpus crescente di ricerche in contesti di interazione individuale, multi-agente e uomo-agente, e dimostriamo ulteriormente come questa prospettiva informi l'AI responsabile trattando equità, sicurezza, interpretabilità, responsabilità e privacy come proprietà comportamentali. Unificando i risultati recenti e delineando direzioni future, posizioniamo la Scienza del Comportamento degli Agenti AI come un complemento necessario agli approcci tradizionali centrati sul modello, fornendo strumenti essenziali per comprendere, valutare e governare il comportamento nel mondo reale di sistemi AI sempre più autonomi.
L'evoluzione continua dei modelli linguistici ha portato allo sviluppo di architetture su larga scala che dimostrano prestazioni eccezionali in un'ampia gamma di compiti. Tuttavia, questi modelli comportano significativi requisiti computazionali e di energia, oltre a potenziali implicazioni sulla privacy. In questo contesto, i Small Reasoning Language Models (SRLMs) con circa 0,5 miliardi di parametri rappresentano un'alternativa convincente grazie alla loro notevole efficienza computazionale e convenienza economica, specialmente in ambienti con risorse limitate. Nonostante questi vantaggi, la capacità limitata dei modelli da 0,5 miliardi di parametri presenta sfide nella gestione di compiti complessi come il ragionamento matematico e la generazione di codice. Questa ricerca esamina varie strategie di addestramento, tra cui il fine-tuning supervisionato (SFT), la distillazione della conoscenza (KD) e l'apprendimento per rinforzo (RL), nonché le loro implementazioni ibride, per migliorare le prestazioni degli SRLMs da 0,5B. Analizziamo metodologie efficaci per colmare il divario prestazionale tra gli SRLMs e i modelli più grandi e presentiamo approfondimenti sulle pipeline di addestramento ottimali progettate per queste architetture più piccole. Attraverso un'ampia validazione sperimentale e analisi, il nostro lavoro mira a fornire raccomandazioni pratiche per massimizzare le capacità di ragionamento dei modelli da 0,5B.
L'apprendimento interattivo dall'osservazione e dal feedback linguistico è un'area sempre più studiata, guidata dall'emergere di agenti basati su modelli linguistici di grandi dimensioni (LLM). Sebbene siano state dimostrate impressionanti evidenze empiriche, finora manca una formalizzazione rigorosa di questi problemi decisionali. In questo articolo, formalizziamo il problema dell'Apprendimento dal Feedback Linguistico (LLF), affermiamo ipotesi sufficienti per abilitare l'apprendimento nonostante ricompense latenti e introduciamo la dimensione di trasferimento eluder come misura di complessità per caratterizzare la difficoltà dei problemi LLF. Mostriamo che la dimensione di trasferimento eluder cattura l'intuizione che le informazioni nel feedback modificano la complessità dell'apprendimento del problema LLF. Dimostriamo casi in cui l'apprendimento da un feedback linguistico ricco può essere esponenzialmente più veloce rispetto all'apprendimento dalla ricompensa. Sviluppiamo un algoritmo senza rimpianto, chiamato HELiX, che risolve in modo dimostrabile i problemi LLF attraverso interazioni sequenziali, con garanzie di prestazioni che scalano con la dimensione di trasferimento eluder del problema. In diversi domini empirici, mostriamo che HELiX performa bene anche quando il prompting ripetuto di LLM non funziona in modo affidabile. I nostri contributi rappresentano un primo passo verso la progettazione di algoritmi di apprendimento interattivo basati su feedback linguistico generico.
Quanto sono performanti i sistemi di intelligenza artificiale nell'ingegneria algoritmica per problemi di ottimizzazione complessi in domini come il routing per la consegna di pacchi, la pianificazione degli equipaggi, la programmazione della produzione in fabbrica e il bilanciamento della rete elettrica? Introduciamo ALE-Bench, un nuovo benchmark per valutare i sistemi di intelligenza artificiale in contesti di programmazione algoritmica basata su punteggio. Basandosi su compiti reali tratti dalle AtCoder Heuristic Contests, ALE-Bench presenta problemi di ottimizzazione computazionalmente complessi e privi di soluzioni esatte note. A differenza dei benchmark di codifica a breve termine con valutazione binaria (superato/non superato), ALE-Bench incoraggia un affinamento iterativo delle soluzioni su orizzonti temporali prolungati. Il nostro framework software supporta architetture di agenti interattivi che sfruttano feedback derivanti da esecuzioni di test e visualizzazioni. La nostra valutazione dei modelli linguistici all'avanguardia ha rivelato che, sebbene dimostrino alte prestazioni su problemi specifici, rimane un divario significativo rispetto agli esseri umani in termini di coerenza tra problemi e capacità di risoluzione di problemi su lunghi orizzonti temporali. Ciò sottolinea la necessità di questo benchmark per favorire futuri progressi nell'intelligenza artificiale.
I Large Language Model (LLM) sono sempre più integrati nelle applicazioni quotidiane. Man mano che la loro influenza cresce, diventa essenziale comprendere il loro processo decisionale e la personalità sottostante. In questo lavoro, interpretiamo la personalità del modello utilizzando il nostro Supernova Event Dataset, un nuovo dataset che comprende articoli diversificati tra biografie, eventi storici, notizie e scoperte scientifiche. Utilizziamo questo dataset per valutare le prestazioni degli LLM nell'estrazione e nella classificazione di eventi chiave da un testo, una sfida soggettiva e complessa che richiede ragionamento su contesti di lungo periodo e modellazione di catene causali. Valutiamo modelli di piccole dimensioni come Phi-4, Orca 2 e Qwen 2.5, e modelli più grandi e potenti come Claude 3.7, Gemini 2.5 e OpenAI o3, proponendo un framework in cui un altro LLM agisce come giudice per inferire la personalità di ciascun modello in base alla sua selezione e classificazione degli eventi. La nostra analisi rivela tratti di personalità distinti: ad esempio, Orca 2 dimostra un ragionamento emotivo focalizzato sulle dinamiche interpersonali, mentre Qwen 2.5 mostra uno stile più strategico e analitico. Nell'analisi degli eventi di scoperta scientifica, Claude Sonnet 3.7 enfatizza l'inquadramento concettuale, Gemini 2.5 Pro dà priorità alla validazione empirica e o3 favorisce un ragionamento causale passo-passo. Questa analisi migliora l'interpretabilità dei modelli, rendendoli più user-friendly per un'ampia gamma di applicazioni diversificate.
Poiché i livelli di self-attention nei Transformer sono per progettazione invarianti alle permutazioni, è necessario incorporare esplicitamente codifiche posizionali per abilitare la comprensione spaziale. Tuttavia, le tabelle di ricerca a dimensione fissa utilizzate nei tradizionali embedding posizionali apprendibili (PE) limitano le capacità di estrapolazione oltre le lunghezze di sequenza pre-addestrate. Metodi progettati da esperti come ALiBi e RoPE mitigano questa limitazione, ma richiedono modifiche estese per adattarsi a nuove modalità, evidenziando sfide fondamentali in termini di adattabilità e scalabilità. In questo lavoro, presentiamo SeqPE, un framework unificato e completamente apprendibile per la codifica posizionale che rappresenta ogni indice posizionale n-dimensionale come una sequenza simbolica e impiega un codificatore posizionale sequenziale leggero per apprendere i loro embedding in modo end-to-end. Per regolarizzare lo spazio di embedding di SeqPE, introduciamo due obiettivi complementari: un obiettivo contrastivo che allinea le distanze di embedding con una funzione predefinita di distanza posizionale, e una perdita di distillazione della conoscenza che ancorizza gli embedding posizionali fuori distribuzione alle rappresentazioni insegnanti in distribuzione, migliorando ulteriormente le prestazioni di estrapolazione. Esperimenti su modellazione del linguaggio, risposta a domande a contesto lungo e classificazione di immagini 2D dimostrano che SeqPE non solo supera baseline robusti in termini di perplessità, corrispondenza esatta (EM) e accuratezza—specialmente sotto estrapolazione della lunghezza del contesto—ma consente anche una generalizzazione senza soluzione di continuità a input multidimensionali senza richiedere una riprogettazione manuale dell'architettura. Rilasciamo il nostro codice, dati e checkpoint su https://github.com/ghrua/seqpe.
Le serie temporali del mondo reale sono spesso governate da dinamiche non lineari complesse. Comprendere queste dinamiche sottostanti è cruciale per previsioni future precise. Sebbene il deep learning abbia ottenuto un grande successo nella previsione di serie temporali, molti approcci esistenti non modellano esplicitamente le dinamiche. Per colmare questa lacuna, introduciamo DeepEDM, un framework che integra la modellazione di sistemi dinamici non lineari con le reti neurali profonde. Ispirato dalla modellazione dinamica empirica (EDM) e radicato nel teorema di Takens, DeepEDM presenta un nuovo modello profondo che apprende uno spazio latente da embedding ritardati nel tempo e utilizza la regressione kernel per approssimare le dinamiche sottostanti, sfruttando un'implementazione efficiente dell'attenzione softmax e consentendo previsioni accurate di passi temporali futuri. Per valutare il nostro metodo, conduciamo esperimenti completi su dati sintetici di sistemi dinamici non lineari e su serie temporali reali in vari domini. I nostri risultati dimostrano che DeepEDM è robusto al rumore in ingresso e supera i metodi all'avanguardia in termini di accuratezza di previsione. Il nostro codice è disponibile all'indirizzo: https://abrarmajeedi.github.io/deep_edm.
I recenti modelli linguistici di grandi dimensioni basati sul deep thinking spesso ragionano in modo esteso per migliorare le prestazioni, ma un ragionamento così prolungato non è sempre desiderabile, poiché comporta costi di inferenza eccessivi con guadagni di prestazioni sproporzionati. Controllare la lunghezza del ragionamento senza sacrificare le prestazioni è quindi importante, ma rimane una sfida, specialmente con budget di pensiero limitati. Proponiamo il budget guidance, un metodo semplice ma efficace per orientare il processo di ragionamento dei modelli linguistici verso un budget target senza richiedere alcun fine-tuning del modello. Il nostro approccio introduce un predittore leggero che modella una distribuzione Gamma sulla lunghezza residua del pensiero durante la generazione del token successivo. Questo segnale viene quindi utilizzato per guidare la generazione in modo soft, a livello di token, garantendo che la traccia complessiva del ragionamento rispetti il budget di pensiero specificato. Il budget guidance consente un controllo naturale della lunghezza del pensiero, insieme a significativi miglioramenti nell'efficienza dei token rispetto ai metodi di base su benchmark matematici impegnativi. Ad esempio, raggiunge un aumento di accuratezza fino al 26% sul benchmark MATH-500 con budget ristretti rispetto ai metodi di base, mantenendo un'accuratezza competitiva con solo il 63% dei token di pensiero utilizzati dal modello a pieno ragionamento. Il budget guidance si generalizza anche a domini di task più ampi e mostra capacità emergenti, come la stima della difficoltà delle domande. Il codice sorgente è disponibile all'indirizzo: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
L'apprendimento autoregolato (SRL) è fondamentale per gli studenti universitari che affrontano crescenti richieste accademiche e maggiore indipendenza. Competenze SRL insufficienti possono portare a abitudini di studio disorganizzate, bassa motivazione e scarsa gestione del tempo, compromettendo la capacità degli studenti di prosperare in ambienti impegnativi. Attraverso uno studio formativo che ha coinvolto 59 studenti universitari, abbiamo identificato le principali sfide che gli studenti incontrano nello sviluppo delle competenze SRL, tra cui difficoltà nella definizione degli obiettivi, nella gestione del tempo e nell'apprendimento riflessivo. Per affrontare queste sfide, introduciamo SRLAgent, un sistema assistito da LLM che promuove le competenze SRL attraverso la gamification e il supporto adattivo offerto dai grandi modelli linguistici (LLM). Basato sul framework SRL a tre fasi di Zimmerman, SRLAgent consente agli studenti di impegnarsi nella definizione degli obiettivi, nell'esecuzione delle strategie e nella riflessione personale all'interno di un ambiente interattivo basato sul gioco. Il sistema offre feedback in tempo reale e scaffolding supportato da LLM per sostenere gli sforzi di studio indipendenti degli studenti. Abbiamo valutato SRLAgent utilizzando un disegno tra soggetti, confrontandolo con un sistema di base (SRL senza funzionalità Agent) e una condizione tradizionale di apprendimento multimediale. I risultati hanno mostrato miglioramenti significativi nelle competenze SRL nel gruppo SRLAgent (p < .001, d di Cohen = 0.234) e un maggiore coinvolgimento rispetto ai sistemi di base. Questo lavoro evidenzia il valore dell'integrazione di scaffolding SRL e supporto AI in tempo reale all'interno di ambienti gamificati, offrendo implicazioni progettuali per le tecnologie educative che mirano a promuovere un apprendimento più profondo e lo sviluppo di competenze metacognitive.
Mentre i modelli linguistici sono sempre più utilizzati nella scienza dei materiali, i modelli tipici si basano su metodi di tokenizzazione centrati sulla frequenza originariamente sviluppati per l'elaborazione del linguaggio naturale. Tuttavia, questi metodi spesso producono una frammentazione eccessiva e una perdita semantica, non riuscendo a mantenere l'integrità strutturale e semantica dei concetti relativi ai materiali. Per affrontare questo problema, proponiamo MATTER, un nuovo approccio di tokenizzazione che integra la conoscenza dei materiali nel processo di tokenizzazione. Basato su MatDetector addestrato sulla nostra base di conoscenza dei materiali e su un metodo di riordinamento che privilegia i concetti relativi ai materiali nella fusione dei token, MATTER mantiene l'integrità strutturale dei concetti di materiale identificati e previene la frammentazione durante la tokenizzazione, garantendo che il loro significato semantico rimanga intatto. I risultati sperimentali dimostrano che MATTER supera i metodi di tokenizzazione esistenti, ottenendo un miglioramento medio delle prestazioni del 4% e del 2% rispettivamente nei compiti di generazione e classificazione. Questi risultati sottolineano l'importanza della conoscenza del dominio per le strategie di tokenizzazione nell'elaborazione di testi scientifici. Il nostro codice è disponibile all'indirizzo https://github.com/yerimoh/MATTER.
L'addestramento di grandi reti neurali con backpropagation end-to-end crea significativi colli di bottiglia nella memoria, limitando l'accessibilità alla ricerca all'avanguardia nell'IA. Proponiamo DiffusionBlocks, un nuovo framework di addestramento che interpreta i blocchi delle reti neurali come operazioni di denoising in un processo di diffusione a tempo continuo. Suddividendo la rete in blocchi addestrabili in modo indipendente e ottimizzando l'assegnazione dei livelli di rumore basata sulla massa di probabilità cumulativa uguale, il nostro approccio raggiunge una significativa efficienza di memoria mantenendo prestazioni competitive rispetto alla backpropagation tradizionale nei task generativi. Esperimenti su task di generazione di immagini e modellazione del linguaggio dimostrano una riduzione della memoria proporzionale al numero di blocchi, raggiungendo al contempo prestazioni superiori. DiffusionBlocks offre una promettente via per democratizzare l'accesso all'addestramento di reti neurali su larga scala con risorse computazionali limitate.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato nuove possibilità per un'analisi delle serie temporali accurata ed efficiente, ma i lavori precedenti spesso richiedevano un pesante fine-tuning e/o ignoravano le correlazioni tra le serie. In questo lavoro, esploriamo strategie semplici e flessibili basate su prompt che consentono agli LLM di eseguire previsioni sulle serie temporali senza un ampio riaddestramento o l'uso di un'architettura esterna complessa. Attraverso l'esplorazione di metodi di prompting specializzati che sfruttano la decomposizione delle serie temporali, la tokenizzazione basata su patch e l'aumento dei vicini basato sulla similarità, scopriamo che è possibile migliorare la qualità delle previsioni degli LLM mantenendo la semplicità e richiedendo una pre-elaborazione minima dei dati. A tal fine, proponiamo il nostro metodo, PatchInstruct, che consente agli LLM di effettuare previsioni precise ed efficaci.
Studiamo la summarizzazione multimodale per video didattici, il cui obiettivo è fornire agli utenti un modo efficiente per apprendere competenze sotto forma di istruzioni testuali e frame video chiave. Osserviamo che i benchmark esistenti si concentrano sulla summarizzazione video generica a livello semantico e non sono adatti a fornire istruzioni eseguibili passo-passo e illustrazioni, entrambe cruciali per i video didattici. Proponiamo un nuovo benchmark per la summarizzazione di video didattici sull'interfaccia utente (UI) per colmare questa lacuna. Abbiamo raccolto un dataset di 2.413 video didattici sull'UI, che coprono oltre 167 ore. Questi video sono stati annotati manualmente per la segmentazione video, la summarizzazione testuale e la summarizzazione video, consentendo valutazioni complete per una summarizzazione video concisa ed eseguibile. Abbiamo condotto esperimenti estensivi sul nostro dataset MS4UI, che suggeriscono come i metodi di summarizzazione multimodale all'avanguardia abbiano difficoltà con la summarizzazione di video sull'UI, evidenziando l'importanza di nuovi metodi per la summarizzazione di video didattici sull'interfaccia utente.
In un'epoca caratterizzata dalla proliferazione di disinformazione e misinformazione online, è fondamentale dotare i lettori degli strumenti per comprendere i contenuti che stanno leggendo. Importanti sforzi in questa direzione si basano su attività di fact-checking manuale o automatico, che possono risultare complesse per affermazioni emergenti con informazioni limitate. Tali scenari possono essere gestiti valutando l'affidabilità e il bias politico della fonte dell'affermazione, ovvero caratterizzando interi organi di informazione piuttosto che singole affermazioni o articoli. Questa è una direzione di ricerca importante ma ancora poco esplorata. Mentre lavori precedenti hanno esaminato contesti linguistici e sociali, noi non analizziamo singoli articoli o informazioni sui social media. Proponiamo invece una metodologia innovativa che emula i criteri utilizzati dai fact-checker professionisti per valutare la veridicità e il bias politico di un intero organo di informazione. Nello specifico, progettiamo una varietà di prompt basati su questi criteri e raccogliamo le risposte da modelli linguistici di grandi dimensioni (LLM), che aggregiamo per formulare previsioni. Oltre a dimostrare miglioramenti significativi rispetto a baseline solide attraverso esperimenti estesi con più LLM, forniamo un'analisi approfondita degli errori relativi all'effetto della popolarità e della regione dei media sulle prestazioni del modello. Inoltre, conduciamo uno studio di ablazione per evidenziare i componenti chiave del nostro dataset che contribuiscono a questi miglioramenti. Per facilitare la ricerca futura, abbiamo rilasciato il nostro dataset e il codice all'indirizzo https://github.com/mbzuai-nlp/llm-media-profiling.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno avuto un impatto significativo su un'ampia gamma di campi, dai domini generali alle aree specializzate. Tuttavia, questi progressi hanno anche aumentato notevolmente il potenziale per utenti malintenzionati di sfruttare prompt dannosi e di jailbreak per attacchi malevoli. Sebbene siano stati compiuti molti sforzi per prevenire prompt dannosi e di jailbreak, proteggere gli LLM da tali attacchi malevoli rimane un compito importante e impegnativo. In questo articolo, proponiamo QGuard, un metodo di protezione semplice ma efficace, che utilizza il prompting a domande per bloccare prompt dannosi in modo zero-shot. Il nostro metodo può difendere gli LLM non solo da prompt dannosi basati su testo, ma anche da attacchi multi-modali con prompt dannosi. Inoltre, diversificando e modificando le domande di protezione, il nostro approccio rimane robusto contro i più recenti prompt dannosi senza necessità di fine-tuning. I risultati sperimentali dimostrano che il nostro modello si comporta in modo competitivo sia su dataset dannosi solo testuali che multi-modali. Inoltre, fornendo un'analisi del prompting a domande, consentiamo un'analisi white-box degli input degli utenti. Crediamo che il nostro metodo offra spunti preziosi per i servizi LLM nel mondo reale per mitigare i rischi di sicurezza associati ai prompt dannosi.
Mentre la rapida proliferazione di telecamere indossabili ha sollevato preoccupazioni significative riguardo alla privacy nei video egocentrici, il lavoro precedente ha in gran parte trascurato le minacce uniche alla privacy per chi indossa la telecamera. Questo studio indaga la domanda centrale: Quante informazioni private su chi indossa la telecamera possono essere dedotte dai video in prima persona? Introduciamo EgoPrivacy, il primo benchmark su larga scala per la valutazione completa dei rischi per la privacy nella visione egocentrica. EgoPrivacy copre tre tipi di privacy (demografica, individuale e situazionale), definendo sette compiti che mirano a recuperare informazioni private che vanno dal dettaglio fine (ad esempio, l'identità di chi indossa la telecamera) a quello più generico (ad esempio, la fascia d'età). Per sottolineare ulteriormente le minacce alla privacy intrinseche alla visione egocentrica, proponiamo il Retrieval-Augmented Attack, una nuova strategia di attacco che sfrutta il recupero ego-to-exo da un pool esterno di video esocentrici per aumentare l'efficacia degli attacchi alla privacy demografica. Viene presentato un confronto esteso dei diversi attacchi possibili in tutti i modelli di minaccia, dimostrando che le informazioni private di chi indossa la telecamera sono altamente suscettibili alla divulgazione. Ad esempio, i nostri risultati indicano che i modelli di base possono compromettere efficacemente la privacy di chi indossa la telecamera anche in contesti zero-shot, recuperando attributi come identità, scena, genere e razza con un'accuratezza del 70-80%. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/williamium3000/ego-privacy.
I modelli linguistici vengono addestrati principalmente su enormi quantità di dati testuali provenienti da Internet, e diventa sempre più importante comprendere questa fonte di dati. I motori di ricerca basati su corrispondenza esatta consentono di effettuare ricerche in grandi corpora testuali -- contando le occorrenze di stringhe e recuperando i documenti che le contengono -- tuttavia, l'elevato overhead di archiviazione ne limita l'applicazione su dati di scala Internet. Presentiamo Infini-gram mini, un sistema efficiente e scalabile in grado di rendere ricercabili corpora testuali di livello petabyte. Basato sulla struttura dati FM-index (Ferragina e Manzini, 2000), che indicizza e comprime il testo simultaneamente, il nostro sistema crea indici con una dimensione pari solo al 44% del corpus. Infini-gram mini migliora notevolmente la migliore implementazione esistente di FM-index in termini di velocità di indicizzazione (18 volte) e uso della memoria sia durante l'indicizzazione (riduzione di 3,2 volte) che durante l'interrogazione (fino a una quantità trascurabile). Abbiamo indicizzato 46TB di testo Internet in 50 giorni con un singolo nodo CPU a 128 core (o 19 ore utilizzando 75 di questi nodi). Mostriamo un importante caso d'uso di Infini-gram mini in un'analisi su larga scala della contaminazione dei benchmark. Abbiamo scoperto che diversi benchmark fondamentali per la valutazione dei modelli linguistici sono pesantemente contaminati nei crawl di Internet (fino al 40% in SQuAD), il che potrebbe portare a una sovrastima delle capacità dei modelli linguistici se addestrati su tali dati. Ospitiamo un bollettino sulla contaminazione dei benchmark per condividere il tasso di contaminazione di molti benchmark fondamentali e contribuiti dalla comunità. Rilasciamo anche un'interfaccia web e un endpoint API per servire interrogazioni di ricerca generiche sugli indici di Infini-gram mini.
I grandi modelli linguistici (LLM) sono tipicamente addestrati tramite la previsione della parola successiva (NWP), che garantisce una forte fluidità superficiale ma spesso manca di supporto per un ragionamento robusto. Proponiamo BOttlenecked next Word exploration (BOW), un nuovo framework di apprendimento per rinforzo (RL) che ripensa la NWP introducendo un collo di bottiglia di ragionamento, in cui un modello di policy genera prima un percorso di ragionamento anziché prevedere direttamente il token successivo, dopodiché un modello giudice congelato prevede la distribuzione del token successivo basandosi esclusivamente su questo percorso di ragionamento. Addestriamo il modello di policy utilizzando GRPO con ricompense che quantificano quanto efficacemente il percorso di ragionamento facilita il recupero della parola successiva. Rispetto ad altre baseline di pre-addestramento continuo, dimostriamo che BOW migliora sia le capacità di ragionamento generale che quelle specifiche per la previsione della parola successiva del modello di base, valutate su vari benchmark. I nostri risultati mostrano che BOW può servire come alternativa efficace e scalabile alla NWP tradizionale.
La previsione di esiti legati alla mortalità a partire da immagini offre la prospettiva di uno screening sanitario accessibile, non invasivo e scalabile. Presentiamo un metodo che sfrutta modelli di base pre-addestrati basati su vision transformer per stimare la durata residua della vita da immagini del viso e dell'intero corpo, insieme a una robusta quantificazione dell'incertezza. Dimostriamo che l'incertezza predittiva varia sistematicamente con la vera durata residua della vita e che questa incertezza può essere efficacemente modellata apprendendo una distribuzione gaussiana per ciascun campione. Il nostro approccio raggiunge un errore assoluto medio (MAE) all'avanguardia di 7,48 anni su un dataset consolidato e migliora ulteriormente a 4,79 e 5,07 anni MAE su due nuovi dataset di qualità superiore, curati e pubblicati in questo lavoro. È importante sottolineare che i nostri modelli forniscono stime di incertezza ben calibrate, come dimostrato da un errore di calibrazione atteso suddiviso in intervalli di 0,62 anni. Sebbene non destinati alla distribuzione clinica, questi risultati evidenziano il potenziale di estrarre segnali rilevanti dal punto di vista medico dalle immagini. Rendiamo disponibili tutto il codice e i dataset per facilitare ulteriori ricerche.
Presentiamo e valutiamo una suite di prompt strutturati proof-of-concept (PoC) progettati per elicitare un ragionamento gerarchico simile a quello umano, guidando i Large Language Models (LLMs) nell'analisi semantica e linguistica di alto livello di manoscritti accademici. I prompt sono mirati a due compiti analitici non banali: identificare affermazioni non supportate nei riassunti (integrità informativa) e segnalare riferimenti pronominali ambigui (chiarezza linguistica). Abbiamo condotto una valutazione sistematica e multi-run su due modelli all'avanguardia (Gemini Pro 2.5 Pro e ChatGPT Plus o3) in diverse condizioni di contesto. I nostri risultati per il compito di integrità informativa rivelano una divergenza significativa nelle prestazioni dei modelli: mentre entrambi i modelli hanno identificato correttamente una testa di frase nominale non supportata (95% di successo), ChatGPT ha fallito sistematicamente (0% di successo) nell'identificare un modificatore aggettivale non supportato che Gemini ha invece correttamente segnalato (95% di successo), sollevando una questione riguardante l'influenza potenziale del ruolo sintattico del target. Per il compito di analisi linguistica, entrambi i modelli hanno performato bene (80-90% di successo) con il contesto completo del manoscritto. In un contesto di solo riassunto, tuttavia, ChatGPT ha raggiunto un tasso di successo perfetto (100%), mentre le prestazioni di Gemini sono state sostanzialmente ridotte. I nostri risultati suggeriscono che il prompting strutturato è una metodologia valida per l'analisi testuale complessa, ma mostrano che le prestazioni dei prompt possono dipendere fortemente dall'interazione tra il modello, il tipo di compito e il contesto, evidenziando la necessità di test rigorosi e specifici per modello.
La ricerca esistente nella generazione automatica di musica si è concentrata principalmente su sistemi end-to-end che producono composizioni complete o continuazioni. Tuttavia, poiché la composizione musicale è tipicamente un processo iterativo, tali sistemi rendono difficile il coinvolgimento in un dialogo bidirezionale tra uomo e macchina, essenziale per la creatività assistita dal computer. In questo studio, affrontiamo il compito di infilling musicale simbolico personalizzabile, multi-traccia, a lungo contesto e controllabile per migliorare il processo di composizione assistita dal computer. Presentiamo MIDI-RWKV, un modello innovativo basato sull'architettura lineare RWKV-7, per abilitare una cocreazione musicale efficiente e coerente su dispositivi edge. Dimostriamo inoltre che MIDI-RWKV consente un metodo efficace di fine-tuning del suo stato iniziale per la personalizzazione in regime di campionamento molto ridotto. Valutiamo MIDI-RWKV e il suo tuning di stato su diverse metriche quantitative e qualitative, e rilasciamo i pesi del modello e il codice su https://github.com/christianazinn/MIDI-RWKV.
Il linguaggio evolve nel tempo, anche nel dominio dell'hate speech, che si trasforma rapidamente seguendo le dinamiche sociali e i cambiamenti culturali. Sebbene la ricerca nel campo dell'NLP abbia indagato l'impatto dell'evoluzione del linguaggio sull'addestramento dei modelli e abbia proposto diverse soluzioni, il suo effetto sul benchmarking dei modelli rimane poco esplorato. Tuttavia, i benchmark sull'hate speech svolgono un ruolo cruciale per garantire la sicurezza dei modelli. In questo articolo, valutiamo empiricamente la robustezza di 20 modelli linguistici attraverso due esperimenti sull'hate speech in evoluzione, dimostrando il disallineamento temporale tra valutazioni statiche e sensibili al tempo. I nostri risultati evidenziano la necessità di benchmark linguistici sensibili al tempo per valutare correttamente e in modo affidabile i modelli linguistici nel dominio dell'hate speech.