Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Qwen3-Omni, un modello multimodale unico che, per la prima volta, mantiene prestazioni all'avanguardia su testo, immagini, audio e video senza alcuna degradazione rispetto alle controparti unimodali. Qwen3-Omni eguaglia le prestazioni dei modelli unimodali della stessa dimensione all'interno della serie Qwen e si distingue particolarmente nei compiti audio. Su 36 benchmark audio e audio-visivi, Qwen3-Omni raggiunge lo stato dell'arte (SOTA) open-source su 32 benchmark e lo SOTA complessivo su 22, superando modelli closed-source robusti come Gemini-2.5-Pro, Seed-ASR e GPT-4o-Transcribe. Qwen3-Omni adotta un'architettura Thinker-Talker MoE che unifica percezione e generazione su testo, immagini, audio e video, producendo testo fluido e parlato naturale in tempo reale. Supporta l'interazione testuale in 119 lingue, la comprensione del parlato in 19 lingue e la generazione del parlato in 10 lingue. Per ridurre la latenza del primo pacchetto nella sintesi in streaming, Talker predice autoregressivamente codec vocali discreti utilizzando uno schema multi-codebook. Sfruttando la capacità rappresentativa di questi codebook, sostituiamo la diffussione a blocchi computazionalmente intensiva con una ConvNet causale leggera, abilitando lo streaming dal primo frame del codec. In contesti di avvio a freddo, Qwen3-Omni raggiunge una latenza teorica end-to-end del primo pacchetto di 234 ms. Per rafforzare ulteriormente il ragionamento multimodale, introduciamo un modello Thinking che ragiona esplicitamente sugli input di qualsiasi modalità. Poiché la comunità di ricerca attualmente manca di un modello generico di descrizione audio, abbiamo fine-tuned Qwen3-Omni-30B-A3B per ottenere Qwen3-Omni-30B-A3B-Captioner, che produce descrizioni dettagliate e con bassa allucinazione per input audio arbitrari. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking e Qwen3-Omni-30B-A3B-Captioner sono rilasciati pubblicamente sotto licenza Apache 2.0.
Definiamo l'Agenzia come la capacità emergente dei sistemi di intelligenza artificiale di funzionare come agenti autonomi in grado di scoprire attivamente problemi, formulare ipotesi e eseguire soluzioni attraverso un impegno autodiretto con ambienti e strumenti. Questa capacità fondamentale segna l'alba dell'Età dell'Agenzia AI, guidata da un cambiamento critico del settore: l'urgente necessità di sistemi AI che non si limitano a pensare, ma lavorano. Mentre l'AI attuale eccelle nel ragionamento e nella generazione di risposte, le industrie richiedono agenti autonomi in grado di eseguire compiti, operare strumenti e produrre risultati nel mondo reale. Man mano che l'intelligenza agentica diventa la caratteristica distintiva che separa i sistemi cognitivi dai lavoratori produttivi, coltivare in modo efficiente l'autonomia delle macchine diventa fondamentale. Gli approcci attuali presuppongono che più dati producano una migliore agenzia, seguendo le tradizionali leggi di scala del modeling linguistico. Noi sfidiamo radicalmente questo paradigma. LIMI (Less Is More for Intelligent Agency) dimostra che l'agenzia segue principi di sviluppo radicalmente diversi. Attraverso un focus strategico sullo sviluppo collaborativo del software e sui flussi di lavoro della ricerca scientifica, mostriamo che un'intelligenza agentica sofisticata può emergere da dimostrazioni minime ma strategicamente curate di comportamento autonomo. Utilizzando solo 78 campioni di addestramento progettati con cura, LIMI raggiunge il 73,5% sui benchmark completi di agenzia, superando nettamente i modelli all'avanguardia: Kimi-K2-Instruct (24,1%), DeepSeek-V3.1 (11,9%), Qwen3-235B-A22B-Instruct (27,5%) e GLM-4.5 (45,1%). Ancora più sorprendente, LIMI dimostra un miglioramento del 53,7% rispetto ai modelli addestrati su 10.000 campioni, raggiungendo un'intelligenza agentica superiore con 128 volte meno campioni. Le nostre scoperte stabiliscono il Principio di Efficienza dell'Agenzia: l'autonomia delle macchine emerge non dall'abbondanza di dati, ma dalla cura strategica di dimostrazioni agentiche di alta qualità.
I recenti progressi nell'inserimento video basati su modelli di diffusione sono impressionanti. Tuttavia, i metodi esistenti si affidano a segnali di controllo complessi ma faticano a mantenere la coerenza del soggetto, limitando la loro applicabilità pratica. In questo articolo, ci concentriamo sul compito di Inserimento Video Senza Maschera e miriamo a risolvere tre sfide chiave: scarsità di dati, equilibrio soggetto-scena e armonizzazione dell'inserimento. Per affrontare la scarsità di dati, proponiamo una nuova pipeline di dati chiamata InsertPipe, che costruisce automaticamente dati cross-pair diversificati. Basandoci sulla nostra pipeline di dati, sviluppiamo OmniInsert, un nuovo framework unificato per l'inserimento video senza maschera a partire da riferimenti di uno o più soggetti. Nello specifico, per mantenere l'equilibrio soggetto-scena, introduciamo un meccanismo di Iniezione di Caratteristiche Specifiche per Condizione, semplice ma efficace, per iniettare distintamente condizioni multi-sorgente, e proponiamo una nuova strategia di Addestramento Progressivo che consente al modello di bilanciare l'iniezione di caratteristiche dai soggetti e dal video sorgente. Nel frattempo, progettiamo una Perdita Focalizzata sul Soggetto per migliorare l'aspetto dettagliato dei soggetti. Per ulteriormente migliorare l'armonizzazione dell'inserimento, proponiamo una metodologia di Ottimizzazione delle Preferenze Inseritive per ottimizzare il modello simulando le preferenze umane, e incorporiamo un modulo di Riformulazione Consapevole del Contesto durante il riferimento per integrare in modo fluido il soggetto nelle scene originali. Per affrontare la mancanza di un benchmark nel campo, introduciamo InsertBench, un benchmark completo che comprende scene diversificate con soggetti selezionati meticolosamente. La valutazione su InsertBench indica che OmniInsert supera le soluzioni commerciali closed-source all'avanguardia. Il codice verrà rilasciato.
Presentiamo Meta Agents Research Environments (ARE), una piattaforma di ricerca per la creazione scalabile di ambienti, l'integrazione di applicazioni sintetiche o reali e l'esecuzione di orchestrazioni agentiche. ARE fornisce astrazioni semplici per costruire ambienti complessi e diversificati, ciascuno con le proprie regole, strumenti, contenuti e verificatori, contribuendo a colmare il divario tra lo sviluppo dei modelli e il dispiegamento nel mondo reale. Proponiamo inoltre Gaia2, un benchmark costruito in ARE e progettato per misurare le capacità generali degli agenti. Oltre alla ricerca e all'esecuzione, Gaia2 richiede agli agenti di gestire ambiguità e rumore, adattarsi a ambienti dinamici, collaborare con altri agenti e operare sotto vincoli temporali. A differenza dei benchmark precedenti, Gaia2 funziona in modo asincrono, portando alla luce nuovi modi di fallimento che sono invisibili in contesti statici. I nostri esperimenti dimostrano che nessun sistema domina l'intero spettro dell'intelligenza: un ragionamento più forte spesso comporta un costo in termini di efficienza, e le curve di scalabilità del budget raggiungono un plateau, evidenziando la necessità di nuove architetture e strategie di calcolo adattive. Forse ancora più importante, le astrazioni di ARE consentono l'estensione continua di Gaia2 ad altri ambienti, permettendo alla comunità di creare rapidamente nuovi benchmark su misura per i propri domini. Nella seconda metà dell'IA, il progresso dipende sempre più dalla definizione di compiti significativi e valutazioni robuste per spingere avanti le capacità di frontiera.
Nonostante il crescente interesse nel replicare il successo scalabile dei grandi modelli linguistici (LLM) nei sistemi di ricerca e raccomandazione industriali, la maggior parte degli sforzi industriali esistenti rimane limitata al trapianto delle architetture Transformer, che portano solo miglioramenti incrementali rispetto ai robusti Modelli di Raccomandazione con Apprendimento Profondo (DLRM). Da una prospettiva di principi primi, le svolte degli LLM derivano non solo dalle loro architetture, ma anche da due meccanismi complementari: l'ingegneria del contesto, che arricchisce le query di input grezze con segnali contestuali per sfruttare meglio le capacità del modello, e il ragionamento multi-step, che affina iterativamente gli output del modello attraverso percorsi di ragionamento intermedi. Tuttavia, questi due meccanismi e il loro potenziale di sbloccare miglioramenti sostanziali rimangono in gran parte inesplorati nei sistemi di ranking industriali. In questo articolo, proponiamo OnePiece, un framework unificato che integra in modo fluido l'ingegneria del contesto e il ragionamento in stile LLM sia nei modelli di retrieval che di ranking delle pipeline a cascata industriali. OnePiece è costruito su un'architettura puramente Transformer e introduce tre innovazioni chiave: (1) l'ingegneria del contesto strutturata, che arricchisce la cronologia delle interazioni con segnali di preferenza e scenario e li unisce in una sequenza di input tokenizzata strutturata per sia il retrieval che il ranking; (2) il ragionamento latente a blocchi, che equipaggia il modello con un affinamento multi-step delle rappresentazioni e scala la larghezza di banda del ragionamento attraverso la dimensione del blocco; (3) l'addestramento progressivo multi-task, che sfrutta le catene di feedback degli utenti per supervisionare efficacemente i passi di ragionamento durante l'addestramento. OnePiece è stato implementato nello scenario principale di ricerca personalizzata di Shopee e ottiene guadagni online consistenti su diverse metriche chiave di business, tra cui oltre +2% di GMV/UU e un aumento del +2,90% delle entrate pubblicitarie.
Questo articolo introduce TempSamp-R1, un nuovo framework di fine-tuning basato su rinforzo progettato per migliorare l'efficacia dell'adattamento di modelli linguistici multimodali di grandi dimensioni (MLLMs) ai compiti di temporal grounding video. Dimostriamo che i metodi esistenti di apprendimento per rinforzo, come l'ottimizzazione della politica relativa di gruppo (GRPO), si basano su campionamenti on-policy per aggiornare le politiche. Tuttavia, nei compiti con ampi spazi di ricerca temporali, questa strategia diventa sia inefficiente che limitata in termini di prestazioni, poiché spesso non riesce a identificare soluzioni temporalmente accurate. Per affrontare questa limitazione, TempSamp-R1 sfrutta annotazioni ground-truth come supervisione off-policy per fornire una guida temporalmente precisa, compensando efficacemente la scarsità e il disallineamento delle soluzioni on-policy. Per stabilizzare ulteriormente l'addestramento e ridurre la varianza negli aggiornamenti basati su ricompense, TempSamp-R1 introduce un metodo di calcolo non lineare del vantaggio soft che rimodella dinamicamente il feedback delle ricompense attraverso una trasformazione asimmetrica. Utilizzando un paradigma di addestramento ibrido Chain-of-Thought (CoT), TempSamp-R1 ottimizza un unico modello unificato per supportare sia modalità di inferenza CoT che non-CoT, consentendo una gestione efficiente di query con diversa complessità di ragionamento. I risultati sperimentali dimostrano che TempSamp-R1 supera i baseline basati su GRPO, stabilendo nuove prestazioni state-of-the-art su dataset di riferimento: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) e QVHighlights (mAP: 30.0%, +3.0%). Inoltre, TempSamp-R1 mostra robuste capacità di generalizzazione few-shot con dati limitati. Codice: https://github.com/HVision-NKU/TempSamp-R1
In questo articolo, proponiamo VideoFrom3D, un nuovo framework per la sintesi di video di scene 3D di alta qualità a partire da una geometria approssimativa, una traiettoria della telecamera e un'immagine di riferimento. Il nostro approccio semplifica il flusso di lavoro del design grafico 3D, consentendo un'esplorazione flessibile del design e una rapida produzione di risultati. Un approccio diretto per sintetizzare un video da una geometria approssimativa potrebbe condizionare un modello di diffusione video sulla struttura geometrica. Tuttavia, i modelli di diffusione video esistenti faticano a generare risultati ad alta fedeltà per scene complesse a causa della difficoltà di modellare congiuntamente la qualità visiva, il movimento e la coerenza temporale. Per affrontare questo problema, proponiamo un framework generativo che sfrutta i punti di forza complementari dei modelli di diffusione di immagini e video. Nello specifico, il nostro framework è composto da un modulo di Generazione di Viste Ancora Sparse (SAG) e da un modulo di Interpolazione Generativa Guidata dalla Geometria (GGI). Il modulo SAG genera viste ancora di alta qualità e coerenti tra le diverse prospettive utilizzando un modello di diffusione di immagini, supportato da un Campionamento Guidato dall'Aspetto Sparse. Basandosi su queste viste ancora, il modulo GGI interpola fedelmente i fotogrammi intermedi utilizzando un modello di diffusione video, potenziato dal controllo della telecamera basato sul flusso e dalla guida strutturale. È importante notare che entrambi i moduli operano senza alcun dataset accoppiato di modelli di scene 3D e immagini naturali, che è estremamente difficile da ottenere. Esperimenti completi dimostrano che il nostro metodo produce video di scene di alta qualità e coerenti nello stile in scenari diversi e impegnativi, superando le baseline semplici ed estese.
L'apprendimento per rinforzo online (RL) è stato fondamentale per il post-addestramento dei modelli linguistici, ma la sua estensione ai modelli di diffusione rimane impegnativa a causa delle verosimiglianze intrattabili. Recenti lavori discretizzano il processo di campionamento inverso per abilitare un addestramento di tipo GRPO, ma ereditano limitazioni fondamentali, tra cui restrizioni del risolutore, incoerenza tra processi diretti e inversi, e una complessa integrazione con la guida senza classificatore (CFG). Introduciamo Diffusion Negative-aware FineTuning (DiffusionNFT), un nuovo paradigma di RL online che ottimizza i modelli di diffusione direttamente sul processo diretto tramite il flow matching. DiffusionNFT contrappone generazioni positive e negative per definire una direzione implicita di miglioramento della politica, incorporando naturalmente i segnali di rinforzo nell'obiettivo di apprendimento supervisionato. Questa formulazione consente l'addestramento con risolutori arbitrari a scatola chiusa, elimina la necessità di stima della verosimiglianza e richiede solo immagini pulite anziché traiettorie di campionamento per l'ottimizzazione della politica. DiffusionNFT è fino a 25 volte più efficiente di FlowGRPO in confronti diretti, pur essendo privo di CFG. Ad esempio, DiffusionNFT migliora il punteggio GenEval da 0,24 a 0,98 entro 1k passi, mentre FlowGRPO raggiunge 0,95 con oltre 5k passi e l'impiego aggiuntivo di CFG. Sfruttando modelli di ricompensa multipli, DiffusionNFT migliora significativamente le prestazioni di SD3.5-Medium in ogni benchmark testato.
Presentiamo SWE-Bench Pro, un benchmark sostanzialmente più impegnativo che si basa sulle migliori pratiche di SWE-BENCH [25], ma è esplicitamente progettato per catturare problemi realistici, complessi e di livello aziendale che vanno oltre lo scopo di SWE-BENCH. SWE-BENCH PRO contiene 1.865 problemi provenienti da un insieme diversificato di 41 repository attivamente mantenuti, che spaziano tra applicazioni aziendali, servizi B2B e strumenti per sviluppatori. Il benchmark è suddiviso in un set pubblico con accesso aperto ai problemi provenienti da 11 repository, un set riservato di 12 repository e un set commerciale di 18 repository proprietari per i quali abbiamo accordi di partnership formali con startup in fase iniziale. I problemi nei set riservato e commerciale non sono accessibili pubblicamente, ma rilasciamo i risultati sul set commerciale. Il nostro benchmark include task a lungo termine che possono richiedere ore o giorni per essere completati da un ingegnere del software professionale, spesso coinvolgendo patch su più file e modifiche sostanziali al codice. Tutti i task sono verificati da esseri umani e arricchiti con un contesto sufficiente per garantirne la risolvibilità. Nella nostra valutazione di modelli di codifica ampiamente utilizzati, sotto un'impalcatura unificata, osserviamo che le loro prestazioni su SWE-Bench PRO rimangono al di sotto del 25% (Pass@1), con GPT-5 che raggiunge il punteggio più alto finora al 23,3%. Per comprendere meglio queste limitazioni, raggruppiamo le modalità di fallimento osservate nelle traiettorie degli agenti raccolte per una caratterizzazione più chiara dei modelli di errore esibiti dai modelli attuali. Nel complesso, SWE-BENCH PRO fornisce un banco di prova resistente alla contaminazione che cattura in modo più fedele la complessità e la diversità dello sviluppo software nel mondo reale, avanzando la ricerca di agenti di ingegneria del software veramente autonomi a livello professionale.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) hanno esteso la lunghezza dei contesti, consentendo agli assistenti di mantenere storie lunghe per risposte coerenti e personalizzate. Questa capacità, tuttavia, dipende dalla memorizzazione chiave-valore (KV), la cui memoria cresce linearmente con la lunghezza del dialogo e diventa rapidamente dominante sotto vincoli di risorse rigidi. Una linea di ricerca attiva per ridurre questo sovraccarico è la compressione della cache KV, che mira a limitare la dimensione della cache preservando l'accuratezza. Tuttavia, i metodi esistenti affrontano due limitazioni principali: (i) l'eliminazione delle voci dopo il prefill del contesto completo causa un picco di memoria illimitato, e (ii) l'eliminazione dipendente dalla query restringe la cache a una singola query, portando a un'accuratezza degradata nelle conversazioni multi-turn. Introduciamo EpiCache, un framework di gestione della cache KV senza addestramento per il question answering conversazionale lungo (LongConvQA) sotto budget di memoria fissi. EpiCache limita la crescita della cache attraverso il prefill a blocchi e preserva il contesto rilevante per l'argomento tramite la compressione episodica KV, che raggruppa la storia della conversazione in episodi coerenti e applica l'eliminazione della cache KV specifica per episodio. Progettiamo inoltre una strategia adattiva di allocazione del budget a livello di layer che misura la sensibilità di ciascun layer all'eliminazione e distribuisce il budget di memoria tra i layer di conseguenza. Su tre benchmark LongConvQA, EpiCache migliora l'accuratezza fino al 40% rispetto ai baselines recenti, mantiene un'accuratezza KV quasi completa sotto compressioni di 4-6x, e riduce la latenza e la memoria fino a 2.4x e 3.5x, consentendo così un'interazione multi-turn efficiente sotto vincoli di risorse rigidi.
I recenti progressi nell'apprendimento per rinforzo (RL) hanno potenziato le capacità di ragionamento dei grandi modelli linguistici (LLMs), ma l'impatto sui modelli linguistici multimodali (MLLMs) è limitato. In particolare, in compiti ad alta intensità visiva come il ragionamento geometrico, gli MLLMs generano frequentemente allucinazioni, portando a ragionamenti inaccurati. Attribuiamo ciò al collo di bottiglia percettivo negli MLLMs, che limita i benefici dell'addestramento al ragionamento. Per quantificare questo fenomeno, abbiamo progettato un benchmark di domande e risposte sulla percezione geometrica (GeoPQA), focalizzato su concetti geometrici di base e relazioni spaziali. Gli esperimenti su GeoPQA rivelano significative carenze degli MLLMs nella percezione visiva, che limitano i segnali di ricompensa RL per un addestramento efficace. Per affrontare questo collo di bottiglia, proponiamo un framework di addestramento RL in due fasi, migliorando prima la percezione visiva delle strutture geometriche e poi potenziando le capacità di ragionamento. Applicato a Qwen2.5-VL-3B-Instruct, il nostro addestramento in due fasi migliora il ragionamento geometrico del 9,7% e la risoluzione di problemi geometrici del 9,1%, rispetto all'approccio di addestramento diretto al ragionamento. Il nostro metodo si generalizza anche ad altri domini ad alta intensità visiva come la comprensione delle figure, evidenziando l'importanza del grounding percettivo per un ragionamento efficace negli MLLMs.
Conduciamo una valutazione su scala moderata, in una certa misura priva di contaminazioni, dei modelli di ragionamento su larga scala (LRM) attuali, con alcuni risultati preliminari. Rilasciamo inoltre ROME, il nostro benchmark di valutazione per modelli linguistici visivi progettato per testare il ragionamento a partire da indizi visivi. Sul sito web https://flageval-baai.github.io/LRM-Eval/ sono disponibili i link al benchmark, ai dati di valutazione e ad altri aggiornamenti.
I modelli linguistici di grandi dimensioni (LLM) acquisiscono una conoscenza sostanziale del mondo durante il pre-addestramento, che viene ulteriormente modellata da tecniche post-addestramento come il fine-tuning supervisionato (SFT). Tuttavia, l'impatto dell'SFT sulla conoscenza del modello rimane poco esplorato, limitando la nostra capacità di controllare il comportamento del cambiamento di conoscenza nei modelli fine-tuned. Per colmare questa lacuna, valutiamo le prestazioni di risposta a domande a libro chiuso (CBQA) su cinque LLM delle famiglie LLaMA-2 e LLaMA-3. Sorprendentemente, i modelli fine-tuned su 1.920 campioni performano fino al 14% peggio rispetto a quelli fine-tuned su soli 240 campioni. Inoltre, variare il livello di padronanza della conoscenza nei dati di fine-tuning porta a fluttuazioni delle prestazioni superiori al 12%. Per indagare questi effetti, analizziamo il comportamento del modello sia a livello di token che di parametri. La nostra analisi rivela che fino al 90% degli aggiornamenti dei parametri durante l'SFT non contribuisce al miglioramento della conoscenza. Ripristinare questi aggiornamenti può migliorare le prestazioni nel task CBQA, a seconda delle caratteristiche dei dati di fine-tuning. Queste intuizioni offrono una guida pratica per sviluppare strategie di fine-tuning che rafforzino più efficacemente la conoscenza del modello.
Questo articolo introduce ByteWrist, un innovativo polso parallelo altamente flessibile e antropomorfo per la manipolazione robotica. ByteWrist affronta le limitazioni critiche dei polsi seriali e paralleli esistenti nelle operazioni in spazi ristretti attraverso un meccanismo di azionamento parallelo compatto a tre stadi integrato con collegamenti terminali ad arco. Il design consente un preciso movimento RPY (Roll-Pitch-Yaw) mantenendo un'eccezionale compattezza, rendendolo particolarmente adatto per ambienti complessi e non strutturati come l'assistenza domestica, l'assistenza medica e l'assemblaggio di precisione. Le innovazioni chiave includono: (1) collegamenti motorizzati a tre stadi annidati che minimizzano il volume consentendo un controllo multi-DOF indipendente, (2) collegamenti terminali ad arco che ottimizzano la trasmissione della forza e ampliano la gamma di movimento, e (3) una sfera di supporto centrale che funge da giunto sferico, migliorando la rigidità strutturale senza compromettere la flessibilità. Nel frattempo, presentiamo una modellazione cinematica completa che include la cinematica diretta/inversa e una soluzione numerica del Jacobiano per un controllo preciso. Empiricamente, osserviamo che ByteWrist dimostra prestazioni eccellenti nella manovrabilità in spazi ristretti e nei compiti di manipolazione cooperativa a due bracci, superando i sistemi basati su Kinova. I risultati indicano miglioramenti significativi in termini di compattezza, efficienza e rigidità rispetto ai design tradizionali, stabilendo ByteWrist come una soluzione promettente per la manipolazione robotica di prossima generazione in ambienti vincolati.
Gli sviluppatori di modelli linguistici di grandi dimensioni (LLM) mirano a creare modelli onesti, utili e innocui. Tuttavia, di fronte a richieste maligne, i modelli sono addestrati a rifiutare, sacrificando l'utilità. Dimostriamo che i LLM più avanzati possono sviluppare una preferenza per la disonestà come nuova strategia, anche quando sono disponibili altre opzioni. I modelli affetti rispondono a richieste dannose con output che sembrano nocivi ma che in pratica sono sottilmente errati o comunque innocui. Questo comportamento emerge con variazioni difficili da prevedere anche all'interno di modelli della stessa famiglia. Non troviamo una causa apparente per la propensione a ingannare, ma dimostriamo che i modelli più capaci sono migliori nell'eseguire questa strategia. La disonestà strategica ha già un impatto pratico sulle valutazioni di sicurezza, poiché dimostriamo che le risposte disoneste ingannano tutti i monitor basati sugli output utilizzati per rilevare i jailbreak che testiamo, rendendo inaffidabili i punteggi dei benchmark. Inoltre, la disonestà strategica può agire come una trappola contro gli utenti malintenzionati, oscurando in modo evidente precedenti attacchi di jailbreak. Mentre i monitor degli output falliscono, dimostriamo che le sonde lineari sulle attivazioni interne possono essere utilizzate per rilevare in modo affidabile la disonestà strategica. Validiamo le sonde su dataset con esiti verificabili e utilizzando le loro caratteristiche come vettori di direzione. Nel complesso, consideriamo la disonestà strategica come un esempio concreto di una preoccupazione più ampia: l'allineamento degli LLM è difficile da controllare, specialmente quando utilità e innocuità entrano in conflitto.
I modelli universali di embedding multimodale hanno ottenuto un grande successo nel catturare la rilevanza semantica tra query e candidati. Tuttavia, i metodi attuali condensano le query e i candidati in un singolo vettore, limitando potenzialmente l'espressività per informazioni dettagliate, oppure producono troppi vettori che risultano proibitivamente costosi per il recupero multi-vettore. In questo lavoro, introduciamo MetaEmbed, un nuovo framework per il recupero multimodale che ripensa la costruzione e l'interazione degli embedding multimodali su larga scala. Durante l'addestramento, un numero fisso di Meta Token apprendibili viene aggiunto alla sequenza di input. Al momento del test, le loro rappresentazioni contestualizzate dell'ultimo strato fungono da embedding multi-vettore compatti ma espressivi. Attraverso il training proposto per il Recupero Multi-Vettore Matryoshka, MetaEmbed impara a organizzare le informazioni per granularità attraverso più vettori. Di conseguenza, abilitiamo il ridimensionamento al momento del test nel recupero multimodale, dove gli utenti possono bilanciare la qualità del recupero rispetto alle esigenze di efficienza selezionando il numero di token utilizzati per l'indicizzazione e le interazioni di recupero. Valutazioni estensive sul Massive Multimodal Embedding Benchmark (MMEB) e sul Visual Document Retrieval Benchmark (ViDoRe) confermano che MetaEmbed raggiunge prestazioni di recupero all'avanguardia, ridimensionandosi in modo robusto a modelli con 32 miliardi di parametri.
L'adozione diffusa dei Large Language Model (LLM) è stata ostacolata dalla loro tendenza a generare allucinazioni, producendo informazioni plausibili ma fattualmente errate. Sebbene i sistemi di Retrieval-Augmented Generation (RAG) cerchino di affrontare questo problema ancorando le risposte a conoscenze esterne, le allucinazioni rimangono una sfida persistente, specialmente per lingue morfologicamente complesse e a bassa risorsa come il turco. Questo articolo introduce Turk-LettuceDetect, la prima suite di modelli di rilevamento delle allucinazioni specificamente progettata per applicazioni RAG in turco. Basandoci sul framework LettuceDetect, formuliamo il rilevamento delle allucinazioni come un compito di classificazione a livello di token e ottimizziamo tre distinte architetture di encoder: un ModernBERT specifico per il turco, TurkEmbed4STS e un EuroBERT multilingue. Questi modelli sono stati addestrati su una versione tradotta automaticamente del dataset di benchmark RAGTruth, contenente 17.790 istanze relative a compiti di risposta a domande, generazione da dati a testo e riassunto. I nostri risultati sperimentali mostrano che il modello basato su ModernBERT raggiunge un punteggio F1 di 0,7266 sull'intero set di test, con prestazioni particolarmente forti sui compiti strutturati. I modelli mantengono un'efficienza computazionale pur supportando contesti lunghi fino a 8.192 token, rendendoli adatti per il dispiegamento in tempo reale. L'analisi comparativa rivela che, sebbene gli LLM all'avanguardia dimostrino un alto richiamo, soffrono di una bassa precisione a causa della sovragenerazione di contenuti allucinati, sottolineando la necessità di meccanismi di rilevamento specializzati. Rilasciando i nostri modelli e il dataset tradotto, questo lavoro colma una lacuna critica nell'NLP multilingue e getta le basi per lo sviluppo di applicazioni AI più affidabili e sicure per il turco e altre lingue.
La richiesta di un'implementazione efficiente di modelli linguistici di grandi dimensioni (LLM) ha stimolato l'interesse verso la quantizzazione, che riduce i costi di inferenza, e il fine-tuning efficiente in termini di parametri (PEFT), che abbassa l'overhead di addestramento. Ciò ha motivato lo sviluppo di PEFT consapevole della quantizzazione per produrre modelli quantizzati accurati ed efficienti. In questo contesto, ridurre l'errore di quantizzazione prima del fine-tuning è cruciale per ottenere un'elevata accuratezza del modello. Tuttavia, i metodi esistenti che si basano sull'adattamento a basso rango soffrono di una capacità rappresentativa limitata. Gli adattatori basati su trasformate di Fourier (FT) recenti offrono una maggiore potenza rappresentativa rispetto agli adattatori a basso rango, ma la loro integrazione diretta nei modelli quantizzati spesso risulta in una riduzione inefficace degli errori e in un aumento dell'overhead computazionale. Per superare queste limitazioni, proponiamo QWHA, un metodo che integra adattatori basati su FT nei modelli quantizzati utilizzando la Trasformata di Walsh-Hadamard (WHT) come nucleo di trasformazione, insieme a un nuovo schema di inizializzazione degli adattatori che incorpora la selezione adattativa dei parametri e il perfezionamento dei valori. Dimostriamo che QWHA mitiga efficacemente gli errori di quantizzazione facilitando il fine-tuning e che il suo design riduce sostanzialmente il costo computazionale. I risultati sperimentali mostrano che QWHA supera costantemente i metodi di riferimento in termini di accuratezza nella quantizzazione a basso numero di bit e ottiene significativi miglioramenti nella velocità di addestramento rispetto agli adattatori basati su FT esistenti. Il codice è disponibile all'indirizzo https://github.com/vantaa89/qwha.
Le interfacce grafiche utente (GUI) rappresentano il principale mezzo di interazione uomo-computer, ma l'automazione delle interazioni con le GUI rimane una sfida a causa della complessità degli elementi visivi, degli ambienti dinamici e della necessità di ragionamenti multi-step. I metodi esistenti basati su modelli visione-linguaggio (VLMs) spesso soffrono di risoluzione limitata, disallineamento di dominio e capacità insufficiente di decisione sequenziale. Per affrontare questi problemi, proponiamo Mano, un agente GUI robusto costruito su un modello fondazionale multi-modale pre-addestrato su un'ampia gamma di dati web e di sistemi informatici. Il nostro approccio integra un nuovo ambiente simulato per la generazione di dati ad alta fedeltà, una pipeline di addestramento in tre fasi (fine-tuning supervisionato, apprendimento per rinforzo offline e apprendimento per rinforzo online) e un modulo di verifica per il recupero degli errori. Mano dimostra prestazioni all'avanguardia su molteplici benchmark GUI, tra cui Mind2Web e OSWorld, ottenendo miglioramenti significativi nel tasso di successo e nella precisione operativa. Il nostro lavoro fornisce nuove intuizioni sull'integrazione efficace dell'apprendimento per rinforzo con i VLMs per il dispiegamento pratico di agenti GUI, evidenziando l'importanza di dati specifici per il dominio, addestramento iterativo e progettazione olistica delle ricompense.
Introduciamo il Synthetic Bootstrapped Pretraining (SBP), una procedura di pre-addestramento per modelli linguistici (LM) che prima apprende un modello delle relazioni tra i documenti del dataset di pre-addestramento e poi lo sfrutta per sintetizzare un vasto nuovo corpus per l'addestramento congiunto. Mentre il pre-addestramento standard insegna ai LM a apprendere correlazioni causali tra token all'interno di un singolo documento, non è progettato per modellare in modo efficiente le ricche e apprendibili correlazioni inter-documento che potenzialmente possono portare a prestazioni migliori. Validiamo SBP progettando un setup di pre-addestramento con calcolo bilanciato e pre-addestriamo un modello da 3 miliardi di parametri su fino a 1 trilione di token da zero. Troviamo che SBP migliora costantemente rispetto a una solida baseline di ripetizione e fornisce una frazione significativa del miglioramento delle prestazioni raggiungibile da un limite superiore oracolare con accesso a 20 volte più dati unici. L'analisi qualitativa rivela che i documenti sintetizzati vanno oltre le semplici parafrasi: SBP prima astrae un concetto centrale dal materiale di partenza e poi costruisce una nuova narrazione su di esso. Oltre a forti prestazioni empiriche, SBP ammette una naturale interpretazione bayesiana: il sintetizzatore apprende implicitamente ad astrarre i concetti latenti condivisi tra documenti correlati.
La modifica di oggetti video senza addestramento mira a ottenere una manipolazione precisa a livello di oggetto, inclusa l'inserzione, lo scambio e la cancellazione di oggetti. Tuttavia, affronta sfide significative nel mantenere la fedeltà e la coerenza temporale. I metodi esistenti, spesso progettati per architetture U-Net, soffrono di due limitazioni principali: l'inversione imprecisa dovuta a risolutori di primo ordine e i conflitti contestuali causati dalla sostituzione "rigida" e approssimativa delle feature. Questi problemi sono più complessi nei Diffusion Transformers (DiTs), dove l'inadeguatezza delle euristiche di selezione dei livelli precedenti rende difficile una guida efficace. Per affrontare queste limitazioni, introduciamo ContextFlow, un nuovo framework senza addestramento per la modifica di oggetti video basato su DiT. Nel dettaglio, utilizziamo prima un risolutore Rectified Flow di ordine superiore per stabilire una solida base di modifica. Il cuore del nostro framework è l'Adaptive Context Enrichment (per specificare cosa modificare), un meccanismo che risolve i conflitti contestuali. Invece di sostituire le feature, arricchisce il contesto di self-attention concatenando coppie Key-Value dai percorsi di ricostruzione e modifica paralleli, consentendo al modello di fondere dinamicamente le informazioni. Inoltre, per determinare dove applicare questo arricchimento (per specificare dove modificare), proponiamo un'analisi sistematica e basata sui dati per identificare i livelli cruciali specifici per il compito. Basandoci su una nuova metrica di Responsiveness della Guida, il nostro metodo individua i blocchi DiT più influenti per diversi compiti (ad esempio, inserzione, scambio), consentendo una guida mirata e altamente efficace. Esperimenti estesi dimostrano che ContextFlow supera significativamente i metodi esistenti senza addestramento e supera persino diversi approcci all'avanguardia basati su addestramento, fornendo risultati temporalmente coerenti e ad alta fedeltà.
La cross-attention è un meccanismo fondamentale nelle architetture encoder-decoder, ampiamente utilizzato in molti campi, incluso l'elaborazione del parlato in testo (S2T). I suoi punteggi sono stati riutilizzati per varie applicazioni downstream, come la stima dei timestamp e l'allineamento audio-testo, presupponendo che riflettano le dipendenze tra la rappresentazione del parlato in input e il testo generato. Sebbene la natura esplicativa dei meccanismi di attenzione sia stata ampiamente dibattuta nella letteratura NLP più generale, questa ipotesi rimane in gran parte inesplorata nel dominio del parlato. Per colmare questa lacuna, valutiamo il potere esplicativo della cross-attention nei modelli S2T confrontando i suoi punteggi con le mappe di salienza dell'input derivate dall'attribuzione delle caratteristiche. La nostra analisi copre modelli monolingue e multilingue, a singolo compito e multi-task, su più scale, e mostra che i punteggi di attenzione si allineano da moderatamente a fortemente con le spiegazioni basate sulla salienza, specialmente quando aggregati tra le teste e i livelli. Tuttavia, mostra anche che la cross-attention cattura solo circa il 50% della rilevanza dell'input e, nel migliore dei casi, riflette solo parzialmente come il decoder presta attenzione alle rappresentazioni dell'encoder, rappresentando solo il 52-75% della salienza. Questi risultati rivelano limitazioni fondamentali nell'interpretare la cross-attention come un proxy esplicativo, suggerendo che offre una visione informativa ma incompleta dei fattori che guidano le previsioni nei modelli S2T.
Il ridimensionamento dei modelli di raccomandazione in modelli di raccomandazione di grandi dimensioni è diventato uno degli argomenti più discussi. Recenti sforzi si concentrano su componenti oltre il ridimensionamento della dimensione degli embedding, poiché si ritiene che il ridimensionamento degli embedding possa portare a un degrado delle prestazioni. Sebbene siano state fatte alcune osservazioni iniziali sugli embedding, la causa principale della loro non scalabilità rimane poco chiara. Inoltre, se il degrado delle prestazioni si verifichi in diversi tipi di modelli e dataset è ancora un'area inesplorata. Per quanto riguarda l'effetto delle dimensioni degli embedding sulle prestazioni, abbiamo condotto esperimenti su larga scala su 10 dataset con diversi livelli di sparsità e scale, utilizzando 4 architetture classiche rappresentative. Abbiamo osservato, con sorpresa, due nuovi fenomeni: il doppio picco e il logaritmico. Per il primo, all'aumentare della dimensione degli embedding, le prestazioni migliorano inizialmente, poi diminuiscono, risalgono e infine calano. Per il secondo, si osserva una perfetta curva logaritmica. I nostri contributi sono tre. Primo, abbiamo scoperto due nuovi fenomeni nel ridimensionamento dei modelli di filtraggio collaborativo. Secondo, abbiamo compreso le cause sottostanti del fenomeno del doppio picco. Infine, abbiamo analizzato teoricamente la robustezza al rumore dei modelli di filtraggio collaborativo, con risultati che corrispondono alle osservazioni empiriche.
Presentiamo Reasoning Core, un nuovo ambiente scalabile per il Reinforcement Learning con Ricompense Verificabili (RLVR), progettato per promuovere il ragionamento simbolico di base nei Modelli Linguistici di Grande Scala (LLMs). A differenza dei benchmark esistenti che si concentrano su giochi o enigmi isolati, Reasoning Core genera proceduralmente problemi in domini formali fondamentali, tra cui la pianificazione PDDL, la logica del primo ordine, il parsing di grammatiche libere dal contesto, il ragionamento causale e la risoluzione di equazioni di sistema. L'ambiente è costruito su principi chiave di progettazione che includono distribuzioni di problemi ad alta generalità, verifica tramite strumenti esterni e controllo continuo della difficoltà, che insieme forniscono una fornitura virtualmente infinita di istanze di addestramento nuove. Le valutazioni iniziali zero-shot con LLMs all'avanguardia confermano la difficoltà dei compiti di Reasoning Core, posizionandolo come una risorsa promettente per migliorare le capacità di ragionamento dei modelli futuri.
Anche senza ascoltare direttamente i suoni, gli esseri umani possono ragionare senza sforzo sulle proprietà uditive, come l'altezza, il volume o le associazioni con la sorgente sonora, attingendo al senso comune uditivo. Al contrario, i modelli linguistici spesso mancano di questa capacità, limitando la loro efficacia nelle interazioni multimodali. Come primo passo per colmare questa lacuna, presentiamo AuditoryBench++, un benchmark completo per valutare la conoscenza e il ragionamento uditivo in contesti basati esclusivamente sul testo. Il benchmark comprende attività che vanno dai confronti uditivi di base al ragionamento contestualmente fondato, consentendo un'analisi granulare di come i modelli elaborano e integrano i concetti uditivi. Inoltre, introduciamo AIR-CoT, un innovativo metodo di ragionamento basato sull'immaginazione uditiva che genera e integra informazioni uditive durante l'inferenza attraverso il rilevamento di span con token speciali e l'iniezione di conoscenza. Esperimenti estesi con recenti LLM e Multimodal LLM dimostrano che AIR-CoT generalmente supera sia i modelli predefiniti che quelli arricchiti con conoscenza uditiva. La pagina del progetto è disponibile all'indirizzo https://auditorybenchpp.github.io.
I recenti progressi nei Large Multi-modal Models (LMM) hanno dimostrato il loro notevole successo come assistenti multi-modali generici, con un particolare focus sulla comprensione olistica di immagini, video e linguaggio. Al contrario, è stata prestata meno attenzione al potenziamento delle capacità di comprensione a livello di pixel, dove i modelli sono chiamati a realizzare un allineamento a livello di pixel tra i segnali visivi e la semantica del linguaggio. Alcuni studi precedenti hanno applicato gli LMM a compiti correlati come la descrizione a livello di regione e la segmentazione di espressioni referenziali. Tuttavia, questi modelli sono limitati a eseguire compiti di riferimento o segmentazione in modo indipendente e non riescono a integrare queste capacità di percezione fine-granularità nel ragionamento visivo. Per colmare questa lacuna, proponiamo UniPixel, un modello multi-modale di grandi dimensioni in grado di comprendere flessibilmente gli input di prompt visivi e generare risposte basate su maschere. Il nostro modello si distingue per l'integrazione senza soluzione di continuità della percezione a livello di pixel con le capacità di comprensione visiva generale. Nello specifico, UniPixel elabora i prompt visivi e genera maschere pertinenti su richiesta, eseguendo successivamente un ragionamento condizionato su questi indicatori intermedi durante l'inferenza, consentendo così un ragionamento fine-granularità a livello di pixel. L'efficacia del nostro approccio è stata verificata su 10 benchmark che coprono un'ampia gamma di compiti, tra cui riferimento/segmentazione a livello di pixel e comprensione centrata sugli oggetti in immagini/video. È stato inoltre progettato un nuovo compito PixelQA che richiede congiuntamente riferimento, segmentazione e risposta a domande per verificare la flessibilità del nostro metodo.
La sicurezza e l'allineamento dei Large Language Models (LLM) sono cruciali per il loro impiego responsabile. I metodi di valutazione attuali si concentrano principalmente sull'identificazione e la prevenzione di output palesemente dannosi. Tuttavia, spesso non riescono a affrontare una modalità di fallimento più insidiosa: modelli che producono output apparentemente innocui mentre operano con un ragionamento interno malizioso o ingannevole. Questa vulnerabilità, spesso innescata da iniezioni sofisticate di prompt di sistema, consente ai modelli di bypassare i filtri di sicurezza convenzionali, rappresentando un rischio significativo e poco esplorato. Per colmare questa lacuna, introduciamo il Deceptive Reasoning Exposure Suite (D-REX), un nuovo dataset progettato per valutare la discrepanza tra il processo di ragionamento interno di un modello e il suo output finale. D-REX è stato costruito attraverso un esercizio competitivo di red-teaming in cui i partecipanti hanno creato prompt di sistema avversari per indurre tali comportamenti ingannevoli. Ogni campione in D-REX contiene il prompt di sistema avversario, una query di test dell'utente finale, la risposta apparentemente innocua del modello e, crucialmente, la catena di pensiero interna del modello, che rivela l'intento malizioso sottostante. Il nostro benchmark facilita un nuovo e essenziale compito di valutazione: il rilevamento dell'allineamento ingannevole. Dimostriamo che D-REX rappresenta una sfida significativa per i modelli e i meccanismi di sicurezza esistenti, evidenziando l'urgente necessità di nuove tecniche che esaminino i processi interni dei LLM, non solo i loro output finali.
I veicoli autonomi all'avanguardia attuali potrebbero trovarsi in situazioni critiche per la sicurezza quando i loro sensori locali sono occlusi da grandi oggetti vicini sulla strada. La guida autonoma cooperativa veicolo-veicolo (V2V) è stata proposta come mezzo per affrontare questo problema, e un framework recentemente introdotto per la guida autonoma cooperativa ha ulteriormente adottato un approccio che incorpora un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per integrare i processi di percezione e pianificazione cooperativa. Tuttavia, nonostante il potenziale beneficio dell'applicazione del ragionamento a grafo di pensieri (graph-of-thoughts) all'MLLM, questa idea non è stata considerata dalla precedente ricerca sulla guida autonoma cooperativa. In questo articolo, proponiamo un nuovo framework a grafo di pensieri specificamente progettato per la guida autonoma cooperativa basata su MLLM. Il nostro grafo di pensieri include le nostre nuove idee di percezione consapevole dell'occlusione e previsione consapevole della pianificazione. Curiamo il dataset V2V-GoT-QA e sviluppiamo il modello V2V-GoT per l'addestramento e il test del grafo di pensieri per la guida cooperativa. I nostri risultati sperimentali dimostrano che il nostro metodo supera altri approcci di riferimento nei compiti di percezione, previsione e pianificazione cooperativa.
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati in vari compiti e applicazioni. Tuttavia, nonostante le loro ampie capacità, è stato dimostrato che mancano di allineamento culturale (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) e producono generazioni distorte (naous-etal-2024-beer) a causa di una mancanza di conoscenza e competenza culturale. La valutazione degli LLM per la consapevolezza e l'allineamento culturale è particolarmente complessa a causa della mancanza di metriche di valutazione adeguate e dell'indisponibilità di dataset culturalmente radicati che rappresentino la vasta complessità delle culture a livello regionale e sub-regionale. I dataset esistenti per gli elementi specifici della cultura (CSI) si concentrano principalmente su concetti a livello regionale e possono contenere falsi positivi. Per affrontare questo problema, introduciamo un nuovo dataset CSI per la cultura indiana, appartenente a 17 aspetti culturali. Il dataset comprende sim8k concetti culturali provenienti da 36 sub-regioni. Per misurare la competenza culturale degli LLM in un compito di adattamento di testi culturali, valutiamo gli adattamenti utilizzando i CSI creati, LLM come giudice e valutazioni umane provenienti da diverse regioni socio-demografiche. Inoltre, eseguiamo un'analisi quantitativa che dimostra una copertura selettiva a livello sub-regionale e adattamenti superficiali in tutti gli LLM considerati. Il nostro dataset è disponibile qui: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, la pagina del progetto \href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, e il nostro codice con gli output del modello può essere trovato qui: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
La stima della profondità stereo subacquea fornisce una geometria 3D accurata per attività robotiche come navigazione, ispezione e mappatura, offrendo una profondità metrica da telecamere passive a basso costo evitando l'ambiguità di scala dei metodi monoculari. Tuttavia, gli approcci esistenti affrontano due sfide critiche: (i) adattare in modo efficiente dal punto di vista parametrico grandi encoder di fondazione visiva al dominio subacqueo senza l'uso di dati etichettati estensivi, e (ii) fondere in modo stretto prior monoculari globalmente coerenti ma ambigui nella scala con corrispondenze stereo localmente metriche ma fotometricamente fragili. Per affrontare queste sfide, proponiamo StereoAdapter, un framework auto-supervisionato efficiente dal punto di vista parametrico che integra un encoder di fondazione monoculare adattato con LoRA con un modulo ricorrente di raffinamento stereo. Introduciamo inoltre un adattamento dinamico LoRA per una selezione efficiente del rango e un pre-addestramento sul dataset sintetico UW-StereoDepth-40K per migliorare la robustezza in diverse condizioni subacquee. Valutazioni complete su benchmark sia simulati che del mondo reale mostrano miglioramenti del 6,11% su TartanAir e del 5,12% su SQUID rispetto ai metodi all'avanguardia, mentre il dispiegamento nel mondo reale con il robot BlueROV2 dimostra ulteriormente la robustezza costante del nostro approccio. Codice: https://github.com/AIGeeksGroup/StereoAdapter. Sito web: https://aigeeksgroup.github.io/StereoAdapter.
Il Reinforcement Learning è emerso come la tecnica fondamentale per migliorare il ragionamento nei Large Language Models (LLMs). Tuttavia, gli algoritmi esistenti applicano un'ottimizzazione uniforme a tutti i token, ignorando i loro diversi ruoli nel processo di ragionamento. Per affrontare questa limitazione, introduciamo l'Heterogeneous Adaptive Policy Optimization (HAPO), un algoritmo completo e consapevole dei token che adatta dinamicamente l'ottimizzazione in base all'entropia dei token. Per il campionamento dei rollout, proponiamo l'Adaptive Temperature Sampling, che regola la temperatura di campionamento in tempo reale, promuovendo l'esplorazione nei token ad alta entropia mentre preserva la coerenza in quelli a bassa entropia. Per il calcolo del vantaggio, introduciamo il Token Level Group Average, che normalizza i vantaggi a livello di token, tenendo conto congiuntamente della lunghezza della sequenza come nella perdita media per token, preservando un trattamento non distorto. Successivamente, sviluppiamo il Differential Advantage Redistribution, che sfrutta l'entropia e i rapporti di importanza per modulare gli aggiornamenti di aggiustamento delle ricompense per i token con segnali chiari. Per la perdita di clipping, progettiamo l'Asymmetric Adaptive Clipping, consentendo una riduzione aggressiva della probabilità per i token rumorosi a bassa entropia mentre abilita l'esplorazione per i token ad alta entropia. Attraverso un'indagine sistematica tra entropia e dinamiche di addestramento, abbiamo integrato il trattamento a livello di token in ogni fase per ottenere un controllo fine. Esperimenti estensivi dimostrano che HAPO supera costantemente il DAPO su più scale di modelli. Il nostro codice è disponibile su https://github.com/starriver030515/HAPO.
Introduciamo il paradigma della perioperazione, un approccio per la raccolta di dati robotici che sensorizza e registra la manipolazione umana massimizzando la trasferibilità dei dati ai robot reali. Implementiamo questo paradigma in DEXOP, un esoscheletro passivo per la mano progettato per massimizzare la capacità umana di raccogliere dati sensoriali ricchi (visione + tattili) per una varietà di compiti di manipolazione manuale in ambienti naturali. DEXOP collega meccanicamente le dita umane a quelle del robot, fornendo agli utenti un feedback diretto del contatto (tramite propriocezione) e riflettendo la postura della mano umana sulla mano passiva del robot per massimizzare il trasferimento delle abilità dimostrate al robot. Il feedback della forza e il mirroring della postura rendono le dimostrazioni dei compiti più naturali per gli esseri umani rispetto alla teleoperazione, aumentando sia la velocità che l'accuratezza. Valutiamo DEXOP su una gamma di compiti manuali ricchi di contatto, dimostrando la sua capacità di raccogliere dati di dimostrazione di alta qualità su larga scala. Le politiche apprese con i dati di DEXOP migliorano significativamente le prestazioni dei compiti per unità di tempo di raccolta dati rispetto alla teleoperazione, rendendo DEXOP uno strumento potente per avanzare la destrezza robotica. La nostra pagina del progetto è disponibile all'indirizzo https://dex-op.github.io.
In questo articolo, affrontiamo le sfide associate alla fusione di adattamenti a basso rango di grandi reti neurali. Con l'ascesa di tecniche di adattamento efficienti in termini di parametri, come il Low-Rank Adaptation (LoRA), il fine-tuning dei modelli è diventato più accessibile. Sebbene il fine-tuning dei modelli con LoRA sia altamente efficiente, i metodi di fusione esistenti spesso sacrificano questa efficienza unendo matrici di pesi di dimensioni complete. Proponiamo il framework di fusione Core Space, che consente la fusione di modelli adattati con LoRA all'interno di una base di allineamento comune, preservando così l'efficienza dell'adattamento a basso rango e migliorando sostanzialmente l'accuratezza su diversi compiti. Forniamo inoltre una dimostrazione formale che la proiezione nello spazio Core garantisce l'assenza di perdita di informazioni e un'analisi della complessità che mostra i guadagni in termini di efficienza. Risultati empirici estesi dimostrano che Core Space migliora significativamente le tecniche di fusione esistenti e raggiunge risultati all'avanguardia sia nei compiti di visione che di linguaggio, utilizzando una frazione delle risorse computazionali. Il codice è disponibile all'indirizzo https://github.com/apanariello4/core-space-merging.
I conflitti di licenza nascosti nell'ecosistema open-source dell'IA rappresentano un serio rischio legale ed etico, esponendo le organizzazioni a potenziali contenziosi e gli utenti a rischi non dichiarati. Tuttavia, il campo manca di una comprensione basata sui dati di quanto frequentemente questi conflitti si verifichino, da dove originino e quali comunità siano maggiormente colpite. Presentiamo la prima verifica end-to-end delle licenze per dataset e modelli su Hugging Face, nonché della loro integrazione downstream in applicazioni software open-source, coprendo 364 mila dataset, 1,6 milioni di modelli e 140 mila progetti GitHub. La nostra analisi empirica rivela una sistematica mancata conformità in cui il 35,5% delle transizioni da modello ad applicazione elimina clausole di licenza restrittive rilicenziando con termini permissivi. Inoltre, prototipiamo un motore di regole estensibile che codifica quasi 200 clausole SPDX e specifiche per modelli per rilevare conflitti di licenza, in grado di risolvere l'86,4% dei conflitti di licenza nelle applicazioni software. Per supportare la ricerca futura, rilasciamo il nostro dataset e il motore prototipo. Il nostro studio evidenzia la conformità alle licenze come una sfida di governance critica nell'IA open-source e fornisce sia i dati che gli strumenti necessari per abilitare una conformità automatizzata e consapevole dell'IA su larga scala.
L'analisi dei manufatti del patrimonio culturale rimane una sfida per i MLLM (Modelli Multilingue di Apprendimento): i modelli generali mancano di competenze specifiche del dominio, e il Fine-Tuning Supervisionato (SFT) spesso si adatta eccessivamente a pattern superficiali, producendo un ragionamento fragile per l'autenticazione e l'attribuzione storica. Ciò solleva la questione di come dotare i MLLM di un ragionamento robusto e di livello esperto per la ceramica greca antica. Presentiamo VaseVL, un sistema SFT-then-RL che trasforma la valutazione in supervisione: costruiamo una tassonomia dei tipi di domande, esploriamo il modello SFT per localizzare le lacune di prestazioni specifiche per tipo, e ottimizziamo con ricompense condizionate al tipo e orientate alla composizionalità, mirate a colmare tali lacune. Rilasciamo inoltre VaseVQA, un benchmark completo di 31.773 immagini progettato per esplorare una comprensione profonda. Gli esperimenti mostrano risultati all'avanguardia nella classificazione dello stile e nell'attribuzione storica, con guadagni significativi nella robustezza composizionale rispetto ai baseline basati esclusivamente su SFT, validando l'ingegneria delle ricompense guidata dalla diagnosi e condizionata dalla tassonomia, e fornendo una risorsa riutilizzabile per la ricerca futura. Codice e dataset saranno disponibili su https://github.com/AIGeeksGroup/VaseVQA.
L'efficienza dell'ottimizzazione bayesiana (BO) dipende fortemente dalla scelta del kernel del processo gaussiano (GP), che svolge un ruolo centrale nel bilanciare esplorazione e sfruttamento con budget di valutazione limitati. I metodi BO tradizionali si basano spesso su strategie di selezione del kernel fisse o euristiche, che possono portare a una convergenza lenta o a soluzioni subottimali quando il kernel scelto non è adatto alla funzione obiettivo sottostante. Per affrontare questa limitazione, proponiamo un nuovo approccio chiamato Context-Aware Kernel Evolution (CAKE) per potenziare la BO con modelli linguistici di grandi dimensioni (LLM). Nello specifico, CAKE utilizza gli LLM come operatori di crossover e mutazione per generare e affinare in modo adattivo i kernel GP in base ai dati osservati durante il processo di ottimizzazione. Per massimizzare l'efficacia di CAKE, proponiamo ulteriormente il BIC-Acquisition Kernel Ranking (BAKER) per selezionare il kernel più efficace bilanciando l'adattamento del modello misurato dal criterio di informazione bayesiana (BIC) con il miglioramento atteso a ogni iterazione della BO. Esperimenti estesi dimostrano che il nostro metodo BO basato su CAKE supera costantemente i benchmark consolidati in una gamma di attività del mondo reale, tra cui l'ottimizzazione degli iperparametri, la regolazione dei controller e la progettazione di chip fotonici. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/cake4bo/cake.
I codec neurali audio sono un componente fondamentale delle moderne pipeline generative audio. Sebbene i codec recenti raggiungano una ricostruzione di alta qualità a basso bitrate e forniscano rappresentazioni potenti per task downstream, la maggior parte non è streamable, limitando il loro utilizzo in applicazioni in tempo reale. Presentiamo FocalCodec-Stream, un codec ibrido basato sulla modulazione focale che comprime il parlato in un singolo codebook binario a 0,55 - 0,80 kbps con una latenza teorica di 80 ms. Il nostro approccio combina una distillazione causale multi-stadio di WavLM con miglioramenti architetturali mirati, inclusi un modulo refiner leggero che migliora la qualità sotto vincoli di latenza. Gli esperimenti dimostrano che FocalCodec-Stream supera i codec streamable esistenti a bitrate comparabili, preservando sia le informazioni semantiche che acustiche. Il risultato è un compromesso favorevole tra qualità di ricostruzione, prestazioni nei task downstream, latenza ed efficienza. Codice e checkpoint saranno rilasciati su https://github.com/lucadellalib/focalcodec.
Presentiamo BeepBank-500, un dataset compatto e completamente sintetico di earcon/alert (300-500 clip) progettato per esperimenti rapidi e privi di restrizioni legali nell'interazione uomo-computer e nel machine learning audio. Ogni clip è generata da una ricetta parametrica che controlla la famiglia di forme d'onda (sinusoidale, quadra, triangolare, FM), la frequenza fondamentale, la durata, l'inviluppo di ampiezza, la modulazione di ampiezza (AM) e una leggera riverberazione in stile Schroeder. Utilizziamo tre impostazioni di riverberazione: secca, e due ambienti sintetici denominati 'rir small' ('piccolo') e 'rir medium' ('medio') nel corso del documento e nei metadati. Rilasciamo audio mono a 48 kHz in formato WAV (16-bit), una tabella di metadati ricca (caratteristiche del segnale/spettrali) e piccole baseline riproducibili per (i) la classificazione della famiglia di forme d'onda e (ii) la regressione di f0 su toni singoli. Il corpus è destinato a compiti come la classificazione di earcon, analisi del timbro e rilevamento degli onset, con licenze e limitazioni chiaramente indicate. L'audio è dedicato al pubblico dominio tramite CC0-1.0; il codice è sotto licenza MIT. DOI dei dati: https://doi.org/10.5281/zenodo.17172015. Codice: https://github.com/mandip42/earcons-mini-500.
I modelli linguistici di grandi dimensioni basati su diffusione (DLLM) hanno recentemente attratto un interesse crescente come alternativa ai decoder autoregressivi. In questo lavoro, presentiamo uno studio empirico sull'utilizzo del modello linguistico di grandi dimensioni basato su diffusione LLaDA per il riconoscimento automatico del parlato (ASR). Iniziamo investigando il suo impiego come modulo esterno di elaborazione basato su deliberazione per le trascrizioni di Whisper-LLaMA. Sfruttando l'attenzione bidirezionale e le capacità di denoising di LLaDA, esploriamo strategie di mascheramento casuale, mascheramento a bassa confidenza e semi-autoregressive, dimostrando che Whisper-LLaDA riduce sostanzialmente il WER rispetto alla baseline. Su LibriSpeech, il miglior sistema a cascata raggiunge un WER del 2,25%/4,94% su test-clean/test-other, rappresentando un miglioramento relativo del 12,3% rispetto alla baseline Whisper-LLaMA sulla suddivisione test-other. Al contrario, una versione LLaDA in testo semplice senza caratteristiche acustiche non riesce a migliorare l'accuratezza, sottolineando l'importanza degli embedding condizionati dall'audio. Valutiamo ulteriormente Whisper-LLaDA come decoder autonomo per ASR con decodifica basata su diffusione e semi-autoregressive. La maggior parte delle configurazioni sperimentali raggiunge un'inferenza più veloce rispetto alla baseline Whisper-LLaMA, sebbene l'accuratezza del riconoscimento sia leggermente inferiore. Questi risultati offrono una visione empirica dei LLM basati su diffusione per ASR e indicano direzioni promettenti per miglioramenti.
La revisione automatica del codice (CR) è un'applicazione chiave per i Modelli Linguistici di Grande Scala (LLMs), ma i progressi sono ostacolati da un "divario con la realtà": i benchmark esistenti valutano i modelli su sotto-task isolati utilizzando dati semplificati e privi di contesto. Ciò non riflette la natura olistica e ricca di contesto della CR nel mondo reale. Per colmare questo divario, introduciamo CodeFuse-CR-Bench, il primo benchmark consapevole della completezza per la valutazione della CR a livello di repository. CodeFuse-CR-Bench comprende 601 istanze di alta qualità provenienti da 70 progetti Python, che coprono nove domini di problemi relativi alle Pull-Request (PR), dove ogni istanza fornisce un contesto ricco e multifaccettato, inclusi il problema associato, i dettagli della PR e lo stato del repository, consentendo una valutazione end-to-end. Oltre alle metriche superficiali, proponiamo anche un nuovo framework di valutazione che combina controlli basati su regole per la posizione e la sintesi con giudizi basati su modelli della qualità della revisione. Presentiamo la prima valutazione su larga scala dei migliori LLM su questo compito completo di CR. I nostri risultati stabiliscono baseline cruciali e rivelano che (1) nessun singolo LLM domina tutti gli aspetti della CR; (2) Gemini 2.5 Pro raggiunge le prestazioni complessive più elevate; e (3) diversi LLM mostrano una robustezza variabile al contesto ridondante. Questi risultati evidenziano la necessità di una valutazione olistica e multidimensionale e forniscono indicazioni pratiche per avanzare verso assistenti di CR veramente intelligenti e pratici.
I grandi modelli visione-linguaggio (Large Vision-Language Models, L-VLM) hanno dimostrato prestazioni notevoli in vari compiti di visione e linguaggio, inclusa la risposta a domande visive (Visual Question Answering, VQA). Tuttavia, il loro elevato costo computazionale li rende poco pratici in contesti con risorse limitate e applicazioni che richiedono molta inferenza. Al contrario, i piccoli modelli visione-linguaggio (Small Vision-Language Models, S-VLM) offrono efficienza, ma soffrono di un significativo divario prestazionale rispetto alle loro controparti più grandi. In questo lavoro, introduciamo il Model Parity Aligner (MPA), un framework innovativo progettato per migliorare sistematicamente gli S-VLM sfruttando immagini non etichettate e un trasferimento efficace di conoscenza dagli L-VLM. Invece di utilizzare i tradizionali metodi di distillazione della conoscenza che si basano su dati di addestramento etichettati, MPA adotta un approccio strategico basato sulla parità, che identifica con precisione le disparità di conoscenza tra S-VLM e L-VLM e ottimizza l'addestramento concentrandosi solo su queste disparità. Abbiamo condotto esperimenti approfonditi su quattro benchmark VQA diversi, ovvero TextVQA, ST-VQA, ChartQA e OKVQA, ciascuno dei quali richiede capacità di ragionamento specializzate come il riconoscimento del testo, l'interpretazione di grafici e la comprensione del senso comune e dei fatti. I nostri risultati dimostrano che MPA migliora costantemente le prestazioni degli S-VLM su tutti i benchmark, riducendo il divario prestazionale mantenendo l'efficienza computazionale. Rendiamo il nostro codice pubblicamente disponibile.
I modelli di ricompensa basati sul processo (PRM) offrono valutazioni granulari a livello di passaggio che facilitano processi di ragionamento più approfonditi nei grandi modelli linguistici (LLM), dimostrandosi efficaci in compiti complessi come il ragionamento matematico. Tuttavia, lo sviluppo dei PRM è impegnativo a causa dell'elevato costo e della limitata scalabilità dei dati annotati manualmente. I dati sintetici ottenuti tramite stima Monte Carlo (MC) rappresentano un'alternativa promettente, ma soffrono di un elevato rapporto di rumore, che può causare overfitting e ostacolare l'addestramento su larga scala. In questo lavoro, conduciamo uno studio preliminare sulla distribuzione del rumore nei dati sintetici derivati dalla stima MC, identificando che i modelli di annotazione tendono sia a sottostimare che a sovrastimare la correttezza dei passaggi a causa di limitazioni nelle loro capacità di annotazione. Basandoci su queste intuizioni, proponiamo Self-Denoising Monte Carlo Annotation (SCAN), un framework efficiente per la sintesi dei dati e l'apprendimento tollerante al rumore. I nostri risultati chiave indicano che: (1) Anche modelli leggeri (ad esempio, con 1,5 miliardi di parametri) possono produrre annotazioni di alta qualità attraverso una strategia di auto-denoising, consentendo ai PRM di ottenere prestazioni superiori con solo il 6% del costo di inferenza richiesto dalla stima MC tradizionale. (2) Con la nostra robusta strategia di apprendimento, i PRM possono apprendere efficacemente da questa supervisione debole, ottenendo un miglioramento di 39,2 punti F1 (da 19,9 a 59,1) in ProcessBench. Nonostante l'uso di un dataset sintetico compatto, i nostri modelli superano baseline solide, inclusi quelli addestrati su dataset annotati manualmente su larga scala come PRM800K. Inoltre, le prestazioni continuano a migliorare con l'aumento dei dati sintetici, evidenziando il potenziale di SCAN per un addestramento scalabile, economicamente efficiente e robusto dei PRM.