Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'emergere del reinforcement learning agentico (Agentic RL) segna un cambiamento di paradigma rispetto al convenzionale reinforcement learning applicato ai grandi modelli linguistici (LLM RL), ridefinendo i LLM da generatori passivi di sequenze ad agenti autonomi e decisionali integrati in mondi complessi e dinamici. Questo studio formalizza questo cambiamento concettuale contrapponendo i processi decisionali di Markov (MDP) a singolo passo e degenerati dell'LLM-RL con i processi decisionali di Markov parzialmente osservabili (POMDP) temporalmente estesi che definiscono l'Agentic RL. Basandoci su queste fondamenta, proponiamo una tassonomia completa a due livelli: una organizzata attorno alle capacità agentiche fondamentali, tra cui pianificazione, uso di strumenti, memoria, ragionamento, auto-miglioramento e percezione, e l'altra attorno alle loro applicazioni in diversi domini di attività. Centrale alla nostra tesi è che il reinforcement learning funge da meccanismo critico per trasformare queste capacità da moduli statici ed euristici in comportamenti agentici adattivi e robusti. Per supportare e accelerare la ricerca futura, consolidiamo il panorama di ambienti open-source, benchmark e framework in un compendio pratico. Sintetizzando oltre cinquecento lavori recenti, questo studio traccia i contorni di questo campo in rapida evoluzione e mette in luce le opportunità e le sfide che plasmeranno lo sviluppo di agenti AI scalabili e a scopo generale.
Lo sviluppo di agenti autonomi per interfacce grafiche utente (GUI) presenta sfide significative nell'ambito dell'intelligenza artificiale. Sebbene i recenti progressi nei modelli di agenti nativi abbiano mostrato promesse unificando percezione, ragionamento, azione e memoria attraverso l'apprendimento end-to-end, permangono problemi aperti riguardanti la scalabilità dei dati, l'apprendimento per rinforzo (RL) multi-turn, le limitazioni dell'operatività esclusiva su GUI e la stabilità dell'ambiente. In questo rapporto tecnico, presentiamo UI-TARS-2, un modello di agente nativo centrato sulle GUI che affronta queste sfide attraverso una metodologia di addestramento sistematica: un volano di dati per la generazione scalabile di dati, un framework RL multi-turn stabilizzato, un ambiente GUI ibrido che integra file system e terminali, e una piattaforma sandbox unificata per rollout su larga scala. La valutazione empirica dimostra che UI-TARS-2 ottiene miglioramenti significativi rispetto al suo predecessore UI-TARS-1.5. Su benchmark GUI, raggiunge 88.2 su Online-Mind2Web, 47.5 su OSWorld, 50.6 su WindowsAgentArena e 73.3 su AndroidWorld, superando baseline robusti come Claude e gli agenti OpenAI. In ambienti di gioco, ottiene un punteggio normalizzato medio di 59.8 su una suite di 15 giochi – circa il 60% delle prestazioni umane – e rimane competitivo con modelli proprietari all'avanguardia (ad esempio, OpenAI o3) su LMGame-Bench. Inoltre, il modello può generalizzare a compiti di ricerca di informazioni a lungo termine e benchmark di ingegneria del software, evidenziando la sua robustezza in diverse attività di agenti. Analisi dettagliate delle dinamiche di addestramento forniscono ulteriori approfondimenti su come raggiungere stabilità ed efficienza nell'RL su larga scala per agenti. Questi risultati sottolineano il potenziale di UI-TARS-2 di avanzare lo stato degli agenti GUI e di mostrare una forte generalizzazione a scenari interattivi del mondo reale.
I Large Language Model (LLM) possono migliorare significativamente le loro capacità di ragionamento interagendo con strumenti esterni, un paradigma noto come Tool-Integrated Reasoning (TIR). Tuttavia, estendere il TIR a scenari multi-turn utilizzando il Reinforcement Learning (RL) è spesso ostacolato da instabilità durante l'addestramento e collasso delle prestazioni. Identifichiamo che tale instabilità è principalmente causata da una deriva distributiva dovuta al feedback degli strumenti esterni, che porta alla generazione di token a bassa probabilità. Questo problema si accumula nel corso di turni successivi, causando esplosioni catastrofiche della norma del gradiente che compromettono il processo di addestramento. Per affrontare questa sfida, introduciamo SimpleTIR, un algoritmo plug-and-play che stabilizza l'addestramento multi-turn del TIR. La sua strategia principale consiste nell'identificare e filtrare le traiettorie contenenti turni vuoti, ovvero turni che non producono né un blocco di codice né una risposta finale. Rimuovendo queste traiettorie problematiche dall'aggiornamento della policy, SimpleTIR blocca efficacemente i gradienti dannosi ad alta magnitudine, stabilizzando così le dinamiche di apprendimento. Esperimenti estensivi dimostrano che SimpleTIR raggiunge prestazioni all'avanguardia su benchmark impegnativi di ragionamento matematico, elevando in modo significativo il punteggio AIME24 da un baseline testuale di 22.1 a 50.5 partendo dal modello base Qwen2.5-7B. Inoltre, evitando i vincoli del fine-tuning supervisionato, SimpleTIR incoraggia il modello a scoprire pattern di ragionamento diversificati e sofisticati, come l'autocorrezione e la cross-validazione.
Nella modellazione visione-linguaggio, i modelli critici sono tipicamente addestrati per valutare gli output – assegnando punteggi scalari o preferenze a coppie – piuttosto che per generare risposte. Questa separazione dai modelli di policy, che producono le risposte, è così radicata che i critici sono raramente considerati per un uso diretto nella policy. In questo lavoro, sfidiamo questa convenzione. Proponiamo di riorganizzare i dataset critici con etichette di preferenza in segnali di addestramento verificabili e di eseguire apprendimento per rinforzo direttamente su un modello generativo di base, producendo LLaVA-Critic-R1, un critico multimodale addestrato per ottimizzare i giudizi di preferenza mantenendo piena capacità di generazione. Sorprendentemente, LLaVA-Critic-R1 emerge non solo come un critico di alto livello ma anche come un modello di policy competitivo – eguagliando o superando modelli di ragionamento visivo-linguistico (VLM) specializzati addestrati con dati di dominio specifico su 26 benchmark di ragionamento e comprensione visiva, con un guadagno medio di +5,7% rispetto al suo modello di base (Qwen-2.5-VL-7B). Estendendo questo approccio a VLM di ragionamento già forti, otteniamo LLaVA-Critic-R1+, che migliora ulteriormente le prestazioni della policy senza sacrificare la qualità del critico, raggiungendo una performance SoTA di 71,9 su MMMU alla scala 7B. Infine, dimostriamo che la capacità critica migliorata beneficia l'inferenza: applicando l'auto-critica durante il test si ottiene un miglioramento medio di +13,8% su cinque compiti rappresentativi di ragionamento senza ulteriore addestramento. I nostri risultati rivelano che l'addestramento RL su dati critici può produrre un modello unificato eccellente sia nella valutazione che nella generazione, offrendo un percorso semplice verso sistemi multimodali scalabili e auto-miglioranti.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha dimostrato successo nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM), ma rimane limitato a interazioni a turno singolo senza integrazione di strumenti. Sebbene recenti approcci di Agentic Reinforcement Learning con utilizzo di strumenti (ARLT) siano emersi per affrontare interazioni multi-turno con strumenti, i lavori esistenti sviluppano codebase specifiche per task che soffrono di frammentazione, colli di bottiglia nell'esecuzione sincrona e limitata estensibilità tra domini. Queste inefficienze ostacolano una più ampia adozione da parte della comunità e l'innovazione algoritmica. Introduciamo VerlTool, un framework unificato e modulare che affronta queste limitazioni attraverso principi di progettazione sistematici. VerlTool fornisce quattro contributi chiave: (1) allineamento a monte con VeRL garantendo compatibilità e manutenzione semplificata, (2) gestione unificata degli strumenti tramite API standardizzate che supportano diverse modalità, inclusa l'esecuzione di codice, ricerca, database SQL ed elaborazione visiva, (3) esecuzione asincrona del rollout che raggiunge un aumento di velocità quasi 2 volte eliminando i colli di bottiglia di sincronizzazione, e (4) valutazione completa che dimostra prestazioni competitive in 6 domini ARLT. Il nostro framework formalizza l'ARLT come traiettorie multi-turno con token di osservazione multi-modali (testo/immagine/video), estendendosi oltre i paradigmi RLVR a turno singolo. Addestriamo e valutiamo modelli su task di ragionamento matematico, QA di conoscenza, generazione SQL, ragionamento visivo, ricerca web e ingegneria del software, ottenendo risultati comparabili a sistemi specializzati mentre forniamo un'infrastruttura di addestramento unificata. L'architettura modulare a plugin consente una rapida integrazione di strumenti richiedendo solo definizioni Python leggere, riducendo significativamente il sovraccarico di sviluppo e fornendo una base scalabile per la ricerca sul RL potenziato da strumenti. Il nostro codice è open-source all'indirizzo https://github.com/TIGER-AI-Lab/verl-tool.
I grandi modelli linguistici spesso richiedono ottimizzazioni costose, come l'apprendimento per rinforzo, per padroneggiare compiti di ragionamento complessi. Questo lavoro dimostra che la capacità di ragionamento, una volta appresa, può essere estratta e trasferita tra modelli come un vettore di compatto. Utilizziamo due modelli Qwen2.5 pubblicamente disponibili, inizializzati in modo identico, uno ottimizzato con fine-tuning supervisionato (SFT) e l'altro con ottimizzazione della politica relativa di gruppo (GRPO) sullo stesso dataset. Da questi, estraiamo un vettore di ragionamento: v_{reason} = theta_{GRPO} - theta_{SFT}. Ipotesizziamo che questo vettore catturi la capacità di ragionamento instillata dall'apprendimento per rinforzo, eliminando la conoscenza condivisa dal processo SFT. Quando aggiunto a modelli compatibili ottimizzati per istruzioni attraverso semplici operazioni aritmetiche, questo vettore migliora costantemente le prestazioni su diversi benchmark di ragionamento: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) e BigBenchHard (+12,3% per il modello da 1,5B). I miglioramenti delle prestazioni persistono in condizioni avverse. Al contrario, sottrarre il vettore causa un significativo degrado delle prestazioni (-11,8% su GSM8K), dimostrando il forte contributo del vettore alle capacità di ragionamento del modello. Questo lavoro mostra come le capacità di ragionamento, tipicamente sviluppate attraverso addestramenti costosi, possano essere estratte da modelli open-source esistenti e riutilizzate attraverso semplici operazioni tensoriali, offrendo un modo pratico per migliorare i modelli riciclando precedenti investimenti computazionali.
I modelli linguistici multimodali per video (Video-MLLMs) hanno compiuto progressi significativi nella comprensione dei video. Tuttavia, rimangono vulnerabili alla generazione di contenuti allucinati, inconsistenti o non correlati agli input video. I precedenti benchmark sulle allucinazioni nei video si concentrano principalmente su video brevi, attribuendo le allucinazioni a fattori come forti priorità linguistiche, frame mancanti o bias visuo-linguistici introdotti dall'encoder visivo. Sebbene queste cause spieghino la maggior parte delle allucinazioni nei video brevi, semplificano eccessivamente l'origine del fenomeno. A volte, i modelli generano output errati ma con una semantica a livello di frame corretta. Definiamo questo tipo di allucinazione come Allucinazione da Aggregazione Semantica (SAH), che emerge durante il processo di aggregazione della semantica a livello di frame in gruppi semantici a livello di evento. Dato che la SAH diventa particolarmente critica nei video lunghi a causa della maggiore complessità semantica tra più eventi, è essenziale separare e investigare approfonditamente le cause di questo tipo di allucinazione. Per affrontare queste problematiche, introduciamo ELV-Halluc, il primo benchmark dedicato alle allucinazioni nei video lunghi, che consente un'indagine sistematica della SAH. I nostri esperimenti confermano l'esistenza della SAH e dimostrano che essa aumenta con la complessità semantica. Inoltre, osserviamo che i modelli sono più inclini alla SAH in presenza di cambiamenti semantici rapidi. Discutiamo anche potenziali approcci per mitigare la SAH. Dimostriamo che la strategia di codifica posizionale contribuisce a ridurre la SAH e adottiamo ulteriormente la strategia DPO per migliorare la capacità del modello di distinguere la semantica all'interno e tra gli eventi. A supporto di ciò, curiamo un dataset di 8K coppie di dati avversariali e otteniamo miglioramenti sia su ELV-Halluc che su Video-MME, inclusa una sostanziale riduzione del 27,7% nel rapporto SAH.
Dati etichettati di alta qualità sono essenziali per addestrare modelli precisi di conversione documentale, specialmente in domini con formati complessi come tabelle, formule e testi a più colonne. Tuttavia, l'annotazione manuale è sia costosa che dispendiosa in termini di tempo, mentre l'etichettatura automatica utilizzando modelli esistenti spesso manca di precisione nel gestire tali scenari complessi. Di conseguenza, l'addestramento di modelli studente distillando gli output da modelli insegnante può limitare significativamente le loro prestazioni in applicazioni reali. In questo articolo, proponiamo un framework completamente automatizzato e privo di distillazione, composto da due fasi, per la costruzione di dataset e modelli di estrazione documentale di alta qualità in grado di gestire formati e layout documentali diversificati. Nella prima fase, introduciamo un metodo per generare dati sintetici su larga scala e diversificati, che consente a un modello di estrarre elementi chiave in un formato unificato con prestazioni iniziali solide. Nella seconda fase, presentiamo un approccio di auto-miglioramento che adatta ulteriormente il modello, inizialmente addestrato su dati sintetici, a documenti reali. Nello specifico, utilizziamo prima il modello fine-tuned per annotare documenti reali, poi applichiamo una serie di strategie di filtraggio per verificare la qualità delle annotazioni, e infine riaddestriamo il modello sul dataset verificato. Ripetendo iterativamente questo processo, miglioriamo progressivamente sia le capacità di conversione del modello che la qualità dei dati generati. Addestriamo un modello pubblico POINTS-1.5 per ottenere POINTS-Reader, che supera molti modelli pubblici e proprietari esistenti di dimensioni comparabili o maggiori. Il nostro modello è disponibile all'indirizzo https://github.com/Tencent/POINTS-Reader.
L'architettura Transformer, sostenuta dal meccanismo di self-attention, è diventata lo standard de facto per le attività di modellazione di sequenze. Tuttavia, la sua primitiva computazionale di base scala quadraticamente con la lunghezza della sequenza (O(N^2)), creando un significativo collo di bottiglia per l'elaborazione di contesti lunghi. In questo articolo, proponiamo la rete Gated Associative Memory (GAM), una nuova architettura completamente parallela per la modellazione di sequenze che presenta una complessità lineare (O(N)) rispetto alla lunghezza della sequenza. Il blocco GAM sostituisce il livello di self-attention con due percorsi paralleli: una convoluzione causale per catturare in modo efficiente il contesto locale dipendente dalla posizione, e un meccanismo di recupero della memoria associativa parallela per modellare schemi globali basati sul contenuto. Questi percorsi sono dinamicamente fusi utilizzando un meccanismo di gating, consentendo al modello di combinare in modo flessibile informazioni locali e globali per ogni token. Implementiamo GAM da zero e conduciamo un'analisi comparativa rigorosa rispetto a un modello Transformer standard e a una baseline moderna a tempo lineare (Mamba) sul benchmark WikiText-2, nonché rispetto al Transformer sul dataset TinyStories. I nostri esperimenti dimostrano che GAM è costantemente più veloce, superando entrambe le baseline in termini di velocità di addestramento, e raggiunge una perplexity di validazione finale superiore o competitiva su tutti i dataset, stabilendola come una promettente ed efficiente alternativa per la modellazione di sequenze.
Con l'avanzamento delle capacità conversazionali e di ragionamento dei grandi modelli linguistici (LLM), la loro applicazione pratica nel settore sanitario è diventata un focus di ricerca cruciale. Tuttavia, esiste un divario significativo tra le prestazioni dei LLM medici su benchmark statici come l'USMLE e la loro utilità nel processo decisionale clinico reale. Questa discrepanza deriva dal fatto che gli esami tradizionali non riescono a catturare la natura dinamica e interattiva delle consultazioni mediche. Per affrontare questa sfida, introduciamo un nuovo framework di verifica dinamica che va oltre il semplice verificatore di risposte statiche, stabilendo un sistema di apprendimento per rinforzo interattivo su larga scala e ad alta fedeltà. Il nostro framework comprende due componenti chiave: un Simulatore di Pazienti che crea ambienti clinici realistici utilizzando cartelle cliniche de-identificate, e un Generatore di Griglie Cliniche che produce dinamicamente metriche di valutazione multidimensionali. Sulla base di queste fondamenta, sviluppiamo Baichuan-M2, un modello di ragionamento aumentato medico da 32 miliardi di parametri, addestrato attraverso una strategia di apprendimento per rinforzo multi-stadio con un algoritmo migliorato di Ottimizzazione Relativa di Gruppo (GRPO). Valutato su HealthBench, Baichuan-M2 supera tutti gli altri modelli open-source e la maggior parte delle controparti closed-source più avanzate, raggiungendo un punteggio superiore a 32 sul benchmark impegnativo HealthBench Hard, precedentemente superato solo da GPT-5. Il nostro lavoro dimostra che un robusto sistema di verifica dinamica è essenziale per allineare le capacità dei LLM con le applicazioni cliniche pratiche, stabilendo un nuovo fronte di Pareto nel compromesso prestazioni-parametri per il dispiegamento dell'IA medica.
Negli ultimi anni, lo sviluppo dei Large Language Models (LLMs) ha compiuto progressi significativi, estendendo le loro capacità a compiti multimodali attraverso i Multimodal Large Language Models (MLLMs). Tuttavia, la comprensione dei video rimane un'area impegnativa a causa della natura dinamica e densa di informazioni dei video. I modelli esistenti faticano a bilanciare la risoluzione spaziale e la copertura temporale durante l'elaborazione dei contenuti video. Presentiamo Keye-VL-1.5, che affronta le sfide fondamentali nella comprensione dei video attraverso tre innovazioni chiave. In primo luogo, introduciamo una nuova strategia di codifica video Slow-Fast che assegna dinamicamente le risorse computazionali in base alla similarità inter-fotogramma, elaborando i fotogrammi chiave con cambiamenti visivi significativi a una risoluzione più alta (percorso Slow) mentre gestisce fotogrammi relativamente statici con una maggiore copertura temporale a una risoluzione più bassa (percorso Fast). In secondo luogo, implementiamo una metodologia di pre-addestramento progressivo in quattro fasi che estende sistematicamente la lunghezza del contesto del modello da 8K a 128K token, consentendo l'elaborazione di video più lunghi e contenuti visivi più complessi. In terzo luogo, sviluppiamo una pipeline completa di post-addestramento focalizzata sul miglioramento del ragionamento e sull'allineamento alle preferenze umane, incorporando un processo di costruzione dati a 5 passaggi di chain-of-thought, apprendimento per rinforzo iterativo basato su GSPO con suggerimenti progressivi per casi difficili e addestramento di allineamento. Attraverso una valutazione estesa su benchmark pubblici e una rigorosa valutazione umana interna, Keye-VL-1.5 dimostra miglioramenti significativi rispetto ai modelli esistenti, eccellendo in particolare nei compiti di comprensione dei video mantenendo prestazioni competitive su benchmark multimodali generali.
Questo articolo presenta una semplificazione dell'architettura e del design della funzione di perdita di OpenVision per migliorarne l'efficienza nell'addestramento. Seguendo i precedenti lavori di pre-addestramento visione-linguaggio come CapPa e AIMv2, nonché i moderni design multimodali come LLaVA, le nostre modifiche sono dirette: rimuoviamo l'encoder di testo (e quindi la perdita contrastiva), mantenendo solo la perdita di generazione di didascalie come segnale di addestramento puramente generativo. Abbiamo denominato questa nuova versione OpenVision 2. I risultati iniziali sono promettenti: nonostante questa semplificazione, OpenVision 2 eguaglia in modo competitivo le prestazioni del modello originale su un ampio set di benchmark multimodali, riducendo sostanzialmente sia il tempo di addestramento che il consumo di memoria. Ad esempio, con ViT-L/14, riduce il tempo di addestramento di circa 1,5x (da 83h a 57h) e l'uso della memoria di circa 1,8x (da 24,5GB a 13,8GB, permettendo equivalentemente di aumentare la dimensione massima del batch da 2k a 8k). Questa superiore efficienza nell'addestramento ci consente anche di scalare ben oltre il più grande encoder visivo utilizzato in OpenVision, raggiungendo più di 1 miliardo di parametri. Crediamo fermamente che questo paradigma leggero e puramente generativo sia convincente per lo sviluppo futuro di encoder visivi nei modelli di fondazione multimodali.
I recenti progressi nel Reinforcement Learning con Ricompense Verificabili (RLVR) hanno potenziato i grandi modelli linguistici (LLM) per affrontare compiti di ragionamento complessi come la matematica e la programmazione. RLVR sfrutta ricompense basate su risultati verificabili per guidare l'ottimizzazione delle politiche, consentendo ai LLM di migliorare progressivamente la qualità dell'output in modo solido e affidabile. Nonostante le sue promesse, il paradigma RLVR presenta sfide significative, poiché i metodi esistenti spesso soffrono di segnali di ricompensa sparsi e aggiornamenti instabili del gradiente delle politiche, specialmente negli approcci basati su RL. Per affrontare queste sfide, proponiamo PACS, un nuovo framework RLVR che ottiene un accoppiamento imPlicito tra Attore e Critico attraverso un framework di apprendimento supervisionato. Trattando la ricompensa come un'etichetta prevedibile, riformuliamo il problema RLVR in un compito di apprendimento supervisionato su una funzione di punteggio parametrizzata dal modello di politica e ottimizzata utilizzando la perdita di entropia incrociata. Un'analisi dettagliata del gradiente mostra che questa formulazione supervisionata recupera intrinsecamente l'aggiornamento classico del gradiente delle politiche, accoppiando implicitamente i ruoli di attore e critico, ottenendo un addestramento più stabile ed efficiente. Testato su compiti di ragionamento matematico complessi, PACS supera i forti baseline RLVR, come PPO e GRPO, raggiungendo prestazioni di ragionamento superiori. Ad esempio, PACS raggiunge il 59,78% in pass@256 su AIME 2025, rappresentando miglioramenti di 13,32 e 14,36 punti rispetto a PPO e GRPO. Questo framework semplice ma potente offre una promettente strada per il post-addestramento dei LLM con ricompense verificabili. Il nostro codice e i dati sono disponibili come open source all'indirizzo https://github.com/ritzz-ai/PACS.
Il post-addestramento dei Large Language Models (LM) spesso privilegia l'accuratezza e l'utilità a scapito della diversità. Ciò crea una tensione: se da un lato il post-addestramento migliora la qualità delle risposte, dall'altro affina le distribuzioni di output e riduce la gamma di idee, limitando l'utilità dei LM in compiti creativi ed esplorativi come il brainstorming, la narrazione o la risoluzione di problemi. Affrontiamo questa sfida con il Diversity-Aware Reinforcement Learning (DARLING), un framework che ottimizza congiuntamente la qualità delle risposte e la diversità semantica. Al suo interno, DARLING introduce una funzione di partizione appresa per misurare la diversità oltre le variazioni lessicali superficiali. Questo segnale di diversità viene poi combinato con una ricompensa di qualità durante il reinforcement learning online, incoraggiando i modelli a generare output che siano sia di alta qualità che distinti. Esperimenti condotti su diverse famiglie e dimensioni di modelli dimostrano che DARLING si generalizza a due regimi: compiti non verificabili (seguire istruzioni e scrittura creativa) e compiti verificabili (matematica competitiva). Su cinque benchmark nel primo contesto, DARLING supera costantemente i baseline di RL focalizzati solo sulla qualità, producendo output che sono simultaneamente di qualità superiore e più innovativi. Nel secondo contesto, DARLING raggiunge punteggi più alti in pass@1 (qualità della soluzione) e pass@k (varietà delle soluzioni). Ancora più significativamente, l'ottimizzazione esplicita per la diversità catalizza l'esplorazione nel RL online, che si manifesta in risposte di qualità superiore.
Il compositing video combina riprese live-action per creare produzioni video, rappresentando una tecnica cruciale nella creazione di video e nella produzione cinematografica. Le pipeline tradizionali richiedono sforzi lavorativi intensivi e collaborazioni di esperti, risultando in cicli di produzione lunghi e costi di manodopera elevati. Per affrontare questo problema, automatizziamo questo processo con modelli generativi, chiamato compositing video generativo. Questo nuovo compito mira a iniettare in modo adattivo le informazioni di identità e movimento di un video in primo piano nel video target in modo interattivo, consentendo agli utenti di personalizzare le dimensioni, la traiettoria del movimento e altri attributi degli elementi dinamici aggiunti nel video finale. Nello specifico, abbiamo progettato una nuova pipeline basata su un Transformer di Diffusione (DiT) sfruttando le sue proprietà intrinseche. Per mantenere la coerenza del video target prima e dopo la modifica, abbiamo revisionato un ramo leggero di preservazione dello sfondo basato su DiT con iniezione di token mascherati. Per ereditare elementi dinamici da altre fonti, è stato proposto un blocco di fusione DiT utilizzando l'auto-attenzione completa, insieme a una semplice ma efficace aumentazione del primo piano per l'allenamento. Inoltre, per fondere video di sfondo e primo piano con layout diversi basati sul controllo dell'utente, abbiamo sviluppato un nuovo embedding di posizione, chiamato Extended Rotary Position Embedding (ERoPE). Infine, abbiamo curato un dataset composto da 61K set di video per il nostro nuovo compito, chiamato VideoComp. Questo dataset include elementi dinamici completi e video target di alta qualità. Gli esperimenti dimostrano che il nostro metodo realizza efficacemente il compositing video generativo, superando le soluzioni esistenti in termini di fedeltà e coerenza.
Il recente sviluppo dei Large Language Models (LLM) è stato accompagnato da una fioritura di nuove idee e metodi per ottimizzare meglio la perdita nei modelli di deep learning. Le affermazioni di questi metodi sono numerose: da una convergenza più rapida all'eliminazione della dipendenza da determinati iperparametri. Tuttavia, i diversi protocolli sperimentali utilizzati per validare queste affermazioni rendono difficile un confronto diretto tra i metodi. Questo studio presenta una valutazione completa delle recenti tecniche di ottimizzazione in scenari standardizzati di preaddestramento di LLM, variando sistematicamente la dimensione del modello, la dimensione del batch e la durata dell'addestramento. Attraverso un'attenta regolazione di ciascun metodo, forniamo indicazioni pratiche su quale ottimizzatore sia più adatto per ogni scenario. Per i ricercatori, il nostro lavoro evidenzia direzioni promettenti per la futura ricerca sull'ottimizzazione. Infine, rilasciando il nostro codice e rendendo tutti gli esperimenti completamente riproducibili, speriamo che i nostri sforzi possano contribuire allo sviluppo e al benchmarking rigoroso dei metodi futuri.
Il Reinforcement Learning da Ricompense Verificabili (RLVR) è emerso come un quadro promettente per potenziare le capacità di ragionamento dei grandi modelli linguistici. Tuttavia, approcci esistenti come GRPO spesso soffrono di gradienti nulli. Questo problema deriva principalmente dai limiti fissi di clipping per i rapporti di probabilità a livello di token e dalla standardizzazione di ricompense identiche, che possono portare a aggiornamenti di gradiente inefficaci e a un sottoutilizzo delle risposte generate. In questo lavoro, proponiamo l'Optimizzazione Dinamica della Politica di Clipping (DCPO), che introduce una strategia di clipping dinamica che adatta i limiti di clipping in base alle probabilità a priori specifiche per token per migliorare l'esplorazione a livello di token, e una tecnica di standardizzazione fluida del vantaggio che standardizza le ricompense attraverso i passi cumulativi di addestramento per migliorare l'utilizzo efficace a livello di risposta delle risposte generate. DCPO ha raggiunto prestazioni all'avanguardia su quattro benchmark basati su quattro modelli diversi. In particolare, DCPO ha ottenuto un Avg@1 di 46,7 con decodifica greedy e un Avg@32 di 38,8 con campionamento 32 volte sul benchmark AIME24, superando sia DAPO (36,7/31,6) che GRPO (36,7/32,1) sul modello Qwen2.5-Math-7B. Sul benchmark AIME25 basato su Qwen2.5-14B, DCPO raggiunge una performance di (23,3/19,0), superando GRPO (13,3/10,5) e DAPO (20,0/15,3). Inoltre, DCPO ha ottenuto un miglioramento medio del 28% nel vantaggio non nullo rispetto a GRPO in quattro modelli, ha raddoppiato l'efficienza di addestramento rispetto a DAPO e ha ridotto significativamente il rapporto di clipping dei token di un ordine di grandezza rispetto sia a GRPO che a DAPO, pur raggiungendo prestazioni superiori. Questi risultati evidenziano l'efficacia di DCPO nello sfruttare i dati generati in modo più efficiente per il reinforcement learning nei grandi modelli linguistici.
Gli agenti GUI basati su LLM dimostrano un potenziale promettente nell'interazione con ambienti digitali diversificati. Tra questi, i videogiochi offrono un banco di prova prezioso grazie alle loro interfacce variegate, con i giochi d'avventura che presentano ulteriori sfide attraverso interazioni complesse e guidate dalla narrazione. Tuttavia, i benchmark esistenti per i giochi mancano di diversità e raramente valutano gli agenti sul completamento di intere trame. Per affrontare questa lacuna, introduciamo FlashAdventure, un benchmark composto da 34 giochi d'avventura basati su Flash, progettato per testare il completamento di interi archi narrativi e affrontare il divario osservazione-comportamento: la sfida di ricordare e agire sulle informazioni raccolte durante il gameplay. Proponiamo inoltre CUA-as-a-Judge, un valutatore automatizzato del gameplay, e COAST, un framework agentico che sfrutta la memoria a lungo termine degli indizi per pianificare e risolvere meglio i compiti sequenziali. Gli esperimenti mostrano che gli attuali agenti GUI faticano a completare interi archi narrativi, mentre COAST migliora il raggiungimento delle milestone colmando il divario osservazione-comportamento. Tuttavia, una marcata discrepanza tra gli esseri umani e gli agenti più performanti giustifica ulteriori sforzi di ricerca per ridurre questo divario.
I modelli guardian vengono utilizzati per supervisionare e moderare gli output dei chatbot rivolti agli utenti, applicando vincoli e rilevando comportamenti inappropriati. Modelli guardian standard come LlamaGuard individuano categorie predefinite e statiche di danni. Proponiamo modelli guardian dinamici che valutano il testo in base a politiche definite dall'utente, rendendoli utili per diversi domini applicativi non coperti dai modelli guardian standard. I nostri modelli guardian dinamici possono essere utilizzati per il rilevamento rapido di violazioni delle politiche o con un ragionamento a catena di pensiero che articola e giustifica gli output del modello. I nostri modelli guardian dinamici eguagliano i modelli statici in termini di accuratezza di rilevamento per categorie di danni statici, identificando al contempo violazioni di politiche libere con un'accuratezza paragonabile ai modelli di ragionamento all'avanguardia in una frazione del tempo.
Negli anni, gli embedding vettoriali sono stati incaricati di un numero sempre crescente di attività di recupero, con un recente aumento del loro utilizzo per il ragionamento, il seguimento di istruzioni, la codifica e altro ancora. Questi nuovi benchmark spingono gli embedding a funzionare per qualsiasi query e qualsiasi nozione di rilevanza che potrebbe essere fornita. Sebbene lavori precedenti abbiano evidenziato limitazioni teoriche degli embedding vettoriali, esiste un'assunzione comune secondo cui queste difficoltà sono esclusivamente dovute a query irrealistiche, e che quelle che non lo sono possono essere superate con dati di addestramento migliori e modelli più grandi. In questo lavoro, dimostriamo che possiamo incontrare queste limitazioni teoriche in contesti realistici con query estremamente semplici. Colleghiamo risultati noti nella teoria dell'apprendimento, mostrando che il numero di sottoinsiemi top-k di documenti che possono essere restituiti come risultato di una query è limitato dalla dimensione dell'embedding. Dimostriamo empiricamente che questo vale anche se ci limitiamo a k=2 e ottimizziamo direttamente sul set di test con embedding parametrici liberi. Creiamo quindi un dataset realistico chiamato LIMIT che mette alla prova i modelli basandosi su questi risultati teorici, e osserviamo che anche i modelli all'avanguardia falliscono su questo dataset nonostante la natura semplice del compito. Il nostro lavoro mostra i limiti dei modelli di embedding sotto l'attuale paradigma del singolo vettore e invita la ricerca futura a sviluppare metodi che possano risolvere questa limitazione fondamentale.
I Large Language Model (LLM) eccellono nella generazione di dati sintetici, ma garantire la loro qualità e diversità rimane una sfida. Proponiamo Genetic Prompt, un nuovo framework che combina algoritmi genetici con LLM per potenziare la generazione di dati sintetici. Il nostro approccio tratta gli attributi semantici del testo come sequenze geniche e sfrutta l'LLM per simulare operazioni di crossover e mutazione. Questo processo genetico migliora la qualità e la diversità dei dati creando nuove combinazioni di attributi, producendo distribuzioni sintetiche più vicine ai dati del mondo reale. Per ottimizzare la selezione dei genitori, integriamo anche uno schema di active learning che espande lo spazio di ricerca della prole. I nostri esperimenti su molteplici task di NLP rivelano diversi risultati chiave: Genetic Prompt non solo supera significativamente i baseline state-of-the-art, ma mostra anche prestazioni robuste su varie dimensioni e scale di modelli generativi. Inoltre, dimostriamo che la fusione dei nostri dati sintetici con il set di addestramento originale migliora significativamente le prestazioni del modello downstream, in particolare per scenari con classi sbilanciate. I nostri risultati convalidano che Genetic Prompt è un metodo efficace per produrre dati sintetici di alta qualità per un'ampia gamma di applicazioni NLP.
Gli strumenti di ricerca approfondita sono tra i sistemi agentivi più impattanti e più comunemente incontrati oggi. Tuttavia, osserviamo che ogni agente di ricerca approfondita introdotto finora è programmato in modo rigido per eseguire una particolare strategia di ricerca utilizzando una scelta fissa di strumenti. Introduciamo Universal Deep Research (UDR), un sistema agentivo generalista che si integra con qualsiasi modello linguistico e consente all'utente di creare, modificare e affinare le proprie strategie di ricerca approfondita completamente personalizzate senza la necessità di ulteriori addestramenti o ottimizzazioni. Per dimostrare la generalità del nostro sistema, dotiamo UDR di esempi di strategie di ricerca minimali, espansive e intensive, e forniamo un'interfaccia utente per facilitare la sperimentazione con il sistema.
AdamW è stato a lungo l'ottimizzatore dominante nel pretraining dei modelli linguistici, nonostante numerose affermazioni secondo cui ottimizzatori alternativi offrono un'accelerazione da 1,4 a 2 volte. Proponiamo che due carenze metodologiche abbiano oscurato confronti equi e ostacolato l'adozione pratica: (i) una sintonizzazione iperparametrica diseguale e (ii) configurazioni di valutazione limitate o fuorvianti. Per affrontare questi due problemi, conduciamo uno studio sistematico di dieci ottimizzatori di deep learning su quattro scale di modelli (da 0,1 a 1,2 miliardi di parametri) e rapporti dati-modello (da 1 a 8 volte l'ottimo di Chinchilla). Scopriamo che confronti equi e informativi richiedono una rigorosa sintonizzazione iperparametrica e valutazioni su un'ampia gamma di scale di modelli e rapporti dati-modello, eseguite al termine dell'addestramento. In primo luogo, gli iperparametri ottimali per un ottimizzatore possono essere subottimali per un altro, rendendo ingiusto il trasferimento cieco degli iperparametri. In secondo luogo, l'effettiva accelerazione di molti ottimizzatori proposti rispetto a baseline ben sintonizzate è inferiore a quanto dichiarato e diminuisce con la dimensione del modello, arrivando a solo 1,1 volte per modelli da 1,2 miliardi di parametri. In terzo luogo, confrontare checkpoint intermedi prima di raggiungere i budget di addestramento target può essere fuorviante, poiché le classificazioni tra due ottimizzatori possono invertirsi durante l'addestramento a causa del decadimento del tasso di apprendimento. Attraverso la nostra indagine approfondita, scopriamo che tutti gli ottimizzatori più veloci, come Muon e Soap, utilizzano matrici come precondizionatori, moltiplicando i gradienti con matrici anziché con scalari elemento per elemento. Tuttavia, l'accelerazione degli ottimizzatori basati su matrici è inversamente proporzionale alla scala del modello, diminuendo da 1,4 volte rispetto ad AdamW per modelli da 0,1 miliardi di parametri a soli 1,1 volte per modelli da 1,2 miliardi di parametri.
Il recupero delle immagini mediche è fondamentale per il processo decisionale clinico e la ricerca traslazionale, basandosi su rappresentazioni visive discriminative. Tuttavia, i metodi attuali rimangono frammentati, affidandosi ad architetture e strategie di addestramento separate per dati medici 2D, 3D e basati su video. Questo design specifico per modalità ostacola la scalabilità e inibisce lo sviluppo di rappresentazioni unificate. Per abilitare un apprendimento unificato, abbiamo curato un dataset su larga scala a modalità ibrida, comprendente 867.653 campioni di imaging medico, inclusi radiografie 2D ed ecografie, video endoscopici RGB e scansioni TC 3D. Sfruttando questo dataset, abbiamo addestrato M3Ret, un encoder visivo unificato senza alcuna personalizzazione specifica per modalità. Esso apprende con successo rappresentazioni trasferibili utilizzando sia paradigmi di apprendimento auto-supervisionato (SSL) generativo (MAE) che contrastivo (SimDINO). Il nostro approccio stabilisce un nuovo stato dell'arte nel recupero zero-shot da immagine a immagine attraverso tutte le singole modalità, superando baseline robusti come DINOv3 e il BMC-CLIP supervisionato da testo. Ancora più notevolmente, emerge un forte allineamento cross-modale senza dati accoppiati, e il modello si generalizza a task MRI non visti, nonostante non abbia mai osservato MRI durante il pre-addestramento, dimostrando la generalizzabilità dell'auto-supervisione puramente visiva a modalità non viste. Analisi approfondite convalidano ulteriormente la scalabilità del nostro framework attraverso dimensioni di modello e dati. Questi risultati forniscono un segnale promettente alla comunità dell'imaging medico, posizionando M3Ret come un passo verso modelli di base per l'SSL visivo nella comprensione multimodale delle immagini mediche.
I Large Language Model (LLM) raggiungono prestazioni da medaglia d'oro in molti benchmark, ma rimane poco chiaro se tale successo rifletta un ragionamento genuino o un semplice pattern matching. Da una prospettiva di scienza cognitiva, un test informativo è verificare se i modelli possano padroneggiare una lingua sconosciuta attraverso un apprendimento deduttivo metalinguistico esplicito, un paradigma in cui gli esseri umani possono internalizzare in modo affidabile sistemi grammaticali mediante ragionamento metalinguistico. Affrontiamo questa questione con Camlang, una nuova lingua costruita che presenta combinazioni di caratteristiche naturalistiche ma non attestate. Camlang consiste in due risorse esplicite, un libro di grammatica e un dizionario bilingue, che riflettono l'apprendimento di una seconda lingua da parte di adulti attraverso regole grammaticali esplicite e consultazione lessicale, e ci permettono di distinguere errori nella morfosintassi, nella semantica lessicale e nel ragionamento a livello di frase. Esperimenti con esseri umani dimostrano che queste risorse sono sufficienti affinché i partecipanti acquisiscano Camlang e risolvano con successo i compiti in Camlang. Per operazionalizzare la valutazione, adattiamo CommonsenseQA in Camlang, creando Camlang-CSQA-v0, il primo compito di una suite più ampia in cui risolvere le domande richiede l'applicazione di regole grammaticali e mappature lessicali. I risultati sperimentali mostrano che GPT-5 raggiunge una precisione EM del 98% in inglese ma solo del 47% in Camlang, ben al di sotto della prestazione umana all'87%, mentre altri LLM all'avanguardia nel ragionamento performano ancora peggio. La verifica umana rivela inoltre che la maggior parte dei successi del modello deriva da un allineamento lessicale superficiale, mentre GPT-5 mostra una consapevolezza metalinguistica emergente in misura limitata ma non un padroneggiamento grammaticale sistematico come gli esseri umani. Camlang stabilisce un paradigma di valutazione cognitivamente fondato che evidenzia lacune fondamentali tra i modelli attuali e la competenza metalinguistica umana.
La conversione di query in linguaggio naturale in query SQL rappresenta una sfida cruciale sia in ambito industriale che accademico, con l'obiettivo di aumentare l'accessibilità ai database e alle applicazioni su larga scala. Questo lavoro esamina come l'apprendimento in contesto (in-context learning) e il ragionamento a catena (chain-of-thought) possano essere utilizzati per sviluppare una soluzione robusta per i sistemi di conversione testo-SQL. Proponiamo SQL-of-Thought: un framework multi-agente che scompone il compito Text2SQL in collegamento dello schema, identificazione dei sottoproblemi, generazione del piano di query, generazione SQL e un ciclo di correzione guidata. A differenza dei sistemi precedenti che si basano esclusivamente su correzioni statiche basate sull'esecuzione, introduciamo una modifica dinamica degli errori guidata da una tassonomia e informata dall'apprendimento in contesto. SQL-of-Thought raggiunge risultati all'avanguardia sul dataset Spider e sulle sue varianti, combinando una tassonomia degli errori guidata con una pianificazione delle query basata sul ragionamento.
Presentiamo ViSTA-SLAM come un sistema di SLAM visivo monoculare in tempo reale che opera senza richiedere i parametri intrinseci della fotocamera, rendendolo ampiamente applicabile in diverse configurazioni di fotocamere. Al suo interno, il sistema utilizza un modello leggero di associazione simmetrica a due viste (STA) come frontend, che stima simultaneamente le pose relative della fotocamera e regredisce mappe di punti locali partendo da sole due immagini RGB. Questo design riduce significativamente la complessità del modello, con una dimensione del frontend pari solo al 35% rispetto ai metodi all'avanguardia comparabili, migliorando al contempo la qualità dei vincoli a due viste utilizzati nella pipeline. Nel backend, costruiamo un grafo delle pose Sim(3) appositamente progettato che incorpora chiusure di loop per affrontare la deriva accumulata. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni superiori sia nel tracciamento della fotocamera che nella qualità della ricostruzione 3D densa rispetto ai metodi attuali. Repository Github: https://github.com/zhangganlin/vista-slam
I modelli autoregressivi visivi (VAR) sono recentemente emersi come una classe promettente di modelli generativi, raggiungendo prestazioni comparabili ai modelli di diffusione nei compiti di generazione di immagini da testo. Sebbene la generazione condizionata sia stata ampiamente esplorata, la capacità di eseguire la modifica di immagini guidata da prompt senza ulteriore addestramento è altrettanto cruciale, poiché supporta numerose applicazioni pratiche nel mondo reale. Questo articolo indaga le capacità di modifica di immagini da testo dei VAR introducendo Visual AutoRegressive Inverse Noise (VARIN), la prima tecnica di modifica basata sull'inversione del rumore progettata esplicitamente per i modelli VAR. VARIN sfrutta una nuova funzione pseudo-inversa per il campionamento argmax, denominata Location-aware Argmax Inversion (LAI), per generare rumori di Gumbel inversi. Questi rumori inversi consentono una ricostruzione precisa dell'immagine sorgente e facilitano modifiche mirate e controllabili allineate con i prompt testuali. Esperimenti estensivi dimostrano che VARIN modifica efficacemente le immagini sorgente in base ai prompt specificati preservando significativamente lo sfondo originale e i dettagli strutturali, validando così la sua efficacia come approccio pratico alla modifica.
Con il rapido progresso dei Modelli Visione-Linguaggio (VLMs), gli agenti mobili basati su GUI sono emersi come una direzione chiave per lo sviluppo di sistemi mobili intelligenti. Tuttavia, i modelli di agenti esistenti continuano a fronteggiare sfide significative nell'esecuzione di compiti nel mondo reale, in particolare in termini di accuratezza ed efficienza. Per affrontare queste limitazioni, proponiamo MobiAgent, un sistema completo per agenti mobili composto da tre componenti principali: i modelli di agenti della serie MobiMind, il framework di accelerazione AgentRR e la suite di benchmarking MobiFlow. Inoltre, riconoscendo che le capacità degli attuali agenti mobili sono ancora limitate dalla disponibilità di dati di alta qualità, abbiamo sviluppato una pipeline agile di raccolta dati assistita dall'IA che riduce significativamente i costi dell'annotazione manuale. Rispetto sia ai modelli LLM generici che ai modelli di agenti GUI specializzati, MobiAgent raggiunge prestazioni all'avanguardia in scenari mobili reali.
Questo lavoro identifica le distribuzioni anisotropiche dei parametri come una barriera fondamentale all'addestramento di grandi modelli linguistici (LLM) con quantizzazione a basso bit: pochi valori singolari dominanti creano ampi intervalli numerici che entrano in conflitto con il bias intrinseco della quantizzazione a blocchi. Questo bias preserva in modo sproporzionato i valori di magnitudine elevata mentre scarta quelli più piccoli, causando instabilità durante l'addestramento e prestazioni scadenti del modello. Questo lavoro introduce Metis, un framework di addestramento che combina (i) la decomposizione spettrale con l'embedding casuale per separare in modo efficiente le componenti dominanti da quelle a coda lunga, comprimendo ampie distribuzioni in intervalli ristretti adatti alla quantizzazione; (ii) tassi di apprendimento adattivi nel dominio spettrale per amplificare le direzioni sottorappresentate e catturare meglio le caratteristiche diversificate cruciali per le prestazioni; e (iii) un regolarizzatore a doppio intervallo che vincola congiuntamente la precisione numerica e la distribuzione dell'intervallo dei parametri, garantendo un addestramento a basso bit stabile e imparziale. Con Metis, l'addestramento in FP8 supera i benchmark in FP32, e l'addestramento in FP4 raggiunge un'accuratezza paragonabile a quella in FP32, aprendo la strada a un addestramento robusto e scalabile di LLM sotto una quantizzazione avanzata a basso bit. L'implementazione del codice per Metis è disponibile all'indirizzo: https://github.com/typename-yyf/Metis-quantization.
Presentiamo i Flavors of Moonshine, una suite di piccoli modelli di riconoscimento vocale automatico (ASR) specializzati per una gamma di lingue sottorappresentate. La saggezza prevalente suggerisce che i modelli ASR multilingue superino le controparti monolingue sfruttando le somiglianze fonetiche cross-linguistiche. Mettiamo in discussione questa ipotesi, dimostrando che per modelli sufficientemente piccoli (27 milioni di parametri), l'addestramento di sistemi monolingue su un mix bilanciato di dati di alta qualità etichettati manualmente, pseudo-etichettati e sintetici produce prestazioni sostanzialmente superiori. In media, i nostri modelli raggiungono tassi di errore inferiori del 48% rispetto al modello Whisper Tiny di dimensioni comparabili, superano il modello Whisper Small 9 volte più grande e, nella maggior parte dei casi, eguagliano o superano il modello Whisper Medium 28 volte più grande. Questi risultati avanzano lo stato dell'arte per modelli di queste dimensioni, consentendo un ASR accurato su dispositivo per lingue che in precedenza avevano un supporto limitato. Rilasciamo i modelli Moonshine per arabo, cinese, giapponese, coreano, ucraino e vietnamita sotto una licenza open-source permissiva.
I modelli linguistici di grandi dimensioni (LLM) possono riflettere involontariamente i pregiudizi sociali presenti nei loro dati di addestramento, portando a output dannosi o discriminatori. Nel contesto indiano, le nostre valutazioni empiriche su una serie di modelli rivelano che i pregiudizi legati a casta e religione sono particolarmente evidenti. Tuttavia, la maggior parte delle strategie di mitigazione esistenti sono centrate sul mondo occidentale e non affrontano queste sfumature locali. Proponiamo AMBEDKAR, un framework ispirato alla visione egualitaria del Dr. B. R. Ambedkar, architetto della Costituzione indiana, per guidare gli output degli LLM verso equità, neutralità e inclusione in linea con gli articoli 14-17. Il nostro approccio introduce un livello di decodifica consapevole della Costituzione, guidato dalla Costituzione AI dell'India e applicato solo al momento dell'inferenza, senza aggiornamenti ai parametri del modello di base. Incorporiamo un algoritmo di decodifica speculativa che riduce proattivamente i pregiudizi castali e comunitari durante la generazione. Questo livello di mitigazione opera direttamente nel processo di decodifica, evitando modifiche interne al modello e riducendo i costi computazionali e infrastrutturali associati al riaddestramento. Reinterpretiamo la decodifica speculativa non solo come uno strumento di efficienza, ma come un meccanismo per l'equità. In questo framework, un modello linguistico di piccole dimensioni (SLM) agisce come generatore potenzialmente pregiudizievole, mentre un LLM guidato dalla Costituzione funge da verificatore. Piuttosto che accelerare la generazione, l'LLM impone traiettorie robuste ai pregiudizi negli output dell'SLM. Questa inversione di ruoli dà vita a un paradigma di equità tramite speculazione. Il nostro approccio produce una riduzione assoluta dei pregiudizi fino al 26,41% rispetto alla baseline. Il nostro codice sorgente, dataset e risultati sono disponibili su https://anonymous.4open.science/r/AMBEDKAR-983B/.
La sensibilità al prompt, riferita al fenomeno in cui la parafrasi (cioè ripetere qualcosa scritto o detto utilizzando parole diverse) porta a cambiamenti significativi nelle prestazioni dei modelli linguistici di grandi dimensioni (LLM), è stata ampiamente accettata come una limitazione fondamentale degli LLM. In questo lavoro, riprendiamo questa questione e ci chiediamo: l'elevata sensibilità al prompt ampiamente riportata è davvero una debolezza intrinseca degli LLM, o è in gran parte un artefatto dei processi di valutazione? Per rispondere a questa domanda, valutiamo sistematicamente 7 LLM (ad esempio, le famiglie GPT e Gemini) su 6 benchmark, includendo sia compiti a scelta multipla che a risposta aperta, utilizzando 12 modelli di prompt diversi. Scopriamo che gran parte della sensibilità al prompt deriva da metodi di valutazione euristici, come lo scoring basato sulla log-verosimiglianza e il matching rigido delle risposte, che spesso trascurano risposte semanticamente corrette espresse attraverso formulazioni alternative, come sinonimi o parafrasi. Quando adottiamo valutazioni basate su LLM-as-a-Judge, osserviamo una riduzione sostanziale della varianza delle prestazioni e una correlazione costantemente più alta nei ranking dei modelli tra i prompt. I nostri risultati suggeriscono che i moderni LLM sono più robusti ai modelli di prompt di quanto si credesse in precedenza, e che la sensibilità al prompt potrebbe essere più un artefatto della valutazione che un difetto nei modelli.
Nonostante il suo grande potenziale, la tecnologia di virtual try-on è ostacolata nell'applicazione pratica da due sfide principali: l'incapacità dei metodi attuali di supportare composizioni di outfit multi-riferimento (inclusi capi d'abbigliamento e accessori) e la loro significativa inefficienza causata dalla ridondante ri-calcolo delle caratteristiche di riferimento in ogni fase di denoising. Per affrontare queste sfide, proponiamo FastFit, un framework di virtual try-on multi-riferimento ad alta velocità basato su una nuova architettura di diffusione cacheable. Utilizzando un meccanismo di Semi-Attention e sostituendo i tradizionali embedding temporali con embedding di classe per gli elementi di riferimento, il nostro modello disaccoppia completamente la codifica delle caratteristiche di riferimento dal processo di denoising con un trascurabile sovraccarico di parametri. Ciò consente di calcolare le caratteristiche di riferimento una sola volta e di riutilizzarle senza perdite in tutti i passaggi, superando fondamentalmente il collo di bottiglia dell'efficienza e ottenendo un'accelerazione media di 3,5x rispetto ai metodi comparabili. Inoltre, per facilitare la ricerca sul virtual try-on complesso e multi-riferimento, introduciamo DressCode-MR, un nuovo dataset su larga scala. Esso comprende 28.179 set di immagini di alta qualità e accoppiate, che coprono cinque categorie chiave (top, pantaloni, abiti, scarpe e borse), costruiti attraverso una pipeline di modelli esperti e un perfezionamento basato sul feedback umano. Esperimenti estesi sui dataset VITON-HD, DressCode e il nostro DressCode-MR dimostrano che FastFit supera i metodi all'avanguardia nelle metriche chiave di fedeltà, offrendo al contempo un significativo vantaggio in termini di efficienza di inferenza.
I metodi tradizionali di allineamento per i Modelli di Visione e Linguaggio di Grande Scala (LVLM) si basano principalmente su dati di preferenza curati da esseri umani. I dati di preferenza generati da esseri umani sono costosi; i dati di preferenza generati da macchine sono limitati in qualità; e i dati di preferenza auto-supervisionati spesso introducono allucinazioni. Per superare queste limitazioni, proponiamo un nuovo framework di apprendimento chiamato Panel-of-Peers, ispirato all'apprendimento collaborativo tra esseri umani. Questo approccio sfrutta un panel di LVLM, ciascuno dei quali valuta e apprende dai risultati collettivi attraverso un processo iterativo di auto-miglioramento. Simulando un sistema di revisione tra pari, i nostri modelli generano, valutano e affinano le risposte in reazione a un set curato di prompt, imitando un ambiente di apprendimento in classe. Dimostriamo che questa metodologia migliora le prestazioni del modello senza richiedere ampi dataset etichettati da esseri umani. I nostri esperimenti mostrano un miglioramento significativo su molteplici benchmark, dimostrando il potenziale delle valutazioni tra pari come alternativa scalabile all'allineamento auto-supervisionato. In particolare, mostriamo che Panel-of-Peers aumenta il punteggio medio su quindici benchmark dal 48% al 57%.
L'equità nei sistemi di raccomandazione (RS) è comunemente categorizzata in equità di gruppo ed equità individuale. Tuttavia, non esiste una comprensione scientifica consolidata della relazione tra questi due tipi di equità, poiché i lavori precedenti su entrambi i tipi hanno utilizzato misure di valutazione o obiettivi di valutazione diversi per ciascun tipo di equità, non consentendo così un confronto adeguato tra i due. Di conseguenza, attualmente non è noto come l'aumento di un tipo di equità possa influenzare l'altro. Per colmare questa lacuna, studiamo la relazione tra equità di gruppo ed equità individuale attraverso un confronto completo delle misure di valutazione che possono essere utilizzate per entrambi i tipi di equità. I nostri esperimenti con 8 esecuzioni su 3 dataset mostrano che le raccomandazioni altamente eque per i gruppi possono essere molto inique per gli individui. La nostra scoperta è innovativa e utile per i professionisti dei sistemi di raccomandazione che mirano a migliorare l'equità dei loro sistemi. Il nostro codice è disponibile all'indirizzo: https://github.com/theresiavr/stairway-to-fairness.
L'apprendimento su nuvole di punti, in particolare in modo auto-supervisionato senza etichette manuali, ha attirato un'attenzione crescente sia nelle comunità di visione che di apprendimento, grazie alla sua potenziale utilità in un'ampia gamma di applicazioni. La maggior parte degli approcci generativi esistenti per l'apprendimento auto-supervisionato su nuvole di punti si concentra sul recupero di punti mascherati a partire da quelli visibili all'interno di una singola vista. Riconoscendo che un paradigma di pre-addestramento a due viste introduce intrinsecamente una maggiore diversità e varianza, ciò potrebbe quindi consentire un pre-addestramento più impegnativo e informativo. Ispirati da questo, esploriamo il potenziale dell'apprendimento a due viste in questo dominio. In questo articolo, proponiamo Point-PQAE, un paradigma generativo di cross-ricostruzione che prima genera due nuvole di punti/viste disaccoppiate e poi ricostruisce una a partire dall'altra. Per raggiungere questo obiettivo, sviluppiamo per la prima volta un meccanismo di ritaglio per la generazione di viste di nuvole di punti e proponiamo ulteriormente una nuova codifica posizionale per rappresentare la posizione relativa 3D tra le due viste disaccoppiate. La cross-ricostruzione aumenta significativamente la difficoltà del pre-addestramento rispetto all'auto-ricostruzione, il che consente al nostro metodo di superare i precedenti metodi di auto-ricostruzione a modalità singola nell'apprendimento auto-supervisionato 3D. Nello specifico, supera la baseline di auto-ricostruzione (Point-MAE) del 6,5%, 7,0% e 6,7% in tre varianti di ScanObjectNN con il protocollo di valutazione Mlp-Linear. Il codice è disponibile all'indirizzo https://github.com/aHapBean/Point-PQAE.
La segmentazione accurata di organi e tumori nelle scansioni TC e RM è essenziale per la diagnosi, la pianificazione del trattamento e il monitoraggio delle malattie. Sebbene il deep learning abbia fatto progredire la segmentazione automatizzata, la maggior parte dei modelli rimane specifica per un compito, mancando di generalizzabilità tra modalità e istituzioni. I modelli di base (FMs) per la visione, pre-addestrati su immagini naturali su scala miliardaria, offrono rappresentazioni potenti e trasferibili. Tuttavia, adattarli alle immagini mediche presenta due sfide principali: (1) il backbone ViT della maggior parte dei modelli di base continua a essere inferiore rispetto alle CNN specializzate nella segmentazione di immagini mediche, e (2) il grande divario di dominio tra immagini naturali e mediche limita la trasferibilità. Introduciamo MedDINOv3, un framework semplice ed efficace per adattare DINOv3 alla segmentazione medica. In primo luogo, rivisitiamo i ViT semplici e progettiamo un'architettura efficace con aggregazione di token multi-scala. Successivamente, eseguiamo un pre-addestramento adattivo al dominio su CT-3M, una raccolta curata di 3,87 milioni di sezioni assiali TC, utilizzando una ricetta multi-stadio di DINOv3 per apprendere caratteristiche dense robuste. MedDINOv3 eguaglia o supera le prestazioni all'avanguardia su quattro benchmark di segmentazione, dimostrando il potenziale dei modelli di base per la visione come backbone unificati per la segmentazione di immagini mediche. Il codice è disponibile all'indirizzo https://github.com/ricklisz/MedDINOv3.
Il rilevamento di oggetti a grana fine in domini visivi complessi, come la valutazione dei danni ai veicoli, rappresenta una sfida formidabile anche per esperti umani da risolvere in modo affidabile. Sebbene DiffusionDet abbia fatto progredire lo stato dell'arte attraverso la diffusione condizionata di denoising, le sue prestazioni rimangono limitate dal condizionamento delle caratteristiche locali in scenari dipendenti dal contesto. Affrontiamo questa limitazione fondamentale introducendo la Context-Aware Fusion (CAF), che sfrutta meccanismi di cross-attention per integrare direttamente il contesto globale della scena con le caratteristiche delle proposte locali. Il contesto globale viene generato utilizzando un encoder dedicato separato che cattura informazioni ambientali complete, consentendo a ciascuna proposta di oggetto di prestare attenzione alla comprensione a livello di scena. Il nostro framework migliora significativamente il paradigma di rilevamento generativo, permettendo a ciascuna proposta di oggetto di considerare informazioni ambientali complete. I risultati sperimentali dimostrano un miglioramento rispetto ai modelli all'avanguardia sul benchmark CarDD, stabilendo nuovi standard di prestazione per il rilevamento di oggetti consapevole del contesto in domini a grana fine.