Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo un miglioramento semplice ma teoricamente motivato al Fine-Tuning Supervisionato (SFT) per i Modelli Linguistici di Grande Scala (LLM), affrontando la sua limitata generalizzazione rispetto all'apprendimento per rinforzo (RL). Attraverso un'analisi matematica, riveliamo che i gradienti standard dell'SFT codificano implicitamente una struttura di ricompensa problematica che potrebbe limitare severamente le capacità di generalizzazione del modello. Per correggere ciò, proponiamo il Dynamic Fine-Tuning (DFT), stabilizzando gli aggiornamenti del gradiente per ogni token ridimensionando dinamicamente la funzione obiettivo con la probabilità di tale token. Notevolmente, questo cambiamento di una singola riga di codice supera significativamente l'SFT standard su molteplici benchmark impegnativi e modelli di base, dimostrando una generalizzazione notevolmente migliorata. Inoltre, il nostro approccio mostra risultati competitivi in contesti di RL offline, offrendo un'alternativa efficace ma più semplice. Questo lavoro collega intuizioni teoriche e soluzioni pratiche, avanzando sostanzialmente le prestazioni dell'SFT. Il codice sarà disponibile su https://github.com/yongliang-wu/DFT.
I Large Language Model (LLM) auto-evolventi offrono un percorso scalabile verso la super-intelligenza, generando, affinando e apprendendo in modo autonomo dalle proprie esperienze. Tuttavia, i metodi esistenti per addestrare tali modelli si basano ancora fortemente su un vasto numero di task e etichette curati dall'uomo, tipicamente attraverso il fine-tuning o l'apprendimento per rinforzo, il che rappresenta un collo di bottiglia fondamentale per far progredire i sistemi di IA verso capacità che superino l'intelligenza umana. Per superare questa limitazione, introduciamo R-Zero, un framework completamente autonomo che genera i propri dati di addestramento da zero. Partendo da un singolo LLM di base, R-Zero inizializza due modelli indipendenti con ruoli distinti: un Challenger e un Solver. Questi modelli vengono ottimizzati separatamente e co-evolvono attraverso l'interazione: il Challenger viene premiato per proporre task al limite delle capacità del Solver, mentre il Solver viene premiato per risolvere task sempre più complessi posti dal Challenger. Questo processo produce un curriculum mirato e auto-migliorante, senza alcun task o etichetta preesistente. Empiricamente, R-Zero migliora significativamente le capacità di ragionamento su diversi LLM di base, ad esempio incrementando il Qwen3-4B-Base di +6,49 su benchmark di ragionamento matematico e di +7,54 su benchmark di ragionamento in ambito generale.
Introduciamo Genie Envisioner (GE), una piattaforma unificata di base per la manipolazione robotica che integra l'apprendimento delle politiche, la valutazione e la simulazione all'interno di un unico framework generativo di video. Al suo nucleo, GE-Base è un modello di diffusione video su larga scala condizionato da istruzioni, che cattura le dinamiche spaziali, temporali e semantiche delle interazioni robotiche nel mondo reale in uno spazio latente strutturato. Costruito su questa base, GE-Act mappa le rappresentazioni latenti a traiettorie di azioni eseguibili attraverso un decoder leggero basato su flussi, consentendo un'inferenza precisa e generalizzabile delle politiche attraverso diverse incarnazioni con una supervisione minima. Per supportare valutazioni e addestramenti scalabili, GE-Sim funge da simulatore neurale condizionato dalle azioni, producendo rollout ad alta fedeltà per lo sviluppo di politiche a ciclo chiuso. La piattaforma è ulteriormente dotata di EWMBench, una suite di benchmark standardizzata che misura la fedeltà visiva, la consistenza fisica e l'allineamento istruzione-azione. Insieme, questi componenti stabiliscono Genie Envisioner come una base scalabile e pratica per l'intelligenza incarnata guidata da istruzioni e di scopo generale. Tutti i codici, i modelli e i benchmark saranno rilasciati pubblicamente.
Sebbene i Modelli Linguistico-Visivi (VLMs) dimostrino forti capacità percettive e un impressionante ragionamento visivo, faticano a prestare attenzione ai dettagli e a pianificare azioni precise in ambienti complessi e dinamici, portando a prestazioni inferiori. Le attività del mondo reale richiedono tipicamente interazioni complesse, ragionamento spaziale avanzato, pianificazione a lungo termine e un continuo affinamento della strategia, solitamente necessitando di una comprensione delle regole fisiche dello scenario di riferimento. Tuttavia, valutare queste capacità in scenari reali è spesso proibitivamente costoso. Per colmare questa lacuna, introduciamo DeepPHY, un nuovo framework di benchmark progettato per valutare sistematicamente la comprensione e il ragionamento dei VLMs sui principi fisici fondamentali attraverso una serie di ambienti simulati impegnativi. DeepPHY integra molteplici ambienti di ragionamento fisico con diversi livelli di difficoltà e incorpora metriche di valutazione granulari. La nostra valutazione rileva che anche i VLMs più avanzati faticano a tradurre la conoscenza fisica descrittiva in un controllo predittivo preciso.
Nonostante i rapidi progressi nella generazione di contenuti 3D, la valutazione della qualità degli asset 3D generati rimane una sfida. I metodi esistenti si basano principalmente su metriche basate su immagini e operano esclusivamente a livello di oggetto, limitando la loro capacità di catturare la coerenza spaziale, l'autenticità dei materiali e i dettagli locali ad alta fedeltà. 1) Per affrontare queste sfide, introduciamo Hi3DEval, un framework di valutazione gerarchico progettato per contenuti generativi 3D. Combina valutazioni sia a livello di oggetto che di parte, consentendo valutazioni olistiche su più dimensioni e un'analisi di qualità fine-grana. Inoltre, estendiamo la valutazione delle texture oltre l'aspetto estetico, valutando esplicitamente il realismo dei materiali, con un focus su attributi come l'albedo, la saturazione e la metallicità. 2) Per supportare questo framework, costruiamo Hi3DBench, un dataset su larga scala che comprende asset 3D diversificati e annotazioni di alta qualità, accompagnato da una pipeline di annotazione multi-agente affidabile. Proponiamo inoltre un sistema di punteggio automatico consapevole del 3D basato su rappresentazioni ibride 3D. Nello specifico, sfruttiamo rappresentazioni basate su video per valutazioni a livello di oggetto e di materiale per migliorare la modellazione della coerenza spazio-temporale e impieghiamo feature 3D pre-addestrate per la percezione a livello di parte. Esperimenti estensivi dimostrano che il nostro approccio supera le metriche basate su immagini esistenti nella modellazione delle caratteristiche 3D e raggiunge un allineamento superiore con le preferenze umane, fornendo un'alternativa scalabile alle valutazioni manuali. La pagina del progetto è disponibile all'indirizzo https://zyh482.github.io/Hi3DEval/.
Il benessere comprende dimensioni mentali, fisiche e sociali essenziali per la crescita personale e per prendere decisioni di vita informate. Poiché gli individui consultano sempre più i Modelli Linguistici di Grande Scala (LLM) per comprendere il benessere, emerge una sfida cruciale: gli LLM possono generare spiegazioni che non siano solo accurate, ma anche adattate a pubblici diversi? Spiegazioni di alta qualità richiedono sia correttezza fattuale che la capacità di soddisfare le aspettative di utenti con competenze variabili. In questo lavoro, costruiamo un dataset su larga scala composto da 43.880 spiegazioni di 2.194 concetti di benessere, generate da dieci LLM diversi. Introduciamo un framework di valutazione guidato da principi che utilizza LLM come giudici, impiegando doppi giudici per valutare la qualità delle spiegazioni. Inoltre, dimostriamo che il fine-tuning di un LLM open-source utilizzando il Fine-Tuning Supervisionato (SFT) e l'ottimizzazione diretta delle preferenze (DPO) può migliorare significativamente la qualità delle spiegazioni generate. I nostri risultati rivelano: (1) I giudici LLM proposti si allineano bene con le valutazioni umane; (2) la qualità delle spiegazioni varia significativamente tra modelli, pubblici e categorie; e (3) i modelli finetuned con DPO e SFT superano le loro controparti più grandi, dimostrando l'efficacia dell'apprendimento basato sulle preferenze per compiti specializzati di spiegazione.
I sistemi di Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) che utilizzano Modelli Linguistici Multimodali di Grande Scala (Multimodal Large Language Models, MLLMs) mostrano un grande potenziale per la comprensione complessa di documenti, ma il loro sviluppo è fortemente ostacolato da una valutazione inadeguata. Gli attuali benchmark si concentrano spesso su parti specifiche dei sistemi RAG per documenti e utilizzano dati sintetici con etichette di verità di base e prove incomplete, fallendo quindi nel riflettere i colli di bottiglia e le sfide del mondo reale. Per superare queste limitazioni, introduciamo Double-Bench: un nuovo sistema di valutazione su larga scala, multilingue e multimodale in grado di produrre una valutazione granulare per ciascun componente all'interno dei sistemi RAG per documenti. Esso comprende 3.276 documenti (72.880 pagine) e 5.168 query a singolo e multi-hop in 6 lingue e 4 tipi di documenti, con supporto dinamico per aggiornamenti semplificati per potenziali problemi di contaminazione dei dati. Le query sono basate su pagine di prove scansionate in modo esaustivo e verificate da esperti umani per garantire la massima qualità e completezza. I nostri esperimenti completi su 9 modelli di embedding all'avanguardia, 4 MLLM e 4 framework RAG per documenti end-to-end dimostrano che il divario tra i modelli di embedding testuali e visivi si sta riducendo, evidenziando la necessità di costruire modelli di recupero documentale più robusti. Le nostre scoperte rivelano anche il dilemma dell'eccessiva sicurezza all'interno degli attuali framework RAG per documenti, che tendono a fornire risposte anche senza supporto di prove. Speriamo che il nostro Double-Bench completamente open-source fornisca una base rigorosa per la ricerca futura sui sistemi RAG avanzati per documenti. Pianifichiamo di recuperare corpus tempestivi e rilasciare nuovi benchmark su base annuale.
Recentemente, i Large Reasoning Models (LRM) sono gradualmente diventati un punto focale della ricerca grazie alle loro prestazioni eccezionali nella gestione di compiti complessi. Tra questi, DeepSeek R1 ha attirato una significativa attenzione per le sue prestazioni straordinarie e la natura open-source, spingendo i progressi nella ricerca sugli LRM di tipo R1. A differenza dei tradizionali Large Language Models (LLM), questi modelli migliorano le capacità di deduzione logica e di decisione durante il ragionamento incorporando meccanismi come la lunga catena di pensiero e l'autoriflessione attraverso l'apprendimento per rinforzo. Tuttavia, con l'ampia applicazione di questi modelli, il problema del sovrapensiero è gradualmente emerso. Nello specifico, quando generano risposte, questi modelli spesso costruiscono catene di ragionamento eccessivamente lunghe con passaggi ridondanti o ripetitivi, il che porta a una ridotta efficienza del ragionamento e può influire sull'accuratezza della risposta finale. A tal fine, sono stati proposti vari metodi di ragionamento efficiente, con l'obiettivo di ridurre la lunghezza dei percorsi di ragionamento senza compromettere le prestazioni del modello e la capacità di ragionamento. Esaminando sistematicamente i progressi attuali della ricerca nel campo dei metodi di ragionamento efficiente, categorizziamo i lavori esistenti in due direzioni principali basate sull'ottica dell'ottimizzazione di un singolo modello rispetto alla collaborazione tra modelli: (1) Ragionamento Efficiente con Singolo Modello, che si concentra sul miglioramento dell'efficienza del ragionamento dei singoli modelli; e (2) Ragionamento Efficiente con Collaborazione tra Modelli, che esplora l'ottimizzazione dei percorsi di ragionamento attraverso la collaborazione tra più modelli. Inoltre, manteniamo un repository GitHub pubblico che traccia i progressi più recenti nei metodi di ragionamento efficiente.
Questo articolo presenta un sistema di sintesi vocale multifunzionale che integra la clonazione vocale e la sintesi vocale con controllo emotivo all'interno di un framework unificato. L'obiettivo di questo lavoro è affrontare le sfide di lunga data nel raggiungere una generazione vocale altamente espressiva, controllabile e naturale che preservi fedelmente l'identità del parlante in diversi contesti linguistici ed emotivi. Il nostro approccio introduce un efficace meccanismo di separazione tra parlante ed emozione con apprendimento contrastivo in batch, consentendo la manipolazione indipendente dell'identità del parlante e dello stile emotivo, nonché un metodo di integrazione di embedding emotivi rotazionali per un controllo fluido delle emozioni. Per supportare un addestramento e una valutazione completi, abbiamo costruito CSEMOTIONS, un dataset vocale emotivo di alta qualità contenente 10 ore di discorso in mandarino da sei parlanti professionisti in sette categorie emotive. Esperimenti estensivi dimostrano che il nostro sistema, Marco-Voice, raggiunge miglioramenti sostanziali sia nelle metriche oggettive che soggettive. Valutazioni e analisi complete sono state condotte, i risultati mostrano che MarcoVoice offre prestazioni competitive in termini di chiarezza del discorso e ricchezza emotiva, rappresentando un progresso significativo nel campo della sintesi vocale neurale espressiva.
Gli agenti autonomi che operano sui computer tramite Interfacce Grafiche Utente (GUI) spesso incontrano difficoltà in termini di efficienza e affidabilità quando affrontano compiti complessi e a lungo termine. Sebbene l'integrazione di pianificatori possa migliorare la scomposizione dei compiti, questi agenti rimangono limitati dalle restrizioni intrinseche dell'esecuzione di tutte le azioni tramite manipolazione della GUI, portando a fragilità e inefficienza. In questo lavoro, introduciamo un paradigma più robusto e flessibile: consentire agli agenti di utilizzare la codifica come azione potenziata. Presentiamo CoAct-1, un innovativo sistema multi-agente che combina sinergicamente il controllo basato su GUI con l'esecuzione programmatica diretta. CoAct-1 include un Orchestratore che delega dinamicamente i sottocompiti a un tradizionale Operatore GUI o a un agente Programmatore specializzato, in grado di scrivere ed eseguire script in Python o Bash. Questo approccio ibrido consente all'agente di bypassare sequenze di azioni GUI inefficienti per compiti come la gestione dei file e l'elaborazione dei dati, continuando a sfruttare l'interazione visiva quando necessario. Valutiamo il nostro sistema sul benchmark impegnativo OSWorld, dove CoAct-1 raggiunge un nuovo tasso di successo all'avanguardia del 60,76%, superando significativamente i metodi precedenti. Inoltre, il nostro approccio migliora drasticamente l'efficienza, riducendo il numero medio di passi necessari per completare un compito a soli 10,15, rispetto ai 15 degli agenti GUI leader. I nostri risultati dimostrano che integrare la codifica come azione centrale offre un percorso più potente, efficiente e scalabile verso l'automazione generalizzata dei computer.
I Large Multimodal Models (LMM) hanno registrato una crescita notevole, dimostrando capacità formidabili nel gestire complessi compiti multimodali con prestazioni eccezionali. Ricerche recenti hanno evidenziato la tendenza dei grandi modelli linguistici ad accettare passivamente input difettosi, spesso portando a ragionamenti infruttuosi su prompt non validi. Tuttavia, la stessa questione cruciale se i LMM possano rilevare e analizzare attivamente input errati rimane ancora inesplorata. Per colmare questa lacuna, introduciamo il Framework di Valutazione della Capacità di Scrutinio degli Input (ISEval), che comprende sette categorie di premesse difettose e tre metriche di valutazione. La nostra ampia valutazione di dieci LMM avanzati ha identificato risultati chiave. La maggior parte dei modelli fatica a rilevare attivamente premesse testuali difettose senza guida, riflettendo una forte dipendenza da prompt espliciti per l'identificazione degli errori nelle premesse. Il tipo di errore influisce sulle prestazioni: i modelli eccellono nell'identificare fallacie logiche ma hanno difficoltà con errori linguistici superficiali e alcuni difetti condizionali. La fiducia nella modalità varia: Gemini 2.5 pro e Claude Sonnet 4 bilanciano informazioni visive e testuali, mentre aya-vision-8b si affida eccessivamente al testo in caso di conflitti. Queste intuizioni sottolineano l'urgente necessità di migliorare la verifica proattiva della validità degli input da parte dei LMM e offrono nuove prospettive per mitigare il problema. Il codice è disponibile all'indirizzo https://github.com/MLGroupJLU/LMM_ISEval.
La segmentazione di oggetti video (VOS) mira a segmentare oggetti target specifici lungo un intero video. Sebbene i metodi più avanzati abbiano raggiunto prestazioni impressionanti (ad esempio, oltre il 90% in J&F) su benchmark esistenti come DAVIS e YouTube-VOS, questi dataset contengono principalmente oggetti salienti, dominanti e isolati, limitando la loro generalizzazione a scenari del mondo reale. Per portare la VOS verso ambienti più realistici, è stato introdotto coMplex video Object SEgmentation (MOSEv1) per facilitare la ricerca sulla VOS in scene complesse. Basandoci sui punti di forza e sui limiti di MOSEv1, presentiamo MOSEv2, un dataset significativamente più impegnativo progettato per far progredire ulteriormente i metodi VOS in condizioni reali. MOSEv2 è composto da 5.024 video e oltre 701.976 maschere di alta qualità per 10.074 oggetti appartenenti a 200 categorie. Rispetto al suo predecessore, MOSEv2 introduce una complessità di scena molto maggiore, includendo una più frequente scomparsa e ricomparsa degli oggetti, occlusioni e affollamenti severi, oggetti più piccoli, nonché una serie di nuove sfide come condizioni meteorologiche avverse (ad esempio, pioggia, neve, nebbia), scene in condizioni di scarsa illuminazione (ad esempio, notturno, sott'acqua), sequenze multi-shot, oggetti mimetizzati, target non fisici (ad esempio, ombre, riflessi), scenari che richiedono conoscenze esterne, ecc. Abbiamo valutato 20 metodi rappresentativi di VOS in 5 diverse configurazioni e osservato cali di prestazioni consistenti. Ad esempio, SAM2 scende dal 76,4% su MOSEv1 a solo il 50,9% su MOSEv2. Abbiamo inoltre valutato 9 metodi di tracciamento di oggetti video e riscontrato cali simili, dimostrando che MOSEv2 presenta sfide trasversali ai compiti. Questi risultati evidenziano che, nonostante l'elevata accuratezza sui dataset esistenti, i metodi VOS attuali faticano ancora di fronte alle complessità del mondo reale. MOSEv2 è disponibile pubblicamente all'indirizzo https://MOSE.video.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato impressionanti capacità di ragionamento su un'ampia gamma di compiti complessi. Tuttavia, migliorare queste capacità attraverso il post-training rimane un processo ad alta intensità di risorse, in particolare in termini di dati e costi computazionali. Sebbene recenti sforzi abbiano cercato di migliorare l'efficienza del campionamento attraverso una selezione mirata dei dati, i metodi esistenti spesso si basano su strategie euristiche o specifiche per il compito, limitando la scalabilità. In questo lavoro, introduciamo InfiAlign, un framework di post-training scalabile ed efficiente dal punto di vista del campionamento, che integra il fine-tuning supervisionato (SFT) con l'ottimizzazione diretta delle preferenze (DPO) per allineare gli LLM e potenziarne il ragionamento. Al centro di InfiAlign si trova una pipeline robusta per la selezione dei dati, che cura automaticamente dati di allineamento di alta qualità da dataset di ragionamento open-source utilizzando metriche di qualità multidimensionali. Questa pipeline consente significativi miglioramenti delle prestazioni riducendo drasticamente i requisiti di dati e rimane estensibile a nuove fonti di dati. Applicato al modello Qwen2.5-Math-7B-Base, il nostro modello SFT raggiunge prestazioni paragonabili a DeepSeek-R1-Distill-Qwen-7B, utilizzando solo circa il 12% dei dati di addestramento, e dimostra una forte generalizzazione su diversi compiti di ragionamento. Ulteriori miglioramenti sono ottenuti attraverso l'applicazione del DPO, con progressi particolarmente significativi nei compiti di ragionamento matematico. Il modello raggiunge un miglioramento medio del 3,89% sui benchmark AIME 24/25. I nostri risultati evidenziano l'efficacia della combinazione di una selezione dei dati basata su principi con un post-training completo, offrendo una soluzione pratica per allineare modelli di ragionamento di grandi dimensioni in modo scalabile ed efficiente dal punto di vista dei dati. I checkpoint del modello sono disponibili all'indirizzo https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Un supporto clienti efficace richiede non solo una risoluzione accurata dei problemi, ma anche una comunicazione strutturata ed empatica allineata agli standard professionali. Tuttavia, i dataset di dialogo esistenti spesso mancano di una guida strategica, e i dati di servizio del mondo reale sono difficili da accedere e annotare. Per affrontare questo problema, introduciamo il task di Conversazione di Supporto Clienti (CSC), finalizzato a formare gli agenti di servizio clienti a rispondere utilizzando strategie di supporto ben definite. Proponiamo un framework strutturato per il CSC basato sulle linee guida COPC, definendo cinque fasi conversazionali e dodici strategie per guidare interazioni di alta qualità. Sulla base di ciò, costruiamo CSConv, un dataset di valutazione composto da 1.855 conversazioni reali tra clienti e agenti riscritte utilizzando LLM per riflettere un uso deliberato delle strategie, e annotate di conseguenza. Inoltre, sviluppiamo un approccio di role-playing che simula conversazioni ricche di strategie utilizzando ruoli alimentati da LLM allineati con il framework CSC, risultando nel dataset di addestramento RoleCS. Gli esperimenti dimostrano che il fine-tuning di LLM avanzati su RoleCS migliora significativamente la loro capacità di generare risposte di alta qualità e allineate alle strategie su CSConv. Le valutazioni umane confermano ulteriormente i miglioramenti nella risoluzione dei problemi. Tutto il codice e i dati saranno resi pubblicamente disponibili su https://github.com/aliyun/qwen-dianjin.
I modelli linguistici di ragionamento (R-LLM) hanno compiuto progressi significativi nei compiti di ragionamento complesso, ma spesso incontrano difficoltà con la veridicità, generando sostanzialmente più allucinazioni rispetto alle loro controparti non orientate al ragionamento nei benchmark di veridicità a lungo termine. Tuttavia, estendere l'apprendimento per rinforzo online (RL), un componente chiave nei recenti progressi degli R-LLM, al contesto della veridicità a lungo termine presenta diverse sfide uniche a causa della mancanza di metodi di verifica affidabili. Precedenti lavori hanno utilizzato framework di valutazione automatica della veridicità come FActScore per curare dati di preferenza nell'ambito dell'RL offline, ma abbiamo riscontrato che l'utilizzo diretto di tali metodi come ricompensa nell'RL online porta a manipolazioni della ricompensa in vari modi, come la produzione di risposte meno dettagliate o pertinenti. Proponiamo una nuova funzione di ricompensa che considera simultaneamente la precisione fattuale, il livello di dettaglio della risposta e la pertinenza della risposta, e applica l'RL online per apprendere un ragionamento fattuale di alta qualità. Valutato su sei benchmark di veridicità a lungo termine, il nostro modello di ragionamento fattuale ottiene una riduzione media del 23,1% nel tasso di allucinazioni, un aumento del 23% nel livello di dettaglio delle risposte e nessun degrado nell'utilità complessiva delle risposte.
La generazione realistica di ciocche di capelli è cruciale per applicazioni come la computer grafica e la realtà virtuale. Sebbene i modelli di diffusione possano generare acconciature a partire da testo o immagini, questi input mancano di precisione e facilità d'uso. Proponiamo invece il primo modello di generazione di ciocche basato su schizzi, che offre un controllo più fine mantenendo al contempo la facilità d'uso. Il nostro framework affronta sfide chiave, come la modellazione di interazioni complesse tra ciocche e pattern di schizzi variabili, attraverso due principali innovazioni: una strategia di upsampling apprendibile delle ciocche che codifica le ciocche 3D in spazi latenti multi-scala, e un meccanismo di condizionamento adattivo multi-scala che utilizza un transformer con teste di diffusione per garantire coerenza tra i livelli di granularità. Esperimenti su diversi dataset di benchmark dimostrano che il nostro metodo supera gli approcci esistenti in termini di realismo e precisione. I risultati qualitativi ne confermano ulteriormente l'efficacia. Il codice sarà rilasciato su [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
La compressione di immagini basata su modelli di diffusione ha dimostrato prestazioni percettive impressionanti. Tuttavia, soffre di due criticità principali: (1) un'eccessiva latenza di decodifica dovuta al campionamento multi-step, e (2) una scarsa fedeltà risultante da un'eccessiva dipendenza da prior generativi. Per affrontare questi problemi, proponiamo SODEC, un innovativo modello di compressione di immagini a diffusione a singolo passo. Sosteniamo che, nella compressione di immagini, un latente sufficientemente informativo rende superfluo il raffinamento multi-step. Basandoci su questa intuizione, sfruttiamo un modello pre-addestrato basato su VAE per produrre latenti ricchi di informazioni, e sostituiamo il processo iterativo di denoising con una decodifica a singolo passo. Nel frattempo, per migliorare la fedeltà, introduciamo il modulo di guida alla fedeltà, che incoraggia un output fedele all'immagine originale. Inoltre, progettiamo la strategia di addestramento con rate annealing per consentire un allenamento efficace a bitrate estremamente bassi. Esperimenti estensivi dimostrano che SODEC supera significativamente i metodi esistenti, raggiungendo prestazioni superiori in termini di rapporto rate-distortion-perception. Inoltre, rispetto ai precedenti modelli di compressione basati su diffusione, SODEC migliora la velocità di decodifica di oltre 20 volte. Il codice è disponibile all'indirizzo: https://github.com/zhengchen1999/SODEC.
La Segmentazione delle Espressioni di Riferimento (RES) mira a segmentare le regioni di un'immagine specificate da espressioni di riferimento ed è diventata popolare con l'ascesa dei modelli multimodali di grandi dimensioni (MLLMs). Sebbene gli MLLMs eccellano nella comprensione semantica, il loro paradigma di generazione di token fatica con la previsione densa a livello di pixel. I metodi RES esistenti accoppiano gli MLLMs con il Segment Anything Model (SAM), che ha 632 milioni di parametri di rete, oppure adottano pipeline leggere senza SAM che sacrificano l'accuratezza. Per affrontare il compromesso tra prestazioni e costi, proponiamo specificamente MLLMSeg, un nuovo framework che sfrutta appieno le caratteristiche visive dettagliate intrinseche codificate nell'encoder visivo dell'MLLM senza introdurre un encoder visivo aggiuntivo. Inoltre, proponiamo un modulo di fusione delle caratteristiche potenziato nei dettagli e coerente a livello semantico (DSFF) che integra pienamente la caratteristica visiva relativa ai dettagli con la caratteristica semantica prodotta dal modello linguistico di grandi dimensioni (LLM) dell'MLLM. Infine, stabiliamo un decoder di maschera leggero con soli 34 milioni di parametri di rete che sfrutta in modo ottimale le caratteristiche spaziali dettagliate dell'encoder visivo e le caratteristiche semantiche dell'LLM per ottenere una previsione precisa della maschera. Esperimenti estensivi dimostrano che il nostro metodo supera generalmente sia i concorrenti basati su SAM che quelli senza SAM, raggiungendo un migliore equilibrio tra prestazioni e costi. Il codice è disponibile all'indirizzo https://github.com/jcwang0602/MLLMSeg.
Le prestazioni dei Large Language Model (LLM) sono significativamente sensibili alla posizione contestuale delle informazioni nell'input. Per indagare il meccanismo alla base di questo bias posizionale, i nostri ampi esperimenti rivelano un fenomeno consistente che abbiamo denominato "attention basin": quando viene presentata una sequenza di elementi strutturati (ad esempio, documenti recuperati o esempi few-shot), i modelli assegnano sistematicamente un'attenzione maggiore agli elementi all'inizio e alla fine della sequenza, trascurando quelli nel mezzo. In modo cruciale, la nostra analisi rivela ulteriormente che l'allocazione di un'attenzione maggiore alle informazioni critiche è fondamentale per migliorare le prestazioni del modello. Sulla base di queste intuizioni, introduciamo l'Attention-Driven Reranking (AttnRank), un framework a due fasi che (i) stima le preferenze intrinseche di attenzione posizionale di un modello utilizzando un piccolo set di calibrazione, e (ii) riordina i documenti recuperati o gli esempi few-shot per allineare il contenuto più rilevante con queste posizioni ad alta attenzione. AttnRank è un metodo model-agnostic, privo di addestramento e plug-and-play, con un sovraccarico computazionale minimo. Gli esperimenti su task di multi-hop QA e few-shot in-context learning dimostrano che AttnRank ottiene miglioramenti sostanziali su 10 grandi modelli linguistici con architetture e scale diverse, senza modificare i parametri del modello o le procedure di addestramento.
I modelli visione-linguaggio (VLMs) esistenti, siano essi generalisti o specializzati, rimangono limitati dalla loro scala parametrica, mancano di robuste capacità di autocorrezione e ottengono prestazioni inferiori in compiti che coinvolgono contesti visivi lunghi e ragionamenti complessi, risultando in prestazioni subottimali nei compiti basati su documenti. Per affrontare questo problema, proponiamo MACT, un framework di Collaborazione Multi-Agente con ridimensionamento al momento del test, progettato specificamente per la comprensione visiva di documenti e la risposta a domande visive (VQA). Esso comprende quattro agenti distinti su piccola scala, ovvero agenti di pianificazione, esecuzione, giudizio e risposta, con ruoli chiaramente definiti e una collaborazione efficace. In particolare, l'agente di giudizio verifica esclusivamente la correttezza e reindirizza agli agenti precedenti per le revisioni, superando le strategie di correzione convenzionali. Per espandere ulteriormente i confini delle capacità del framework, proponiamo un modello di ricompensa mista che bilancia le abilità specifiche degli agenti e la collaborazione globale, nonché un ridimensionamento ibrido al momento del test per ogni agente, che personalizza diverse strategie di ridimensionamento in base alle loro funzioni. Valutato su benchmark che coprono sia contesti basati su documenti che non basati su documenti, il nostro MACT mostra prestazioni superiori con una scala parametrica più piccola senza sacrificare la capacità di compiti generali e matematici. In particolare, si distingue nei benchmark che coinvolgono contesti visivi lunghi e ragionamenti complessi. Le tre varianti di MACT occupano costantemente le prime tre posizioni nelle medie dei punteggi, guidando in 13 dei 15 benchmark. Il codice sarà disponibile all'indirizzo: https://github.com/YU-deep/MACT.git.
La redazione delle Informazioni Personali Identificabili (PII) da testi non strutturati è fondamentale per garantire la privacy dei dati in ambiti regolamentati. Mentre approcci precedenti si sono basati su sistemi basati su regole e modelli di Riconoscimento di Entità Nominate (NER) specifici per dominio, questi metodi non riescono a generalizzare tra formati e contesti. I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) offrono un'alternativa promettente, ma l'effetto delle scelte architetturali e di addestramento sulle prestazioni di redazione rimane poco esplorato. Gli LLM hanno dimostrato forti prestazioni in compiti che richiedono una comprensione contestuale del linguaggio, inclusa la redazione delle PII in testi liberi. Studi precedenti suggeriscono che, con un adattamento appropriato, gli LLM possono diventare efficaci apprenditori contestuali della privacy. Tuttavia, le conseguenze delle scelte architetturali e di addestramento per la Redazione delle PII rimangono poco esplorate. In questo lavoro, presentiamo un'analisi completa degli LLM come sistemi di Redazione delle PII che preservano la privacy. Valutiamo una gamma di architetture LLM e strategie di addestramento per la loro efficacia nella Redazione delle PII. La nostra analisi misura le prestazioni di redazione, la preservazione semantica e la fuoriuscita di PII, e confronta questi risultati con la latenza e il costo computazionale. I risultati forniscono indicazioni pratiche per configurare redattori basati su LLM che siano accurati, efficienti e consapevoli della privacy. Per supportare la riproducibilità e il dispiegamento nel mondo reale, rilasciamo PRvL, una suite open-source di modelli fine-tuned e strumenti di valutazione per la Redazione delle PII a scopo generale. PRvL è interamente costruito su LLM open-source e supporta molteplici impostazioni di inferenza per flessibilità e conformità. È progettato per essere facilmente personalizzabile per diversi domini e completamente operabile all'interno di ambienti sicuri e autogestiti. Ciò consente ai proprietari dei dati di eseguire redazioni senza fare affidamento su servizi di terze parti o esporre contenuti sensibili al di fuori della propria infrastruttura.
L'emergenza di modelli di ragionamento e la loro integrazione in chatbot pratici di intelligenza artificiale ha portato a progressi significativi nella risoluzione di problemi avanzati di matematica, ricerca approfondita e risposte a domande estrattive che richiedono un processo di pensiero complesso e multi-step. Tuttavia, manca ancora una comprensione completa del motivo per cui questi modelli "allucinano" più rispetto ai modelli linguistici generici. In questo studio investigativo, esploriamo sistematicamente i fallimenti di ragionamento dei modelli linguistici contemporanei in compiti di risposta a domande multi-hop. Introduciamo un nuovo e sfumato framework di categorizzazione degli errori che esamina i fallimenti attraverso tre dimensioni critiche: la diversità e unicità dei documenti sorgente coinvolti ("hops"), la completezza nella cattura delle informazioni rilevanti ("copertura") e l'inefficienza cognitiva ("overthinking"). Attraverso un'annotazione umana rigorosa, supportata da metriche automatizzate complementari, la nostra esplorazione rivela intricati schemi di errore spesso nascosti da valutazioni centrate sull'accuratezza. Questo approccio investigativo fornisce approfondimenti più profondi sulle limitazioni cognitive dei modelli attuali e offre indicazioni pratiche per migliorare la fedeltà, la trasparenza e la robustezza del ragionamento nei futuri sforzi di modellazione linguistica.
Il collegamento multimodale di entità svolge un ruolo cruciale in un'ampia gamma di applicazioni. I recenti progressi nei metodi basati su modelli linguistici di grandi dimensioni sono diventati il paradigma dominante per questo compito, sfruttando efficacemente sia le modalità testuali che visive per migliorare le prestazioni. Nonostante il loro successo, questi metodi affrontano ancora due sfide, tra cui l'incorporazione non necessaria di dati immagine in determinati scenari e la dipendenza solo da un'estrazione una tantum di caratteristiche visive, che può comprometterne l'efficacia e l'accuratezza. Per affrontare queste sfide, proponiamo un nuovo framework basato su LLM per il compito di collegamento multimodale di entità, chiamato Intra- and Inter-modal Collaborative Reflections. Questo framework dà priorità allo sfruttamento delle informazioni testuali per affrontare il compito. Quando il testo da solo non è sufficiente per collegare l'entità corretta attraverso valutazioni intra- e inter-modalità, utilizza una strategia iterativa multi-round che integra indizi visivi chiave da vari aspetti dell'immagine per supportare il ragionamento e migliorare l'accuratezza del matching. Esperimenti estesi su tre ampiamente utilizzati dataset pubblici dimostrano che il nostro framework supera costantemente i metodi attuali all'avanguardia nel compito, ottenendo miglioramenti rispettivamente del 3,2%, 5,1% e 1,6%. Il nostro codice è disponibile all'indirizzo https://github.com/ziyan-xiaoyu/I2CR/.
Questo articolo introduce un benchmark completo per valutare come i Large Language Models (LLM) rispondono agli shibboleth linguistici: marcatori linguistici sottili che possono rivelare involontariamente attributi demografici come genere, classe sociale o provenienza regionale. Attraverso simulazioni di interviste accuratamente costruite utilizzando 100 coppie domanda-risposta validate, dimostriamo come i LLM penalizzino sistematicamente determinati schemi linguistici, in particolare il linguaggio di mitigazione, nonostante la qualità equivalente del contenuto. Il nostro benchmark genera variazioni linguistiche controllate che isolano fenomeni specifici mantenendo l'equivalenza semantica, consentendo così la misurazione precisa del bias demografico nei sistemi di valutazione automatizzati. Validiamo il nostro approccio lungo molteplici dimensioni linguistiche, mostrando che le risposte mitigate ricevono valutazioni inferiori in media del 25,6%, e dimostriamo l'efficacia del benchmark nell'identificare bias specifici dei modelli. Questo lavoro stabilisce un framework fondamentale per rilevare e misurare la discriminazione linguistica nei sistemi di intelligenza artificiale, con ampie applicazioni nell'equità nei contesti di decision-making automatizzato.
L'analisi robusta delle componenti principali (RPCA) scompone una matrice di osservazione in componenti di sfondo a basso rango e componenti sparse degli oggetti. Questa capacità ha permesso la sua applicazione in compiti che vanno dal ripristino delle immagini alla segmentazione. Tuttavia, i modelli tradizionali di RPCA soffrono di oneri computazionali causati dalle operazioni matriciali, dalla dipendenza da iperparametri finemente sintonizzati e da presupposti rigidi che limitano l'adattabilità in scenari dinamici. Per risolvere queste limitazioni, proponiamo RPCANet++, un framework di segmentazione di oggetti sparsi che fonde l'interpretabilità della RPCA con architetture profonde efficienti. Il nostro approccio sviluppa un modello RPCA rilassato in una rete strutturata composta da un Modulo di Approssimazione dello Sfondo (BAM), un Modulo di Estrazione degli Oggetti (OEM) e un Modulo di Ripristino dell'Immagine (IRM). Per mitigare la perdita di trasmissione inter-stadio nel BAM, introduciamo un Modulo Aumentato dalla Memoria (MAM) per migliorare la preservazione delle caratteristiche dello sfondo, mentre un Modulo di Priorità di Contrasto Profondo (DCPM) sfrutta indizi di salienza per accelerare l'estrazione degli oggetti. Esperimenti estesi su diversi dataset dimostrano che RPCANet++ raggiunge prestazioni all'avanguardia in vari scenari di imaging. Miglioriamo ulteriormente l'interpretabilità attraverso misurazioni visive e numeriche di basso rango e sparsità. Combinando i punti di forza teorici della RPCA con l'efficienza delle reti profonde, il nostro approccio stabilisce un nuovo riferimento per una segmentazione affidabile e interpretabile di oggetti sparsi. I codici sono disponibili sulla nostra Pagina del Progetto https://fengyiwu98.github.io/rpcanetx.
I sistemi di traduzione simultanea del parlato (SimulST) elaborano l'audio in streaming mentre emettono simultaneamente testo o parlato tradotto. Tali sistemi affrontano la significativa sfida di bilanciare qualità della traduzione e latenza. Introduciamo una strategia per ottimizzare questo compromesso: attendere ulteriori input solo se si ottiene informazione farlo. Basandoci su questa strategia, presentiamo Regularized Entropy INformation Adaptation (REINA), una nuova funzione di perdita per addestrare una politica adattiva utilizzando un modello di traduzione non in streaming esistente. Deriviamo REINA dai principi della teoria dell'informazione e dimostriamo che REINA aiuta a spingere la frontiera di Pareto riportata del compromesso latenza/qualità oltre i lavori precedenti. Utilizzando REINA, addestriamo un modello SimulST su francese, spagnolo e tedesco, sia da che verso l'inglese. Addestrando solo su dati open source o generati sinteticamente, otteniamo risultati in streaming all'avanguardia (SOTA) per modelli di dimensioni comparabili. Introduciamo anche una metrica per l'efficienza dello streaming, mostrando quantitativamente che REINA migliora il compromesso latenza/qualità fino al 21% rispetto agli approcci precedenti, normalizzato rispetto ai punteggi BLEU di riferimento non in streaming.