Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le capacità di ragionamento dei grandi modelli linguistici (LLM) sono da tempo un focus centrale della ricerca. Recenti lavori hanno ulteriormente migliorato queste capacità utilizzando l'apprendimento per rinforzo (RL), con molti nuovi metodi che vantano miglioramenti significativi con una supervisione esterna minima o assente. Sorprendentemente, alcuni studi suggeriscono persino che segnali di ricompensa casuali o errati possano migliorare le prestazioni di ragionamento. Tuttavia, queste scoperte sono principalmente riportate sulla famiglia di modelli Qwen2.5 e valutate su benchmark noti come MATH-500, AMC e AIME, mentre non riescono a ottenere risultati simili su altri modelli come Llama, il che richiede ulteriori indagini. La nostra analisi mostra che, sebbene Qwen2.5 raggiunga prestazioni solide nel ragionamento matematico, il suo pre-addestramento su corpora web su larga scala lo rende vulnerabile alla contaminazione dei dati nei benchmark popolari. Di conseguenza, i risultati derivati da questi benchmark potrebbero essere inaffidabili. Per affrontare questo problema, introduciamo un generatore che produce problemi aritmetici completamente sintetici di lunghezza e difficoltà arbitraria, creando un dataset pulito che chiamiamo RandomCalculation. Utilizzando questi dataset privi di perdite, dimostriamo che solo segnali di ricompensa accurati migliorano costantemente le prestazioni, mentre segnali rumorosi o errati non lo fanno. Sosteniamo la valutazione dei metodi RL su benchmark non contaminati e su diverse famiglie di modelli per garantire conclusioni affidabili.
Il ridimensionamento dei modelli linguistici sblocca capacità impressionanti, ma le relative esigenze computazionali e di memoria rendono sia l'addestramento che il dispiegamento costosi. Gli sforzi esistenti per l'efficienza si concentrano tipicamente sulla condivisione dei parametri o sul calcolo adattivo, lasciando aperta la questione di come ottenere entrambi simultaneamente. Introduciamo Mixture-of-Recursions (MoR), un framework unificato che combina i due assi dell'efficienza all'interno di un singolo Transformer ricorsivo. MoR riutilizza una pila condivisa di strati attraverso i passi di ricorsione per ottenere efficienza nei parametri, mentre router leggeri abilitano un pensiero adattivo a livello di token assegnando dinamicamente diverse profondità di ricorsione ai singoli token. Ciò consente a MoR di concentrare il calcolo quadratico dell'attenzione solo tra i token ancora attivi a una data profondità di ricorsione, migliorando ulteriormente l'efficienza dell'accesso alla memoria memorizzando selettivamente solo le loro coppie chiave-valore. Oltre a questi meccanismi principali, proponiamo anche una variante di condivisione KV che riutilizza le coppie KV dalla prima ricorsione, specificamente progettata per ridurre la latenza di prefill e l'impronta di memoria. Su scale di modelli che vanno da 135M a 1.7B parametri, MoR forma una nuova frontiera di Pareto: a pari FLOP di addestramento e dimensioni di modello più piccole, riduce significativamente la perplessità di validazione e migliora l'accuratezza few-shot, offrendo un throughput più elevato rispetto ai baseline ricorsivi esistenti e vanilla. Questi guadagni dimostrano che MoR è un percorso efficace verso la qualità dei modelli di grandi dimensioni senza incorrere nei costi dei modelli di grandi dimensioni.
Il rapido sviluppo di modelli su larga scala ha catalizzato significativi progressi nel dominio degli umani digitali. Queste metodologie avanzate offrono soluzioni ad alta fedeltà per la guida e il rendering di avatar, portando il mondo accademico a concentrarsi sulla prossima grande sfida: l'umano virtuale interattivo audio-visivo diadico. Per facilitare la ricerca in questo settore emergente, presentiamo il dataset SpeakerVid-5M, il primo dataset su larga scala e di alta qualità progettato per la generazione di umani virtuali interattivi audio-visivi diadici. Con un totale di oltre 8.743 ore, SpeakerVid-5M contiene più di 5,2 milioni di clip video di ritratti umani. Copre diverse scale e tipi di interazione, tra cui monologhi, ascolto e conversazioni diadiche. Fondamentalmente, il dataset è strutturato lungo due dimensioni chiave: tipo di interazione e qualità dei dati. In primo luogo, è suddiviso in quattro tipologie (ramo dialogo, ramo singolo, ramo ascolto e ramo multi-turn) in base allo scenario di interazione. In secondo luogo, è stratificato in un sottoinsieme su larga scala per il pre-training e un sottoinsieme curato e di alta qualità per il Fine-Tuning Supervisionato (SFT). Questa struttura duale si adatta a una vasta gamma di task per umani virtuali 2D. Inoltre, forniamo una baseline di chat video basata su autoregressione (AR) addestrata su questi dati, accompagnata da un set dedicato di metriche e dati di test per servire come benchmark VidChatBench per lavori futuri. Sia il dataset che il corrispondente codice di elaborazione dei dati saranno rilasciati pubblicamente. Pagina del progetto: https://dorniwang.github.io/SpeakerVid-5M/
I recenti modelli avanzati di visione e linguaggio (VLMs) hanno dimostrato prestazioni solide in compiti di comprensione passiva e offline di immagini e video. Tuttavia, la loro efficacia in contesti embodied, che richiedono interazione online e comprensione attiva della scena, rimane limitata. In tali scenari, un agente percepisce l'ambiente da una prospettiva in prima persona, con ogni azione che modella dinamicamente le osservazioni successive. Anche modelli all'avanguardia come GPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro faticano nelle interazioni in ambienti aperti, mostrando evidenti limitazioni nel ragionamento spaziale e nella pianificazione a lungo termine. Per colmare questa lacuna, introduciamo EmRACE-3K, un dataset di oltre 3.000 compiti guidati dal linguaggio situati in ambienti fotorealistici e diversificati, costruiti utilizzando Unreal Engine e il framework UnrealCV-Zoo. I compiti coprono una vasta gamma di sfide embodied, tra cui navigazione, manipolazione di oggetti ed esecuzione di obiettivi multi-stadio. Ogni compito si sviluppa come una traiettoria multi-step, abbinando osservazioni visive in prima persona a istruzioni di alto livello, azioni contestualizzate e razionalizzazioni in linguaggio naturale che esprimono l'intento dell'agente a ogni passo. Utilizzando EmRACE-3K, stabiliamo un benchmark per valutare le capacità di ragionamento embodied dei VLMs lungo tre dimensioni chiave: Esplorazione, Ragionamento Spaziale-Semantico Dinamico ed Esecuzione di Obiettivi Multi-stadio. In contesti zero-shot, tutti i modelli raggiungono tassi di successo inferiori al 20%, sottolineando la sfida posta dal nostro benchmark e le attuali limitazioni dei VLMs in ambienti interattivi. Per dimostrare l'utilità di EmRACE-3K, abbiamo ulteriormente affinato Qwen2.5-VL-7B utilizzando l'apprendimento supervisionato seguito da apprendimento per rinforzo. Questo approccio produce miglioramenti sostanziali in tutte e tre le categorie di sfida, evidenziando l'efficacia del dataset nello sviluppo di capacità di ragionamento embodied.
I recenti Large Reasoning Models (LRM) hanno ottenuto progressi significativi nei benchmark specifici per task, tuttavia i loro metodi di valutazione rimangono limitati da paradigmi di problem-solving isolati. I benchmark esistenti valutano principalmente il ragionamento su singole domande attraverso test sequenziali, risultando in limitazioni critiche: (1) vulnerabilità alla contaminazione dei dati e a sfide meno impegnative (ad esempio, DeepSeek-R1 raggiunge il 97,0% su MATH500), costringendo alla creazione costosa e perpetua di nuove domande con un grande sforzo umano, (2) incapacità di valutare i modelli sotto pressione multi-contesto, un requisito chiave per il dispiegamento nel mondo reale. Per colmare questa lacuna, presentiamo REST (Reasoning Evaluation through Simultaneous Testing), un framework di stress-test che espone contemporaneamente gli LRM a più problemi. Oltre al ragionamento di base, REST valuta specificamente diverse capacità poco testate: allocazione prioritaria contestuale, resistenza alle interferenze tra problemi e gestione dinamica del carico cognitivo. La nostra valutazione rivela diversi risultati sorprendenti: anche modelli all'avanguardia (SOTA) come DeepSeek-R1 mostrano un sostanziale degrado delle prestazioni sotto stress testing. Crucialmente, REST dimostra un potere discriminativo più forte rispetto ai benchmark esistenti, rivelando differenze marcate nelle prestazioni tra modelli che mostrano prestazioni simili e quasi al massimo sotto valutazioni a singola domanda. Alcune intuizioni meccanicistiche chiave emergono dalla nostra analisi: (1) la "trappola del sovrapensiero" è un fattore critico che contribuisce al degrado delle prestazioni; (2) i modelli addestrati con la tecnica "long2short" mantengono una maggiore accuratezza delle loro prestazioni a singolo problema sotto REST, superando le controparti addestrate in modo standard. Questi risultati stabiliscono REST come un paradigma di valutazione efficiente e futuro-resistente che riflette meglio le esigenze di ragionamento del mondo reale, riducendo al contempo la dipendenza dall'annotazione umana continua.
Presentiamo MoVieS, un nuovo modello feed-forward che sintetizza viste dinamiche 4D a partire da video monoculari in un secondo. MoVieS rappresenta scene 3D dinamiche utilizzando griglie allineate ai pixel di primitive gaussiane, supervisionando esplicitamente il loro movimento variabile nel tempo. Ciò consente, per la prima volta, la modellizzazione unificata di aspetto, geometria e movimento, e abilita la sintesi di viste, la ricostruzione e il tracciamento di punti 3D all'interno di un unico framework basato sull'apprendimento. Colmando il divario tra la sintesi di nuove viste e la ricostruzione della geometria dinamica, MoVieS permette un addestramento su larga scala su dataset diversificati con una dipendenza minima dalla supervisione specifica per il compito. Di conseguenza, supporta naturalmente una vasta gamma di applicazioni zero-shot, come la stima del flusso della scena e la segmentazione di oggetti in movimento. Esperimenti estensivi convalidano l'efficacia e l'efficienza di MoVieS su più compiti, raggiungendo prestazioni competitive mentre offre un'accelerazione di diversi ordini di grandezza.
I grandi modelli linguistici (LLM) eccellono nella comprensione e generazione del linguaggio naturale, ma rimangono vulnerabili a errori fattuali, limitando la loro affidabilità in compiti ad alta intensità di conoscenza. Sebbene le strategie di decodifica in fase di inferenza offrano una soluzione efficiente e promettente senza necessità di addestramento, i metodi esistenti trattano tipicamente i segnali a livello di token e di strato in modo isolato, trascurando la dinamica congiunta tra di essi. In questo lavoro, introduciamo un metodo di decodifica contrastiva consapevole dei token e localizzato a livello di strato, che allinea specifici tipi di token con gli strati del trasformatore che li influenzano maggiormente, al fine di migliorare la generazione di contenuti fattuali. Attraverso un'analisi empirica dell'attenzione, identifichiamo due pattern chiave: i token di punteggiatura ricevono un'attenzione dominante negli strati iniziali, mentre i token concettuali governano il ragionamento semantico negli strati intermedi. Sopprimendo selettivamente l'attenzione a questi tipi di token alle rispettive profondità, otteniamo l'induzione di una degradazione fattuale controllata e deriviamo segnali contrastivi per guidare la decodifica fattuale finale. Il nostro metodo non richiede ulteriore addestramento o modifiche al modello, e gli esperimenti dimostrano che il metodo migliora costantemente la fattualità su più LLM e vari benchmark.
Recentemente, il ruolo di LLM-as-judge nella valutazione dei grandi modelli linguistici ha acquisito importanza. Tuttavia, gli attuali modelli giudicanti soffrono di una specializzazione ristretta e di una robustezza limitata, compromettendo la loro capacità di valutazioni complete. In questo lavoro, presentiamo CompassJudger-2, un nuovo modello giudicante generalista che supera queste limitazioni attraverso una strategia di curatela dei dati multi-dominio guidata dai compiti. Elemento centrale del nostro approccio è la supervisione dei compiti di giudizio con ricompense verificabili, guidando il ragionamento critico intrinseco attraverso il campionamento di rifiuto per favorire capacità di giudizio robuste e generalizzabili. Introduciamo un obiettivo di apprendimento raffinato con una perdita di gradiente della politica a margine per migliorare le prestazioni. Empiricamente, CompassJudger-2 ottiene risultati superiori su più benchmark di giudizio e ricompensa, e il nostro modello da 7B dimostra un'accuratezza di giudizio competitiva con modelli significativamente più grandi come DeepSeek-V3 e Qwen3-235B-A22B. Inoltre, proponiamo JudgerBenchV2, un benchmark completo che valuta l'accuratezza del giudizio cross-dominio e la coerenza del ranking per standardizzare la valutazione dei modelli giudicanti. Questi contributi avanzano verso un giudizio LLM robusto e scalabile e stabiliscono nuovi standard di prestazione e valutazione.
Lo sviluppo dei Large Language Model (LLM) richiede benchmark robusti che comprendano non solo domini accademici ma anche campi industriali per valutare efficacemente la loro applicabilità in scenari reali. In questo articolo, introduciamo due benchmark di livello esperto per il contesto coreano. KMMLU-Redux, ricostruito a partire dall'esistente KMMLU, consiste in domande tratte dagli esami per le Qualifiche Tecniche Nazionali Coreane, con la rimozione di errori critici per migliorare l'affidabilità. KMMLU-Pro si basa invece sugli esami per le Licenze Professionali Nazionali Coreane, per riflettere la conoscenza professionale in Corea. I nostri esperimenti dimostrano che questi benchmark rappresentano in modo completo la conoscenza industriale in Corea. Rilasciamo pubblicamente il nostro dataset.
La generazione coerente del soggetto (SCG), che mira a mantenere un'identità del soggetto coerente attraverso scene diverse, rimane una sfida per i modelli di testo-immagine (T2I). I metodi SCG esistenti senza addestramento spesso raggiungono la coerenza a scapito della diversità di layout e pose, limitando la narrazione visiva espressiva. Per affrontare questa limitazione, proponiamo un framework T2I coerente con il soggetto e con pose diverse, denominato CoDi, che consente la generazione coerente del soggetto con pose e layout vari. Ispirati dalla natura progressiva della diffusione, in cui le strutture grossolane emergono precocemente e i dettagli fini vengono raffinati successivamente, CoDi adotta una strategia in due fasi: Trasporto dell'Identità (IT) e Raffinamento dell'Identità (IR). IT opera nei primi passi di denoising, utilizzando il trasporto ottimale per trasferire le caratteristiche dell'identità a ciascuna immagine target in modo consapevole della posa. Ciò promuove la coerenza del soggetto preservando la diversità delle pose. IR viene applicato nei passi successivi di denoising, selezionando le caratteristiche dell'identità più salienti per affinare ulteriormente i dettagli del soggetto. Risultati qualitativi e quantitativi estesi sulla coerenza del soggetto, la diversità delle pose e la fedeltà al prompt dimostrano che CoDi raggiunge sia una migliore percezione visiva che prestazioni più solide in tutte le metriche. Il codice è disponibile su https://github.com/NJU-PCALab/CoDi.
Presentiamo DreamPoster, un framework di generazione da testo a immagine che sintetizza in modo intelligente poster di alta qualità a partire da immagini e prompt testuali forniti dall'utente, mantenendo la fedeltà del contenuto e supportando output con risoluzione e layout flessibili. Nello specifico, DreamPoster è basato sul nostro modello T2I, Seedream3.0, per elaborare in modo uniforme diversi tipi di generazione di poster. Per la costruzione del dataset, proponiamo una pipeline di annotazione sistematica che annota con precisione il contenuto testuale e le informazioni gerarchiche tipografiche all'interno delle immagini dei poster, impiegando metodologie complete per costruire dataset accoppiati comprendenti materiali di partenza (ad esempio, grafiche/testi grezzi) e i loro corrispondenti output finali di poster. Inoltre, implementiamo una strategia di addestramento progressivo che consente al modello di acquisire gerarchicamente capacità di generazione multi-task mantenendo una generazione di alta qualità. Le valutazioni sui nostri benchmark di test dimostrano la superiorità di DreamPoster rispetto ai metodi esistenti, raggiungendo un tasso di usabilità elevato dell'88,55\%, rispetto a GPT-4o (47,56\%) e SeedEdit3.0 (25,96\%). DreamPoster sarà disponibile online su Jimeng e altre app di Bytedance.
Migliorare il ragionamento matematico dei Large Language Model (LLM) rappresenta una sfida cruciale per avanzare le capacità dell'IA. Sebbene il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo (RL) siano i paradigmi di addestramento dominanti, una metodologia sistematica per combinarli al fine di massimizzare sia l'accuratezza che l'efficienza rimane in gran parte inesplorata. Questo articolo introduce una ricetta di addestramento pratica ed efficace che integra strategicamente un SFT esteso con l'RL derivato dall'inferenza online (GRPO). Proponiamo che questi metodi svolgano ruoli complementari, non competitivi: una fase prolungata di SFT spinge inizialmente l'accuratezza del modello ai suoi limiti, dopodiché una fase di GRPO migliora drasticamente l'efficienza dei token preservando questa prestazione di picco. I nostri esperimenti rivelano che estendere l'SFT fino a 10 epoche è cruciale per ottenere progressi significativi nelle prestazioni, e che il ruolo principale del GRPO in questo framework è ottimizzare la lunghezza delle soluzioni. L'efficacia della nostra ricetta è rigorosamente validata attraverso prestazioni di alto livello su benchmark impegnativi, inclusa una posizione elevata tra oltre 2.200 team nell'AI Mathematical Olympiad (AIMO), rigorosamente privo di perdite di dati. Questo lavoro fornisce alla comunità una guida collaudata per sviluppare ragionatori matematici all'avanguardia che siano sia eccezionalmente accurati che praticamente efficienti. Per garantire la completa riproducibilità e favorire la ricerca futura, renderemo open-source l'intero framework, includendo tutto il codice, i checkpoint del modello e le configurazioni di addestramento su https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
Questo articolo presenta un metodo innovativo di steganografia eseguibile che utilizza il livello di trasparenza alfa dei file immagine ICO per incorporare e distribuire payload JavaScript auto-decomprimenti all'interno dei browser web. Mirando al bit meno significativo (LSB) dei valori dell'immagine nel livello alfa non trasparente, il metodo proposto riesce a nascondere codice JavaScript compresso all'interno di un'immagine favicon senza comprometterne la fedeltà visiva. Il traffico web globale carica 294 miliardi di favicon al giorno, consumando 0,9 petabyte di larghezza di banda di rete. Un'implementazione proof-of-concept dimostra che un'immagine ICO 64x64 può incorporare fino a 512 byte non compressi, o 0,8 kilobyte utilizzando una compressione leggera a due passaggi. Al caricamento della pagina, il browser recupera la favicon come parte del comportamento standard, consentendo a uno script di caricamento incorporato di estrarre ed eseguire il payload interamente in memoria utilizzando le API JavaScript native e l'accesso ai pixel della canvas. Ciò crea un canale covert in due fasi che non richiede ulteriori richieste di rete o interazioni dell'utente. Test condotti su più browser in ambienti desktop e mobili confermano l'esecuzione silenziosa e riuscita dello script incorporato. Valutiamo il modello di minaccia, lo colleghiamo ad attacchi di phishing polimorfici che eludono il rilevamento basato sulle favicon e analizziamo l'evasione delle politiche di sicurezza dei contenuti e degli scanner antivirus. Mappiamo nove obiettivi di esempio del MITRE ATT&CK Framework in una singola riga di JavaScript eseguibile arbitrariamente nei file ICO. Discutiamo le difese esistenti di steganalisi e sanificazione, evidenziando i limiti nel rilevare o neutralizzare gli exploit del canale alfa. I risultati dimostrano una superficie di attacco furtiva e riutilizzabile che sfuma i tradizionali confini tra immagini statiche e contenuti eseguibili. Poiché i browser moderni segnalano errori silenziosi quando gli sviluppatori non riescono specificamente a caricare i file ICO, questa superficie di attacco offre un esempio interessante di comportamenti web necessari che, a loro volta, compromettono la sicurezza.
Come risorse digitali di valore, le reti neurali profonde necessitano di una robusta protezione della proprietà, posizionando il watermarking delle reti neurali (NNW) come una soluzione promettente. Tra i vari approcci NNW, i metodi basati sui pesi sono preferiti per la loro semplicità e praticità; tuttavia, rimangono vulnerabili ad attacchi di falsificazione e sovrascrittura. Per affrontare queste sfide, proponiamo NeuralMark, un metodo robusto costruito attorno a un filtro di watermark basato su hash. Nello specifico, utilizziamo una funzione di hash per generare un watermark binario irreversibile da una chiave segreta, che viene poi utilizzato come filtro per selezionare i parametri del modello da incorporare. Questo design intreccia abilmente i parametri di incorporamento con il watermark hashato, fornendo una difesa robusta contro sia gli attacchi di falsificazione che di sovrascrittura. È stato anche incorporato un pooling medio per resistere ad attacchi di fine-tuning e pruning. Inoltre, può essere integrato senza problemi in varie architetture di reti neurali, garantendo un'ampia applicabilità. Teoricamente, analizziamo il suo confine di sicurezza. Empiricamente, ne verifichiamo l'efficacia e la robustezza su 13 distinte architetture convoluzionali e di Transformer, coprendo cinque task di classificazione di immagini e un task di generazione di testo. I codici sorgenti sono disponibili all'indirizzo https://github.com/AIResearch-Group/NeuralMark.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità impressionanti nella comprensione e generazione del linguaggio naturale, ma presentano problemi di coerenza logica negli output che producono. Come possiamo sfruttare la conoscenza parametrica ad ampio spettro degli LLM nel ragionamento formale nonostante la loro incoerenza? Presentiamo un metodo per integrare direttamente un LLM nella funzione di interpretazione della semantica formale per una logica paraconsistente. Forniamo evidenze sperimentali della fattibilità del metodo valutando la funzione utilizzando dataset creati da diversi benchmark di fattualità in forma breve. A differenza di lavori precedenti, il nostro metodo offre un quadro teorico per il ragionamento neuro-simbolico che sfrutta la conoscenza di un LLM preservando le proprietà di correttezza e completezza della logica sottostante.