Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Phi-4-Mini e Phi-4-Multimodal, modelli linguistici e multimodali compatti ma altamente performanti. Phi-4-Mini è un modello linguistico da 3,8 miliardi di parametri addestrato su dati web di alta qualità e dati sintetici, che supera significativamente i recenti modelli open-source di dimensioni simili eguagliando le prestazioni di modelli di dimensioni doppie in compiti di matematica e codifica che richiedono ragionamenti complessi. Questo risultato è ottenuto grazie a una ricetta di dati sintetici accuratamente curata, che enfatizza dataset di alta qualità per matematica e codifica. Rispetto al suo predecessore, Phi-3.5-Mini, Phi-4-Mini presenta una dimensione del vocabolario ampliata a 200K token per supportare meglio applicazioni multilingue, oltre a un'attenzione a query di gruppo per una generazione più efficiente di sequenze lunghe. Phi-4-Multimodal è un modello multimodale che integra modalità di input testuali, visive e vocali/audio in un unico modello. Il suo innovativo approccio di estensione modale sfrutta adattatori LoRA e router specifici per modalità, consentendo molteplici modalità di inferenza che combinano varie modalità senza interferenze. Ad esempio, attualmente si colloca al primo posto nella classifica OpenASR, nonostante il componente LoRA della modalità vocale/audio abbia solo 460 milioni di parametri. Phi-4-Multimodal supporta scenari che coinvolgono input (visione + linguaggio), (visione + voce) e (voce/audio), superando modelli visione-linguaggio e voce-linguaggio più grandi in un'ampia gamma di compiti. Inoltre, sperimentiamo un ulteriore addestramento di Phi-4-Mini per potenziare le sue capacità di ragionamento. Nonostante le sue dimensioni compatte di 3,8 miliardi di parametri, questa versione sperimentale raggiunge prestazioni di ragionamento pari o superiori a modelli significativamente più grandi, tra cui DeepSeek-R1-Distill-Qwen-7B e DeepSeek-R1-Distill-Llama-8B.
Il Reinforcement Fine-Tuning (RFT) nei modelli di ragionamento su larga scala come OpenAI o1 apprende dai feedback sulle sue risposte, risultando particolarmente utile in applicazioni in cui i dati per il fine-tuning sono scarsi. Recenti lavori open-source come DeepSeek-R1 dimostrano che l'apprendimento per rinforzo con ricompense verificabili è una direzione chiave per riprodurre o1. Sebbene il modello in stile R1 abbia dimostrato successo nei modelli linguistici, la sua applicazione in domini multi-modali rimane poco esplorata. Questo lavoro introduce il Visual Reinforcement Fine-Tuning (Visual-RFT), che estende ulteriormente le aree di applicazione dell'RFT ai compiti visivi. Nello specifico, il Visual-RFT utilizza prima i Large Vision-Language Models (LVLMs) per generare multiple risposte contenenti token di ragionamento e risposte finali per ogni input, e poi impiega le nostre funzioni di ricompensa verificabile basate sulla percezione visiva per aggiornare il modello tramite algoritmi di ottimizzazione delle politiche come il Group Relative Policy Optimization (GRPO). Progettiamo diverse funzioni di ricompensa verificabile per diversi compiti di percezione, come la ricompensa Intersection over Union (IoU) per il rilevamento di oggetti. I risultati sperimentali su classificazione di immagini fine-grained, rilevamento di oggetti few-shot, grounding del ragionamento e benchmark di rilevamento di oggetti open-vocabulary mostrano le prestazioni competitive e la capacità di generalizzazione avanzata del Visual-RFT rispetto al Supervised Fine-Tuning (SFT). Ad esempio, il Visual-RFT migliora l'accuratezza del 24,3% rispetto alla baseline nella classificazione fine-grained one-shot con circa 100 campioni. Nel rilevamento di oggetti few-shot, il Visual-RFT supera anche la baseline di 21,9 nel setting two-shot di COCO e di 15,4 su LVIS. Il nostro Visual-RFT rappresenta un cambio di paradigma nel fine-tuning degli LVLMs, offrendo un approccio guidato dalle ricompense ed efficiente in termini di dati che migliora il ragionamento e l'adattabilità per compiti specifici del dominio.
I Neural Radiance Fields e il 3D Gaussian Splatting hanno rivoluzionato la ricostruzione 3D e il compito di sintesi di nuove viste. Tuttavia, ottenere rendering fotorealistici da punti di vista estremamente nuovi rimane una sfida, poiché artefatti persistono tra le diverse rappresentazioni. In questo lavoro, introduciamo Difix3D+, una nuova pipeline progettata per migliorare la ricostruzione 3D e la sintesi di nuove viste attraverso modelli di diffusione a singolo passo. Al centro del nostro approccio c'è Difix, un modello di diffusione di immagini a singolo passo addestrato per migliorare e rimuovere gli artefatti nelle viste renderizzate causati da regioni sottoconvincolate della rappresentazione 3D. Difix svolge due ruoli critici nella nostra pipeline. In primo luogo, viene utilizzato durante la fase di ricostruzione per ripulire le pseudo-viste di addestramento che vengono renderizzate dalla ricostruzione e poi distillate nuovamente in 3D. Ciò migliora notevolmente le regioni sottoconvincolate e aumenta la qualità complessiva della rappresentazione 3D. Ancora più importante, Difix agisce anche come potenziatore neurale durante l'inferenza, rimuovendo efficacemente gli artefatti residui derivanti da una supervisione 3D imperfetta e dalla capacità limitata degli attuali modelli di ricostruzione. Difix3D+ è una soluzione generale, un singolo modello compatibile sia con le rappresentazioni NeRF che con il 3DGS, e raggiunge un miglioramento medio di 2 volte nel punteggio FID rispetto ai baseline, mantenendo la coerenza 3D.
L'inferenza al momento del test è emersa come un paradigma potente per consentire ai modelli linguistici di "pensare" più a lungo e con maggiore attenzione a sfide complesse, in modo simile a esperti umani qualificati. Sebbene l'apprendimento per rinforzo (RL) possa guidare l'auto-miglioramento nei modelli linguistici su compiti verificabili, alcuni modelli mostrano guadagni sostanziali mentre altri raggiungono rapidamente un plateau. Ad esempio, scopriamo che Qwen-2.5-3B supera di gran lunga Llama-3.2-3B sotto un addestramento RL identico per il gioco del Countdown. Questa discrepanza solleva una domanda cruciale: quali proprietà intrinseche consentono un efficace auto-miglioramento? Introduciamo un framework per investigare questa questione analizzando quattro comportamenti cognitivi chiave -- verifica, backtracking, definizione di sottobiettivi e concatenazione all'indietro -- che sia i risolutori di problemi umani esperti che i modelli linguistici di successo impiegano. Il nostro studio rivela che Qwen mostra naturalmente questi comportamenti di ragionamento, mentre Llama inizialmente ne è privo. In esperimenti sistematici con dataset comportamentali controllati, scopriamo che il priming di Llama con esempi contenenti questi comportamenti di ragionamento consente miglioramenti sostanziali durante l'RL, eguagliando o superando le prestazioni di Qwen. È importante notare che la presenza di comportamenti di ragionamento, piuttosto che la correttezza delle risposte, si rivela essere il fattore critico -- i modelli preparati con soluzioni errate ma contenenti schemi di ragionamento appropriati raggiungono prestazioni comparabili a quelli addestrati su soluzioni corrette. Infine, sfruttando un pretraining continuo con dati OpenWebMath, filtrati per amplificare i comportamenti di ragionamento, il modello Llama riesce a eguagliare la traiettoria di auto-miglioramento di Qwen. Le nostre scoperte stabiliscono una relazione fondamentale tra i comportamenti di ragionamento iniziali e la capacità di miglioramento, spiegando perché alcuni modelli linguistici utilizzano efficacemente ulteriori risorse computazionali mentre altri raggiungono un plateau.
La generazione di sequenze ultra-lunghe con modelli linguistici di grandi dimensioni (LLM) è diventata sempre più cruciale, ma rimane un compito estremamente dispendioso in termini di tempo, specialmente per sequenze fino a 100K token. Sebbene esistano metodi tradizionali di decodifica speculativa, il semplice estendere i loro limiti di generazione non accelera il processo e può risultare controproducente. Attraverso un'analisi approfondita, abbiamo identificato tre principali sfide che ostacolano una generazione efficiente: il frequente ricaricamento del modello, la gestione dinamica delle chiavi-valori (KV) e la generazione ripetitiva. Per affrontare questi problemi, introduciamo TOKENSWIFT, un nuovo framework progettato per accelerare significativamente il processo di generazione di sequenze ultra-lunghe, mantenendo la qualità intrinseca del modello target. I risultati sperimentali dimostrano che TOKENSWIFT raggiunge un'accelerazione di oltre 3 volte su modelli di varie dimensioni (1.5B, 7B, 8B, 14B) e architetture (MHA, GQA). Questa accelerazione si traduce in ore di risparmio di tempo per la generazione di sequenze ultra-lunghe, stabilendo TOKENSWIFT come una soluzione scalabile ed efficace a lunghezze senza precedenti. Il codice è disponibile all'indirizzo https://github.com/bigai-nlco/TokenSwift.
I recenti progressi nella generazione musicale hanno attirato una significativa attenzione, ma gli approcci esistenti presentano limitazioni critiche. Alcuni modelli generativi attuali possono sintetizzare solo la traccia vocale o quella di accompagnamento. Sebbene alcuni modelli siano in grado di generare combinazioni di voce e accompagnamento, si basano tipicamente su architetture a cascata multi-stadio meticolosamente progettate e pipeline di dati complesse, ostacolando la scalabilità. Inoltre, la maggior parte dei sistemi è limitata alla generazione di brevi segmenti musicali piuttosto che di canzoni complete. In aggiunta, i metodi basati su modelli linguistici ampiamente utilizzati soffrono di velocità di inferenza lenta. Per affrontare queste sfide, proponiamo DiffRhythm, il primo modello di generazione di canzoni basato su diffusione latente in grado di sintetizzare canzoni complete con sia voce che accompagnamento per durate fino a 4m45s in soli dieci secondi, mantenendo un'elevata musicalità e intelligibilità. Nonostante le sue notevoli capacità, DiffRhythm è progettato per essere semplice ed elegante: elimina la necessità di una preparazione complessa dei dati, utilizza una struttura modellistica diretta e richiede solo testi e un prompt di stile durante l'inferenza. Inoltre, la sua struttura non autoregressiva garantisce velocità di inferenza rapide. Questa semplicità assicura la scalabilità di DiffRhythm. Inoltre, rilasciamo il codice completo di addestramento insieme al modello pre-addestrato su dati su larga scala per promuovere la riproducibilità e ulteriori ricerche.
Recentemente, i sistemi di raccomandazione basati su retrieval generativo sono emersi come un paradigma promettente. Tuttavia, la maggior parte dei moderni sistemi di raccomandazione adotta una strategia di recupero e classificazione, in cui il modello generativo funge solo da selettore durante la fase di recupero. In questo articolo, proponiamo OneRec, che sostituisce il framework di apprendimento a cascata con un modello generativo unificato. Per quanto ne sappiamo, questo è il primo modello generativo end-to-end che supera significativamente i complessi e ben progettati sistemi di raccomandazione attuali in scenari reali. Nello specifico, OneRec include: 1) una struttura encoder-decoder, che codifica le sequenze di comportamento storico dell'utente e decodifica gradualmente i video che potrebbero interessare l'utente. Adottiamo una versione sparsa di Mixture-of-Experts (MoE) per scalare la capacità del modello senza aumentare proporzionalmente i FLOP computazionali. 2) un approccio di generazione per sessione. A differenza della tradizionale previsione del prossimo elemento, proponiamo una generazione per sessione, che è più elegante e coerente dal punto di vista contestuale rispetto alla generazione punto per punto che si basa su regole artigianali per combinare correttamente i risultati generati. 3) un modulo di Allineamento Iterativo delle Preferenze combinato con l'ottimizzazione diretta delle preferenze (DPO) per migliorare la qualità dei risultati generati. A differenza del DPO nel NLP, un sistema di raccomandazione ha tipicamente una sola opportunità di visualizzare i risultati per ogni richiesta di navigazione dell'utente, rendendo impossibile ottenere campioni positivi e negativi simultaneamente. Per affrontare questa limitazione, abbiamo progettato un modello di ricompensa per simulare la generazione dell'utente e personalizzare la strategia di campionamento. Esperimenti estensivi hanno dimostrato che un numero limitato di campioni DPO può allineare le preferenze di interesse dell'utente e migliorare significativamente la qualità dei risultati generati. Abbiamo implementato OneRec nella scena principale di Kuaishou, ottenendo un aumento dell'1,6% nel tempo di visualizzazione, che rappresenta un miglioramento sostanziale.
La stima dell'incertezza è cruciale per valutare i Modelli Linguistici di Grande Dimensione (LLM), specialmente in domini ad alto rischio dove risposte errate comportano conseguenze significative. Numerosi approcci affrontano questo problema, concentrandosi su un tipo specifico di incertezza e trascurandone altri. Investigiamo quali stime, in particolare l'entropia a livello di token e il modello come giudice (MASJ), siano efficaci per compiti di risposta a domande a scelta multipla su diversi argomenti. I nostri esperimenti considerano tre LLM: Phi-4, Mistral e Qwen, di dimensioni variabili da 1,5B a 72B, e 14 argomenti. Mentre il MASJ si comporta in modo simile a un predittore di errore casuale, l'entropia della risposta predice l'errore del modello in domini dipendenti dalla conoscenza e funge da indicatore efficace della difficoltà della domanda: per la biologia, l'ROC AUC è 0,73. Questa correlazione scompare per i domini dipendenti dal ragionamento: per le domande di matematica, l'ROC AUC è 0,55. Più fondamentalmente, abbiamo scoperto che la misura dell'entropia richiede una certa quantità di ragionamento. Pertanto, l'entropia legata all'incertezza dei dati dovrebbe essere integrata nei framework di stima dell'incertezza, mentre il MASJ necessita di affinamenti. Inoltre, i campioni esistenti di MMLU-Pro sono distorti e dovrebbero bilanciare la quantità di ragionamento richiesta per diversi sottodomini per fornire una valutazione più equa delle prestazioni degli LLM.
I Transformer con modellazione ricorrente lineare offrono un addestramento in tempo lineare e un'inferenza a memoria costante. Nonostante la loro efficienza e prestazioni dimostrate, il pretraining di tali architetture non standard da zero rimane costoso e rischioso. La linearizzazione di grandi modelli linguistici (LLM) trasforma i modelli standard preaddestrati in strutture ricorrenti lineari, consentendo un dispiegamento più efficiente. Tuttavia, i metodi di linearizzazione attuali introducono tipicamente moduli aggiuntivi di mappatura delle caratteristiche che richiedono un'estesa messa a punto e trascurano i meccanismi di gating utilizzati nei modelli ricorrenti lineari all'avanguardia. Per affrontare questi problemi, questo articolo presenta Liger, abbreviazione di Linearizing LLMs to gated recurrent structures. Liger è un approccio innovativo per convertire LLM preaddestrati in modelli ricorrenti lineari con gating senza aggiungere parametri extra. Riusa i pesi della matrice chiave preaddestrata per costruire diversi meccanismi di gating, facilitando la formazione di varie strutture ricorrenti con gating ed evitando la necessità di addestrare componenti aggiuntivi da zero. Utilizzando una messa a punto leggera con Low-Rank Adaptation (LoRA), Liger ripristina le prestazioni dei modelli ricorrenti lineari con gating per eguagliare quelle degli LLM originali. Inoltre, introduciamo Liger Attention, un meccanismo di attenzione ibrida intra-strato, che recupera significativamente il 93\% dell'LLM basato su Transformer con lo 0.02\% dei token di pretraining durante il processo di linearizzazione, ottenendo risultati competitivi su più benchmark, come validato su modelli che vanno da 1B a 8B parametri. Il codice è disponibile all'indirizzo https://github.com/OpenSparseLLMs/Linearization.
I modelli di diffusione hanno ottenuto un grande successo nella generazione di immagini 2D. Tuttavia, la qualità e la generalizzabilità della generazione di contenuti 3D rimangono limitate. I metodi all'avanguardia spesso richiedono asset 3D su larga scala per l'addestramento, che sono difficili da raccogliere. In questo lavoro, introduciamo Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un framework efficiente per generare, modificare e migliorare oggetti 3D riutilizzando un modello di diffusione di immagini 2D ben addestrato per la generazione 3D. Nello specifico, ottimizziamo un modello di diffusione per generare "3D Bundle Image", una rappresentazione affiancata composta da immagini multi-vista e le loro mappe normali corrispondenti. Le mappe normali vengono quindi utilizzate per ricostruire una mesh 3D, e le immagini multi-vista forniscono il mapping delle texture, risultando in un modello 3D completo. Questo metodo semplice trasforma efficacemente il problema della generazione 3D in un compito di generazione di immagini 2D, massimizzando l'utilizzo delle conoscenze nei modelli di diffusione pre-addestrati. Inoltre, dimostriamo che il nostro modello Kiss3DGen è compatibile con varie tecniche di modelli di diffusione, abilitando funzionalità avanzate come la modifica 3D, il miglioramento di mesh e texture, ecc. Attraverso esperimenti estesi, dimostriamo l'efficacia del nostro approccio, mostrando la sua capacità di produrre modelli 3D di alta qualità in modo efficiente.
Aumentare il calcolo durante il test è un approccio diretto per migliorare la qualità delle risposte nei Modelli Linguistici di Grande Scala (LLM). Sebbene il campionamento Best-of-N e la Self-Consistency con voto a maggioranza siano semplici ed efficaci, richiedono un numero fisso di risposte campionate per ogni query, indipendentemente dalla sua complessità. Ciò potrebbe portare a uno spreco di calcolo per domande più semplici e a un'esplorazione insufficiente per quelle più complesse. In questo lavoro, sosteniamo che la fiducia del modello nelle risposte può essere utilizzata per migliorare l'efficienza del ridimensionamento durante il test. Sfortunatamente, è noto che i LLM tendono a essere eccessivamente sicuri di sé e forniscono stime di fiducia inaffidabili. Per affrontare questa limitazione, introduciamo la Self-Calibration distillando la fiducia derivata dalla Self-Consistency nel modello stesso. Ciò consente una stima affidabile della fiducia durante il test con un solo passaggio in avanti. Progettiamo quindi metodi efficienti di ridimensionamento durante il test basati sulla fiducia per gestire query di varia difficoltà, come l'Early-Stopping per Best-of-N e la Self-Consistency con fiducia calibrata. Esperimenti su tre LLM attraverso sei dataset dimostrano l'efficacia del nostro approccio. In particolare, applicare l'Early Stopping basato sulla fiducia a Best-of-N migliora l'accuratezza di MathQA da 81,0 a 83,6 con un budget di 16 risposte campionate, indicando l'efficacia della strategia di campionamento basata sulla fiducia durante l'inferenza.
La selezione di dati di addestramento di alta qualità da un insieme più ampio è un passaggio cruciale quando si effettua il fine-tuning di modelli linguistici su istruzioni, poiché dataset accuratamente curati spesso producono modelli che superano quelli addestrati su dataset molto più grandi e rumorosi. Gli approcci automatizzati per la selezione dei dati nel fine-tuning su istruzioni sono tipicamente testati selezionando piccoli dataset (circa 10k campioni) da pool ridotti (100-200k campioni). Tuttavia, i modelli popolari con fine-tuning su istruzioni spesso si addestrano su centinaia di migliaia o milioni di campioni, sottocampionati da pool di dati ancora più ampi. Presentiamo uno studio sistematico su come i metodi di selezione dei dati si adattano a queste impostazioni, selezionando fino a 2,5 milioni di campioni da pool di fino a 5,8 milioni di campioni e valutando su 7 task diversi. Dimostriamo che molti metodi proposti di recente non superano la selezione casuale in questo contesto (pur utilizzando più risorse computazionali), e addirittura peggiorano le prestazioni quando hanno accesso a pool di dati più ampi da cui selezionare. Tuttavia, scopriamo che una variante della selezione dei dati basata su rappresentazioni (RDS+), che utilizza il pooling ponderato degli stati nascosti di un modello linguistico preaddestrato, supera costantemente metodi più complessi in tutte le impostazioni testate, pur essendo più efficiente dal punto di vista computazionale. I nostri risultati evidenziano che le proprietà di scalabilità dei metodi di selezione automatizzati proposti dovrebbero essere esaminate più attentamente. Rilasciamo il nostro codice, dati e modelli all'indirizzo https://github.com/hamishivi/automated-instruction-selection.
I grandi modelli linguistici (LLM) dimostrano prestazioni eccezionali in un'ampia gamma di compiti; tuttavia, il loro processo di generazione autoregressiva token per token riduce significativamente la velocità di inferenza. Il decoding speculativo rappresenta un promettente framework di bozza-then-verifica che riduce la latenza di generazione mantenendo la fedeltà della distribuzione dell'output. Ciononostante, il modello di bozza introduce un sovraccarico computazionale aggiuntivo, diventando un collo di bottiglia delle prestazioni e aumentando il tempo al primo token (TTFT). Gli approcci precedenti per mitigare il sovraccarico del modello di bozza si sono principalmente basati su euristiche e generalmente non sono riusciti a eguagliare la qualità dei modelli linguistici di bozza. Per affrontare queste sfide, proponiamo DuoDecoding, un approccio innovativo che impiega strategicamente i modelli di bozza e target rispettivamente su CPU e GPU, consentendo il decoding parallelo preservando la qualità della bozza. Il nostro metodo incorpora un budget ottimale di bozza consapevole dell'hardware per minimizzare i tempi di inattività e utilizza la generazione dinamica di bozze multi-sequenza per migliorare la qualità della bozza. Esperimenti estesi su sette compiti dimostrano che DuoDecoding raggiunge un'accelerazione fino a 2,61x nella latenza di generazione, riducendo il TTFT all'83% rispetto al decoding speculativo convenzionale. Il codice è disponibile all'indirizzo https://github.com/KaiLv69/DuoDecoding.
L'analisi di grandi dataset richiede un'esecuzione rapida delle query, ma l'esecuzione di query SQL su dataset di dimensioni massive può essere lenta. Questo articolo esplora se l'esecuzione delle query possa iniziare ancora prima che l'utente abbia terminato di digitare, consentendo ai risultati di apparire quasi istantaneamente. Proponiamo SpeQL, un sistema che sfrutta i Large Language Model (LLM) per prevedere le query più probabili in base allo schema del database, alle query passate dell'utente e alla query incompleta che sta digitando. Poiché la previsione esatta della query è impossibile, SpeQL specula sulle query parziali in due modi: 1) prevede la struttura della query per compilare e pianificare le query in anticipo, e 2) precalcola tabelle temporanee più piccole, molto meno estese rispetto al database originale, ma che si prevede contengano tutte le informazioni necessarie per rispondere alla query finale dell'utente. Inoltre, SpeQL visualizza continuamente i risultati per le query e le sottoquery speculati in tempo reale, facilitando l'analisi esplorativa. Uno studio di utilità/utente ha dimostrato che SpeQL ha migliorato il tempo di completamento delle attività, e i partecipanti hanno riferito che la visualizzazione speculativa dei risultati li ha aiutati a scoprire modelli nei dati più rapidamente. Nello studio, SpeQL ha ridotto la latenza delle query dell'utente fino a 289 volte e ha mantenuto un sovraccarico ragionevole, pari a 4$ all'ora.
Le comunità di contenuti generati dagli utenti (UGC), in particolare quelle che presentano contenuti multimodali, migliorano l'esperienza utente integrando informazioni visive e testuali nei risultati (o elementi). La sfida di migliorare l'esperienza utente in sistemi complessi con servizi di ricerca e raccomandazione (S&R) ha attirato notevole attenzione sia dal mondo accademico che dall'industria negli ultimi anni. Tuttavia, la mancanza di dataset di alta qualità ha limitato i progressi della ricerca sul S&R multimodale. Per rispondere alla crescente necessità di sviluppare servizi S&R migliori, presentiamo in questo articolo un nuovo dataset per il recupero di informazioni multimodali, denominato Qilin. Il dataset è stato raccolto da Xiaohongshu, una popolare piattaforma sociale con oltre 300 milioni di utenti attivi mensili e un tasso di penetrazione della ricerca medio superiore al 70%. A differenza dei dataset esistenti, Qilin offre una raccolta completa di sessioni utente con risultati eterogenei come note con immagini e testo, note video, note commerciali e risposte dirette, facilitando lo sviluppo di modelli neurali avanzati per il recupero multimodale in diversi contesti di task. Per modellare meglio la soddisfazione dell'utente e supportare l'analisi di comportamenti utente eterogenei, abbiamo anche raccolto ampi segnali contestuali a livello di APP e feedback autentici degli utenti. In particolare, Qilin contiene risposte preferite dagli utenti e i risultati a cui si riferiscono per richieste di ricerca che attivano il modulo Deep Query Answering (DQA). Ciò consente non solo l'addestramento e la valutazione di una pipeline Retrieval-augmented Generation (RAG), ma anche l'esplorazione di come un tale modulo influenzi il comportamento di ricerca degli utenti. Attraverso analisi e esperimenti completi, forniamo risultati e spunti interessanti per ulteriori miglioramenti dei sistemi S&R. Speriamo che Qilin contribuisca significativamente al progresso delle piattaforme di contenuti multimodali con servizi S&R in futuro.
I metodi esistenti di miscelazione dei dati di pre-addestramento per i grandi modelli linguistici (LLM) seguono tipicamente un approccio basato sui domini, un processo top-down che determina prima i pesi dei domini e poi esegue un campionamento uniforme dei dati all'interno di ciascun dominio. Tuttavia, questi approcci trascurano significative sovrapposizioni e comunanze inter-dominio, non riuscendo a controllare la diversità globale del dataset di addestramento costruito. Inoltre, il campionamento uniforme all'interno dei domini ignora le caratteristiche specifiche a livello di campione, potenzialmente portando a una distribuzione dei dati subottimale. Per affrontare queste carenze, proponiamo un nuovo approccio di miscelazione dei dati a livello di campione basato su un paradigma bottom-up. Questo metodo esegue un campionamento globale inter-dominio valutando sistematicamente la qualità e la diversità di ciascun campione, determinando così dinamicamente la distribuzione ottimale dei domini. Esperimenti completi su più task downstream e valutazioni di perplessità dimostrano che SampleMix supera i metodi esistenti basati sui domini. Nel frattempo, SampleMix richiede da 1,4x a 2,1x passi di addestramento per raggiungere le prestazioni dei baseline, evidenziando il potenziale sostanziale di SampleMix per ottimizzare i dati di pre-addestramento.
I modelli generativi text-to-video convertono prompt testuali in contenuti visivi dinamici, offrendo applicazioni estese nella produzione cinematografica, nei videogiochi e nell'istruzione. Tuttavia, le loro prestazioni nel mondo reale spesso non soddisfano le aspettative degli utenti. Una ragione chiave è che questi modelli non sono stati addestrati su video relativi ad alcuni argomenti che gli utenti desiderano creare. In questo articolo, proponiamo VideoUFO, il primo dataset video specificamente curato per allinearsi al focus degli utenti in scenari reali. Oltre a ciò, VideoUFO presenta anche: (1) una sovrapposizione minima (0,29%) con i dataset video esistenti, e (2) video ricercati esclusivamente tramite l'API ufficiale di YouTube sotto licenza Creative Commons. Questi due attributi offrono ai futuri ricercatori una maggiore libertà per ampliare le loro fonti di addestramento. VideoUFO comprende oltre 1,09 milioni di clip video, ciascuna associata sia a una didascalia breve che a una descrizione dettagliata. Nello specifico, attraverso il clustering, abbiamo identificato 1.291 argomenti focalizzati sugli utenti dal dataset VidProM, che contiene milioni di prompt text-to-video reali. Successivamente, abbiamo utilizzato questi argomenti per recuperare video da YouTube, suddiviso i video recuperati in clip e generato didascalie brevi e dettagliate per ciascuna clip. Dopo aver verificato le clip con gli argomenti specificati, abbiamo ottenuto circa 1,09 milioni di clip video. I nostri esperimenti rivelano che (1) i 16 modelli text-to-video attuali non raggiungono prestazioni consistenti su tutti gli argomenti focalizzati sugli utenti; e (2) un semplice modello addestrato su VideoUFO supera gli altri sugli argomenti con le peggiori prestazioni. Il dataset è disponibile pubblicamente all'indirizzo https://huggingface.co/datasets/WenhaoWang/VideoUFO sotto la licenza CC BY 4.0.
I Large Language Model (LLM) hanno rivoluzionato la generazione di codice grazie alla sinergia tra la loro eccezionale comprensione del linguaggio naturale e della sintassi di programmazione, aumentando significativamente la produttività degli sviluppatori. Questi progressi hanno stimolato numerosi sforzi per valutare quantitativamente le loro capacità di codifica. Tuttavia, sfide persistenti, come la diffusione dei benchmark, la dissipazione dei dati e l'accessibilità limitata dei sistemi, continuano a ostacolare una valutazione tempestiva e accurata. Per affrontare queste limitazioni, presentiamo CodeArena, un framework di valutazione online progettato per la generazione di codice tramite LLM. L'innovazione chiave è un meccanismo di valutazione collettiva, che ricalibra dinamicamente i punteggi individuali dei modelli basandosi sulle prestazioni complessive di tutti i modelli partecipanti, mitigando i bias nei punteggi causati dalla diffusione diffusa dei benchmark. Inoltre, CodeArena garantisce l'accesso aperto a tutte le soluzioni e ai casi di test inviati e fornisce API compatibili con l'automazione per semplificare il flusso di lavoro di valutazione del codice. I nostri principali contributi sono: (1) un sistema di valutazione collettiva per una valutazione imparziale, (2) un repository pubblico di soluzioni e casi di test, e (3) API pronte per l'automazione per un'integrazione senza soluzione di continuità.
I metodi esistenti per la generazione automatica di audio faticano a produrre efficacemente programmi audio simili a podcast. Le principali sfide risiedono nella generazione di contenuti approfonditi e nella produzione vocale appropriata ed espressiva. Questo articolo propone PodAgent, un framework completo per la creazione di programmi audio. PodAgent 1) genera contenuti informativi di discussione su argomenti specifici progettando un sistema di collaborazione multi-agente Host-Ospite-Scrittore, 2) crea un pool di voci per un abbinamento vocale-ruolo adeguato e 3) utilizza un metodo di sintesi vocale potenziato da LLM per generare un parlato conversazionale espressivo. Data l'assenza di criteri di valutazione standardizzati per la generazione di audio simile a podcast, abbiamo sviluppato linee guida di valutazione complete per valutare efficacemente le prestazioni del modello. I risultati sperimentali dimostrano l'efficacia di PodAgent, superando significativamente la generazione diretta con GPT-4 nei contenuti di dialogo su argomenti specifici, raggiungendo una precisione del 87,4% nell'abbinamento vocale e producendo un parlato più espressivo attraverso la sintesi guidata da LLM. Pagina demo: https://podcast-agent.github.io/demo/. Codice sorgente: https://github.com/yujxx/PodAgent.
Mentre i modelli generativi basati sulla verosimiglianza, in particolare i modelli di diffusione e autoregressivi, hanno raggiunto una fedeltà straordinaria nella generazione visiva, l'obiettivo di massima verosimiglianza (MLE) soffre intrinsecamente di una tendenza alla copertura dei modi che limita la qualità della generazione in presenza di capacità del modello limitata. In questo lavoro, proponiamo l'Optimizzazione Diretta Discriminativa (DDO) come un framework unificato che collega l'addestramento generativo basato sulla verosimiglianza e l'obiettivo GAN per superare questo vincolo fondamentale. La nostra intuizione chiave è quella di parametrizzare un discriminatore implicitamente utilizzando il rapporto di verosimiglianza tra un modello target apprendibile e un modello di riferimento fisso, tracciando parallelismi con la filosofia dell'Optimizzazione Diretta delle Preferenze (DPO). A differenza delle GAN, questa parametrizzazione elimina la necessità di un addestramento congiunto delle reti generatore e discriminatore, consentendo una messa a punto diretta, efficiente ed efficace di un modello ben addestrato fino al suo pieno potenziale oltre i limiti dell'MLE. Il DDO può essere eseguito iterativamente in modalità self-play per un affinamento progressivo del modello, con ogni round che richiede meno dell'1% delle epoche di pre-addestramento. I nostri esperimenti dimostrano l'efficacia del DDO migliorando significativamente il precedente modello di diffusione SOTA EDM, riducendo i punteggi FID da 1.79/1.58 a nuovi record di 1.30/0.97 sui dataset CIFAR-10/ImageNet-64, e migliorando costantemente sia gli FID senza guida che quelli potenziati da CFG dei modelli autoregressivi visivi su ImageNet 256x256.
Questo articolo indaga il potenziale dei grandi modelli linguistici (LLM) di sviluppare linguaggi tonali privati per la comunicazione macchina-macchina (M2M). Ispirati dalla criptofasia nei gemelli umani (che colpisce fino al 50% delle nascite gemellari) e dai linguaggi tonali naturali come il mandarino e il vietnamita, implementiamo un sistema preciso di mappatura carattere-frequenza che codifica l'intero set di caratteri ASCII (32-126) utilizzando semitoni musicali. Ogni carattere è assegnato a una frequenza unica, creando una progressione logaritmica che inizia con lo spazio (220 Hz) e termina con la tilde (50.175,42 Hz). Questo copre approssimativamente 7,9 ottave, con i caratteri più alti deliberatamente mappati a frequenze ultrasoniche oltre la percezione umana (>20 kHz). Il nostro prototipo software implementato dimostra questa codifica attraverso visualizzazione, riproduzione uditiva e notazione musicale ABC, consentendo l'analisi della densità informativa e della velocità di trasmissione. I test rivelano che la codifica tonale può raggiungere tassi di informazione superiori al parlato umano operando parzialmente al di fuori dei limiti percettivi umani. Questo lavoro risponde direttamente alle preoccupazioni riguardo ai sistemi di IA che potrebbero sviluppare catastroficamente linguaggi privati entro i prossimi cinque anni, fornendo un esempio concreto di prototipo software su come tale comunicazione potrebbe funzionare e le basi tecniche necessarie per la sua emersione, rilevazione e governance.
I Large Language Model (LLM) hanno dimostrato un'utilità impressionante nel mondo reale, incarnando quella che potremmo definire intelligenza artificiale utile (AUI, Artificial Useful Intelligence). Tuttavia, la loro capacità di ragionare in modo adattivo e robusto – caratteristiche distintive dell'intelligenza artificiale generale (AGI, Artificial General Intelligence) – rimane fragile. Sebbene i LLM sembrino avere successo nel ragionamento di senso comune, nella programmazione e nella matematica, faticano a generalizzare la comprensione algoritmica in contesti nuovi. I nostri esperimenti con compiti algoritmici in linguaggi di programmazione esoterici rivelano che il ragionamento dei LLM è eccessivamente adattato ai dati di addestramento e ha una limitata trasferibilità. Ipotesizziamo che il problema alla base di questa limitata trasferibilità sia l'accoppiamento tra ragionamento e conoscenza nei LLM. Per passare dall'AUI all'AGI, proponiamo di separare conoscenza e ragionamento attraverso tre direzioni chiave: (1) pre-addestrare il ragionamento utilizzando il reinforcement learning (RL) da zero, come alternativa al pre-addestramento basato sulla previsione del token successivo ampiamente utilizzato, (2) utilizzare un curriculum di compiti sintetici per facilitare l'apprendimento di un "prior" di ragionamento per il RL, che possa poi essere trasferito a compiti in linguaggio naturale, e (3) apprendere funzioni di ragionamento più generalizzabili utilizzando una finestra contestuale ridotta per limitare lo sfruttamento di correlazioni spurie tra token. Un sistema di ragionamento di questo tipo, accoppiato a un sistema di recupero addestrato e a un ampio archivio di memoria esterna come deposito di conoscenza, potrebbe superare diverse limitazioni delle architetture esistenti nell'apprendimento del ragionamento in scenari nuovi.
Man mano che i grandi modelli linguistici si espandono oltre il linguaggio naturale verso domini come la matematica, la comprensione multimodale e gli agenti incarnati, i token riflettono sempre più relazioni metriche piuttosto che un significato puramente linguistico. Introduciamo DIST2Loss, un framework consapevole delle distanze progettato per addestrare modelli discreti autoregressivi sfruttando relazioni di distanza predefinite tra i token di output. Al suo nucleo, DIST2Loss trasforma distribuzioni continue della famiglia esponenziale derivate da metriche di distanza intrinseche in obiettivi di ottimizzazione discreti e categorici compatibili con le architetture dei modelli. Questo approccio consente ai modelli di apprendere e preservare relazioni di distanza significative durante la generazione dei token, mantenendo al contempo la compatibilità con le architetture esistenti. Le valutazioni empiriche mostrano miglioramenti consistenti delle prestazioni in diverse applicazioni multimodali, tra cui il grounding visivo, la manipolazione robotica, la modellazione generativa di ricompense e la generazione di immagini utilizzando caratteristiche quantizzate vettorialmente. Questi miglioramenti sono particolarmente evidenti nei casi di dati di addestramento limitati, evidenziando l'efficacia di DIST2Loss in contesti con risorse limitate.
I lettori umani possono comprendere in modo efficiente parole con lettere rimescolate, un fenomeno noto come Tipoglicemia, principalmente basandosi sulla forma delle parole; se la sola forma della parola non è sufficiente, utilizzano ulteriori indizi contestuali per l'interpretazione. Sebbene i modelli linguistici avanzati di grandi dimensioni (LLM) mostrino abilità simili, i meccanismi sottostanti rimangono poco chiari. Per indagare questo aspetto, conduciamo esperimenti controllati per analizzare il ruolo della forma delle parole e delle informazioni contestuali nella ricostruzione semantica e per esaminare i modelli di attenzione degli LLM. Nello specifico, proponiamo prima di tutto SemRecScore, una metrica affidabile per quantificare il grado di ricostruzione semantica, e ne validiamo l'efficacia. Utilizzando questa metrica, studiamo come la forma delle parole e le informazioni contestuali influenzino la capacità di ricostruzione semantica degli LLM, identificando la forma delle parole come il fattore centrale in questo processo. Inoltre, analizziamo come gli LLM utilizzino la forma delle parole e scopriamo che si affidano a teste di attenzione specializzate per estrarre e elaborare le informazioni sulla forma delle parole, con questo meccanismo che rimane stabile a diversi livelli di rimescolamento delle parole. Questa distinzione tra i modelli di attenzione fissi degli LLM, principalmente focalizzati sulla forma delle parole, e la strategia adattiva dei lettori umani nel bilanciare forma delle parole e informazioni contestuali, fornisce spunti per migliorare le prestazioni degli LLM incorporando meccanismi simili a quelli umani, consapevoli del contesto.
La stima del layout di una stanza a partire da immagini a più prospettive è poco esplorata a causa delle complessità derivanti dalla geometria multi-vista, che richiede soluzioni multi-step come la stima dei parametri intrinseci ed estrinseci della camera, il matching delle immagini e la triangolazione. Tuttavia, nella ricostruzione 3D, il progresso dei recenti modelli di base 3D come DUSt3R ha spostato il paradigma dal tradizionale processo multi-step di struttura dal movimento a un approccio end-to-end in un singolo passaggio. A tal fine, introduciamo Plane-DUSt3R, un metodo innovativo per la stima del layout di una stanza a più prospettive che sfrutta il modello di base 3D DUSt3R. Plane-DUSt3R incorpora il framework DUSt3R e viene addestrato su un dataset di layout di stanze (Structure3D) con un obiettivo modificato per stimare i piani strutturali. Generando risultati uniformi e parsimoniosi, Plane-DUSt3R consente la stima del layout della stanza con un solo passaggio di post-elaborazione e risultati di rilevamento 2D. A differenza dei metodi precedenti che si basano su immagini a singola prospettiva o panoramiche, Plane-DUSt3R estende l'impostazione per gestire immagini a più prospettive. Inoltre, offre una soluzione semplificata e end-to-end che semplifica il processo e riduce l'accumulo di errori. I risultati sperimentali dimostrano che Plane-DUSt3R non solo supera i metodi all'avanguardia sul dataset sintetico, ma si dimostra anche robusto ed efficace su dati reali con diversi stili di immagine, come i cartoni animati. Il nostro codice è disponibile all'indirizzo: https://github.com/justacar/Plane-DUSt3R
I Large Language Model (LLM) dimostrano capacità notevoli nella scomposizione gerarchica di compiti complessi attraverso il ragionamento semantico. Tuttavia, la loro applicazione in sistemi embodied incontra sfide nel garantire un'esecuzione affidabile di sequenze di sottotask e nel raggiungere il successo in un solo tentativo nel completamento di task a lungo termine. Per affrontare queste limitazioni in ambienti dinamici, proponiamo Closed-Loop Embodied Agent (CLEA) -- una nuova architettura che incorpora quattro LLM open-source specializzati con disaccoppiamento funzionale per la gestione di task in ciclo chiuso. Il framework presenta due innovazioni principali: (1) Un pianificatore di task interattivo che genera dinamicamente sottotask eseguibili basandosi sulla memoria ambientale, e (2) Un critico di esecuzione multimodale che utilizza un framework di valutazione per condurre una valutazione probabilistica della fattibilità delle azioni, attivando meccanismi di ri-pianificazione gerarchica quando le perturbazioni ambientali superano soglie predefinite. Per validare l'efficacia di CLEA, conduciamo esperimenti in un ambiente reale con oggetti manipolabili, utilizzando due robot eterogenei per task di ricerca, manipolazione e integrazione ricerca-manipolazione. In 12 prove di task, CLEA supera il modello di riferimento, ottenendo un miglioramento del 67,3% nel tasso di successo e un aumento del 52,8% nel tasso di completamento dei task. Questi risultati dimostrano che CLEA migliora significativamente la robustezza della pianificazione e dell'esecuzione dei task in ambienti dinamici.
I recenti progressi negli agenti di intelligenza artificiale web hanno dimostrato capacità notevoli nell'affrontare compiti complessi di navigazione sul web. Tuttavia, ricerche emergenti mostrano che questi agenti presentano una maggiore vulnerabilità rispetto ai modelli linguistici di grandi dimensioni (LLM) autonomi, nonostante entrambi siano costruiti su modelli allineati alla sicurezza. Questa discrepanza è particolarmente preoccupante data la maggiore flessibilità degli agenti di intelligenza artificiale web rispetto agli LLM autonomi, che potrebbe esporli a una gamma più ampia di input utente avversari. Per costruire una struttura che affronti queste preoccupazioni, questo studio indaga i fattori sottostanti che contribuiscono all'aumentata vulnerabilità degli agenti di intelligenza artificiale web. In particolare, questa disparità deriva dalle differenze multifaccettate tra gli agenti di intelligenza artificiale web e gli LLM autonomi, nonché dai segnali complessi - sfumature che metriche di valutazione semplici, come il tasso di successo, spesso non riescono a catturare. Per affrontare queste sfide, proponiamo un'analisi a livello di componente e un framework di valutazione più granulare e sistematico. Attraverso questa indagine fine, identifichiamo tre fattori critici che amplificano la vulnerabilità degli agenti di intelligenza artificiale web: (1) l'incorporazione degli obiettivi dell'utente nel prompt di sistema, (2) la generazione di azioni multi-step e (3) le capacità osservative. I nostri risultati evidenziano la pressante necessità di migliorare la sicurezza e la robustezza nella progettazione degli agenti di intelligenza artificiale e forniscono intuizioni pratiche per strategie di difesa mirate.
La quantizzazione strato per strato è una tecnica chiave per comprimere in modo efficiente modelli di grandi dimensioni senza costosi processi di riaddestramento. I metodi precedenti tipicamente quantizzano i pesi di ogni strato ottimizzando "uniformemente" la perdita di ricostruzione dello strato su tutti i token di output. Tuttavia, in questo articolo, dimostriamo che è possibile ottenere modelli quantizzati migliori dando priorità all'apprendimento da token importanti (ad esempio, quelli con punteggi di attenzione elevati). Basandoci su questa scoperta, proponiamo RSQ (Ruota, Scala, poi Quantizza), che (1) applica rotazioni (trasformazioni ortogonali) al modello per mitigare gli outlier (quelli con magnitudine eccezionalmente grande), (2) scala le caratteristiche del token in base alla sua importanza, e (3) quantizza il modello utilizzando il framework GPTQ con le statistiche del secondo ordine calcolate dai token scalati. Per calcolare l'importanza dei token, esploriamo sia strategie euristiche che dinamiche. Sulla base di un'analisi approfondita di tutti gli approcci, adottiamo la concentrazione dell'attenzione, che utilizza i punteggi di attenzione di ciascun token come sua importanza, come il miglior approccio. Dimostriamo che RSQ supera costantemente i metodi di base in molteplici task downstream e tre famiglie di modelli: LLaMA3, Mistral e Qwen2.5. Inoltre, i modelli quantizzati con RSQ raggiungono prestazioni superiori nei task a contesto lungo, evidenziando ulteriormente la sua efficacia. Infine, RSQ dimostra generalizzabilità in varie configurazioni, includendo diverse dimensioni dei modelli, dataset di calibrazione, precisioni in bit e metodi di quantizzazione.