Articoli di ricerca IA selezionati quotidianamente con traduzioni
I passaggi di ragionamento generati da LLM potrebbero essere incompleti, poiché imitano salti logici comuni nella comunicazione quotidiana trovati nei loro dati di pre-training: le giustificazioni sottostanti sono spesso lasciate implicite (non espresse). Per affrontare questa sfida, presentiamo RATIONALYST, un modello per la supervisione del processo di ragionamento basato sul pre-training su una vasta raccolta di annotazioni di giustificazione estratte da dati non etichettati. Estraiamo 79k giustificazioni da un dataset non etichettato su larga scala (il Pile) e una combinazione di dataset di ragionamento con minima intervento umano. Questo pre-training su larga scala per il ragionamento consente a RATIONALYST di generalizzare in modo coerente su diverse attività di ragionamento, inclusi ragionamenti matematici, di buon senso, scientifici e logici. Rifinito da LLaMa-3-8B, RATIONALYST migliora l'accuratezza del ragionamento di una media del 3.9% su 7 benchmark rappresentativi di ragionamento. Dimostra inoltre prestazioni superiori rispetto a verificatori significativamente più grandi come GPT-4 e modelli di dimensioni simili rifiniti su set di addestramento corrispondenti.
Diversi modelli di base visivi presentano punti di forza e debolezze distinti, entrambi dei quali possono essere migliorati attraverso la distillazione della conoscenza multi-docente eterogenea senza etichette, denominata "modelli agglomerativi". Approfondiamo questo corpus di lavoro studiando l'effetto delle statistiche di attivazione degli insegnanti, in particolare l'impatto della funzione di perdita sulla qualità del modello studente risultante. Esploriamo un set standard di tecniche di normalizzazione statistica per allineare meglio le diverse distribuzioni e valutarne gli effetti. Inoltre, esaminiamo l'impatto sulle metriche di abbinamento degli insegnanti a valle, che motiva l'uso delle matrici di Hadamard. Con queste matrici, dimostriamo proprietà utili, mostrando come possano essere utilizzate per la standardizzazione isotropica, in cui ciascuna dimensione di una distribuzione multivariata viene standardizzata utilizzando la stessa scala. Chiamiamo questa tecnica "Standardizzazione PHI" (PHI-S) e dimostriamo empiricamente che produce il miglior modello studente tra l'insieme di metodi studiato.
Sebbene i grandi modelli linguistici abbiano compiuto progressi significativi nella generazione di codice, il tasso di superamento del codice generato è ostacolato da errori sottili, spesso richiedendo l'intervento umano per superare i test, specialmente per problemi complessi. I sistemi di debug basati su LLM esistenti trattano i programmi generati come unità monolitiche, non riuscendo a risolvere i bug a diversi livelli di granularità, dagli errori di sintassi a basso livello alle imperfezioni algoritmiche ad alto livello. In questo articolo, presentiamo Multi-Granularity Debugger (MGDebugger), un debugger di codice gerarchico che isola, identifica e risolve i bug a vari livelli di granularità. MGDebugger scompone il codice problematico in una struttura ad albero gerarchica di sottofunzioni, con ciascun livello che rappresenta una particolare granularità dell'errore. Durante il debug, analizza ciascuna sottofunzione e risolve iterativamente i bug in modo ascendente. Per testare efficacemente ciascuna sottofunzione, proponiamo un esecutore Python simulato da LLM, che traccia l'esecuzione del codice e tiene traccia degli stati delle variabili importanti per individuare gli errori con precisione. Estesi esperimenti dimostrano che MGDebugger supera i sistemi di debug esistenti, ottenendo un miglioramento del 18,9% nell'accuratezza rispetto alle generazioni seed in HumanEval e un tasso di successo nella riparazione del 97,6% in HumanEvalFix. Inoltre, MGDebugger corregge efficacemente bug in diverse categorie e livelli di difficoltà, dimostrando la sua robustezza ed efficacia.
I campi di radianza neurale (NeRF) sono ampiamente utilizzati per la sintesi di nuove visuali e sono stati adattati per il rilevamento di oggetti in 3D (3DOD), offrendo un approccio promettente al 3DOD attraverso la rappresentazione della sintesi delle visuali. Tuttavia, NeRF affronta limitazioni intrinseche: (i) capacità rappresentativa limitata per il 3DOD a causa della sua natura implicita, e (ii) velocità di rendering lenta. Di recente, lo Splatting Gaussiano in 3D (3DGS) è emerso come una rappresentazione 3D esplicita che affronta queste limitazioni. Ispirandosi a questi vantaggi, questo articolo introduce per la prima volta il 3DGS nel 3DOD, identificando due sfide principali: (i) Distribuzione spaziale ambigua dei blob gaussiani: il 3DGS si basa principalmente sulla supervisione a livello di pixel 2D, risultando in una distribuzione spaziale 3D poco chiara dei blob gaussiani e una scarsa differenziazione tra oggetti e sfondo, che ostacola il 3DOD; (ii) Eccessivi blob di sfondo: le immagini 2D includono spesso numerosi pixel di sfondo, portando a una ricostruzione densa del 3DGS con molti blob gaussiani rumorosi che rappresentano lo sfondo, influenzando negativamente la rilevazione. Per affrontare la sfida (i), sfruttiamo il fatto che la ricostruzione del 3DGS deriva dalle immagini 2D e proponiamo una soluzione elegante ed efficiente incorporando una Guida ai Confini 2D per migliorare significativamente la distribuzione spaziale dei blob gaussiani, ottenendo una differenziazione più chiara tra gli oggetti e il loro sfondo. Per affrontare la sfida (ii), proponiamo una strategia di Campionamento Focalizzato sulla Scatola utilizzando scatole 2D per generare una distribuzione di probabilità degli oggetti negli spazi 3D, consentendo un campionamento probabilistico efficace in 3D per mantenere più blob di oggetti e ridurre i blob rumorosi di sfondo. Beneficiando dei nostri progetti, il nostro 3DGS-DET supera significativamente il metodo NeRF basato sullo stato dell'arte, NeRF-Det, ottenendo miglioramenti di +6,6 su mAP@0,25 e +8,1 su mAP@0,5 per il dataset ScanNet, e un impressionante +31,5 su mAP@0,25 per il dataset ARKITScenes.
Studiamo la profondità delle capacità di risoluzione dei problemi di matematica di scuola elementare (GSM) dei LLM. A questo scopo, valutiamo le loro prestazioni su coppie di problemi di matematica esistenti in modo che la risposta al secondo problema dipenda dalla corretta risposta al primo problema. Le nostre scoperte rivelano un significativo divario di ragionamento nella maggior parte dei LLM, ossia una differenza di prestazioni tra la risoluzione delle coppie compositive e la risoluzione di ciascuna domanda indipendentemente. Questo divario è più evidente nei modelli più piccoli, più efficienti dal punto di vista dei costi e specializzati in matematica. Inoltre, le ricette di taratura dell'istruzione e la generazione di codice hanno effetti variabili tra le dimensioni dei LLM, mentre il raffinamento su GSM può portare al sovradattamento al compito. La nostra analisi indica che i grandi divari di ragionamento non sono dovuti a perdite nel set di test, ma a distrazioni da contesti aggiuntivi e a un povero ragionamento di secondo livello. Complessivamente, i LLM mostrano differenze sistematiche nelle loro capacità di ragionamento, nonostante le loro prestazioni su benchmark standard.
Le immagini ricche di testo, in cui il testo funge da elemento visivo centrale guidando la comprensione complessiva, sono diffuse nelle applicazioni del mondo reale, come diapositive di presentazioni, documenti scannerizzati e istantanee di pagine web. I compiti che coinvolgono più immagini ricche di testo sono particolarmente impegnativi, poiché richiedono non solo la comprensione del contenuto delle singole immagini, ma anche il ragionamento sulle interrelazioni e i flussi logici tra più input visivi. Nonostante l'importanza di questi scenari, attuali modelli di linguaggio multimodali di grandi dimensioni (MLLMs) faticano a gestire tali compiti a causa di due sfide chiave: (1) la scarsità di set di dati di sintonizzazione delle istruzioni di alta qualità per scenari multi-immagine ricche di testo e (2) la difficoltà nel bilanciare la risoluzione dell'immagine con la lunghezza della sequenza delle caratteristiche visive. Per affrontare queste sfide, proponiamo \OurMethod, un MLLM progettato specificamente per gestire compiti di visione-linguaggio che coinvolgono più immagini ricche di testo. In primo luogo, abbiamo selezionato circa un milione di dati di sintonizzazione delle istruzioni multimodali di alta qualità, adattati a scenari multi-immagine ricche di testo. In secondo luogo, abbiamo sviluppato un modulo di codifica multi-immagine ad alta risoluzione adattivo per ottimizzare dinamicamente l'allocazione della lunghezza della sequenza visiva in base ai rapporti di aspetto originali e alle risoluzioni delle immagini di input. Gli esperimenti su un'ampia gamma di benchmark dimostrano le capacità superiori del nostro modello nelle valutazioni multi-immagine ricche di testo e le prestazioni competitive nelle valutazioni di dominio generale.
I modelli di ricompensa sono fondamentali per allineare i modelli al fine di seguire istruzioni e vengono tipicamente addestrati seguendo uno dei due paradigmi popolari: lo stile di Bradley-Terry o lo stile di regressione. Tuttavia, manca evidenza che dimostri che uno dei due approcci sia migliore dell'altro, quando adeguatamente confrontati sui dati. Questo principalmente perché questi approcci richiedono dati raccolti in formati diversi (ma incompatibili), il che significa che dati adeguatamente confrontabili non sono disponibili nei dataset pubblici esistenti. Per affrontare questo problema, rilasciamo annotazioni di preferenza (progettate per l'addestramento di Bradley-Terry) per integrare le valutazioni esistenti (progettate per l'addestramento nello stile di regressione) nel dataset HelpSteer2. Per migliorare l'interpretabilità dei dati, le annotazioni di preferenza sono accompagnate da giustificazioni scritte da esseri umani. Utilizzando questi dati, conduciamo il primo confronto diretto tra i modelli di Bradley-Terry e di regressione quando adeguatamente confrontati sui dati. Sulla base delle intuizioni derivate da tale confronto, proponiamo un nuovo approccio per combinare la modellazione della ricompensa di Bradley-Terry e di regressione. Un modello Llama-3.1-70B-Instruct ottimizzato con questo approccio ottiene un punteggio di 94.1 su RewardBench, emergendo al primo posto tra oltre 140 modelli di ricompensa al 1 ottobre 2024. Dimostriamo inoltre l'efficacia di questo modello di ricompensa nell'allineare i modelli per seguire istruzioni in RLHF. Rilasciamo questo dataset in open source (licenza CC-BY-4.0) su https://huggingface.co/datasets/nvidia/HelpSteer2 e rilasciamo apertamente il modello di ricompensa addestrato su https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
Indaghiamo LoRA nell'apprendimento federato attraverso l'analisi dell'asimmetria delle matrici apprese A e B. In tal modo, scopriamo che le matrici A sono responsabili dell'apprendimento della conoscenza generale, mentre le matrici B si concentrano sulla cattura della conoscenza specifica del cliente. Sulla base di questa scoperta, introduciamo Federated Share-A Low-Rank Adaptation (FedSA-LoRA), che impiega due matrici A e B ad basso rango addestrabili per modellare l'aggiornamento dei pesi, ma solo le matrici A sono condivise con il server per l'aggregazione. Inoltre, approfondiamo la relazione tra le matrici A e B apprese in altre varianti di LoRA, come rsLoRA e VeRA, rivelando un modello coerente. Di conseguenza, estendiamo il nostro metodo FedSA-LoRA a queste varianti di LoRA, ottenendo FedSA-rsLoRA e FedSA-VeRA. In questo modo, istituiamo un paradigma generale per integrare LoRA con FL, offrendo indicazioni per lavori futuri su varianti successive di LoRA combinate con FL. Estesi risultati sperimentali su compiti di comprensione e generazione del linguaggio naturale dimostrano l'efficacia del metodo proposto.
L'uso pratico della generazione testo-immagine è evoluto da modelli semplici e monolitici a flussi di lavoro complessi che combinano più componenti specializzate. Sebbene gli approcci basati su flussi di lavoro possano portare a un miglioramento della qualità dell'immagine, la creazione di flussi di lavoro efficaci richiede una notevole esperienza, a causa del gran numero di componenti disponibili, della loro complessa interdipendenza e della dipendenza dalla richiesta di generazione. Qui presentiamo il nuovo compito di generazione di flussi di lavoro adattivi alla richiesta, dove l'obiettivo è adattare automaticamente un flusso di lavoro a ciascuna richiesta dell'utente. Proponiamo due approcci basati su LLM per affrontare questo compito: un metodo basato sul tuning che apprende dai dati sulle preferenze dell'utente e un metodo senza addestramento che utilizza il LLM per selezionare flussi esistenti. Entrambi gli approcci portano a un miglioramento della qualità dell'immagine rispetto ai modelli monolitici o ai flussi di lavoro generici e indipendenti dalla richiesta. Il nostro lavoro dimostra che la previsione del flusso dipendente dalla richiesta offre una nuova via per migliorare la qualità della generazione testo-immagine, integrando le direzioni di ricerca esistenti nel settore.
Le metriche neurali per la valutazione della traduzione automatica (MT) sono diventate sempre più prominenti a causa della loro correlazione superiore con i giudizi umani rispetto alle metriche lessicali tradizionali. Di conseguenza, i ricercatori hanno utilizzato le metriche neurali tramite strategie di decodifica informate sulla qualità, ottenendo risultati migliori rispetto ai metodi basati sulla verosimiglianza. Con la diffusione dei Grandi Modelli Linguistici (LLM), le tecniche di allineamento basate sulle preferenze hanno attirato l'attenzione per il loro potenziale nel migliorare la qualità della traduzione ottimizzando direttamente i pesi del modello sulle preferenze indotte dagli stimatori di qualità. Questo studio si concentra sull'ottimizzazione delle preferenze contrastive (CPO) e conduce ampi esperimenti per valutare l'impatto dell'allineamento basato sulle preferenze sulla qualità della traduzione. I nostri risultati indicano che, sebbene CPO superi costantemente il Fine-Tuning Supervisionato (SFT) su dati di alta qualità per quanto riguarda la metrica di allineamento, potrebbe portare a instabilità tra le metriche di valutazione successive, in particolare tra quelle neurali e lessicali. Inoltre, dimostriamo che fare affidamento esclusivamente sul modello base per generare traduzioni candidate raggiunge prestazioni paragonabili all'utilizzo di più sistemi esterni, garantendo una maggiore coerenza tra le metriche successive.
L'ascesa dei modelli di base (FMs), unita agli sforzi normativi che affrontano i loro rischi e impatti, ha suscitato un notevole interesse nei modelli open-source. Tuttavia, i modelli di linguaggio per il riconoscimento vocale esistenti (SFMs) non rispettano pienamente i principi open-source, anche se dichiarato diversamente, poiché nessun SFM esistente mette a disposizione pubblicamente i pesi del modello, il codice e i dati di addestramento secondo termini open-source. In questo lavoro, compiamo il primo passo per colmare questa lacuna concentrandoci sulle 24 lingue ufficiali dell'Unione Europea (UE). Raccogliamo dati di addestramento adeguati attraverso l'analisi di set di dati per il riconoscimento vocale automatico e corpora di discorsi non etichettati con licenze conformi agli standard open-source, per un totale di 950.000 ore. Inoltre, rilasciamo trascrizioni automatiche per 441.000 ore di dati non etichettati con licenza permissiva CC-BY, agevolando così la creazione di SFMs open-source per le lingue dell'UE.
Mentre i grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali nell'interpretare query complesse e svolgere compiti sofisticati, le loro capacità di generalizzazione sono spesso profondamente intrecciate con la memorizzazione, rendendo necessaria una valutazione più precisa. Per affrontare questa sfida, presentiamo Scylla, un framework di valutazione dinamico che misura quantitativamente le capacità di generalizzazione dei LLM. Scylla separa la generalizzazione dalla memorizzazione valutando le prestazioni del modello sia sui dati in distribuzione (ID) che fuori distribuzione (OOD) attraverso 20 compiti su 5 livelli di complessità. Attraverso esperimenti approfonditi, scopriamo una relazione non monotona tra la complessità del compito e il divario di prestazioni tra i dati ID e OOD, che chiamiamo la valle della generalizzazione. In particolare, questo fenomeno rivela una soglia critica - denominata complessità critica - dove il ricorso a comportamenti non generalizzabili raggiunge il picco, indicando il limite superiore delle capacità di generalizzazione dei LLM. Con l'aumentare delle dimensioni del modello, la complessità critica si sposta verso livelli più elevati di complessità del compito, suggerendo che modelli più grandi possano gestire compiti di ragionamento più complessi prima di fare eccessivo ricorso alla memorizzazione. Sfruttando Scylla e il concetto di complessità critica, valutiamo 28 LLM, inclusi modelli open-source come LLaMA e le famiglie Qwen, e modelli closed-source come Claude e GPT, fornendo una valutazione più robusta e stabilendo una comprensione più chiara delle capacità di generalizzazione dei LLM.
Modellare le preferenze umane è cruciale per allineare i modelli di base con i valori umani. I metodi tradizionali di modellazione del reward, come il modello di reward di Bradley-Terry (BT), risultano carenti in termini di espressività, in particolare nel trattare le preferenze intransitive. Sebbene i modelli di preferenza di coppia supervisionati (PairPM) possano esprimere preferenze generali, la loro implementazione è altamente ad-hoc e non può garantire una probabilità di preferenza coerente delle coppie confrontate. Inoltre, impongono elevati costi computazionali a causa della complessità delle query quadratiche quando si confrontano molte risposte. In questo articolo, introduciamo l'apprendimento della rappresentazione delle preferenze, un approccio che incorpora le risposte in uno spazio latente per catturare in modo efficiente strutture di preferenza intricate, raggiungendo una complessità di query lineare. Inoltre, proponiamo l'ottimizzazione delle preferenze generali basata sul punteggio di preferenza (GPO), che generalizza il reinforcement learning basato sul reward dai feedback umani. I risultati sperimentali mostrano che il nostro modello di rappresentazione delle preferenze generali (GPM) supera il modello di reward BT sul benchmark RewardBench con un margine fino al 5,6% e modella efficacemente preferenze cicliche in cui qualsiasi modello di reward BT si comporta come una congettura casuale. Inoltre, le valutazioni su compiti successivi come AlpacaEval2.0 e MT-Bench, seguendo il post-training del modello linguistico con GPO e il nostro modello di preferenza generale, rivelano consistenti miglioramenti delle prestazioni con margini fino al 9,3%. Questi risultati indicano che il nostro metodo potrebbe migliorare l'allineamento dei modelli di base con i valori umani sfumati. Il codice è disponibile su https://github.com/general-preference/general-preference-model.
I modelli linguistici di grandi dimensioni hanno dimostrato un significativo potenziale come motori di accesso alle informazioni di prossima generazione. Tuttavia, la loro affidabilità è ostacolata da problemi di allucinazione e generazione di contenuti non fattuali. Questo è particolarmente problematico nelle risposte di lunghezza estesa, dove valutare ed assicurare l'accuratezza fattuale è complesso. In questo articolo, affrontiamo questa lacuna proponendo FactAlign, un nuovo framework di allineamento progettato per migliorare la fattualità delle risposte di lunghezza estesa dei LLMs mantenendo nel contempo la loro utilità. Introduciamo fKTO, un algoritmo di allineamento a livello di frase dettagliato che estende il metodo di allineamento Kahneman-Tversky Optimization (KTO). Sfruttando i recenti progressi nella valutazione automatica della fattualità, FactAlign utilizza valutazioni di fattualità dettagliate per guidare il processo di allineamento. I nostri esperimenti su prompt di dominio aperto e domande di ricerca di informazioni dimostrano che FactAlign migliora significativamente l'accuratezza fattuale delle risposte dei LLMs migliorandone anche l'utilità. Ulteriori analisi identificano che FactAlign è in grado di addestrare i LLMs a fornire più informazioni senza perdere precisione fattuale, migliorando così il punteggio F1 fattuale. Il nostro codice sorgente, i dataset e i modelli addestrati sono pubblicamente disponibili su https://github.com/MiuLab/FactAlign
Presentiamo Exact Volumetric Ellipsoid Rendering (EVER), un metodo per il rendering volumetrico ad emissione differenziabile in tempo reale. A differenza dell'approccio recente basato sulla rasterizzazione con 3D Gaussian Splatting (3DGS), la nostra rappresentazione basata su primitive consente un rendering volumetrico esatto, piuttosto che la composizione alfa di pannelli pubblicitari 3D Gaussian. Pertanto, a differenza di 3DGS, la nostra formulazione non soffre di artefatti di popping e densità dipendente dalla vista, ma riesce comunque a raggiungere frame rate di circa 30 FPS a 720p su un NVIDIA RTX4090. Poiché il nostro approccio si basa sul tracciamento dei raggi, consente effetti come lo sfocatura di defocus e la distorsione della fotocamera (ad es. da telecamere fish-eye), difficili da ottenere con la rasterizzazione. Dimostriamo che il nostro metodo è più accurato con minori problemi di blending rispetto a 3DGS e ai lavori successivi sul rendering coerente con la vista, specialmente nelle scene su larga scala sfidanti del dataset Zip-NeRF, dove ottiene i risultati più nitidi tra le tecniche in tempo reale.
Mentre i recenti progressi nella tecnologia Text-to-Speech (TTS) producono un discorso naturale ed espressivo, manca l'opzione per gli utenti di selezionare l'emozione e controllarne l'intensità. Proponiamo EmoKnob, un framework che consente un controllo dell'emozione dettagliato nella sintesi del discorso con pochi esempi dimostrativi a colpo d'occhio di emozioni arbitrarie. Il nostro framework sfrutta lo spazio di rappresentazione espressiva degli speaker reso possibile dai recenti progressi nei modelli di clonazione vocale di base. Sulla base della capacità a colpo d'occhio del nostro framework di controllo dell'emozione, proponiamo due metodi per applicare il controllo dell'emozione su emozioni descritte da testi aperti, consentendo un'interfaccia intuitiva per controllare una vasta gamma di emozioni sfumate. Per facilitare un campo di sintesi del discorso emotivo più sistematico, introduciamo un insieme di metriche di valutazione progettate per valutare rigorosamente la fedeltà e la riconoscibilità dei framework di controllo dell'emozione. Attraverso valutazioni oggettive e soggettive, mostriamo che il nostro framework di controllo dell'emozione incorpora efficacemente le emozioni nel discorso e supera l'espressività emotiva dei servizi commerciali di TTS.
Gli avanzamenti recenti nei Modelli Linguistici di Grandi Dimensioni per Video (Video-LLMs) hanno dimostrato il loro grande potenziale nella comprensione video a uso generale. Per verificare l'importanza di questi modelli, sono stati proposti diversi benchmark per diagnosticarne le capacità in scenari differenti. Tuttavia, i benchmark esistenti valutano solamente i modelli attraverso domande e risposte a livello video, mancando di una valutazione dettagliata a livello di evento e di diversità di compiti. Per colmare questa lacuna, presentiamo E.T. Bench (Benchmark per la Comprensione Video a Livello di Evento e Sensibile al Tempo), un benchmark di ampia portata e di alta qualità per la comprensione video a livello di evento aperto. Categorizzato in una tassonomia di compiti a 3 livelli, E.T. Bench comprende 7,3K campioni distribuiti in 12 compiti con 7K video (per un totale di 251,4 ore) in 8 domini, fornendo valutazioni esaustive. Abbiamo valutato ampiamente 8 Modelli Linguistici per Immagini e 12 Modelli Linguistici per Video sul nostro benchmark, e i risultati rivelano che i modelli all'avanguardia per la comprensione a livello grezzo (livello video) faticano a risolvere i nostri compiti dettagliati, come ad esempio l'ancoraggio degli eventi di interesse all'interno dei video, principalmente a causa della breve lunghezza del contesto video, delle rappresentazioni temporali improprie e della mancanza di dati di addestramento multi-evento. Concentrandoci su questi problemi, proponiamo inoltre un modello base solido, E.T. Chat, insieme a un dataset di addestramento tramite istruzioni E.T. Instruct 164K adattato per la comprensione dettagliata a livello di evento. La nostra soluzione semplice ma efficace dimostra prestazioni superiori in molteplici scenari.
I grandi modelli linguistici eccellono nella generazione creativa ma continuano a lottare con le problematiche legate all'allucinazione e al bias. Mentre la generazione potenziata da recupero (RAG) fornisce un quadro per ancorare le risposte dei LLM in informazioni accurate e aggiornate, solleva comunque la questione del bias: quali fonti dovrebbero essere selezionate per essere incluse nel contesto? E come dovrebbe essere ponderata la loro importanza? In questo articolo, studiamo la sfida della RAG cross-linguistica e presentiamo un dataset per indagare la robustezza dei sistemi esistenti nel rispondere a interrogativi su dispute geopolitiche, che si trovano all'incrocio di confini linguistici, culturali e politici. Il nostro dataset è tratto da pagine di Wikipedia contenenti informazioni rilevanti per gli interrogativi dati e indaghiamo l'impatto dell'inclusione di contesto aggiuntivo, nonché la composizione di questo contesto in termini di lingua e fonte, sulla risposta di un LLM. I nostri risultati mostrano che i sistemi RAG esistenti continuano ad essere sfidati dai casi d'uso cross-linguistici e soffrono di una mancanza di coerenza quando vengono fornite informazioni contrastanti in più lingue. Presentiamo casi studio per illustrare queste problematiche e delineare passi per futuri studi per affrontare queste sfide. Mettiamo a disposizione pubblicamente il nostro dataset e codice su https://github.com/manestay/bordIRlines.
I modelli visione-linguaggio (VLM) sono essenziali per la comprensione contestuale delle informazioni visive e testuali. Tuttavia, la loro vulnerabilità agli input manipolati in modo avversario presenta rischi significativi, che portano a risultati compromessi e sollevano preoccupazioni sulla affidabilità nelle applicazioni integrate VLM. Rilevare questi input dannosi è quindi cruciale per mantenere la fiducia nelle generazioni VLM. Una sfida importante nello sviluppo di un classificatore di prompt di protezione è la mancanza di una grande quantità di dati etichettati benigni e dannosi. Per affrontare il problema, presentiamo VLMGuard, un nuovo framework di apprendimento che sfrutta i prompt degli utenti non etichettati nel mondo reale per la rilevazione di prompt dannosi. Questi prompt non etichettati, che sorgono naturalmente quando i VLM sono implementati nel mondo aperto, contengono informazioni sia benigni che dannose. Per sfruttare i dati non etichettati, presentiamo un punteggio di stima automatica della malizia per distinguere tra campioni benigni e dannosi all'interno di questa miscela non etichettata, consentendo così l'addestramento di un classificatore binario di prompt. In particolare, il nostro framework non richiede annotazioni umane aggiuntive, offrendo una forte flessibilità e praticità per le applicazioni reali. Un ampio esperimento mostra che VLMGuard raggiunge risultati di rilevamento superiori, superando significativamente i metodi all'avanguardia. Nota: Questo articolo potrebbe contenere esempi offensivi; si consiglia discrezione al lettore.
I Transformer di Diffusione (DiTs) hanno guadagnato importanza per la loro eccezionale scalabilità e straordinarie prestazioni nelle attività generative. Tuttavia, i considerevoli costi di inferenza ostacolano la loro implementazione pratica. Il meccanismo di cache delle caratteristiche, che coinvolge l'archiviazione e il recupero di calcoli ridondanti attraverso i passaggi temporali, promette di ridurre il tempo di inferenza per passaggio nei modelli di diffusione. La maggior parte dei metodi di caching esistenti per i DiT sono progettati manualmente. Anche se l'approccio basato sull'apprendimento cerca di ottimizzare le strategie in modo adattivo, soffre di discrepanze tra addestramento e inferenza, che compromettono sia le prestazioni che il rapporto di accelerazione. Attraverso un'analisi dettagliata, individuiamo che queste discrepanze derivano principalmente da due aspetti: (1) Disprezzo del Passaggio Precedente, dove l'addestramento ignora l'effetto dell'uso della cache nei passaggi temporali precedenti, e (2) Discrepanza dell'Obiettivo, dove l'obiettivo dell'addestramento (allineare il rumore previsto in ciascun passaggio temporale) si discosta dall'obiettivo dell'inferenza (generare un'immagine di alta qualità). Per attenuare queste discrepanze, proponiamo HarmoniCa, un nuovo metodo che armonizza l'addestramento e l'inferenza con un nuovo framework di caching basato sull'apprendimento costruito su Addestramento Step-Wise per la Denoising (SDT) e Obiettivo Guidato da Proxy dell'Errore dell'Immagine (IEPO). Rispetto al paradigma di addestramento tradizionale, il nuovo SDT proposto mantiene la continuità del processo di denoising, consentendo al modello di sfruttare le informazioni dai passaggi temporali precedenti durante l'addestramento, in modo simile a come opera durante l'inferenza. Inoltre, progettiamo IEPO, che integra un efficace meccanismo di proxy per approssimare l'errore finale dell'immagine causato dal riutilizzo della caratteristica memorizzata. Pertanto, IEPO aiuta a bilanciare la qualità finale dell'immagine e l'utilizzo della cache, risolvendo il problema dell'addestramento che considera solo l'impatto dell'uso della cache sull'output previsto in ciascun passaggio temporale.
Gestire contesti di input lunghi rimane una sfida significativa per i Grandi Modelli Linguistici (LLM), in particolare in ambienti con risorse limitate come i dispositivi mobili. Il nostro lavoro mira ad affrontare questa limitazione presentando InfiniPot, un nuovo framework di controllo della cache KV progettato per consentire ai LLM pre-addestrati di gestire sequenze estese entro vincoli di memoria fissi in modo efficiente, senza richiedere ulteriore addestramento. InfiniPot sfrutta la Distillazione Continua del Contesto (CCD), un processo iterativo che comprime e conserva informazioni essenziali attraverso nuove metriche di importanza, mantenendo efficacemente i dati critici anche senza accesso al contesto futuro. Le nostre valutazioni esaustive indicano che InfiniPot supera significativamente i modelli addestrati per contesti lunghi in varie attività di NLP, dimostrandone l'efficacia e la versatilità. Questo lavoro rappresenta un notevole progresso verso la resa dei LLM applicabili a una gamma più ampia di scenari reali.
Nel tentativo di far sì che i robot autonomi agiscano, la pianificazione delle attività è una sfida importante che richiede la traduzione di descrizioni di attività di alto livello in sequenze di azioni a lungo termine. Nonostante i recenti progressi negli agenti dei modelli linguistici, rimangono inclini agli errori di pianificazione e limitati nella capacità di pianificare in anticipo. Per affrontare queste limitazioni nella pianificazione robotica, sosteniamo un sistema di auto-raffinamento che affina iterativamente un piano provvisorio fino a raggiungere un equilibrio. Notevolmente, questo processo può essere ottimizzato end-to-end da un punto di vista analitico senza la necessità di curare ulteriori verificatori o modelli di ricompensa, consentendoci di addestrare pianificatori di auto-raffinamento in modo semplice tramite apprendimento supervisionato. Nel frattempo, è stato ideato un procedimento di modellizzazione della sequenza di equilibrio nidificato per una pianificazione a ciclo chiuso efficiente che incorpora un feedback utile dall'ambiente (o da un modello di mondo interno). Il nostro metodo è valutato sul benchmark VirtualHome-Env, mostrando prestazioni avanzate con una migliore scalabilità per il calcolo inferenziale. Il codice è disponibile su https://github.com/Singularity0104/equilibrium-planner.
Gli ottimizzatori del deep learning sono spesso motivati attraverso una combinazione di teoria convessa e approssimata del secondo ordine. Selezioniamo tre di tali metodi - Adam, Shampoo e Prodigy - e sosteniamo che ciascun metodo possa invece essere compreso come un metodo di primo ordine senza assumere convessità. Infatti, dopo aver disattivato le medie mobili esponenziali, ciascun metodo è equivalente a una discesa più ripida sotto una particolare norma. Generalizzando questa osservazione, tracciamo un nuovo spazio di progettazione per gli algoritmi di addestramento. Diverse norme degli operatori dovrebbero essere assegnate a diversi tensori in base al ruolo che il tensore svolge all'interno della rete. Ad esempio, mentre i livelli lineari e di embedding possono avere lo stesso spazio dei pesi di R^{mtimes n}, questi livelli svolgono ruoli diversi e dovrebbero essere assegnati norme diverse. Speriamo che questa idea di metrizzare attentamente l'architettura neurale possa portare a un addestramento più stabile, scalabile e, in effetti, più veloce.
La valutazione sistematica dei modelli di separazione ed enfatizzazione del parlato in condizioni di sorgente sonora in movimento richiede tipicamente un'ampia quantità di dati che comprendono scenari diversi. Tuttavia, i dataset del mondo reale spesso contengono dati insufficienti per soddisfare i requisiti di addestramento e valutazione dei modelli. Anche se i dataset sintetici offrono un maggior volume di dati, le loro simulazioni acustiche mancano di realismo. Di conseguenza, né i dataset del mondo reale né quelli sintetici soddisfano efficacemente le esigenze pratiche. Per affrontare questi problemi, presentiamo SonicSim, un toolkit sintetico progettato per generare dati altamente personalizzabili per sorgenti sonore in movimento. SonicSim è sviluppato sulla piattaforma di simulazione di intelligenza incorporata Habitat-sim, che supporta regolazioni a più livelli, inclusi il livello della scena, il livello del microfono e il livello della sorgente, generando così dati sintetici più diversificati. Sfruttando SonicSim, abbiamo costruito un dataset di benchmark per sorgenti sonore in movimento, SonicSet, utilizzando Librispeech, il Freesound Dataset 50k (FSD50K) e il Free Music Archive (FMA), e 90 scene del Matterport3D per valutare i modelli di separazione ed enfatizzazione del parlato. Inoltre, per convalidare le differenze tra i dati sintetici e quelli del mondo reale, abbiamo selezionato casualmente 5 ore di dati grezzi senza riverberazione dal set di convalida di SonicSet per registrare un dataset di separazione del parlato del mondo reale, che è stato poi confrontato con i dataset sintetici corrispondenti. Allo stesso modo, abbiamo utilizzato il dataset di enfatizzazione del parlato del mondo reale RealMAN per convalidare il divario acustico tra gli altri dataset sintetici e il dataset SonicSet per l'enfatizzazione del parlato. I risultati indicano che i dati sintetici generati da SonicSim possono generalizzare efficacemente a scenari del mondo reale. La demo e il codice sono disponibili pubblicamente su https://cslikai.cn/SonicSim/.