Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Neural Radiance Fields (NeRF) affrontano significativi sfide nei casi di pochi esempi, principalmente a causa dell'overfitting e dei lunghi tempi di addestramento per la resa ad alta fedeltà. Metodi esistenti, come FreeNeRF e SparseNeRF, utilizzano regolarizzazione in frequenza o prior pre-addestrate ma faticano con la pianificazione complessa e il bias. Introduciamo FrugalNeRF, un nuovo framework NeRF per pochi esempi che sfrutta voxel con condivisione di pesi attraverso molteplici scale per rappresentare efficientemente dettagli della scena. Il nostro contributo chiave è uno schema di adattamento geometrico tra scale che seleziona la profondità pseudo ground truth basata sugli errori di riproiezione tra scale. Questo guida l'addestramento senza dipendere da prior apprese esternamente, consentendo un utilizzo completo dei dati di addestramento. Può anche integrare prior pre-addestrate, migliorando la qualità senza rallentare la convergenza. Gli esperimenti su LLFF, DTU e RealEstate-10K mostrano che FrugalNeRF supera altri metodi NeRF per pochi esempi riducendo significativamente il tempo di addestramento, rendendolo una soluzione pratica per la ricostruzione efficiente e accurata di scene 3D.
Il Modello Segment Anything 2 (SAM 2) è emerso come un potente modello fondamentale per la segmentazione degli oggetti sia nelle immagini che nei video, aprendo la strada a varie applicazioni video successive. Il design cruciale di SAM 2 per la segmentazione video è il suo modulo di memoria, che richiama le memorie consapevoli degli oggetti dai frame precedenti per la previsione del frame attuale. Tuttavia, il design della memoria a selezione avida soffre del problema dell'"accumulo degli errori", dove una maschera errata o mancante si propagherà influenzando la segmentazione dei frame successivi, limitando le prestazioni di SAM 2 verso video complessi a lungo termine. A questo scopo, presentiamo SAM2Long, una strategia migliorata di segmentazione degli oggetti video senza addestramento, che tiene conto dell'incertezza della segmentazione all'interno di ciascun frame e sceglie i risultati ottimali a livello video da percorsi di segmentazione multipli in modo vincolato a ricerca a albero. Nella pratica, manteniamo un numero fisso di percorsi di segmentazione per l'intero video. Per ciascun frame, vengono proposte molteplici maschere basate sui percorsi esistenti, creando varie diramazioni candidate. Selezioniamo quindi lo stesso numero fisso di diramazioni con punteggi cumulativi più alti come nuovi percorsi per il frame successivo. Dopo aver elaborato l'ultimo frame, il percorso con il punteggio cumulativo più alto viene scelto come risultato finale della segmentazione. Grazie al suo design di ricerca euristica, SAM2Long è robusto verso occlusioni e riapparizioni degli oggetti, e può segmentare e tracciare efficacemente gli oggetti per video complessi a lungo termine. In particolare, SAM2Long raggiunge un miglioramento medio di 3,0 punti in tutte le 24 comparazioni dirette, con guadagni fino a 5,3 punti in J&F su benchmark di segmentazione degli oggetti video a lungo termine come SA-V e LVOS. Il codice è disponibile su https://github.com/Mark12Ding/SAM2Long.
Un'efficace e accurata valutazione è cruciale per il continuo miglioramento dei grandi modelli linguistici (LLM). Tra i vari metodi di valutazione, l'analisi soggettiva ha attirato notevole attenzione per la sua superiore allineamento con scenari di utilizzo reali e preferenze umane. Tuttavia, le valutazioni basate sull'essere umano sono costose e mancano di riproducibilità, rendendo i valutatori automatizzati precisi essenziali in questo processo. In questo rapporto, presentiamo CompassJudger-1, il primo giudice LLM open-source all-in-one. CompassJudger-1 è un LLM ad uso generale che dimostra una notevole versatilità. È in grado di: 1. Effettuare valutazioni unitarie e confronti tra due modelli come modello di ricompensa; 2. Condurre valutazioni secondo formati specifici; 3. Generare critiche; 4. Eseguire varie attività come un LLM generale. Per valutare le capacità di valutazione di diversi modelli di giudice in un contesto unificato, abbiamo anche istituito JudgerBench, un nuovo benchmark che comprende varie attività di valutazione soggettiva e copre una vasta gamma di argomenti. CompassJudger-1 offre una soluzione completa per varie attività di valutazione mantenendo la flessibilità per adattarsi a diversi requisiti. Sia CompassJudger che JudgerBench sono stati rilasciati e sono disponibili alla comunità di ricerca su https://github.com/open-compass/CompassJudger. Crediamo che con la condivisione di questi strumenti possiamo favorire la collaborazione e accelerare i progressi nelle metodologie di valutazione dei LLM.
Con i progressi nei modelli open-source, l'allenamento (o fine-tuning) dei modelli su set di dati personalizzati è diventato una parte cruciale nello sviluppo di soluzioni adattate a specifiche applicazioni industriali o open-source. Tuttavia, non esiste uno strumento unico che semplifichi il processo di allenamento attraverso diversi tipi di modalità o compiti. Presentiamo AutoTrain (alias AutoTrain Advanced) - uno strumento/libreria open-source, senza codice, che può essere utilizzato per addestrare (o fare fine-tuning) modelli per diversi tipi di compiti come: fine-tuning di grandi modelli linguistici (LLM), classificazione/testo regressione, classificazione di token, compiti di sequenza in sequenza, fine-tuning di trasformatori di frasi, fine-tuning di modelli linguistici visivi (VLM), classificazione/testo di immagini regressione e persino compiti di classificazione e regressione su dati tabulari. AutoTrain Advanced è una libreria open-source che fornisce le migliori pratiche per l'allenamento dei modelli su set di dati personalizzati. La libreria è disponibile su https://github.com/huggingface/autotrain-advanced. AutoTrain può essere utilizzato in modalità completamente locale o su macchine cloud e funziona con decine di migliaia di modelli condivisi su Hugging Face Hub e le loro varianti.
I recenti progressi nei modelli di base multimodali hanno portato a significativi avanzamenti nella comprensione visione-linguaggio. I primi tentativi hanno esplorato il potenziale dei grandi modelli di linguaggio multimodali (MLLM) per la generazione di contenuti visivi. Tuttavia, i lavori esistenti non hanno affrontato in modo sufficiente le diverse esigenze di granularità dei diversi compiti di generazione di immagini all'interno di un paradigma MLLM unificato - dalla diversità richiesta nella generazione di testo-immagine al controllo preciso necessario nella manipolazione delle immagini. In questo lavoro, proponiamo PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifica le caratteristiche visive multigranulari sia come input che come output dei MLLM, affrontando in modo elegante i diversi requisiti di granularità dei vari compiti di generazione di immagini all'interno di un framework MLLM unificato. Dopo il preaddestramento multimodale e il tuning delle istruzioni specifiche del compito, PUMA dimostra competenza in una vasta gamma di compiti multimodali. Questo lavoro rappresenta un passo significativo verso un vero MLLM unificato in grado di adattarsi alle esigenze di granularità dei vari compiti visivi. Il codice e il modello saranno rilasciati su https://github.com/rongyaofang/PUMA.
Introduciamo Baichuan Alignment, un'analisi dettagliata delle tecniche di allineamento impiegate nella serie di modelli Baichuan. Questo rappresenta il primo resoconto esaustivo dell'industria sulle metodologie di allineamento, offrendo preziose intuizioni per far progredire la ricerca in AI. Investigiamo i componenti critici che migliorano le prestazioni del modello durante il processo di allineamento, inclusi metodi di ottimizzazione, strategie di dati, potenziamenti delle capacità e processi di valutazione. Il processo si articola in tre fasi chiave: Sistema di Potenziamento dei Prompts (PAS), Fine-Tuning Supervisionato (SFT) e Allineamento delle Preferenze. I problemi riscontrati, le soluzioni applicate e i miglioramenti apportati sono registrati in modo approfondito. Attraverso confronti su benchmark consolidati, mettiamo in evidenza i progressi tecnologici resi possibili da Baichuan Alignment. Baichuan-Instruct è un modello interno, mentre Qwen2-Nova-72B e Llama3-PBM-Nova-70B sono versioni instruct dei modelli di base Qwen2-72B e Llama-3-70B, ottimizzati tramite Baichuan Alignment. Baichuan-Instruct mostra miglioramenti significativi nelle capacità principali, con incrementi nell'esperienza utente che vanno dal 17% al 28%, e si comporta eccezionalmente bene su benchmark specializzati. Nelle valutazioni dei benchmark open-source, sia Qwen2-Nova-72B che Llama3-PBM-Nova-70B superano costantemente le rispettive versioni ufficiali instruct su quasi tutti i dataset. Questo rapporto mira a chiarire le tecnologie chiave dietro il processo di allineamento, promuovendo una comprensione più approfondita all'interno della comunità. Il modello Llama3-PBM-Nova-70B è disponibile su https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
Il fine-tuning supervisionato (SFT) è cruciale nell'adattamento dei grandi modelli linguistici (LLM) a un dominio o compito specifico. Tuttavia, solo una quantità limitata di dati etichettati è disponibile nelle applicazioni pratiche, il che rappresenta una sfida significativa per il SFT nel produrre risultati soddisfacenti. Pertanto, un framework efficiente nei dati che possa sfruttare appieno i dati etichettati e non etichettati per il fine-tuning del LLM è molto atteso. A questo scopo, presentiamo un framework di fine-tuning semi-supervisionato chiamato SemiEvol per l'adattamento del LLM da un approccio di propagazione e selezione. Per la propagazione della conoscenza, SemiEvol adotta un approccio bi-level, propagando la conoscenza dai dati etichettati a quelli non etichettati attraverso metodi sia in-peso che in-contesto. Per la selezione della conoscenza, SemiEvol incorpora un meccanismo di apprendimento collaborativo, selezionando campioni di pseudo-risposta di maggiore qualità. Abbiamo condotto esperimenti utilizzando GPT-4o-mini e Llama-3.1 su sette dataset generali o specifici del dominio, dimostrando miglioramenti significativi nelle prestazioni del modello sui dati target. Inoltre, abbiamo confrontato SemiEvol con SFT e metodi di auto-evoluzione, evidenziandone la praticità in scenari di dati ibridi.
Nonostante i recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), lo sviluppo si è concentrato principalmente su set di dati e compiti in lingua inglese e occidentale, lasciando la maggior parte delle lingue del mondo e contesti culturali diversi sottorappresentati. Questo articolo presenta Pangea, un MLLM multimodale multilingue addestrato su PangeaIns, un diversificato set di istruzioni da 6M che copre 39 lingue. PangeaIns include: 1) istruzioni in inglese di alta qualità, 2) istruzioni tradotte con cura tramite macchina e 3) compiti multimodali culturalmente rilevanti per garantire una copertura interculturale. Per valutare rigorosamente le capacità dei modelli, introduciamo PangeaBench, un insieme di valutazioni olistiche che comprende 14 set di dati che coprono 47 lingue. I risultati mostrano che Pangea supera significativamente i modelli open-source esistenti in contesti multilingue e contesti culturali diversi. Studi di ablazione rivelano inoltre l'importanza delle proporzioni dei dati in inglese, della popolarità della lingua e del numero di campioni di addestramento multimodali sulle prestazioni complessive. Rendiamo completamente open-source i nostri dati, codici e checkpoint addestrati, per favorire lo sviluppo di MLLM multilingue inclusivi e robusti, promuovendo equità e accessibilità su un più ampio spettro linguistico e culturale.
I modelli di ricompensa sono fondamentali in tecniche come il Reinforcement Learning from Human Feedback (RLHF) e le Leggi di Scaling dell'Inferenza, dove guidano l'allineamento dei modelli linguistici e la selezione delle risposte ottimali. Nonostante la loro importanza, i benchmark esistenti per i modelli di ricompensa valutano spesso i modelli chiedendo loro di distinguere tra risposte generate da modelli di potenza variabile. Tuttavia, questo approccio non riesce a valutare i modelli di ricompensa su cambiamenti di contenuto sottili ma cruciali e variazioni di stile, risultando in una bassa correlazione con le prestazioni del modello di policy. A questo scopo, presentiamo RM-Bench, un nuovo benchmark progettato per valutare i modelli di ricompensa in base alla loro sensibilità alle differenze di contenuto sottili e alla resistenza ai bias di stile. Esperimenti estesi dimostrano che RM-Bench correla fortemente con le prestazioni del modello di policy, rendendolo un riferimento affidabile per la selezione dei modelli di ricompensa per allineare efficacemente i modelli linguistici. Valutiamo quasi 40 modelli di ricompensa su RM-Bench. I nostri risultati rivelano che anche i modelli all'avanguardia raggiungono una prestazione media di soli 46,6%, che non raggiunge l'accuratezza a livello casuale (50%) quando si confrontano con interferenze di bias di stile. Queste scoperte evidenziano un significativo margine di miglioramento nei modelli di ricompensa attuali. Il codice e i dati correlati sono disponibili su https://github.com/THU-KEG/RM-Bench.
Il Generatore con Recupero Integrato (RAG), pur rappresentando un valido complemento ai grandi modelli linguistici (LLM), spesso trascura l'aspetto cruciale del chunking del testo all'interno del suo processo, il quale influisce sulla qualità delle attività ad alto contenuto di conoscenza. Questo articolo introduce il concetto di Meta-Chunking, che si riferisce a una granularità tra frasi e paragrafi, consistente in una raccolta di frasi all'interno di un paragrafo che presentano profonde connessioni logiche linguistiche. Per implementare il Meta-Chunking, abbiamo progettato due strategie basate sui LLM: il Chunking con Campionamento del Margine e il Chunking con Perplessità. Il primo impiega i LLM per eseguire una classificazione binaria su se le frasi consecutive devono essere segmentate, prendendo decisioni basate sulla differenza di probabilità ottenuta dal campionamento del margine. Il secondo identifica con precisione i confini dei chunk di testo analizzando le caratteristiche della distribuzione della perplessità. Inoltre, considerando la complessità intrinseca dei diversi testi, proponiamo una strategia che combina il Meta-Chunking con la fusione dinamica per ottenere un equilibrio tra chunking di testo dettagliato e chunking di testo più generale. Gli esperimenti condotti su undici set di dati dimostrano che il Meta-Chunking può migliorare più efficientemente le prestazioni della risposta a domande single-hop e multi-hop basate su RAG. Ad esempio, sul set di dati 2WikiMultihopQA, supera il chunking di similarità di 1,32 consumando solo il 45,8% del tempo. Il nostro codice è disponibile su https://github.com/IAAR-Shanghai/Meta-Chunking.
La distillazione della conoscenza (KD) mira a trasferire la conoscenza da un grande modello docente a un modello studente più piccolo. Lavori precedenti che applicano la KD nel campo dei grandi modelli linguistici (LLM) si sono tipicamente concentrati sulla fase post-addestramento, in cui il LLM studente apprende direttamente dalle istruzioni e dalle risposte corrispondenti generate dal modello docente. In questo articolo, estendiamo la KD alla fase di pre-addestramento dei LLM, chiamata distillazione del pre-addestramento (PD). Conduciamo innanzitutto un esperimento preliminare utilizzando il GLM-4-9B come LLM docente per distillare un LLM studente con 1.9B di parametri, convalidando l'efficacia del PD. Considerando i fattori chiave di impatto della distillazione, esploriamo sistematicamente lo spazio di progettazione della distillazione del pre-addestramento su quattro aspetti: elaborazione dei logit, selezione della loss, legge di scalatura e logit offline o online. Conduciamo ampi esperimenti per esplorare lo spazio di progettazione della distillazione del pre-addestramento e individuiamo configurazioni migliori e conclusioni interessanti, come ad esempio il fatto che LLM studenti più grandi generalmente traggano maggior beneficio dalla distillazione del pre-addestramento, mentre un LLM docente più grande non garantisce necessariamente risultati migliori. Speriamo che la nostra esplorazione dello spazio di progettazione possa informare le future pratiche nella distillazione del pre-addestramento.
Le dimostrazioni formali sono difficili da scrivere anche per esperti esperti. I recenti progressi nel Prova Teoremi Neurale (PTN) mostrano promesse nel velocizzare questo processo. Tuttavia, i corpora formali disponibili su Internet sono limitati rispetto al testo generale, presentando una significativa sfida legata alla scarsità di dati per il PTN. Per affrontare questo problema, questo lavoro propone Alchimia, un framework generale per la sintesi dei dati che costruisce teoremi formali attraverso mutazioni simboliche. In particolare, per ciascun teorema candidato in Mathlib, identifichiamo tutti i teoremi invocabili che possono essere utilizzati per riscriverlo o applicarlo. Successivamente, mutiamo il teorema candidato sostituendo il termine corrispondente nella formulazione con la sua forma equivalente o antecedente. Di conseguenza, il nostro metodo aumenta il numero di teoremi in Mathlib di un ordine di grandezza, da 110k a 6M. Inoltre, eseguiamo un preaddestramento continuo e un raffinamento supervisionato su questo corpus ampliato per modelli di linguaggio di grandi dimensioni. I risultati sperimentali dimostrano l'efficacia del nostro approccio, ottenendo un miglioramento delle prestazioni assoluto del 5% sul benchmark Leandojo. Inoltre, i nostri dati sintetici raggiungono un guadagno di prestazioni assoluto del 2,5% sul benchmark miniF2F out-of-distribution. Per fornire ulteriori approfondimenti, conduciamo un'analisi approfondita della composizione dei dati sintetici e del paradigma di addestramento, offrendo preziose indicazioni per lo sviluppo di un forte dimostratore di teoremi.
I Large Language Models (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale, ma la loro applicazione ai compiti basati sul linguaggio parlato rimane sfidante a causa delle complessità dell'integrazione delle modalità audio e testo. Questo articolo introduce Ichigo, un modello misto-modale che elabora in modo fluido sequenze intercalate di discorsi e testi. Utilizzando un approccio di fusione anticipata tokenizzato, Ichigo quantizza il discorso in token discreti e utilizza un'architettura uniforme basata su trasformatori per entrambe le modalità, discorso e testo. Questo metodo consente un ragionamento e una generazione congiunti tra le modalità senza la necessità di adattatori separati. Presentiamo una metodologia di addestramento completa, compresa la preformazione su set di dati multilingue per il riconoscimento del discorso e il raffinamento su un set di istruzioni curato. Ichigo dimostra prestazioni all'avanguardia sui benchmark di domande e risposte sul discorso, superando i modelli di linguaggio del discorso open-source esistenti e ottenendo risultati comparabili ai sistemi a cascata. In particolare, Ichigo presenta una latenza di soli 111 ms per la generazione del primo token, significativamente inferiore rispetto ai modelli attuali. Il nostro approccio non solo fa progredire il campo dell'IA multimodale, ma fornisce anche un quadro per consentire a team di ricerca più piccoli di contribuire in modo efficace ai modelli di linguaggio del discorso open-source.
Le emergenti capacità zero-shot dei Large Language Models (LLM) hanno portato alla loro applicazione in settori che vanno ben oltre i compiti di elaborazione del linguaggio naturale. Nell'apprendimento per rinforzo, sebbene i LLM siano stati ampiamente utilizzati in ambienti basati su testo, la loro integrazione con spazi di stato continui rimane poco studiata. In questo articolo, esaminiamo come i LLM pre-addestrati possano essere sfruttati per prevedere contestualmente la dinamica dei processi decisionali di Markov continui. Identifichiamo la gestione dei dati multivariati e l'incorporazione del segnale di controllo come sfide chiave che limitano il potenziale di impiego dei LLM in questa configurazione e proponiamo il Disentangled In-Context Learning (DICL) per affrontarle. Presentiamo applicazioni di prova in due contesti di apprendimento per rinforzo: valutazione della politica basata sul modello e apprendimento per rinforzo off-policy potenziato dai dati, supportate da un'analisi teorica dei metodi proposti. I nostri esperimenti dimostrano inoltre che il nostro approccio produce stime di incertezza ben calibrate. Rilasciamo il codice su https://github.com/abenechehab/dicl.
L'espansione dei grandi modelli linguistici per gestire efficacemente istruzioni con contesti estremamente lunghi deve ancora essere completamente esplorata. L'ostacolo principale risiede nella costruzione di un dataset di alta qualità per il follow-up di istruzioni lunghe, progettato per l'allineamento dei contesti lunghi. Studi esistenti hanno cercato di aumentare il volume dei dati disponibili sintetizzando campioni di follow-up di istruzioni lunghi. Tuttavia, aumentare indiscriminatamente la quantità di dati senza una strategia ben definita per garantire la qualità dei dati potrebbe introdurre campioni di bassa qualità e limitare le prestazioni finali. Per colmare questa lacuna, ci proponiamo di affrontare la sfida unica dell'allineamento dei contesti lunghi, cioè modellare le dipendenze a lungo raggio per gestire istruzioni e contesti di input lunghi. Proponiamo GATEAU, un nuovo framework progettato per identificare i campioni influenti e di alta qualità arricchiti di relazioni di dipendenza a lungo raggio utilizzando la Guida dei Modelli Omologhi (HMG) e la Misurazione della Consapevolezza Contestuale (CAM). In particolare, HMG cerca di misurare la difficoltà di generare risposte corrispondenti a causa delle dipendenze a lungo raggio, utilizzando i punteggi di perplessità della risposta da due modelli omologhi con finestre di contesto diverse. Inoltre, il ruolo di CAM è misurare la difficoltà di comprendere i contesti di input lunghi a causa delle dipendenze a lungo raggio valutando se l'attenzione del modello è concentrata su segmenti importanti. Basandoci su entrambi i metodi proposti, selezioniamo i campioni più impegnativi come dati influenti per modellare efficacemente le dipendenze a lungo raggio, ottenendo così migliori prestazioni dei LLM. Esperimenti completi indicano che GATEAU identifica efficacemente campioni arricchiti di relazioni di dipendenza a lungo raggio e il modello addestrato su questi campioni selezionati mostra migliori capacità di follow-up di istruzioni e comprensione dei contesti lunghi.
I modelli di testo-immagine vengono addestrati utilizzando ampi set di dati raccolti raschiando coppie immagine-testo da Internet. Questi set di dati spesso includono materiale privato, protetto da copyright e con licenza. Addestrare i modelli su tali set di dati consente loro di generare immagini con tale contenuto, il che potrebbe violare le leggi sul copyright e la privacy individuale. Questo fenomeno è definito imitazione - la generazione di immagini con contenuti che presentano una somiglianza riconoscibile con le immagini di addestramento. In questo lavoro studiamo la relazione tra la frequenza di un concetto nel set di dati di addestramento e la capacità di un modello di imitarlo. Cerchiamo di determinare il punto in cui un modello è stato addestrato su un numero sufficiente di istanze per imitare un concetto - la soglia di imitazione. Poniamo questa domanda come un nuovo problema: Trovare la Soglia di Imitazione (FIT) e proponiamo un approccio efficiente che stima la soglia di imitazione senza incorrere nel costo colossale di addestrare più modelli da zero. Sperimentiamo con due domini - volti umani e stili artistici - per i quali creiamo quattro set di dati e valutiamo tre modelli di testo-immagine addestrati su due set di dati di preaddestramento. I nostri risultati rivelano che la soglia di imitazione di questi modelli si colloca nell'intervallo di 200-600 immagini, a seconda del dominio e del modello. La soglia di imitazione può fornire una base empirica per le rivendicazioni di violazione del copyright e agire come principio guida per gli sviluppatori di modelli di testo-immagine che mirano a rispettare le leggi sul copyright e sulla privacy. Rilasciamo il codice e i dati su https://github.com/vsahil/MIMETIC-2.git e il sito web del progetto è ospitato su https://how-many-van-goghs-does-it-take.github.io.
Presentiamo Agent-to-Sim (ATS), un framework per apprendere modelli di comportamento interattivo di agenti 3D da collezioni video longitudinali informali. Diversamente dai lavori precedenti che si basano sul tracciamento basato su marker e telecamere multiview, ATS apprende comportamenti naturali di agenti animali e umani in modo non invasivo attraverso osservazioni video registrate su un lungo periodo di tempo (ad esempio, un mese) in un singolo ambiente. Modellare il comportamento 3D di un agente richiede un tracciamento 3D persistente (ad esempio, conoscere quale punto corrisponde a quale) su un lungo periodo di tempo. Per ottenere tali dati, sviluppiamo un metodo di registrazione da grezzo a fine che traccia l'agente e la telecamera nel tempo attraverso uno spazio 3D canonico, risultando in una rappresentazione spaziotemporale 4D completa e persistente. Successivamente addestriamo un modello generativo di comportamenti degli agenti utilizzando dati accoppiati di percezione e movimento di un agente interrogati dalla ricostruzione 4D. ATS consente il trasferimento da reale a simulato da registrazioni video di un agente a un simulatore di comportamento interattivo. Dimostriamo i risultati su animali domestici (ad esempio, gatto, cane, coniglio) e umani dati video RGBD monoculare catturati da uno smartphone.
C'è un divario significativo tra le esigenze dei pazienti e il supporto attuale alla salute mentale disponibile oggi. In questo articolo, ci proponiamo di esaminare approfonditamente il potenziale dell'utilizzo dei Grandi Modelli Linguistici (LLM) per assistere la psicoterapia professionale. A tal fine, proponiamo un nuovo benchmark, CBT-BENCH, per la valutazione sistematica dell'assistenza alla terapia cognitivo-comportamentale (CBT). Includiamo tre livelli di compiti in CBT-BENCH: I: Acquisizione di conoscenze di base della CBT, con il compito di domande a scelta multipla; II: Comprensione del modello cognitivo, con i compiti di classificazione delle distorsioni cognitive, classificazione delle credenze centrali primarie e classificazione delle credenze centrali dettagliate; III: Generazione di risposte terapeutiche, con il compito di generare risposte al discorso del paziente nelle sessioni di terapia CBT. Questi compiti includono aspetti chiave della CBT che potrebbero essere potenziati attraverso l'assistenza dell'IA, delineando anche una gerarchia dei requisiti di capacità, che vanno dalla semplice recitazione delle conoscenze di base all'interazione in vere conversazioni terapeutiche. Abbiamo valutato i LLM rappresentativi sul nostro benchmark. I risultati sperimentali indicano che sebbene i LLM si comportino bene nella recitazione delle conoscenze della CBT, sono carenti in scenari reali complessi che richiedono un'analisi approfondita delle strutture cognitive dei pazienti e la generazione di risposte efficaci, suggerendo possibili sviluppi futuri.
I modelli tradizionali di transformer spesso allocano una quantità fissa di risorse computazionali per ogni token di input, portando a una computazione inefficiente e non necessaria. Per affrontare questo problema, è stato introdotto il Mixture of Depths (MoD) per regolare dinamicamente la profondità computazionale saltando strati meno importanti. Nonostante le sue potenzialità, gli attuali approcci MoD rimangono poco esplorati e affrontano due sfide principali: (1) costi elevati di addestramento a causa della necessità di addestrare l'intero modello insieme ai router che determinano quali strati saltare, e (2) il rischio di degradazione delle prestazioni quando vengono saltati strati importanti. In risposta al primo problema, proponiamo Router-Tuning, un metodo che ottimizza solo il router su un piccolo dataset, riducendo drasticamente il sovraccarico computazionale associato all'addestramento completo del modello. Per la seconda sfida, proponiamo MindSkip, che utilizza l'Attention con Dynamic Depths. Questo metodo preserva le prestazioni del modello migliorando significativamente l'efficienza computazionale e di memoria. Esperimenti estesi dimostrano che il nostro approccio fornisce risultati competitivi migliorando notevolmente l'efficienza computazionale, ad esempio, con un aumento della velocità del 21\% e solo una diminuzione delle prestazioni dello 0,2\%. Il codice è disponibile su https://github.com/CASE-Lab-UMD/Router-Tuning.
I recenti progressi nei modelli di linguaggio parlato hanno portato a significativi miglioramenti nella tokenizzazione e sintesi del linguaggio parlato. Tuttavia, mappare efficacemente gli attributi complessi e multidimensionali del linguaggio parlato in token discreti rimane una sfida. Questo processo richiede informazioni acustiche, semantiche e contestuali per rappresentazioni precise del linguaggio parlato. Le rappresentazioni del linguaggio parlato esistenti generalmente si dividono in due categorie: token acustici da codec audio e token semantici da modelli di apprendimento auto-supervisionato del linguaggio parlato. Anche se sforzi recenti hanno unificato token acustici e semantici per migliorare le prestazioni, trascurano il ruolo cruciale della rappresentazione contestuale nella modellazione completa del linguaggio parlato. Le nostre indagini empiriche rivelano che l'assenza di rappresentazioni contestuali comporta un aumento del tasso di errore delle parole (WER) e del tasso di informazioni perse delle parole (WIL) nelle trascrizioni del linguaggio parlato. Per affrontare queste limitazioni, proponiamo due nuovi approcci di distillazione: (1) un metodo di distillazione guidato da un modello linguistico (LM) che incorpora informazioni contestuali, e (2) una tecnica di distillazione guidata da LM combinato e modello di linguaggio parlato auto-supervisionato (SM) che distilla efficacemente rappresentazioni multimodali (acustiche, semantiche e contestuali) in un tokenizzatore completo del linguaggio parlato, denominato DM-Codec. L'architettura DM-Codec adotta un framework di codificatore-decodificatore snello con un Quantizzatore Vettoriale Residuo (RVQ) e incorpora LM e SM durante il processo di addestramento. Gli esperimenti mostrano che DM-Codec supera significativamente i modelli di tokenizzazione del linguaggio parlato all'avanguardia, riducendo il WER fino al 13,46%, il WIL del 9,82%, migliorando la qualità del linguaggio parlato del 5,84% e l'intelligibilità del 1,85% sul dataset di benchmark LibriSpeech. Il codice, i campioni e i checkpoint del modello sono disponibili su https://github.com/mubtasimahasan/DM-Codec.
L'obiettivo dell'apprendimento automatico è la generalizzazione. Mentre il Teorema del No Free Lunch afferma che non possiamo ottenere garanzie teoriche per la generalizzazione senza ulteriori ipotesi, nella pratica osserviamo che i modelli semplici che spiegano i dati di addestramento generalizzano meglio: un principio chiamato rasoio di Occam. Nonostante la necessità di modelli semplici, la maggior parte degli approcci attuali nell'apprendimento automatico minimizzano solo l'errore di addestramento e al massimo promuovono indirettamente la semplicità attraverso la regolarizzazione o la progettazione dell'architettura. Qui, tracciamo un collegamento tra il rasoio di Occam e l'apprendimento in contesto: una capacità emergente di certi modelli sequenziali come i Transformers di apprendere al momento dell'inferenza dalle osservazioni passate in una sequenza. In particolare, mostriamo che la perdita di previsione del token successivo utilizzata per addestrare gli apprendisti in contesto è direttamente equivalente a una tecnica di compressione dei dati chiamata codifica prequential, e che minimizzare questa perdita equivale a minimizzare congiuntamente sia l'errore di addestramento che la complessità del modello che è stato appreso implicitamente dal contesto. La nostra teoria e gli esperimenti empirici che utilizziamo per sostenerla forniscono non solo una spiegazione normativa dell'apprendimento in contesto, ma chiariscono anche i difetti dei metodi attuali di apprendimento in contesto, suggerendo modi per migliorarli. Mettiamo a disposizione il nostro codice su https://github.com/3rdCore/PrequentialCode.
Con l'aumento dell'utilizzo sempre più diffuso dei grandi modelli linguistici (LLM) in varie industrie, sono cresciute le preoccupazioni sulla loro affidabilità, in particolare a causa delle allucinazioni, ossia delle uscite che sono factualmente inaccurate o non pertinenti all'input dell'utente. La nostra ricerca indaga il rapporto tra il processo di addestramento e l'emergere delle allucinazioni per affrontare una lacuna chiave nella ricerca esistente che si concentra principalmente sulle strategie di rilevamento e mitigazione post hoc. Utilizzando modelli della suite Pythia (70M-12B parametri) e diversi indicatori di rilevamento delle allucinazioni, analizziamo le tendenze delle allucinazioni durante l'addestramento ed esploriamo le dinamiche interne dei LLM. Introduciamo SEnsitive Neuron Dropout (SeND), un nuovo protocollo di addestramento progettato per mitigare le allucinazioni riducendo la varianza durante l'addestramento. SeND raggiunge questo obiettivo eliminando deterministicamente i neuroni con significativa variabilità su un insieme di dati, chiamati Neuroni Sensibili. Inoltre, sviluppiamo un indicatore di rilevamento delle allucinazioni non supervisionato, Efficient EigenScore (EES), che approssima l'EigenScore tradizionale con una velocità doppia. Questo indicatore efficiente è integrato nel nostro protocollo, consentendo a SeND di essere sia scalabile computazionalmente che efficace nel ridurre le allucinazioni. La nostra valutazione empirica dimostra che il nostro approccio migliora l'affidabilità dei LLM al momento del test fino al 40% rispetto all'addestramento normale, fornendo anche un metodo efficiente per migliorare l'accuratezza fattuale nell'adattamento dei LLM a domini come Wikipedia e set di dati medici.
Valutare il testo generato dalle macchine rimane una sfida significativa nell'ambito dell'elaborazione del linguaggio naturale, specialmente per le lingue non inglesi. Le metodologie attuali, incluse le metriche automatizzate, le valutazioni umane e le valutazioni basate su LLM, si concentrano principalmente sull'inglese, evidenziando una significativa lacuna nei framework di valutazione multilingue. Presentiamo il Cross Lingual Auto Evaluation (CIA) Suite, un framework estensibile che include LLM valutativi (Hercule) e un nuovo set di test (Recon) appositamente progettato per la valutazione multilingue. Il nostro set di test include 500 istruzioni annotate manualmente che coprono varie capacità di compiti insieme a punteggi di giudizio umano in sei lingue. Ciò consentirebbe il confronto di LLM multilingue a uso generale e agevolerebbe la meta-valutazione dei LLM valutativi. Il modello proposto, Hercule, è un modello di valutazione cross-lingua che affronta la scarsità di risposte di riferimento nella lingua di destinazione imparando ad assegnare punteggi alle risposte basandosi su risposte di riferimento facilmente disponibili in inglese. I nostri esperimenti dimostrano che Hercule si allinea più strettamente con i giudizi umani rispetto ai modelli proprietari, dimostrando l'efficacia di tale valutazione cross-lingua in scenari a risorse limitate. Inoltre, è efficace anche nella valutazione zero-shot su lingue non viste in precedenza. Questo studio rappresenta la prima esaminazione completa della valutazione cross-lingua utilizzando LLM, presentando un approccio scalabile ed efficace per la valutazione multilingue. Tutto il codice, i dataset e i modelli saranno resi pubblicamente disponibili per consentire ulteriori ricerche in questo importante ambito.