Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) hanno ottenuto progressi sostanziali nel trattamento di contesti lunghi, ma faticano ancora con il ragionamento a lungo contesto. Gli approcci esistenti coinvolgono tipicamente il raffinamento dei LLM con dati sintetici, che dipendono da annotazioni di esperti umani o modelli avanzati come il GPT-4, limitando così ulteriori progressi. Per affrontare questo problema, esaminiamo il potenziale dei LLM di auto-migliorarsi nel ragionamento a lungo contesto e proponiamo \ours, un approccio appositamente progettato per questo scopo. Questo approccio è diretto: campioniamo più output per ogni domanda, li valutiamo con il Rischio Minimo di Bayes, e quindi applichiamo un raffinamento supervisionato o un'ottimizzazione delle preferenze basata su questi output. Estesi esperimenti su diversi principali LLM dimostrano l'efficacia di \ours, con un miglioramento assoluto di 4,2 punti per Llama-3.1-8B-Instruct. Inoltre, \ours raggiunge prestazioni superiori rispetto agli approcci precedenti che dipendono da dati prodotti da esperti umani o modelli avanzati. Prevediamo che questo lavoro aprirà nuove vie per le tecniche di auto-miglioramento in scenari a lungo contesto, essenziali per il continuo avanzamento dei LLM.
La generazione di video si è affermata come uno strumento promettente per la simulazione del mondo, sfruttando dati visivi per replicare ambienti del mondo reale. In questo contesto, la generazione di video egocentrici, che si concentra sulla prospettiva umana, ha un significativo potenziale per migliorare le applicazioni nella realtà virtuale, realtà aumentata e nei videogiochi. Tuttavia, la generazione di video egocentrici presenta notevoli sfide a causa della natura dinamica dei punti di vista egocentrici, della complessa diversità delle azioni e della varietà complessa delle scene incontrate. I dataset esistenti non sono adeguati per affrontare efficacemente queste sfide. Per colmare questa lacuna, presentiamo EgoVid-5M, il primo dataset di alta qualità appositamente curato per la generazione di video egocentrici. EgoVid-5M comprende 5 milioni di clip video egocentriche ed è arricchito con dettagliate annotazioni sulle azioni, inclusi controlli cinematici dettagliati e descrizioni testuali di alto livello. Per garantire l'integrità e l'utilizzabilità del dataset, implementiamo un sofisticato processo di pulizia dei dati progettato per mantenere la coerenza dei frame, la coerenza delle azioni e la fluidità del movimento nelle condizioni egocentriche. Inoltre, presentiamo EgoDreamer, in grado di generare video egocentrici guidati contemporaneamente da descrizioni delle azioni e segnali di controllo cinematico. Il dataset EgoVid-5M, le relative annotazioni sulle azioni e tutti i metadati di pulizia dei dati saranno resi disponibili per l'avanzamento della ricerca nella generazione di video egocentrici.
L'allineamento dei grandi modelli linguistici (LLM) con le preferenze umane rimane una sfida chiave. Mentre le tecniche di post-addestramento come il Reinforcement Learning from Human Feedback (RLHF) e l'ottimizzazione diretta delle preferenze (DPO) hanno ottenuto successi notevoli, spesso introducono inefficienze computazionali e instabilità nell'addestramento. In questo articolo, proponiamo l'Ottimizzazione delle Preferenze a livello di Caratteristica (FPO), un nuovo metodo progettato per semplificare il processo di allineamento garantendo al contempo la stabilità. FPO sfrutta Sparse Autoencoder (SAE) pre-addestrati e introduce vincoli a livello di caratteristica, consentendo un allineamento efficiente e forzato alla sparità. Il nostro approccio gode di efficienza utilizzando caratteristiche sparse attivate in un autoencoder sparso ben addestrato e della qualità della divergenza KL sequenziale utilizzando il riferimento offline a livello di caratteristica. I risultati sperimentali su dataset di riferimento dimostrano che FPO raggiunge un miglioramento assoluto del 5,08% nel tasso di vincita con un costo computazionale molto inferiore rispetto alle basi di confronto all'avanguardia, rendendolo una soluzione promettente per allineamenti LLM efficienti e controllabili.
I modelli linguistici francesi, come CamemBERT, sono stati ampiamente adottati in diversi settori per compiti di elaborazione del linguaggio naturale (NLP), con modelli come CamemBERT che registrano oltre 4 milioni di download al mese. Tuttavia, questi modelli affrontano sfide dovute al concetto di deriva temporale, in cui dati di addestramento obsoleti portano a un calo delle prestazioni, specialmente quando si incontrano nuovi argomenti e terminologia. Questa problematica sottolinea la necessità di modelli aggiornati che riflettano le attuali tendenze linguistiche. In questo articolo, presentiamo due nuove versioni del modello base CamemBERT - CamemBERTav2 e CamemBERTv2 - progettate per affrontare tali sfide. CamemBERTav2 si basa sull'architettura DeBERTaV3 e fa uso dell'obiettivo di Rilevamento dei Token Sostituiti (RTD) per una migliore comprensione contestuale, mentre CamemBERTv2 è costruito su RoBERTa, che utilizza l'obiettivo di Modellazione del Linguaggio Mascherato (MLM). Entrambi i modelli sono addestrati su un dataset significativamente più ampio e recente, con una maggiore lunghezza del contesto e un tokenizer aggiornato che migliora le prestazioni di tokenizzazione per il francese. Valutiamo le prestazioni di questi modelli sia su compiti NLP di dominio generale che su applicazioni specifiche di settore, come compiti nel campo medico, dimostrandone la versatilità ed efficacia in una varietà di casi d'uso. I nostri risultati mostrano che questi modelli aggiornati superano di gran lunga i loro predecessori, rendendoli strumenti preziosi per i moderni sistemi NLP. Tutti i nostri nuovi modelli, così come i checkpoint intermedi, sono resi disponibili pubblicamente su Huggingface.
I vettori di steering sono un approccio promettente per controllare il comportamento dei grandi modelli linguistici. Tuttavia, i loro meccanismi sottostanti rimangono poco compresi. Mentre gli autoencoder sparsi (SAE) potrebbero offrire un metodo potenziale per interpretare i vettori di steering, recenti scoperte mostrano che i vettori ricostruiti da SAE spesso mancano delle proprietà di steering dei vettori originali. Questo articolo investiga il motivo per cui l'applicazione diretta di SAE ai vettori di steering produce decomposizioni fuorvianti, identificando due motivi: (1) i vettori di steering si trovano al di fuori della distribuzione di input per la quale SAE sono progettati e (2) i vettori di steering possono avere proiezioni negative significative nelle direzioni delle caratteristiche, che SAE non sono progettati per gestire. Queste limitazioni ostacolano l'uso diretto di SAE per interpretare i vettori di steering.
La generazione musicale ha fatto progressi significativi, specialmente nel dominio della generazione audio. Tuttavia, generare musica simbolica che sia sia strutturata a lungo termine che espressiva rimane una sfida significativa. In questo articolo, proponiamo PerceiverS (Segmentazione e Scala), un'architettura innovativa progettata per affrontare questo problema sfruttando sia meccanismi di Segmentazione Efficace che di Attenzione Multi-Scala. Il nostro approccio potenzia la generazione di musica simbolica apprendendo simultaneamente dipendenze strutturali a lungo termine e dettagli espressivi a breve termine. Unendo l'attenzione incrociata e l'autoriferimento in un contesto Multi-Scala, PerceiverS cattura la struttura musicale a lungo raggio preservando le sfumature esecutive. Il modello proposto, valutato su set di dati come Maestro, dimostra miglioramenti nella generazione di musica coerente e diversificata con coerenza strutturale e variazione espressiva. Le demo del progetto e i campioni di musica generata sono accessibili tramite il link: https://perceivers.github.io.
I modelli esistenti di testo-a-video (T2V) spesso faticano a generare video con azioni sufficientemente pronunciate o complesse. Una limitazione chiave risiede nella incapacità del prompt di testo di trasmettere precisamente dettagli di movimento intricati. Per affrontare questo problema, proponiamo un nuovo framework, MVideo, progettato per produrre video di lunga durata con azioni precise e fluide. MVideo supera le limitazioni dei prompt di testo incorporando sequenze di maschere come input condizionale aggiuntivo sul movimento, fornendo una rappresentazione più chiara e accurata delle azioni intese. Sfruttando modelli visionari fondamentali come GroundingDINO e SAM2, MVideo genera automaticamente sequenze di maschere, migliorando sia l'efficienza che la robustezza. I nostri risultati dimostrano che, dopo l'addestramento, MVideo allinea efficacemente i prompt di testo con le condizioni di movimento per produrre video che soddisfano contemporaneamente entrambi i criteri. Questo meccanismo di controllo duale consente una generazione video più dinamica consentendo modifiche sia al prompt di testo che alla condizione di movimento in modo indipendente, o entrambi contemporaneamente. Inoltre, MVideo supporta la modifica e la composizione delle condizioni di movimento, facilitando la generazione di video con azioni più complesse. MVideo fa quindi progredire la generazione di movimento T2V, stabilendo un solido punto di riferimento per un'azione migliorata nella rappresentazione dei video attuali. La pagina del nostro progetto è disponibile su https://mvideo-v1.github.io/.