Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi anni, si sono registrati progressi significativi nelle prestazioni dei modelli linguistici di grandi dimensioni (LLM) basati su Transformer in vari domini. Man mano che questi LLM vengono impiegati per compiti sempre più complessi, si trovano spesso a dover affrontare la necessità di condurre processi di ragionamento più lunghi o di comprendere contesti più ampi. In queste situazioni, il fallimento nella generalizzazione della lunghezza degli LLM su sequenze lunghe diventa più evidente. La maggior parte degli schemi di pre-addestramento tronca le sequenze di addestramento a una lunghezza fissa (come 2048 per LLaMa). Gli LLM spesso faticano a generare testi fluidi, per non parlare di eseguire compiti downstream, dopo contesti più lunghi, anche con codifiche posizionali relative progettate per affrontare questo problema. Soluzioni comuni come il fine-tuning su corpora più lunghi spesso comportano costi hardware e temporali proibitivi e richiedono un'attenta progettazione del processo di addestramento. Per sfruttare in modo più efficiente la capacità di generazione degli LLM esistenti, indaghiamo teoricamente ed empiricamente i principali fattori di out-of-distribution (OOD) che contribuiscono a questo problema. Ispirati da questa diagnosi, proponiamo una soluzione semplice ma efficace per la generalizzazione della lunghezza on-the-fly, LM-Infinite, che prevede solo una maschera di attenzione a forma di Lambda e un limite di distanza, senza richiedere aggiornamenti dei parametri o apprendimento. Troviamo che sia applicabile a una varietà di LLM che utilizzano metodi di codifica posizionale relativa. LM-Infinite è computazionalmente efficiente con complessità temporale e spaziale O(n) e dimostra una fluenza e qualità di generazione costanti fino a 32k token sui dataset ArXiv e OpenWebText2, con un'accelerazione della decodifica di 2,72x. Su compiti downstream come il recupero di passkey, continua a funzionare su input molto più lunghi delle lunghezze di addestramento dove i modelli standard falliscono immediatamente.
I modelli linguistici multimodali di grandi dimensioni hanno recentemente suscitato un notevole interesse. Tuttavia, la maggior parte dei lavori si concentra su modelli multimodali visione-linguaggio, offrendo forti capacità nel seguire istruzioni che coinvolgono sia la visione che il linguaggio. Noi sosteniamo che il parlato sia anch'esso una modalità importante attraverso cui gli esseri umani interagiscono con il mondo. Pertanto, è cruciale che un assistente generico sia in grado di seguire istruzioni multimodali che coinvolgono il parlato e il linguaggio. In questo lavoro, proponiamo il Large Language and Speech Model (LLaSM). LLaSM è un modello multimodale parlato-linguaggio di grandi dimensioni addestrato end-to-end con capacità conversazionali cross-modali, in grado di seguire istruzioni che coinvolgono il parlato e il linguaggio. I nostri primi esperimenti dimostrano che LLaSM offre un modo più conveniente e naturale per gli esseri umani di interagire con l'intelligenza artificiale. In particolare, rilasciamo anche un ampio dataset di istruzioni vocali, LLaSM-Audio-Instructions. Il codice e la demo sono disponibili su https://github.com/LinkSoul-AI/LLaSM e https://huggingface.co/spaces/LinkSoul/LLaSM. Il dataset LLaSM-Audio-Instructions è disponibile su https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Presentiamo Jais e Jais-chat, nuovi modelli generativi open di grandi dimensioni (LLM) all'avanguardia, focalizzati sull'arabo e ottimizzati per le istruzioni. I modelli si basano sull'architettura decoder-only di GPT-3 e sono pre-addestrati su una miscela di testi in arabo e inglese, inclusi codici sorgente in vari linguaggi di programmazione. Con 13 miliardi di parametri, dimostrano capacità di conoscenza e ragionamento in arabo superiori rispetto a qualsiasi altro modello open arabo e multilingue esistente, con un margine significativo, come evidenziato da un'ampia valutazione. Inoltre, i modelli sono competitivi in inglese rispetto a modelli open di dimensioni simili focalizzati sull'inglese, nonostante siano stati addestrati su una quantità molto minore di dati in inglese. Forniamo una descrizione dettagliata dell'addestramento, dell'ottimizzazione, dell'allineamento alla sicurezza e della valutazione dei modelli. Rilasciamo due versioni open del modello — il modello di base Jais e una variante ottimizzata per le istruzioni, Jais-chat — con l'obiettivo di promuovere la ricerca sui LLM in arabo. Disponibili su https://huggingface.co/inception-mbzuai/jais-13b-chat.
Affinché i robot siano utili al di fuori dei laboratori e delle fabbriche specializzate, abbiamo bisogno di un modo per insegnare loro nuovi comportamenti utili in modo rapido. Gli approcci attuali mancano o della generalità necessaria per introdurre nuovi compiti senza un'ingegneria specifica per il compito, o dell'efficienza dei dati per farlo in un tempo che consenta un uso pratico. In questo lavoro esploriamo il tracciamento denso come veicolo rappresentativo per consentire un apprendimento più rapido e più generale dalla dimostrazione. Il nostro approccio utilizza modelli Track-Any-Point (TAP) per isolare il movimento rilevante in una dimostrazione e parametrizzare un controller di basso livello per riprodurre questo movimento attraverso cambiamenti nella configurazione della scena. Dimostriamo che ciò si traduce in politiche robotiche robuste in grado di risolvere compiti complessi di disposizione degli oggetti come l'abbinamento di forme, l'impilamento e persino compiti di seguire percorsi completi come l'applicazione di colla e l'incollaggio di oggetti, tutto partendo da dimostrazioni che possono essere raccolte in pochi minuti.
WeatherBench 2 è un aggiornamento del benchmark globale per le previsioni meteorologiche a medio termine (1-14 giorni) proposto da Rasp et al. (2020), progettato con l'obiettivo di accelerare i progressi nella modellazione meteorologica basata sui dati. WeatherBench 2 comprende un framework di valutazione open-source, dati di addestramento, verità di base e dati di riferimento pubblicamente disponibili, nonché un sito web costantemente aggiornato con le ultime metriche e i modelli all'avanguardia: https://sites.research.google/weatherbench. Questo articolo descrive i principi di progettazione del framework di valutazione e presenta i risultati per i modelli meteorologici fisici e basati sui dati attualmente all'avanguardia. Le metriche si basano su pratiche consolidate per la valutazione delle previsioni meteorologiche presso i principali centri operativi meteorologici. Definiamo un insieme di punteggi principali per fornire una panoramica delle prestazioni del modello. Inoltre, discutiamo anche le limitazioni nell'attuale configurazione di valutazione e le sfide per il futuro delle previsioni meteorologiche basate sui dati.
L'apprendimento di comportamenti robotici strategici -- come quelli richiesti nelle interazioni di inseguimento-evasione -- sotto i vincoli del mondo reale è estremamente impegnativo. Richiede lo sfruttamento delle dinamiche dell'interazione e la pianificazione attraverso sia l'incertezza dello stato fisico che quella dell'intento latente. In questo articolo, trasformiamo questo problema intrattabile in un problema di apprendimento supervisionato, in cui una politica robotica completamente osservabile genera supervisione per una parzialmente osservabile. Scopriamo che la qualità del segnale di supervisione per la politica di inseguimento parzialmente osservabile dipende da due fattori chiave: l'equilibrio tra diversità e ottimalità del comportamento dell'evasore e la solidità delle assunzioni di modellazione nella politica completamente osservabile. Implementiamo la nostra politica su un robot quadrupede fisico dotato di una telecamera RGB-D per interazioni di inseguimento-evasione in ambienti reali. Nonostante tutte le sfide, i vincoli di percezione stimolano la creatività: il robot è spinto a raccogliere informazioni quando è incerto, a prevedere l'intento da misurazioni rumorose e ad anticipare per intercettare. Pagina web del progetto: https://abajcsy.github.io/vision-based-pursuit/