Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo EnerVerse, un framework completo per la generazione di spazi futuri incorporati progettato specificamente per compiti di manipolazione robotica. EnerVerse integra in modo fluido meccanismi di attenzione convoluzionale e bidirezionale per la modellazione dello spazio interno a chunk, garantendo coerenza e continuità a basso livello. Riconoscendo la ridondanza intrinseca nei dati video, proponiamo un contesto di memoria sparso combinato con un paradigma generativo unidirezionale a chunk per consentire la generazione di sequenze infinite. Per potenziare ulteriormente le capacità robotiche, introduciamo lo spazio Free Anchor View (FAV), che fornisce prospettive flessibili per migliorare l'osservazione e l'analisi. Lo spazio FAV riduce l'ambiguità nella modellazione del movimento, rimuove vincoli fisici in ambienti ristretti e migliora significativamente la generalizzazione e l'adattabilità del robot in vari compiti e contesti. Per affrontare i costi proibitivi e l'intensità lavorativa nell'acquisizione di osservazioni multi-telecamera, presentiamo un flusso di lavoro motore dati che integra un modello generativo con lo Splatting Gaussiano 4D (4DGS). Questo flusso di lavoro sfrutta le robuste capacità di generalizzazione del modello generativo e i vincoli spaziali forniti da 4DGS, consentendo un potenziamento iterativo della qualità e della diversità dei dati, creando così un effetto di volano dei dati che riduce efficacemente il divario tra simulazione e realtà. Infine, i nostri esperimenti dimostrano che la generazione di spazi futuri incorporati migliora sostanzialmente le capacità predictive delle politiche, portando a un miglioramento delle prestazioni complessive, in particolare nei compiti di manipolazione robotica a lungo raggio.
I recenti Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) si sono tipicamente concentrati sull'integrazione delle modalità visiva e testuale, con meno enfasi posta sul ruolo del linguaggio parlato nel migliorare l'interazione. Tuttavia, il linguaggio parlato svolge un ruolo cruciale nei sistemi di dialogo multimodali, e implementare prestazioni elevate sia nei compiti visivi che in quelli del linguaggio parlato rimane una sfida significativa a causa delle differenze fondamentali di modalità. In questo articolo, proponiamo una metodologia di addestramento multi-stadio attentamente progettata che addestra progressivamente il LLM a comprendere sia le informazioni visive che quelle del linguaggio parlato, consentendo infine un'interazione fluida tra visione e linguaggio parlato. Il nostro approccio non solo preserva una forte capacità di visione-linguaggio, ma consente anche capacità di dialogo efficienti da linguaggio parlato a linguaggio parlato senza moduli ASR e TTS separati, accelerando significativamente la velocità di risposta multimodale end-to-end. Confrontando il nostro metodo con i corrispondenti all'avanguardia su benchmark per immagini, video e compiti di linguaggio parlato, dimostriamo che il nostro modello è dotato di forti capacità visive e del linguaggio parlato, consentendo un'interazione quasi in tempo reale tra visione e linguaggio parlato.
Recentemente, i sistemi di ragionamento a pensiero lento, basati su grandi modelli linguistici (LLM), hanno attirato molta attenzione per la scalabilità del tempo di pensiero durante l'inferenza. Vi è anche un crescente interesse nell'adattare questa capacità ai modelli linguistici multimodali di grandi dimensioni (MLLM). Dato che i MLLM gestiscono semantica dei dati più complessa attraverso diverse modalità, risulta intuitivamente più impegnativo implementare sistemi di pensiero lento multimodali. Per affrontare questa problematica, in questo articolo esploriamo un approccio diretto mediante il raffinamento di un MLLM capace con una piccola quantità di dati testuali di lungo pensiero, risultando in un sistema di pensiero lento multimodale, Virgo (Ragionamento visuale con lungo pensiero). Abbiamo constatato che questi processi di ragionamento di lungo periodo, espressi in linguaggio naturale, possono essere trasferiti in modo efficace ai MLLM. Inoltre, sembra che tali dati di ragionamento testuale possano essere ancora più efficaci dei dati di ragionamento visivo nel suscitare le capacità di pensiero lento dei MLLM. Sebbene questo lavoro sia preliminare, dimostra che le capacità di pensiero lento sono fondamentalmente associate al componente del modello linguistico, che può essere trasferito tra diverse modalità o domini. Questa scoperta può essere sfruttata per guidare lo sviluppo di sistemi di ragionamento a pensiero lento più potenti. Mettiamo a disposizione le nostre risorse su https://github.com/RUCAIBox/Virgo.
Gli agenti sociali alimentati da grandi modelli linguistici (LLM) possono simulare comportamenti sociali umani ma presentano limiti nella gestione di dialoghi sociali complessi orientati agli obiettivi. L'ottimizzazione diretta delle preferenze (DPO) si è dimostrata efficace nell'allineare il comportamento dei LLM con le preferenze umane in una varietà di compiti degli agenti. Gli approcci basati su DPO esistenti per interazioni multi-turno sono divisi in metodi a livello di turno e a livello di sessione. Il metodo a livello di turno è eccessivamente dettagliato, concentrandosi esclusivamente sui singoli turni, mentre i metodi a livello di sessione sono troppo grossolani, introducendo spesso rumore durante l'addestramento. Per affrontare queste limitazioni, proponiamo l'Ottimizzazione Diretta delle Preferenze a Livello di Segmento (SDPO), che si concentra su segmenti chiave specifici all'interno delle interazioni per ottimizzare il comportamento multi-turno dell'agente riducendo al minimo il rumore durante l'addestramento. Le valutazioni sul benchmark SOTOPIA dimostrano che gli agenti ottimizzati con SDPO superano costantemente sia i metodi basati su DPO esistenti che i LLM proprietari come GPT-4o, sottolineando il potenziale di SDPO nel migliorare l'intelligenza sociale degli agenti basati su LLM. Rilasciamo il nostro codice e i dati su https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
La generazione di grafi è un compito critico in numerosi ambiti, tra cui il design molecolare e l'analisi delle reti sociali, grazie alla sua capacità di modellare relazioni complesse e dati strutturati. Mentre la maggior parte dei moderni modelli generativi di grafi utilizzano rappresentazioni tramite matrice di adiacenza, questo lavoro riconsidera un approccio alternativo che rappresenta i grafi come sequenze di insiemi di nodi e insiemi di archi. Sosteniamo questo approccio per la sua codifica efficiente dei grafi e proponiamo una nuova rappresentazione. Basandoci su questa rappresentazione, introduciamo il Transformer Pre-addestrato Generativo di Grafi (G2PT), un modello auto-regressivo che apprende strutture di grafi tramite previsione del token successivo. Per sfruttare ulteriormente le capacità di G2PT come modello fondamentale ad uso generale, esploriamo strategie di fine-tuning per due applicazioni derivate: generazione orientata agli obiettivi e previsione delle proprietà del grafo. Conduciamo ampi esperimenti su più set di dati. I risultati indicano che G2PT raggiunge prestazioni generative superiori sia su grafi generici che su set di dati molecolari. Inoltre, G2PT mostra una forte adattabilità e versatilità in compiti derivati dal design molecolare alla previsione delle proprietà.
Presentiamo una strategia generale per allineare i modelli di generazione visiva - sia per immagini che per video - con le preferenze umane. Per iniziare, costruiamo VisionReward - un modello di ricompensa dettagliato e multidimensionale. Scomponiamo le preferenze umane in immagini e video in diverse dimensioni, ognuna rappresentata da una serie di domande di giudizio, pesate linearmente e sommate per ottenere un punteggio interpretabile e accurato. Per affrontare le sfide dell'analisi della qualità dei video, analizziamo sistematicamente varie caratteristiche dinamiche dei video, che aiutano VisionReward a superare VideoScore del 17,2% e a raggiungere le migliori prestazioni per la predizione delle preferenze video. Basandoci su VisionReward, sviluppiamo un algoritmo di apprendimento delle preferenze multi-obiettivo che affronta efficacemente il problema dei fattori confondenti nei dati sulle preferenze. Il nostro approccio supera significativamente i metodi esistenti di valutazione delle immagini e dei video sia in termini di metriche automatiche che di valutazione umana. Tutto il codice e i set di dati sono disponibili su https://github.com/THUDM/VisionReward.
I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) basati su modelli di embedding hanno stabilito nuovi benchmark di stato dell'arte per compiti di embedding di testo, in particolare nel recupero basato su vettori densi. Tuttavia, questi modelli si concentrano principalmente sull'inglese, lasciando in gran parte inesplorate le capacità di embedding multilingue. Per affrontare questa limitazione, presentiamo LUSIFER, un nuovo approccio zero-shot che adatta i modelli di embedding basati su LLM per compiti multilingue senza richiedere supervisione multilingue. L'architettura di LUSIFER combina un codificatore multilingue, che funge da apprendista universale del linguaggio, con un modello di embedding basato su LLM ottimizzato per compiti specifici di embedding. Questi componenti sono integrati in modo trasparente attraverso un insieme minimo di parametri addestrabili che agiscono come connettore, trasferendo efficacemente le capacità di comprensione del linguaggio del codificatore multilingue al modello di embedding specializzato. Inoltre, per valutare in modo esaustivo le prestazioni di embedding multilingue, introduciamo un nuovo benchmark che comprende 5 compiti di embedding principali, 123 set di dati diversi e copertura in 14 lingue. I risultati sperimentali estensivi dimostrano che LUSIFER migliora significativamente le prestazioni multilingue in vari compiti di embedding, in particolare per le lingue con risorse medie e basse, senza richiedere dati di addestramento multilingue espliciti.
Comprendere il mondo e spiegarlo con teorie scientifiche è un obiettivo centrale della ricerca sull'intelligenza artificiale. Proporre teorie, progettare esperimenti per testarle e poi revisionarle in base ai dati sono fondamentali per la scoperta scientifica. Nonostante il significativo potenziale degli agenti scientifici basati su LLM, non esistono benchmark che testino sistematicamente la capacità di LLM di proporre modelli scientifici, raccogliere dati sperimentali e revisionarli alla luce di nuovi dati. Introduciamo BoxingGym, un benchmark con 10 ambienti per valutare sistematicamente sia il design sperimentale (ad es. raccogliere dati per testare una teoria scientifica) che la scoperta del modello (ad es. proporre e revisionare teorie scientifiche). Per consentire una valutazione tracciabile e quantitativa, implementiamo ciascun ambiente come un modello generativo probabilistico con cui un agente scientifico può condurre esperimenti interattivi. Questi modelli probabilistici provengono da vari domini scientifici del mondo reale, che vanno dalla psicologia all'ecologia. Per valutare quantitativamente la capacità di un agente scientifico di raccogliere dati sperimentali informativi, calcoliamo il guadagno di informazione atteso (EIG), una quantità informativa che misura quanto un esperimento riduca l'incertezza sui parametri di un modello generativo. Una buona teoria scientifica è una spiegazione concisa e predittiva. Pertanto, per valutare quantitativamente la scoperta del modello, chiediamo a un agente scientifico di spiegare il proprio modello e poi valutiamo se questa spiegazione consente a un altro agente scientifico di fare previsioni affidabili su quell'ambiente. Oltre a questa valutazione basata sulla spiegazione, calcoliamo metriche standard di valutazione del modello come gli errori di previsione. Riscontriamo che attuali LLM, come GPT-4o, faticano sia con il design sperimentale che con la scoperta del modello. Troviamo che l'aggiunta di un modello statistico esplicito all'agente basato su LLM non migliora in modo affidabile questi risultati.