Articoli di ricerca IA selezionati quotidianamente con traduzioni
GPT-4o è un modello omni autoregressivo che accetta in input qualsiasi combinazione di testo, audio, immagini e video, e genera qualsiasi combinazione di output di testo, audio e immagini. È addestrato end-to-end attraverso testo, visione e audio, il che significa che tutti gli input e output sono elaborati dalla stessa rete neurale. GPT-4o può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, simile al tempo di risposta umano in una conversazione. Eguaglia le prestazioni di GPT-4 Turbo nel testo in inglese e nel codice, con un significativo miglioramento nel testo in lingue non inglesi, risultando anche molto più veloce e il 50\% più economico nell'API. GPT-4o è particolarmente migliore nell'interpretazione della visione e dell'audio rispetto ai modelli esistenti. In linea con il nostro impegno nella costruzione di un'intelligenza artificiale in modo sicuro e coerente con i nostri impegni volontari presso la Casa Bianca, condividiamo la Scheda di Sistema di GPT-4o, che include le nostre valutazioni del Framework di Preparazione. In questa Scheda di Sistema, offriamo una visione dettagliata sulle capacità, limitazioni e valutazioni di sicurezza di GPT-4o in diverse categorie, concentrandoci sulla traduzione vocale, valutando anche le capacità di testo e immagini, e le misure che abbiamo implementato per garantire che il modello sia sicuro e allineato. Includiamo anche valutazioni di terze parti sulle capacità pericolose, nonché una discussione sugli impatti sociali potenziali delle capacità di testo e visione di GPT-4o.
Introduciamo Bielik 7B v0.1, un modello generativo di testo da 7 miliardi di parametri per il trattamento del linguaggio polacco. Addestrato su corpora polacchi curati, questo modello affronta sfide chiave nello sviluppo dei modelli linguistici attraverso tecniche innovative. Queste includono la perdita di entropia incrociata con istruzioni pesate, che bilancia l'apprendimento di diversi tipi di istruzioni, e il tasso di apprendimento adattivo, che regola dinamicamente il tasso di apprendimento in base al progresso dell'addestramento. Per valutare le prestazioni, abbiamo creato la classifica Open PL LLM e Polish MT-Bench, nuovi framework che valutano vari compiti di elaborazione del linguaggio naturale e abilità conversazionali. Bielik 7B v0.1 dimostra miglioramenti significativi, ottenendo un aumento del punteggio medio del 9% rispetto a Mistral-7B-v0.1 nel compito di lettura RAG Reader. Eccelle anche nel Polish MT-Bench, in particolare nelle categorie di Ragionamento (6,15/10) e Gioco di ruolo (7,83/10). Questo modello rappresenta un notevole progresso nell'IA linguistica polacca, offrendo uno strumento potente per diverse applicazioni linguistiche e stabilendo nuovi standard nel settore.
I modelli di linguaggio ridotti (SLM) sono diventati sempre più importanti a causa della loro efficienza e prestazioni nel svolgere varie attività linguistiche con risorse computazionali minime, rendendoli ideali per diverse situazioni, tra cui dispositivi mobili, edge computing, tra molti altri. In questo articolo, presentiamo un'ampia panoramica sugli SLM, concentrandoci sulle loro architetture, tecniche di addestramento e tecniche di compressione del modello. Proponiamo una nuova tassonomia per classificare i metodi utilizzati per ottimizzare gli SLM, inclusi la compressione del modello, il pruning e le tecniche di quantizzazione. Riassumiamo i set di dati di riferimento utili per il benchmark degli SLM insieme alle metriche di valutazione comunemente utilizzate. Inoltre, evidenziamo le principali sfide aperte che devono ancora essere affrontate. La nostra panoramica mira a essere una risorsa preziosa per ricercatori e professionisti interessati allo sviluppo e alla distribuzione di modelli di linguaggio ridotti ma efficienti.
Gli agenti digitali capaci di automatizzare complesse attività informatiche hanno attirato considerevole attenzione per il loro immenso potenziale nel migliorare l'interazione uomo-computer. Tuttavia, i metodi degli agenti esistenti mostrano carenze nelle loro capacità di generalizzazione e specializzazione, specialmente nel gestire attività informatiche aperte in ambienti del mondo reale. Ispirandoci alla ricca funzionalità dell'App Store, presentiamo AgentStore, una piattaforma scalabile progettata per integrare dinamicamente agenti eterogenei per automatizzare attività informatiche. AgentStore permette agli utenti di integrare agenti di terze parti, consentendo al sistema di arricchire continuamente le proprie capacità e adattarsi ai sistemi operativi in rapida evoluzione. Inoltre, proponiamo un nuovo nucleo MetaAgente con la strategia AgentToken per gestire efficientemente agenti diversi e sfruttare le loro abilità specializzate e generaliste sia per compiti specifici del dominio che per quelli a livello di sistema. Estesi esperimenti su tre benchmark sfidanti dimostrano che AgentStore supera i limiti dei sistemi precedenti con capacità limitate, ottenendo in particolare un significativo miglioramento dal 11,21% al 23,85% sul benchmark OSWorld, più che raddoppiando i risultati precedenti. Risultati quantitativi e qualitativi completi dimostrano ulteriormente la capacità di AgentStore di migliorare i sistemi di agenti sia nella generalizzazione che nella specializzazione, sottolineando il suo potenziale nello sviluppare l'assistente informatico generalista specializzato. Tutti i nostri codici saranno resi pubblicamente disponibili su https://chengyou-jia.github.io/AgentStore-Home.
Il parsing dei documenti è essenziale per convertire dati non strutturati e semi-strutturati - come contratti, articoli accademici e fatture - in dati strutturati leggibili dalle macchine. Il parsing dei documenti estrae dati strutturati affidabili da input non strutturati, offrendo enormi vantaggi per numerose applicazioni. Specialmente con i recenti successi nei Grandi Modelli Linguistici, il parsing dei documenti svolge un ruolo indispensabile sia nella costruzione di basi di conoscenza che nella generazione di dati di addestramento. Questa indagine presenta una revisione completa dello stato attuale del parsing dei documenti, coprendo metodologie chiave, dai sistemi modulari a pipeline ai modelli end-to-end guidati dai grandi modelli visione-linguaggio. Componenti fondamentali come il rilevamento del layout, l'estrazione dei contenuti (compresi testi, tabelle ed espressioni matematiche) e l'integrazione di dati multimodali sono esaminati in dettaglio. Inoltre, questo articolo discute le sfide affrontate dai sistemi modulari di parsing dei documenti e dai modelli visione-linguaggio nella gestione di layout complessi, nell'integrazione di moduli multipli e nel riconoscimento di testi ad alta densità. Sottolinea l'importanza dello sviluppo di set di dati più ampi e diversificati e delinea le future direzioni di ricerca.
Introduciamo MarDini, una nuova famiglia di modelli di diffusione video che integrano i vantaggi della regressione auto-mascherata (MAR) in un framework unificato di modelli di diffusione (DM). Qui, MAR gestisce la pianificazione temporale, mentre DM si concentra sulla generazione spaziale in un design di rete asimmetrico: i) un modello di pianificazione basato su MAR che contiene la maggior parte dei parametri genera segnali di pianificazione per ciascun frame mascherato utilizzando un input a bassa risoluzione; ii) un modello di generazione leggero utilizza questi segnali per produrre frame ad alta risoluzione tramite de-noising per diffusione. Il MAR di MarDini consente la generazione di video condizionata a qualsiasi numero di frame mascherati in qualsiasi posizione del frame: un singolo modello può gestire l'interpolazione video (ad esempio, mascherando i frame intermedi), la generazione di immagini-video (ad esempio, mascherando dal secondo frame in poi) e l'espansione video (ad esempio, mascherando la metà dei frame). Il design efficiente assegna la maggior parte delle risorse computazionali al modello di pianificazione a bassa risoluzione, rendendo fattibile a scala l'attenzione spazio-temporale computazionalmente costosa ma importante. MarDini stabilisce un nuovo stato dell'arte per l'interpolazione video; nel frattempo, entro pochi passaggi di inferenza, genera efficientemente video all'altezza di quelli di modelli avanzati di generazione di immagini-video molto più costosi.
L'addestramento in FP8 è emerso come un metodo promettente per migliorare l'efficienza dell'addestramento. I framework esistenti accelerano l'addestramento applicando calcoli in FP8 ai livelli lineari lasciando gli stati dell'ottimizzatore e le attivazioni in una precisione più elevata, il che non ottimizza appieno l'utilizzo della memoria. Questo articolo introduce COAT (Compressing Optimizer States and Activations for FP8 Training), un nuovo framework di addestramento in FP8 progettato per ridurre significativamente l'impronta di memoria durante l'addestramento di modelli di grandi dimensioni. COAT affronta le limitazioni attuali attraverso due innovazioni chiave: (1) Espansione dell'Intervallo Dinamico, che allinea più strettamente le distribuzioni degli stati dell'ottimizzatore con l'intervallo di rappresentazione in FP8, riducendo così l'errore di quantizzazione, e (2) Quantizzazione delle Attivazioni a Granularità Mista, che ottimizza la memoria di attivazione utilizzando una combinazione di strategie di quantizzazione per tensore e per gruppo. Gli esperimenti dimostrano che COAT riduce efficacemente l'impronta di memoria di addestramento end-to-end di 1,54x rispetto a BF16, ottenendo prestazioni quasi senza perdite su varie attività, come il preaddestramento e il raffinamento di modelli di lingua di grandi dimensioni e l'addestramento di modelli di lingua per la visione. COAT raggiunge anche un aumento della velocità di addestramento end-to-end di 1,43x rispetto a BF16, eseguendo alla pari o superando l'aumento di velocità di TransformerEngine. COAT consente un addestramento efficiente di tutti i parametri di modelli di grandi dimensioni su meno GPU e facilita il raddoppio della dimensione del batch in ambienti di addestramento distribuito, offrendo una soluzione pratica per scalare l'addestramento di modelli su larga scala. Il codice è disponibile su https://github.com/NVlabs/COAT.
Il ripristino delle immagini (IR) in scenari del mondo reale presenta significativi sfide a causa della mancanza di modelli ad alta capacità e dataset completi. Per affrontare questi problemi, presentiamo una strategia duale: GenIR, un innovativo pipeline di cura dei dati, e DreamClear, un avanzato modello di ripristino delle immagini basato su Diffusion Transformer (DiT). GenIR, il nostro contributo pionieristico, è un pipeline di apprendimento a doppia prompt che supera i limiti dei dataset esistenti, che tipicamente comprendono solo alcune migliaia di immagini e offrono quindi una generalizzabilità limitata per modelli più grandi. GenIR semplifica il processo in tre fasi: costruzione di coppie immagine-testo, fine-tuning basato su doppio prompt e generazione e filtraggio dei dati. Questo approccio evita il laborioso processo di raccolta dati, garantendo la conformità al copyright e fornendo una soluzione economica e sicura dal punto di vista della privacy per la costruzione del dataset IR. Il risultato è un dataset su larga scala di un milione di immagini di alta qualità. Il nostro secondo contributo, DreamClear, è un modello di ripristino delle immagini basato su DiT. Utilizza i prior generativi dei modelli di diffusione testo-immagine (T2I) e le robuste capacità percettive dei modelli di linguaggio multimodale di grandi dimensioni (MLLMs) per ottenere un ripristino fotorealistico. Per potenziare l'adattabilità del modello a diverse degradazioni del mondo reale, introduciamo il Mixture of Adaptive Modulator (MoAM). Utilizza i prior di degradazione a livello di token per integrare dinamicamente vari esperti di ripristino, espandendo così la gamma di degradazioni che il modello può affrontare. I nostri esaurienti esperimenti confermano le prestazioni superiori di DreamClear, sottolineando l'efficacia della nostra strategia duale per il ripristino delle immagini del mondo reale. Codice e modelli pre-addestrati saranno disponibili su: https://github.com/shallowdream204/DreamClear.
Nonostante siano stati raggiunti significativi progressi nello sviluppo di modelli linguistici di lungo contesto (LLM), la qualità compromessa dei dati sintetizzati dai LLM per il fine-tuning supervisionato (SFT) influisce spesso sulle prestazioni a lungo contesto dei modelli SFT e porta a limitazioni intrinseche. In linea di principio, il reinforcement learning (RL) con segnali di ricompensa appropriati può ulteriormente potenziare le capacità dei modelli. Tuttavia, come ottenere ricompense affidabili in scenari a lungo contesto rimane inesplorato. A tal fine, proponiamo LongReward, un nuovo metodo che utilizza un LLM pronto all'uso per fornire ricompense per le risposte del modello a lungo contesto da quattro dimensioni di valore umano: utilità, logicità, fedeltà e completezza, ciascuna con un'attenta pipeline di valutazione progettata. Combinando LongReward e l'algoritmo di RL offline DPO, siamo in grado di migliorare efficacemente i modelli SFT a lungo contesto. I nostri esperimenti indicano che LongReward non solo migliora significativamente le prestazioni a lungo contesto dei modelli, ma potenzia anche la loro capacità di seguire brevi istruzioni. Troviamo anche che il DPO a lungo contesto con LongReward e il DPO a breve contesto convenzionale possono essere utilizzati insieme senza compromettere le prestazioni di nessuno dei due.
Introduciamo una nuova tecnica di ancoraggio spaziale senza addestramento per la generazione di testo-immagine utilizzando i Trasformatori a Diffusione (DiT). L'ancoraggio spaziale con riquadri delimitatori ha attirato l'attenzione per la sua semplicità e versatilità, consentendo un maggiore controllo dell'utente nella generazione di immagini. Tuttavia, gli approcci precedenti senza addestramento spesso si basano sull'aggiornamento dell'immagine rumorosa durante il processo di diffusione inversa tramite retropropagazione da funzioni di perdita personalizzate, che spesso faticano a fornire un controllo preciso su singoli riquadri delimitatori. In questo lavoro, sfruttiamo la flessibilità dell'architettura del Trasformatore, dimostrando che DiT può generare patch rumorose corrispondenti a ciascun riquadro delimitatore, codificando completamente l'oggetto target e consentendo un controllo dettagliato su ciascuna regione. Il nostro approccio si basa su una proprietà intrigante di DiT, che chiamiamo condivisione semantica. Grazie alla condivisione semantica, quando una patch più piccola viene denoisata insieme a un'immagine di dimensioni generabili, le due diventano "cloni semantici". Ciascuna patch viene denoisata nel proprio ramo del processo di generazione e quindi trapiantata nella regione corrispondente dell'immagine rumorosa originale ad ogni passaggio temporale, ottenendo un ancoraggio spaziale robusto per ciascun riquadro delimitatore. Nei nostri esperimenti sui benchmark HRS e DrawBench, otteniamo prestazioni all'avanguardia rispetto agli approcci precedenti di ancoraggio spaziale senza addestramento.
I motori di ricerca consentono di recuperare informazioni sconosciute tramite testi. Tuttavia, i metodi tradizionali risultano limitati nell'ambito della comprensione di contenuti visivi sconosciuti, come l'identificazione di un oggetto che il modello non ha mai visto prima. Questa sfida è particolarmente evidente per i grandi modelli visione-linguaggio (VLM): se il modello non è stato esposto all'oggetto raffigurato in un'immagine, fatica a generare risposte affidabili alla domanda dell'utente riguardo a quell'immagine. Inoltre, poiché nuovi oggetti ed eventi emergono continuamente, l'aggiornamento frequente dei VLM risulta impraticabile a causa di pesanti oneri computazionali. Per affrontare questa limitazione, proponiamo Vision Search Assistant, un nuovo framework che facilita la collaborazione tra i VLM e gli agenti web. Questo approccio sfrutta le capacità di comprensione visiva dei VLM e l'accesso in tempo reale alle informazioni degli agenti web per eseguire la Generazione potenziata da Recupero in un mondo aperto tramite il web. Integrando rappresentazioni visive e testuali attraverso questa collaborazione, il modello può fornire risposte informate anche quando l'immagine è nuova per il sistema. Estesi esperimenti condotti su benchmark di domande e risposte sia a insieme aperto che chiuso dimostrano che il Vision Search Assistant supera significativamente gli altri modelli e può essere ampiamente applicato ai VLM esistenti.
Il sicuro ed efficace dispiegamento dei Large Language Models (LLM) coinvolge un passaggio critico chiamato allineamento, che garantisce che le risposte del modello siano in accordo con le preferenze umane. Le tecniche di allineamento prevalenti, come DPO, PPO e le loro varianti, allineano i LLM modificando i pesi del modello pre-addestrato durante una fase chiamata post-addestramento. Sebbene predominanti, questi metodi di post-addestramento aggiungono una complessità sostanziale prima che i LLM possano essere dispiegati. I metodi di allineamento al momento dell'inferenza evitano il complesso passaggio del post-addestramento e invece indirizzano la generazione verso risposte allineate alle preferenze umane. Il metodo di allineamento al momento dell'inferenza più conosciuto, chiamato Best-of-N, è efficace quanto le procedure di post-addestramento all'avanguardia. Purtroppo, Best-of-N richiede notevolmente più risorse al momento dell'inferenza rispetto alle strategie standard di decodifica, rendendolo computazionalmente non praticabile. In questo lavoro, presentiamo il Reiezione Speculativa, un algoritmo di allineamento al momento dell'inferenza computazionalmente praticabile. Genera risposte ad alto punteggio secondo un modello di ricompensa dato, come fa Best-of-N, essendo tra 16 e 32 volte più efficiente dal punto di vista computazionale.
Presentiamo LARP, un nuovo tokenizzatore video progettato per superare le limitazioni nei metodi attuali di tokenizzazione video per modelli generativi autoregressivi (AR). A differenza dei tradizionali tokenizzatori a patch che codificano direttamente patch visive locali in token discreti, LARP introduce uno schema di tokenizzazione olistico che raccoglie informazioni dal contenuto visivo utilizzando un insieme di query olistiche apprese. Questo design consente a LARP di catturare rappresentazioni più globali e semantiche, anziché essere limitato alle informazioni a livello di patch locali. Inoltre, offre flessibilità supportando un numero arbitrario di token discreti, consentendo una tokenizzazione adattiva ed efficiente in base ai requisiti specifici del compito. Per allineare lo spazio dei token discreti con i compiti di generazione AR successivi, LARP integra un trasformatore AR leggero come modello prior durante l'addestramento che predice il token successivo nel suo spazio latente discreto. Incorporando il modello prior durante l'addestramento, LARP apprende uno spazio latente ottimizzato non solo per la ricostruzione video ma anche strutturato in modo più favorevole alla generazione autoregressiva. Inoltre, questo processo definisce un ordine sequenziale per i token discreti, spingendoli progressivamente verso una configurazione ottimale durante l'addestramento, garantendo una generazione AR più fluida e precisa al momento dell'inferenza. Esperimenti completi dimostrano la forte performance di LARP, raggiungendo uno stato dell'arte FVD sul benchmark di generazione video condizionata alla classe UCF101. LARP migliora la compatibilità dei modelli AR con i video e apre il potenziale per costruire modelli linguistici multimodali di alta fedeltà unificati (MLLMs).
In questo lavoro, riformuliamo il problema della compressione del modello nel problema della compensazione personalizzata: Dato un modello compresso, miriamo a introdurre percorsi residui a basso rango per compensare gli errori di compressione in base ai requisiti personalizzati degli utenti (ad esempio, compiti, rapporti di compressione), ottenendo una maggiore flessibilità nell'adattare la capacità complessiva senza essere vincolati da formati di compressione specifici. Tuttavia, l'applicazione ingenua della SVD per derivare percorsi residui causa un utilizzo non ottimale della capacità di rappresentazione a basso rango. Invece, proponiamo l'Approssimazione a Basso Rango dello Spazio degli Autovettori Senza Allenamento (EoRA), un metodo che minimizza direttamente gli errori indotti dalla compressione senza richiedere un allenamento basato su gradienti, raggiungendo un'ottimizzazione rapida in pochi minuti utilizzando una piccola quantità di dati di calibrazione. EoRA proietta gli errori di compressione nello spazio degli autovettori delle attivazioni in ingresso, sfruttando gli autovalori per dare priorità in modo efficace alla ricostruzione dei componenti di errore ad alta importanza. Inoltre, EoRA può essere integrato senza soluzione di continuità con il fine-tuning e la quantizzazione per migliorare ulteriormente l'efficacia e l'efficienza. EoRA supera costantemente i metodi precedenti nel compensare gli errori per i modelli LLaMA2/3 compressi su varie attività, come la generazione di linguaggio, il ragionamento di senso comune e le attività di ragionamento matematico (ad esempio, miglioramenti del 31,31%/12,88% e del 9,69% su ARC-Easy/ARC-Challenge e MathQA quando si compensa LLaMA3-8B quantizzato a 4 bit e potato a una sparsità di 2:4). EoRA offre una soluzione scalabile e senza allenamento per compensare gli errori di compressione, rendendolo uno strumento potente per implementare LLM in varie capacità ed esigenze di efficienza.
I modelli linguistici di grandi dimensioni (LLM) sono costosi da implementare. La condivisione dei parametri offre un possibile percorso per ridurne dimensioni e costi, ma la sua efficacia nei moderni LLM rimane piuttosto limitata. In questo lavoro, riprendiamo il "layer tying" come forma di condivisione dei parametri nei Transformers e introduciamo nuovi metodi per convertire i LLM esistenti in "Recursive Transformers" più piccoli che condividono i parametri tra i vari layer, con una perdita minima delle prestazioni. Qui, i nostri Recursive Transformers vengono inizializzati in modo efficiente dai Transformers preaddestrati standard, ma utilizzano solo un singolo blocco di layer unici che viene poi ripetuto più volte in un ciclo. Miglioriamo ulteriormente le prestazioni introducendo i Relaxed Recursive Transformers che aggiungono flessibilità al vincolo di condivisione dei layer tramite moduli di adattamento a basso rango (LoRA) in profondità, pur preservando la compattezza del modello complessivo. Dimostriamo che i nostri modelli ricorsivi (ad esempio, Gemma 1B ricorsivo) superano sia modelli preaddestrati simili in dimensioni (come TinyLlama 1.1B e Pythia 1B) che baselines di distillazione della conoscenza, e possono persino recuperare la maggior parte delle prestazioni del modello "a dimensioni complete" originale (ad esempio, Gemma 2B senza parametri condivisi). Infine, proponiamo il Continuous Depth-wise Batching, un nuovo paradigma promettente per l'inferenza reso possibile dal Recursive Transformer abbinato all'uscita anticipata. In un'analisi teorica, mostriamo che questo ha il potenziale per portare a significativi aumenti (2-3 volte) nella capacità di elaborazione dell'inferenza.
I video sono spesso utilizzati per apprendere o estrarre le informazioni necessarie per completare compiti in modi diversi da quanto possano fornire solo testo e immagini statiche. Tuttavia, molti benchmark esistenti per agenti trascurano la comprensione dei video a lungo contesto, concentrandosi invece su input di testo o immagini statiche. Per colmare questa lacuna, presentiamo VideoWebArena (VideoWA), un benchmark per valutare le capacità degli agenti multimodali a lungo contesto nella comprensione dei video. VideoWA è composto da 2.021 compiti per agenti web basati su tutorial video creati manualmente, che totalizzano quasi quattro ore di contenuti. Per il nostro benchmark, definiamo una tassonomia dei compiti degli agenti basati su video a lungo contesto con due principali aree di focus: la ritenzione delle abilità e la ritenzione dei fatti. Mentre i compiti di ritenzione delle abilità valutano se un agente può utilizzare una dimostrazione umana data per completare un compito in modo efficiente, il compito di ritenzione dei fatti valuta se un agente può recuperare informazioni rilevanti per le istruzioni da un video per completare un compito. Troviamo che il miglior modello raggiunge il 13,3% di successo nei compiti di ritenzione dei fatti e il 45,8% nelle coppie di domande e risposte di ritenzione dei fatti, molto al di sotto delle prestazioni umane rispettivamente del 73,9% e del 79,3%. Nei compiti di ritenzione delle abilità, i modelli a lungo contesto si comportano peggio con i tutorial che senza, mostrando una diminuzione delle prestazioni del 5% nei compiti di WebArena e del 10,3% nei compiti di VisualWebArena. Il nostro lavoro sottolinea la necessità di migliorare le capacità agentiche dei modelli multimodali a lungo contesto e fornisce una base per lo sviluppo futuro con agenti video a lungo contesto.
I campi neurali sono emersi come un approccio trasformativo per la rappresentazione di scene 3D nella visione artificiale e nella robotica, consentendo un'accurata inferenza della geometria, della semantica 3D e della dinamica dai dati 2D acquisiti. Sfruttando il rendering differenziabile, i campi neurali comprendono rappresentazioni neurali implicite ed esplicite continue che consentono una ricostruzione 3D ad alta fedeltà, l'integrazione di dati sensoriali multi-modali e la generazione di nuovi punti di vista. Questa panoramica esplora le loro applicazioni nella robotica, sottolineando il loro potenziale nel migliorare la percezione, la pianificazione e il controllo. La loro compattezza, efficienza di memoria e differenziabilità, insieme all'integrazione senza soluzione di continuità con modelli fondamentali e generativi, li rendono ideali per applicazioni in tempo reale, migliorando l'adattabilità e la presa di decisioni del robot. Questo articolo fornisce una revisione approfondita dei campi neurali nella robotica, categorizzando le applicazioni in vari ambiti e valutandone punti di forza e limitazioni, basandosi su oltre 200 articoli. In primo luogo, presentiamo quattro principali framework di campi neurali: Reti di Occupazione, Campi di Distanza Segnata, Campi di Radiazione Neurale e Splatting Gaussiano. In secondo luogo, dettagliamo le applicazioni dei campi neurali in cinque principali ambiti della robotica: stima della posa, manipolazione, navigazione, fisica e guida autonoma, evidenziando lavori chiave e discutendo punti salienti e sfide aperte. Infine, delineiamo le attuali limitazioni dei campi neurali nella robotica e proponiamo direzioni promettenti per la ricerca futura. Pagina del progetto: https://robonerf.github.io
Derivare in modo efficiente flussi di lavoro strutturati da dialoghi non annotati rimane una sfida poco esplorata e formidabile nella linguistica computazionale. Automatizzare questo processo potrebbe accelerare significativamente la progettazione manuale di flussi di lavoro in nuovi domini e consentire l'ancoraggio di grandi modelli linguistici in diagrammi di flusso specifici del dominio, migliorando la trasparenza e la controllabilità. In questo articolo, presentiamo gli embedding Dialog2Flow (D2F), che si differenziano dagli embedding di frasi convenzionali mappando le affermazioni in uno spazio latente dove vengono raggruppate in base alle loro funzioni comunicative e informative (ossia, le azioni che rappresentano). D2F consente di modellare i dialoghi come traiettorie continue in uno spazio latente con regioni distinte correlate alle azioni. Attraverso il clustering degli embedding D2F, lo spazio latente viene quantizzato e i dialoghi possono essere convertiti in sequenze di ID di regione/azione, facilitando l'estrazione del flusso di lavoro sottostante. Per il pre-addestramento di D2F, costruiamo un dataset esaustivo unificando venti dataset di dialoghi orientati al compito con annotazioni normalizzate per azione per turno. Introduciamo inoltre una nuova perdita contrastiva morbida che sfrutta le informazioni semantiche di queste azioni per guidare il processo di apprendimento della rappresentazione, mostrando prestazioni superiori rispetto alla perdita contrastiva supervisionata standard. La valutazione contro vari embedding di frasi, inclusi quelli specifici per i dialoghi, dimostra che D2F produce risultati qualitativi e quantitativi superiori in diversi domini.
Questa ricerca testa il ruolo dei Grandi Modelli Linguistici (LLM) come strumenti formali di seconda opinione nel processo decisionale professionale, concentrandosi in particolare su casi medici complessi in cui persino medici esperti cercano consulenza tra pari. Il lavoro ha analizzato 183 casi medici sfidanti da Medscape in un periodo di 20 mesi, testando le prestazioni di vari LLM rispetto alle risposte dei medici raccolte dalla folla. Una scoperta chiave è stata il punteggio complessivo elevato possibile nei più recenti modelli fondamentali (>80% di accuratezza rispetto all'opinione di consenso), che supera la maggior parte delle metriche umane riportate sugli stessi casi clinici (450 pagine di profili pazienti, risultati dei test). Lo studio valuta la disparità delle prestazioni dei LLM tra casi semplici (>81% di accuratezza) e scenari complessi (43% di accuratezza), in particolare in quei casi che generano un dibattito sostanziale tra i medici umani. La ricerca dimostra che i LLM potrebbero essere preziosi come generatori di diagnosi differenziali complete piuttosto che come strumenti diagnostici primari, potenzialmente contribuendo a contrastare i bias cognitivi nel processo decisionale clinico, ridurre i carichi cognitivi e quindi eliminare alcune fonti di errori medici. L'inclusione di un secondo dataset legale comparativo (casi della Corte Suprema, N=21) fornisce un contesto empirico aggiuntivo sull'uso dell'IA per favorire seconde opinioni, sebbene queste sfide legali si siano rivelate notevolmente più facili per i LLM da analizzare. Oltre ai contributi originali di prove empiriche sull'accuratezza dei LLM, la ricerca ha aggregato un nuovo punto di riferimento per consentire ad altri di valutare l'affidabilità di domande e risposte altamente contestate tra sia i LLM che i professionisti umani in disaccordo. Questi risultati suggeriscono che il dispiegamento ottimale dei LLM in contesti professionali potrebbe differire sostanzialmente dagli approcci attuali che enfatizzano l'automazione delle attività di routine.
Date le elevate spese legate alla raccolta di dati robotici nel mondo reale, l'efficienza campionaria rappresenta un obiettivo costantemente allettante nella robotica. In questo articolo, presentiamo SGRv2, un framework di apprendimento per imitazione che potenzia l'efficienza campionaria attraverso un miglioramento delle rappresentazioni visive e delle azioni. Al centro del design di SGRv2 vi è l'incorporazione di un bias induttivo cruciale - la località dell'azione - che postula che le azioni del robot siano principalmente influenzate dall'oggetto target e dalle sue interazioni con l'ambiente locale. Esperimenti approfonditi sia in ambienti simulati che reali dimostrano che la località dell'azione è essenziale per potenziare l'efficienza campionaria. SGRv2 eccelle nelle attività di RLBench con controllo a frame chiave utilizzando solamente 5 dimostrazioni e supera il modello di base RVT in 23 delle 26 attività. Inoltre, quando valutato su ManiSkill2 e MimicGen utilizzando un controllo denso, il tasso di successo di SGRv2 è 2,54 volte superiore rispetto a SGR. In ambienti reali, con soli otto esempi, SGRv2 può svolgere una varietà di compiti con un tasso di successo nettamente superiore rispetto ai modelli di base. Sito web del progetto: http://sgrv2-robot.github.io
L'apprendimento per imitazione dai dati di motion capture (MoCap) umani offre un modo promettente per addestrare robot umanoidi. Tuttavia, a causa delle differenze nella morfologia, come variazioni nei gradi di libertà articolari e limiti di forza, la replicazione esatta dei comportamenti umani potrebbe non essere fattibile per i robot umanoidi. Di conseguenza, l'inclusione di dati MoCap fisicamente non realizzabili nei set di addestramento può influire negativamente sulle prestazioni della politica del robot. Per affrontare questo problema, proponiamo un framework di apprendimento per imitazione basato sull'ottimizzazione a due livelli che alterna l'ottimizzazione della politica del robot e dei dati MoCap di destinazione. In particolare, sviluppiamo innanzitutto un modello dinamico latente generativo utilizzando un nuovo autoencoder auto-consistente, che apprende rappresentazioni del movimento sparse e strutturate catturando i modelli di movimento desiderati nel dataset. Il modello dinamico viene poi utilizzato per generare movimenti di riferimento mentre la rappresentazione latente regolarizza il processo di imitazione del movimento a due livelli. Simulazioni condotte con un modello realistico di un robot umanoide dimostrano che il nostro metodo potenzia la politica del robot modificando i movimenti di riferimento per renderli fisicamente coerenti.