Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo OLMoTrace, il primo sistema in grado di tracciare gli output dei modelli linguistici fino ai loro dati di addestramento completi, composti da migliaia di miliardi di token, in tempo reale. OLMoTrace individua e mostra corrispondenze testuali tra segmenti di output dei modelli linguistici e documenti presenti nei corpora di testo di addestramento. Basato su una versione estesa di infini-gram (Liu et al., 2024), il nostro sistema restituisce i risultati di tracciamento in pochi secondi. OLMoTrace può aiutare gli utenti a comprendere il comportamento dei modelli linguistici attraverso la lente dei loro dati di addestramento. Dimostriamo come può essere utilizzato per esplorare il fact checking, le allucinazioni e la creatività dei modelli linguistici. OLMoTrace è disponibile pubblicamente e completamente open-source.
I transformer di diffusione hanno dimostrato una qualità di generazione notevole, sebbene richiedano iterazioni di addestramento più lunghe e numerosi passaggi di inferenza. In ogni fase di denoising, i transformer di diffusione codificano gli input rumorosi per estrarre la componente semantica a bassa frequenza e poi decodificano la frequenza più alta con moduli identici. Questo schema crea un dilemma di ottimizzazione intrinseco: la codifica della semantica a bassa frequenza richiede la riduzione delle componenti ad alta frequenza, creando una tensione tra la codifica semantica e la decodifica ad alta frequenza. Per risolvere questa sfida, proponiamo un nuovo \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), con un design disaccoppiato di un encoder di condizione dedicato per l'estrazione semantica insieme a un decoder di velocità specializzato. I nostri esperimenti rivelano che un encoder più sostanziale produce miglioramenti delle prestazioni all'aumentare delle dimensioni del modello. Per ImageNet 256x256, il nostro DDT-XL/2 raggiunge una nuova prestazione all'avanguardia di {1.31 FID}~(quasi 4 volte più veloce nella convergenza dell'addestramento rispetto ai precedenti transformer di diffusione). Per ImageNet 512x512, il nostro DDT-XL/2 raggiunge un nuovo FID all'avanguardia di 1.28. Inoltre, come utile sottoprodotto, la nostra architettura disaccoppiata migliora la velocità di inferenza consentendo la condivisione della condizione auto-referenziale tra passaggi di denoising adiacenti. Per minimizzare il degrado delle prestazioni, proponiamo un nuovo approccio di programmazione dinamica statistica per identificare le strategie di condivisione ottimali.
Riscontriamo che la lunghezza delle risposte dei modelli linguistici di ragionamento (LLM), sia quelli addestrati con apprendimento per rinforzo che con apprendimento supervisionato, aumenta drasticamente per domande mal poste con premesse mancanti (MiP), risultando in un pensiero ridondante e inefficace. Questo scenario appena introdotto aggrava in larga misura il problema generale del sovrapensiero, che abbiamo denominato MiP-Overthinking. Tali fallimenti contraddicono la "legge di scala al momento del test" ma sono stati ampiamente osservati su più dataset che abbiamo curato con MiP, indicando il danno del sovrapensiero a basso costo e una mancanza di pensiero critico. Sorprendentemente, i modelli linguistici non specificamente addestrati per il ragionamento mostrano prestazioni molto migliori nello scenario MiP, producendo risposte molto più brevi che identificano rapidamente le query mal poste. Ciò implica una grave lacuna nell'attuale metodo di addestramento per i modelli linguistici di ragionamento, che non incoraggia adeguatamente un pensiero efficiente, portando all'abuso di schemi di pensiero. Per indagare ulteriormente le ragioni dietro tali fallimenti, conduciamo analisi dettagliate della lunghezza del ragionamento, degli schemi di sovrapensiero e della posizione del pensiero critico su diversi tipi di modelli linguistici. Inoltre, il nostro studio di ablazione esteso rivela che il sovrapensiero è contagioso attraverso la distillazione delle risposte dei modelli di ragionamento. Questi risultati migliorano la comprensione del sovrapensiero e offrono nuove intuizioni per mitigare il problema.
Creare un avatar animato realistico a partire da un singolo ritratto statico rimane una sfida significativa. Gli approcci esistenti spesso incontrano difficoltà nel catturare le espressioni facciali sottili, i movimenti globali del corpo associati e lo sfondo dinamico. Per affrontare queste limitazioni, proponiamo un nuovo framework che sfrutta un modello di trasformazione a diffusione video pre-addestrato per generare ritratti parlanti ad alta fedeltà e coerenti, con dinamiche di movimento controllabili. Al centro del nostro lavoro c'è una strategia di allineamento audio-visivo a due stadi. Nel primo stadio, utilizziamo uno schema di addestramento a livello di clip per stabilire un movimento globale coerente, allineando le dinamiche guidate dall'audio in tutta la scena, inclusi il ritratto di riferimento, gli oggetti contestuali e lo sfondo. Nel secondo stadio, perfezioniamo i movimenti delle labbra a livello di fotogramma utilizzando una maschera di tracciamento labiale, garantendo una sincronizzazione precisa con i segnali audio. Per preservare l'identità senza compromettere la flessibilità del movimento, sostituiamo la comunemente usata rete di riferimento con un modulo di cross-attention focalizzato sul volto, che mantiene efficacemente la coerenza facciale durante tutto il video. Inoltre, integriamo un modulo di modulazione dell'intensità del movimento che controlla esplicitamente l'intensità delle espressioni e dei movimenti del corpo, consentendo una manipolazione controllata dei movimenti del ritratto oltre il semplice movimento delle labbra. I risultati sperimentali estesi dimostrano che il nostro approccio proposto raggiunge una qualità superiore con un maggiore realismo, coerenza, intensità del movimento e preservazione dell'identità. La nostra pagina del progetto: https://fantasy-amap.github.io/fantasy-talking/.
La generazione condizionata di immagini ha attirato notevole attenzione per la sua capacità di personalizzare i contenuti. Tuttavia, il campo affronta sfide nello sviluppo di metriche di valutazione affidabili, spiegabili e indipendenti dal compito. Questo articolo introduce CIGEval, un framework agente unificato per la valutazione completa delle attività di generazione condizionata di immagini. CIGEval utilizza modelli multimodali di grandi dimensioni (LMM) come nucleo, integrando una toolbox multifunzionale e stabilendo un framework di valutazione granulare. Inoltre, sintetizziamo traiettorie di valutazione per il fine-tuning, consentendo a LMM più piccoli di selezionare autonomamente gli strumenti appropriati e condurre analisi sfumate basate sugli output degli strumenti. Esperimenti condotti su sette importanti attività di generazione condizionata di immagini dimostrano che CIGEval (versione GPT-4o) raggiunge un'elevata correlazione di 0,4625 con le valutazioni umane, avvicinandosi alla correlazione inter-annotatore di 0,47. Inoltre, quando implementato con LMM open-source da 7B utilizzando solo 2,3K traiettorie di addestramento, CIGEval supera il precedente metodo all'avanguardia basato su GPT-4o. Studi di caso sulla generazione di immagini con GPT-4o evidenziano la capacità di CIGEval di identificare problemi sottili legati alla coerenza del soggetto e all'aderenza alle indicazioni di controllo, indicando il suo grande potenziale per automatizzare la valutazione delle attività di generazione di immagini con un'affidabilità pari a quella umana.
La progettazione della traiettoria della fotocamera svolge un ruolo cruciale nella produzione video, rappresentando uno strumento fondamentale per trasmettere l'intento registico e potenziare la narrazione visiva. Nella cinematografia, i direttori della fotografia elaborano meticolosamente i movimenti della fotocamera per ottenere inquadrature espressive e intenzionali. Tuttavia, i metodi esistenti per la generazione delle traiettorie della fotocamera rimangono limitati: gli approcci tradizionali si basano sull'ottimizzazione geometrica o su sistemi procedurali creati manualmente, mentre i metodi recenti basati sull'apprendimento spesso ereditano pregiudizi strutturali o mancano di allineamento testuale, limitando la sintesi creativa. In questo lavoro, introduciamo un modello auto-regressivo ispirato all'esperienza dei direttori della fotografia per generare traiettorie della fotocamera artistiche ed espressive. Presentiamo innanzitutto DataDoP, un dataset multi-modale su larga scala contenente 29K riprese reali con traiettorie libere della fotocamera, mappe di profondità e didascalie dettagliate sui movimenti specifici, l'interazione con la scena e l'intento registico. Grazie a questo database completo e diversificato, addestriamo ulteriormente un Transformer auto-regressivo, esclusivamente decoder, per la generazione di movimenti della fotocamera di alta qualità e consapevoli del contesto, basati su indicazioni testuali e input RGBD, denominato GenDoP. Esperimenti estensivi dimostrano che, rispetto ai metodi esistenti, GenDoP offre una migliore controllabilità, regolazioni più fini delle traiettorie e una maggiore stabilità del movimento. Crediamo che il nostro approccio stabilisca un nuovo standard per la cinematografia basata sull'apprendimento, aprendo la strada a futuri progressi nel controllo della fotocamera e nella produzione cinematografica. Il sito web del nostro progetto: https://kszpxxzmc.github.io/GenDoP/.
Il ragionamento è emerso come la prossima grande frontiera per i modelli linguistici (LM), con rapidi progressi provenienti sia dai laboratori accademici che industriali. Tuttavia, questo progresso spesso supera il rigore metodologico, con molte valutazioni che si basano su pratiche di benchmarking che mancano di trasparenza, robustezza o fondamento statistico. In questo lavoro, conduciamo uno studio empirico completo e scopriamo che gli attuali benchmark per il ragionamento matematico sono altamente sensibili a scelte di implementazione sottili, inclusi i parametri di decodifica, i semi casuali, la formattazione dei prompt e persino le configurazioni hardware e software. I miglioramenti delle prestazioni riportati negli studi recenti spesso dipendono da confronti poco chiari o da fonti di varianza non riportate. Per affrontare questi problemi, proponiamo un framework di valutazione standardizzato con pratiche migliori e standard di reporting chiaramente definiti. Utilizzando questo framework, rivalutiamo i metodi recenti e scopriamo che gli approcci di apprendimento per rinforzo (RL) producono solo miglioramenti modesti, ben al di sotto delle affermazioni precedenti, e sono inclini all'overfitting, specialmente su benchmark su piccola scala come AIME24. Al contrario, i metodi di fine-tuning supervisionato (SFT) mostrano una generalizzazione costantemente più forte. Per favorire la riproducibilità, rilasciamo tutto il codice, i prompt e gli output del modello per i benchmark di ragionamento, stabilendo basi più rigorose per i lavori futuri.
Proponiamo OmniCaptioner, un framework versatile per la generazione di descrizioni testuali dettagliate in una vasta gamma di domini visivi. A differenza dei metodi precedenti limitati a tipi specifici di immagini (ad esempio, immagini naturali o visualizzazioni geometriche), il nostro framework offre una soluzione unificata per la descrizione di immagini naturali, testo visivo (ad esempio, poster, interfacce utente, libri di testo) e visualizzazioni strutturate (ad esempio, documenti, tabelle, grafici). Convertendo le informazioni a basso livello dei pixel in rappresentazioni testuali semanticamente ricche, il nostro framework colma il divario tra le modalità visive e testuali. I nostri risultati evidenziano tre vantaggi chiave: (i) Ragionamento Visivo Potenziato con LLM, dove descrizioni contestuali lunghe delle modalità visive consentono ai LLM, in particolare alla serie DeepSeek-R1, di ragionare efficacemente in scenari multimodali; (ii) Generazione di Immagini Migliorata, dove descrizioni dettagliate migliorano compiti come la generazione di immagini da testo e la trasformazione di immagini; e (iii) Fine-Tuning Supervisionato Efficiente (SFT), che consente una convergenza più rapida con meno dati. Crediamo che la versatilità e l'adattabilità di OmniCaptioner possano offrire una nuova prospettiva per colmare il divario tra le modalità linguistiche e visive.
Mentre il ragionamento al momento del test consente ai modelli linguistici di affrontare compiti complessi, la ricerca o la pianificazione in linguaggio naturale può essere lenta, costosa e soggetta a errori. Tuttavia, anche quando i modelli linguistici faticano a emulare i passaggi di ragionamento precisi necessari per risolvere un problema, spesso eccellono nel descriverne la struttura astratta—sia su come verificare le soluzioni che su come cercarle. Questo articolo introduce DisCIPL, un metodo per l'"autogestione" dei modelli linguistici in cui un modello Pianificatore genera un programma di inferenza specifico per il compito che viene eseguito da una popolazione di modelli Follower. Il nostro approccio fornisce ai modelli linguistici la capacità di scrivere procedure di ricerca ricorsive che guidano l'inferenza del modello, abilitando nuove forme di ragionamento verificabile ed efficiente. Quando istanziato con un Follower di piccole dimensioni (ad esempio, Llama-3.2-1B), DisCIPL eguaglia (e talvolta supera) modelli molto più grandi, inclusi GPT-4o e o1, in compiti di generazione vincolata impegnativi. Nel separare la pianificazione dall'esecuzione, il nostro lavoro apre uno spazio di progettazione per strategie di inferenza Monte Carlo altamente parallelizzate che superano il campionamento standard best-of-N, non richiedono fine-tuning e possono essere implementate automaticamente dai modelli linguistici esistenti.
Presentiamo CAT-V (Caption AnyThing in Video), un framework senza necessità di addestramento per la descrizione video centrata su oggetti a grana fine, che consente descrizioni dettagliate di oggetti selezionati dall'utente nel tempo. CAT-V integra tre componenti chiave: un Segmenter basato su SAMURAI per la segmentazione precisa degli oggetti attraverso i fotogrammi, un Temporal Analyzer alimentato da TRACE-Uni per il rilevamento accurato dei confini degli eventi e l'analisi temporale, e un Captioner che utilizza InternVL-2.5 per generare descrizioni dettagliate centrate sugli oggetti. Attraverso prompt visivi spaziotemporali e ragionamento a catena di pensiero, il nostro framework genera descrizioni dettagliate e temporalmente consapevoli degli attributi, delle azioni, degli stati, delle interazioni e dei contesti ambientali degli oggetti, senza richiedere dati di addestramento aggiuntivi. CAT-V supporta interazioni flessibili dell'utente attraverso vari prompt visivi (punti, riquadri di delimitazione e regioni irregolari) e mantiene la sensibilità temporale monitorando gli stati e le interazioni degli oggetti attraverso diversi segmenti temporali. Il nostro approccio affronta le limitazioni dei metodi esistenti di descrizione video, che producono descrizioni eccessivamente astratte o mancano di precisione a livello di oggetto, consentendo descrizioni specifiche e a grana fine degli oggetti mantenendo coerenza temporale e accuratezza spaziale. Il repository GitHub per questo progetto è disponibile all'indirizzo https://github.com/yunlong10/CAT-V.
I recenti progressi nell'apprendimento per rinforzo hanno significativamente migliorato le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM). Sebbene approcci come l'ottimizzazione delle politiche relative al gruppo (GRPO) e i meccanismi di ricompensa basati su regole dimostrino promesse nei domini di testo e immagini, la loro applicazione alla comprensione video rimane limitata. Questo articolo presenta un'esplorazione sistematica del Fine-Tuning per Rinforzo (RFT) con GRPO per MLLM video, con l'obiettivo di migliorare la percezione spazio-temporale mantenendo le capacità generali. I nostri esperimenti rivelano che l'RFT è altamente efficiente in termini di dati per miglioramenti specifici del compito. Attraverso l'RFT multi-task su obiettivi di percezione spazio-temporale con campioni limitati, sviluppiamo VideoChat-R1, un potente MLLM video che raggiunge prestazioni all'avanguardia nei compiti di percezione spazio-temporale senza sacrificare la capacità di chat, mostrando al contempo emergenti capacità di ragionamento spazio-temporale. Rispetto a Qwen2.5-VL-7B, VideoChat-R1 aumenta le prestazioni di diverse volte in compiti come il grounding temporale (+31.8) e il tracciamento degli oggetti (+31.2). Inoltre, migliora significativamente nei benchmark generali di QA come VideoMME (+0.9), MVBench (+1.0) e Perception Test (+0.9). I nostri risultati sottolineano il potenziale dell'RFT per il miglioramento specifico dei compiti degli MLLM video. Speriamo che il nostro lavoro offra spunti preziosi per future ricerche sull'apprendimento per rinforzo negli MLLM video.
Generare movimenti naturalistici e sfumati per l'ascoltatore durante interazioni prolungate rimane un problema aperto. I metodi esistenti spesso si basano su codici di movimento a bassa dimensionalità per la generazione del comportamento facciale, seguiti da rendering fotorealistico, limitando sia la fedeltà visiva che la ricchezza espressiva. Per affrontare queste sfide, introduciamo DiTaiListener, alimentato da un modello di diffusione video con condizioni multimodali. Il nostro approccio genera prima brevi segmenti di risposte dell'ascoltatore condizionate dal discorso e dai movimenti facciali del parlante con DiTaiListener-Gen. Successivamente, affina i fotogrammi di transizione tramite DiTaiListener-Edit per una transizione senza soluzione di continuità. Nello specifico, DiTaiListener-Gen adatta un Diffusion Transformer (DiT) per il compito di generazione di ritratti dell'ascoltatore introducendo un Causal Temporal Multimodal Adapter (CTM-Adapter) per elaborare i segnali uditivi e visivi del parlante. CTM-Adapter integra l'input del parlante in modo causale nel processo di generazione video per garantire risposte dell'ascoltatore temporalmente coerenti. Per la generazione di video di lunga durata, introduciamo DiTaiListener-Edit, un modello di diffusione video-to-video per il perfezionamento delle transizioni. Il modello fonde i segmenti video in video fluidi e continui, garantendo coerenza temporale nelle espressioni facciali e nella qualità dell'immagine quando si uniscono i brevi segmenti video prodotti da DiTaiListener-Gen. Quantitativamente, DiTaiListener raggiunge prestazioni all'avanguardia su dataset di riferimento sia nello spazio del fotorealismo (+73,8% in FID su RealTalk) che in quello della rappresentazione del movimento (+6,1% nella metrica FD su VICO). Studi con utenti confermano la superiorità di DiTaiListener, con il modello che è chiaramente preferito in termini di feedback, diversità e fluidità, superando i concorrenti con un margine significativo.
Presentiamo WildGS-SLAM, un sistema monoscopico RGB SLAM robusto ed efficiente progettato per gestire ambienti dinamici sfruttando una mappatura geometrica consapevole dell'incertezza. A differenza dei tradizionali sistemi SLAM, che presuppongono scene statiche, il nostro approccio integra informazioni sulla profondità e sull'incertezza per migliorare le prestazioni di tracciamento, mappatura e rendering in presenza di oggetti in movimento. Introduciamo una mappa dell'incertezza, predetta da un percettrone multistrato poco profondo e dalle caratteristiche di DINOv2, per guidare la rimozione degli oggetti dinamici durante il tracciamento e la mappatura. Questa mappa dell'incertezza migliora l'aggiustamento a fasci densi e l'ottimizzazione della mappa gaussiana, aumentando l'accuratezza della ricostruzione. Il nostro sistema è valutato su più dataset e dimostra una sintesi visiva priva di artefatti. I risultati mostrano le prestazioni superiori di WildGS-SLAM in ambienti dinamici rispetto ai metodi all'avanguardia.
L'apprendimento self-supervised ha rivoluzionato la visione artificiale 2D, consentendo a modelli addestrati su grandi dataset non annotati di fornire funzionalità versatili pronte all'uso che performano in modo simile a modelli addestrati con etichette. Tuttavia, nella comprensione delle scene 3D, i metodi self-supervised sono tipicamente utilizzati solo come passaggio di inizializzazione dei pesi per il fine-tuning specifico per un compito, limitando la loro utilità per l'estrazione di funzionalità generiche. Questo articolo affronta questa lacuna proponendo un protocollo di valutazione robusto specificamente progettato per valutare la qualità delle funzionalità self-supervised per la comprensione delle scene 3D. Il nostro protocollo utilizza il campionamento di funzionalità multi-risoluzione di modelli gerarchici per creare rappresentazioni a livello di punto ricche che catturano le capacità semantiche del modello e, quindi, sono adatte per la valutazione con metodi di linear probing e nearest-neighbor. Inoltre, introduciamo il primo modello self-supervised che performa in modo simile ai modelli supervisionati quando vengono utilizzate solo funzionalità pronte all'uso in un setup di linear probing. In particolare, il nostro modello è addestrato nativamente in 3D con un nuovo approccio self-supervised basato su un obiettivo di Masked Scene Modeling, che ricostruisce le funzionalità profonde di patch mascherate in modo bottom-up ed è specificamente adattato ai modelli gerarchici 3D. I nostri esperimenti non solo dimostrano che il nostro metodo raggiunge prestazioni competitive rispetto ai modelli supervisionati, ma supera anche gli approcci self-supervised esistenti con un ampio margine. Il modello e il codice di addestramento sono disponibili nel nostro repository Github (https://github.com/phermosilla/msm).
L'apprendimento centrato sugli oggetti (Object-Centric Learning, OCL) mira a imparare rappresentazioni che codificano esclusivamente un oggetto, isolandolo da altri oggetti o indizi di sfondo in una scena. Questo approccio sostiene vari obiettivi, tra cui la generalizzazione fuori distribuzione (out-of-distribution, OOD), la composizione efficiente di campioni e la modellazione di ambienti strutturati. La maggior parte della ricerca si è concentrata sullo sviluppo di meccanismi non supervisionati che separano gli oggetti in slot discreti nello spazio di rappresentazione, valutati mediante la scoperta non supervisionata di oggetti. Tuttavia, con i recenti modelli di segmentazione efficienti in termini di campioni, possiamo separare gli oggetti nello spazio dei pixel e codificarli in modo indipendente. Ciò consente prestazioni zero-shot notevoli sui benchmark di scoperta di oggetti OOD, è scalabile per i modelli di base e può gestire un numero variabile di slot senza necessità di configurazione. Pertanto, l'obiettivo dei metodi OCL di ottenere rappresentazioni centrate sugli oggetti è stato in gran parte raggiunto. Nonostante questi progressi, rimane una domanda cruciale: in che modo la capacità di separare gli oggetti all'interno di una scena contribuisce agli obiettivi più ampi dell'OCL, come la generalizzazione OOD? Affrontiamo questa questione investigando la sfida della generalizzazione OOD causata da indizi di sfondo spurii attraverso la lente dell'OCL. Proponiamo una nuova sonda senza addestramento chiamata Classificazione Centrata sugli Oggetti con Maschere Applicate (Object-Centric Classification with Applied Masks, OCCAM), dimostrando che la codifica basata sulla segmentazione di singoli oggetti supera significativamente i metodi OCL basati su slot. Tuttavia, rimangono sfide nelle applicazioni del mondo reale. Forniamo alla comunità OCL uno strumento per utilizzare rappresentazioni centrate sugli oggetti scalabili, concentrandoci su applicazioni pratiche e questioni fondamentali, come la comprensione della percezione degli oggetti nella cognizione umana. Il nostro codice è disponibile {qui}https://github.com/AlexanderRubinstein/OCCAM.
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità come strumenti per la scoperta scientifica. Ciò ha suscitato un crescente interesse per il loro utilizzo in discipline umanistiche, come la linguistica storica e gli studi letterari. Questi campi spesso costruiscono argomentazioni sulla base di delimitazioni come il genere o, più rigidamente, il periodo storico. Sebbene siano stati compiuti sforzi per limitare l'inferenza a domini specifici attraverso il fine-tuning o la modifica del modello, sosteniamo che l'unica vera garanzia è il preaddestramento limitato al dominio – tipicamente una proposta costosa in termini di dati e risorse computazionali. Dimostriamo che tecniche di preaddestramento efficiente possono produrre modelli utili su corpora troppo grandi per un'ispezione manuale agevole ma troppo piccoli per approcci "tipici" con LLM. Utilizziamo una nuova pipeline di attribuzione temporale per ottenere un dataset segmentato temporalmente in cinque fette da 10 milioni di parole ciascuna. Addestriamo due corrispondenti batterie di cinque modelli su questi segmenti di corpus, con preaddestramento efficiente e fine-tuning efficiente su Llama3-8B. Rileviamo che i modelli preaddestrati sono più veloci da addestrare rispetto ai baseline con fine-tuning e che rispettano meglio le divisioni storiche del nostro corpus. Privilegiare velocità e precisione rispetto a una completezza a-storica consente numerosi approcci innovativi alla scoperta e verifica di ipotesi nei nostri campi di interesse. Utilizzando la linguistica diacronica come banco di prova, dimostriamo che il nostro metodo permette di rilevare un insieme diversificato di fenomeni, tra cui il cambiamento lessicale in massa, il cambiamento non lessicale (grammaticale e morfologico) e l'introduzione/obsolescenza del significato delle parole. Forniamo una pipeline pronta all'uso che consente di estendere il nostro approccio ad altri campi di interesse con solo un minimo adattamento.
La presa robusta di vari oggetti basata su percezione a vista singola è fondamentale per robot destri. I lavori precedenti spesso si basano su oggetti completamente osservabili, dimostrazioni di esperti o pose di presa statiche, il che limita la loro capacità di generalizzazione e adattabilità ai disturbi esterni. In questo articolo, presentiamo un framework basato sull'apprendimento per rinforzo che consente la presa dinamica destra di un'ampia gamma di oggetti non visti in precedenza, basandosi su percezione a vista singola, eseguendo al contempo movimenti adattativi ai disturbi esterni. Utilizziamo una rappresentazione centrata sulla mano per l'estrazione delle caratteristiche di forma che enfatizza le forme locali rilevanti per l'interazione, migliorando la robustezza alla variazione e all'incertezza delle forme. Per consentire un efficace adattamento della mano ai disturbi con osservazioni limitate, proponiamo una strategia mista di apprendimento curriculare, che utilizza inizialmente l'apprendimento per imitazione per distillare una policy addestrata con feedback visivo-tattile in tempo reale privilegiato, e trasferisce gradualmente all'apprendimento per rinforzo per apprendere movimenti adattativi sotto disturbi causati da rumori di osservazione e randomizzazione dinamica. I nostri esperimenti dimostrano una forte generalizzazione nella presa di oggetti non visti con pose casuali, raggiungendo tassi di successo del 97,0% su 247.786 oggetti simulati e del 94,6% su 512 oggetti reali. Dimostriamo inoltre la robustezza del nostro metodo a vari disturbi, inclusi movimenti non osservati degli oggetti e forze esterne, attraverso valutazioni sia quantitative che qualitative. Pagina del progetto: https://zdchan.github.io/Robust_DexGrasp/
In questo articolo, presentiamo il task condiviso di Dialogue Evaluation sull'estrazione di opinioni strutturate da testi di notizie in russo. L'obiettivo del concorso è estrarre tuple di opinioni per una data frase; le tuple sono composte da un detentore del sentimento, il suo obiettivo, un'espressione e il sentimento dal detentore verso l'obiettivo. In totale, il task ha ricevuto più di 100 contributi. I partecipanti hanno sperimentato principalmente con modelli linguistici di grandi dimensioni in formati zero-shot, few-shot e fine-tuning. Il miglior risultato sul set di test è stato ottenuto con il fine-tuning di un modello linguistico di grandi dimensioni. Abbiamo anche confrontato 30 prompt e 11 modelli linguistici open source con 3-32 miliardi di parametri nelle configurazioni 1-shot e 10-shot, identificando i migliori modelli e prompt.
L'approccio dominante per generare da modelli linguistici soggetti a qualche vincolo è il decoding localmente vincolato (LCD), che campiona incrementamente i token a ogni passo temporale in modo che il vincolo non venga mai violato. Tipicamente, ciò si ottiene attraverso il mascheramento dei token: iterando sul vocabolario ed escludendo i token non conformi. Ci sono due problemi importanti con questo approccio. (i) Valutare il vincolo su ogni token può essere proibitivamente costoso -- i vocabolari dei modelli linguistici spesso superano i 100.000 token. (ii) Il LCD può distorcere la distribuzione globale sulle stringhe, campionando token basandosi solo su informazioni locali, anche se questi portano a percorsi senza uscita. Questo lavoro introduce un nuovo algoritmo che affronta entrambi questi problemi. Innanzitutto, per evitare di valutare un vincolo sull'intero vocabolario a ogni passo della generazione, proponiamo un algoritmo di campionamento per rifiuto adattivo che tipicamente richiede ordini di grandezza meno valutazioni del vincolo. In secondo luogo, mostriamo come questo algoritmo possa essere esteso per produrre stime a bassa varianza e non distorte dei pesi di importanza a un costo aggiuntivo molto ridotto -- stime che possono essere utilizzate in modo solido all'interno di algoritmi di Monte Carlo sequenziali precedentemente proposti per correggere il comportamento miope dell'applicazione locale dei vincoli. Attraverso una valutazione empirica estesa nei domini di text-to-SQL, sintesi molecolare, inferenza di obiettivi, pattern matching e JSON, dimostriamo che il nostro approccio è superiore rispetto alle baseline state-of-the-art, supportando una classe più ampia di vincoli e migliorando sia il tempo di esecuzione che le prestazioni. Ulteriori analisi teoriche ed empiriche mostrano che l'efficienza in termini di tempo di esecuzione del nostro metodo è guidata dal suo uso dinamico del calcolo, scalando con la divergenza tra il modello linguistico non vincolato e quello vincolato, e di conseguenza, i miglioramenti nel tempo di esecuzione sono maggiori per modelli migliori.
Per sopravvivere e prosperare in ambienti complessi, gli esseri umani hanno sviluppato sofisticati meccanismi di auto-miglioramento attraverso l'esplorazione dell'ambiente, l'astrazione gerarchica delle esperienze in competenze riutilizzabili e la costruzione collaborativa di un repertorio di abilità in continua espansione. Nonostante i recenti progressi, gli agenti web autonomi mancano ancora di cruciali capacità di auto-miglioramento, lottando con l'astrazione della conoscenza procedurale, il perfezionamento delle competenze e la composizione delle abilità. In questo lavoro, introduciamo SkillWeaver, un framework incentrato sulle competenze che consente agli agenti di auto-migliorarsi sintetizzando autonomamente competenze riutilizzabili come API. Dato un nuovo sito web, l'agente scopre autonomamente le competenze, le esegue per praticarle e distilla le esperienze pratiche in API robuste. L'esplorazione iterativa espande continuamente una libreria di API leggere e plug-and-play, migliorando significativamente le capacità dell'agente. Esperimenti su WebArena e su siti web reali dimostrano l'efficacia di SkillWeaver, con miglioramenti relativi del tasso di successo del 31,8% e del 39,8%, rispettivamente. Inoltre, le API sintetizzate da agenti forti migliorano sostanzialmente gli agenti più deboli attraverso competenze trasferibili, ottenendo miglioramenti fino al 54,3% su WebArena. Questi risultati dimostrano l'efficacia di affinare diverse interazioni con i siti web in API, che possono essere condivise senza soluzione di continuità tra vari agenti web.