Articoli di ricerca IA selezionati quotidianamente con traduzioni
In modo sistematico, indaghiamo una domanda ampiamente posta: Le LLM comprendono davvero ciò che dicono?, che si ricollega al termine più familiare di Pappagallo Stocastico. A tal fine, proponiamo una valutazione sommativa su un compito di comprensione concettuale fisica attentamente progettato, PhysiCo. Il nostro compito allevia il problema della memorizzazione tramite l'uso di input in formato griglia che descrivono astrattamente i fenomeni fisici. Le griglie rappresentano diversi livelli di comprensione, dal fenomeno principale, agli esempi di applicazione fino alle analogie con altri modelli astratti nel mondo a griglia. Uno studio esaustivo sul nostro compito dimostra: (1) le LLM all'avanguardia, inclusi GPT-4o, o1 e Gemini 2.0 flash thinking, sono indietro rispetto agli esseri umani di circa il 40%; (2) il fenomeno del pappagallo stocastico è presente nelle LLM, poiché falliscono nel nostro compito a griglia ma possono descrivere e riconoscere bene gli stessi concetti nel linguaggio naturale; (3) il nostro compito mette alla prova le LLM a causa di difficoltà intrinseche piuttosto che del formato a griglia sconosciuto, poiché l'apprendimento in contesto e il raffinamento sui dati formattati allo stesso modo hanno aggiunto poco alle loro prestazioni.
Nei moderni modelli di linguaggio di grandi dimensioni (LLM), gestire lunghezze di contesto molto estese presenta significativi problemi poiché causa velocità di inferenza più lente e costi di memoria aumentati. Inoltre, la maggior parte dei LLM pre-addestrati esistenti non riesce a generalizzare oltre le lunghezze delle sequenze di addestramento originali. Per consentire un utilizzo efficiente e pratico del contesto lungo, introduciamo InfiniteHiP, un nuovo e pratico framework di inferenza per LLM che accelera l'elaborazione eliminando dinamicamente i token di contesto non rilevanti attraverso un algoritmo di potatura gerarchica modulare. Il nostro metodo consente anche la generalizzazione a sequenze più lunghe applicando selettivamente vari metodi di aggiustamento RoPE in base ai pattern di attenzione interni ai LLM. Inoltre, spostiamo la cache chiave-valore nella memoria dell'host durante l'inferenza, riducendo significativamente la pressione sulla memoria della GPU. Di conseguenza, InfiniteHiP consente l'elaborazione fino a 3 milioni di token su una singola GPU L40s da 48 GB - 3 volte più grande - senza alcuna perdita permanente di informazioni di contesto. Il nostro framework raggiunge un aumento di velocità di 18,95 volte nella decodifica dell'attenzione per un contesto di 1 milione di token senza richiedere ulteriore addestramento. Implementiamo il nostro metodo nel framework SGLang e ne dimostriamo l'efficacia e la praticità attraverso valutazioni approfondite.
I grandi codificatori di testo su larga scala nei modelli di diffusione testo-immagine (T2I) hanno dimostrato un'eccezionale performance nella generazione di immagini di alta qualità da prompt testuali. A differenza dei moduli di denoising che si basano su molteplici passaggi iterativi, i codificatori di testo richiedono un'unica passata in avanti per produrre embedding di testo. Tuttavia, nonostante il loro contributo minimo al tempo totale di inferenza e alle operazioni in virgola mobile (FLOPs), i codificatori di testo richiedono un utilizzo significativamente maggiore della memoria, fino a otto volte di più rispetto ai moduli di denoising. Per affrontare questa inefficienza, proponiamo strati di Salto e Riutilizzo (Skrr), una strategia di potatura semplice ma efficace progettata specificamente per i codificatori di testo nei modelli di diffusione T2I. Skrr sfrutta la ridondanza intrinseca nei blocchi trasformatore selezionando in modo selettivo lo scarto o il riutilizzo di determinati strati in modo adattato per compiti T2I, riducendo così il consumo di memoria senza compromettere le prestazioni. Estesi esperimenti dimostrano che Skrr mantiene la qualità dell'immagine paragonabile al modello originale anche con elevati livelli di sparsità, superando i metodi esistenti di potatura a livello di blocco. Inoltre, Skrr raggiunge un'efficienza di memoria all'avanguardia preservando le prestazioni attraverso molteplici metriche di valutazione, inclusi i punteggi FID, CLIP, DreamSim e GenEval.
I recenti progressi nelle tecniche di diffusione hanno spinto la generazione di immagini e video a livelli di qualità senza precedenti, accelerando significativamente la distribuzione e l'applicazione dell'IA generativa. Tuttavia, la tecnologia di generazione di forme 3D finora è rimasta indietro, limitata dalle dimensioni dei dati 3D, dalla complessità dell'elaborazione dei dati 3D e dalla scarsa esplorazione delle tecniche avanzate nel dominio 3D. Gli approcci attuali alla generazione di forme 3D affrontano notevoli sfide in termini di qualità dell'output, capacità di generalizzazione e allineamento alle condizioni di input. Presentiamo TripoSG, un nuovo paradigma di diffusione di forme snello in grado di generare mesh 3D ad alta fedeltà con corrispondenza precisa alle immagini di input. In particolare, proponiamo: 1) Un trasformatore di flusso rettificato su larga scala per la generazione di forme 3D, raggiungendo una fedeltà all'avanguardia attraverso l'addestramento su dati estesi e di alta qualità. 2) Una strategia di addestramento supervisionato ibrida che combina perdite SDF, normali ed eikonali per VAE 3D, ottenendo prestazioni di ricostruzione 3D di alta qualità. 3) Un flusso di elaborazione dati per generare 2 milioni di campioni 3D di alta qualità, evidenziando le regole cruciali per la qualità e quantità dei dati nell'addestramento di modelli generativi 3D. Attraverso esperimenti completi, abbiamo convalidato l'efficacia di ciascun componente nel nostro nuovo framework. L'integrazione senza soluzione di continuità di queste parti ha permesso a TripoSG di raggiungere prestazioni all'avanguardia nella generazione di forme 3D. Le forme 3D risultanti mostrano dettagli migliorati grazie alle capacità ad alta risoluzione e dimostrano una fedeltà eccezionale alle immagini di input. Inoltre, TripoSG dimostra una maggiore versatilità nella generazione di modelli 3D da stili e contenuti di immagini diversi, mostrando forti capacità di generalizzazione. Per promuovere il progresso e l'innovazione nel campo della generazione 3D, renderemo il nostro modello pubblicamente disponibile.
Con il crescente numero di modelli disponibili pubblicamente, è probabile che esistano modelli preaddestrati online per la maggior parte dei compiti richiesti dagli utenti. Tuttavia, i metodi attuali di ricerca dei modelli sono rudimentali, essenzialmente basati su una ricerca testuale nella documentazione, quindi gli utenti non riescono a trovare i modelli pertinenti. Questo articolo presenta ProbeLog, un metodo per recuperare modelli di classificazione in grado di riconoscere un concetto target, come "Cane", senza accedere ai metadati del modello o ai dati di addestramento. Diversamente dai metodi di sondaggio precedenti, ProbeLog calcola un descrittore per ciascuna dimensione di output (logit) di ciascun modello, osservando le sue risposte su un insieme fisso di input (sondaggi). Il nostro metodo supporta sia il recupero basato sui logit ("trova più logit simili a questo") che il recupero basato su testo senza addestramento ("trova tutti i logit corrispondenti ai cani"). Poiché le rappresentazioni basate sul sondaggio richiedono molteplici costosi passaggi in avanti attraverso il modello, sviluppiamo un metodo, basato sul filtraggio collaborativo, che riduce il costo di codifica dei repository del 3x. Dimostriamo che ProbeLog raggiunge un'alta precisione di recupero, sia in compiti di ricerca reali che dettagliati e che è scalabile per repository di dimensioni complete.
Introduciamo SelfCite, un innovativo approccio auto-supervisionato che allinea LLM per generare citazioni di alta qualità, dettagliate a livello di frase, per le affermazioni presenti nelle loro risposte generate. Invece di basarsi solo su costose e laboriose annotazioni, SelfCite sfrutta un segnale di ricompensa fornito dal LLM stesso attraverso l'ablatore di contesto: se una citazione è necessaria, rimuovere il testo citato dal contesto dovrebbe impedire la stessa risposta; se sufficiente, mantenere solo il testo citato dovrebbe preservare la stessa risposta. Questa ricompensa può guidare la strategia di campionamento best-of-N al momento dell'inferenza per migliorare significativamente la qualità delle citazioni, nonché essere utilizzata nell'ottimizzazione delle preferenze per indirizzare direttamente il raffinamento dei modelli per generare citazioni migliori. L'efficacia di SelfCite è dimostrata dall'aumento del punteggio F1 delle citazioni fino a 5,3 punti sul benchmark LongBench-Cite in cinque compiti di risposta a domande a lungo formato.
Sfruttare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) per creare agenti incorporati offre una via promettente per affrontare compiti del mondo reale. Mentre gli agenti incorporati centrati sul linguaggio hanno attirato notevole attenzione, gli agenti incorporati basati su MLLMs rimangono poco esplorati a causa della mancanza di quadri di valutazione completi. Per colmare questa lacuna, presentiamo EmbodiedBench, un ampio benchmark progettato per valutare agenti incorporati guidati dalla visione. EmbodiedBench presenta: (1) un insieme diversificato di 1.128 compiti di test in quattro ambienti, che vanno da compiti semantici di alto livello (ad esempio, domestici) a compiti di basso livello che coinvolgono azioni atomiche (ad esempio, navigazione e manipolazione); e (2) sei sottoinsiemi accuratamente curati che valutano capacità essenziali dell'agente come il ragionamento di senso comune, la comprensione di istruzioni complesse, la consapevolezza spaziale, la percezione visiva e la pianificazione a lungo termine. Attraverso ampi esperimenti, abbiamo valutato 13 principali MLLMs proprietari e open-source all'interno di EmbodiedBench. Le nostre scoperte rivelano che: i MLLMs eccellono nei compiti di alto livello ma faticano con la manipolazione di basso livello, con il miglior modello, GPT-4o, ottenendo solo il 28,9% in media. EmbodiedBench fornisce una piattaforma di valutazione standardizzata multifunzionale che non solo mette in luce le sfide esistenti, ma offre anche preziose intuizioni per far progredire gli agenti incorporati basati su MLLM. Il nostro codice è disponibile su https://embodiedbench.github.io.
Questo articolo investiga metodologie di selezione dei dati e di fusione dei modelli mirate a incorporare capacità avanzate di ragionamento come quelle di DeepSeek R1 nei grandi modelli linguistici (LLM) specifici per lingua, con un focus particolare sul LLM tailandese. Il nostro obiettivo è potenziare le capacità di ragionamento dei LLM specifici per lingua mantenendo le loro abilità nella lingua di destinazione. DeepSeek R1 eccelle nel ragionamento ma beneficia principalmente delle lingue ad alto livello di risorse come l'inglese e il cinese. Tuttavia, le lingue a bassa risorsa rimangono poco servite a causa della predominanza dei dati di addestramento e delle ottimizzazioni dei modelli incentrati sull'inglese, che limitano le prestazioni in queste lingue. Questa limitazione porta a uno scambio di codice non affidabile e a un'efficacia ridotta nelle attività nelle lingue a bassa risorsa. Nel frattempo, iniziative locali e regionali di LLM hanno cercato di colmare questa lacuna sviluppando LLM specifici per lingua che si concentrano sul miglioramento della fedeltà linguistica locale. Dimostriamo che, utilizzando solo set di dati disponibili pubblicamente e un budget computazionale di $120, è possibile potenziare le capacità di ragionamento dei LLM specifici per lingua per eguagliare il livello di DeepSeek R1, senza compromettere le loro prestazioni nelle attività nella lingua di destinazione.
Gli agenti linguistici di gioco di ruolo (RPLA) sono emersi come applicazioni promettenti dei grandi modelli linguistici (LLM). Tuttavia, simulare personaggi consolidati rappresenta un compito impegnativo per i RPLA, a causa della mancanza di set di dati autentici sui personaggi e di metodi di valutazione sfumati che utilizzano tali dati. In questo articolo presentiamo CoSER, una raccolta di un dataset di alta qualità, modelli aperti e un protocollo di valutazione per efficaci RPLA di personaggi consolidati. Il dataset CoSER copre 17.966 personaggi tratti da 771 libri rinomati. Fornisce dialoghi autentici con complessità del mondo reale, nonché diversi tipi di dati come impostazioni di conversazione, esperienze dei personaggi e pensieri interni. Attingendo dalla metodologia dell'agire, introduciamo l'agire delle circostanze date per addestrare e valutare i LLM di gioco di ruolo, in cui i LLM ritraggono sequenzialmente più personaggi in scene di libri. Utilizzando il nostro dataset, sviluppiamo CoSER 8B e CoSER 70B, cioè avanzati LLM di gioco di ruolo aperti costruiti sui modelli LLaMA-3.1. Estesi esperimenti dimostrano il valore del dataset CoSER per l'addestramento, la valutazione e il recupero di RPLA. Inoltre, CoSER 70B mostra prestazioni all'avanguardia che superano o eguagliano GPT-4o nella nostra valutazione e in tre benchmark esistenti, ovvero raggiungendo rispettivamente il 75,80% e il 93,47% di accuratezza nei benchmark InCharacter e LifeChoice.
Rispondere alle domande con Chain-of-Thought (CoT) ha notevolmente potenziato le capacità di ragionamento dei Large Language Models (LLM), tuttavia il suo impatto sui Large Multimodal Models (LMM) manca ancora di una valutazione sistematica e di un'indagine approfondita. In questo articolo, presentiamo MME-CoT, un benchmark specializzato che valuta le prestazioni di ragionamento CoT dei LMM, che spazia su sei domini: matematica, scienza, OCR, logica, spazio-tempo e scene generali. Come primo studio completo in questo ambito, proponiamo un insieme di valutazione approfondita che incorpora tre nuove metriche che valutano la qualità, la robustezza e l'efficienza del ragionamento a un livello dettagliato. Sfruttando dati di alta qualità selezionati e una strategia di valutazione unica, conduciamo un'analisi dettagliata dei LMM all'avanguardia, scoprendo diversi punti chiave: 1) I modelli con meccanismo di riflessione dimostrano una qualità CoT superiore, con Kimi k1.5 che supera GPT-4o e dimostra i risultati di qualità più elevata; 2) La sollecitazione CoT spesso degrada le prestazioni dei LMM su compiti pesanti sulla percezione, suggerendo un comportamento potenzialmente dannoso di sovrappensiero; e 3) Anche se la qualità CoT è elevata, i LMM con riflessione mostrano un'inefficienza significativa sia nelle fasi di risposta normale che di autocorrezione. Speriamo che MME-CoT serva da base per far progredire il ragionamento multimodale nei LMM. Pagina del Progetto: https://mmecot.github.io/
Le architetture senza encoder sono state esplorate preliminarmente nel dominio visivo 2D, tuttavia rimane aperta la questione se possano essere applicate efficacemente a scenari di comprensione 3D. In questo articolo, presentiamo la prima indagine esaustiva sul potenziale delle architetture senza encoder per superare le sfide dei Grandi Modelli Multimodali (LMM) 3D basati su encoder. Queste sfide includono l'incapacità di adattarsi a risoluzioni variabili di nuvole di punti e il fatto che le caratteristiche dei punti dall'encoder non soddisfino le esigenze semantiche dei Grandi Modelli Linguistici (LLM). Identifichiamo gli aspetti chiave per i LMM 3D per rimuovere l'encoder e consentire al LLM di assumere il ruolo dell'encoder 3D: 1) Proponiamo la strategia di Codifica Semantica incorporata nel LLM nella fase di pre-training, esplorando gli effetti di varie perdite auto-supervisionate delle nuvole di punti. E presentiamo la Perdita Semantica Ibrida per estrarre semantica di alto livello. 2) Introduciamo la strategia di Aggregazione Geometrica Gerarchica nella fase di sintonizzazione dell'istruzione. Questo incorpora un bias induttivo nei primi strati del LLM per concentrarsi sui dettagli locali delle nuvole di punti. Infine, presentiamo il primo LMM 3D senza encoder, ENEL. Il nostro modello 7B è paragonabile al modello all'avanguardia attuale, ShapeLLM-13B, raggiungendo rispettivamente il 55,0%, il 50,92% e il 42,7% nelle attività di classificazione, didascalia e VQA. I nostri risultati dimostrano che l'architettura senza encoder è molto promettente per sostituire le architetture basate su encoder nel campo della comprensione 3D. Il codice è disponibile su https://github.com/Ivan-Tang-3D/ENEL
Con l'emergere di modelli avanzati di ragionamento come OpenAI o3 e DeepSeek-R1, i grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento. Tuttavia, la loro capacità di svolgere un rigoroso ragionamento logico rimane una questione aperta. Questa panoramica sintetizza i recenti progressi nel ragionamento logico all'interno dei LLM, una zona critica della ricerca sull'IA. Essa delinea l'ambito del ragionamento logico nei LLM, le sue fondamenta teoriche e i benchmark utilizzati per valutare la competenza nel ragionamento. Analizziamo le capacità esistenti attraverso diversi paradigmi di ragionamento - deduttivo, induttivo, abduttivo e analogico - e valutiamo le strategie per migliorare le prestazioni nel ragionamento, inclusi il tuning centrato sui dati, il reinforcement learning, le strategie di decodifica e gli approcci neuro-simbolici. La revisione si conclude con le direzioni future, sottolineando la necessità di ulteriori esplorazioni per rafforzare il ragionamento logico nei sistemi di intelligenza artificiale.
Nel campo in rapida evoluzione dell'Elaborazione del Linguaggio Naturale, i Grandi Modelli Linguistici (LLM) sono incaricati di sfide di ragionamento sempre più complesse. Metodi tradizionali come la sollecitazione a catena di pensiero hanno mostrato promesse ma spesso non riescono a sfruttare appieno le capacità di ragionamento di un modello. Questo articolo introduce SQuARE (Sequential Question Answering Reasoning Engine), una nuova tecnica di sollecitazione progettata per migliorare il ragionamento attraverso un paradigma di auto-interrogazione. Basandosi sui framework di CoT, SQuARE sollecita i modelli a generare e risolvere diverse domande ausiliarie prima di affrontare la query principale, promuovendo una più approfondita esplorazione dei vari aspetti di un argomento. Le nostre ampie valutazioni, condotte con i modelli Llama 3 e GPT-4o su diversi set di dati di domande e risposte, dimostrano che SQuARE supera significativamente le tradizionali sollecitazioni di CoT e i metodi esistenti di riformulazione e risposta. Decomponendo sistematicamente le query, SQuARE avanza le capacità dei LLM nelle attività di ragionamento. Il codice è disponibile pubblicamente su https://github.com/IntelLabs/RAG-FiT/tree/square.
Questo articolo presenta Typhoon T1, un'iniziativa aperta per sviluppare un modello di ragionamento tailandese aperto. Un modello di ragionamento è un tipo relativamente nuovo di modello generativo costruito sopra grandi modelli linguistici (LLM). Un modello di ragionamento genera una lunga catena di pensiero prima di arrivare a una risposta finale, un approccio che si è dimostrato efficace per compiti complessi. Tuttavia, i dettagli sullo sviluppo di un tale modello sono limitati, specialmente per i modelli di ragionamento capaci di generare tracce in una lingua a bassa risorsa. Typhoon T1 presenta un'iniziativa aperta che approfondisce i dettagli dello sviluppo di un modello di ragionamento in modo più economico sfruttando il fine-tuning supervisionato utilizzando set di dati aperti, anziché il reinforcement learning. Questo articolo condivide i dettagli sulla generazione e l'addestramento di dati sintetici, nonché sul nostro set di dati e pesi del modello. Inoltre, forniamo approfondimenti acquisiti nello sviluppo di un modello di ragionamento che generalizza tra domini ed è in grado di generare tracce di ragionamento in una lingua a bassa risorsa, utilizzando il thailandese come esempio. Ci auguriamo che questa iniziativa aperta fornisca una base per ulteriori ricerche in questo campo.
La Catena di Pensiero migliora significativamente la capacità di ragionamento di un modello, ma comporta anche un notevole aumento dei costi di inferenza a causa delle catene lunghe. Con l'osservazione che il percorso di ragionamento può essere facilmente compresso sotto compiti facili ma fatica su compiti difficili, esploriamo la fattibilità di controllare elasticamente la lunghezza dei percorsi di ragionamento con un solo modello, riducendo così il sovraccarico di inferenza dei modelli di ragionamento in modo dinamico in base alla difficoltà del compito. Introduciamo una nuova strategia di taratura e inferenza chiamata CoT-Valve, progettata per consentire ai modelli di generare catene di ragionamento di lunghezze variabili. Per raggiungere questo obiettivo, proponiamo di identificare una direzione nello spazio dei parametri che, quando manipolata, può controllare efficacemente la lunghezza del CoT generato. Inoltre, dimostriamo che questa proprietà è preziosa per comprimere la catena di ragionamento. Costruiamo dataset con catene da lunghe a corte per le stesse domande ed esploriamo due strategie potenziate per CoT-Valve: (1) un metodo di taratura CoT precisamente compressibile e (2) un approccio progressivo alla compressione della lunghezza della catena. I nostri esperimenti mostrano che CoT-Valve consente con successo la controllabilità e la compressibilità della catena e mostra una migliore performance rispetto al controllo basato sulla richiesta. Abbiamo applicato questo metodo a QwQ-32B-Preview, riducendo le catene di ragionamento su GSM8K da 741 a 225 token con una leggera diminuzione delle prestazioni (95,07% a 94,92%) e su AIME da 6827 a 4629 token, con un solo ulteriore risposta errata.
I modelli di incorporamento multimodale hanno guadagnato notevole attenzione per la loro capacità di mappare i dati da diverse modalità, come testo e immagini, in uno spazio di rappresentazione unificato. Tuttavia, i limitati dati multimodali etichettati spesso ostacolano le prestazioni dell'incorporamento. Approcci recenti hanno sfruttato la sintesi dei dati per affrontare questo problema, tuttavia la qualità dei dati sintetici rimane un collo di bottiglia critico. In questo lavoro, identifichiamo tre criteri per dati multimodali sintetici di alta qualità. In primo luogo, l'ampia portata garantisce che i dati generati coprano diverse attività e modalità, rendendoli applicabili a vari scenari successivi. In secondo luogo, un allineamento robusto tra modalità diverse rende semanticamente coerenti le diverse modalità. In terzo luogo, l'alta fedeltà garantisce che i dati sintetici mantengano dettagli realistici per migliorare la loro affidabilità. Guidati da questi principi, sintetizziamo set di dati che: (1) coprono una vasta gamma di attività, combinazioni di modalità e lingue, (2) sono generati tramite un processo di pensiero profondo all'interno di un singolo passaggio di un grande modello di linguaggio multimodale e (3) incorporano immagini del mondo reale con testi accurati e pertinenti, garantendo la fedeltà attraverso l'autovalutazione e il perfezionamento. Sfruttando questi set di dati sintetici e etichettati di alta qualità, addestriamo un modello mmE5 multimodale multilingue E5. Estesi esperimenti dimostrano che mmE5 raggiunge prestazioni all'avanguardia sul Benchmark MMEB e prestazioni multilingue superiori sul benchmark XTD. I nostri codici, set di dati e modelli sono rilasciati su https://github.com/haon-chen/mmE5.
Affrontiamo la sfida dello sviluppo di un controllore neurale generalizzabile per il tracciamento da parte di un robot abile nella manipolazione seguendo riferimenti umani. Questo controllore mira a gestire una mano robotica abile per manipolare oggetti diversi per vari scopi definiti dalle interazioni cinematiche tra umano e oggetto. Lo sviluppo di un tale controllore è complicato dalla complessa dinamica dei contatti della manipolazione abile e dalla necessità di adattabilità, generalizzabilità e robustezza. I metodi attuali di apprendimento per rinforzo e ottimizzazione della traiettoria spesso non sono sufficienti a causa della loro dipendenza da ricompense specifiche del compito o modelli precisi del sistema. Introduciamo un approccio che raccoglie grandi dimostrazioni di tracciamento riuscite da robot, che comprendono coppie di riferimenti umani e azioni del robot, per addestrare un controllore neurale. Utilizzando un ciclo di dati, miglioriamo iterativamente le prestazioni del controllore, così come il numero e la qualità delle dimostrazioni di tracciamento riuscite. Sfruttiamo le dimostrazioni di tracciamento disponibili e integriamo attentamente l'apprendimento per rinforzo e l'apprendimento per imitazione per potenziare le prestazioni del controllore in ambienti dinamici. Allo stesso tempo, per ottenere dimostrazioni di tracciamento di alta qualità, ottimizziamo individualmente il tracciamento per traiettoria sfruttando il controllore di tracciamento appreso in un metodo di ottimizzazione omotopica. L'ottimizzazione omotopica, imitando il processo di pensiero, aiuta a risolvere problemi di tracciamento di traiettorie impegnativi per aumentare la diversità delle dimostrazioni. Mostriamo il nostro successo addestrando un controllore neurale generalizzabile e valutandolo sia in simulazione che nel mondo reale. Il sito web del progetto con risultati animati è disponibile su https://meowuu7.github.io/DexTrack/.
Il ragionamento matematico nei Grandi Modelli Linguistici (LLM) è spesso valutato utilizzando benchmark con intervalli numerici limitati, non riflettendo così la risoluzione di problemi del mondo reale su diverse scale. Inoltre, la maggior parte dei metodi di valutazione esistenti confronta solo le uscite del modello con le risposte vere, oscurando così le intuizioni nei processi di ragionamento. Per affrontare queste limitazioni, introduciamo GSM-Ranges, un generatore di dataset derivato da GSM8K che perturba sistematicamente i valori numerici nei problemi matematici per valutare la robustezza del modello su diverse scale numeriche. Inoltre, proponiamo una nuova metodologia di valutazione che distingue tra errori logici e non logici, offrendo una valutazione più precisa dei processi di ragionamento al di là dell'accuratezza computazionale. I nostri esperimenti con vari modelli rivelano un significativo aumento dei tassi di errori logici - fino a 14 punti percentuali - all'aumentare della complessità numerica, dimostrando una debolezza generale nel ragionamento con valori numerici fuori distribuzione. Inoltre, mentre i modelli mostrano un'alta accuratezza su compiti aritmetici autonomi, le loro prestazioni peggiorano notevolmente quando i calcoli sono incorporati in problemi di testo. Queste scoperte forniscono una valutazione completa delle capacità di ragionamento matematico dei LLM e orientano le future direzioni di ricerca per migliorare la generalizzazione numerica nei modelli linguistici.
Creare magia e illusioni è uno degli aspetti più entusiasmanti della produzione cinematografica, con gli effetti visivi (VFX) che fungono da motore principale di esperienze cinematografiche indimenticabili. Mentre i recenti progressi nell'intelligenza artificiale generativa hanno spinto avanti la sintesi generica di immagini e video, il dominio della generazione controllabile di VFX rimane relativamente inesplorato. In questo lavoro, proponiamo un nuovo paradigma per la generazione di VFX animati come animazione di immagini, dove gli effetti dinamici sono generati da descrizioni testuali facili da usare e immagini di riferimento statiche. Il nostro lavoro apporta due contributi principali: (i) Open-VFX, il primo dataset video di alta qualità di VFX che copre 15 diverse categorie di effetti, annotato con descrizioni testuali, maschere di segmentazione delle istanze per il condizionamento spaziale e timestamp di inizio-fine per il controllo temporale. (ii) VFX Creator, un framework di generazione di VFX controllabile semplice ma efficace basato su un Trasformatore di Diffusione Video. Il modello incorpora un adattatore LoRA controllabile spazialmente e temporalmente, richiedendo un numero minimo di video di addestramento. In particolare, un modulo di controllo delle maschere plug-and-play consente la manipolazione spaziale a livello di istanza, mentre i timestamp di movimento di inizio-fine tokenizzati incorporati nel processo di diffusione, insieme all'encoder di testo, consentono un controllo temporale preciso sulla tempistica e il ritmo degli effetti. Esperimenti estesi sul set di test di Open-VFX dimostrano la superiorità del sistema proposto nella generazione di effetti realistici e dinamici, raggiungendo prestazioni all'avanguardia e capacità di generalizzazione sia nella controllabilità spaziale che temporale. Inoltre, introduciamo una metrica specializzata per valutare la precisione del controllo temporale. Unendo le tecniche tradizionali di VFX agli approcci generativi, VFX Creator sblocca nuove possibilità per la generazione efficiente e di alta qualità di effetti video, rendendo i VFX avanzati accessibili a un pubblico più ampio.
La ricostruzione latente in 3D ha mostrato un grande potenziale nel potenziare la comprensione semantica in 3D e la generazione in 3D attraverso la distillazione delle caratteristiche in 2D nello spazio tridimensionale. Tuttavia, gli approcci esistenti faticano con il divario di dominio tra lo spazio delle caratteristiche in 2D e le rappresentazioni in 3D, che porta a una performance di rendering degradata. Per affrontare questa sfida, proponiamo un nuovo framework che integra la consapevolezza in 3D nello spazio latente in 2D. Il framework è composto da tre fasi: (1) un metodo di autoencoding consapevole della corrispondenza che migliora la coerenza in 3D delle rappresentazioni latenti in 2D, (2) un campo di radianza latente (LRF) che trasferisce queste rappresentazioni in 2D consapevoli in 3D e (3) una strategia di allineamento VAE-Campo di Radianza (VAE-RF) che migliora la decodifica delle immagini dalle rappresentazioni in 2D renderizzate. Estesi esperimenti dimostrano che il nostro metodo supera gli approcci di ricostruzione latente in 3D all'avanguardia in termini di performance di sintesi e generalizzabilità tra dataset diversi di scene interne ed esterne. A nostra conoscenza, questo è il primo lavoro che dimostra che le rappresentazioni del campo di radianza costruite dalle rappresentazioni latenti in 2D possono produrre una performance di ricostruzione in 3D fotorealistica.
Il rilevamento delle anomalie industriali sta facendo progressi grazie a set di dati come MVTec-AD e VisA. Tuttavia, essi presentano limitazioni in termini di numero di campioni difettosi, tipi di difetti e disponibilità di scene del mondo reale. Questi vincoli impediscono ai ricercatori di esplorare ulteriormente le prestazioni del rilevamento industriale con maggiore precisione. A questo scopo, proponiamo un nuovo set di dati di rilevamento delle anomalie su larga scala chiamato 3CAD, derivato da vere linee di produzione 3C. In particolare, il 3CAD proposto include otto diversi tipi di parti manufatturate, per un totale di 27.039 immagini ad alta risoluzione etichettate con anomalie a livello di pixel. Le caratteristiche chiave del 3CAD sono che copre regioni anomale di diverse dimensioni, diversi tipi di anomalie e la possibilità di avere più regioni anomale e più tipi di anomalie per immagine anomala. Si tratta del più grande e primo set di dati di rilevamento delle anomalie dedicato al controllo di qualità dei prodotti 3C per l'esplorazione e lo sviluppo della comunità. Nel frattempo, introduciamo un framework semplice ma efficace per il rilevamento delle anomalie non supervisionato: un paradigma di rilevamento Grossolano-a-Fine con Guida al Recupero (CFRG). Per rilevare piccole anomalie difettose, il CFRG proposto utilizza un paradigma di rilevamento grossolano-a-fine. In particolare, utilizziamo un modello di distillazione eterogeneo per la localizzazione grossolana e poi la localizzazione fine attraverso un modello di segmentazione. Inoltre, per catturare meglio i modelli normali, introduciamo caratteristiche di recupero come guida. Infine, riportiamo i risultati del nostro framework CFRG e dei metodi di rilevamento delle anomalie popolari sul set di dati 3CAD, dimostrando una forte competitività e fornendo un benchmark altamente sfidante per promuovere lo sviluppo del campo del rilevamento delle anomalie. Dati e codice sono disponibili: https://github.com/EnquanYang2022/3CAD.