Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ottimizzazione al momento dell'inferenza scala il calcolo per derivare passaggi di ragionamento deliberati per una performance efficace. Mentre le precedenti strategie basate sulla ricerca affrontano la miopia della generazione auto-regressiva, il vasto spazio di ricerca porta a un'eccessiva esplorazione e a un'insufficiente sfruttamento. Per raggiungere un equilibrio efficiente e derivare il passaggio ottimale, inquadriamo la strategia di decodifica come campionamento previsionale, sfruttando passaggi futuri simulati per ottenere una stima globalmente ottimale del passaggio. Basandoci su questo, proponiamo una nuova strategia di decodifica, denominata phi-Decoding. Per fornire una stima precisa ed espressiva del valore del passaggio, phi-Decoding approssima due distribuzioni attraverso previsione e clustering. Campionando dalla distribuzione congiunta, i passaggi ottimali possono essere selezionati per lo sfruttamento. Per supportare l'allocazione adattiva del calcolo, proponiamo strategie di potatura in larghezza e in profondità, offrendo una soluzione leggera per raggiungere l'efficienza nell'inferenza. Esperimenti estesi su sette benchmark mostrano che phi-Decoding supera i forti baseline sia in termini di performance che di efficienza. Un'analisi aggiuntiva dimostra la sua generalizzazione su vari LLM e la scalabilità su un'ampia gamma di budget computazionali. Il codice sarà rilasciato su https://github.com/xufangzhi/phi-Decoding, e il pacchetto open-source PyPI sarà disponibile a breve.
Nonostante il recente successo dei modelli contrastivi immagine-testo come CLIP e SigLIP, questi modelli spesso incontrano difficoltà in compiti incentrati sulla visione che richiedono una comprensione ad alta fedeltà delle immagini, come il conteggio, la stima della profondità e il riconoscimento fine di oggetti. Questi modelli, allineando il linguaggio, tendono a privilegiare la semantica di alto livello rispetto alla comprensione visiva, indebolendo la loro capacità di interpretazione delle immagini. D'altra parte, i modelli focalizzati sulla visione sono eccellenti nell'elaborazione delle informazioni visive ma faticano a comprendere il linguaggio, limitando la loro flessibilità per compiti guidati dal linguaggio. In questo lavoro, introduciamo TULIP, una sostituzione open-source e immediatamente utilizzabile per i modelli esistenti simili a CLIP. Il nostro metodo sfrutta l'aumentazione generativa dei dati, un apprendimento contrastivo potenziato immagine-immagine e testo-testo, e una regolarizzazione basata sulla ricostruzione di immagini/testi per apprendere caratteristiche visive dettagliate preservando l'allineamento semantico globale. Il nostro approccio, scalabile fino a oltre 1 miliardo di parametri, supera i modelli state-of-the-art (SOTA) esistenti su più benchmark, stabilendo un nuovo record SOTA nelle prestazioni zero-shot su ImageNet-1K, ottenendo un miglioramento fino a 2 volte rispetto a SigLIP su RxRx1 nella classificazione few-shot con sondaggio lineare, e migliorando i modelli visione-linguaggio, raggiungendo punteggi oltre 3 volte superiori rispetto a SigLIP su MMVP. Il nostro codice/checkpoint è disponibile all'indirizzo https://tulip-berkeley.github.io.
Le mesh triangolari svolgono un ruolo cruciale nelle applicazioni 3D per una manipolazione e rendering efficienti. Sebbene i metodi auto-regressivi generino mesh strutturate prevedendo token discreti dei vertici, sono spesso limitati da un numero ridotto di facce e da incompletezza della mesh. Per affrontare queste sfide, proponiamo DeepMesh, un framework che ottimizza la generazione di mesh attraverso due innovazioni chiave: (1) una strategia di pre-addestramento efficiente che incorpora un nuovo algoritmo di tokenizzazione, insieme a miglioramenti nella curatela e nel processing dei dati, e (2) l'introduzione del Reinforcement Learning (RL) nella generazione di mesh 3D per ottenere un allineamento alle preferenze umane tramite Direct Preference Optimization (DPO). Progettiamo uno standard di valutazione che combina la valutazione umana con metriche 3D per raccogliere coppie di preferenze per il DPO, garantendo sia l'attrattiva visiva che l'accuratezza geometrica. Condizionato su nuvole di punti e immagini, DeepMesh genera mesh con dettagli intricati e topologia precisa, superando i metodi all'avanguardia sia in precisione che in qualità. Pagina del progetto: https://zhaorw02.github.io/DeepMesh/
I modelli di base addestrati su grandi quantità di dati hanno dimostrato capacità straordinarie di ragionamento e generazione nei domini di testo, immagini, audio e video. Il nostro obiettivo in Roblox è costruire un tale modello di base per l'intelligenza 3D, un modello in grado di supportare gli sviluppatori nella produzione di tutti gli aspetti di un'esperienza Roblox, dalla generazione di oggetti e scene 3D al rigging dei personaggi per l'animazione, fino alla produzione di script programmatici che descrivono i comportamenti degli oggetti. Discutiamo tre requisiti chiave di progettazione per un tale modello di base 3D e presentiamo il nostro primo passo verso la costruzione di un modello di questo tipo. Prevediamo che le forme geometriche 3D saranno un tipo di dati fondamentale e descriviamo la nostra soluzione per il tokenizer di forme 3D. Mostriamo come il nostro schema di tokenizzazione possa essere utilizzato in applicazioni per la generazione da testo a forma, da forma a testo e da testo a scena. Dimostriamo come queste applicazioni possano collaborare con i modelli linguistici di grandi dimensioni (LLM) esistenti per eseguire analisi e ragionamenti sulle scene. Concludiamo con una discussione che delinea il nostro percorso verso la costruzione di un modello di base completamente unificato per l'intelligenza 3D.
La costruzione del Grafo di Conoscenza Generalizzato (GKG), che include il grafo di conoscenza, il grafo di conoscenza degli eventi e il grafo di conoscenza del senso comune, è fondamentale per vari compiti di elaborazione del linguaggio naturale. Gli studi attuali tipicamente costruiscono questi tipi di grafi separatamente, trascurando intuizioni olistiche e una potenziale unificazione che potrebbe essere vantaggiosa in termini di risorse computazionali e prospettive d'uso. Tuttavia, una sfida chiave nello sviluppo di un framework unificato per il GKG sono gli ostacoli derivanti dalle differenze specifiche dei compiti. In questo studio, proponiamo un framework unificato per la costruzione di grafi di conoscenza generalizzati per affrontare questa sfida. In primo luogo, raccogliamo dati da 15 sotto-compiti in 29 dataset relativi ai tre tipi di grafi, classificandoli in dati in-campione, dati counter-task e dati fuori distribuzione (OOD). Successivamente, proponiamo un framework di fine-tuning a apprendimento curriculare in tre fasi, iniettando iterativamente conoscenza dai tre tipi di grafi nei Modelli di Linguaggio di Grande Dimensione. Esperimenti estensivi dimostrano che il nostro modello proposto migliora la costruzione di tutti e tre i tipi di grafi su dati in-dominio, OOD e counter-task.
La qualità temporale è un aspetto cruciale nella generazione di video, poiché garantisce una coerenza di movimento e dinamiche realistiche tra i fotogrammi. Tuttavia, raggiungere un'elevata coerenza e diversità temporale rimane una sfida. In questo lavoro, esploriamo per la prima volta l'aumentazione temporale nella generazione di video e introduciamo FluxFlow per un'indagine iniziale, una strategia progettata per migliorare la qualità temporale. Operando a livello di dati, FluxFlow applica perturbazioni temporali controllate senza richiedere modifiche architetturali. Esperimenti estesi sui benchmark UCF-101 e VBench dimostrano che FluxFlow migliora significativamente la coerenza e la diversità temporale in vari modelli di generazione video, tra cui U-Net, DiT e architetture basate su AR, preservando al contempo la fedeltà spaziale. Questi risultati evidenziano il potenziale dell'aumentazione temporale come approccio semplice ma efficace per migliorare la qualità della generazione video.
I rapidi progressi nella tecnologia generativa si sono rivelati un'arma a doppio taglio. Se da un lato offrono strumenti potenti che migliorano la convenienza, dall'altro sollevano significative preoccupazioni sociali. Come difensori, gli attuali metodi di rilevamento delle immagini sintetiche spesso mancano di interpretabilità testuale a livello di artefatti e sono eccessivamente focalizzati sul rilevamento della manipolazione delle immagini, mentre i dataset attuali generalmente soffrono di generatori obsoleti e di una mancanza di annotazioni granulari. In questo articolo, presentiamo SynthScars, un dataset di alta qualità e diversificato composto da 12.236 immagini completamente sintetiche con annotazioni di esperti umani. Esso include 4 tipi distinti di contenuti immagine, 3 categorie di artefatti e annotazioni granulari che coprono la segmentazione a livello di pixel, spiegazioni testuali dettagliate ed etichette di categoria degli artefatti. Inoltre, proponiamo LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un framework di analisi delle falsificazioni di immagini basato su un modello linguistico multimodale di grandi dimensioni (MLLM) che integra rilevamento, segmentazione e spiegazione degli artefatti. Basandoci su questa capacità, esploriamo ulteriormente LEGION come controller, integrandolo in pipeline di raffinamento delle immagini per guidare la generazione di immagini di qualità superiore e più realistiche. Esperimenti estesi dimostrano che LEGION supera i metodi esistenti su più benchmark, superando in particolare il secondo miglior esperto tradizionale su SynthScars del 3,31% in mIoU e del 7,75% in punteggio F1. Inoltre, le immagini raffinate generate sotto la sua guida mostrano un allineamento più forte con le preferenze umane. Il codice, il modello e il dataset saranno rilasciati.
I Large Language Model (LLM) hanno dimostrato capacità promettenti nel risolvere compiti di ragionamento matematico, sfruttando i dati di Chain-of-Thought (CoT) come componente fondamentale per guidare la generazione delle risposte. I paradigmi attuali generano tipicamente CoT e risposte direttamente per un dato problema, divergendo in una certa misura dalle strategie di risoluzione dei problemi umane. Gli esseri umani spesso risolvono i problemi ricordando casi analoghi e sfruttando le loro soluzioni per ragionare sul compito corrente. Ispirati da questo processo cognitivo, proponiamo MetaLadder, un nuovo framework che richiede esplicitamente agli LLM di ricordare e riflettere su meta-problemi, ovvero problemi strutturalmente o semanticamente analoghi, insieme alle loro soluzioni CoT, prima di affrontare il problema target. Inoltre, introduciamo un meccanismo di riformulazione del problema per migliorare la comprensione del modello del problema target rigenerando la domanda originale, il che migliora ulteriormente l'accuratezza del ragionamento. Pertanto, il modello può ottenere un trasferimento di ragionamento da problemi analoghi, imitando le capacità umane di "apprendere dagli esempi" e di generalizzazione. Esperimenti estesi su benchmark matematici dimostrano che il nostro MetaLadder migliora significativamente l'accuratezza nella risoluzione dei problemi degli LLM, superando ampiamente i metodi standard basati su CoT (un guadagno di accuratezza del 10,3%) e altri metodi. Il nostro codice e i dati sono stati rilasciati su https://github.com/LHL3341/MetaLadder.
Il ragionamento visivo è centrale nella cognizione umana, consentendo agli individui di interpretare e comprendere in modo astratto il proprio ambiente. Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato prestazioni impressionanti in compiti linguistici e di linguaggio-visione, i benchmark esistenti misurano principalmente abilità basate sul riconoscimento e valutano in modo inadeguato le vere capacità di ragionamento visivo. Per colmare questa lacuna critica, introduciamo VERIFY, un benchmark progettato esplicitamente per isolare e valutare rigorosamente le capacità di ragionamento visivo degli MLLMs all'avanguardia. VERIFY obbliga i modelli a ragionare principalmente dalle informazioni visive, fornendo un contesto testuale minimo per ridurre la dipendenza da conoscenze specifiche del dominio e bias linguistici. Ogni problema è accompagnato da un percorso di ragionamento annotato da esseri umani, rendendolo il primo a fornire una valutazione approfondita dei processi decisionali dei modelli. Inoltre, proponiamo nuove metriche che valutano la fedeltà del ragionamento visivo oltre la semplice accuratezza, evidenziando squilibri critici nei modelli attuali di ragionamento. Il nostro benchmarking completo dei principali MLLMs rivela significative limitazioni, sottolineando la necessità di un approccio bilanciato e olistico sia alla percezione che al ragionamento. Per ulteriori anticipazioni e test, visita la nostra pagina del progetto (https://verify-eqh.pages.dev/).
I modelli di diffusione hanno dimostrato prestazioni notevoli nella sintesi di immagini, ma richiedono risorse computazionali e di memoria estese per l'addestramento, il fine-tuning e l'inferenza. Sebbene tecniche avanzate di quantizzazione abbiano ridotto con successo l'utilizzo della memoria per l'inferenza, l'addestramento e il fine-tuning di questi modelli quantizzati richiedono ancora molta memoria, probabilmente a causa della dequantizzazione necessaria per il calcolo accurato dei gradienti e/o della retropropagazione per algoritmi basati sui gradienti. Tuttavia, un fine-tuning efficiente in termini di memoria è particolarmente desiderabile per applicazioni come la personalizzazione, che spesso devono essere eseguite su dispositivi edge come telefoni cellulari con dati privati. In questo lavoro, affrontiamo questa sfida quantizzando un modello di diffusione con personalizzazione tramite Textual Inversion e sfruttando un'ottimizzazione di ordine zero sui token di personalizzazione senza dequantizzazione, in modo che non sia necessario memorizzare gradienti e attivazioni per la retropropagazione, che consuma molta memoria. Poiché una stima del gradiente utilizzando l'ottimizzazione di ordine zero è piuttosto rumorosa per una singola immagine o poche immagini nella personalizzazione, proponiamo di eliminare il rumore dal gradiente stimato proiettandolo su un sottospazio costruito con la storia passata dei token, denominato Subspace Gradient. Inoltre, abbiamo studiato l'influenza dell'embedding testuale nella generazione di immagini, portando alla nostra proposta di campionamento dei passi temporali, denominato Partial Uniform Timestep Sampling, per il campionamento con passi temporali di diffusione efficaci. Il nostro metodo raggiunge prestazioni comparabili ai metodi precedenti nei punteggi di allineamento tra immagini e testo per la personalizzazione di Stable Diffusion con solo passaggi in avanti, riducendo la richiesta di memoria di addestramento fino a 8,2 volte.
La ricerca attuale sul paradigma Decompose-Then-Verify per valutare la fattualità di testi di lunga forma tratta tipicamente la decomposizione e la verifica in modo isolato, trascurando le loro interazioni e il potenziale disallineamento. Rileviamo che le politiche di decomposizione esistenti, generalmente dimostrazioni create manualmente, non si allineano bene con i verificatori a valle in termini di atomicità -- una nuova metrica che quantifica la densità informativa -- portando a risultati di verifica subottimali. Formuliamo la ricerca della politica di decomposizione ottimale per una verifica ottimale come un problema di ottimizzazione bilevel. Per approssimare una soluzione a questo problema fortemente NP-difficile, proponiamo la decomposizione dinamica, un framework di apprendimento per rinforzo che sfrutta il feedback del verificatore per apprendere una politica per decomporre dinamicamente le affermazioni in atomicità preferite dal verificatore. I risultati sperimentali mostrano che la decomposizione dinamica supera le politiche di decomposizione esistenti, migliorando la confidenza di verifica di 0.07 e l'accuratezza di 0.12 (su una scala 0-1) in media tra vari verificatori, dataset e atomicità delle affermazioni di input.
Lo sviluppo di agenti di intelligenza artificiale in grado di manipolare autonomamente interfacce grafiche rappresenta un compito complesso e di lungo termine. I recenti progressi nella legge di scala dei dati ci ispirano ad addestrare agenti per l'uso del computer con un set di istruzioni scalato, tuttavia l'utilizzo del clonaggio comportamentale per l'addestramento degli agenti richiede ancora un'enorme quantità di traiettorie di alta qualità. Per soddisfare l'esigenza di scalabilità, abbiamo progettato STEVE, una pipeline di verifica passo-passo per l'addestramento di agenti per l'uso del computer. In primo luogo, abbiamo stabilito un ampio set di istruzioni per agenti di uso del computer e raccolto dati di traiettoria con alcuni agenti subottimali. GPT-4o viene utilizzato per verificare la correttezza di ogni passo nelle traiettorie basandosi sugli schermi prima e dopo l'esecuzione dell'azione, assegnando a ogni passo un'etichetta binaria. Infine, adottiamo l'ottimizzazione di Kahneman e Tversky per ottimizzare l'agente a partire dalle etichette binarie passo-passo. Esperimenti estesi dimostrano che il nostro agente supera il fine-tuning supervisionato sfruttando sia le azioni positive che quelle negative all'interno di una traiettoria. Inoltre, STEVE ci consente di addestrare un modello visione-linguaggio da 7B come agente per l'uso del computer, raggiungendo prestazioni leader nel complesso ambiente desktop live WinAgentArena con grande efficienza e a costi ridotti. Codice e dati: https://github.com/FanbinLu/STEVE.
I modelli linguistici di grandi dimensioni (LLM) devono eseguire interazioni multi-turn nei compiti del mondo reale. Tuttavia, gli algoritmi esistenti di reinforcement learning (RL) multi-turn per ottimizzare gli agenti LLM non riescono a eseguire un'assegnazione efficace del credito su più turni sfruttando le capacità di generalizzazione degli LLM, e rimane poco chiaro come sviluppare tali algoritmi. Per studiare questo problema, introduciamo prima un nuovo benchmark, ColBench, in cui un agente LLM interagisce con un collaboratore umano su più turni per risolvere compiti realistici nella programmazione backend e nel design frontend. Basandoci su questo benchmark, proponiamo un nuovo algoritmo di RL, SWEET-RL (RL con valutazione passo-passo basata su informazioni di addestramento), che utilizza un obiettivo di ottimizzazione accuratamente progettato per addestrare un modello critico con accesso a informazioni aggiuntive durante l'addestramento. Il critico fornisce ricompense a livello di passo per migliorare il modello di policy. I nostri esperimenti dimostrano che SWEET-RL ottiene un miglioramento assoluto del 6% nei tassi di successo e vittoria su ColBench rispetto ad altri algoritmi multi-turn RL all'avanguardia, consentendo a Llama-3.1-8B di eguagliare o superare le prestazioni di GPT4-o nella creazione collaborativa di contenuti realistici.
I recenti progressi nel pre-addestramento dei modelli linguistici di grandi dimensioni (LLM) hanno visto l'espansione continua delle finestre contestuali per elaborare sequenze più lunghe. Tuttavia, il nostro studio pilota rivela che i modelli pre-addestrati con finestre contestuali più brevi superano costantemente le loro controparti con contesto lungo, a parità di budget di token. Questa scoperta ci spinge a esplorare una strategia ottimale di pianificazione della finestra contestuale per bilanciare meglio la capacità di gestire contesti lunghi con l'efficienza del pre-addestramento. A tal fine, proponiamo SkyLadder, un approccio semplice ma efficace che implementa una transizione da finestre contestuali brevi a lunghe. SkyLadder preserva prestazioni solide sui benchmark standard, eguagliando o superando i risultati di riferimento nelle attività con contesto lungo. Attraverso esperimenti estesi, abbiamo pre-addestrato modelli da 1 miliardo di parametri (fino a 32K di contesto) e modelli da 3 miliardi di parametri (8K di contesto) su 100 miliardi di token, dimostrando che SkyLadder produce guadagni consistenti fino al 3,7% sui benchmark comuni, raggiungendo velocità di addestramento fino al 22% più rapide rispetto ai metodi di riferimento. Il codice è disponibile all'indirizzo https://github.com/sail-sg/SkyLadder.
Presentiamo MusicInfuser, un approccio per generare video di danza di alta qualità sincronizzati con una traccia musicale specificata. Piuttosto che tentare di progettare e addestrare un nuovo modello multimodale audio-video, dimostriamo come i modelli di diffusione video esistenti possano essere adattati per allinearsi agli input musicali introducendo un meccanismo di cross-attention leggero tra musica e video e un adattatore a basso rango. A differenza dei lavori precedenti che richiedevano dati di motion capture, il nostro approccio effettua il fine-tuning esclusivamente su video di danza. MusicInfuser raggiunge una generazione video guidata dalla musica di alta qualità, preservando al contempo la flessibilità e le capacità generative dei modelli sottostanti. Introduciamo un framework di valutazione che utilizza Video-LLM per valutare molteplici dimensioni della qualità della generazione di danza. La pagina del progetto e il codice sono disponibili all'indirizzo https://susunghong.github.io/MusicInfuser.
La ricostruzione scomponibile di scene 3D, con forme complete e texture dettagliate di tutti gli oggetti presenti, è intrigante per applicazioni downstream ma rimane impegnativa, specialmente quando si utilizzano viste sparse come input. Approcci recenti incorporano regolarizzazioni semantiche o geometriche per affrontare questo problema, ma subiscono un significativo degrado nelle aree sottoconvincolate e non riescono a recuperare le regioni occluse. Sosteniamo che la chiave per risolvere questo problema risieda nel fornire informazioni mancanti per queste aree. A tal fine, proponiamo DP-Recon, che utilizza prior di diffusione sotto forma di Score Distillation Sampling (SDS) per ottimizzare la rappresentazione neurale di ciascun oggetto individuale sotto nuove viste. Questo fornisce informazioni aggiuntive per le aree sottoconvincolate, ma l'incorporazione diretta del prior di diffusione solleva potenziali conflitti tra la ricostruzione e la guida generativa. Pertanto, introduciamo ulteriormente un approccio guidato dalla visibilità per regolare dinamicamente i pesi della perdita SDS per pixel. Insieme, questi componenti migliorano sia il recupero della geometria che dell'aspetto, rimanendo fedeli alle immagini di input. Esperimenti estesi su Replica e ScanNet++ dimostrano che il nostro metodo supera significativamente i metodi SOTA. In particolare, ottiene una migliore ricostruzione degli oggetti con 10 viste rispetto ai baseline con 100 viste. Il nostro metodo consente un'edizione basata su testo senza soluzione di continuità per la geometria e l'aspetto attraverso l'ottimizzazione SDS e produce mesh di oggetti scomposti con mappe UV dettagliate che supportano l'edizione di effetti visivi (VFX) fotorealistici. La pagina del progetto è disponibile all'indirizzo https://dp-recon.github.io/.
I recenti progressi nei Large Multi-modal Models (LMM) si concentrano principalmente sulla comprensione offline dei video. Al contrario, la comprensione dei video in streaming presenta grandi sfide per i modelli recenti a causa delle sue caratteristiche sensibili al tempo, omni-modali e interattive. In questo lavoro, miriamo a estendere la comprensione dei video in streaming da una nuova prospettiva e proponiamo un nuovo compito denominato Visual Instruction Feedback, in cui i modelli dovrebbero essere consapevoli dei contenuti visivi e imparare a estrarre istruzioni da essi. Ad esempio, quando gli utenti fanno cenni con le mani agli agenti, questi dovrebbero riconoscere il gesto e avviare conversazioni con informazioni di benvenuto. Pertanto, seguire le istruzioni nella modalità visiva migliora notevolmente le interazioni utente-agente. Per facilitare la ricerca, definiamo sette sottocompiti chiave altamente rilevanti per la modalità visiva e raccogliamo il dataset ViSpeak-Instruct per l'addestramento e il ViSpeak-Bench per la valutazione. Inoltre, proponiamo il modello ViSpeak, un LMM all'avanguardia per la comprensione dei video in streaming con prestazioni di livello GPT-4o su vari benchmark di comprensione dei video in streaming. Dopo il fine-tuning sul nostro dataset ViSpeak-Instruct, ViSpeak è dotato di una capacità di base di feedback sulle istruzioni visive, servendo come solida baseline per la ricerca futura.
L'ingegnerizzazione automatica delle feature svolge un ruolo cruciale nel migliorare le prestazioni dei modelli predittivi per attività di apprendimento su dati tabellari. I metodi tradizionali di ingegnerizzazione automatica delle feature sono limitati dalla loro dipendenza da trasformazioni predefinite all'interno di spazi di ricerca fissi e progettati manualmente, spesso trascurando la conoscenza del dominio. I recenti progressi nell'uso dei Large Language Models (LLM) hanno permesso l'integrazione della conoscenza del dominio nel processo di ingegnerizzazione delle feature. Tuttavia, gli approcci esistenti basati su LLM utilizzano prompt diretti o si affidano esclusivamente ai punteggi di validazione per la selezione delle feature, non riuscendo a sfruttare le intuizioni derivanti da precedenti esperimenti di scoperta delle feature o a stabilire un ragionamento significativo tra la generazione delle feature e le prestazioni guidate dai dati. Per affrontare queste sfide, proponiamo LLM-FE, un nuovo framework che combina la ricerca evolutiva con la conoscenza del dominio e le capacità di ragionamento dei LLM per scoprire automaticamente feature efficaci per attività di apprendimento su dati tabellari. LLM-FE formula l'ingegnerizzazione delle feature come un problema di ricerca di programmi, in cui i LLM propongono iterativamente nuovi programmi di trasformazione delle feature, e il feedback guidato dai dati orienta il processo di ricerca. I nostri risultati dimostrano che LLM-FE supera costantemente i benchmark più avanzati, migliorando significativamente le prestazioni dei modelli di previsione su dati tabellari in una varietà di benchmark di classificazione e regressione.
La generazione di ritratti parlanti basata su singole immagini guidate dall'audio svolge un ruolo cruciale nella realtà virtuale, nella creazione di umani digitali e nella produzione cinematografica. Gli approcci esistenti sono generalmente categorizzati in metodi basati su punti chiave e metodi basati su immagini. I metodi basati su punti chiave preservano efficacemente l'identità del personaggio, ma faticano a catturare i dettagli facciali fini a causa della limitazione dei punti fissi del modello morfabile 3D. Inoltre, le tradizionali reti generative affrontano difficoltà nello stabilire una causalità tra l'audio e i punti chiave su dataset limitati, risultando in una bassa diversità delle pose. Al contrario, gli approcci basati su immagini producono ritratti di alta qualità con dettagli diversificati utilizzando la rete di diffusione, ma comportano distorsioni dell'identità e costi computazionali elevati. In questo lavoro, proponiamo KDTalker, il primo framework che combina punti chiave 3D impliciti non supervisionati con un modello di diffusione spazio-temporale. Sfruttando i punti chiave 3D impliciti non supervisionati, KDTalker adatta le densità delle informazioni facciali, consentendo al processo di diffusione di modellare pose della testa diversificate e catturare dettagli facciali fini in modo flessibile. Il meccanismo di attenzione spazio-temporale progettato su misura garantisce una sincronizzazione labiale accurata, producendo animazioni temporalmente coerenti e di alta qualità, migliorando al contempo l'efficienza computazionale. I risultati sperimentali dimostrano che KDTalker raggiunge prestazioni all'avanguardia in termini di accuratezza della sincronizzazione labiale, diversità delle pose della testa ed efficienza di esecuzione. I nostri codici sono disponibili all'indirizzo https://github.com/chaolongy/KDTalker.
Presentiamo ELTEX (Efficient LLM Token Extraction), un framework orientato al dominio per la generazione di dati di addestramento sintetici di alta qualità in ambiti specializzati. Sebbene i Large Language Model (LLM) abbiano dimostrato capacità generali impressionanti, le loro prestazioni in domini specializzati come la cybersecurity rimangono limitate dalla scarsità di dati di addestramento specifici per il dominio. ELTEX affronta questa sfida integrando sistematicamente l'estrazione esplicita di indicatori di dominio con il prompting dinamico, al fine di preservare le conoscenze critiche del dominio durante il processo di generazione. Dimostriamo l'efficacia di ELTEX nel contesto del rilevamento di attacchi informatici legati alla blockchain, dove abbiamo ottimizzato Gemma-2B utilizzando varie combinazioni di dati reali e generati da ELTEX. I nostri risultati mostrano che il modello potenziato da ELTEX raggiunge prestazioni competitive rispetto a GPT-4 sia nelle metriche di classificazione standard che nella calibrazione dell'incertezza, richiedendo al contempo risorse computazionali significativamente inferiori. Rilasciamo un dataset sintetico curato di testi provenienti dai social media per il rilevamento di attacchi informatici nella blockchain. Il nostro lavoro dimostra che la generazione di dati sintetici orientata al dominio può colmare efficacemente il divario prestazionale tra modelli efficienti in termini di risorse e architetture più grandi in domini specializzati.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato capacità di ragionamento migliorate, evolvendosi dal prompting a Catena di Pensiero (CoT) a soluzioni avanzate e orientate al prodotto come OpenAI o1. Durante la nostra re-implementazione di questo modello, abbiamo osservato che nei compiti multimodali che richiedono input visivi (ad esempio, problemi di geometria), i Modelli Linguistici Multimodali (MLLMs) faticano a mantenere l'attenzione sulle informazioni visive; in altre parole, gli MLLMs soffrono di un declino graduale dell'attenzione verso le informazioni visive man mano che il ragionamento procede, producendo output eccessivamente dipendenti dal testo. Per investigare questo fenomeno, abbiamo rimosso gli input di immagini durante il ragionamento a catena lunga. Nello specifico, abbiamo interrotto il processo di ragionamento a metà, per poi completarlo nuovamente rimuovendo l'immagine di input. Abbiamo osservato un calo di precisione di solo ~2% sul sottoinsieme test-hard di MathVista, rivelando che gli output testuali del modello dominano il processo di ragionamento successivo. Motivati da ciò, proponiamo il Condizionamento Visivo Portatile (TVC), una strategia che sposta l'input dell'immagine alle fasi critiche del ragionamento e comprime i token visivi ridondanti attraverso una potatura dinamica. Questa metodologia aiuta il modello a mantenere l'attenzione sui componenti visivi durante tutto il ragionamento. Il nostro approccio raggiunge prestazioni all'avanguardia in media su cinque benchmark di ragionamento matematico (+3,4% rispetto al precedente sota), dimostrando l'efficacia del TVC nel migliorare i sistemi di ragionamento multimodale.
La risoluzione di problemi scientifici implica la sintesi di informazioni applicando conoscenze specialistiche. Introduciamo CURIE, un benchmark di Comprensione del Contesto Lungo, Ragionamento ed Estrazione di Informazioni scientifiche, progettato per misurare il potenziale dei Modelli Linguistici di Grande Scala (LLMs) nella risoluzione di problemi scientifici e nell'assistenza agli scienziati in flussi di lavoro realistici. Questo benchmark propone dieci compiti impegnativi con un totale di 580 coppie di problemi e soluzioni curate da esperti in sei discipline - scienza dei materiali, fisica della materia condensata, calcolo quantistico, analisi geospaziale, biodiversità e proteine - coprendo sia flussi di lavoro sperimentali che teorici nella scienza. Valutiamo una gamma di LLMs chiusi e aperti sui compiti di CURIE, che richiedono competenze specifiche del dominio, comprensione di informazioni contestuali lunghe e ragionamenti a più passaggi. Mentre Gemini Flash 2.0 e Claude-3 dimostrano una comprensione costantemente alta in tutti i domini, i popolari GPT-4o e command-R+ falliscono in modo significativo nei compiti di sequenziamento proteico. Con la migliore prestazione al 32%, c'è molto spazio per miglioramenti per tutti i modelli. Speriamo che le intuizioni ottenute da CURIE possano guidare lo sviluppo futuro degli LLMs nelle scienze. Il codice e i dati di valutazione sono disponibili su https://github.com/google/curie.
In ambienti multi-agente complessi, raggiungere un apprendimento efficiente e comportamenti desiderabili rappresenta una sfida significativa per i sistemi di Apprendimento per Rinforzo Multi-Agente (MARL). Questo lavoro esplora il potenziale della combinazione del MARL con interventi mediati da Modelli Linguistici di Grande Dimensione (LLM) per guidare gli agenti verso comportamenti più desiderabili. Nello specifico, indaghiamo come gli LLM possano essere utilizzati per interpretare e facilitare interventi che modellano le traiettorie di apprendimento di più agenti. Abbiamo sperimentato due tipi di interventi, denominati controller: un Controller in Linguaggio Naturale (NL) e un Controller Basato su Regole (RB). Il Controller NL, che utilizza un LLM per simulare interventi simili a quelli umani, ha mostrato un impatto maggiore rispetto al Controller RB. I nostri risultati indicano che gli agenti traggono particolare beneficio da interventi precoci, portando a un addestramento più efficiente e a prestazioni superiori. Entrambi i tipi di intervento superano la linea di base senza interventi, evidenziando il potenziale della guizia mediata da LLM per accelerare l'addestramento e migliorare le prestazioni del MARL in ambienti complessi.