Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli sforzi attuali nella costruzione di agenti GUI si basano pesantemente sulla disponibilità di robusti Modelli Visione-Linguaggio commerciali (VLM) come GPT-4o e GeminiProVision. Gli operatori sono spesso riluttanti ad utilizzare VLM open-source a causa del significativo ritardo nelle prestazioni rispetto ai loro corrispettivi closed-source, in particolare nei casi di ancoraggio GUI e scenari Out-Of-Distribution (OOD). Per facilitare futura ricerca in questo ambito, abbiamo sviluppato OS-Atlas - un modello d'azione GUI fondamentale che eccelle in ancoraggio GUI e compiti agentici OOD attraverso innovazioni sia nei dati che nella modellazione. Abbiamo investito un notevole sforzo ingegneristico nello sviluppo di un toolkit open-source per la sintesi di dati di ancoraggio GUI su diverse piattaforme, tra cui Windows, Linux, MacOS, Android e il web. Sfruttando questo toolkit, stiamo rilasciando il più grande corpus di ancoraggio GUI open-source multi-piattaforma ad oggi, che contiene oltre 13 milioni di elementi GUI. Questo dataset, combinato con innovazioni nella formazione del modello, fornisce una solida base per OS-Atlas per comprendere screenshot GUI e generalizzare a interfacce non viste. Attraverso una valutazione estensiva su sei benchmark che coprono tre diverse piattaforme (mobile, desktop e web), OS-Atlas dimostra significativi miglioramenti delle prestazioni rispetto ai modelli state-of-the-art precedenti. La nostra valutazione rivela anche preziose intuizioni per migliorare continuamente e scalare le capacità agentiche dei VLM open-source.
La personalizzazione dei Grandi Modelli Linguistici (LLM) è recentemente diventata sempre più importante con una vasta gamma di applicazioni. Nonostante l'importanza e i recenti progressi, la maggior parte dei lavori esistenti sui LLM personalizzati si sono concentrati esclusivamente sulla (a) generazione di testi personalizzati o (b) sull'utilizzo dei LLM per applicazioni downstream legate alla personalizzazione, come i sistemi di raccomandazione. In questo lavoro, colmiamo il divario tra queste due direzioni principali separate per la prima volta introducendo una tassonomia per l'uso dei LLM personalizzati e riassumendo le principali differenze e sfide. Forniamo una formalizzazione dei fondamenti dei LLM personalizzati che consolida ed espande concetti di personalizzazione dei LLM, definendo e discutendo nuovi aspetti della personalizzazione, dell'uso e dei desiderata dei LLM personalizzati. Successivamente unifichiamo la letteratura in questi campi diversi e scenari di utilizzo proponendo tassonomie sistematiche per la granularità della personalizzazione, le tecniche di personalizzazione, i dataset, i metodi di valutazione e le applicazioni dei LLM personalizzati. Infine, evidenziamo le sfide e i problemi aperti importanti che devono ancora essere affrontati. Unificando e esaminando la recente ricerca utilizzando le tassonomie proposte, miriamo a fornire una guida chiara alla letteratura esistente e ai diversi aspetti della personalizzazione nei LLM, fornendo strumenti sia ai ricercatori che ai professionisti.
Le procedure di flusso rettificato e riflusso hanno notevolmente avanzato la generazione rapida attraverso la progressiva rettificazione dei flussi di equazioni differenziali ordinarie (ODE). Operano partendo dall'assunzione che le coppie di immagini e rumore, note come accoppiamenti, possano essere approssimate da traiettorie rette con velocità costante. Tuttavia, osserviamo che la modellazione con velocità costante e l'utilizzo delle procedure di riflusso presentano limitazioni nell'apprendimento accurato delle traiettorie rette tra le coppie, con conseguente performance non ottimale nella generazione a pochi passi. Per affrontare tali limitazioni, introduciamo il Flusso ad Accelerazione Costante (CAF), un nuovo framework basato su un'equazione di accelerazione costante semplice. Il CAF introduce l'accelerazione come variabile apprendibile aggiuntiva, consentendo una stima più espressiva e accurata del flusso ODE. Inoltre, proponiamo due tecniche per migliorare ulteriormente l'accuratezza della stima: il condizionamento della velocità iniziale per il modello di accelerazione e un processo di riflusso per la velocità iniziale. I nostri approfonditi studi su dataset di esempio, CIFAR-10 e ImageNet 64x64, dimostrano che il CAF supera le baselines all'avanguardia per la generazione a un passo. Mostriamo inoltre che il CAF migliora drasticamente la conservazione degli accoppiamenti a pochi passi e l'inversione rispetto al flusso rettificato. Il codice è disponibile su https://github.com/mlvlab/CAF.
I benchmark esistenti spesso mettono in evidenza le notevoli prestazioni raggiunte dai Modelli Fondamentali Multimodali (MFM) all'avanguardia nel sfruttare il contesto temporale per la comprensione dei video. Tuttavia, quanto bene si comportano realmente i modelli nell'analisi visiva del ragionamento temporale? La nostra analisi dei benchmark esistenti mostra che questa capacità dei MFM è probabilmente sopravvalutata poiché molte domande possono essere risolte utilizzando uno, pochi o frame fuori sequenza. Per esaminare sistematicamente le attuali attività di ragionamento temporale visivo, proponiamo tre principi con metriche corrispondenti: (1) Guadagno Multi-Frame, (2) Sensibilità all'Ordine dei Frame e (3) Disparità delle Informazioni dei Frame. Seguendo questi principi, presentiamo TOMATO, Valutazione Multimodale del Ragionamento Temporale, un nuovo benchmark progettato per valutare rigorosamente le capacità di ragionamento temporale dei MFM nella comprensione dei video. TOMATO comprende 1.484 domande accuratamente selezionate e annotate da umani che coprono sei compiti (ossia, conteggio azioni, direzione, rotazione, forma e tendenza, velocità e frequenza e indizi visivi), applicate a 1.417 video, inclusi 805 video auto-registrati e generati, che comprendono scenari umani, reali e simulati. La nostra valutazione completa rivela un divario di prestazioni tra umano e modello del 57,3% con il modello migliore. Inoltre, la nostra analisi approfondita mette in luce limitazioni più fondamentali oltre a questo divario nei MFM attuali. Mentre riescono a riconoscere accuratamente eventi in frame isolati, falliscono nell'interpretare questi frame come una sequenza continua. Crediamo che TOMATO servirà come banco di prova cruciale per valutare i MFM di prossima generazione e come invito alla comunità per sviluppare sistemi AI capaci di comprendere la dinamica del mondo umano attraverso la modalità video.
Questo articolo presenta il modello AutoRegressive Randomizzato (RAR) per la generazione visuale, che stabilisce una nuova prestazione all'avanguardia nel compito di generazione di immagini mantenendo piena compatibilità con i framework di modellazione del linguaggio. Il RAR proposto è semplice: durante un processo di addestramento autoregressivo standard con un obiettivo di previsione del token successivo, la sequenza di input - tipicamente ordinata in forma raster - viene permutata casualmente in diverse modalità di fattorizzazione con una probabilità r, dove r parte da 1 e diminuisce linearmente a 0 nel corso dell'addestramento. Questa strategia di addestramento di ricottura consente al modello di imparare a massimizzare la probabilità attesa su tutte le modalità di fattorizzazione e quindi migliorare efficacemente la capacità del modello di modellare contesti bidirezionali. È importante notare che il RAR preserva l'integrità del framework di modellazione autoregressiva, garantendo piena compatibilità con la modellazione del linguaggio migliorando significativamente le prestazioni nella generazione di immagini. Sul benchmark ImageNet-256, il RAR raggiunge un punteggio FID di 1.48, superando non solo i precedenti generatori di immagini autoregressivi all'avanguardia, ma anche i principali metodi basati sulla diffusione e sui trasformatori mascherati. Il codice e i modelli saranno resi disponibili su https://github.com/bytedance/1d-tokenizer
Abbiamo scoperto la fisica sottostante nella Predizione del Prossimo Token (NTP). Abbiamo identificato la legge della conservazione dell'informazione all'interno di NTP e proposto la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'essenza dell'emergere dell'intelligenza nei modelli auto-regressivi è fondamentalmente un processo di trasferimento di informazioni. Abbiamo inoltre introdotto il Principio di Landauer in NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello auto-regressivo e il consumo di energia. Inoltre, abbiamo presentato diversi corollari, che hanno rilevanza pratica per le pratiche produttive. Infine, abbiamo convalidato la compatibilità e la complementarietà delle nostre scoperte con le teorie esistenti.
Presentiamo un modo semplice per unire il modello di linguaggio mascherato con il modello di linguaggio causale. Questo obiettivo di addestramento ibrido porta a un modello che combina i punti di forza di entrambi i paradigmi di modellazione all'interno di uno stack di trasformatori singolo: GPT-BERT può essere utilizzato in modo trasparente come qualsiasi modello di linguaggio causale o mascherato standard. Testiamo il processo di preaddestramento che consente questo comportamento flessibile sulla BabyLM Challenge 2024. I risultati mostrano che il preaddestramento ibrido supera i modelli solo mascherati o solo causali. Rilasciamo apertamente i modelli, le corpora di addestramento e il codice.
Le applicazioni dell'IA generativa sono diventate estremamente impressionanti, e l'interazione tra gli utenti e l'IA lo è ancora di più. La letteratura attuale sull'interazione umano-IA ha esaminato ampiamente come gli esseri umani interagiscono con l'IA generativa, ma manca di specificità riguardo ai design e ai modelli di interfaccia utente utilizzati per creare queste applicazioni. Pertanto, presentiamo un sondaggio che presenta in modo esaustivo le tassonomie di come un essere umano interagisce con l'IA e i modelli di interazione utente progettati per soddisfare le esigenze di una varietà di casi d'uso rilevanti. Ci concentriamo principalmente sulle interazioni guidate dall'utente, esaminando interazioni che sono avviate dall'utente e non includono segnali impliciti dati dall'utente. Con questo sondaggio, miriamo a creare un compendio di diversi modelli di interazione utente che possono essere utilizzati come riferimento sia per i progettisti che per gli sviluppatori. In tal modo, ci sforziamo anche di abbassare la soglia di accesso per coloro che cercano di apprendere di più sul design delle applicazioni di IA generativa.
Presentiamo Fashion-VDM, un modello di diffusione video (VDM) per generare video di prova virtuali. Dato un'immagine di capo d'abbigliamento in input e un video di una persona, il nostro metodo mira a generare un video di prova di alta qualità della persona che indossa il capo d'abbigliamento fornito, preservando al contempo l'identità e il movimento della persona. Il video di prova virtuale basato sull'immagine ha mostrato risultati impressionanti; tuttavia, i metodi esistenti di prova virtuale video (VVT) ancora peccano di dettagli sull'abbigliamento e di coerenza temporale. Per affrontare tali problematiche, proponiamo un'architettura basata sulla diffusione per la prova virtuale video, una guida senza classificatore suddivisa per un maggiore controllo sui dati di condizionamento in ingresso e una strategia di addestramento temporale progressiva per la generazione di video a singolo passaggio di 64 frame, 512px. Dimostriamo inoltre l'efficacia dell'addestramento congiunto immagine-video per la prova video, specialmente quando i dati video sono limitati. I nostri esperimenti qualitativi e quantitativi mostrano che il nostro approccio stabilisce il nuovo stato dell'arte per la prova virtuale video. Per ulteriori risultati, visitate la nostra pagina del progetto: https://johannakarras.github.io/Fashion-VDM.
Ricerche recenti arXiv:2410.15027 hanno esplorato l'uso dei trasformatori a diffusione (DiTs) per la generazione di immagini senza vincoli di compito, semplicemente concatenando i token di attenzione tra le immagini. Tuttavia, nonostante consistenti risorse computazionali, la fedeltà delle immagini generate rimane subottimale. In questo studio, rivalutiamo e ottimizziamo questo framework ipotizzando che i DiTs testo-immagine possiedano intrinsecamente capacità di generazione contestuale, richiedendo solo un minimo di regolazioni per attivarle. Attraverso diversi esperimenti di compito, dimostriamo qualitativamente che i DiTs testo-immagine esistenti possono eseguire efficacemente la generazione contestuale senza alcuna regolazione. Sfruttando questa intuizione, proponiamo un pipeline straordinariamente semplice per sfruttare le capacità contestuali dei DiTs: (1) concatenare le immagini invece dei token, (2) eseguire la descrizione congiunta di più immagini, e (3) applicare regolazioni LoRA specifiche del compito utilizzando piccoli set di dati (ad es. 20sim 100 campioni) anziché regolazioni a parametri completi con ampi set di dati. Diamo il nome ai nostri modelli In-Context LoRA (IC-LoRA). Questo approccio non richiede modifiche ai modelli DiT originali, solo cambiamenti ai dati di addestramento. Sorprendentemente, la nostra pipeline genera set di immagini ad alta fedeltà che rispettano meglio i suggerimenti. Pur essendo specifico del compito in termini di dati di regolazione, il nostro framework rimane senza vincoli di compito in architettura e pipeline, offrendo uno strumento potente per la comunità e fornendo preziose intuizioni per ulteriori ricerche su sistemi di generazione senza vincoli di compito a livello di prodotto. Rilasciamo il nostro codice, dati e modelli su https://github.com/ali-vilab/In-Context-LoRA
I Large Language Models (LLM) dimostrano capacità promettenti nella risoluzione di problemi scientifici semplici, ma spesso producono allucinazioni per quelli complessi. Integrare LLM con strumenti può aumentare l'affidabilità, ma questo approccio porta tipicamente a una eccessiva dipendenza dagli strumenti, riducendo la capacità del modello di risolvere problemi semplici attraverso un ragionamento di base. Al contrario, gli esperti umani valutano prima la complessità del problema utilizzando la conoscenza del dominio prima di scegliere un approccio di soluzione appropriato. Ispirati da questo processo umano di risoluzione dei problemi, proponiamo un nuovo metodo di raffinamento a due componenti. Nella prima componente, Distillazione della Conoscenza del Mondo (WKD), i LLM imparano direttamente dalle soluzioni generate utilizzando le informazioni degli strumenti per interiorizzare la conoscenza del dominio. Nella seconda componente, Adattamento all'Uso degli Strumenti (TUA), suddividiamo i problemi in categorie facili e difficili in base all'accuratezza delle risposte dirette del modello. Mantenendo lo stesso obiettivo di allineamento per i problemi facili come in WKD, addestriamo il modello a passare intelligentemente all'uso degli strumenti per problemi più impegnativi. Validiamo il nostro metodo su sei set di dati di riferimento scientifici, che spaziano dalla matematica, alle scienze climatiche e all'epidemiologia. In media, i nostri modelli mostrano un miglioramento del 28,18% nell'accuratezza delle risposte e un aumento del 13,89% nella precisione dell'uso degli strumenti su tutti i set di dati, superando i modelli all'avanguardia, inclusi GPT-4o e Claude-3.5.
Di recente, lo Splatting Gaussiano 3D (3DGS) ha rivoluzionato la ricostruzione del campo di radianza, manifestando una sintesi di nuove visuali efficiente e ad alta fedeltà. Tuttavia, rappresentare accuratamente le superfici, specialmente in scenari grandi e complessi, rimane una sfida significativa a causa della natura non strutturata del 3DGS. In questo articolo, presentiamo CityGaussianV2, un nuovo approccio per la ricostruzione di scene su larga scala che affronta sfide critiche legate all'accuratezza geometrica e all'efficienza. Sfruttando le capacità di generalizzazione favorevoli dello Splatting Gaussiano 2D (2DGS), affrontiamo i suoi problemi di convergenza e scalabilità. In particolare, implementiamo una tecnica di densificazione basata su gradienti decomposti e regressione della profondità per eliminare artefatti sfocati e accelerare la convergenza. Per scalare, introduciamo un filtro di allungamento che mitiga l'esplosione del conteggio gaussiano causata dalla degenerazione del 2DGS. Inoltre, ottimizziamo il pipeline di CityGaussian per l'addestramento parallelo, ottenendo una compressione fino a 10 volte, almeno il 25% di risparmio nel tempo di addestramento e una diminuzione del 50% nell'uso della memoria. Abbiamo anche stabilito benchmark geometrici standard in scenari su larga scala. I risultati sperimentali dimostrano che il nostro metodo trova un equilibrio promettente tra qualità visiva, accuratezza geometrica, così come costi di archiviazione e addestramento. La pagina del progetto è disponibile su https://dekuliutesla.github.io/CityGaussianV2/.
Lo spazio di incorporamento delle parole nei modelli neurali è distorto, e correggere questo aspetto può migliorare le prestazioni delle attività. Sottolineiamo che la maggior parte degli approcci per modellare, correggere e misurare la simmetria di uno spazio di incorporamento assume implicitamente che le frequenze delle parole siano uniformi; in realtà, le frequenze delle parole seguono una distribuzione altamente non uniforme, nota come legge di Zipf. Sorprendentemente, semplicemente eseguendo lo sbiancamento PCA ponderato dalla frequenza empirica delle parole che segue la legge di Zipf migliora significativamente le prestazioni delle attività, superando i baselines consolidati. Da un punto di vista teorico, sia il nostro approccio che i metodi esistenti possono essere chiaramente categorizzati: le rappresentazioni delle parole sono distribuite secondo una famiglia esponenziale con misure di base uniformi o zipfiane. Adottando quest'ultimo approccio, possiamo naturalmente enfatizzare le parole informative a bassa frequenza in termini di norma del vettore, il che diventa evidente dal punto di vista geometrico dell'informazione e in termini di funzioni di perdita per la classificazione sbilanciata. Inoltre, la nostra teoria conferma che i popolari metodi di elaborazione del linguaggio naturale, come il campionamento negativo skip-gram, WhiteningBERT e modelli di linguaggio senza testa, funzionano bene proprio perché i loro incorporamenti delle parole codificano la frequenza empirica delle parole nel modello probabilistico sottostante.
Le attuali tecniche di anonimizzazione del volto dipendono spesso dalla perdita di identità calcolata da modelli di riconoscimento facciale, che possono essere inaccurati e non affidabili. Inoltre, molti metodi richiedono dati supplementari come landmark facciali e maschere per guidare il processo di sintesi. In contrasto, il nostro approccio utilizza modelli di diffusione con solo una perdita di ricostruzione, eliminando la necessità di landmark facciali o maschere pur producendo immagini con dettagli intricati e dettagliati. Abbiamo convalidato i nostri risultati su due benchmark pubblici attraverso valutazioni quantitative e qualitative. Il nostro modello raggiunge prestazioni all'avanguardia in tre aree chiave: anonimizzazione dell'identità, preservazione degli attributi facciali e qualità dell'immagine. Oltre alla sua funzione principale di anonimizzazione, il nostro modello può anche eseguire compiti di scambio facciale incorporando un'immagine facciale aggiuntiva come input, dimostrando la sua versatilità e il suo potenziale per applicazioni diverse. Il nostro codice e i modelli sono disponibili su https://github.com/hanweikung/face_anon_simple.
Proponiamo un metodo efficace per l'inserimento di adattatori nei modelli di base testo-immagine, che consente l'esecuzione di compiti complessi a valle preservando la capacità di generalizzazione del modello di base. L'idea principale di questo metodo è ottimizzare il meccanismo di attenzione relativo alle mappe di caratteristiche 2D, il che migliora le prestazioni dell'adattatore. Questo approccio è stato convalidato sul compito della generazione di video meme e ha ottenuto risultati significativi. Ci auguriamo che questo lavoro possa fornire spunti per i compiti post-addestramento dei grandi modelli testo-immagine. Inoltre, poiché questo metodo dimostra una buona compatibilità con i modelli derivati SD1.5, ha un certo valore per la comunità open-source. Pertanto, rilasceremo il codice correlato (https://songkey.github.io/hellomeme).
I Large Language Models (LLM) hanno eccelso nel question-answering multi-hop (M-QA) grazie alle loro avanzate capacità di ragionamento. Tuttavia, l'impatto delle strutture di ragionamento intrinseche sulle prestazioni di M-QA dei LLM rimane poco chiaro, principalmente a causa dell'assenza di set di dati QA che forniscono strutture di ragionamento dettagliate. Per affrontare questa lacuna, introduciamo il Dataset di Question Answering Strutturato con Ragionamento Grafico (GRS-QA), che include contesti semantici e strutture di ragionamento per coppie di domande e risposte. A differenza dei dataset M-QA esistenti, dove diverse strutture di ragionamento sono intrecciate insieme, GRS-QA cattura esplicitamente intricati percorsi di ragionamento costruendo grafi di ragionamento, dove i nodi rappresentano contesti testuali e gli archi indicano flussi logici. Questi grafi di ragionamento di diverse strutture consentono una valutazione dettagliata delle capacità di ragionamento dei LLM attraverso varie strutture di ragionamento. La nostra analisi empirica rivela che i LLM si comportano in modo diverso quando affrontano domande con diverse strutture di ragionamento. Questa scoperta facilita l'esplorazione delle strutture testuali rispetto alla semantica.
Lo stato di salute (SOH) di una batteria al litio-ion (Li-ion) è un parametro critico che determina la capacità residua e la durata residua della batteria. In questo articolo, proponiamo SambaMixer, un nuovo modello strutturato dello spazio di stato (SSM) per prevedere lo stato di salute delle batterie Li-ion. Il SSM proposto si basa sull'architettura MambaMixer, progettata per gestire segnali temporali multivariati. Valutiamo il nostro modello sul dataset di scarica della batteria NASA e mostriamo che il nostro modello supera lo stato dell'arte su questo dataset. Introduciamo inoltre un nuovo metodo di campionamento basato su ancoraggi che garantisce che i segnali temporali abbiano la lunghezza attesa, fungendo anche da tecnica di aumento. Infine, condizioniamo la previsione sul tempo campione e sulla differenza di tempo di ciclo utilizzando codifiche posizionali per migliorare le prestazioni del nostro modello e apprendere gli effetti di recupero. I nostri risultati dimostrano che il nostro modello è in grado di prevedere lo stato di salute delle batterie Li-ion con elevata precisione e robustezza.
Il completamento del codice a livello di repository ha attirato grande attenzione nell'ingegneria del software, e diversi set di dati di benchmark sono stati introdotti. Tuttavia, i benchmark esistenti per il completamento del codice a livello di repository di solito si concentrano su un numero limitato di lingue (<5), il che non consente di valutare le capacità generali di intelligenza del codice attraverso diverse lingue per i Modelli Linguistici di Grandi Dimensioni (LLM) esistenti. Inoltre, i benchmark esistenti di solito riportano punteggi medi complessivi delle diverse lingue, ignorando le capacità dettagliate in diversi scenari di completamento. Pertanto, per agevolare la ricerca dei LLM di codice in scenari multilingue, proponiamo un ampio benchmark di completamento del codice a livello di repository multilingue che copre 18 linguaggi di programmazione (chiamato M2RC-EVAL), e due tipi di annotazioni dettagliate (cioè, a livello di bucket e a livello semantico) su diversi scenari di completamento sono forniti, dove otteniamo tali annotazioni basate sull'albero di sintassi astratta analizzato. Inoltre, curiamo anche un vasto corpus di istruzioni multilingue, il dataset M2RC-INSTRUCT, per migliorare le capacità di completamento del codice a livello di repository dei LLM di codice esistenti. I risultati sperimentali completi dimostrano l'efficacia del nostro M2RC-EVAL e M2RC-INSTRUCT.
In questo articolo affrontiamo la qualità del corpus WikiNER, un corpus multilingue per il riconoscimento delle entità nominate, e ne forniamo una versione consolidata. L'annotazione di WikiNER è stata prodotta in modo semi-supervisionato, cioè nessuna verifica manuale è stata effettuata a posteriori. Tale corpus è definito silver-standard. In questo articolo proponiamo WikiNER-fr-gold, che è una versione rivista della porzione francese di WikiNER. Il nostro corpus è composto dal 20% campionato casualmente del sotto-corpus francese originale (26.818 frasi con 700k token). Iniziamo con un riassunto dei tipi di entità inclusi in ciascuna categoria al fine di definire una linea guida per l'annotazione, e poi procediamo con la revisione del corpus. Infine presentiamo un'analisi degli errori e delle inconsistenze osservate nel corpus WikiNER-fr, e discutiamo potenziali direzioni per futuri lavori.