Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Generazione Arricchita da Recupero (RAG) ha dimostrato di migliorare le capacità di conoscenza e di alleviare il problema delle allucinazioni dei LLM. Il Web è una fonte principale di conoscenza esterna utilizzata nei sistemi RAG, e molti sistemi commerciali come ChatGPT e Perplexity hanno utilizzato motori di ricerca Web come principali sistemi di recupero. Tipicamente, tali sistemi RAG recuperano i risultati della ricerca, scaricano le fonti HTML dei risultati e quindi estraggono testi semplici dalle fonti HTML. I documenti o frammenti di testo semplice vengono inseriti nei LLM per arricchire la generazione. Tuttavia, gran parte delle informazioni strutturali e semantiche intrinseche nell'HTML, come intestazioni e strutture di tabelle, vengono perse durante questo processo RAG basato su testo semplice. Per alleviare questo problema, proponiamo HtmlRAG, che utilizza HTML invece del testo semplice come formato di conoscenza recuperata in RAG. Riteniamo che l'HTML sia migliore del testo semplice nel modellare la conoscenza nei documenti esterni, e la maggior parte dei LLM possiede capacità robuste per comprendere l'HTML. Tuttavia, l'utilizzo dell'HTML presenta nuove sfide. L'HTML contiene contenuti aggiuntivi come tag, JavaScript e specifiche CSS, che introducono token di input aggiuntivi e rumore nel sistema RAG. Per affrontare questo problema, proponiamo strategie di pulizia, compressione e potatura dell'HTML, per accorciare l'HTML riducendo al minimo la perdita di informazioni. In particolare, progettiamo un metodo di potatura basato su albero a due fasi che elimina i blocchi HTML inutili e mantiene solo la parte rilevante dell'HTML. Gli esperimenti su sei set di dati di domande e risposte confermano la superiorità dell'utilizzo dell'HTML nei sistemi RAG.
I Large Language Models (LLM) hanno dimostrato notevoli capacità di generalizzazione e di seguire istruzioni con l'ottimizzazione delle istruzioni. Gli avanzamenti nei LLM e nell'ottimizzazione delle istruzioni hanno portato allo sviluppo di Large Vision-Language Models (LVLM). Tuttavia, la competenza dei LLM e dell'ottimizzazione delle istruzioni è stata meno esplorata nel dominio molecolare. Pertanto, proponiamo LLaMo: Large Language Model-based Molecular graph assistant, che è un modello linguaggio-grafo molecolare di grandi dimensioni addestrato end-to-end. Per colmare la discrepanza tra le modalità linguaggio e grafo, presentiamo il proiettore di grafo multi-livello che trasforma le rappresentazioni grafiche in token grafici astratti le rappresentazioni di output di ciascuno strato di GNN e le rappresentazioni di motivi con il meccanismo di cross-attenzione. Introduciamo inoltre dati di istruzioni grafiche molecolari generate automaticamente per ottimizzare le istruzioni del grande modello linguaggio-grafo molecolare per la comprensione generale del linguaggio e delle molecole. I nostri ampi esperimenti dimostrano che LLaMo mostra le migliori prestazioni su diverse attività, come la generazione di descrizioni molecolari, la previsione delle proprietà e la previsione dei nomi IUPAC. Il codice di LLaMo è disponibile su https://github.com/mlvlab/LLaMo.
Le crescenti capacità dei grandi modelli generativi e la loro sempre più diffusa implementazione hanno sollevato preoccupazioni sulla loro affidabilità, sicurezza e potenziale abuso. Per affrontare tali questioni, lavori recenti hanno proposto di controllare la generazione del modello guidando le attivazioni del modello al fine di indurre o prevenire in modo efficace l'emergere di concetti o comportamenti nell'output generato. In questo articolo presentiamo Activation Transport (AcT), un framework generale per guidare le attivazioni guidato dalla teoria del trasporto ottimale che generalizza molti lavori precedenti di guida delle attivazioni. AcT è agnostico alla modalità e fornisce un controllo dettagliato sul comportamento del modello con un sovraccarico computazionale trascurabile, influenzando minimamente le capacità del modello. Mostriamo sperimentalmente l'efficacia e la versatilità del nostro approccio affrontando sfide chiave nei grandi modelli linguistici (LLM) e nei modelli di diffusione testo-immagine (T2Is). Per i LLM, mostriamo che AcT può mitigare efficacemente la tossicità, indurre concetti arbitrari e aumentarne la veridicità. Per i T2Is, mostriamo come AcT abiliti un controllo dettagliato dello stile e la negazione dei concetti.
I sistemi di visione attuali assegnano tipicamente rappresentazioni di lunghezza fissa alle immagini, indipendentemente dal contenuto informativo. Questo contrasta con l'intelligenza umana - e persino con i grandi modelli linguistici - che allocano capacità rappresentative variabili in base all'entropia, al contesto e alla familiarità. Ispirandoci a ciò, proponiamo un approccio per apprendere rappresentazioni di token di lunghezza variabile per immagini 2D. La nostra architettura encoder-decoder elabora in modo ricorsivo i token delle immagini 2D, distillandoli in token latenti 1D attraverso molteplici iterazioni di rollouts ricorrenti. Ogni iterazione affina i token 2D, aggiorna i token latenti 1D esistenti e aumenta in modo adattivo la capacità rappresentativa aggiungendo nuovi token. Ciò consente la compressione delle immagini in un numero variabile di token, che va da 32 a 256. Convalidiamo il nostro tokenizer utilizzando la perdita di ricostruzione e le metriche FID, dimostrando che il conteggio dei token si allinea con l'entropia dell'immagine, la familiarità e i requisiti delle attività successive. Il processamento ricorrente dei token con aumento della capacità rappresentativa in ciascuna iterazione mostra segni di specializzazione dei token, rivelando potenzialità per la scoperta di oggetti/parti.
Le MLLM hanno dimostrato notevoli capacità di comprensione e ragionamento con dati complessi linguistici e visivi. Questi progressi hanno alimentato la visione di stabilire un robot generalista MLLM competente nella comprensione di istruzioni umane complesse e nell'esecuzione di varie attività incarnate. Tuttavia, lo sviluppo di MLLM per robot del mondo reale è impegnativo a causa delle limitate capacità di calcolo e memoria tipicamente disponibili sulle piattaforme robotiche. Al contrario, l'inferenza dei MLLM comporta la memorizzazione di miliardi di parametri e l'esecuzione di un'enorme computazione, imponendo significative esigenze hardware. Nel nostro articolo, proponiamo un Quadro Dinamico di Uscita Anticipata per il Modello di Visione-Linguaggio-Azione Robotico (DeeR-VLA, o semplicemente DeeR) che regola automaticamente le dimensioni del MLLM attivato in base a ciascuna situazione in corso. L'approccio sfrutta un'architettura multi-uscita nei MLLM, che consente al modello di interrompere l'elaborazione una volta attivata la dimensione adeguata del modello per una situazione specifica, evitando così ulteriori computazioni ridondanti. Inoltre, sviluppiamo nuovi algoritmi che stabiliscono criteri di terminazione anticipata per DeeR, condizionati a esigenze predefinite come il costo computazionale medio (cioè, consumo energetico), nonché il consumo computazionale massimo (cioè, latenza) e l'utilizzo della memoria GPU. Questi miglioramenti garantiscono che DeeR operi in modo efficiente sotto vincoli di risorse variabili mantenendo prestazioni competitive. Nel benchmark di manipolazione robotica CALVIN, DeeR dimostra significative riduzioni nei costi computazionali di LLM del 5,2-6,5 volte e nella memoria GPU di LLM del 2-6 volte senza compromettere le prestazioni. Il codice e i checkpoint sono disponibili su https://github.com/yueyang130/DeeR-VLA.
Studiamo metodi per allineare in modo efficiente grandi modelli linguistici (LLM) con le preferenze umane, dati feedback online con budget limitato. Formuliamo innanzitutto il problema dell'allineamento LLM nel contesto dei banditi duellanti contestuali. Questa formulazione, che include paradigmi recenti come RLHF online e DPO online, cerca intrinsecamente algoritmi efficienti dal punto di vista del campionamento che incorporino esplorazione attiva online. Sfruttando intuizioni dalla teoria dei banditi, presentiamo un algoritmo unificato basato su Thompson sampling e ne evidenziamo le applicazioni in due scenari di allineamento LLM distinti. L'agente pratico che implementa in modo efficiente questo algoritmo, chiamato SEA (Allineamento a Campionamento Efficiente), è validato empiricamente attraverso ampi esperimenti su tre scale di modelli (1B, 2.8B, 6.9B) e tre algoritmi di apprendimento delle preferenze (DPO, IPO, SLiC). I risultati dimostrano che SEA raggiunge un allineamento altamente efficiente dal punto di vista del campionamento con le preferenze dell'oracolo, superando i recenti metodi di esplorazione attiva per LLM. Inoltre, rilasciamo l'implementazione di SEA insieme a una base di codice efficiente progettata per l'allineamento online di LLM, con l'obiettivo di accelerare la ricerca futura in questo campo.
Introduciamo DreamPolish, un modello di generazione testo-3D che eccelle nella produzione di geometrie raffinate e texture di alta qualità. Nella fase di costruzione della geometria, il nostro approccio sfrutta molteplici rappresentazioni neurali per migliorare la stabilità del processo di sintesi. Invece di fare affidamento esclusivamente su una diffusione condizionata alla vista nelle nuove viste campionate, che spesso porta a artefatti indesiderati sulla superficie geometrica, incorporiamo un ulteriore stimatore normale per rifinire i dettagli della geometria, condizionato a punti di vista con campi di vista variabili. Proponiamo di aggiungere una fase di rifinitura della superficie con solo pochi passaggi di addestramento, che può raffinare efficacemente gli artefatti attribuiti alla guida limitata dalle fasi precedenti e produrre oggetti 3D con geometrie più desiderabili. L'argomento chiave della generazione di texture utilizzando modelli preaddestrati testo-immagine è trovare un dominio adatto nella vasta distribuzione latente di questi modelli che contenga rendering fotorealistici e coerenti. Nella fase di generazione delle texture, introduciamo un nuovo obiettivo di distillazione del punteggio, chiamato distillazione del punteggio di dominio (DSD), per guidare le rappresentazioni neurali verso tale dominio. Ci ispiriamo alla guida senza classificatore (CFG) nei compiti di generazione di immagini condizionati al testo e mostriamo che CFG e la guida della distribuzione variazionale rappresentano aspetti distinti nella guida del gradiente e sono entrambi domini imperativi per il miglioramento della qualità della texture. Estesi esperimenti mostrano che il nostro modello proposto può produrre risorse 3D con superfici rifinite e texture fotorealistiche, superando i metodi esistenti all'avanguardia.
Le funzioni neurali implicite hanno portato notevoli progressi allo stato dell'arte della digitalizzazione umana vestita da immagini multiple o anche singole. Tuttavia, nonostante i progressi, attualmente si riscontrano ancora difficoltà nell'estendere a immagini non viste con deformazioni complesse dei vestiti e pose del corpo. In questo lavoro, presentiamo GarVerseLOD, un nuovo dataset e framework che apre la strada per raggiungere una robustezza senza precedenti nella ricostruzione tridimensionale ad alta fedeltà di indumenti da un'unica immagine non vincolata. Ispirati al recente successo dei grandi modelli generativi, riteniamo che una chiave per affrontare la sfida della generalizzazione risieda nella quantità e qualità dei dati tridimensionali sugli indumenti. A questo scopo, GarVerseLOD raccoglie 6.000 modelli di abiti di alta qualità con dettagli geometrici finemente articolati creati manualmente da artisti professionisti. Oltre alla scala dei dati di addestramento, osserviamo che avere granularità di geometria disaccoppiate può svolgere un ruolo importante nel potenziare la capacità di generalizzazione e l'accuratezza dell'inferenza del modello appreso. Per questo motivo, creiamo GarVerseLOD come un dataset gerarchico con livelli di dettaglio (LOD), che vanno da forme stilizzate prive di dettagli a indumenti mescolati con pose con dettagli allineati ai pixel. Questo ci consente di rendere questo problema altamente non vincolato gestibile scomponendo l'inferenza in compiti più semplici, ognuno limitato con uno spazio di ricerca più piccolo. Per garantire che GarVerseLOD possa generalizzare bene alle immagini in natura, proponiamo un nuovo paradigma di etichettatura basato su modelli di diffusione condizionale per generare ampie immagini accoppiate per ciascun modello di abbigliamento con un alto fotorealismo. Valutiamo il nostro metodo su un'enorme quantità di immagini in natura. I risultati sperimentali dimostrano che GarVerseLOD può generare singoli pezzi di abbigliamento con una qualità significativamente migliore rispetto agli approcci precedenti. Pagina del progetto: https://garverselod.github.io/
I modelli di linguaggio visivo (VLM) hanno dimostrato forti capacità in varie attività di comprensione e ragionamento visivo. Tuttavia, la loro implementazione nel mondo reale è spesso limitata da elevate latenze durante l'inferenza a causa del considerevole calcolo necessario per elaborare il grande numero di token di input (prevalentemente dall'immagine) da parte del LLM. Per ridurre i costi di inferenza, si può ridimensionare il LLM o ridurre il numero di token di immagine di input, quest'ultimo è stato l'oggetto di molti lavori recenti sulla compressione dei token. Tuttavia, non è chiaro quale sia il compromesso ottimale, poiché entrambi i fattori influenzano direttamente le prestazioni del VLM. Caratterizziamo innanzitutto questo compromesso ottimale tra il numero di token visivi e i parametri LLM stabilendo leggi di scalabilità che catturano le variazioni delle prestazioni con questi due fattori. I nostri risultati rivelano un trend sorprendente: per le attività di ragionamento visivo, il comportamento ottimale nell'inferenza nei VLM, cioè l'errore minimo a valori fissi di calcolo di inferenza, si ottiene utilizzando il LLM più grande che rientra nel budget di inferenza riducendo al minimo il conteggio dei token visivi - spesso fino a un singolo token. Mentre la letteratura sulla riduzione dei token si è concentrata principalmente nel mantenere le prestazioni del modello base riducendo modestamente il conteggio dei token (ad esempio, 5-10 volte), i nostri risultati indicano che il regime di inferenza ottimale dal punto di vista del calcolo richiede di operare con rapporti di compressione dei token ancora più elevati. Sulla base di queste intuizioni, intraprendiamo alcuni passi iniziali verso la costruzione di approcci adattati per impostazioni di elevata compressione dei token. Il codice è disponibile su https://github.com/locuslab/llava-token-compression.
Le malattie rare presentano sfide uniche nel settore sanitario, spesso soffrendo di diagnosi ritardate e paesaggi informativi frammentati. La scarsità di conoscenze affidabili in queste condizioni costituisce una sfida distintiva per i Grandi Modelli Linguistici (LLM) nel supportare la gestione clinica e fornire informazioni precise sui pazienti, sottolineando la necessità di una formazione mirata su questi casi 'zebra'. Presentiamo Zebra-Llama, un modello linguistico specializzato e consapevole del contesto con capacità di Generazione potenziata da Recupero (RAG) ad alta precisione, focalizzato sulla Sindrome di Ehlers-Danlos (EDS) come nostro caso di studio. L'EDS, che colpisce 1 individuo su 5.000, esemplifica le complessità delle malattie rare con i suoi sintomi diversificati, i molteplici sottotipi e i criteri diagnostici in evoluzione. Implementando una metodologia innovativa di raffinamento consapevole del contesto addestrata su domande derivate dalla letteratura medica, dalle esperienze dei pazienti e dalle risorse cliniche, insieme a risposte accuratamente curate dagli esperti, Zebra-Llama dimostra capacità senza precedenti nel gestire le richieste correlate all'EDS. Su un set di test di domande del mondo reale raccolte da pazienti affetti da EDS e da clinici, esperti medici hanno valutato le risposte generate da entrambi i modelli, rivelando i notevoli miglioramenti di Zebra-Llama rispetto al modello base (Llama 3.1-8B-Instruct) in completezza (77,5% vs. 70,1%), accuratezza (83,0% vs. 78,8%), chiarezza (74,7% vs. 72,0%) e affidabilità delle citazioni (70,6% vs. 52,3%). Rilasciato come risorsa open-source, Zebra-Llama non solo fornisce informazioni sull'EDS più accessibili e affidabili, ma stabilisce anche un quadro per lo sviluppo di soluzioni AI specializzate per altre condizioni rare. Questo lavoro rappresenta un passo cruciale verso la democratizzazione della conoscenza di livello esperto nella gestione delle malattie rare, potenzialmente trasformando il modo in cui i fornitori di assistenza sanitaria e i pazienti navigano nel complesso panorama delle malattie rare.
Man mano che le tecniche di rilevamento degli oggetti continuano a evolversi, comprendere le loro relazioni con compiti visivi complementari diventa cruciale per ottimizzare le architetture dei modelli e le risorse computazionali. Questo articolo indaga sulle correlazioni tra l'accuratezza del rilevamento degli oggetti e due compiti visivi fondamentali: la previsione della profondità e la previsione della salienza visiva. Attraverso esperimenti esaustivi utilizzando modelli all'avanguardia (DeepGaze IIE, Depth Anything, DPT-Large e il modello di Itti) sui dataset COCO e Pascal VOC, scopriamo che la salienza visiva mostra correlazioni costantemente più forti con l'accuratezza del rilevamento degli oggetti (mArho fino a 0,459 su Pascal VOC) rispetto alla previsione della profondità (mArho fino a 0,283). La nostra analisi rivela variazioni significative in queste correlazioni tra le categorie di oggetti, con gli oggetti più grandi che mostrano valori di correlazione fino a tre volte più alti rispetto agli oggetti più piccoli. Queste scoperte suggeriscono che incorporare le caratteristiche della salienza visiva nelle architetture di rilevamento degli oggetti potrebbe essere più vantaggioso rispetto alle informazioni sulla profondità, in particolare per specifiche categorie di oggetti. Le variazioni osservate specifiche per categoria forniscono anche spunti per un'ingegneria delle caratteristiche mirata e miglioramenti nella progettazione dei dataset, potenzialmente portando a sistemi di rilevamento degli oggetti più efficienti e precisi.