Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le informazioni strutturali sono cruciali per comprendere la semantica delle immagini ricche di testo, come documenti, tabelle e grafici. Gli attuali Modelli Multimodali di Linguaggio di Grande Dimensione (MLLMs) per la Comprensione Visiva dei Documenti sono dotati di capacità di riconoscimento del testo, ma mancano di abilità generali di comprensione strutturale per le immagini di documenti ricchi di testo. In questo lavoro, sottolineiamo l'importanza delle informazioni strutturali nella Comprensione Visiva dei Documenti e proponiamo l'Apprendimento Strutturale Unificato per migliorare le prestazioni degli MLLMs. Il nostro Apprendimento Strutturale Unificato comprende attività di parsing consapevole della struttura e attività di localizzazione del testo a più livelli attraverso 5 domini: documento, pagina web, tabella, grafico e immagine naturale. Per codificare meglio le informazioni strutturali, progettiamo un modulo vision-to-text semplice ed efficace chiamato H-Reducer, che non solo mantiene le informazioni di layout, ma riduce anche la lunghezza delle caratteristiche visive unendo patch orizzontalmente adiacenti attraverso la convoluzione, consentendo al LLM di comprendere immagini ad alta risoluzione in modo più efficiente. Inoltre, costruendo sequenze di testo consapevoli della struttura e coppie di testi e bounding box a più livelli per immagini ricche di testo disponibili pubblicamente, creiamo un set di training completo chiamato DocStruct4M per supportare l'apprendimento strutturale. Infine, costruiamo un piccolo ma di alta qualità dataset di tuning per il ragionamento chiamato DocReason25K per attivare la capacità di spiegazione dettagliata nel dominio dei documenti. Il nostro modello DocOwl 1.5 raggiunge prestazioni all'avanguardia su 10 benchmark di comprensione visiva dei documenti, migliorando le prestazioni SOTA degli MLLMs con un LLM da 7B di oltre 10 punti in 5/10 benchmark. I nostri codici, modelli e dataset sono disponibili pubblicamente su https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Questo articolo si concentra sulla compressione agnostica dei prompt per migliorare la generalizzabilità e l'efficienza. Considerando la ridondanza nel linguaggio naturale, gli approcci esistenti comprimono i prompt rimuovendo token o unità lessicali in base alla loro entropia informativa ottenuta da un modello linguistico causale come LLaMa-7B. La sfida è che l'entropia informativa potrebbe essere una metrica di compressione subottimale: (i) sfrutta solo il contesto unidirezionale e potrebbe non catturare tutte le informazioni essenziali necessarie per la compressione dei prompt; (ii) non è allineata con l'obiettivo della compressione dei prompt. Per affrontare questi problemi, proponiamo una procedura di distillazione dei dati per derivare conoscenza da un LLM per comprimere i prompt senza perdere informazioni cruciali e, nel frattempo, introduciamo un dataset di compressione testuale estrattivo. Formuliamo la compressione dei prompt come un problema di classificazione dei token per garantire la fedeltà del prompt compresso rispetto a quello originale e utilizziamo un encoder Transformer come architettura di base per catturare tutte le informazioni essenziali per la compressione dei prompt dal contesto bidirezionale completo. Il nostro approccio riduce la latenza apprendendo esplicitamente l'obiettivo di compressione con modelli più piccoli come XLM-RoBERTa-large e mBERT. Valutiamo il nostro metodo su dataset sia in dominio che fuori dominio, inclusi MeetingBank, LongBench, ZeroScrolls, GSM8K e BBH. Nonostante le sue dimensioni ridotte, il nostro modello mostra significativi miglioramenti delle prestazioni rispetto ai baseline forti e dimostra una robusta capacità di generalizzazione su diversi LLM. Inoltre, il nostro modello è 3x-6x più veloce rispetto ai metodi esistenti di compressione dei prompt, accelerando la latenza end-to-end di 1.6x-2.9x con rapporti di compressione di 2x-5x.
Trasformare testi non strutturati in forme strutturate e significative, organizzate secondo etichette di categoria utili, rappresenta un passaggio fondamentale nel text mining per analisi e applicazioni successive. Tuttavia, la maggior parte dei metodi esistenti per produrre tassonomie di etichette e costruire classificatori basati su testo si basa ancora pesantemente sull'esperienza di dominio e sulla curatela manuale, rendendo il processo costoso e dispendioso in termini di tempo. Ciò è particolarmente impegnativo quando lo spazio delle etichette è sottospecificato e non sono disponibili annotazioni di dati su larga scala. In questo articolo, affrontiamo queste sfide utilizzando i Large Language Models (LLM), la cui interfaccia basata su prompt facilita l'induzione e l'uso di pseudo-etichette su larga scala. Proponiamo TnT-LLM, un framework in due fasi che impiega LLM per automatizzare il processo di generazione e assegnazione end-to-end delle etichette con uno sforzo umano minimo per qualsiasi caso d'uso specifico. Nella prima fase, introduciamo un approccio zero-shot a ragionamento multi-stadio che consente ai LLM di produrre e affinare iterativamente una tassonomia di etichette. Nella seconda fase, i LLM vengono utilizzati come etichettatori di dati che generano campioni di addestramento, permettendo così di costruire, distribuire e utilizzare in modo affidabile classificatori supervisionati leggeri su larga scala. Applichiamo TnT-LLM all'analisi dell'intento dell'utente e del dominio conversazionale per Bing Copilot (precedentemente Bing Chat), un motore di ricerca chat-based a dominio aperto. Esperimenti estensivi che utilizzano sia metriche di valutazione umane che automatiche dimostrano che TnT-LLM genera tassonomie di etichette più accurate e rilevanti rispetto ai migliori baseline esistenti, raggiungendo un equilibrio favorevole tra accuratezza ed efficienza per la classificazione su larga scala. Condividiamo inoltre le nostre esperienze pratiche e le intuizioni sulle sfide e le opportunità dell'utilizzo dei LLM per il text mining su larga scala in applicazioni reali.
I modelli linguistici di grandi dimensioni (LLM) open-source hanno ottenuto un grande successo in vari compiti di NLP, tuttavia, sono ancora molto inferiori ai modelli basati su API quando agiscono come agenti. Come integrare le capacità di agente nei LLM generali diventa un problema cruciale e urgente. Questo articolo presenta innanzitutto tre osservazioni chiave: (1) il corpus di addestramento per agenti attuale è intrecciato sia con il seguire formati che con il ragionamento da agente, il che si discosta significativamente dalla distribuzione dei dati di pre-addestramento; (2) i LLM mostrano velocità di apprendimento diverse per le capacità richieste dai compiti di agente; e (3) gli approcci attuali hanno effetti collaterali quando migliorano le capacità di agente, introducendo allucinazioni. Sulla base di queste scoperte, proponiamo Agent-FLAN per effettuare un fine-tuning efficace dei modelli linguistici per agenti. Attraverso un'attenta scomposizione e riprogettazione del corpus di addestramento, Agent-FLAN consente a Llama2-7B di superare i migliori lavori precedenti del 3,5% su vari dataset di valutazione per agenti. Con campioni negativi costruiti in modo completo, Agent-FLAN allevia notevolmente i problemi di allucinazione basandosi sul nostro benchmark di valutazione stabilito. Inoltre, migliora costantemente la capacità di agente dei LLM quando si scala la dimensione dei modelli, migliorando leggermente anche le capacità generali dei LLM. Il codice sarà disponibile su https://github.com/InternLM/Agent-FLAN.
Presentiamo AnimateDiff-Lightning per la generazione di video estremamente veloce. Il nostro modello utilizza la distillazione diffusa avversaria progressiva per raggiungere nuovi risultati all'avanguardia nella generazione di video con pochi passaggi. Discutiamo le nostre modifiche per adattarlo alla modalità video. Inoltre, proponiamo di distillare simultaneamente il flusso di probabilità di più modelli di diffusione di base, ottenendo un singolo modulo di movimento distillato con una maggiore compatibilità stilistica. Siamo lieti di rilasciare il nostro modello distillato AnimateDiff-Lightning per l'uso della comunità.
Mentre i sistemi robotici su larga scala si affidano tipicamente a istruzioni testuali per eseguire compiti, questo lavoro esplora un approccio diverso: i robot possono dedurre il compito direttamente osservando gli esseri umani? Questo cambiamento richiede che il robot sia in grado di decodificare l'intenzione umana e tradurla in azioni eseguibili, tenendo conto dei suoi vincoli fisici e dell'ambiente circostante. Introduciamo Vid2Robot, un innovativo framework di apprendimento end-to-end basato su video per robot. Dato un video dimostrativo di un compito di manipolazione e le osservazioni visive attuali, Vid2Robot produce direttamente le azioni del robot. Ciò è reso possibile attraverso un modello di rappresentazione unificato addestrato su un ampio dataset di video umani e traiettorie robotiche. Il modello sfrutta meccanismi di cross-attention per fondere le caratteristiche del video di prompt con lo stato attuale del robot e generare azioni appropriate che imitano il compito osservato. Per migliorare ulteriormente le prestazioni della policy, proponiamo perdite contrastive ausiliarie che migliorano l'allineamento tra le rappresentazioni video umane e robotiche. Valutiamo Vid2Robot su robot reali, dimostrando un miglioramento del 20% nelle prestazioni rispetto ad altre policy condizionate da video quando si utilizzano video dimostrativi umani. Inoltre, il nostro modello mostra capacità emergenti, come il trasferimento con successo di movimenti osservati da un oggetto a un altro e la composizione a lungo termine, evidenziando così il suo potenziale per applicazioni nel mondo reale. Sito del progetto: vid2robot.github.io
I modelli visione-linguaggio (VLMs) stanno raggiungendo prestazioni sempre più elevate nei compiti multimodali. Tuttavia, le capacità di ragionamento rimangono limitate, specialmente per i VLMs più piccoli, mentre quelle dei modelli linguistici di grandi dimensioni (LLMs) hanno visto numerosi miglioramenti. Proponiamo una tecnica per trasferire le capacità dagli LLMs ai VLMs. Sul recentemente introdotto ChartQA, il nostro metodo ottiene prestazioni all'avanguardia quando applicato al VLM PaLI3-5B di chen2023pali3, consentendo anche prestazioni molto migliori su PlotQA e FigureQA. In primo luogo, miglioriamo la rappresentazione dei grafici continuando la fase di pre-addestramento utilizzando una versione migliorata del compito di traduzione da grafico a tabella di liu2023deplot. Proponiamo poi di costruire un dataset 20 volte più grande rispetto al set di addestramento originale. Per migliorare le capacità di ragionamento generale e le operazioni numeriche, sintetizziamo tracce di ragionamento utilizzando la rappresentazione tabellare dei grafici. Infine, il nostro modello viene messo a punto utilizzando la funzione di perdita multitask introdotta da hsieh2023distilling. La nostra variante ChartPaLI-5B supera anche modelli 10 volte più grandi come PaLIX-55B senza utilizzare un sistema OCR a monte, mantenendo costante il tempo di inferenza rispetto alla baseline PaLI3-5B. Quando le motivazioni vengono ulteriormente raffinate con un semplice prompt di programma-di-pensiero chen2023program, il nostro modello supera i recentemente introdotti Gemini Ultra e GPT-4V.
La creazione di campi 4D di Gaussian Splatting a partire da immagini o video è un compito impegnativo a causa della sua natura sottodeterminata. Sebbene l'ottimizzazione possa attingere a riferimenti fotometrici dai video di input o essere regolata da modelli generativi, la supervisione diretta dei movimenti gaussiani rimane poco esplorata. In questo articolo, introduciamo un nuovo concetto, il flusso gaussiano, che collega la dinamica delle gaussiane 3D e le velocità dei pixel tra frame consecutivi. Il flusso gaussiano può essere ottenuto in modo efficiente proiettando la dinamica gaussiana nello spazio dell'immagine. Questo processo differenziabile consente una supervisione dinamica diretta dal flusso ottico. Il nostro metodo apporta significativi benefici alla generazione di contenuti dinamici 4D e alla sintesi di nuove viste 4D con Gaussian Splatting, specialmente per contenuti con movimenti complessi che sono difficili da gestire con i metodi esistenti. Il comune problema di deriva del colore che si verifica nella generazione 4D viene anche risolto con una dinamica gaussiana migliorata. La qualità visiva superiore in esperimenti estesi dimostra l'efficacia del nostro metodo. Valutazioni quantitative e qualitative mostrano che il nostro metodo raggiunge risultati all'avanguardia in entrambi i compiti di generazione 4D e sintesi di nuove viste 4D. Pagina del progetto: https://zerg-overmind.github.io/GaussianFlow.github.io/
La generazione di asset 3D di alta qualità a partire da una determinata immagine è altamente desiderabile in varie applicazioni come AR/VR. I recenti progressi nella generazione 3D da singola immagine esplorano modelli feed-forward che imparano a dedurre il modello 3D di un oggetto senza ottimizzazione. Sebbene siano stati ottenuti risultati promettenti nella generazione di singoli oggetti, questi metodi spesso faticano a modellare asset 3D complessi che contengono intrinsecamente più oggetti. In questo lavoro, presentiamo ComboVerse, un framework di generazione 3D che produce asset 3D di alta qualità con composizioni complesse imparando a combinare più modelli. 1) Iniziamo eseguendo un'analisi approfondita di questo "divario multi-oggetto" sia dal punto di vista del modello che dei dati. 2) Successivamente, con modelli 3D ricostruiti di oggetti diversi, cerchiamo di regolarne le dimensioni, gli angoli di rotazione e le posizioni per creare un asset 3D che corrisponda all'immagine data. 3) Per automatizzare questo processo, applichiamo il campionamento di distillazione del punteggio spazialmente consapevole (SSDS) da modelli di diffusione pre-addestrati per guidare il posizionamento degli oggetti. Il nostro framework proposto enfatizza l'allineamento spaziale degli oggetti, rispetto al campionamento di distillazione del punteggio standard, ottenendo così risultati più accurati. Esperimenti estensivi convalidano che ComboVerse raggiunge miglioramenti significativi rispetto ai metodi esistenti nella generazione di asset 3D composizionali.
La straordinaria efficacia dei modelli di diffusione testo-immagine ha motivato un'ampia esplorazione del loro potenziale applicativo nei domini video. I metodi zero-shot mirano a estendere i modelli di diffusione per immagini ai video senza necessitare di addestramento del modello. I metodi recenti si concentrano principalmente sull'incorporazione della corrispondenza inter-fotogramma nei meccanismi di attenzione. Tuttavia, il vincolo morbido imposto nel determinare dove focalizzare l'attenzione per individuare caratteristiche valide può talvolta rivelarsi insufficiente, portando a incoerenze temporali. In questo articolo, introduciamo FRESCO, che combina la corrispondenza intra-fotogramma con quella inter-fotogramma per stabilire un vincolo spazio-temporale più robusto. Questo miglioramento garantisce una trasformazione più coerente di contenuti semanticamente simili tra i fotogrammi. Oltre alla semplice guida dell'attenzione, il nostro approccio prevede un aggiornamento esplicito delle caratteristiche per ottenere un'elevata coerenza spazio-temporale con il video di input, migliorando significativamente la coerenza visiva dei video tradotti risultanti. Esperimenti estensivi dimostrano l'efficacia del nostro framework proposto nella produzione di video di alta qualità e coerenti, segnando un miglioramento significativo rispetto ai metodi zero-shot esistenti.
In questo studio, approfondiamo la generazione di immagini ad alta risoluzione da modelli di diffusione pre-addestrati, affrontando sfide persistenti, come pattern ripetitivi e distorsioni strutturali, che emergono quando i modelli vengono applicati oltre le risoluzioni per cui sono stati addestrati. Per risolvere questo problema, introduciamo un approccio innovativo e senza addestramento, chiamato FouriScale, basato sull'analisi nel dominio della frequenza. Sostituiamo i livelli convoluzionali originali nei modelli di diffusione pre-addestrati incorporando una tecnica di dilatazione insieme a un'operazione di filtraggio passa-basso, con l'obiettivo di ottenere rispettivamente coerenza strutturale e coerenza di scala tra le diverse risoluzioni. Ulteriormente migliorato da una strategia di padding seguito da ritaglio, il nostro metodo può gestire in modo flessibile la generazione di immagini da testo con vari rapporti d'aspetto. Utilizzando FouriScale come guida, il nostro metodo bilancia con successo l'integrità strutturale e la fedeltà delle immagini generate, raggiungendo una capacità sorprendente di generazione di immagini ad alta risoluzione e di alta qualità di dimensioni arbitrarie. Grazie alla sua semplicità e compatibilità, il nostro metodo può fornire spunti preziosi per future esplorazioni nella sintesi di immagini a risoluzione ultra-elevata. Il codice sarà rilasciato su https://github.com/LeonHLJ/FouriScale.
La texturizzazione di esseri umani 3D con mappe UV semantiche rimane una sfida a causa della difficoltà di acquisire mappe UV ragionevolmente dispiegate. Nonostante i recenti progressi nel campo del testo-a-3D, che supervisionano rendering multi-vista utilizzando grandi modelli di testo-a-immagine (T2I), persistono problemi legati alla velocità di generazione, alla coerenza del testo e alla qualità delle texture, risultando in una scarsità di dati tra i dataset esistenti. Presentiamo TexDreamer, il primo modello di generazione di texture 3D ad alta fedeltà per esseri umani, multimodale e zero-shot. Utilizzando una strategia efficiente di adattamento fine-tuning delle texture, adattiamo un grande modello T2I a una struttura UV semantica preservando la sua capacità di generalizzazione originale. Sfruttando un modulo innovativo di traduzione delle feature, il modello addestrato è in grado di generare texture 3D ad alta fedeltà per esseri umani partendo da testo o immagini in pochi secondi. Inoltre, introduciamo ArTicuLated humAn textureS (ATLAS), il più grande dataset di texture 3D ad alta risoluzione (1024 X 1024) per esseri umani, che contiene 50k texture ad alta fedeltà con descrizioni testuali.
Negli ultimi anni, lo splatting con Gaussiane 3D è emerso come una tecnica potente per la ricostruzione e la generazione 3D, nota per le sue capacità di rendering rapido e di alta qualità. Per affrontare queste limitazioni, questo articolo introduce un nuovo framework basato sulla diffusione, GVGEN, progettato per generare in modo efficiente rappresentazioni di Gaussiane 3D a partire da input testuali. Proponiamo due tecniche innovative: (1) Rappresentazione Volumetrica Strutturata. Inizialmente organizziamo punti di Gaussiane 3D disorganizzati in una forma strutturata chiamata GaussianVolume. Questa trasformazione consente di catturare dettagli intricati della texture all'interno di un volume composto da un numero fisso di Gaussiane. Per ottimizzare meglio la rappresentazione di questi dettagli, proponiamo un metodo unico di potatura e densificazione denominato Strategia del Pool di Candidati, che migliora la fedeltà dei dettagli attraverso un'ottimizzazione selettiva. (2) Pipeline di Generazione da Grossolana a Fine. Per semplificare la generazione di GaussianVolume e consentire al modello di generare istanze con geometria 3D dettagliata, proponiamo una pipeline da grossolana a fine. Questa inizialmente costruisce una struttura geometrica di base, seguita dalla previsione degli attributi completi delle Gaussiane. Il nostro framework, GVGEN, dimostra prestazioni superiori nelle valutazioni qualitative e quantitative rispetto ai metodi esistenti di generazione 3D. Allo stesso tempo, mantiene una velocità di generazione rapida (circa 7 secondi), bilanciando efficacemente qualità ed efficienza.