Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo presenta un'esaminazione critica degli approcci attuali per replicare le capacità del modello O1 di OpenAI, con particolare attenzione sull'ampio ma spesso non dichiarato utilizzo delle tecniche di distillazione della conoscenza. Mentre il nostro lavoro precedente ha esplorato il percorso tecnico fondamentale per replicare O1, questo studio rivela come una semplice distillazione dall'API di O1, combinata con il fine-tuning supervisionato, possa raggiungere prestazioni superiori su compiti complessi di ragionamento matematico. Attraverso estesi esperimenti, mostriamo che un modello di base sintonizzato su semplicemente decine di migliaia di campioni distillati da O1 supera le prestazioni di O1-preview nell'American Invitational Mathematics Examination (AIME) con una complessità tecnica minima. Inoltre, la nostra indagine si estende oltre il ragionamento matematico per esplorare le capacità di generalizzazione dei modelli distillati da O1 su diversi compiti: allucinazione, sicurezza e domande aperte di dominio generale. In particolare, nonostante l'allenamento solo su dati di risoluzione di problemi matematici, i nostri modelli hanno dimostrato una forte capacità di generalizzazione su compiti di domande aperte e sono diventati significativamente meno suscettibili alla lusinga dopo il fine-tuning. Rendiamo deliberatamente pubblica questa scoperta per promuovere la trasparenza nella ricerca sull'IA e per sfidare l'attuale tendenza delle affermazioni tecniche oscure nel settore. Il nostro lavoro include: (1) Una dettagliata esposizione tecnica del processo di distillazione e della sua efficacia, (2) Un ampio framework di benchmark per valutare e categorizzare i tentativi di replicazione di O1 in base alla trasparenza tecnica e alla riproducibilità, (3) Una discussione critica dei limiti e dei potenziali rischi di fare troppo affidamento sugli approcci di distillazione, la nostra analisi culmina in una lezione amara cruciale: mentre è importante perseguire sistemi di intelligenza artificiale più capaci, lo sviluppo di ricercatori radicati nel pensiero dei primi principi è fondamentale.
Valutazione e analisi sono da tempo sfide critiche nell'intelligenza artificiale (AI) e nell'elaborazione del linguaggio naturale (NLP). Tuttavia, i metodi tradizionali, che siano basati su corrispondenza o su embedding, spesso non riescono a valutare attributi sottili e a fornire risultati soddisfacenti. I recenti progressi nei Grandi Modelli Linguistici (LLM) ispirano il paradigma "LLM-come-giudice", dove i LLM sono impiegati per eseguire valutazioni, classificazioni o selezioni in varie attività e applicazioni. Questo articolo fornisce un'esaustiva panoramica sulla valutazione e giudizio basati su LLM, offrendo una visione approfondita per far progredire questo campo emergente. Iniziamo fornendo definizioni dettagliate da prospettive sia di input che di output. Successivamente introduciamo una tassonomia completa per esplorare il concetto di LLM-come-giudice da tre dimensioni: cosa giudicare, come giudicare e dove giudicare. Infine, raccogliamo benchmark per valutare il LLM-come-giudice e evidenziamo le sfide principali e le direzioni promettenti, con l'obiettivo di offrire preziose intuizioni e ispirare futuri studi in questa promettente area di ricerca. La lista degli articoli e ulteriori risorse su LLM-come-giudice sono disponibili su https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge e https://llm-as-a-judge.github.io.
Presentiamo Material Anything, un framework di diffusione unificato completamente automatizzato progettato per generare materiali basati sulla fisica per oggetti 3D. A differenza dei metodi esistenti che si basano su pipeline complesse o ottimizzazioni specifiche per casi, Material Anything offre una soluzione robusta e completa adattabile a oggetti in diverse condizioni di illuminazione. Il nostro approccio sfrutta un modello di diffusione di immagini preaddestrato, potenziato con un'architettura a tre teste e una perdita di rendering per migliorare la stabilità e la qualità del materiale. Inoltre, introduciamo maschere di confidenza come commutatore dinamico all'interno del modello di diffusione, consentendogli di gestire efficacemente oggetti con texture e senza texture in condizioni di illuminazione variabili. Applicando una strategia progressiva di generazione di materiali guidata da queste maschere di confidenza, insieme a un raffinatore di materiali nello spazio UV, il nostro metodo garantisce output di materiali coerenti e pronti per UV. Estesi esperimenti dimostrano che il nostro approccio supera i metodi esistenti in una vasta gamma di categorie di oggetti e condizioni di illuminazione.
Nonostante significativi progressi nell'intelligenza artificiale generale, come GPT-4, la loro efficacia nel dominio medico (intelligenza artificiale medica generale, GMAI) rimane limitata a causa dell'assenza di conoscenze mediche specializzate. Per affrontare questa sfida, presentiamo GMAI-VL-5.5M, un ampio dataset medico multimodale creato convertendo centinaia di dataset medici specializzati in coppie immagine-testo attentamente costruite. Questo dataset offre una copertura completa delle attività, diverse modalità e dati immagine-testo di alta qualità. Basandoci su questo dataset multimodale, proponiamo GMAI-VL, un modello di visione-linguaggio medico generale con una strategia di addestramento progressivo a tre fasi. Questo approccio migliora significativamente le capacità del modello integrando informazioni visive e testuali, migliorando così la sua capacità di elaborare dati multimodali e supportare diagnosi accurate e decisioni cliniche. Valutazioni sperimentali dimostrano che GMAI-VL raggiunge risultati all'avanguardia in una vasta gamma di attività mediche multimodali, come risposte a domande visive e diagnosi di immagini mediche. I nostri contributi includono lo sviluppo del dataset GMAI-VL-5.5M, l'introduzione del modello GMAI-VL e l'istituzione di nuovi benchmark in diversi domini medici. Il codice e il dataset saranno rilasciati su https://github.com/uni-medical/GMAI-VL.
La generazione di immagini guidata dal soggetto mira a produrre immagini di un nuovo soggetto all'interno di un contesto desiderato catturando accuratamente sia le caratteristiche visive del soggetto che il contenuto semantico di un prompt di testo. I metodi tradizionali si basano sull'ottimizzazione fine, che richiede tempo e risorse, per l'allineamento del soggetto, mentre gli approcci recenti zero-shot sfruttano la generazione di immagini al volo, spesso sacrificando l'allineamento del soggetto. In questo articolo, presentiamo Diptych Prompting, un nuovo approccio zero-shot che interpreta il compito come un'operazione di inpainting con preciso allineamento del soggetto sfruttando la proprietà emergente della generazione di diptici nei modelli di generazione di testo-immagine su larga scala. Diptych Prompting dispone un diptico incompleto con l'immagine di riferimento nel pannello sinistro e esegue l'inpainting condizionato al testo nel pannello destro. Inoltre, evitiamo la fuoriuscita di contenuti indesiderati rimuovendo lo sfondo nell'immagine di riferimento e miglioriamo i dettagli fini nel soggetto generato potenziando i pesi di attenzione tra i pannelli durante l'inpainting. I risultati sperimentali confermano che il nostro approccio supera significativamente i metodi di generazione di immagini zero-shot, producendo immagini preferite visivamente dagli utenti. Inoltre, il nostro metodo supporta non solo la generazione guidata dal soggetto, ma anche la generazione di immagini stilizzate e la modifica di immagini guidata dal soggetto, dimostrando versatilità in diverse applicazioni di generazione di immagini. Pagina del progetto: https://diptychprompting.github.io/
Qui presentiamo i risultati del secondo Hackathon del Grande Modello Linguistico (LLM) per Applicazioni in Scienza dei Materiali e Chimica, che ha coinvolto partecipanti in diverse sedi ibride globali, portando a 34 proposte di squadra. Le proposte hanno coperto sette aree applicative chiave e hanno dimostrato l'ampia utilità dei LLM per applicazioni in (1) previsione di proprietà molecolari e materiali; (2) progettazione molecolare e dei materiali; (3) automazione e interfacce innovative; (4) comunicazione scientifica e educazione; (5) gestione e automazione dei dati di ricerca; (6) generazione e valutazione di ipotesi; e (7) estrazione di conoscenza e ragionamento dalla letteratura scientifica. Ogni proposta di squadra è presentata in una tabella riassuntiva con collegamenti al codice e brevi articoli nell'allegato. Oltre ai risultati delle squadre, discutiamo dell'evento dell'hackathon e del suo formato ibrido, che includeva sedi fisiche a Toronto, Montreal, San Francisco, Berlino, Losanna e Tokyo, insieme a un'hub online globale per consentire la collaborazione locale e virtuale. Complessivamente, l'evento ha evidenziato significativi miglioramenti nelle capacità dei LLM rispetto all'hackathon dell'anno precedente, suggerendo un continuo ampliamento dei LLM per applicazioni nella ricerca scientifica dei materiali e della chimica. Questi risultati dimostrano la duplice utilità dei LLM come modelli multipurpose per diverse attività di apprendimento automatico e piattaforme per la prototipazione rapida di applicazioni personalizzate nella ricerca scientifica.
Introduciamo OneDiffusion, un modello di diffusione versatile su larga scala che supporta in modo fluido la sintesi e la comprensione bidirezionale delle immagini attraverso diverse attività. Consente la generazione condizionale da input come testo, profondità, posa, layout e mappe semantiche, gestendo anche attività come lo sbiadimento delle immagini, l'ingrandimento e processi inversi come la stima della profondità e la segmentazione. Inoltre, OneDiffusion consente la generazione multi-vista, la stima della posa della fotocamera e la personalizzazione istantanea utilizzando input sequenziali di immagini. Il nostro modello adotta un approccio semplice ma efficace trattando tutte le attività come sequenze di frame con varie scale di rumore durante l'addestramento, consentendo a qualsiasi frame di agire come immagine condizionante al momento dell'inferenza. Il nostro framework unificato di addestramento elimina la necessità di architetture specializzate, supporta l'addestramento multi-attività scalabile e si adatta facilmente a qualsiasi risoluzione, migliorando sia la generalizzazione che la scalabilità. I risultati sperimentali dimostrano prestazioni competitive in varie attività sia di generazione che di previsione come testo-immagine, generazione multi-vista, conservazione dell'ID, stima della profondità e stima della posa della fotocamera nonostante il dataset di addestramento relativamente piccolo. Il nostro codice e il checkpoint sono liberamente disponibili su https://github.com/lehduong/OneDiffusion
Il modello Multi-Head Mixture-of-Experts (MH-MoE) dimostra prestazioni superiori utilizzando il meccanismo multi-head per attentamente considerare le informazioni provenienti da vari spazi di rappresentazione all'interno di differenti esperti. In questo articolo, presentiamo una nuova implementazione di MH-MoE che mantiene sia il numero di operazioni in virgola mobile (FLOPs) che il numero di parametri paragonabile con i modelli sparsi Mixture of Experts. I risultati sperimentali sui modelli linguistici mostrano che la nuova implementazione porta a miglioramenti qualitativi rispetto sia ai modelli MoE standard che ai modelli MoE a grana fine. Inoltre, i nostri esperimenti dimostrano che MH-MoE è compatibile con i Large Language Models (LLM) a 1 bit come BitNet.
La segmentazione interattiva delle immagini mediche (IMIS) è stata a lungo limitata dalla limitata disponibilità di set di dati ampi, diversificati e densamente annotati, che ostacola la generalizzazione dei modelli e la valutazione coerente tra modelli diversi. In questo articolo, presentiamo il dataset di benchmark IMed-361M, un significativo avanzamento nella ricerca generale di IMIS. Inizialmente, raccogliamo e standardizziamo oltre 6,4 milioni di immagini mediche e le relative maschere di verità dal terreno da diverse fonti di dati. Successivamente, sfruttando le forti capacità di riconoscimento degli oggetti di un modello fondamentale di visione, generiamo automaticamente maschere interattive dense per ciascuna immagine e ne garantiamo la qualità attraverso un rigoroso controllo qualità e gestione della granularità. A differenza dei dataset precedenti, limitati da specifiche modalità o annotazioni sparse, IMed-361M copre 14 modalità e 204 obiettivi di segmentazione, per un totale di 361 milioni di maschere, con una media di 56 maschere per immagine. Infine, sviluppiamo una rete di base IMIS su questo dataset che supporta la generazione di maschere di alta qualità attraverso input interattivi, inclusi clic, bounding box, prompt di testo e le loro combinazioni. Valutiamo le sue prestazioni su compiti di segmentazione delle immagini mediche da molteplici prospettive, dimostrando un'accuratezza e scalabilità superiori rispetto ai modelli di segmentazione interattiva esistenti. Per agevolare la ricerca sui modelli fondamentali nella visione artificiale medica, rilasciamo IMed-361M e il modello su https://github.com/uni-medical/IMIS-Bench.
La Tomografia Computerizzata (TC) è una delle modalità più popolari per l'imaging medico. Le immagini TC hanno contribuito in modo significativo ai più grandi set di dati disponibili pubblicamente per compiti di segmentazione medica volumetrica, coprendo le strutture anatomiche dell'intero corpo. Grandi quantità di immagini TC a tutto corpo offrono l'opportunità di pre-addestrare modelli potenti, ad esempio STU-Net pre-addestrato in modo supervisionato, per segmentare numerose strutture anatomiche. Tuttavia, rimane poco chiaro in quali condizioni questi modelli pre-addestrati possano essere trasferiti a vari compiti di segmentazione medica successivi, in particolare per la segmentazione di altre modalità e obiettivi diversi. Per affrontare questo problema, è cruciale avere un benchmark su larga scala per una valutazione completa al fine di individuare queste condizioni. Pertanto, abbiamo raccolto 87 set di dati pubblici variabili in termini di modalità, obiettivo e dimensioni campione per valutare la capacità di trasferimento dei modelli pre-addestrati su TC a tutto corpo. Abbiamo quindi impiegato un modello rappresentativo, STU-Net con molteplici scale di modello, per condurre l'apprendimento di trasferimento tra diverse modalità e obiettivi. I nostri risultati sperimentali mostrano che (1) potrebbe esserci un effetto di bottleneck riguardante le dimensioni del set di dati nel fine-tuning, con un miglioramento maggiore sia su set di dati di piccole che di grandi dimensioni rispetto a quelli di dimensioni medie. (2) I modelli pre-addestrati su TC a tutto corpo dimostrano un efficace trasferimento di modalità, adattandosi bene ad altre modalità come la risonanza magnetica (MRI). (3) Il pre-addestramento su TC a tutto corpo non solo supporta una forte performance nella rilevazione delle strutture, ma mostra anche efficacia nella rilevazione delle lesioni, dimostrando adattabilità tra compiti obiettivo. Speriamo che questa valutazione aperta su larga scala dell'apprendimento di trasferimento possa indirizzare la ricerca futura nella segmentazione di immagini mediche volumetriche.
AdamW è stato l'ottimizzatore predefinito per il preaddestramento del transformer. Per molti anni, la nostra comunità ha cercato ottimizzatori più veloci e stabili con risultati positivi limitati. In questo lavoro, proponiamo una modifica in una sola riga in Pytorch a qualsiasi ottimizzatore basato sul momentum, che rinominiamo Ottimizzatore Cautelativo, ad esempio C-AdamW e C-Lion. Il nostro risultato teorico mostra che questa modifica preserva la funzione Hamiltoniana di Adam e non compromette la garanzia di convergenza sotto l'analisi di Lyapunov. Inoltre, la nostra intuizione teorica rivela una nuova famiglia di ottimizzatori. Tra questi, scegliamo il più semplice per esperimenti empirici, mostrando un aumento di velocità nel preaddestramento di Llama e MAE fino a 1,47 volte. Il codice è disponibile su https://github.com/kyleliang919/C-Optim
La generazione di video per il racconto (SVG) è emersa di recente come un compito per creare video lunghi, multi-movimento, multi-scena che rappresentino in modo coerente la storia descritta nello script di testo in input. SVG ha un grande potenziale per la creazione di contenuti diversificati nei media e nell'intrattenimento; tuttavia, presenta anche significativi sfide: (1) gli oggetti devono mostrare una gamma di movimenti complessi e dettagliati, (2) diversi oggetti devono comparire in modo coerente tra le scene e (3) i soggetti possono richiedere molteplici movimenti con transizioni fluide all'interno di una singola scena. Per affrontare queste sfide, proponiamo DreamRunner, un nuovo metodo di generazione di video da storia: Innanzitutto, strutturiamo lo script di input utilizzando un grande modello di linguaggio (LLM) per facilitare sia la pianificazione delle scene a grana grossa che la pianificazione dettagliata a livello di oggetto e movimento. Successivamente, DreamRunner presenta un adattamento al test con recupero potenziato per catturare i priori di movimento desiderati per gli oggetti in ciascuna scena, supportando la personalizzazione del movimento in base ai video recuperati, facilitando così la generazione di nuovi video con movimenti complessi e scriptati. Infine, proponiamo un nuovo modulo di attenzione 3D basato su regioni spazio-temporali e iniezione di priori SR3AI per il vincolo del movimento dettagliato degli oggetti e il controllo semantico frame-by-frame. Confrontiamo DreamRunner con vari baselines di SVG, dimostrando prestazioni all'avanguardia nella coerenza dei personaggi, allineamento del testo e transizioni fluide. Inoltre, DreamRunner mostra una forte capacità di seguire condizioni dettagliate nella generazione compositiva di testo-a-video, superando significativamente i baselines su T2V-ComBench. Infine, convalidiamo la robusta capacità di DreamRunner di generare interazioni multi-oggetto con esempi qualitativi.
I tokenizzatori visivi sono fondamentali per la generazione di immagini. Essi convertono i dati visivi in token discreti, consentendo ai modelli basati su trasformatori di eccellere nella generazione di immagini. Nonostante il loro successo, i tokenizzatori basati su VQ come VQGAN affrontano significative limitazioni dovute alle dimensioni limitate del vocabolario. Espandere semplicemente il codebook spesso porta a instabilità nell'addestramento e a una diminuzione delle prestazioni, rendendo la scalabilità una sfida critica. In questo lavoro, introduciamo la Quantizzazione Fattorizzata (FQ), un approccio innovativo che rivitalizza i tokenizzatori basati su VQ decomponendo un ampio codebook in più sub-codebook indipendenti. Questa fattorizzazione riduce la complessità della ricerca dei grandi codebook, consentendo una tokenizzazione visiva più efficiente e scalabile. Per garantire che ciascun sub-codebook catturi informazioni distinte e complementari, proponiamo una regolarizzazione della disentanglement che riduce esplicitamente la ridondanza, promuovendo la diversità tra i sub-codebook. Inoltre, integriamo l'apprendimento della rappresentazione nel processo di addestramento, sfruttando modelli di visione preaddestrati come CLIP e DINO per infondere ricchezza semantica nelle rappresentazioni apprese. Questo design garantisce che il nostro tokenizer catturi diversi livelli semantici, portando a rappresentazioni più espressive e disentangolate. Gli esperimenti mostrano che il modello proposto FQGAN migliora sostanzialmente la qualità della ricostruzione dei tokenizzatori visivi, raggiungendo prestazioni all'avanguardia. Dimostriamo inoltre che questo tokenizer può essere efficacemente adattato alla generazione di immagini auto-regressiva. https://showlab.github.io/FQGAN
Ipotizziamo che la storia visiva di un utente con immagini che riflettono la sua vita quotidiana offra preziose intuizioni sui suoi interessi e preferenze, e possa essere sfruttata per la personalizzazione. Tra le molte sfide per raggiungere questo obiettivo, la principale è rappresentata dalla diversità e dai rumori nella storia visiva, che contiene immagini non necessariamente correlate a un compito di raccomandazione, non riflettendo necessariamente l'interesse dell'utente, o addirittura non rilevanti per le preferenze. I sistemi di raccomandazione esistenti si basano o sui log di interazione specifici del compito dell'utente, come la storia degli acquisti online per le raccomandazioni di acquisto, o si concentrano sui segnali di testo. Proponiamo un approccio innovativo, VisualLens, che estrae, filtra e affina le rappresentazioni delle immagini, e sfrutta questi segnali per la personalizzazione. Abbiamo creato due nuovi benchmark con storie visive agnostiche rispetto al compito, e dimostriamo che il nostro metodo migliora le raccomandazioni all'avanguardia del 5-10% su Hit@3, e migliora rispetto a GPT-4o del 2-5%. Il nostro approccio apre la strada per raccomandazioni personalizzate in scenari in cui i metodi tradizionali falliscono.
Presentiamo un modo per apprendere concetti nuovi utilizzando esclusivamente la loro descrizione testuale. Chiamiamo questo metodo Trasferimento di Conoscenza. Analogamente alla percezione umana, sfruttiamo l'interazione cross-modale per introdurre nuovi concetti. Ipotizziamo che in un codificatore visivo pre-addestrato ci siano abbastanza caratteristiche a basso livello già apprese (ad es. forma, aspetto, colore) che possono essere utilizzate per descrivere concetti ad alto livello precedentemente sconosciuti. Fornita una descrizione testuale del concetto nuovo, il nostro metodo funziona allineando le caratteristiche a basso livello conosciute del codificatore visivo alla sua descrizione testuale ad alto livello. Dimostriamo che il Trasferimento di Conoscenza può introdurre con successo concetti nuovi in modelli multimodali, in modo molto efficiente, richiedendo solo una singola descrizione del concetto target. Il nostro approccio è compatibile sia con codificatori testuali e visivi separati (ad es. CLIP) sia con parametri condivisi tra le modalità. Mostriamo inoltre che, seguendo lo stesso principio, il Trasferimento di Conoscenza può migliorare i concetti già noti al modello. Sfruttando il Trasferimento di Conoscenza miglioriamo le prestazioni zero-shot su diversi compiti come classificazione, segmentazione, recupero immagine-testo e didascalia.
La transizione dall'architettura x86 a quella ARM sta diventando sempre più comune in vari settori, principalmente guidata dall'efficienza energetica di ARM e dalle prestazioni migliorate in settori tradizionali. Tuttavia, questa transizione dell'ISA presenta significativi sfide, principalmente a causa dell'ampio ecosistema legacy di software x86 e della mancanza di portabilità tra ecosistemi proprietari e stack software. Questo articolo introduce CRT, un trascompiler leggero basato su LLM che converte automaticamente l'assembly x86 in ARM. Il nostro approccio colma il divario architetturale fondamentale tra il CISC di x86 e il RISC di ARM preservando la semantica del programma e ottimizzando le prestazioni. Valutiamo CRT su diverse applicazioni reali, raggiungendo una precisione di traduzione del 79,25% da x86 ad ARMv5 nel nostro completo insieme di test e un'accuratezza dell'88,68% da x86 a RISC-V. Nelle implementazioni pratiche sull'hardware Apple M2 (ARMv8), il nostro codice trascompilato ottiene un aumento di velocità del 1,73 rispetto al motore di virtualizzazione Rosetta 2 di Apple, offrendo anche un'efficienza di memoria 2,41 volte superiore e un consumo energetico migliore del 1,47. Attraverso test e analisi, dimostriamo che CRT naviga con successo tra la divisione CISC/RISC e genera correttamente codice RISC eseguibile nonostante le barriere del "linguaggio" macchina. Rilasciamo il nostro codice, modelli, set di dati di addestramento e benchmark su: https://ahmedheakl.github.io/asm2asm/.
I modelli multimodali di grandi dimensioni (LMMs) esistenti si concentrano generalmente solo su alcune regioni e lingue. Man mano che i LMMs continuano a migliorare, è sempre più importante garantire che essi comprendano i contesti culturali, rispettino le sensibilità locali e supportino le lingue a risorse limitate, il tutto integrando efficacemente i segnali visivi corrispondenti. Nella ricerca di modelli multimodali globali culturalmente diversi, il nostro proposto All Languages Matter Benchmark (ALM-bench) rappresenta il più grande e completo sforzo ad oggi per valutare i LMMs in 100 lingue. ALM-bench sfida i modelli esistenti testando la loro capacità di comprendere e ragionare su immagini culturalmente diverse abbinate a testo in varie lingue, incluse molte lingue a risorse limitate tradizionalmente sotto-rappresentate nella ricerca sui LMMs. Il benchmark offre un quadro di valutazione robusto e sfumato con vari formati di domande, tra cui vero/falso, a scelta multipla e domande aperte, che sono ulteriormente divise in categorie di risposte brevi e lunghe. Il design di ALM-bench garantisce una valutazione completa della capacità di un modello di gestire vari livelli di difficoltà nel ragionamento visivo e linguistico. Per catturare la ricca varietà delle culture globali, ALM-bench cura attentamente i contenuti di 13 aspetti culturali distinti, che vanno dalle tradizioni e rituali alle personalità famose e celebrazioni. Attraverso questo, ALM-bench non solo fornisce un rigoroso campo di prova per i LMMs open e closed-source all'avanguardia, ma evidenzia anche l'importanza dell'inclusività culturale e linguistica, incoraggiando lo sviluppo di modelli che possano servire in modo efficace popolazioni globali diverse. Il nostro benchmark è disponibile pubblicamente.
La generazione e modifica basate su testo di scene 3D hanno un notevole potenziale per ottimizzare la creazione di contenuti attraverso interazioni utente intuitive. Mentre i recenti progressi sfruttano lo Splatting Gaussiano 3D (3DGS) per rendering ad alta fedeltà e in tempo reale, i metodi esistenti sono spesso specializzati e focalizzati su compiti specifici, mancando di un quadro unificato per generazione e modifica. In questo articolo, presentiamo SplatFlow, un framework completo che affronta questa lacuna consentendo la generazione e la modifica dirette tramite 3DGS. SplatFlow è composto da due componenti principali: un modello di flusso rettificato multi-vista (RF) e un Decodificatore di Splatting Gaussiano (GSDecoder). Il modello RF multi-vista opera nello spazio latente, generando immagini multi-vista, profondità e posizioni della fotocamera simultaneamente, condizionate a prompt di testo, affrontando così sfide come diverse scale di scene e complesse traiettorie della fotocamera in contesti reali. Successivamente, il GSDecoder traduce efficientemente queste uscite latenti in rappresentazioni 3DGS attraverso un metodo 3DGS feed-forward. Sfruttando tecniche di inversione e inpainting senza addestramento, SplatFlow consente una modifica 3DGS senza soluzione di continuità e supporta una vasta gamma di compiti 3D, tra cui modifica degli oggetti, sintesi di nuove visuali e stima della posa della fotocamera, all'interno di un framework unificato senza richiedere pipeline complesse aggiuntive. Confermiamo le capacità di SplatFlow sui set di dati MVImgNet e DL3DV-7K, dimostrandone la versatilità e l'efficacia in vari compiti di generazione 3D, modifica e inpainting.
È ben noto che la Catena di Pensiero può notevolmente migliorare le prestazioni dei LLM su compiti complessi. Tuttavia, poiché introduce anche velocità di inferenza più lente e costi computazionali più elevati, molti ricercatori hanno cercato di utilizzare la CoT implicita, che non richiede ai LLM di generare esplicitamente i passaggi intermedi. Tuttavia, esiste ancora un divario tra la loro efficacia e i tipici metodi espliciti di CoT. Ciò ci porta a dubitare se la CoT implicita sia davvero equivalente alla CoT esplicita. Pertanto, in questo studio, affrontiamo questa questione attraverso esperimenti. Esaminiamo le informazioni dei passaggi intermedi dagli stati nascosti del modello quando esegue la CoT implicita. I risultati indicano sorprendentemente che i LLM pensano a malapena ai passaggi intermedi, suggerendo che potrebbero fare affidamento sull'esperienza piuttosto che su un ragionamento rigoroso passo dopo passo. Inoltre, scopriamo che le capacità di ragionamento implicito dei LLM sono suscettibili e instabili, confermando la necessità di una CoT esplicita per supportare efficacemente compiti complessi.
Una sfida aperta fondamentale nello scaling moderno dei LLM è la mancanza di comprensione delle capacità emergenti. In particolare, si sa che la perdita di preaddestramento del modello linguistico è altamente prevedibile come funzione del calcolo. Tuttavia, le capacità derivate sono molto meno prevedibili - a volte mostrano addirittura salti emergenti - il che rende difficile anticipare le capacità dei modelli futuri. In questo lavoro, poniamo innanzitutto il compito della previsione dell'emergenza: avendo accesso ai LLM attuali che hanno un'accuratezza casuale a pochi colpi su un compito, possiamo prevedere se i futuri modelli (GPT-N+1) avranno un'accuratezza non banale su quel compito? Successivamente scopriamo un'intuizione semplice per questo problema: il raffinamento dei LLM su un determinato compito può spostare il punto in cui si verifica l'emergenza verso modelli meno capaci. Per operazionalizzare questa intuizione, possiamo raffinare i LLM con varie quantità di dati e adattare una funzione parametrica che prevede quando si verificherà l'emergenza (ossia, "leggi dell'emergenza"). Convalidiamo questo approccio utilizzando quattro benchmark standard di NLP in cui i LLM open-source su larga scala dimostrano già l'emergenza (MMLU, GSM8K, CommonsenseQA e CoLA). Utilizzando solo LLM su piccola scala, scopriamo che, in alcuni casi, possiamo prevedere con precisione se i modelli addestrati con fino a 4 volte più calcolo sono emersi. Infine, presentiamo uno studio di caso di due utilizzi realistici per la previsione dell'emergenza.
I moderni modelli sequenziali (ad esempio, i Transformers, le RNN lineari, ecc.) sono emersi come colonne portanti predominanti nei recenti framework di apprendimento profondo, principalmente grazie alla loro efficienza, potenza rappresentativa e/o capacità di catturare dipendenze a lungo raggio. L'adozione di questi modelli sequenziali per dati strutturati a grafo ha recentemente guadagnato popolarità come alternativa alle Reti Neurali a Passaggio di Messaggi (MPNNs). Tuttavia, manca una base comune su cosa costituisca un buon modello sequenziale a grafo e una descrizione matematica dei vantaggi e dei difetti nell'adozione di diversi modelli sequenziali per l'apprendimento su grafi. A questo scopo, presentiamo innanzitutto il Modello Sequenziale a Grafo (GSM), un framework unificante per l'adozione di modelli sequenziali per grafi, composto da tre passaggi principali: (1) Tokenizzazione, che traduce il grafo in un insieme di sequenze; (2) Codifica Locale, che codifica i vicini locali attorno a ciascun nodo; e (3) Codifica Globale, che impiega un modello sequenziale scalabile per catturare dipendenze a lungo raggio all'interno delle sequenze. Questo framework ci consente di comprendere, valutare e confrontare la potenza delle diverse colonne portanti dei modelli sequenziali nelle attività sui grafi. Le nostre valutazioni teoriche della potenza di rappresentazione dei Transformers e dei moderni modelli ricorrenti attraverso il prisma delle attività globali e locali sui grafi mostrano che ci sono aspetti negativi e positivi per entrambi i tipi di modelli. Sulla base di questa osservazione, presentiamo GSM++, un modello ibrido veloce che utilizza l'algoritmo di Clustering di Affinità Gerarchica (HAC) per tokenizzare il grafo in sequenze gerarchiche, e poi impiega un'architettura ibrida di Transformer per codificare queste sequenze. I nostri risultati teorici e sperimentali supportano il design di GSM++, mostrando che GSM++ supera i modelli di riferimento nella maggior parte delle valutazioni di benchmark.
Questa ricerca introduce un nuovo quadro di valutazione progettato per valutare la capacità dei grandi modelli linguistici (LLM) di riconoscere l'incertezza su 675 problemi fondamentalmente insolubili. Utilizzando un dataset curato di domande sfide di livello universitario con risposte intenzionalmente ignote, abbiamo valutato dodici LLM all'avanguardia, inclusi modelli open source e closed source, sulla propensione a ammettere l'ignoranza piuttosto che generare risposte plausibili ma errate. I migliori modelli hanno ottenuto punteggi nell'intervallo di accuratezza del 62-68% nel riconoscere che la soluzione del problema era sconosciuta in campi che vanno dalla biologia alla filosofia e alla matematica. Abbiamo osservato una relazione inversa tra la difficoltà del problema e l'accuratezza del modello, con il GPT-4 che ha dimostrato tassi più elevati di riconoscimento dell'incertezza su problemi più impegnativi (35,8%) rispetto a quelli più semplici (20,0%). Questo modello indica che i modelli potrebbero essere più inclini a generare risposte speculative quando i problemi sembrano più trattabili. Lo studio ha anche rivelato variazioni significative tra le categorie di problemi, con i modelli che mostrano difficoltà nel riconoscere l'incertezza nei problemi di invenzione e NP-hard, mentre si comportano relativamente meglio nelle sfide filosofiche e psicologiche. Questi risultati contribuiscono al crescente corpo di ricerca sull'intelligenza artificiale generale (AGI) evidenziando l'importanza del riconoscimento dell'incertezza come componente critica della valutazione futura dell'intelligenza artificiale. Questo test di impossibilità estende quindi i precedenti quadri teorici per il test dell'intelligenza universale fornendo prove empiriche delle attuali limitazioni nella capacità dei LLM di riconoscere i propri limiti di conoscenza, suggerendo nuove direzioni per migliorare le architetture di addestramento dei modelli e gli approcci di valutazione.
Studiamo la segmentazione di parti in un mondo aperto in 3D: segmentando qualsiasi parte in qualsiasi oggetto basandosi su qualsiasi query di testo. I metodi precedenti sono limitati nelle categorie di oggetti e nei vocabolari delle parti. Recenti progressi nell'ambito dell'IA hanno dimostrato efficaci capacità di riconoscimento in un mondo aperto in 2D. Ispirati da questi sviluppi, proponiamo un modello di predizione diretta per la segmentazione di parti in 3D in un mondo aperto che può essere applicato in zero-shot a qualsiasi oggetto. Il nostro approccio, chiamato Find3D, addestra un modello di embedding di punti di categoria generale su asset 3D su larga scala provenienti da internet senza alcuna annotazione umana. Combina un motore di dati, alimentato da modelli fondamentali per l'annotazione dei dati, con un metodo di addestramento contrastivo. Otteniamo ottime prestazioni e generalizzazione su più dataset, con un miglioramento fino a 3 volte in mIoU rispetto al metodo successivo migliore. Il nostro modello è da 6 a oltre 300 volte più veloce rispetto ai baselines esistenti. Per incoraggiare la ricerca nella segmentazione di parti in 3D in un mondo aperto di categoria generale, rilasciamo anche un benchmark per oggetti e parti generali. Sito del progetto: https://ziqi-ma.github.io/find3dsite/
La stima della posa agnostica alla categoria (CAPE) localizza i punti chiave attraverso diverse categorie di oggetti con un singolo modello, utilizzando una o poche immagini di supporto annotate. Lavori recenti hanno dimostrato che l'utilizzo di un grafo di posa (cioè trattare i punti chiave come nodi in un grafo anziché punti isolati) aiuta a gestire le occlusioni e a rompere la simmetria. Tuttavia, questi metodi assumono un grafo di posa statico con archi di peso uguale, portando a risultati subottimali. Introduciamo EdgeCape, un nuovo framework che supera queste limitazioni prevedendo i pesi degli archi del grafo che ottimizzano la localizzazione. Per sfruttare ulteriormente i vincoli strutturali, proponiamo di integrare il Bias Strutturale Markoviano, che modula l'interazione di autoattenzione tra i nodi in base al numero di salti tra di essi. Dimostriamo che ciò migliora la capacità del modello di catturare le dipendenze spaziali globali. Valutato sul benchmark MP-100, che include 100 categorie e oltre 20.000 immagini, EdgeCape raggiunge risultati all'avanguardia nell'impostazione 1-shot e si posiziona al primo posto tra i metodi di dimensioni simili nell'impostazione 5-shot, migliorando significativamente l'accuratezza della localizzazione dei punti chiave. Il nostro codice è disponibile pubblicamente.