Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo la serie MiniMax-01, che include MiniMax-Text-01 e MiniMax-VL-01, paragonabili ai modelli di alto livello offrendo capacità superiori nel processare contesti più lunghi. Il nucleo risiede nell'attenzione fulminea e nel suo efficiente scalabilità. Per massimizzare la capacità computazionale, lo integriamo con il Mixture of Experts (MoE), creando un modello con 32 esperti e 456 miliardi di parametri totali, di cui 45,9 miliardi sono attivati per ogni token. Sviluppiamo una strategia parallela ottimizzata e tecniche di sovrapposizione computazione-comunicazione altamente efficienti per MoE e attenzione fulminea. Questo approccio ci consente di condurre addestramenti efficienti e inferenze su modelli con centinaia di miliardi di parametri attraverso contesti che spaziano su milioni di token. La finestra di contesto di MiniMax-Text-01 può raggiungere fino a 1 milione di token durante l'addestramento ed estrapolare fino a 4 milioni di token durante l'inferenza a un costo accessibile. Il nostro modello visione-linguaggio, MiniMax-VL-01, è costruito attraverso un addestramento continuo con 512 miliardi di token visione-linguaggio. Gli esperimenti su benchmark standard e interni mostrano che i nostri modelli eguagliano le prestazioni di modelli all'avanguardia come GPT-4o e Claude-3.5-Sonnet offrendo una finestra di contesto 20-32 volte più lunga. Rilasciamo pubblicamente MiniMax-01 su https://github.com/MiniMax-AI.
Derivato dai modelli di diffusione, MangaNinjia si specializza nel compito della colorizzazione di disegni a linee guidata da riferimenti. Incorporiamo due progettazioni oculate per garantire una precisa trascrizione dei dettagli dei personaggi, tra cui un modulo di mescolamento delle patch per facilitare l'apprendimento della corrispondenza tra l'immagine a colori di riferimento e il disegno a linee di destinazione, e uno schema di controllo guidato dai punti per consentire un abbinamento dei colori dettagliato. Gli esperimenti su un benchmark auto-raccolto dimostrano la superiorità del nostro modello rispetto alle soluzioni attuali in termini di colorizzazione precisa. Mostriamo inoltre il potenziale del proposto controllo interattivo dei punti nel gestire casi difficili, colorizzazione tra personaggi, armonizzazione multi-riferimento, al di là della portata degli algoritmi esistenti.
La crescente domanda di output controllabili nella generazione di testo-immagine ha portato a significativi progressi nella generazione multi-istanza (MIG), consentendo agli utenti di definire sia il layout delle istanze che gli attributi. Attualmente, i metodi all'avanguardia in MIG sono principalmente basati su adattatori. Tuttavia, questi metodi richiedono il riallenamento di un nuovo adattatore ogni volta che viene rilasciato un modello più avanzato, comportando un significativo consumo di risorse. È stata introdotta una metodologia chiamata Sintesi di Istanze Decoppiata Guidata dalla Profondità (3DIS), che decoppia MIG in due fasi distinte: 1) costruzione della scena basata sulla profondità e 2) rendering dei dettagli con modelli di controllo della profondità ampiamente pre-allenati. Il metodo 3DIS richiede il training dell'adattatore esclusivamente durante la fase di costruzione della scena, consentendo a vari modelli di eseguire il rendering dei dettagli senza necessità di training. Inizialmente, 3DIS si è concentrato su tecniche di rendering utilizzando architetture U-Net come SD1.5, SD2 e SDXL, senza esplorare il potenziale dei recenti modelli basati su DiT come FLUX. In questo articolo, presentiamo 3DIS-FLUX, un'estensione del framework 3DIS che integra il modello FLUX per capacità di rendering potenziate. Nello specifico, impieghiamo il modello FLUX.1-Depth-dev per la generazione di immagini controllate dalla mappa di profondità e introduciamo un renderer di dettagli che manipola la Maschera di Attenzione nel meccanismo di Attenzione Condivisa di FLUX in base alle informazioni sul layout. Questo approccio consente il rendering preciso degli attributi dettagliati di ciascuna istanza. I nostri risultati sperimentali indicano che 3DIS-FLUX, sfruttando il modello FLUX, supera il metodo originale 3DIS, che utilizzava SD2 e SDXL, e supera i metodi all'avanguardia basati su adattatori attuali sia in termini di prestazioni che di qualità delle immagini. Pagina del Progetto: https://limuloo.github.io/3DIS/.
I modelli di diffusione sono ampiamente utilizzati per la generazione di immagini e video, ma il loro processo di generazione iterativo è lento e costoso. Mentre gli approcci di distillazione esistenti hanno dimostrato il potenziale per la generazione in un solo passaggio nel dominio delle immagini, soffrono ancora di significativa degradazione della qualità. In questo lavoro, proponiamo l'Adversarial Post-Training (APT) contro dati reali seguendo il pre-training di diffusione per la generazione di video in un solo passaggio. Per migliorare la stabilità e la qualità dell'addestramento, introduciamo diverse migliorie all'architettura del modello e alle procedure di addestramento, insieme a un obiettivo di regolarizzazione R1 approssimato. Empiricamente, i nostri esperimenti mostrano che il nostro modello post-addestrato in modo avversario, Seaweed-APT, può generare video di 2 secondi, 1280x720, a 24fps in tempo reale utilizzando un singolo passaggio di valutazione in avanti. Inoltre, il nostro modello è in grado di generare immagini da 1024px in un solo passaggio, raggiungendo una qualità paragonabile ai metodi all'avanguardia.
Presentiamo Omni-RGPT, un grande modello di linguaggio multimodale progettato per facilitare la comprensione a livello di regione sia per le immagini che per i video. Per ottenere una rappresentazione coerente delle regioni attraverso le dimensioni spazio-temporali, introduciamo Token Mark, un insieme di token che evidenziano le regioni target all'interno dello spazio delle caratteristiche visive. Questi token sono direttamente incorporati nelle regioni spaziali utilizzando prompt di regione (ad esempio, box o maschere) e contemporaneamente incorporati nel prompt di testo per specificare il target, stabilendo una connessione diretta tra i token visivi e di testo. Per supportare ulteriormente la comprensione robusta dei video senza richiedere tracce, introduciamo un compito ausiliario che guida Token Mark sfruttando la coerenza dei token, consentendo un'interpretazione stabile delle regioni in tutto il video. Inoltre, presentiamo un ampio dataset di istruzioni video a livello di regione (RegVID-300k). Omni-RGPT ottiene risultati di primo piano su benchmark di ragionamento intuitivo basato su immagini e video, mostrando nel contempo una forte performance nei compiti di sottotitolazione e comprensione delle espressioni di riferimento.
I modelli di diffusione testo-immagine (T2I) si basano su prompt codificati per guidare il processo di generazione dell'immagine. Tipicamente, questi prompt vengono estesi a una lunghezza fissa aggiungendo token di riempimento prima della codifica del testo. Nonostante sia una pratica predefinita, l'influenza dei token di riempimento sul processo di generazione dell'immagine non è stata indagata. In questo lavoro, conduciamo la prima analisi approfondita del ruolo che i token di riempimento svolgono nei modelli T2I. Sviluppiamo due tecniche causali per analizzare come le informazioni sono codificate nella rappresentazione dei token attraverso diversi componenti del processo T2I. Utilizzando queste tecniche, indaghiamo quando e come i token di riempimento influenzano il processo di generazione dell'immagine. Le nostre scoperte rivelano tre scenari distinti: i token di riempimento possono influenzare l'output del modello durante la codifica del testo, durante il processo di diffusione, o essere efficacemente ignorati. Inoltre, identifichiamo le relazioni chiave tra questi scenari e l'architettura del modello (attenzione incrociata o auto-attenzione) e il suo processo di addestramento (codificatore di testo congelato o addestrato). Queste intuizioni contribuiscono a una comprensione più profonda dei meccanismi dei token di riempimento, potenzialmente informando il design dei modelli futuri e le pratiche di addestramento nei sistemi T2I.
I grandi modelli linguistici eccellono nell'interpretare istruzioni complesse in linguaggio naturale, consentendo loro di svolgere una vasta gamma di compiti. Nelle scienze della vita, i dati di sequenziamento dell'RNA a singola cellula (scRNA-seq) fungono da "linguaggio della biologia cellulare", catturando intricati pattern di espressione genica a livello di singola cellula. Tuttavia, interagire con questo "linguaggio" attraverso strumenti convenzionali è spesso inefficiente e poco intuitivo, presentando sfide per i ricercatori. Per affrontare queste limitazioni, presentiamo InstructCell, un copilota AI multimodale che sfrutta il linguaggio naturale come mezzo per un'analisi più diretta e flessibile delle singole cellule. Costruiamo un ampio dataset di istruzioni multimodali che accoppia istruzioni basate su testo con profili scRNA-seq provenienti da tessuti e specie diverse. Sviluppando su questo, creiamo un'architettura di linguaggio cellulare multimodale in grado di interpretare e elaborare contemporaneamente entrambe le modalità. InstructCell permette ai ricercatori di svolgere compiti critici - come l'annotazione dei tipi cellulari, la generazione condizionale di pseudo-cellule e la previsione della sensibilità ai farmaci - utilizzando comandi di linguaggio naturale semplici. Valutazioni approfondite dimostrano che InstructCell incontra costantemente o supera le prestazioni dei modelli fondamentali a singola cellula esistenti, adattandosi a diverse condizioni sperimentali. Inoltre, InstructCell fornisce uno strumento accessibile e intuitivo per esplorare dati complessi a singola cellula, abbassando le barriere tecniche e consentendo approfondite intuizioni biologiche.
Introduciamo PokerBench - un benchmark per valutare le capacità di gioco del poker dei grandi modelli linguistici (LLM). Poiché i LLM eccellono nelle tradizionali attività di elaborazione del linguaggio naturale (NLP), la loro applicazione a giochi complessi e strategici come il poker pone una nuova sfida. Il poker, un gioco con informazioni incomplete, richiede una moltitudine di abilità come matematica, ragionamento, pianificazione, strategia e una profonda comprensione della teoria dei giochi e della psicologia umana. Ciò rende il poker la prossima frontiera ideale per i grandi modelli linguistici. PokerBench consiste in una completa raccolta di 11.000 scenari più importanti, suddivisi tra il gioco pre-flop e post-flop, sviluppati in collaborazione con giocatori di poker esperti. Valutiamo modelli prominenti tra cui GPT-4, ChatGPT 3.5 e vari modelli delle serie Llama e Gemma, scoprendo che tutti i LLM all'avanguardia hanno prestazioni inferiori nel giocare a poker ottimale. Tuttavia, dopo il raffinamento, questi modelli mostrano miglioramenti significativi. Convalidiamo PokerBench facendo competere modelli con punteggi diversi tra loro, dimostrando che punteggi più alti su PokerBench portano a tassi di vincita più elevati nei veri giochi di poker. Attraverso il gameplay tra il nostro modello raffinato e GPT-4, identifichiamo anche limitazioni del semplice raffinamento supervisionato per imparare una strategia di gioco ottimale, suggerendo la necessità di metodologie più avanzate per addestrare efficacemente i modelli linguistici a eccellere nei giochi. PokerBench presenta quindi un benchmark unico per una valutazione rapida e affidabile delle capacità di gioco del poker dei LLM, nonché un benchmark completo per studiare i progressi dei LLM in scenari di gioco complessi. Il dataset e il codice saranno resi disponibili su: https://github.com/pokerllm/pokerbench.
La modifica interattiva delle immagini consente agli utenti di modificare le immagini attraverso operazioni di interazione visiva come disegno, clic e trascinamento. I metodi esistenti costruiscono tali segnali di supervisione dai video, poiché catturano come gli oggetti cambiano con varie interazioni fisiche. Tuttavia, questi modelli sono di solito basati su modelli di diffusione testo-immagine, quindi richiedono (i) campioni di addestramento massicci e (ii) un ulteriore codificatore di riferimento per apprendere dinamiche del mondo reale e coerenza visiva. In questo articolo, riformuliamo questo compito come un problema di generazione immagine-video, in modo da ereditare potenti priorità di diffusione video per ridurre i costi di addestramento e garantire coerenza temporale. In particolare, presentiamo FramePainter come un'efficiente istanziazione di questa formulazione. Inizializzato con Stable Video Diffusion, utilizza solo un leggero codificatore di controllo sparso per iniettare segnali di modifica. Considerando i limiti dell'attenzione temporale nel gestire grandi movimenti tra due fotogrammi, proponiamo inoltre l'attenzione corrispondente per ingrandire il campo recettivo incoraggiando una corrispondenza densa tra i token dell'immagine modificata e dell'immagine di origine. Evidenziamo l'efficacia e l'efficienza di FramePainter attraverso vari segnali di modifica: supera nettamente i metodi precedenti all'avanguardia con molto meno dati di addestramento, raggiungendo una modifica altamente uniforme e coerente delle immagini, ad esempio, regolando automaticamente il riflesso della tazza. Inoltre, FramePainter mostra anche un'eccezionale generalizzazione in scenari non presenti nei video del mondo reale, ad esempio, trasformando il pesce pagliaccio in una forma simile a uno squalo. Il nostro codice sarà disponibile su https://github.com/YBYBZhang/FramePainter.
Nonostante la loro impressionante capacità di generare testi di alta qualità e scorrevoli, i grandi modelli di linguaggio generativo (LLM) producono anche allucinazioni: affermazioni che non sono allineate con la conoscenza del mondo stabilita o con il contesto di input fornito. Tuttavia, misurare le allucinazioni può essere impegnativo, poiché far verificare ai umani le generazioni del modello in tempo reale è sia costoso che richiede tempo. In questo lavoro, presentiamo HALoGEN, un completo benchmark sulle allucinazioni composto da: (1) 10.923 prompt per modelli generativi che spaziano su nove domini, tra cui programmazione, attribuzione scientifica e riassunto, e (2) verificatori automatici ad alta precisione per ciascun caso d'uso che scompongono le generazioni LLM in unità atomiche e verificano ciascuna unità con una fonte di conoscenza di alta qualità. Utilizziamo questo framework per valutare circa 150.000 generazioni da 14 modelli linguistici, scoprendo che anche i modelli con le prestazioni migliori sono disseminati di allucinazioni (a volte fino all'86% dei fatti atomici generati a seconda del dominio). Definiamo inoltre una nuova classificazione degli errori per le allucinazioni LLM basata su se derivino probabilmente da un ricordo errato dei dati di addestramento (errori di Tipo A), da una conoscenza errata nei dati di addestramento (errori di Tipo B), o siano una fabbricazione (errori di Tipo C). Speriamo che il nostro framework fornisca una base per consentire lo studio metodico del motivo per cui i modelli generativi producono allucinazioni e favorisca lo sviluppo di modelli di linguaggio di grandi dimensioni affidabili.
I tokenizzatori di immagini costituiscono la base dei moderni modelli generativi di testo-immagine, ma sono notoriamente difficili da addestrare. Inoltre, la maggior parte dei modelli testo-immagine esistenti si basa su set di dati privati di grandi dimensioni e di alta qualità, rendendoli difficili da replicare. In questo lavoro, presentiamo il Tokenizer 1-Dimensionale basato su Transformer consapevole del testo (TA-TiTok), un tokenizzatore di immagini efficiente e potente che può utilizzare token discreti o continui unidimensionali. TA-TiTok integra in modo unico le informazioni testuali durante la fase di decodifica del tokenizer (cioè, la de-tokenizzazione), accelerando la convergenza e migliorando le prestazioni. TA-TiTok beneficia anche di un processo di addestramento semplificato, ma efficace, a un solo stadio, eliminando la necessità della complessa distillazione a due stadi utilizzata nei precedenti tokenizzatori unidimensionali. Questo design consente una scalabilità senza soluzione di continuità a set di dati di grandi dimensioni. Sulla base di ciò, presentiamo una famiglia di Modelli Generativi Mascherati testo-immagine (MaskGen), addestrati esclusivamente su dati aperti pur raggiungendo prestazioni comparabili ai modelli addestrati su dati privati. Il nostro obiettivo è rilasciare sia i tokenizzatori TA-TiTok efficienti e potenti che i modelli MaskGen open-data e open-weight per promuovere un accesso più ampio e democratizzare il campo dei modelli generativi testo-immagine mascherati.
Introduciamo Tarsier2, un modello di visione-linguaggio di ultima generazione (LVLM) progettato per generare descrizioni video dettagliate e accurate, mostrando anche capacità superiori di comprensione video generale. Tarsier2 raggiunge significativi progressi attraverso tre aggiornamenti chiave: (1) Scalando i dati di pre-addestramento da 11M a 40M coppie video-testo, arricchendo sia il volume che la diversità; (2) Eseguendo un allineamento temporale dettagliato durante il fine-tuning supervisionato; (3) Utilizzando il campionamento basato sul modello per costruire automaticamente dati di preferenza e applicando l'addestramento DPO per l'ottimizzazione. Esperimenti estesi mostrano che Tarsier2-7B supera costantemente i principali modelli proprietari, inclusi GPT-4o e Gemini 1.5 Pro, nei compiti di descrizione video dettagliata. Sul benchmark DREAM-1K, Tarsier2-7B migliora l'F1 del 2.8\% rispetto a GPT-4o e del 5.8\% rispetto a Gemini-1.5-Pro. Nelle valutazioni umane affiancate, Tarsier2-7B mostra un vantaggio di prestazione del +8.6\% rispetto a GPT-4o e del +24.9\% rispetto a Gemini-1.5-Pro. Tarsier2-7B stabilisce anche nuovi risultati di ultima generazione su 15 benchmark pubblici, coprendo compiti come il question-answering video, il grounding video, il test di allucinazione e il question-answering incorporato, dimostrando la sua versatilità come modello di visione-linguaggio generalista robusto.
I pipeline automatizzati per l'interpretabilità generano descrizioni in linguaggio naturale per i concetti rappresentati dalle caratteristiche nei grandi modelli linguistici (LLM), come le piante o la prima parola in una frase. Queste descrizioni sono derivate utilizzando input che attivano la caratteristica, che può essere una dimensione o una direzione nello spazio di rappresentazione del modello. Tuttavia, identificare gli input attivanti è costoso, e il ruolo meccanicistico di una caratteristica nel comportamento del modello è determinato sia da come gli input causano l'attivazione di una caratteristica, sia da come l'attivazione della caratteristica influisce sugli output. Utilizzando valutazioni di steering, riveliamo che i pipeline attuali forniscono descrizioni che non riescono a catturare l'effetto causale della caratteristica sugli output. Per risolvere questo problema, proponiamo metodi efficienti e centrati sugli output per generare automaticamente descrizioni delle caratteristiche. Questi metodi utilizzano i token con peso maggiore dopo la stimolazione della caratteristica o i token con il peso più alto dopo l'applicazione della testa di "unembedding" del vocabolario direttamente alla caratteristica. Le nostre descrizioni centrate sugli output catturano meglio l'effetto causale di una caratteristica sugli output del modello rispetto alle descrizioni centrate sugli input, ma combinare le due approcci porta alle migliori prestazioni sia nelle valutazioni degli input che degli output. Infine, dimostriamo che le descrizioni centrate sugli output possono essere utilizzate per trovare input che attivano caratteristiche considerate precedentemente "morte".
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli, ma il loro successo dipende fortemente dalla qualità dei corpora di preaddestramento. Per i LLM cinesi, la scarsità di dataset cinesi di alta qualità rappresenta una sfida significativa, spesso limitando le loro prestazioni. Per affrontare questo problema, proponiamo l'OpenCSG Chinese Corpus, una serie di dataset di alta qualità appositamente progettati per il preaddestramento, il post-addestramento e il raffinamento dei LLM. Questo corpus include Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese e Smoltalk-chinese, ciascuno con caratteristiche distinte: i dataset Fineweb-edu si concentrano su contenuti filtrati di alta qualità derivati da diverse fonti web cinesi; Cosmopedia-chinese fornisce dati sintetici in stile libro di testo per un addestramento intensivo alla conoscenza; e Smoltalk-chinese enfatizza dati stilistici e diversi in formato chat. L'OpenCSG Chinese Corpus è caratterizzato dal suo testo di alta qualità, dalla copertura diversificata tra i domini e dai processi di cura dei dati scalabili e riproducibili. Inoltre, abbiamo condotto ampie analisi sperimentali, inclusa valutazioni su modelli con parametri più piccoli, che hanno dimostrato significativi miglioramenti delle prestazioni in compiti come C-Eval, evidenziando l'efficacia del corpus per l'addestramento dei LLM cinesi.
Il discorso d'odio e il linguaggio abusivo sono fenomeni globali che richiedono conoscenze di contesto socio-culturale per essere compresi, identificati e moderati. Tuttavia, in molte regioni del Sud del Mondo, sono state documentate diverse situazioni di (1) assenza di moderazione e (2) censura a causa della dipendenza dal rilevamento delle parole chiave fuori contesto. Inoltre, individui di alto profilo sono spesso al centro del processo di moderazione, mentre le grandi e mirate campagne di discorso d'odio contro le minoranze sono state trascurate. Queste limitazioni sono principalmente dovute alla mancanza di dati di alta qualità nelle lingue locali e al fallimento nell'includere le comunità locali nei processi di raccolta, annotazione e moderazione. Per affrontare questo problema, presentiamo AfriHate: una collezione multilingue di set di dati di discorso d'odio e linguaggio abusivo in 15 lingue africane. Ogni istanza in AfriHate è annotata da parlanti nativi familiari con la cultura locale. Riportiamo le sfide legate alla costruzione dei set di dati e presentiamo vari risultati di base di classificazione con e senza l'uso di LLM. I set di dati, le singole annotazioni e i lessici di discorso d'odio e linguaggio offensivo sono disponibili su https://github.com/AfriHate/AfriHate
I rapidi progressi nei grandi modelli di linguaggio hanno sbloccato capacità notevoli per quanto riguarda l'elaborazione e la sintesi di dati testuali non strutturati. Ciò ha implicazioni per l'analisi di set di dati ricchi e aperti, come le risposte ai sondaggi, dove i grandi modelli di linguaggio promettono di estrarre in modo efficiente temi chiave e sentimenti. Tuttavia, poiché le organizzazioni si rivolgono sempre più a questi potenti sistemi AI per dare senso ai feedback testuali, sorge una domanda critica: possiamo fidarci dei grandi modelli di linguaggio per rappresentare accuratamente le prospettive contenute in questi set di dati basati su testo? Sebbene i grandi modelli di linguaggio eccellano nella generazione di sintesi simili a quelle umane, c'è il rischio che le loro uscite possano deviare involontariamente dalla vera sostanza delle risposte originali. Discrepanze tra le uscite generate dai grandi modelli di linguaggio e i temi effettivi presenti nei dati potrebbero portare a decisioni sbagliate, con conseguenze di vasta portata per le organizzazioni. Questa ricerca indaga l'efficacia dei grandi modelli di linguaggio come modelli giudici per valutare l'allineamento tematico delle sintesi generate da altri grandi modelli di linguaggio. Abbiamo utilizzato un modello Claude antropico per generare sintesi tematiche dalle risposte ai sondaggi aperti, con Titan Express di Amazon, Nova Pro e Llama di Meta a fungere da giudici dei grandi modelli di linguaggio. L'approccio dei grandi modelli di linguaggio come giudici è stato confrontato con valutazioni umane utilizzando il kappa di Cohen, il rho di Spearman e l'alfa di Krippendorff, convalidando un'alternativa scalabile ai tradizionali metodi di valutazione centrati sull'uomo. I nostri risultati rivelano che, sebbene i grandi modelli di linguaggio come giudici offrano una soluzione scalabile paragonabile ai valutatori umani, gli esseri umani potrebbero ancora eccellere nel rilevare sfumature sottili e specifiche del contesto. Questa ricerca contribuisce al crescente corpus di conoscenze sull'analisi testuale assistita dall'AI. Discutiamo delle limitazioni e forniamo raccomandazioni per future ricerche, sottolineando la necessità di una considerazione attenta quando si generalizzano i modelli giudici dei grandi modelli di linguaggio attraverso vari contesti e casi d'uso.
Il matching delle immagini, che mira a identificare le corrispondenti posizioni dei pixel tra le immagini, è cruciale in una vasta gamma di discipline scientifiche, aiutando nella registrazione, fusione e analisi delle immagini. Negli ultimi anni, gli algoritmi di matching delle immagini basati sull'apprendimento profondo hanno superato notevolmente gli esseri umani nel trovare rapidamente e con precisione grandi quantità di corrispondenze. Tuttavia, quando si tratta di immagini catturate con diverse modalità di imaging che causano significativi cambiamenti nell'aspetto, le prestazioni di questi algoritmi spesso peggiorano a causa della scarsità di dati di addestramento annotati cross-modal. Questa limitazione ostacola le applicazioni in vari campi che si basano su molteplici modalità di immagine per ottenere informazioni complementari. Per affrontare questa sfida, proponiamo un framework di pre-addestramento su larga scala che utilizza segnali di addestramento sintetici cross-modal, incorporando dati diversi da varie fonti, per addestrare modelli a riconoscere e abbinare strutture fondamentali tra le immagini. Questa capacità è trasferibile a compiti di matching di immagini cross-modal reali e non visti. La nostra scoperta chiave è che il modello di matching addestrato con il nostro framework raggiunge una notevole generalizzabilità su più di otto compiti di registrazione cross-modal non visti utilizzando lo stesso peso della rete, superando notevolmente i metodi esistenti, che siano progettati per la generalizzazione o adattati a compiti specifici. Questo progresso migliora significativamente l'applicabilità delle tecnologie di matching delle immagini in varie discipline scientifiche e apre la strada a nuove applicazioni nell'analisi umana e artificiale multi-modalità e oltre.
La ricerca dell'automatizzazione della scoperta scientifica ha alimentato il progresso dalla logica simbolica all'IA moderna, aprendo nuove frontiere nel ragionamento e nel riconoscimento di pattern. I trasformatori funzionano come sistemi potenziali, dove ogni possibile relazione rimane una potenzialità latente finché i compiti non impongono vincoli, simili alla misurazione. Tuttavia, per perfezionare il campionamento richiede più della selezione probabilistica: le soluzioni devono conformarsi a strutture o regole specifiche, garantendo coerenza e l'invocazione di principi generali. Presentiamo Graph-PReFLexOR (Modellazione del Linguaggio Ricorsivo basata su Preferenze su Grafi per l'Ottimizzazione Esplorativa del Ragionamento), un framework che combina il ragionamento su grafi con l'astrazione simbolica per espandere dinamicamente la conoscenza di dominio. Ispirato all'apprendimento per rinforzo, Graph-PReFLexOR definisce il ragionamento come un mapping strutturato, dove i compiti generano grafi di conoscenza, pattern astratti e, alla fine, risposte finali. Ispirato alla teoria delle categorie, codifica concetti come nodi e le loro relazioni come archi, supportando l'inferenza gerarchica e l'apprendimento adattivo attraverso rappresentazioni isomorfe. Le dimostrazioni includono la generazione di ipotesi, la progettazione di materiali e il ragionamento creativo, come la scoperta di relazioni tra concetti mitologici come 'luoghi sottili' con la scienza dei materiali. Proponiamo una strategia di 'crescita del giardino della conoscenza' che integra intuizioni tra i domini, promuovendo connessioni interdisciplinari. I risultati con un modello Graph-PReFLexOR da 3 miliardi di parametri mostrano una profondità e adattabilità del ragionamento superiori, sottolineando il potenziale per una scoperta trasparente e multidisciplinare guidata dall'IA. Pone le basi per soluzioni di ragionamento autonomo generale.