Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo InternVL3, un significativo progresso nella serie InternVL che introduce un paradigma nativo di pre-addestramento multimodale. Piuttosto che adattare un modello linguistico di grandi dimensioni (LLM) unicamente testuale in un modello linguistico multimodale di grandi dimensioni (MLLM) che supporti input visivi, InternVL3 acquisisce congiuntamente capacità multimodali e linguistiche sia da dati multimodali diversificati che da corpora di testo puro durante una singola fase di pre-addestramento. Questo paradigma di formazione unificato affronta efficacemente le complessità e le sfide di allineamento comunemente riscontrate nelle pipeline di addestramento post-hoc convenzionali per MLLM. Per migliorare ulteriormente le prestazioni e la scalabilità, InternVL3 incorpora una codifica variabile della posizione visiva (V2PE) per supportare contesti multimodali estesi, utilizza tecniche avanzate di post-addestramento come la messa a punto supervisionata (SFT) e l'ottimizzazione mista delle preferenze (MPO), e adotta strategie di scalabilità al momento del test insieme a un'infrastruttura di addestramento ottimizzata. Valutazioni empiriche estensive dimostrano che InternVL3 offre prestazioni superiori in un'ampia gamma di attività multimodali. In particolare, InternVL3-78B raggiunge un punteggio di 72,2 sul benchmark MMMU, stabilendo un nuovo stato dell'arte tra gli MLLM open-source. Le sue capacità rimangono altamente competitive rispetto ai principali modelli proprietari, tra cui ChatGPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, mantenendo anche una forte competenza linguistica pura. In linea con i principi della scienza aperta, renderemo pubblicamente disponibili sia i dati di addestramento che i pesi del modello per favorire ulteriori ricerche e sviluppi nei MLLM di prossima generazione.
L'emergenza di DeepSeek R1 e QwQ 32B ha superato le barriere di prestazioni per l'esecuzione di modelli linguistici di grandi dimensioni (LLM) all'avanguardia su dispositivi domestici. Sebbene l'hardware consumer stia diventando più potente e la quantizzazione dei modelli stia migliorando, le soluzioni esistenti lato client richiedono ancora cluster GPU, grandi quantità di RAM/VRAM e un'ampia larghezza di banda, ben al di là di ciò che un comune cluster domestico può gestire. Questo articolo introduce prima.cpp, un sistema di inferenza distribuito che esegue modelli di scala 70B su dispositivi domestici di uso quotidiano utilizzando una combinazione di CPU/GPU, bassa RAM/VRAM, Wi-Fi e supporto cross-platform. Utilizza mmap per gestire i pesi del modello e introduce il parallelismo a pipeline con prefetching per nascondere il caricamento da disco. Modellando l'eterogeneità in termini di calcolo, comunicazione, disco, memoria (e il suo comportamento di gestione) e sistema operativo, assegna in modo ottimale i livelli del modello alla CPU e alla GPU di ciascun dispositivo, riducendo ulteriormente la latenza dei token. Un elegante algoritmo chiamato Halda è proposto per risolvere questo problema di assegnazione NP-hard. Valutiamo prima.cpp su un comune cluster domestico a quattro nodi. Supera llama.cpp, exo e dllama su modelli 30B+ mantenendo la pressione sulla memoria al di sotto del 6%. Questo porta modelli all'avanguardia da 30B a 70B, come Llama 3, DeepSeek R1, Qwen 2.5 e QwQ, agli assistenti domestici, rendendo l'IA avanzata veramente accessibile agli individui. Il codice è open source e disponibile all'indirizzo https://github.com/Lizonghang/prima.cpp.
Il modello multimodale GPT-4o di OpenAI ha dimostrato capacità notevoli nella generazione e modifica di immagini, ma la sua capacità di realizzare una sintesi semantica informata dalla conoscenza del mondo—integrando in modo fluido conoscenza di dominio, ragionamento contestuale e aderenza alle istruzioni—rimane da provare. In questo studio, valutiamo sistematicamente queste capacità lungo tre dimensioni critiche: (1) Aderenza Globale alle Istruzioni, (2) Precisione nella Modifica Fine-Grana e (3) Ragionamento Post-Generazione. Sebbene i benchmark esistenti evidenzino le forti capacità di GPT-4o nella generazione e modifica di immagini, la nostra valutazione rivelle persistenti limitazioni del modello: esso ricorre spesso a interpretazioni letterali delle istruzioni, applica in modo incoerente i vincoli di conoscenza e fatica con compiti di ragionamento condizionale. Questi risultati mettono in discussione le ipotesi prevalenti sulla comprensione unificata e le capacità di generazione di GPT-4o, evidenziando lacune significative nella sua integrazione dinamica della conoscenza. Il nostro studio invoca lo sviluppo di benchmark e strategie di formazione più robusti che vadano oltre l'allineamento superficiale, enfatizzando una generazione multimodale basata sul contesto e sul ragionamento.
Recentemente, sistemi a pensiero lento come GPT-o1 e DeepSeek-R1 hanno dimostrato un grande potenziale nel risolvere problemi complessi attraverso una riflessione esplicita. Questi sistemi superano significativamente i migliori modelli a pensiero veloce, come GPT-4o, su vari benchmark di matematica e scienze. Tuttavia, le loro capacità di ragionamento multimodale rimangono alla pari con i modelli a pensiero veloce. Ad esempio, le prestazioni di GPT-o1 su benchmark come MathVista, MathVerse e MathVision sono simili a quelle dei modelli a pensiero veloce. In questo articolo, miriamo a migliorare le capacità di pensiero lento dei modelli visione-linguaggio utilizzando l'apprendimento per rinforzo (senza fare affidamento sulla distillazione) per avanzare lo stato dell'arte. In primo luogo, adattiamo l'algoritmo GRPO con una nuova tecnica chiamata Selective Sample Replay (SSR) per affrontare il problema degli svantaggi che svaniscono. Sebbene questo approccio produca prestazioni solide, i modelli addestrati con RL risultanti mostrano una limitata auto-riflessione o auto-verifica. Per incoraggiare ulteriormente il pensiero lento, introduciamo il Forced Rethinking, che aggiunge un trigger testuale di ripensamento alla fine dei rollout iniziali nell'addestramento RL, imponendo esplicitamente un passaggio di ragionamento di auto-riflessione. Combinando queste due tecniche, il nostro modello, VL-Rethinker, avanza i punteggi di stato dell'arte su MathVista, MathVerse e MathVision raggiungendo rispettivamente l'80,3%, il 61,8% e il 43,9%. VL-Rethinker raggiunge anche lo stato dell'arte open-source su benchmark multidisciplinari come MMMU-Pro, EMMA e MEGA-Bench, riducendo il divario con GPT-o1.
Presentiamo FUSION, una famiglia di modelli linguistici multimodali di grandi dimensioni (MLLMs) con un paradigma di allineamento e integrazione completo tra visione e linguaggio. A differenza dei metodi esistenti che si basano principalmente sull'interazione tardiva delle modalità durante la decodifica del LLM, il nostro approccio raggiunge un'integrazione profonda e dinamica lungo l'intera pipeline di elaborazione. A tal fine, proponiamo il Text-Guided Unified Vision Encoding, che incorpora informazioni testuali nella codifica visiva per ottenere un'integrazione a livello di pixel. Progettiamo inoltre il Context-Aware Recursive Alignment Decoding, che aggrega ricorsivamente le caratteristiche visive condizionate dal contesto testuale durante la decodifica, consentendo un'integrazione semantica fine e a livello di domanda. Per guidare la mappatura delle caratteristiche e mitigare le discrepanze tra le modalità, sviluppiamo il Dual-Supervised Semantic Mapping Loss. Inoltre, costruiamo un dataset Synthesized Language-Driven Question-Answer (QA) attraverso un nuovo metodo di sintesi dei dati, dando priorità a coppie QA di alta qualità per ottimizzare l'integrazione delle caratteristiche guidata dal testo. Su queste basi, addestriamo FUSION su due scale—3B, 8B—e dimostriamo che il nostro approccio di integrazione completa delle modalità supera significativamente i metodi esistenti con soli 630 token visivi. In particolare, FUSION 3B supera Cambrian-1 8B e Florence-VL 8B nella maggior parte dei benchmark. FUSION 3B continua a superare Cambrian-1 8B anche quando limitato a 300 token visivi. I nostri studi di ablazione mostrano che FUSION supera LLaVA-NeXT su più della metà dei benchmark nella stessa configurazione senza risoluzione dinamica, evidenziando l'efficacia del nostro approccio. Rilasciamo il nostro codice, i pesi del modello e il dataset. https://github.com/starriver030515/FUSION
Generare codice di alta qualità che risolva compiti di programmazione complessi è una sfida, specialmente con i modelli basati su decoder attuali che producono output altamente stocastici. Nella generazione di codice, anche errori minori possono facilmente compromettere l'intera soluzione. Sfruttare più soluzioni campionate può migliorare significativamente la qualità complessiva dell'output. Un modo efficace per migliorare la generazione di codice è abbinare un modello di generazione di codice a un modello di reranking, che seleziona la migliore soluzione tra i campioni generati. Proponiamo un nuovo approccio iterativo di auto-addestramento per addestrare modelli di reranking utilizzando l'ottimizzazione delle politiche prossimali (PPO), mirato a migliorare sia l'accuratezza del reranking che il processo complessivo di generazione del codice. A differenza degli approcci tradizionali PPO, in cui l'obiettivo è ottimizzare un modello generativo con un modello di ricompensa, il nostro approccio si concentra sullo sviluppo di un modello robusto di ricompensa/reranking. Questo modello migliora la qualità del codice generato attraverso il reranking e affronta problemi ed errori che il modello di ricompensa potrebbe trascurare durante l'allineamento PPO con il reranker. Il nostro metodo perfeziona iterativamente il dataset di addestramento rivalutando gli output, identificando esempi negativi ad alto punteggio e incorporandoli nel ciclo di addestramento, migliorando così le prestazioni del modello. La nostra valutazione sul dataset MultiPL-E dimostra che il nostro modello da 13,4 miliardi di parametri supera un modello da 33 miliardi in termini di qualità della generazione di codice, pur essendo tre volte più veloce. Inoltre, raggiunge prestazioni paragonabili a GPT-4 e lo supera in un linguaggio di programmazione.
La comprensione di video a lungo contesto nei modelli linguistici multimodali di grandi dimensioni (MLLMs) affronta una sfida critica: bilanciare l'efficienza computazionale con la conservazione di modelli spazio-temporali dettagliati. Gli approcci esistenti (ad esempio, campionamento sparso, campionamento denso a bassa risoluzione e compressione dei token) soffrono di una significativa perdita di informazioni nelle dinamiche temporali, nei dettagli spaziali o nelle interazioni sottili, specialmente in video con movimenti complessi o risoluzioni variabili. Per affrontare questo problema, proponiamo Mavors, un nuovo framework che introduce una rappresentazione video multi-granularità per la modellazione olistica di video lunghi. Nello specifico, Mavors codifica direttamente il contenuto grezzo del video in rappresentazioni latenti attraverso due componenti principali: 1) un Intra-chunk Vision Encoder (IVE) che preserva le caratteristiche spaziali ad alta risoluzione tramite convoluzioni 3D e Vision Transformers, e 2) un Inter-chunk Feature Aggregator (IFA) che stabilisce la coerenza temporale tra i chunk utilizzando la modellazione delle dipendenze basata su transformer con codifiche di posizione rotazionali a livello di chunk. Inoltre, il framework unifica la comprensione di immagini e video trattando le immagini come video a singolo fotogramma attraverso la decomposizione sub-immagine. Esperimenti su diversi benchmark dimostrano la superiorità di Mavors nel mantenere sia la fedeltà spaziale che la continuità temporale, superando significativamente i metodi esistenti in compiti che richiedono un ragionamento spazio-temporale fine.
Gli agenti web consentono agli utenti di eseguire attività sui browser web attraverso l'interazione in linguaggio naturale. Valutare le traiettorie degli agenti web è un problema importante, poiché ci aiuta a determinare se l'agente ha completato con successo le attività. I metodi basati su regole sono ampiamente utilizzati a questo scopo, ma sono difficili da estendere a nuove attività e potrebbero non sempre riconoscere le traiettorie di successo. Potremmo ottenere una maggiore accuratezza attraverso la valutazione umana, ma il processo sarebbe sostanzialmente più lento e costoso. Le valutazioni automatiche con LLM potrebbero evitare le sfide legate alla progettazione di nuove regole e all'annotazione manuale delle traiettorie, consentendo una valutazione più rapida ed economica. Tuttavia, non è chiaro quanto siano efficaci nel valutare gli agenti web. A tal fine, proponiamo AgentRewardBench, il primo benchmark per valutare l'efficacia dei giudici LLM nella valutazione degli agenti web. AgentRewardBench contiene 1302 traiettorie provenienti da 5 benchmark e 4 LLM. Ogni traiettoria in AgentRewardBench viene revisionata da un esperto, che risponde a domande relative al successo, agli effetti collaterali e alla ripetitività dell'agente. Utilizzando il nostro benchmark, valutiamo 12 giudici LLM e scopriamo che nessun singolo LLM eccelle in tutti i benchmark. Troviamo inoltre che la valutazione basata su regole utilizzata dai benchmark comuni tende a sottostimare il tasso di successo degli agenti web, evidenziando una debolezza chiave della valutazione basata su regole e la necessità di sviluppare valutazioni automatiche più flessibili. Rilasciamo il benchmark all'indirizzo: https://agent-reward-bench.github.io
Introduciamo S1-Bench, un nuovo benchmark progettato per valutare le prestazioni dei Modelli di Ragionamento su Grande Scala (LRMs) in compiti semplici che favoriscono il pensiero intuitivo del sistema 1 piuttosto che il ragionamento deliberativo del sistema 2. Sebbene gli LRMs abbiano ottenuto progressi significativi in compiti di ragionamento complesso attraverso catene di pensiero esplicite, la loro dipendenza da un pensiero analitico profondo potrebbe limitare le loro capacità di pensiero del sistema 1. Inoltre, attualmente manca un benchmark per valutare le prestazioni degli LRMs in compiti che richiedono tali capacità. Per colmare questa lacuna, S1-Bench presenta una serie di domande semplici, diversificate e naturalmente chiare in più domini e lingue, specificamente progettate per valutare le prestazioni degli LRMs in tali compiti. La nostra valutazione completa di 22 LRMs rivela una tendenza significativamente inferiore all'efficienza, con output mediamente 15,5 volte più lunghi rispetto a quelli dei tradizionali piccoli LLM. Inoltre, gli LRMs spesso identificano risposte corrette precocemente ma continuano con deliberazioni non necessarie, con alcuni modelli che producono persino numerosi errori. Questi risultati evidenziano i modelli di ragionamento rigidi degli attuali LRMs e sottolineano lo sviluppo sostanziale necessario per raggiungere capacità di pensiero duale bilanciate che possano adattarsi in modo appropriato alla complessità del compito.
I recenti progressi nel post-addestramento basato sull'apprendimento per rinforzo (RL) hanno portato a notevoli miglioramenti nei grandi modelli linguistici (LLM), in particolare nel potenziamento delle loro capacità di ragionamento per gestire compiti complessi. Tuttavia, la maggior parte dei metodi esistenti tratta i dati di addestramento come un insieme unificato, trascurando il fatto che l'addestramento moderno degli LLM spesso coinvolge una miscela di dati provenienti da distribuzioni diverse, che variano sia per origine che per difficoltà. Questa eterogeneità introduce una sfida cruciale: come pianificare in modo adattivo l'addestramento attraverso le distribuzioni per ottimizzare l'efficienza dell'apprendimento. In questo articolo, presentiamo un framework di apprendimento curriculare basato sul concetto di apprendibilità a livello di distribuzione. La nostra intuizione principale è che l'entità dei vantaggi della politica riflette quanto un modello possa ancora beneficiare di ulteriore addestramento su una determinata distribuzione. Sulla base di ciò, proponiamo un framework di apprendimento curriculare a livello di distribuzione per il post-addestramento RL degli LLM, che sfrutta il principio dell'Upper Confidence Bound (UCB) per regolare dinamicamente le probabilità di campionamento per diverse distribuzioni. Questo approccio privilegia le distribuzioni con un vantaggio medio elevato (sfruttamento) o un basso numero di campioni (esplorazione), producendo una pianificazione di addestramento adattiva e teoricamente fondata. Istanziamo il nostro framework di apprendimento curriculare utilizzando GRPO come algoritmo RL sottostante e ne dimostriamo l'efficacia su dataset di ragionamento logico con multiple difficoltà e fonti. I nostri esperimenti mostrano che il nostro framework migliora significativamente la velocità di convergenza e le prestazioni finali, evidenziando il valore delle strategie curriculari consapevoli della distribuzione nel post-addestramento degli LLM. Codice: https://github.com/ZhentingWang/DUMP.
Le rappresentazioni delle immagini vengono spesso valutate attraverso protocolli disgiunti e specifici per ogni compito, portando a una comprensione frammentata delle capacità dei modelli. Ad esempio, non è chiaro se un modello di embedding di immagini abile nel raggruppare immagini sia altrettanto efficace nel recuperare immagini rilevanti dato un testo. Introduciamo il Massive Image Embedding Benchmark (MIEB) per valutare le prestazioni dei modelli di embedding di immagini e di immagini-testo attraverso lo spettro più ampio fino ad oggi. MIEB copre 38 lingue in 130 compiti individuali, che raggruppiamo in 8 categorie di alto livello. Abbiamo valutato 50 modelli nel nostro benchmark, riscontrando che nessun singolo metodo domina in tutte le categorie di compiti. Riveliamo capacità nascoste nei modelli di visione avanzati, come la loro accurata rappresentazione visiva dei testi, e le loro ancora limitate capacità negli encoding intervallati e nel confrontare immagini e testi in presenza di fattori confondenti. Mostriamo inoltre che le prestazioni degli encoder di visione su MIEB sono altamente correlate con le loro prestazioni quando utilizzati in modelli linguistici multimodali di grandi dimensioni. Il nostro codice, dataset e classifica sono disponibili pubblicamente all'indirizzo https://github.com/embeddings-benchmark/mteb.
La simulazione sociale sta trasformando la ricerca tradizionale nelle scienze sociali modellando il comportamento umano attraverso interazioni tra individui virtuali e i loro ambienti. Con i recenti progressi nei modelli linguistici di grandi dimensioni (LLM), questo approccio ha dimostrato un potenziale crescente nel catturare le differenze individuali e nel prevedere i comportamenti di gruppo. Tuttavia, i metodi esistenti affrontano sfide di allineamento relative all'ambiente, agli utenti target, ai meccanismi di interazione e ai modelli comportamentali. A tal fine, introduciamo SocioVerse, un modello di mondo guidato da agenti LLM per la simulazione sociale. Il nostro framework include quattro potenti componenti di allineamento e un pool di utenti composto da 10 milioni di individui reali. Per validarne l'efficacia, abbiamo condotto esperimenti di simulazione su larga scala in tre domini distinti: politica, notizie ed economia. I risultati dimostrano che SocioVerse può riflettere le dinamiche di popolazione su larga scala garantendo diversità, credibilità e rappresentatività attraverso procedure standardizzate e minimi aggiustamenti manuali.
Gli agenti con Interfaccia Grafica (GUI) offrono soluzioni multipiattaforma per l'automazione di compiti digitali complessi, con un potenziale significativo di trasformare i flussi di lavoro produttivi. Tuttavia, le loro prestazioni sono spesso limitate dalla scarsità di dati di traiettoria di alta qualità. Per affrontare questa limitazione, proponiamo di addestrare Modelli di Visione e Linguaggio (VLMs) su compiti ricchi di dati e intensivi dal punto di vista del ragionamento durante una fase dedicata di mid-training, per poi esaminare come l'incorporazione di questi compiti faciliti la generalizzazione agli scenari di pianificazione GUI. Nello specifico, esploriamo una gamma di compiti con dati di instruction-tuning facilmente disponibili, tra cui percezione GUI, ragionamento multimodale e ragionamento testuale. Attraverso esperimenti estesi su 11 compiti di mid-training, dimostriamo che: (1) La generalizzazione dei compiti si rivela altamente efficace, producendo miglioramenti sostanziali nella maggior parte delle configurazioni. Ad esempio, il ragionamento matematico multimodale migliora le prestazioni su AndroidWorld di un assoluto 6,3%. Sorprendentemente, i dati matematici esclusivamente testuali aumentano significativamente le prestazioni degli agenti GUI web, ottenendo un miglioramento del 5,6% su WebArena e del 5,4% su AndroidWorld, sottolineando una notevole generalizzazione cross-modale dai domini testuali a quelli visivi; (2) Contrariamente alle ipotesi precedenti, i dati di percezione GUI - precedentemente considerati strettamente allineati ai compiti degli agenti GUI e ampiamente utilizzati per l'addestramento - hanno un impatto relativamente limitato sulle prestazioni finali; (3) Basandoci su queste intuizioni, identifichiamo i compiti di mid-training più efficaci e curiamo dataset misti ottimizzati, ottenendo miglioramenti assoluti delle prestazioni dell'8,0% su WebArena e del 12,2% su AndroidWorld. Il nostro lavoro fornisce preziose intuizioni sul trasferimento di conoscenze cross-domain per gli agenti GUI e offre un approccio pratico per affrontare le sfide della scarsità di dati in questo campo emergente. Il codice, i dati e i modelli saranno disponibili su https://github.com/hkust-nlp/GUIMid.
Recentemente, il miglioramento della capacità di ragionamento dei modelli multimodali di grandi dimensioni (LMMs) attraverso l'apprendimento per rinforzo ha compiuto notevoli progressi. Tuttavia, la maggior parte dei lavori esistenti si basa su dataset ad alta intensità di ragionamento come la matematica e il codice, e i ricercatori generalmente scelgono modelli di grandi dimensioni come base. Sosteniamo che esplorare le capacità di ragionamento di modelli di piccole dimensioni rimanga prezioso per i ricercatori con risorse computazionali limitate. Inoltre, consentire ai modelli di spiegare i loro processi di ragionamento su dataset generali di domande e risposte è altrettanto significativo. Pertanto, presentiamo il modello di ragionamento video su piccola scala TinyLLaVA-Video-R1. Basato su TinyLLaVA-Video, un modello di comprensione video addestrato in modo tracciabile con non più di 4 miliardi di parametri, non solo dimostra capacità di ragionamento e pensiero significativamente migliorate dopo l'uso dell'apprendimento per rinforzo su dataset generali di Video-QA, ma mostra anche la caratteristica emergente dei "momenti di intuizione". Inoltre, condividiamo una serie di risultati sperimentali, con l'obiettivo di fornire spunti pratici per future esplorazioni delle capacità di ragionamento (pensiero) video in modelli di piccole dimensioni. È disponibile all'indirizzo https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
Il ragionamento efficace è cruciale per risolvere problemi matematici complessi. I recenti modelli linguistici di grandi dimensioni (LLM) hanno migliorato le prestazioni aumentando il calcolo al momento del test attraverso lunghi processi di ragionamento a catena di pensiero. Tuttavia, i modelli basati su transformer sono intrinsecamente limitati nell'estendere la lunghezza del contesto a causa della loro complessità computazionale quadratica e dei requisiti di memoria lineari. In questo articolo, introduciamo un nuovo modello ibrido di ragionamento RNN lineare, M1, basato sull'architettura Mamba, che consente un'inferenza efficiente in termini di memoria. Il nostro approccio sfrutta un processo di distillazione da modelli di ragionamento esistenti ed è ulteriormente potenziato attraverso l'addestramento RL. I risultati sperimentali sui benchmark AIME e MATH mostrano che M1 non solo supera i precedenti modelli RNN lineari, ma eguaglia anche le prestazioni dei modelli di ragionamento distillati Deepseek R1 all'avanguardia su scala simile. Confrontiamo inoltre la nostra velocità di generazione con un motore di inferenza generico ad alte prestazioni, vLLM, e osserviamo un'accelerazione di oltre 3x rispetto a un transformer delle stesse dimensioni. Con l'aumento della velocità di elaborazione, siamo in grado di ottenere una maggiore accuratezza rispetto ai modelli di ragionamento transformer distillati DeepSeek R1 con un tempo di generazione fisso utilizzando il voto di autoconsistenza. In sintesi, introduciamo un modello di ragionamento ibrido Mamba e forniamo un approccio più efficace per scalare la generazione al momento del test utilizzando l'autoconsistenza o lunghi processi di ragionamento a catena di pensiero.
L'IA sta svolgendo un ruolo sempre più cruciale nel trasformare il modo in cui vengono fatte le scoperte scientifiche. Presentiamo The AI Scientist-v2, un sistema agentico end-to-end in grado di produrre il primo articolo per workshop accettato da una revisione paritaria interamente generato dall'IA. Questo sistema formula iterativamente ipotesi scientifiche, progetta ed esegue esperimenti, analizza e visualizza i dati, e redige in modo autonomo manoscritti scientifici. Rispetto al suo predecessore (v1, Lu et al., 2024 arXiv:2408.06292), The AI Scientist-v2 elimina la dipendenza da modelli di codice scritti da esseri umani, si generalizza efficacemente in diversi domini del machine learning e sfrutta una nuova metodologia di ricerca ad albero agentica progressiva gestita da un agente dedicato alla gestione degli esperimenti. Inoltre, abbiamo potenziato il componente di revisione dell'IA integrando un ciclo di feedback basato su un modello visione-linguaggio (VLM) per il perfezionamento iterativo del contenuto e dell'estetica delle figure. Abbiamo valutato The AI Scientist-v2 sottoponendo tre manoscritti completamente autonomi a un workshop ICLR con revisione paritaria. In particolare, un manoscritto ha ottenuto punteggi sufficientemente alti da superare la soglia media di accettazione per gli esseri umani, segnando la prima volta in cui un articolo interamente generato dall'IA ha superato con successo una revisione paritaria. Questo risultato evidenzia la crescente capacità dell'IA di condurre tutti gli aspetti della ricerca scientifica. Prevediamo che ulteriori progressi nelle tecnologie di scoperta scientifica autonoma avranno un impatto profondo sulla generazione di conoscenza umana, consentendo una scalabilità senza precedenti nella produttività della ricerca e accelerando significativamente le scoperte scientifiche, con grandi benefici per la società nel suo insieme. Abbiamo reso open-source il codice all'indirizzo https://github.com/SakanaAI/AI-Scientist-v2 per favorire lo sviluppo futuro di questa tecnologia trasformativa. Discutiamo inoltre il ruolo dell'IA nella scienza, inclusa la sicurezza dell'IA.
Gli scienziati spesso deducono procedure astratte da istanze specifiche di problemi e utilizzano queste astrazioni per generare nuove istanze correlate. Ad esempio, i programmi che codificano le regole formali e le proprietà di un sistema si sono rivelati utili in campi che vanno dall'RL (ambienti procedurali) alla fisica (motori di simulazione). Questi programmi possono essere visti come funzioni che producono output diversi in base alle loro parametrizzazioni (ad esempio, la configurazione di un gridworld o le condizioni fisiche iniziali). Introduciamo il termine EFA (Executable Functional Abstraction) per denotare tali programmi per problemi matematici. Costrutti simili agli EFA si sono dimostrati utili per il ragionamento matematico come generatori di problemi per testare i modelli. Tuttavia, il lavoro precedente si è limitato ad astrazioni per la matematica di livello scolastico (le cui regole semplici sono facili da codificare nei programmi), mentre la generazione di EFA per la matematica avanzata ha finora richiesto l'intervento umano. Esploriamo la costruzione automatica di EFA per problemi di matematica avanzata. Operazionalizziamo il compito di costruire automaticamente EFA come un compito di sintesi di programmi e sviluppiamo EFAGen, che condiziona un LLM su un problema matematico iniziale e la sua soluzione passo-passo per generare programmi EFA candidati che siano fedeli al problema generalizzato e alla classe di soluzioni sottostante al problema iniziale. Inoltre, formalizziamo le proprietà che qualsiasi EFA valido deve possedere in termini di test unitari eseguibili e mostriamo come i test possano essere utilizzati come ricompense verificabili per addestrare gli LLM a diventare migliori scrittori di EFA. Dimostriamo che gli EFA costruiti da EFAGen si comportano razionalmente rimanendo fedeli ai problemi iniziali, producono variazioni di problemi apprendibili e che EFAGen può dedurre EFA da molteplici fonti diverse di problemi matematici di livello competitivo. Infine, mostriamo gli usi a valle degli EFA scritti dai modelli, ad esempio trovare variazioni di problemi che sono più difficili o più facili da risolvere per un apprendente, nonché la generazione di dati.
I recenti LLM hanno migliorato significativamente le capacità di ragionamento, principalmente includendo un esplicito e prolungato processo di Pensiero come parte della generazione. In questo articolo, ci chiediamo se questo pensiero esplicito sia necessario. Utilizzando il modello all'avanguardia DeepSeek-R1-Distill-Qwen, scopriamo che bypassare il processo di pensiero tramite un semplice prompt, denominato NoThinking, può essere sorprendentemente efficace. Controllando il numero di token, NoThinking supera il Pensiero su un insieme diversificato di sette dataset di ragionamento impegnativi—inclusi la risoluzione di problemi matematici, la dimostrazione formale di teoremi e la codifica—specialmente in contesti a basso budget, ad esempio 51,3 vs. 28,9 su ACM 23 con 700 token. È degno di nota che le prestazioni di NoThinking diventino più competitive con pass@k all'aumentare di k. Basandoci su questa osservazione, dimostriamo che un approccio di scaling parallelo che utilizza NoThinking per generare N output in modo indipendente e aggregarli è altamente efficace. Per l'aggregazione, utilizziamo verificatori specifici per il compito quando disponibili, oppure applichiamo semplici strategie best-of-N come la selezione basata sulla confidenza. Il nostro metodo supera una gamma di baseline con una latenza simile utilizzando il Pensiero, ed è paragonabile al Pensiero con una latenza significativamente più lunga (fino a 9x). Insieme, la nostra ricerca incoraggia una riconsiderazione della necessità di lunghi processi di pensiero, stabilendo al contempo un riferimento competitivo per ottenere forti prestazioni di ragionamento in contesti a basso budget o a bassa latenza utilizzando lo scaling parallelo.
I recenti progressi nei Modelli Linguistico-Visuali di Grande Scala hanno dimostrato capacità notevoli. Tuttavia, spesso incontrano difficoltà quando si confrontano con compiti di ragionamento complesso che gli esseri umani tipicamente affrontano attraverso ausili visivi e un pensiero deliberato e graduale. Sebbene i metodi esistenti abbiano esplorato il pensiero lento basato sul testo o un'assistenza visiva rudimentale, non riescono a cogliere la natura intricata e interconnessa dei processi di ragionamento visivo-verbale umani. Per superare queste limitazioni e ispirati dai meccanismi del pensiero lento nella cognizione umana, introduciamo VisuoThink, un nuovo framework che integra in modo fluido i domini visuo-spaziali e linguistici. VisuoThink facilita il pensiero lento multimodale consentendo un ragionamento visivo-testuale progressivo e incorpora il ridimensionamento al momento del test attraverso una ricerca ad albero con anticipazione. Esperimenti estensivi dimostrano che VisuoThink migliora significativamente le capacità di ragionamento attraverso il ridimensionamento al momento dell'inferenza, anche senza fine-tuning, raggiungendo prestazioni all'avanguardia in compiti che coinvolgono la geometria e il ragionamento spaziale.
La scoperta di equazioni scientifiche è un compito fondamentale nella storia del progresso scientifico, poiché consente di derivare le leggi che governano i fenomeni naturali. Recentemente, i Modelli Linguistici di Grande Dimensione (LLM) hanno suscitato interesse per questo compito grazie al loro potenziale di sfruttare le conoscenze scientifiche incorporate per la generazione di ipotesi. Tuttavia, valutare le vere capacità di scoperta di questi metodi rimane una sfida, poiché i benchmark esistenti spesso si basano su equazioni comuni che possono essere memorizzate dagli LLM, portando a metriche di performance gonfiate che non riflettono la scoperta. In questo articolo, introduciamo LLM-SRBench, un benchmark completo con 239 problemi complessi in quattro domini scientifici, progettato specificamente per valutare i metodi di scoperta di equazioni scientifiche basati su LLM, prevenendo la memorizzazione banale. Il nostro benchmark comprende due categorie principali: LSR-Transform, che trasforma modelli fisici comuni in rappresentazioni matematiche meno comuni per testare il ragionamento oltre le forme memorizzate, e LSR-Synth, che introduce problemi sintetici guidati dalla scoperta, richiedendo un ragionamento basato sui dati. Attraverso una valutazione estensiva di diversi metodi all'avanguardia, utilizzando sia LLM aperti che chiusi, scopriamo che il sistema con le migliori prestazioni finora raggiunge solo una precisione simbolica del 31,5%. Questi risultati evidenziano le sfide della scoperta di equazioni scientifiche, posizionando LLM-SRBench come una risorsa preziosa per la ricerca futura.
I grandi modelli linguistici apprendono e continuano ad apprendere attraverso l'accumulo di aggiornamenti basati sui gradienti, ma come singoli frammenti di nuove informazioni influenzino la conoscenza esistente, portando sia a una generalizzazione benefica che a allucinazioni problematiche, rimane poco compreso. Dimostriamo che, quando apprendono nuove informazioni, i LLM mostrano un effetto di "priming": apprendere un nuovo fatto può portare il modello ad applicare in modo inappropriato tale conoscenza in contesti non correlati. Per studiare sistematicamente questo fenomeno, introduciamo "Outlandish", un dataset accuratamente curato di 1320 campioni di testo diversificati progettati per esplorare come nuove conoscenze si diffondano attraverso la base di conoscenza esistente di un LLM. Utilizzando questo dataset, mostriamo che il grado di priming dopo l'apprendimento di nuove informazioni può essere previsto misurando la probabilità dei token delle parole chiave prima dell'apprendimento. Questa relazione si mantiene robustamente attraverso diverse architetture di modelli (PALM-2, Gemma, Llama), dimensioni e fasi di addestramento. Infine, sviluppiamo due tecniche innovative per modulare come nuove conoscenze influenzano il comportamento esistente del modello: (1) una strategia di aumento del testo a "pietre miliari" e (2) un metodo di potatura degli aggiornamenti "ignore-k". Questi approcci riducono gli effetti indesiderati del priming del 50-95% preservando la capacità del modello di apprendere nuove informazioni. Le nostre scoperte forniscono sia intuizioni empiriche su come i LLM apprendono sia strumenti pratici per migliorare la specificità dell'inserimento di conoscenze nei modelli linguistici. Ulteriori materiali: https://sunchipsster1.github.io/projects/outlandish/
L'ascesa dei personaggi AI guidati da LLM solleva preoccupazioni in materia di sicurezza, in particolare per gli utenti umani vulnerabili con disturbi psicologici. Per affrontare questi rischi, proponiamo EmoAgent, un framework AI multi-agente progettato per valutare e mitigare i pericoli per la salute mentale nelle interazioni uomo-AI. EmoAgent è composto da due componenti: EmoEval simula utenti virtuali, inclusi quelli che rappresentano individui mentalmente vulnerabili, per valutare i cambiamenti nella salute mentale prima e dopo le interazioni con i personaggi AI. Utilizza strumenti di valutazione psicologica e psichiatrica clinicamente provati (PHQ-9, PDI, PANSS) per valutare i rischi mentali indotti dagli LLM. EmoGuard funge da intermediario, monitorando lo stato mentale degli utenti, prevedendo potenziali danni e fornendo feedback correttivi per mitigare i rischi. Esperimenti condotti su chatbot basati su personaggi popolari dimostrano che dialoghi emotivamente coinvolgenti possono portare a un deterioramento psicologico negli utenti vulnerabili, con un peggioramento dello stato mentale in più del 34,4% delle simulazioni. EmoGuard riduce significativamente questi tassi di deterioramento, sottolineando il suo ruolo nel garantire interazioni AI-umane più sicure. Il nostro codice è disponibile all'indirizzo: https://github.com/1akaman/EmoAgent
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno permesso loro di avvicinarsi a capacità persuasive di livello umano. Tuttavia, tale potenziale solleva anche preoccupazioni riguardo ai rischi per la sicurezza legati alla persuasione guidata da LLM, in particolare il loro potenziale di influenza non etica attraverso manipolazione, inganno, sfruttamento di vulnerabilità e molte altre tattiche dannose. In questo lavoro, presentiamo un'indagine sistematica sulla sicurezza persuasiva degli LLM attraverso due aspetti critici: (1) se gli LLM rifiutano correttamente compiti persuasivi non etici ed evitano strategie non etiche durante l'esecuzione, inclusi i casi in cui l'obiettivo persuasivo iniziale appare eticamente neutro, e (2) come fattori influenzanti come tratti della personalità e pressioni esterne influenzano il loro comportamento. A tal fine, introduciamo PersuSafety, il primo framework completo per la valutazione della sicurezza persuasiva, che consiste in tre fasi: creazione della scena persuasiva, simulazione della conversazione persuasiva e valutazione della sicurezza persuasiva. PersuSafety copre 6 temi persuasivi non etici diversi e 15 strategie non etiche comuni. Attraverso esperimenti estesi su 8 LLM ampiamente utilizzati, osserviamo significative preoccupazioni di sicurezza nella maggior parte degli LLM, inclusa l'incapacità di identificare compiti persuasivi dannosi e l'utilizzo di varie strategie persuasive non etiche. Il nostro studio invita a prestare maggiore attenzione al miglioramento dell'allineamento alla sicurezza in conversazioni progressive e guidate da obiettivi, come la persuasione.
La descrizione 3D, che mira a descrivere il contenuto di scene 3D in linguaggio naturale, rimane estremamente impegnativa a causa della intrinseca sparsità delle nuvole di punti e del debole allineamento cross-modale nei metodi esistenti. Per affrontare queste sfide, proponiamo 3D CoCa, un nuovo framework unificato che combina in modo fluido l'apprendimento contrastivo visione-linguaggio con la generazione di descrizioni 3D in un'unica architettura. Il nostro approccio sfrutta un backbone visione-linguaggio CLIP congelato per fornire ricchi prior semantici, un codificatore di scene 3D spazialmente consapevole per catturare il contesto geometrico e un decoder multi-modale per generare descrizioni dettagliate. A differenza dei precedenti metodi a due stadi che si basano su proposte esplicite di oggetti, 3D CoCa ottimizza congiuntamente gli obiettivi contrastivi e di descrizione in uno spazio di caratteristiche condiviso, eliminando la necessità di rilevatori esterni o proposte manuali. Questo paradigma di addestramento congiunto produce un ragionamento spaziale più forte e un ancoraggio semantico più ricco allineando le rappresentazioni 3D e testuali. Esperimenti estesi sui benchmark ScanRefer e Nr3D dimostrano che 3D CoCa supera significativamente gli attuali state-of-the-art del 10,2% e del 5,76% in CIDEr a 0,5IoU, rispettivamente. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/3DCoCa.
I modelli linguistici di grandi dimensioni (LLM) abilitati al ragionamento hanno recentemente dimostrato prestazioni impressionanti in compiti logici e matematici complessi, ma la loro efficacia nella valutazione della generazione del linguaggio naturale rimane inesplorata. Questo studio confronta sistematicamente LLM basati sul ragionamento (DeepSeek-R1 e OpenAI o3) con le loro controparti non abilitate al ragionamento in compiti di valutazione della traduzione automatica (MT) e della sintesi testuale (TS). Valutiamo otto modelli appartenenti a tre categorie architetturali, inclusi modelli di ragionamento all'avanguardia, loro varianti distillate (con parametri che vanno da 8B a 70B) e LLM convenzionali equivalenti non abilitati al ragionamento. I nostri esperimenti sui benchmark WMT23 e SummEval rivelano che i benefici delle capacità di ragionamento sono fortemente dipendenti dal modello e dal compito: mentre i modelli OpenAI o3-mini mostrano miglioramenti prestazionali consistenti con l'aumento dell'intensità del ragionamento, DeepSeek-R1 ottiene prestazioni inferiori rispetto alla sua variante non abilitata al ragionamento, con l'eccezione di alcuni aspetti della valutazione TS. L'analisi di correlazione dimostra che un maggiore utilizzo di token di ragionamento si correla positivamente con la qualità della valutazione nei modelli o3-mini. Inoltre, i nostri risultati mostrano che la distillazione delle capacità di ragionamento mantiene prestazioni ragionevoli nei modelli di medie dimensioni (32B), ma si degrada sostanzialmente nelle varianti più piccole (8B). Questo lavoro fornisce la prima valutazione completa degli LLM abilitati al ragionamento per la valutazione della generazione del linguaggio naturale e offre spunti per il loro utilizzo pratico.
Il ragionamento multimodale, che integra linguaggio e segnali visivi nella risoluzione di problemi e nel processo decisionale, rappresenta un aspetto fondamentale dell'intelligenza umana e un passo cruciale verso l'intelligenza artificiale generale. Tuttavia, la valutazione delle capacità di ragionamento multimodale nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) rimane inadeguata. La maggior parte dei benchmark di ragionamento esistenti è limitata da dimensioni ridotte dei dati, copertura ristretta dei domini e distribuzione non strutturata della conoscenza. Per colmare queste lacune, introduciamo MDK12-Bench, un benchmark multidisciplinare che valuta le capacità di ragionamento degli MLLMs attraverso esami reali del percorso scolastico K-12. Abbracciando sei discipline (matematica, fisica, chimica, biologia, geografia e informatica), il nostro benchmark comprende 140K istanze di ragionamento che coprono diversi livelli di difficoltà dalla scuola primaria al 12° grado. Presenta 6.827 annotazioni a livello di istanza basate su una struttura di conoscenza ben organizzata, spiegazioni dettagliate delle risposte, etichette di difficoltà e partizioni trasversali agli anni, fornendo una piattaforma robusta per una valutazione completa. Inoltre, proponiamo un nuovo framework di valutazione dinamica per mitigare i problemi di contaminazione dei dati, generando dinamicamente forme di domanda, tipi di domanda e stili di immagini durante la valutazione. Esperimenti estesi su MDK12-Bench rivelano le significative limitazioni degli attuali MLLMs nel ragionamento multimodale. I risultati ottenuti sul nostro benchmark offrono spunti per lo sviluppo delle prossime generazioni di modelli. I nostri dati e codici sono disponibili su https://github.com/LanceZPF/MDK12.
Per ridurre l'overhead di sviluppo e consentire un'integrazione senza soluzione di continuità tra i potenziali componenti che costituiscono qualsiasi applicazione di intelligenza artificiale generativa, il Model Context Protocol (MCP) (Anthropic, 2024) è stato recentemente rilasciato e successivamente ampiamente adottato. L'MCP è un protocollo aperto che standardizza le chiamate API ai grandi modelli linguistici (LLM), alle fonti di dati e agli strumenti agentici. Collegando più server MCP, ciascuno definito con un insieme di strumenti, risorse e prompt, gli utenti sono in grado di definire flussi di lavoro automatizzati completamente guidati da LLM. Tuttavia, dimostriamo che l'attuale progettazione dell'MCP comporta una vasta gamma di rischi per la sicurezza degli utenti finali. In particolare, dimostriamo che i LLM leader del settore possono essere costretti a utilizzare strumenti MCP per compromettere il sistema di uno sviluppatore di IA attraverso vari attacchi, come l'esecuzione di codice dannoso, il controllo di accesso remoto e il furto di credenziali. Per mitigare proattivamente questi e altri attacchi correlati, introduciamo uno strumento di verifica della sicurezza, MCPSafetyScanner, il primo strumento agentico per valutare la sicurezza di un server MCP arbitrario. MCPScanner utilizza diversi agenti per (a) determinare automaticamente campioni avversari dati gli strumenti e le risorse di un server MCP; (b) cercare vulnerabilità e rimedi correlati basati su tali campioni; e (c) generare un report di sicurezza che dettaglia tutti i risultati. Il nostro lavoro evidenzia gravi problemi di sicurezza con i flussi di lavoro agentici di uso generale, fornendo al contempo uno strumento proattivo per verificare la sicurezza dei server MCP e affrontare le vulnerabilità rilevate prima della distribuzione. Lo strumento di verifica dei server MCP descritto, MCPSafetyScanner, è disponibile gratuitamente all'indirizzo: https://github.com/johnhalloran321/mcpSafetyScanner
I modelli di diffusione pre-addestrati su larga scala hanno prodotto risultati eccellenti nel campo della generazione condizionata di immagini. Tuttavia, il restauro di antichi affreschi, come importante task downstream in questo ambito, pone sfide significative ai metodi di restauro basati su modelli di diffusione a causa delle ampie aree danneggiate e della scarsità di campioni di addestramento. I task di restauro condizionato si concentrano maggiormente sul fatto che la parte restaurata soddisfi gli standard estetici del restauro degli affreschi in termini di stile complessivo e dettagli delle giunzioni, e tali metriche per valutare i complementi euristici delle immagini sono carenti nella ricerca attuale. Proponiamo quindi DiffuMural, un meccanismo combinato di Convergenza Multi-scala e Diffusione Collaborativa con ControlNet e perdita di consistenza ciclica per ottimizzare la corrispondenza tra le immagini generate e il controllo condizionato. DiffuMural dimostra capacità eccezionali nel restauro degli affreschi, sfruttando dati di addestramento provenienti da 23 affreschi su larga scala di Dunhuang che presentano un'estetica visiva coerente. Il modello eccelle nel ripristinare dettagli intricati, ottenendo un aspetto complessivo coerente e affrontando le sfide uniche poste dagli affreschi incompleti privi di fondamento fattuale. Il nostro framework di valutazione incorpora quattro metriche chiave per valutare quantitativamente gli affreschi incompleti: accuratezza fattuale, dettaglio testurale, semantica contestuale e coerenza visiva olistica. Inoltre, integriamo valutazioni di valore umanistico per garantire che gli affreschi restaurati conservino il loro significato culturale e artistico. Esperimenti estensivi convalidano che il nostro metodo supera gli approcci all'avanguardia (SOTA) sia nelle metriche qualitative che quantitative.