Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli fondazionali multimodali, come GPT-4o, hanno recentemente compiuto progressi significativi, ma non è chiaro dove si collochino esattamente in termini di comprensione della visione. In questo articolo, valutiamo le prestazioni di popolari modelli fondazionali multimodali (GPT-4o, o4-mini, Gemini 1.5 Pro e Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) su compiti standard di visione artificiale (segmentazione semantica, rilevamento di oggetti, classificazione di immagini, previsione di profondità e normali di superficie) utilizzando dataset consolidati (ad esempio, COCO, ImageNet e sue varianti, ecc.). Le principali sfide per eseguire questa valutazione sono: 1) la maggior parte dei modelli è addestrata a produrre testo e non può esprimere nativamente domini versatili, come segmenti o geometria 3D, e 2) molti modelli leader sono proprietari e accessibili solo a livello di API, ovvero non c'è accesso ai pesi per adattarli. Affrontiamo queste sfide traducendo i compiti standard di visione in compiti equivalenti che possono essere formulati tramite prompt e compatibili con le API, utilizzando il concatenamento di prompt per creare un framework di benchmarking standardizzato. Osserviamo che: 1) i modelli non si avvicinano ai modelli specialistici all'avanguardia in nessun compito. Tuttavia, 2) sono rispettabili generalisti; questo è notevole considerando che presumibilmente sono addestrati principalmente su compiti basati su immagini e testo. 3) Eseguono compiti semantici in modo significativamente migliore rispetto a quelli geometrici. 4) Sebbene le tecniche di concatenamento di prompt influenzino le prestazioni, i modelli migliori mostrano una minore sensibilità alle variazioni dei prompt. 5) GPT-4o si comporta meglio tra i modelli non deduttivi, ottenendo la prima posizione in 4 su 6 compiti. 6) I modelli deduttivi, ad esempio o3, mostrano miglioramenti nei compiti geometrici. 7) Un'analisi preliminare dei modelli con generazione nativa di immagini, come l'ultimo GPT-4o, mostra che presentano peculiarità come allucinazioni e disallineamenti spaziali.
L'elevato costo computazionale dei modelli di diffusione durante l'inferenza ne ostacola l'utilizzo come emulatori fisici veloci. Nel contesto della generazione di immagini e video, questo svantaggio computazionale è stato affrontato generando nello spazio latente di un autoencoder anziché nello spazio dei pixel. In questo lavoro, indaghiamo se una strategia simile possa essere efficacemente applicata all'emulazione di sistemi dinamici e a quale costo. Scopriamo che l'accuratezza dell'emulazione nello spazio latente è sorprendentemente robusta a un'ampia gamma di tassi di compressione (fino a 1000x). Dimostriamo inoltre che gli emulatori basati su diffusione sono costantemente più accurati rispetto alle controparti non generative e compensano l'incertezza nelle loro previsioni con una maggiore diversità. Infine, trattiamo le scelte progettuali pratiche, che vanno dalle architetture agli ottimizzatori, che abbiamo ritenuto cruciali per l'addestramento degli emulatori nello spazio latente.
Il rapido progresso dei Large Language Models (LLM) ha accentuato la necessità di framework di valutazione che vadano oltre i benchmark centrati sull'inglese e affrontino le esigenze di regioni linguisticamente diversificate come l'India. Presentiamo EKA-EVAL, un framework di valutazione unificato e pronto per la produzione che integra oltre 35 benchmark, inclusi 10 dataset specifici per le lingue indiane, coprendo categorie come ragionamento, matematica, uso di strumenti, comprensione di contesti lunghi e comprensione della lettura. Rispetto agli strumenti di valutazione esistenti per le lingue indiane, EKA-EVAL offre una copertura più ampia dei benchmark, con supporto integrato per inferenza distribuita, quantizzazione e utilizzo multi-GPU. La nostra comparazione sistematica posiziona EKA-EVAL come il primo suite di valutazione end-to-end ed estensibile progettato sia per LLM globali che per quelli indiani, riducendo significativamente la barriera al benchmarking multilingue. Il framework è open-source e disponibile pubblicamente all'indirizzo https://github.com/lingo-iitgn/eka-eval e fa parte dell'iniziativa EKA in corso (https://eka.soket.ai), che mira a scalare fino a oltre 100 benchmark e a stabilire un ecosistema di valutazione multilingue robusto per i LLM.
Valutare la scrittura creativa generata da modelli linguistici di grandi dimensioni (LLM) rimane una sfida poiché le narrazioni aperte mancano di verità di riferimento. In assenza di metodi di valutazione automatizzati performanti, i modelli linguistici pronti all'uso (OTS) vengono impiegati come giudici zero-shot, ma la loro affidabilità in questo contesto non è chiara. Alla ricerca di una valutazione robusta per la scrittura creativa, introduciamo LitBench, il primo benchmark standardizzato e dataset accoppiato per la verifica della scrittura creativa, comprendente un set di test riservato di 2.480 confronti di storie sbilanciate e etichettate manualmente provenienti da Reddit e un corpus di addestramento di 43.827 coppie con etichette di preferenza umana. Utilizzando LitBench, (i) valutiamo i giudici LLM zero-shot, (ii) addestriamo modelli di ricompensa Bradley-Terry e generativi, e (iii) conduciamo uno studio umano online per validare le classificazioni dei modelli di ricompensa su nuove storie generate da LLM. Il nostro benchmark identifica Claude-3.7-Sonnet come il giudice pronto all'uso più forte, raggiungendo il 73% di accordo con le preferenze umane; tra i modelli di ricompensa addestrati, sia il modello Bradley-Terry che quello generativo raggiungono un'accuratezza del 78%, superando tutti i giudici pronti all'uso. Uno studio umano online conferma ulteriormente che i nostri modelli di ricompensa addestrati si allineano costantemente con le preferenze umane in nuove storie generate da LLM. Rilasciamo LitBench e i modelli di ricompensa su https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, fornendo una risorsa verificata per una valutazione e ottimizzazione affidabile e automatizzata dei sistemi di scrittura creativa.