Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Bielik v3, una serie di modelli generativi di testo efficienti in termini di parametri (1,5B e 4,5B) ottimizzati per l'elaborazione della lingua polacca. Questi modelli dimostrano che architetture più piccole e ben ottimizzate possono raggiungere prestazioni paragonabili a controparti molto più grandi, richiedendo sostanzialmente meno risorse computazionali. Il nostro approccio incorpora diverse innovazioni chiave: un tokenizer polacco personalizzato (APT4) che migliora significativamente l'efficienza dei token, la funzione di perdita Weighted Instruction Cross-Entropy Loss per bilanciare l'apprendimento tra i tipi di istruzione e un tasso di apprendimento adattivo che si regola dinamicamente in base ai progressi dell'addestramento. Addestrati su un corpus meticolosamente curato di 292 miliardi di token provenienti da 303 milioni di documenti, questi modelli eccellono in molteplici benchmark, tra cui l'Open PL LLM Leaderboard, il Complex Polish Text Understanding Benchmark, il Polish EQ-Bench e il Polish Medical Leaderboard. Il modello da 4,5 miliardi di parametri ottiene risultati competitivi con modelli 2-3 volte più grandi, mentre il modello da 1,5 miliardi offre prestazioni solide nonostante il suo profilo estremamente compatto. Questi progressi stabiliscono nuovi benchmark per la modellazione linguistica efficiente in termini di parametri per lingue meno rappresentate, rendendo l'IA di alta qualità per la lingua polacca più accessibile per applicazioni con risorse limitate.
Presentiamo Bielik 11B v2, un modello linguistico all'avanguardia ottimizzato per l'elaborazione di testi in polacco. Basato sull'architettura Mistral 7B v0.2 e scalato a 11 miliardi di parametri mediante depth up-scaling, questo modello dimostra prestazioni eccezionali nei benchmark linguistici polacchi, mantenendo al contempo solide capacità cross-linguali. Introduciamo due innovazioni tecniche chiave: la Weighted Instruction Cross-Entropy Loss, che ottimizza l'apprendimento su diversi tipi di istruzioni assegnando pesi basati sulla qualità agli esempi di addestramento, e l'Adaptive Learning Rate, che si adatta dinamicamente in base alla lunghezza del contesto. Una valutazione completa su più benchmark dimostra che Bielik 11B v2 supera molti modelli più grandi, inclusi quelli con 2-6 volte più parametri, e supera significativamente altri modelli linguistici specializzati per il polacco in compiti che vanno dalla comprensione linguistica al ragionamento complesso. L'efficienza parametrica del modello e le ampie opzioni di quantizzazione ne consentono l'implementazione su varie configurazioni hardware, avanzando le capacità dell'IA per la lingua polacca e stabilendo nuovi benchmark per la modellazione linguistica efficiente nelle risorse per lingue meno rappresentate.
Un robot generalista dovrebbe essere in grado di operare efficacemente in vari ambienti. Tuttavia, la maggior parte degli approcci esistenti si basa fortemente sulla scalabilità di dati annotati con azioni per migliorare le proprie capacità. Di conseguenza, questi approcci sono spesso limitati a una singola specifica fisica e faticano a imparare conoscenze trasferibili tra diverse incarnazioni e ambienti. Per affrontare queste limitazioni, proponiamo UniVLA, un nuovo framework per l'apprendimento di politiche visione-linguaggio-azione (VLA) trasversali alle incarnazioni. La nostra innovazione chiave consiste nel derivare rappresentazioni di azioni centrate sul compito da video utilizzando un modello di azione latente. Ciò ci consente di sfruttare dati estesi su un ampio spettro di incarnazioni e prospettive. Per mitigare l'effetto delle dinamiche irrilevanti per il compito, incorporiamo istruzioni linguistiche e stabiliamo un modello di azione latente all'interno dello spazio delle feature DINO. Appresa da video su scala internet, la politica generalista può essere implementata su vari robot attraverso una decodifica efficiente delle azioni latenti. Otteniamo risultati all'avanguardia su più benchmark di manipolazione e navigazione, nonché su implementazioni con robot reali. UniVLA raggiunge prestazioni superiori rispetto a OpenVLA con meno di 1/20 del calcolo di pre-addestramento e 1/10 dei dati a valle. Si osservano miglioramenti continui delle prestazioni man mano che dati eterogenei, inclusi persino video umani, vengono incorporati nel processo di addestramento. I risultati sottolineano il potenziale di UniVLA nel facilitare un apprendimento scalabile ed efficiente delle politiche robotiche.
La valutazione dell'efficacia del design dell'interfaccia utente (UI) va oltre l'estetica per influenzare il comportamento degli utenti, un principio centrale della Persuasività del Design. Il test A/B è il metodo predominante per determinare quali variazioni di UI guidano un maggiore coinvolgimento degli utenti, ma è costoso e richiede tempo. Sebbene i recenti Modelli Visione-Linguaggio (VLM) possano elaborare analisi automatizzate delle UI, gli approcci attuali si concentrano su attributi di design isolati piuttosto che sulla persuasività comparativa, il fattore chiave per ottimizzare le interazioni degli utenti. Per affrontare questo problema, introduciamo WiserUI-Bench, un benchmark progettato per il compito di Valutazione della Persuasività del Design UI in Coppia, che include 300 coppie di immagini UI reali etichettate con risultati di test A/B e razionali esperti. Inoltre, proponiamo G-FOCUS, una nuova strategia di ragionamento al momento dell'inferenza che migliora la valutazione della persuasività basata su VLM riducendo il bias di posizione e aumentando l'accuratezza della valutazione. I risultati sperimentali mostrano che G-FOCUS supera le strategie di inferenza esistenti in termini di coerenza e accuratezza per la valutazione UI in coppia. Promuovendo la valutazione della persuasività delle UI guidata da VLM, il nostro lavoro offre un approccio per integrare i test A/B, favorendo il progresso nella modellazione scalabile delle preferenze delle UI e nell'ottimizzazione del design. Codice e dati saranno rilasciati pubblicamente.
I recenti sviluppi nei Modelli Linguistici di Grande Scala (LLMs) si sono spostati dal ridimensionamento pre-addestramento a quello post-addestramento e in fase di test. In questi sviluppi, è emerso un paradigma unificato chiave: l'Apprendimento dalle Ricompense, dove i segnali di ricompensa fungono da stelle guida per orientare il comportamento degli LLM. Questo paradigma ha sostenuto una vasta gamma di tecniche prevalenti, come l'apprendimento per rinforzo (in RLHF, DPO e GRPO), il decoding guidato dalle ricompense e la correzione post-hoc. In modo cruciale, questo paradigma consente la transizione da un apprendimento passivo da dati statici a un apprendimento attivo da feedback dinamico. Ciò conferisce agli LLM preferenze allineate e capacità di ragionamento profondo. In questa rassegna, presentiamo una panoramica completa del paradigma dell'apprendimento dalle ricompense. Categorizziamo e analizziamo le strategie sotto questo paradigma attraverso le fasi di addestramento, inferenza e post-inferenza. Discutiamo inoltre i benchmark per i modelli di ricompensa e le principali applicazioni. Infine, evidenziamo le sfide e le direzioni future. Manteniamo una raccolta di articoli all'indirizzo https://github.com/bobxwu/learning-from-rewards-llm-papers.
Man mano che i Large Language Models (LLM) diventano ampiamente accessibili, una comprensione dettagliata della loro conoscenza in domini specifici diventa necessaria per un utilizzo efficace nel mondo reale. Questo è particolarmente critico nel campo della salute pubblica, dove il mancato recupero di informazioni rilevanti, accurate e aggiornate potrebbe avere un impatto significativo sui residenti del Regno Unito. Tuttavia, attualmente si sa poco sulla conoscenza degli LLM riguardo alle informazioni sulla salute pubblica del governo britannico. Per affrontare questo problema, questo articolo introduce un nuovo benchmark, PubHealthBench, con oltre 8000 domande per valutare le risposte degli LLM a domande a scelta multipla (MCQA) e a risposte libere su temi di salute pubblica, creato tramite una pipeline automatizzata. Rilasciamo inoltre un nuovo dataset dei documenti di orientamento sulla salute pubblica del governo britannico estratti e utilizzati come testo sorgente per PubHealthBench. Valutando 24 LLM su PubHealthBench, scopriamo che i più recenti LLM privati (GPT-4.5, GPT-4.1 e o1) possiedono un elevato grado di conoscenza, raggiungendo oltre il 90% nel setup MCQA, e superano gli esseri umani che utilizzano i motori di ricerca in modo superficiale. Tuttavia, nel setup a risposta libera osserviamo prestazioni inferiori, con nessun modello che supera il 75%. Pertanto, sebbene ci siano segnali promettenti che gli LLM all'avanguardia (SOTA) siano una fonte sempre più accurata di informazioni sulla salute pubblica, potrebbero essere ancora necessarie ulteriori misure di sicurezza o strumenti quando si forniscono risposte libere su temi di salute pubblica.
Il modello GPT-4o di OpenAI, che integra input e output multimodali all'interno di un'architettura autoregressiva, ha dimostrato prestazioni senza precedenti nella generazione di immagini. In questo lavoro, ne investigiamo il potenziale impatto sulla comunità di restauro delle immagini. Presentiamo la prima valutazione sistematica di GPT-4o su una varietà di compiti di restauro. I nostri esperimenti rivelano che, sebbene le immagini restaurate da GPT-4o siano visivamente accattivanti, spesso presentano problemi di fedeltà strutturale a livello di pixel rispetto alle immagini di riferimento. Tra i problemi comuni vi sono variazioni nelle proporzioni dell'immagine, spostamenti nelle posizioni e nelle quantità degli oggetti, e cambiamenti nel punto di vista. Per affrontare queste problematiche, prendendo come casi di studio rappresentativi la rimozione della foschia, la rimozione della pioggia e il miglioramento delle immagini in condizioni di scarsa illuminazione, dimostriamo che gli output di GPT-4o possono fungere da potenti prior visivi, migliorando sostanzialmente le prestazioni delle reti esistenti per la rimozione della foschia. Questo lavoro offre linee guida pratiche e un framework di base per facilitare l'integrazione di GPT-4o nelle future pipeline di restauro delle immagini. Speriamo che lo studio sul restauro delle immagini con GPT-4o acceleri l'innovazione nel più ampio campo della generazione di immagini. Per supportare ulteriori ricerche, renderemo disponibili le immagini restaurate da GPT-4o provenienti da oltre 10 dataset ampiamente utilizzati nel restauro delle immagini.
La registrazione rigida di nuvole di punti è un problema fondamentale nella visione artificiale 3D. Nel caso multivista, l'obiettivo è trovare un insieme di pose 6D per allineare un insieme di oggetti. I metodi basati sulla registrazione a coppie si affidano a un successivo algoritmo di sincronizzazione, il che li rende poco scalabili con il numero di viste. Gli approcci generativi superano questa limitazione, ma si basano su modelli di mistura gaussiana e utilizzano un algoritmo Expectation-Maximization. Di conseguenza, non sono adatti a gestire grandi trasformazioni. Inoltre, la maggior parte dei metodi esistenti non può gestire alti livelli di degradazione. In questo articolo, introduciamo POLAR (POint cloud LAtent Registration), un metodo di registrazione multivista in grado di gestire in modo efficiente un gran numero di viste, pur essendo robusto a un alto livello di degradazioni e a grandi angoli iniziali. Per ottenere ciò, trasponiamo il problema di registrazione nello spazio latente di un autoencoder pre-addestrato, progettiamo una funzione di perdita che tiene conto delle degradazioni e sviluppiamo una strategia di ottimizzazione multistart efficiente. Il nostro metodo proposto supera significativamente gli approcci all'avanguardia su dati sintetici e reali. POLAR è disponibile su github.com/pypolar/polar o come pacchetto autonomo che può essere installato con pip install polaregistration.