Articoli di ricerca IA selezionati quotidianamente con traduzioni
Esiste un'ampia affermazione diffusa che le GAN siano difficili da addestrare e le architetture GAN presenti in letteratura siano disseminate di trucchi empirici. Forniamo prove contrarie a questa affermazione e costruiamo una base GAN moderna in modo più metodico. In primo luogo, deriviamo una perdita regolarizzata relativistica per le GAN ben comportata che affronta problemi di caduta delle modalità e mancata convergenza che in passato venivano affrontati tramite un insieme di trucchi ad hoc. Analizziamo matematicamente la nostra perdita e dimostriamo che ammette garanzie di convergenza locale, a differenza della maggior parte delle perdite relativistiche esistenti. In secondo luogo, la nostra nuova perdita ci consente di eliminare tutti i trucchi ad hoc e sostituire le strutture di base obsolete utilizzate nelle GAN comuni con architetture moderne. Utilizzando StyleGAN2 come esempio, presentiamo una roadmap di semplificazione e modernizzazione che porta a una nuova base minimalista - R3GAN. Nonostante la sua semplicità, il nostro approccio supera StyleGAN2 sui dataset FFHQ, ImageNet, CIFAR e Stacked MNIST, e si confronta favorevolmente con le GAN all'avanguardia e i modelli di diffusione.
Questo articolo esplora i progressi nel rendere i grandi modelli linguistici (LLM) più simili all'essere umano. Ci concentriamo sulle tecniche che migliorano la comprensione del linguaggio naturale, la coerenza conversazionale e l'intelligenza emotiva nei sistemi di intelligenza artificiale. Lo studio valuta vari approcci, tra cui il raffinamento con dataset diversificati, l'incorporazione di principi psicologici e la progettazione di modelli che imitano meglio i pattern di ragionamento umano. I nostri risultati dimostrano che questi miglioramenti non solo migliorano le interazioni degli utenti, ma aprono anche nuove possibilità per le applicazioni di intelligenza artificiale in diversi settori. Lavori futuri affronteranno le implicazioni etiche e i potenziali pregiudizi introdotti da queste caratteristiche simili all'essere umano.
Studiamo empiricamente il pre-training autoregressivo da video. Per condurre il nostro studio, costruiamo una serie di modelli video autoregressivi, chiamati Toto. Trattiamo i video come sequenze di token visivi e addestriamo modelli transformer per prevedere in modo autoregressivo i token futuri. I nostri modelli vengono pre-istrutti su un dataset diversificato di video e immagini che comprende oltre 1 trilione di token visivi. Esploriamo diverse scelte architetturali, di addestramento e di progettazione dell'inferenza. Valutiamo le rappresentazioni visive apprese su una serie di compiti successivi, tra cui riconoscimento di immagini, classificazione video, tracciamento oggetti e robotica. I nostri risultati dimostrano che, nonostante i minimi bias induttivi, il pre-training autoregressivo porta a prestazioni competitive su tutti i benchmark. Infine, scopriamo che aumentando le dimensioni dei nostri modelli video si ottengono curve di scalabilità simili a quelle osservate nei modelli linguistici, sebbene con un tasso diverso. Maggiori dettagli su https://brjathu.github.io/toto/
I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno suscitato interesse per il loro utilizzo nella guida autonoma, in particolare nella generazione di decisioni di guida interpretabili attraverso il linguaggio naturale. Tuttavia, l'assunzione che i VLM forniscono intrinsecamente spiegazioni visivamente fondate, affidabili e interpretabili per la guida rimane in gran parte inesaminata. Per affrontare questa lacuna, presentiamo DriveBench, un dataset di benchmark progettato per valutare l'affidabilità dei VLM in 17 contesti (input puliti, corrotti e solo testuali), che comprende 19.200 frame, 20.498 coppie domanda-risposta, tre tipi di domande, quattro compiti di guida principali e un totale di 12 VLM popolari. Le nostre scoperte rivelano che i VLM spesso generano risposte plausibili derivate da conoscenze generali o indizi testuali piuttosto che da un ancoraggio visivo vero, specialmente in presenza di input visivi degradati o mancanti. Questo comportamento, mascherato da squilibri nel dataset e da metriche di valutazione insufficienti, comporta rischi significativi in scenari critici per la sicurezza come la guida autonoma. Osserviamo inoltre che i VLM faticano con il ragionamento multimodale e mostrano una sensibilità accentuata alle corruzioni degli input, portando a inconsistenze nelle prestazioni. Per affrontare queste sfide, proponiamo metriche di valutazione raffinate che danno priorità a un ancoraggio visivo robusto e a una comprensione multimodale. Inoltre, sottolineiamo il potenziale di sfruttare la consapevolezza delle corruzioni dei VLM per migliorarne l'affidabilità, offrendo una roadmap per lo sviluppo di sistemi decisionali più affidabili e interpretabili in contesti reali di guida autonoma. Il toolkit di benchmark è pubblicamente accessibile.
La maggior parte dei Grandi Modelli Visione-Linguaggio (LVLM) attualmente sono addestrati principalmente su dati in lingua inglese, il che li rende in difficoltà nel comprendere input non in inglese e nel generare output nella lingua di destinazione desiderata. Gli sforzi esistenti per mitigare questi problemi consistono nell'aggiungere dati di addestramento multilingue, ma lo fanno in modo largamente ad-hoc, mancando di approfondimenti su come diverse combinazioni di addestramento influenzino diversi gruppi di lingue. In questo lavoro, presentiamo un'indagine esaustiva sulle strategie di addestramento per LVLM massicciamente multilingue. Inizialmente, conduciamo una serie di esperimenti a più fasi che coprono 13 compiti visione-linguaggio e 43 lingue, esaminando sistematicamente: (1) il numero di lingue di addestramento che possono essere inclusi senza degradare le prestazioni in inglese e (2) le distribuzioni ottimali delle lingue per il pre-addestramento e (3) i dati di sintonizzazione delle istruzioni. Inoltre, (4) indaghiamo su come migliorare la comprensione multilingue testo-immagine e presentiamo un nuovo benchmark per il compito. Sorprendentemente, la nostra analisi rivela che si può (i) includere fino a 100 lingue di addestramento contemporaneamente (ii) con appena il 25-50\% di dati non in inglese, per migliorare notevolmente le prestazioni multilingue mantenendo allo stesso tempo forti prestazioni in inglese. Troviamo inoltre che (iii) includere dati OCR non in inglese nel pre-addestramento e nella sintonizzazione delle istruzioni è fondamentale per migliorare la comprensione multilingue testo-immagine. Infine, mettiamo insieme tutte le nostre scoperte e addestriamo Centurio, un LVLM a 100 lingue, offrendo prestazioni all'avanguardia in una valutazione che copre 14 compiti e 56 lingue.
I modelli di ragionamento di grandi dimensioni (LRM) come OpenAI-o1 hanno dimostrato notevoli capacità di ragionamento a lungo termine attraverso l'apprendimento per rinforzo su larga scala. Tuttavia, i loro processi di ragionamento estesi spesso soffrono di insufficienza di conoscenza, portando a frequenti incertezze e potenziali errori. Per affrontare questa limitazione, introduciamo Search-o1, un framework che potenzia i LRM con un meccanismo di generazione potenziato da recupero agente (RAG) e un modulo Reason-in-Documents per affinare i documenti recuperati. Search-o1 integra un flusso di lavoro di ricerca agente nel processo di ragionamento, consentendo il recupero dinamico di conoscenze esterne quando i LRM incontrano punti di conoscenza incerti. Inoltre, a causa della natura prolissa dei documenti recuperati, progettiamo un modulo Reason-in-Documents separato per analizzare approfonditamente le informazioni recuperate prima di iniettarle nella catena di ragionamento, riducendo il rumore e preservando un flusso di ragionamento coerente. Estesi esperimenti su compiti di ragionamento complessi in scienza, matematica e codifica, nonché su sei benchmark di domande e risposte a dominio aperto, dimostrano le elevate prestazioni di Search-o1. Questo approccio potenzia l'affidabilità e l'applicabilità dei LRM in compiti di ragionamento complessi, aprendo la strada a sistemi intelligenti più affidabili e versatili. Il codice è disponibile su https://github.com/sunnynexus/Search-o1.
I Large Language Models (LLM) hanno dimostrato una notevole competenza in una varietà di compiti complessi. Una significativa applicazione degli LLM è affrontare le sfide dell'ingegneria del software, in particolare risolvendo compiti reali su GitHub correggendo il codice basandosi sui problemi segnalati dagli utenti. Tuttavia, molti approcci attuali si basano su LLM proprietari, il che limita la riproducibilità, l'accessibilità e la trasparenza. I componenti critici degli LLM per affrontare i problemi dell'ingegneria del software e come le loro capacità possano essere efficacemente potenziate rimangono poco chiari. Per affrontare queste sfide, presentiamo SWE-Fixer, un nuovo LLM open-source progettato per risolvere in modo efficace ed efficiente i problemi su GitHub. SWE-Fixer è composto da due moduli essenziali: un modulo di recupero file di codice e un modulo di modifica del codice. Il modulo di recupero utilizza BM25 insieme a un modello LLM leggero per ottenere un recupero di file da grezzo a fine. Successivamente, il modulo di modifica del codice utilizza l'altro modello LLM per generare patch per i file identificati. Successivamente, per mitigare la mancanza di set di dati pubblicamente disponibili, abbiamo compilato un ampio set di dati che include 110.000 problemi di GitHub insieme alle relative patch e addestrato i due moduli di SWE-Fixer separatamente. Valutiamo il nostro approccio sui benchmark SWE-Bench Lite e Verified, ottenendo prestazioni all'avanguardia tra i modelli open-source con punteggi del 23,3% e del 30,2%, rispettivamente. Questi risultati evidenziano l'efficacia del nostro approccio. Metteremo il nostro modello, set di dati e codice a disposizione pubblicamente su https://github.com/InternLM/SWE-Fixer.
Recentemente, i Modelli Autoregressivi Visivi (VAR) hanno introdotto un avanzamento rivoluzionario nel campo della generazione di immagini, offrendo un approccio scalabile attraverso un paradigma di "previsione della prossima scala" da grossolana a fine. Tuttavia, l'algoritmo all'avanguardia dei modelli VAR in [Tian, Jiang, Yuan, Peng e Wang, NeurIPS 2024] richiede un tempo O(n^4), che risulta computazionalmente inefficiente. In questo lavoro, analizziamo i limiti computazionali e i criteri di efficienza dei Modelli VAR attraverso una lente di complessità dettagliata. Il nostro contributo chiave consiste nell'identificare le condizioni in cui i calcoli VAR possono raggiungere una complessità temporale sub-quadratica. In particolare, stabiliamo una soglia critica per la norma delle matrici di input utilizzate nei meccanismi di attenzione VAR. Al di sopra di questa soglia, assumendo l'Ipotesi del Tempo Esponenziale Forte (SETH) dalla teoria della complessità dettagliata, diventa impossibile un algoritmo temporale sub-quartico per i modelli VAR. Per supportare i nostri risultati teorici, presentiamo costruzioni efficienti che sfruttano approssimazioni a basso rango che si allineano ai criteri derivati. Questo lavoro avvia lo studio dell'efficienza computazionale del modello VAR da una prospettiva teorica. La nostra tecnica farà luce sull'avanzamento della generazione di immagini scalabile ed efficiente nei framework VAR.
La pervasività dei modelli linguistici proprietari ha sollevato critiche preoccupazioni sulla privacy, rendendo necessari progressi nell'inferenza privata (PI), dove i calcoli vengono eseguiti direttamente su dati crittografati senza rivelare informazioni sensibili degli utenti. Sebbene la PI offra una soluzione promettente, la sua implementazione pratica è ostacolata da notevoli sovraccarichi di comunicazione e latenza, derivanti principalmente da operazioni non lineari. Per affrontare questo problema, introduciamo un quadro informativo per caratterizzare il ruolo delle non linearità nei modelli linguistici basati solo sul decoder, gettando le basi per ottimizzare architetture trasformative adattate alle esigenze della PI. Sfruttando l'entropia di Shannon come misura quantitativa, scopriamo il duplice significato delle non linearità precedentemente inesplorato: oltre a garantire la stabilità dell'addestramento, sono cruciali per mantenere la diversità delle attenzioni. In particolare, scopriamo che la loro rimozione attiva due modalità critiche di fallimento: il "collasso dell'entropia" nei livelli più profondi che destabilizza l'addestramento e il "sovraccarico entropico" nei livelli precedenti che porta a un sottoutilizzo della capacità rappresentativa dell'Attenzione Multi-Head (MHA). Proponiamo un meccanismo di attenzione guidato dall'entropia abbinato a una nuova tecnica di regolarizzazione dell'entropia per mitigare il sovraccarico entropico. Inoltre, esploriamo alternative amichevoli per la PI alla normalizzazione dei livelli per prevenire il collasso dell'entropia e stabilizzare l'addestramento di LLM con minori non linearità. Il nostro studio colma il divario tra teoria dell'informazione e progettazione architettonica, stabilendo la dinamica dell'entropia come guida fondamentale per lo sviluppo di architetture PI efficienti. Il codice e l'implementazione sono disponibili su https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Questo articolo introduce risorse e modelli fondamentali per l'elaborazione del linguaggio naturale (NLP) del turco storico, un ambito rimasto poco esplorato nella linguistica computazionale. Presentiamo il primo dataset di riconoscimento delle entità nominate (NER), HisTR, e il primo albero di dipendenze di Universal Dependencies, OTA-BOUN, per una forma storica della lingua turca insieme a modelli basati su trasformatori addestrati utilizzando questi dataset per il riconoscimento delle entità nominate, il parsing delle dipendenze e l'etichettatura delle parti del discorso. Inoltre, presentiamo Ottoman Text Corpus (OTC), un corpus pulito di testi storici turchi trascritti che copre un'ampia gamma di periodi storici. I nostri risultati sperimentali mostrano miglioramenti significativi nell'analisi computazionale del turco storico, ottenendo risultati promettenti in compiti che richiedono la comprensione delle strutture linguistiche storiche. Mettono in evidenza anche sfide esistenti, come l'adattamento di dominio e le variazioni linguistiche attraverso i periodi storici. Tutte le risorse e i modelli presentati sono resi disponibili su https://huggingface.co/bucolin per fungere da punto di riferimento per futuri progressi nell'NLP del turco storico.