Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo i nostri modelli di ragionamento di prima generazione, DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, un modello addestrato tramite apprendimento per rinforzo su larga scala senza sintonizzazione fine supervisionata come passo preliminare, dimostra notevoli capacità di ragionamento. Attraverso l'apprendimento per rinforzo, DeepSeek-R1-Zero emerge naturalmente con numerosi comportamenti di ragionamento potenti e intriganti. Tuttavia, affronta sfide come scarsa leggibilità e mescolanza linguistica. Per affrontare questi problemi e migliorare ulteriormente le prestazioni di ragionamento, presentiamo DeepSeek-R1, che incorpora addestramento a più stadi e dati di avvio a freddo prima dell'apprendimento per rinforzo. DeepSeek-R1 raggiunge prestazioni paragonabili a OpenAI-o1-1217 su compiti di ragionamento. Per supportare la comunità di ricerca, rendiamo open-source DeepSeek-R1-Zero, DeepSeek-R1 e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 basati su Qwen e Llama.
Il preaddestramento del modello linguistico con la previsione del token successivo si è dimostrato efficace per aumentare le risorse computazionali, ma è limitato dalla quantità di dati di addestramento disponibili. L'espansione del reinforcement learning (RL) apre una nuova dimensione per il continuo miglioramento dell'intelligenza artificiale, con la promessa che i grandi modelli linguistici (LLM) possano aumentare i loro dati di addestramento imparando ad esplorare con ricompense. Tuttavia, i lavori pubblicati in precedenza non hanno prodotto risultati competitivi. Alla luce di ciò, riportiamo la pratica di addestramento di Kimi k1.5, il nostro ultimo LLM multimodale addestrato con RL, inclusi le tecniche di addestramento RL, le ricette dei dati multimodali e l'ottimizzazione dell'infrastruttura. La scalabilità del contesto lungo e i metodi di ottimizzazione della policy migliorati sono ingredienti chiave del nostro approccio, che stabilisce un framework RL semplice ed efficace senza fare affidamento su tecniche più complesse come la ricerca ad albero Monte Carlo, le funzioni di valore e i modelli di ricompensa di processo. In particolare, il nostro sistema raggiunge prestazioni di ragionamento all'avanguardia su diversi benchmark e modalità, ad esempio 77.5 su AIME, 96.2 su MATH 500, 94-esimo percentile su Codeforces, 74.9 su MathVista, eguagliando l'o1 di OpenAI. Inoltre, presentiamo efficaci metodi long2short che utilizzano tecniche long-CoT per migliorare i modelli short-CoT, producendo risultati di ragionamento short-CoT all'avanguardia, ad esempio 60.8 su AIME, 94.6 su MATH500, 47.3 su LiveCodeBench, superando di gran lunga i modelli short-CoT esistenti come GPT-4o e Claude Sonnet 3.5 (fino al +550%).
In questo articolo, proponiamo VideoLLaMA3, un modello fondamentale multimodale più avanzato per la comprensione di immagini e video. La filosofia di progettazione centrale di VideoLLaMA3 è incentrata sulla visione. Il significato di "vision-centric" è duplice: il paradigma di addestramento centrato sulla visione e la progettazione del framework centrato sulla visione. La chiave della nostra visione del paradigma di addestramento centrato sulla visione è che i dati di alta qualità immagine-testo sono cruciali sia per la comprensione delle immagini che dei video. Invece di preparare enormi set di dati video-testo, ci concentriamo sulla costruzione di set di dati immagine-testo su larga scala e di alta qualità. VideoLLaMA3 ha quattro fasi di addestramento: 1) fase di allineamento centrata sulla visione, che prepara l'encoder e il proiettore della visione; 2) fase di preaddestramento visione-linguaggio, che ottimizza congiuntamente l'encoder della visione, il proiettore e LLM con dati immagine-testo su larga scala che coprono vari tipi (inclusi immagini di scene, documenti, grafici) e dati solo testo. 3) fase di raffinamento multi-task, che incorpora dati SFT immagine-testo per compiti successivi e dati video-testo per stabilire una base per la comprensione dei video. 4) raffinamento centrato sui video, che migliora ulteriormente la capacità del modello nella comprensione dei video. Per quanto riguarda la progettazione del framework, per catturare meglio dettagli fini nelle immagini, l'encoder della visione preaddestrato è adattato per codificare immagini di dimensioni variabili in token della visione con numeri corrispondenti, piuttosto che un numero fisso di token. Per gli input video, riduciamo il numero di token della visione in base alla loro similarità in modo che la rappresentazione dei video sia più precisa e compatta. Grazie ai design centrati sulla visione, VideoLLaMA3 raggiunge prestazioni convincenti sia nei benchmark di comprensione delle immagini che dei video.
La produzione cinematografica virtuale richiede processi decisionali complessi, tra cui la scrittura della sceneggiatura, la cinematografia virtuale e il posizionamento preciso degli attori e delle azioni. Motivato dai recenti progressi nel processo decisionale automatizzato con società basate su agenti linguistici, questo articolo introduce FilmAgent, un nuovo framework collaborativo multi-agente basato su LLM per l'automazione cinematografica end-to-end nei nostri spazi virtuali 3D costruiti. FilmAgent simula vari ruoli di troupe, tra cui registi, sceneggiatori, attori e direttori della fotografia, e copre le fasi chiave di un flusso di lavoro di produzione cinematografica: (1) lo sviluppo dell'idea trasforma le idee generate in linee guida strutturate della storia; (2) la scrittura della sceneggiatura approfondisce i dialoghi e le azioni dei personaggi per ogni scena; (3) la cinematografia determina le impostazioni della telecamera per ogni inquadratura. Un team di agenti collabora attraverso feedback iterativi e revisioni, verificando così le sceneggiature intermedie e riducendo le allucinazioni. Valutiamo i video generati su 15 idee e 4 aspetti chiave. La valutazione umana mostra che FilmAgent supera tutti i modelli di riferimento su tutti gli aspetti e ottiene un punteggio medio di 3,98 su 5, dimostrando la fattibilità della collaborazione multi-agente nella produzione cinematografica. Un'ulteriore analisi rivela che FilmAgent, nonostante utilizzi il modello GPT-4o meno avanzato, supera il modello o1 a singolo agente, mostrando il vantaggio di un sistema multi-agente ben coordinato. Infine, discutiamo i punti di forza e di debolezza complementari del modello testo-video di OpenAI, Sora, e del nostro FilmAgent nella produzione cinematografica.
I grandi modelli linguistici (LLM) dimostrano un'ottima performance ma mancano della flessibilità necessaria per adattarsi rapidamente alle preferenze umane senza dover essere ritraining. In questo lavoro, presentiamo l' Ottimizzazione delle Preferenze al Test (TPO), un framework che allinea le uscite del LLM con le preferenze umane durante l'inferenza, eliminando la necessità di aggiornare i parametri del modello. Piuttosto che basarsi esclusivamente su ricompense numeriche, TPO traduce i segnali di ricompensa in critiche testuali e li utilizza come ricompense testuali per affinare iterativamente la sua risposta. Le valutazioni su benchmark che coprono il seguire le istruzioni, l'allineamento delle preferenze, la sicurezza e la matematica rivelano che TPO migliora progressivamente l'allineamento con le preferenze umane. In particolare, dopo solo pochi passaggi di TPO, il modello inizialmente non allineato Llama-3.1-70B-SFT può superare il corrispettivo allineato, Llama-3.1-70B-Instruct. Inoltre, TPO scala efficientemente sia con la larghezza che con la profondità della ricerca durante l'inferenza. Attraverso casi di studio, illustramo come TPO sfrutti la capacità innata del LLM di interpretare e agire sui segnali di ricompensa. I nostri risultati stabiliscono TPO come un'alternativa pratica e leggera per l'ottimizzazione delle preferenze al test, raggiungendo l'allineamento al volo. Il nostro codice è disponibile pubblicamente su https://github.com/yafuly/TPO.
I modelli Mixture-of-Experts (MoE) utilizzano principalmente un router per assegnare i token a specifici moduli esperti, attivando solo parametri parziali e superando spesso i modelli densi. Sosteniamo che la separazione tra la presa di decisione del router e l'esecuzione degli esperti sia una questione critica ma spesso trascurata, che porta a una selezione degli esperti subottimale e a un apprendimento inefficace. Per affrontare questo problema, proponiamo Autonomy-of-Experts (AoE), un nuovo paradigma MoE in cui gli esperti selezionano autonomamente se stessi per elaborare gli input. AoE si basa sull'idea che un esperto sia consapevole della propria capacità di elaborare efficacemente un token, consapevolezza riflessa nella scala delle sue attivazioni interne. In AoE, i router vengono rimossi; al contrario, gli esperti pre-calcolano le attivazioni interne per gli input e vengono classificati in base alle loro norme di attivazione. Solo gli esperti con il punteggio più alto procedono con il passaggio in avanti, mentre gli altri vengono annullati. Il sovraccarico del pre-calcolo delle attivazioni viene ridotto attraverso una fattorizzazione dei pesi a basso rango. Questo approccio di autovalutazione-e-confronto-con-il-compagno garantisce un'ottimizzazione della selezione degli esperti e un apprendimento efficace. Pre-alleniamo modelli linguistici con 700M fino a 4B di parametri, dimostrando che AoE supera i modelli MoE tradizionali con efficienza comparabile.
Recentemente, i modelli di ragionamento a lungo pensiero, come l'O1 di OpenAI, adottano processi di ragionamento estesi simili a come gli esseri umani riflettono su problemi complessi. Questo paradigma di ragionamento migliora significativamente le capacità di risoluzione dei problemi del modello e ha ottenuto risultati promettenti. Tuttavia, il processo di ragionamento a lungo pensiero porta a un notevole aumento del tempo di inferenza. Una sfida urgente è ridurre il sovraccarico di inferenza dei modelli di ragionamento a lungo pensiero garantendo al contempo l'accuratezza. In questo articolo, dimostriamo sperimentalmente che i modelli di ragionamento a lungo pensiero faticano a allocare in modo efficace i budget di token in base alla difficoltà del problema e alle ridondanze di ragionamento. Per affrontare questo problema, proponiamo il Fine-Tuning dell'Armonizzazione della Lunghezza (O1-Pruner), con l'obiettivo di minimizzare il sovraccarico di ragionamento mantenendo l'accuratezza. Questo efficace metodo di fine-tuning stima prima le prestazioni di base del LLM attraverso il pre-campionamento e poi utilizza il fine-tuning in stile RL per incoraggiare il modello a generare processi di ragionamento più brevi sotto vincoli di accuratezza. Ciò consente al modello di ottenere un ragionamento efficiente con una minore ridondanza mantenendo l'accuratezza. Gli esperimenti su vari benchmark di ragionamento matematico mostrano che O1-Pruner non solo riduce significativamente il sovraccarico di inferenza, ma raggiunge anche una maggiore accuratezza, offrendo una soluzione innovativa e promettente a questa sfida. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/O1-Pruner
Il campionamento Best-of-N (BoN), una strategia comune per la scalabilità dei Modelli di Linguaggio di Grandi Dimensioni (LLM) durante i test, si basa sui modelli di ricompensa per selezionare la migliore soluzione candidata da più generazioni. Tuttavia, i tradizionali modelli di ricompensa spesso assegnano punteggi arbitrari e inconsistenti, limitandone l'efficacia. Per affrontare questo problema, proponiamo un Modello di Ricompensa a Coppie (Pairwise RM) combinato con un torneo ad eliminazione per il campionamento BoN. Invece di assegnare punteggi assoluti, dato un problema matematico, Pairwise RM valuta contemporaneamente la correttezza di due soluzioni candidate. Questo approccio elimina la necessità di punteggi arbitrari e consente la convalida incrociata delle soluzioni attraverso il confronto parallelo. Nel torneo ad eliminazione, Pairwise RM effettua confronti a coppie tra soluzioni candidate ed elimina iterativamente quelle incorrette. Costruiamo \ourdataset, un dataset su larga scala di 443K confronti a coppie derivati da NumiaMath e annotati utilizzando gemini-1.5-flash, e addestriamo il Pairwise RM tramite sintonizzazione fine supervisionata. Gli esperimenti su MATH-500 e sulla Panchina Olimpica dimostrano miglioramenti significativi rispetto ai tradizionali modelli di ricompensa discriminativi. E si ottiene un miglioramento relativo del 40\% al 60\% sui problemi più difficili della top 50\%.
La ricostruzione tridimensionale multi-vista rimane una sfida fondamentale nell'ambito della visione artificiale, specialmente nelle applicazioni che richiedono rappresentazioni accurate e scalabili da diverse prospettive. I metodi leader attuali come DUSt3R adottano un approccio fondamentalmente basato su coppie, elaborando le immagini a coppie e richiedendo costose procedure di allineamento globale per ricostruire da molteplici viste. In questo lavoro, proponiamo Fast 3D Reconstruction (Fast3R), una nuova generalizzazione multi-vista di DUSt3R che raggiunge una ricostruzione 3D efficiente e scalabile elaborando molte viste in parallelo. L'architettura basata su Transformer di Fast3R inoltra N immagini in un singolo passaggio in avanti, evitando la necessità di allineamenti iterativi. Attraverso estesi esperimenti sull'accuratezza della posa della fotocamera e sulla ricostruzione 3D, Fast3R dimostra prestazioni all'avanguardia, con miglioramenti significativi nella velocità di inferenza e una riduzione dell'accumulo degli errori. Questi risultati confermano Fast3R come un'alternativa robusta per le applicazioni multi-vista, offrendo una scalabilità migliorata senza compromettere l'accuratezza della ricostruzione.
I Large Language Models (LLM) stanno trasformando l'intelligenza artificiale, evolvendo in sistemi orientati al compito capaci di pianificazione ed esecuzione autonome. Una delle principali applicazioni dei LLM è rappresentata dai sistemi di intelligenza conversazionale, che devono navigare dialoghi multi-turno, integrare API specifiche del dominio e rispettare rigide restrizioni di policy. Tuttavia, valutare questi agenti rimane una sfida significativa, poiché i metodi tradizionali non riescono a catturare la complessità e la variabilità delle interazioni del mondo reale. Presentiamo IntellAgent, un framework multi-agente scalabile e open-source progettato per valutare in modo esaustivo i sistemi di intelligenza conversazionale. IntellAgent automatizza la creazione di diversi benchmark sintetici combinando la modellazione grafica guidata dalla policy, la generazione realistica di eventi e simulazioni interattive tra utente e agente. Questo approccio innovativo fornisce diagnostica dettagliata, affrontando le limitazioni dei benchmark statici e curati manualmente con metriche grossolane. IntellAgent rappresenta una svolta nel valutare l'intelligenza conversazionale. Simulando scenari multi-policy realistici attraverso diversi livelli di complessità, IntellAgent cattura l'interazione sfumata delle capacità degli agenti e delle restrizioni di policy. A differenza dei metodi tradizionali, utilizza un modello di policy basato su grafi per rappresentare relazioni, probabilità e complessità delle interazioni di policy, consentendo diagnostica altamente dettagliata. IntellAgent identifica inoltre lacune critiche nelle prestazioni, offrendo approfondimenti utili per ottimizzazioni mirate. Il suo design modulare e open-source supporta un'integrazione senza soluzione di continuità di nuovi domini, policy e API, promuovendo riproducibilità e collaborazione nella comunità. I nostri risultati dimostrano che IntellAgent funge da framework efficace per far progredire l'intelligenza conversazionale affrontando le sfide nel colmare la ricerca e la distribuzione. Il framework è disponibile su https://github.com/plurai-ai/intellagent.