Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nei grandi modelli di visione-linguaggio (LVLM), le immagini fungono da input che trasportano una grande quantità di informazioni. Come dice il detto "Un'immagine vale più di mille parole", rappresentare un'immagine singola nei LVLM attuali può richiedere centinaia o addirittura migliaia di token. Ciò comporta costi computazionali significativi, che crescono quadraticamente all'aumentare della risoluzione dell'immagine in ingresso, influenzando pesantemente l'efficienza sia dell'addestramento che dell'infereza. Approcci precedenti hanno cercato di ridurre il numero di token dell'immagine prima o all'interno dei primi strati dei LVLM. Tuttavia, queste strategie portano inevitabilmente alla perdita di informazioni cruciali sull'immagine, riducendo infine le prestazioni del modello. Per affrontare questa sfida, conduciamo uno studio empirico che rivela come tutti i token visivi siano necessari per i LVLM nei primi strati, e la ridondanza dei token aumenti progressivamente nei livelli più profondi del modello. A tal fine, proponiamo PyramidDrop, una strategia di riduzione della ridondanza visiva per i LVLM per migliorarne l'efficienza sia nell'addestramento che nell'infereza con una perdita di prestazioni trascurabile. In particolare, suddividiamo il LVLM in diverse fasi e eliminiamo parte dei token dell'immagine alla fine di ciascuna fase con un rapporto predefinito, creando token visivi a forma di piramide attraverso i livelli del modello. L'eliminazione si basa su un calcolo di similarità leggero con un tempo trascurabile. Estesi esperimenti dimostrano che PyramidDrop può ottenere un'accelerazione del tempo di addestramento del 40% e dei FLOPs di inferenza del 55% rispetto a LLaVA-NeXT con prestazioni comparabili. Inoltre, PyramidDrop potrebbe anche fungere da strategia plug-and-play per l'accelerazione dell'infereza senza addestramento, con prestazioni migliori e costi di inferenza inferiori rispetto ai concorrenti. Speriamo che le intuizioni e l'approccio introdotti da PyramidDrop ispirino la ricerca futura a approfondire ulteriormente il ruolo dei token visivi nei LVLM.
Presentiamo SpectroMotion, un nuovo approccio che combina lo Splatting Gaussiano 3D (3DGS) con il rendering basato sulla fisica (PBR) e campi di deformazione per ricostruire scene speculari dinamiche. I metodi precedenti che estendono il 3DGS per modellare scene dinamiche hanno faticato a rappresentare accuratamente le superfici speculari. Il nostro metodo affronta questa limitazione introducendo una tecnica di correzione residua per il calcolo accurato della normale superficiale durante la deformazione, completata da una mappa ambientale deformabile che si adatta alle condizioni luminose variabili nel tempo. Implementiamo una strategia di addestramento da grezzo a fine che migliora significativamente sia la geometria della scena che la previsione del colore speculare. Dimostriamo che il nostro modello supera i metodi precedenti per la sintesi della vista di scene contenenti oggetti speculari dinamici e che è l'unico metodo 3DGS esistente in grado di sintetizzare scene speculari dinamiche del mondo reale fotorealistiche, superando i metodi all'avanguardia nel rendering di scene complesse, dinamiche e speculari.
Il ragionamento a catena (CoT) nei modelli di linguaggio visivo (VLM) è cruciale per migliorare l'interpretabilità e l'affidabilità. Tuttavia, le attuali ricette di addestramento mancano di dati robusti per il ragionamento CoT, basandosi su set di dati dominati da brevi annotazioni con spiegazioni minime. In questo lavoro, dimostriamo che addestrare il VLM su brevi risposte non generalizza bene ai compiti di ragionamento che richiedono risposte più dettagliate. Per affrontare questo problema, proponiamo un approccio a due fasi. In primo luogo, estra-iamo spiegazioni dal modello GPT-4o per arricchire i dati di addestramento e perfezionare i VLM, potenziando le loro prestazioni CoT. In secondo luogo, applichiamo il reinforcement learning per calibrare ulteriormente la qualità del ragionamento. In particolare, costruiamo coppie positive (corrette) e negative (errate) di catene di ragionamento generate dal modello, confrontando le loro previsioni con le risposte brevi annotate. Utilizzando questi dati a coppie, applichiamo l'algoritmo di ottimizzazione delle preferenze dirette per perfezionare le capacità di ragionamento del modello. I nostri esperimenti dimostrano miglioramenti significativi nel ragionamento CoT su set di dati di riferimento e una migliore generalizzazione alla previsione diretta delle risposte. Questo lavoro sottolinea l'importanza di incorporare spiegazioni dettagliate nell'addestramento e di sfruttare il reinforcement learning per rafforzare le capacità di ragionamento dei VLM.
L'allineamento automatizzato sviluppa sistemi di allineamento con minima intervento umano. La chiave dell'allineamento automatizzato risiede nel fornire segnali di preferenza apprendibili e accurati per l'apprendimento delle preferenze senza annotazioni umane. In questo articolo, presentiamo l'ottimizzazione autoguidata (SSO), un algoritmo che genera autonomamente segnali di preferenza di alta qualità basati su principi predefiniti durante l'addestramento iterativo, eliminando la necessità di annotazioni manuali. SSO mantiene l'accuratezza dei segnali garantendo un divario costante tra risposte scelte e respinte mantenendole entrambe in politica per adattarsi alla capacità di apprendimento del modello di politica attuale. SSO può beneficiare dell'addestramento online e offline del modello di politica, nonché migliorare l'addestramento dei modelli di ricompensa. Convalidiamo l'efficacia di SSO con due modelli fondamentali, Qwen2 e Llama3.1, indicando che fornisce segnali di preferenza accurati e in politica durante l'addestramento iterativo. Senza alcuna annotazione manuale o modelli esterni, SSO porta a significativi miglioramenti delle prestazioni su sei benchmark soggettivi o obiettivi. Inoltre, i dati di preferenza generati da SSO hanno notevolmente migliorato le prestazioni del modello di ricompensa su Rewardbench. Il nostro lavoro presenta un approccio scalabile all'ottimizzazione delle preferenze, aprendo la strada a un allineamento automatizzato più efficiente ed efficace.
Presentiamo xGen-MM-Vid (BLIP-3-Video): un modello linguistico multimodale per video, progettato appositamente per catturare in modo efficiente le informazioni temporali su più fotogrammi. BLIP-3-Video sfrutta l' 'codificatore temporale' oltre al tradizionale tokenizzatore visivo, che mappa una sequenza di token su più fotogrammi in un insieme compatto di token visivi. Ciò consente a BLIP3-Video di utilizzare molti meno token visivi rispetto ai suoi modelli concorrenti (ad esempio, 32 rispetto a 4608 token). Esploriamo diversi tipi di codificatori temporali, tra cui il raggruppamento spazio-temporale apprendibile e modelli sequenziali come le Macchine a Token Turing. Confermiamo sperimentalmente che BLIP-3-Video ottiene accuratezze di domande e risposte video paragonabili a modelli state-of-the-art molto più grandi (ad esempio, 34B), pur essendo molto più piccolo (cioè, 4B) e più efficiente utilizzando meno token visivi. Il sito web del progetto si trova su https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
La distillazione della conoscenza (KD) è ampiamente utilizzata per addestrare modelli linguistici (LM) studenti di dimensioni ridotte e ad alte prestazioni utilizzando grandi LM docenti. Sebbene efficace nel fine-tuning, la KD durante la preformazione affronta sfide legate all'efficienza, alla flessibilità e all'efficacia. I metodi esistenti comportano costi computazionali elevati a causa dell'inferenza online del docente, richiedono il matching della tokenizzazione tra LM docente e studente o rischiano di perdere la complessità e la diversità dei dati di addestramento generati dal docente. Per affrontare questi problemi, proponiamo MiniPLM, un framework di KD per la preformazione di LM che affina la distribuzione dei dati di addestramento con la conoscenza del docente. Per l'efficienza, MiniPLM esegue l'inferenza offline del LM docente, consentendo la KD per più LM studenti senza aggiungere costi temporali di addestramento. Per la flessibilità, MiniPLM opera esclusivamente sul corpus di addestramento, consentendo la KD tra famiglie di modelli. Per l'efficacia, MiniPLM sfrutta le differenze tra LM grandi e piccoli per migliorare la complessità e la diversità dei dati di addestramento, aiutando gli LM studenti ad acquisire conoscenze versatili e sofisticate. Esperimenti estesi dimostrano che MiniPLM potenzia le prestazioni degli LM studenti su 9 compiti downstream ampiamente utilizzati, migliora le capacità di modellizzazione del linguaggio e riduce il calcolo della preformazione. Il beneficio di MiniPLM si estende a grandi scale di preformazione, come evidenziato dall'interpolazione delle curve di scalabilità. Ulteriori analisi rivelano che MiniPLM supporta la KD tra famiglie di modelli e migliora l'utilizzo dei dati di preformazione. Il nostro modello, codice e dati sono disponibili su https://github.com/thu-coai/MiniPLM.
In un sistema AI composto, componenti come una chiamata LLM, un recuperatore, un interprete di codice o strumenti sono interconnessi. Il comportamento del sistema è principalmente guidato da parametri come istruzioni o definizioni degli strumenti. I recenti progressi consentono l'ottimizzazione end-to-end di questi parametri utilizzando un LLM. In particolare, sfruttare un LLM come ottimizzatore è particolarmente efficiente perché evita il calcolo del gradiente e può generare codice e istruzioni complessi. Questo articolo presenta un'indagine sui principi e sulle tendenze emergenti nell'ottimizzazione basata su LLM dei sistemi AI composti. Copre archetipi dei sistemi AI composti, approcci all'ottimizzazione end-to-end basata su LLM e prospettive su direzioni future e impatti più ampi. È importante notare che questa indagine utilizza concetti dall'analisi dei programmi per fornire una visione unificata di come un ottimizzatore LLM sia sollecitato ad ottimizzare un sistema AI composto. L'elenco esaustivo dell'articolo è disponibile su https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
I recenti Large Vision Language Models (LVLM) presentano notevoli capacità di conversazione e ragionamento zero-shot date le query multimodali. Tuttavia, soffrono di allucinazioni di oggetti, un fenomeno in cui i LVLM sono inclini a generare risposte testuali non allineate ai fatti delle immagini di input. Il nostro studio pilota rivela che l'allucinazione di oggetti è strettamente legata alla Codifica della Posizione Rotativa (RoPE), un design di modellazione delle dipendenze posizionali ampiamente adottato nei LVLM esistenti. A causa del decadimento a lungo termine in RoPE, i LVLM tendono ad allucinare di più quando le indicazioni visive rilevanti sono distanti dai token di istruzione nella sequenza di input multimodale. Inoltre, osserviamo un effetto simile quando si inverte l'ordine sequenziale dei token visivi durante l'allineamento multimodale. I nostri test indicano che il decadimento a lungo termine in RoPE pone sfide ai LVLM nella cattura delle interazioni visivo-istruzione su lunghe distanze. Proponiamo l'Attenzione Causale Concentrica (CCA), una strategia di allineamento posizionale semplice ma efficace che attenua l'impatto del decadimento a lungo termine di RoPE nei LVLM riducendo naturalmente la distanza relativa tra i token visivi e di istruzione. Con CCA, i token visivi possono interagire meglio con i token di istruzione, migliorando così la capacità percettiva del modello e alleviando l'allucinazione di oggetti. Senza fronzoli, il nostro metodo di allineamento posizionale supera di gran lunga le strategie esistenti di mitigazione delle allucinazioni su diversi benchmark di allucinazioni di oggetti.
Accelerare la ricerca sui Large Multimodal Models (LMM) nelle lingue non inglesi è cruciale per migliorare le esperienze degli utenti in popolazioni più ampie. In questo articolo, presentiamo JMMMU (Japanese MMMU), il primo benchmark giapponese su larga scala progettato per valutare i LMM su compiti di livello esperto basati sul contesto culturale giapponese. Per facilitare una valutazione completa consapevole della cultura, JMMMU presenta due sottoinsiemi complementari: (i) sottoinsieme culture-agnostic (CA), in cui vengono selezionati soggetti indipendenti dalla cultura (ad es. Matematica) e tradotti in giapponese, consentendo un confronto uno a uno con il corrispettivo inglese MMMU; e (ii) sottoinsieme culture-specific (CS), che comprende soggetti appositamente creati che riflettono il contesto culturale giapponese. Utilizzando il sottoinsieme CA, osserviamo una diminuzione delle prestazioni in molti LMM quando valutati in giapponese, attribuibile esclusivamente alla variazione linguistica. Utilizzando il sottoinsieme CS, riveliamo una loro inadeguata comprensione della cultura giapponese. Inoltre, combinando entrambi i sottoinsiemi, identifichiamo che alcuni LMM hanno buone prestazioni nel sottoinsieme CA ma non nel sottoinsieme CS, evidenziando una comprensione superficiale della lingua giapponese che manca di profondità nella comprensione culturale. Speriamo che questo lavoro non solo contribuirà a migliorare le prestazioni dei LMM in giapponese, ma servirà anche come linea guida per creare benchmark culturalmente diversificati di alto livello per lo sviluppo di LMM multilingue. La pagina del progetto è https://mmmu-japanese-benchmark.github.io/JMMMU/.
I costi computazionali elevati dei grandi modelli linguistici (LLM) hanno portato a un'ampia ricerca sulla compressione dei LLM, tramite metodi come quantizzazione, sparizione o potatura strutturata. Una nuova frontiera in questo ambito è data dai metodi di compressione dinamica e non uniforme, che regolano i livelli di compressione (ad esempio, sparsità) per blocco o addirittura per strato al fine di minimizzare la perdita di accuratezza, garantendo al contempo una soglia di compressione globale. Tuttavia, i metodi attuali si basano su euristiche per identificare l'"importanza" di uno specifico strato verso la perdita, basandosi su assunzioni come la monotonicità dell'errore, cioè che l'errore di compressione del modello end-to-end sia proporzionale alla somma degli errori per strato. In questo articolo, riprendiamo questo ambito e proponiamo un nuovo e generale approccio per la compressione dinamica che è provabilmente ottimale in un determinato intervallo di input. Partiamo dall'osservazione motivante che, in generale, la monotonicità dell'errore non vale per i LLM: modelli compressi con una somma inferiore di errori per strato possono comportarsi peggio rispetto a modelli con somme di errori più elevate. Per affrontare questo problema, proponiamo un nuovo framework evolutivo generale per la compressione dinamica dei LLM chiamato EvoPress, che garantisce una convergenza provabile, e una bassa complessità di campionamento e valutazione. Dimostriamo che queste garanzie teoriche portano a prestazioni pratiche altamente competitive per la compressione dinamica dei modelli Llama, Mistral e Phi. Attraverso EvoPress, otteniamo nuovi risultati all'avanguardia tra tutti gli approcci di compressione: potatura strutturale (rimozione di blocchi/strati), sparsità non strutturata, nonché quantizzazione con larghezze di bit dinamiche. Il nostro codice è disponibile su https://github.com/IST-DASLab/EvoPress.
Il ragionamento matematico è un'area altamente attiva della ricerca sui Large Language Model (LLM) poiché è un tratto distintivo dell'intelligenza artificiale. Tuttavia, pochi lavori hanno esplorato come il ragionamento matematico sia codificato all'interno dei parametri dei LLM e se sia una competenza che può essere isolata all'interno di un modello. Farlo potrebbe consentire un intervento mirato per migliorare le prestazioni matematiche senza alterare il comportamento non matematico e favorire la comprensione di come i modelli codificano il ragionamento matematico. Introduciamo Math Neurosurgery (MathNeuro), un metodo per isolare i parametri specifici per la matematica nei LLM utilizzando solo passaggi in avanti. MathNeuro si basa su lavori esistenti utilizzando pesi e attivazioni per calcolare l'importanza dei parametri, ma isola i parametri specifici per la matematica rimuovendo quelli importanti per compiti linguistici generali. La potatura dei parametri identificati da MathNeuro elimina la capacità di ragionamento matematico di un LLM senza distruggere la sua capacità linguistica generale. Ridimensionando questi parametri con una costante piccola, si migliora le prestazioni di un LLM preaddestrato o addestrato istruzionalmente del 4-17% su GSM8K lasciando invariato il comportamento non matematico. MathNeuro è anche efficiente nei dati: gran parte della sua efficacia si mantiene quando si identificano i parametri specifici per la matematica utilizzando un singolo campione. MathNeuro evidenzia il potenziale per futuri interventi sui parametri specifici per la matematica.
La sintesi di viste innovative mira a generare viste innovative di una scena da multiple immagini o video di input, e recenti progressi come lo spruzzamento gaussiano tridimensionale (3DGS) hanno ottenuto notevole successo nella produzione di rendering fotorealistici con pipeline efficienti. Tuttavia, generare viste innovative di alta qualità in contesti sfidanti, come viste di input sparse, rimane difficile a causa di informazioni insufficienti nelle aree sottocampionate, spesso risultando in artefatti evidenti. Questo articolo presenta 3DGS-Enhancer, una nuova pipeline per migliorare la qualità della rappresentazione delle rappresentazioni 3DGS. Sfruttiamo i priori di diffusione video 2D per affrontare il problema della consistenza delle viste 3D, riformulandolo come raggiungimento di una consistenza temporale all'interno di un processo di generazione video. 3DGS-Enhancer ripristina le caratteristiche latenti consistenti con la vista delle viste innovative renderizzate e le integra con le viste di input attraverso un decodificatore spazio-temporale. Le viste migliorate vengono quindi utilizzate per ottimizzare il modello 3DGS iniziale, migliorandone significativamente le prestazioni di rendering. Esperimenti estesi su dataset su larga scala di scene illimitate dimostrano che 3DGS-Enhancer produce prestazioni di ricostruzione superiori e risultati di rendering ad alta fedeltà rispetto ai metodi all'avanguardia. La pagina web del progetto è https://xiliu8006.github.io/3DGS-Enhancer-project.
La colonscopia è attualmente uno dei metodi di screening più sensibili per il cancro del colon-retto. Questo studio indaga sulle frontiere delle tecniche intelligenti di colonscopia e sulle loro potenziali implicazioni per le applicazioni mediche multimodali. Con questo obiettivo, iniziamo valutando i paesaggi attuali centrati sui dati e sui modelli attraverso quattro compiti per la percezione della scena colonoscopica, tra cui classificazione, rilevamento, segmentazione e comprensione visione-linguaggio. Questa valutazione ci permette di individuare sfide specifiche del settore e rivela che la ricerca multimodale in colonscopia rimane aperta a ulteriori esplorazioni. Per abbracciare l'era multimodale imminente, istituiamo tre iniziative fondamentali: un ampio dataset di sintonizzazione multimodale delle istruzioni ColonINST, un modello linguistico multimodale progettato per la colonscopia ColonGPT e un benchmark multimodale. Per agevolare il monitoraggio continuo di questo campo in rapida evoluzione, mettiamo a disposizione un sito web pubblico per gli ultimi aggiornamenti: https://github.com/ai4colonoscopy/IntelliScope.