HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

16 papers found

Rapporto Tecnico Kimi-VL
Kimi-VL Technical Report

Apr 10

ByKimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen

134

Presentiamo Kimi-VL, un efficiente modello visione-linguaggio (VLM) open-source basato su Mixture-of-Experts (MoE) che offre avanzate capacità di ragionamento multimodale, comprensione di contesti lunghi e solide abilità di agente, attivando solo 2,8 miliardi di parametri nel suo decodificatore linguistico (Kimi-VL-A3B). Kimi-VL dimostra prestazioni eccellenti in domini impegnativi: come VLM generico, eccelle in compiti di agente multi-turn (ad esempio, OSWorld), competendo con modelli di punta. Inoltre, mostra capacità notevoli in una vasta gamma di compiti visione-linguaggio complessi, tra cui comprensione di immagini e video a livello universitario, OCR, ragionamento matematico e comprensione multi-immagine. In valutazioni comparative, compete efficacemente con VLMs efficienti all'avanguardia come GPT-4o-mini, Qwen2.5-VL-7B e Gemma-3-12B-IT, superando GPT-4o in diversi domini chiave. Kimi-VL avanza anche nell'elaborazione di contesti lunghi e nella percezione chiara. Con una finestra di contesto estesa a 128K, Kimi-VL può elaborare input lunghi e diversificati, ottenendo punteggi impressionanti di 64,5 su LongVideoBench e 35,1 su MMLongBench-Doc. Il suo encoder visivo a risoluzione nativa, MoonViT, gli consente inoltre di vedere e comprendere input visivi ad altissima risoluzione, raggiungendo 83,2 su InfoVQA e 34,5 su ScreenSpot-Pro, mantenendo al contempo un costo computazionale inferiore per compiti comuni. Basandoci su Kimi-VL, introduciamo una variante avanzata per il ragionamento lungo: Kimi-VL-Thinking. Sviluppato attraverso un fine-tuning supervisionato (SFT) a catena di pensiero (CoT) lungo e apprendimento per rinforzo (RL), questo modello mostra forti capacità di ragionamento a lungo termine. Ottiene punteggi di 61,7 su MMMU, 36,8 su MathVision e 71,3 su MathVista, mantenendo i compatti 2,8 miliardi di parametri LLM attivati, stabilendo un nuovo standard per i modelli di pensiero multimodale efficienti. Codice e modelli sono accessibili pubblicamente all'indirizzo https://github.com/MoonshotAI/Kimi-VL.

DeepSeek-R1 Thoughtology: Riflettiamo sul Ragionamento dei Modelli Linguistici di Grande Dimensione
DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Apr 2

BySara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy

I grandi modelli di ragionamento come DeepSeek-R1 rappresentano un cambiamento fondamentale nel modo in cui i Large Language Models (LLM) affrontano problemi complessi. Invece di produrre direttamente una risposta per un dato input, DeepSeek-R1 crea catene di ragionamento dettagliate e multi-step, apparentemente "pensando" a un problema prima di fornire una risposta. Questo processo di ragionamento è reso pubblico all'utente, creando infinite opportunità per studiare il comportamento di ragionamento del modello e aprendo il campo della Thoughtology. Partendo da una tassonomia dei blocchi costitutivi di base del ragionamento di DeepSeek-R1, le nostre analisi su DeepSeek-R1 esplorano l'impatto e la controllabilità della lunghezza del pensiero, la gestione di contesti lunghi o confusi, le preoccupazioni culturali e di sicurezza, e lo stato di DeepSeek-R1 rispetto a fenomeni cognitivi, come l'elaborazione del linguaggio simile a quella umana e la modellazione del mondo. I nostri risultati dipingono un quadro sfumato. In particolare, dimostriamo che DeepSeek-R1 ha un "punto ottimale" di ragionamento, in cui un tempo di inferenza aggiuntivo può compromettere le prestazioni del modello. Inoltre, osserviamo una tendenza di DeepSeek-R1 a rimuginare persistentemente su formulazioni di problemi già esplorate, ostacolando ulteriori esplorazioni. Notiamo anche forti vulnerabilità di sicurezza di DeepSeek-R1 rispetto alla sua controparte non ragionante, che possono compromettere anche LLM allineati alla sicurezza.

C3PO: Ottimizzazione Collaborativa del Percorso con Strato Critico e Nucleo Esperto per il Rimixaggio degli Esperti al Momento del Test
C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

Apr 10

ByZhongyang Li, Ziyue Li, Tianyi Zhou

I modelli linguistici di grandi dimensioni (LLM) basati su Mixture-of-Experts (MoE) soffrono di percorsi di esperti fortemente sub-ottimali: il nostro studio rivela che la selezione ingenua degli esperti appresa durante il pre-training lascia un sorprendente divario di accuratezza del 10-20% da colmare. Motivati da questa osservazione, sviluppiamo una nuova classe di metodi di ottimizzazione al momento del test per ri-pesare o "ri-miscelare" gli esperti in diversi strati in modo congiunto per ogni campione di test. Poiché la verità di base del campione di test è sconosciuta, proponiamo di ottimizzare un obiettivo surrogato definito dai "vicini di successo" del campione, tratti da un insieme di riferimento di campioni. Introduciamo tre surrogati e algoritmi basati su ricerca della moda, regressione kernel e la perdita media di campioni/compiti di riferimento simili. Per ridurre il costo dell'ottimizzazione di interi percorsi, applichiamo i nostri algoritmi solo ai pesi di miscelazione degli esperti principali negli strati critici, ottenendo prestazioni simili ma risparmiando un calcolo significativo. Questo porta a "Ottimizzazione Collaborativa del Percorso con Esperti Principali negli Strati Critici (C3PO)". Applichiamo C3PO a due recenti LLM MoE e lo testiamo su sei benchmark ampiamente utilizzati. Migliora costantemente il modello base del 7-15% in accuratezza e supera di gran lunga i metodi di apprendimento al momento del test comunemente usati, come l'apprendimento in-context e il tuning di prompt/prefissi. Inoltre, C3PO consente a LLM MoE con 1-3 miliardi di parametri attivi di superare LLM con 7-9 miliardi di parametri, migliorando così i vantaggi di MoE in termini di efficienza. Il nostro studio di ablazione approfondito fornisce ulteriori nuove intuizioni su come ottenere miglioramenti al momento del test su MoE.

VisualCloze: Un Framework Universale per la Generazione di Immagini tramite Apprendimento Visivo in Contesto
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Apr 10

ByZhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng

I recenti progressi nei modelli di diffusione hanno significativamente avanzato vari compiti di generazione di immagini. Tuttavia, l'approccio principale attuale rimane focalizzato sulla costruzione di modelli specifici per compiti, che hanno un'efficienza limitata nel supportare un'ampia gamma di esigenze diverse. Mentre i modelli universali cercano di affrontare questa limitazione, si trovano di fronte a sfide critiche, tra cui l'istruzione generalizzabile dei compiti, le distribuzioni appropriate dei compiti e il design architetturale unificato. Per affrontare queste sfide, proponiamo VisualCloze, un framework universale per la generazione di immagini, che supporta un'ampia gamma di compiti in dominio, la generalizzazione a compiti non visti, l'unificazione non vista di più compiti e la generazione inversa. A differenza dei metodi esistenti che si basano su istruzioni di compiti basate sul linguaggio, portando ad ambiguità di compiti e debole generalizzazione, integriamo l'apprendimento visivo in contesto, consentendo ai modelli di identificare i compiti da dimostrazioni visive. Nel frattempo, l'intrinseca sparsità delle distribuzioni di compiti visivi ostacola l'apprendimento di conoscenze trasferibili tra i compiti. A tal fine, introduciamo Graph200K, un dataset strutturato a grafo che stabilisce vari compiti interrelati, migliorando la densità dei compiti e la conoscenza trasferibile. Inoltre, scopriamo che la nostra formulazione unificata della generazione di immagini condivide un obiettivo coerente con il riempimento di immagini, permettendoci di sfruttare i forti prior generativi dei modelli pre-addestrati per il riempimento senza modificare le architetture.

VCR-Bench: Un Framework di Valutazione Completo per il Ragionamento a Catena di Pensiero nei Video
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

Apr 10

ByYukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao

Il progresso del ragionamento a catena di pensiero (Chain-of-Thought, CoT) ha significativamente migliorato le capacità dei grandi modelli linguistici (Large Language Models, LLMs) e dei grandi modelli visione-linguaggio (Large Vision-Language Models, LVLMs). Tuttavia, manca un framework di valutazione rigoroso per il ragionamento CoT applicato ai video. Gli attuali benchmark video non riescono a valutare adeguatamente il processo di ragionamento e a identificare se gli errori derivano da carenze nelle capacità di percezione o di ragionamento. Pertanto, introduciamo VCR-Bench, un nuovo benchmark progettato per valutare in modo completo le capacità di ragionamento CoT video degli LVLMs. VCR-Bench comprende 859 video che coprono una varietà di contenuti e durate, insieme a 1.034 coppie domanda-risposta di alta qualità. Ogni coppia è annotata manualmente con una razionalizzazione CoT graduale, in cui ogni passaggio è etichettato per indicare la sua associazione con le capacità di percezione o di ragionamento. Inoltre, progettiamo sette dimensioni di task distinte e proponiamo il punteggio CoT per valutare l'intero processo CoT basandosi sulle razionalizzazioni CoT etichettate passo-passo. Esperimenti estensivi su VCR-Bench evidenziano limitazioni sostanziali negli attuali LVLMs. Anche il modello con le migliori prestazioni, o1, raggiunge solo un punteggio CoT del 62,8% e un'accuratezza del 56,7%, mentre la maggior parte dei modelli ottiene punteggi inferiori al 40%. Gli esperimenti mostrano che la maggior parte dei modelli ottiene punteggi più bassi nei passaggi di percezione rispetto a quelli di ragionamento, rivelando il principale collo di bottiglia degli LVLMs nell'elaborazione delle informazioni spazio-temporali per il ragionamento video complesso. Una forte correlazione positiva tra il punteggio CoT e l'accuratezza conferma la validità del nostro framework di valutazione e sottolinea il ruolo cruciale del ragionamento CoT nella risoluzione di task di ragionamento video complessi. Speriamo che VCR-Bench serva come framework di valutazione standardizzato e metta in luce le reali carenze nei task di ragionamento video complessi.

MM-IFEngine: Verso un'Intelligenza Artificiale Multimodale per il Rispetto delle Istruzioni
MM-IFEngine: Towards Multimodal Instruction Following

Apr 10

ByShengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang

La capacità di Instruction Following (IF) misura quanto bene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) comprendono esattamente ciò che gli utenti stanno comunicando e se stanno eseguendo correttamente le istruzioni. I dati esistenti per l'addestramento multimodale di instruction following sono scarsi, i benchmark sono semplici con istruzioni atomiche e le strategie di valutazione sono imprecise per i compiti che richiedono vincoli di output esatti. Per affrontare questo problema, presentiamo MM-IFEngine, una pipeline efficace per generare coppie immagine-istruzione di alta qualità. La nostra pipeline MM-IFEngine produce dati di addestramento su larga scala, diversificati e di alta qualità, denominati MM-IFInstruct-23k, adatti per il Fine-Tuning Supervisionato (SFT) e estesi come MM-IFDPO-23k per l'ottimizzazione diretta delle preferenze (DPO). Introduciamo inoltre MM-IFEval, un benchmark impegnativo e diversificato per il seguimento di istruzioni multimodali che include (1) sia vincoli a livello di composizione per le risposte in output che vincoli a livello di percezione legati alle immagini in input, e (2) una pipeline di valutazione completa che incorpora sia valutazioni basate su regole che un modello giudice. Condividiamo esperimenti di SFT e DPO e dimostriamo che il fine-tuning degli MLLMs su MM-IFInstruct-23k e MM-IFDPO-23k raggiunge miglioramenti significativi su vari benchmark IF, come MM-IFEval (+10,2%), MIA (+7,6%) e IFEval (+12,3%). I dati completi e il codice di valutazione saranno rilasciati su https://github.com/SYuan03/MM-IFEngine.

Leggi di Scalabilità per Modelli Multimodali Nativi Leggi di Scalabilità per Modelli Multimodali Nativi
Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models

Apr 10

ByMustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby

La costruzione di modelli a scopo generale in grado di percepire efficacemente il mondo attraverso segnali multimodali è stato un obiettivo di lunga data. Gli approcci attuali prevedono l'integrazione di componenti pre-addestrati separatamente, come il collegamento di encoder visivi a LLM e la continuazione dell'addestramento multimodale. Sebbene tali approcci mostrino una notevole efficienza campionaria, rimane una questione aperta se queste architetture a fusione tardiva siano intrinsecamente superiori. In questo lavoro, riprendiamo in esame la progettazione architetturale dei modelli multimodali nativi (NMM)—quelli addestrati da zero su tutte le modalità—e conduciamo uno studio estensivo sulle leggi di scala, analizzando 457 modelli addestrati con diverse architetture e miscele di addestramento. La nostra indagine rivela che non esiste un vantaggio intrinseco delle architetture a fusione tardiva rispetto a quelle a fusione precoce, che non si basano su encoder di immagini. Al contrario, la fusione precoce mostra prestazioni più robuste con un numero inferiore di parametri, è più efficiente da addestrare e più semplice da implementare. Motivati dalle prestazioni superiori delle architetture a fusione precoce, dimostriamo che l'incorporazione di Mixture of Experts (MoE) consente ai modelli di apprendere pesi specifici per ciascuna modalità, migliorando significativamente le prestazioni.

HoloPart: Segmentazione Amodale di Parti 3D Generativa
HoloPart: Generative 3D Part Amodal Segmentation

Apr 10

ByYunhan Yang, Yuan-Chen Guo, Yukun Huang, Zi-Xin Zou, Zhipeng Yu, Yangguang Li, Yan-Pei Cao, Xihui Liu

La segmentazione amodale di parti 3D--decomporre una forma 3D in parti complete e semanticamente significative, anche quando sono occluse--è un compito impegnativo ma cruciale per la creazione e la comprensione di contenuti 3D. I metodi esistenti di segmentazione di parti 3D identificano solo le patch superficiali visibili, limitandone l'utilità. Ispirati dalla segmentazione amodale 2D, introduciamo questo nuovo compito nel dominio 3D e proponiamo un approccio pratico in due fasi, affrontando le principali sfide dell'inferenza della geometria 3D occlusa, del mantenimento della coerenza globale della forma e della gestione di forme diverse con dati di addestramento limitati. In primo luogo, sfruttiamo la segmentazione di parti 3D esistente per ottenere segmenti iniziali incompleti. In secondo luogo, introduciamo HoloPart, un nuovo modello basato sulla diffusione, per completare questi segmenti in parti 3D complete. HoloPart utilizza un'architettura specializzata con attenzione locale per catturare la geometria fine delle parti e attenzione al contesto globale della forma per garantire la coerenza complessiva della forma. Introduciamo nuovi benchmark basati sui dataset ABO e PartObjaverse-Tiny e dimostriamo che HoloPart supera significativamente i metodi all'avanguardia per il completamento delle forme. Incorporando HoloPart con le tecniche di segmentazione esistenti, otteniamo risultati promettenti nella segmentazione amodale di parti 3D, aprendo nuove strade per applicazioni nell'editing geometrico, nell'animazione e nell'assegnazione di materiali.

SoTA con Meno: Selezione dei Campioni Guidata da MCTS per il Miglioramento Autonomo Efficace nei Dati nel Ragionamento Visivo
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

Apr 10

ByXiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

In questo articolo, presentiamo un metodo efficace per migliorare il ragionamento visivo utilizzando un numero significativamente inferiore di campioni di addestramento, basandoci esclusivamente sull'auto-miglioramento senza distillazione di conoscenza. La nostra intuizione chiave è che la difficoltà dei dati di addestramento durante il fine-tuning con rinforzo (RFT) è cruciale. Campioni appropriatamente impegnativi possono potenziare notevolmente le capacità di ragionamento, anche quando il dataset è piccolo. Nonostante sia intuitivo, la sfida principale rimane nel quantificare accuratamente la difficoltà dei campioni per consentire un filtraggio efficace dei dati. A tal fine, proponiamo un nuovo modo di riutilizzare il Monte Carlo Tree Search (MCTS) per raggiungere questo obiettivo. Partendo dai nostri 70k campioni di addestramento open-source curati, introduciamo un metodo di selezione basato su MCTS che quantifica la difficoltà dei campioni in base al numero di iterazioni richieste dai VLMs per risolvere ciascun problema. Questo ragionamento esplicito passo-passo in MCTS costringe il modello a pensare più a lungo e identifica meglio i campioni che sono veramente impegnativi. Filtriamo e manteniamo 11k campioni per eseguire RFT su Qwen2.5-VL-7B-Instruct, ottenendo il nostro modello finale, ThinkLite-VL. I risultati di valutazione su otto benchmark mostrano che ThinkLite-VL migliora le prestazioni medie di Qwen2.5-VL-7B-Instruct del 7%, utilizzando solo 11k campioni di addestramento senza distillazione di conoscenza. Questo supera significativamente tutti i VLMs di ragionamento esistenti di livello 7B, e le nostre baseline abbastanza comparabili che utilizzano metodi di selezione classici come il filtraggio basato sull'accuratezza. In particolare, su MathVista, ThinkLite-VL-7B raggiunge l'accuratezza SoTA del 75.1, superando Qwen2.5-VL-72B, GPT-4o e O1. Il nostro codice, dati e modello sono disponibili su https://github.com/si0wang/ThinkLite-VL.

MOSAIC: Modellazione dell'Intelligenza Artificiale Sociale per la Diffusione e la Regolazione dei Contenuti nelle Simulazioni Multi-Agente
MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations

Apr 10

ByGenglin Liu, Salman Rahman, Elisa Kreiss, Marzyeh Ghassemi, Saadia Gabriel

Presentiamo MOSAIC, un nuovo framework open-source per la simulazione di reti sociali, in cui agenti linguistici generativi prevedono comportamenti degli utenti come il gradimento, la condivisione e la segnalazione di contenuti. Questa simulazione combina agenti LLM con un grafo sociale diretto per analizzare comportamenti emergenti di inganno e ottenere una migliore comprensione di come gli utenti determinano la veridicità dei contenuti sui social network online. Costruendo rappresentazioni degli utenti a partire da diverse e dettagliate personalità, il nostro sistema consente simulazioni multi-agente che modellano la diffusione dei contenuti e le dinamiche di coinvolgimento su larga scala. All'interno di questo framework, valutiamo tre diverse strategie di moderazione dei contenuti con la diffusione simulata di disinformazione, e scopriamo che non solo mitigano la diffusione di contenuti non veritieri, ma aumentano anche il coinvolgimento degli utenti. Inoltre, analizziamo le traiettorie dei contenuti popolari nelle nostre simulazioni ed esploriamo se il ragionamento articolato degli agenti simulati per le loro interazioni sociali sia effettivamente allineato con i loro modelli collettivi di coinvolgimento. Rendiamo open-source il nostro software di simulazione per incoraggiare ulteriori ricerche nell'ambito dell'IA e delle scienze sociali.

Verso il Grounding Visivo del Testo nei Modelli Linguistici Multimodali di Grande Scala
Towards Visual Text Grounding of Multimodal Large Language Model

Apr 7

ByMing Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun

Nonostante l'evoluzione esistente dei Modelli Linguistici Multimodali di Grande Scala (MLLMs), rimane una limitazione non trascurabile nella loro difficoltà con il grounding del testo visivo, specialmente nelle immagini ricche di testo come i documenti. Le immagini di documenti, come moduli scansionati e infografiche, evidenziano sfide critiche a causa dei loro layout complessi e del contenuto testuale. Tuttavia, gli attuali benchmark non affrontano pienamente queste sfide, poiché si concentrano principalmente sul grounding visivo su immagini naturali, piuttosto che su immagini di documenti ricche di testo. Pertanto, per colmare questa lacuna, introduciamo TRIG, un nuovo task con un dataset di istruzioni appositamente progettato per valutare e migliorare le capacità di Text-Rich Image Grounding degli MLLM nel contesto del question-answering su documenti. Nello specifico, proponiamo una pipeline di interazione OCR-LLM-umano per creare 800 coppie domanda-risposta annotate manualmente come benchmark e un ampio set di addestramento di 90$ dati sintetici basati su quattro dataset diversi. Una valutazione completa di vari MLLM sul nostro benchmark proposto rivela sostanziali limitazioni nella loro capacità di grounding su immagini ricche di testo. Inoltre, proponiamo due metodi TRIG semplici ed efficaci basati rispettivamente su general instruction tuning e su un embedding efficiente plug-and-play. Addestrando gli MLLM sul nostro dataset sintetico, si osserva un promettente miglioramento nelle capacità di ragionamento spaziale e di grounding.

Compass Control: Controllo Multi-Orientamento Oggetti per la Generazione di Immagini da Testo
Compass Control: Multi Object Orientation Control for Text-to-Image Generation

Apr 9

ByRishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu

Gli approcci esistenti per il controllo dei modelli di diffusione testo-immagine, sebbene potenti, non consentono un controllo esplicito e centrato sugli oggetti 3D, come il controllo preciso dell'orientamento degli oggetti. In questo lavoro, affrontiamo il problema del controllo dell'orientamento multi-oggetto nei modelli di diffusione testo-immagine. Ciò consente la generazione di scene multi-oggetto diversificate con un controllo preciso dell'orientamento per ciascun oggetto. L'idea chiave è condizionare il modello di diffusione con un insieme di token compasso orientati, uno per ogni oggetto, insieme ai token di testo. Una rete codificatrice leggera predice questi token compasso prendendo come input l'orientamento dell'oggetto. Il modello è addestrato su un dataset sintetico di scene generate proceduralmente, ciascuna contenente uno o due asset 3D su uno sfondo semplice. Tuttavia, l'addestramento diretto di questo framework risulta in un controllo scadente dell'orientamento e porta a un intreccio tra gli oggetti. Per mitigare ciò, interveniamo nel processo di generazione e vincoliamo le mappe di cross-attention di ciascun token compasso alle regioni corrispondenti dell'oggetto. Il modello addestrato è in grado di ottenere un controllo preciso dell'orientamento per a) oggetti complessi non visti durante l'addestramento e b) scene multi-oggetto con più di due oggetti, indicando forti capacità di generalizzazione. Inoltre, quando combinato con metodi di personalizzazione, il nostro metodo controlla con precisione l'orientamento del nuovo oggetto in contesti diversificati. Il nostro metodo raggiunge uno stato dell'arte nel controllo dell'orientamento e nell'allineamento del testo, quantificato con valutazioni estensive e uno studio utente.

Geo4D: Sfruttare i generatori di video per la ricostruzione geometrica di scene 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

Apr 10

ByZeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi

Presentiamo Geo4D, un metodo per riadattare modelli di diffusione video alla ricostruzione 3D monoculare di scene dinamiche. Sfruttando il forte prior dinamico catturato da tali modelli video, Geo4D può essere addestrato utilizzando esclusivamente dati sintetici, generalizzando efficacemente a dati reali in modalità zero-shot. Geo4D predice diverse modalità geometriche complementari, ovvero mappe di punti, di profondità e di raggi. Utilizza un nuovo algoritmo di allineamento multi-modale per allineare e fondere queste modalità, insieme a multiple finestre scorrevoli, al momento dell'inferenza, ottenendo così una ricostruzione 4D robusta e accurata di video lunghi. Esperimenti estesi su molteplici benchmark dimostrano che Geo4D supera significativamente i metodi all'avanguardia per la stima della profondità video, inclusi approcci recenti come MonST3R, anch'essi progettati per gestire scene dinamiche.

MonoPlace3D: Apprendimento del Posizionamento 3D-Consapevole per il Rilevamento Monoculare 3D
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

Apr 9

ByRishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu

Gli attuali rilevatori 3D monoculari sono limitati dalla diversità e scala ridotte dei dataset del mondo reale. Sebbene l'aumento dei dati sia certamente utile, è particolarmente difficile generare dati aumentati realistici e consapevoli della scena per ambienti esterni. La maggior parte degli approcci attuali alla generazione di dati sintetici si concentra sull'aspetto realistico degli oggetti attraverso tecniche di rendering migliorate. Tuttavia, dimostriamo che dove e come gli oggetti sono posizionati è altrettanto cruciale per addestrare efficacemente i rilevatori 3D monoculari. L'ostacolo principale risiede nel determinare automaticamente parametri realistici di posizionamento degli oggetti - inclusi posizione, dimensioni e allineamento direzionale - quando si introducono oggetti sintetici in scene reali. Per affrontare questo problema, introduciamo MonoPlace3D, un sistema innovativo che considera il contenuto 3D della scena per creare aumentazioni realistiche. Nello specifico, data una scena di sfondo, MonoPlace3D apprende una distribuzione su box di delimitazione 3D plausibili. Successivamente, rendiamo oggetti realistici e li posizioniamo in base alle località campionate dalla distribuzione appresa. La nostra valutazione completa su due dataset standard, KITTI e NuScenes, dimostra che MonoPlace3D migliora significativamente l'accuratezza di numerosi rilevatori 3D monoculari esistenti, risultando altamente efficiente in termini di dati.

TAPNext: Tracciamento di Qualsiasi Punto (TAP) come Predizione del Token Successivo
TAPNext: Tracking Any Point (TAP) as Next Token Prediction

Apr 8

ByArtem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin

Il tracciamento di qualsiasi punto (TAP) in un video è un problema complesso di visione artificiale con numerose applicazioni dimostrate in robotica, editing video e ricostruzione 3D. I metodi esistenti per il TAP si basano fortemente su bias induttivi ed euristiche specifiche per il tracciamento, limitandone la generalità e il potenziale di scalabilità. Per affrontare queste sfide, presentiamo TAPNext, un nuovo approccio che formula il TAP come decodifica sequenziale di token mascherati. Il nostro modello è causale, esegue il tracciamento in modo puramente online e rimuove i bias induttivi specifici per il tracciamento. Ciò consente a TAPNext di operare con una latenza minima ed elimina la necessità di finestre temporali richieste da molti tracker all'avanguardia. Nonostante la sua semplicità, TAPNext raggiunge una nuova performance di tracciamento all'avanguardia sia tra i tracker online che offline. Infine, presentiamo prove che molte euristiche ampiamente utilizzate nel tracciamento emergono naturalmente in TAPNext attraverso l'addestramento end-to-end.

Pangu Ultra: Spingere i Limiti dei Modelli Linguistici di Grande Dimensione su Ascend NPU
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

Apr 10

ByYichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu

Presentiamo Pangu Ultra, un Large Language Model (LLM) con 135 miliardi di parametri e moduli Transformer densi addestrati su Ascend Neural Processing Units (NPU). Sebbene il campo degli LLM abbia assistito a progressi senza precedenti nel potenziamento della scala e delle capacità di questi modelli negli ultimi anni, l'addestramento di un modello così su larga scala comporta ancora significative sfide di ottimizzazione e sistema. Per stabilizzare il processo di addestramento, proponiamo la normalizzazione a sandwich scalata in profondità, che elimina efficacemente i picchi di perdita durante l'addestramento di modelli profondi. Abbiamo pre-addestrato il nostro modello su 13,2 trilioni di token diversificati e di alta qualità e ulteriormente potenziato le sue capacità di ragionamento durante il post-addestramento. Per eseguire un addestramento su così larga scala in modo efficiente, abbiamo utilizzato 8.192 NPU Ascend con una serie di ottimizzazioni di sistema. Le valutazioni su molteplici benchmark diversificati indicano che Pangu Ultra avanza significativamente le capacità state-of-the-art degli LLM densi come Llama 405B e Mistral Large 2, e raggiunge persino risultati competitivi con DeepSeek-R1, la cui struttura di modello sparsa contiene molti più parametri. La nostra esplorazione dimostra che le NPU Ascend sono in grado di addestrare in modo efficiente ed efficace modelli densi con oltre 100 miliardi di parametri. Il nostro modello e sistema saranno disponibili per i nostri clienti commerciali.

Rapporto Tecnico Kimi-VL
Kimi-VL Technical Report

Apr 10

134