HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

29 papers found

PixelSmile: Verso un Editing Sottile delle Espressioni Facciali
PixelSmile: Toward Fine-Grained Facial Expression Editing

Mar 26

ByJiabin Hua, Hengyuan Xu, Aojie Li, Wei Cheng, Gang Yu, Xingjun Ma, Yu-Gang Jiang

111

La modifica fine delle espressioni facciali è stata a lungo limitata dalla sovrapposizione semantica intrinseca. Per affrontare questo problema, abbiamo costruito il dataset FFE (Flex Facial Expression) con annotazioni affettive continue e abbiamo istituito FFE-Bench per valutare la confusione strutturale, l'accuratezza della modifica, la controllabilità lineare e il compromesso tra modifica dell'espressione e preservazione dell'identità. Proponiamo PixelSmile, un framework basato su modelli di diffusione che separa la semantica delle espressioni attraverso un addestramento congiunto completamente simmetrico. PixelSmile combina la supervisione dell'intensità con l'apprendimento contrastivo per produrre espressioni più marcate e distinguibili, raggiungendo un controllo lineare preciso e stabile dell'espressione attraverso l'interpolazione latente testuale. Esperimenti estensivi dimostrano che PixelSmile ottiene una superiore separazione semantica e una robusta preservazione dell'identità, confermandone l'efficacia per la modifica continua, controllabile e fine delle espressioni, supportando naturalmente la fusione fluida delle espressioni.

Intern-S1-Pro: Modello Fondamentale Scientifico Multimodale su Scala Trilione
Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Mar 26

ByYicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

Presentiamo Intern-S1-Pro, il primo modello fondazionale scientifico multimodale da mille miliardi di parametri. Scalando a questa dimensione senza precedenti, il modello offre un potenziamento completo sia in ambito generale che scientifico. Oltre a capacità di ragionamento e comprensione immagine-testo più solide, la sua intelligenza è potenziata da capacità avanzate di agente. Contemporaneamente, la sua competenza scientifica è stata notevolmente ampliata per padroneggiare oltre 100 compiti specializzati in campi scientifici critici, tra cui chimica, scienza dei materiali, scienze della vita e scienze della terra. Il raggiungimento di questa scala massiccia è reso possibile dal robusto supporto infrastrutturale di XTuner e LMDeploy, che facilita un addestramento altamente efficiente per Rinforzo (RL) a livello del trilione di parametri, garantendo al contempo una rigorosa coerenza di precisione tra addestramento e inferenza. Integrando perfettamente questi progressi, Intern-S1-Pro consolida ulteriormente la fusione tra intelligenza generale e specializzata, operando come uno Specializzabile Generalista, dimostrando la sua posizione al vertice dei modelli open-source per le capacità generali, superando al contempo i modelli proprietari nella profondità dei compiti scientifici specializzati.

Calibri: Miglioramento dei Trasformatori a Diffusione tramite Calibrazione Efficiente in Parametri
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

Mar 25

ByDanil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev

In questo articolo, sveliamo il potenziale nascosto dei Diffusion Transformer (DiT) per migliorare significativamente le attività generative. Attraverso un'analisi approfondita del processo di rimozione del rumore, dimostriamo che l'introduzione di un singolo parametro di scalatura appreso può migliorare notevolmente le prestazioni dei blocchi DiT. Sulla base di questa intuizione, proponiamo Calibri, un approccio efficiente in termini di parametri che calibra in modo ottimale i componenti dei DiT per elevare la qualità generativa. Calibri inquadra la calibrazione dei DiT come un problema di ottimizzazione di reward a scatola chiusa, che viene risolto efficientemente utilizzando un algoritmo evolutivo e modificando solo circa 100 parametri. I risultati sperimentali rivelano che, nonostante il suo design leggero, Calibri migliora costantemente le prestazioni su vari modelli text-to-image. È degno di nota come Calibri riduca anche i passi di inferenza necessari per la generazione di immagini, mantenendo al contempo output di alta qualità.

RealRestorer: Verso un Restauro Generalizzabile di Immagini del Mondo Reale con Modelli di Modifica di Immagini su Larga Scala
RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

Mar 26

ByYufeng Yang, Xianfang Zeng, Zhangqi Jiang, Fukun Yin, Jianzhuang Liu, Wei Cheng, jinghong lan, Shiyu Liu, Yuqi Peng, Gang YU, Shifeng Chen

La ripristino delle immagini soggette a degradazioni del mondo reale è fondamentale per attività downstream come la guida autonoma e il rilevamento di oggetti. Tuttavia, i modelli di ripristino esistenti sono spesso limitati dalla scala e dalla distribuzione dei loro dati di addestramento, con conseguente scarsa generalizzazione agli scenari reali. Recentemente, i modelli di editing di immagini su larga scala hanno dimostrato una forte capacità di generalizzazione nelle attività di ripristino, in particolare per modelli closed-source come Nano Banana Pro, che possono ripristinare le immagini preservandone la coerenza. Tuttavia, il raggiungimento di tali prestazioni con questi modelli universali di grandi dimensioni richiede ingenti costi computazionali e di dati. Per affrontare questo problema, abbiamo costruito un dataset su larga scala che copre nove tipi comuni di degradazione del mondo reale e addestrato un modello open-source all'avanguardia per ridurre il divario con le alternative closed-source. Inoltre, introduciamo RealIR-Bench, che contiene 464 immagini degradate del mondo reale e metriche di valutazione personalizzate incentrate sulla rimozione delle degradazioni e sulla preservazione della coerenza. Esperimenti estensivi dimostrano che il nostro modello si classifica al primo posto tra i metodi open-source, raggiungendo prestazioni all'avanguardia.

Voxtral TTS
Voxtral TTS

Mar 26

ByAlexander H. Liu, Alexis Tacnet, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Henry Lagarde, Jean-Malo Delignon, Jaeyoung Kim, John Harvill, Khyathi Raghavi Chandu, Lorenzo Signoretti, Margaret Jennings, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Samuel Humeau, Soham Ghosh, Srijan Mishra, Van Phung, Abdelaziz Bounhar, Abhinav Rastogi, Adrien Sadé, Alan Jeffares, Albert Jiang, Alexandre Cahill, Alexandre Gavaudan, Alexandre Sablayrolles, Amélie Héliou, Amos You, Andrew Bai, Andrew Zhao, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Arthur Fournier, Artjom Joosen, Avi Sooriyarachchi, Aysenur Karaduman Utkur, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Bowen Yang, Charlotte Cronjäger, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elizaveta Demyanenko, Elliot Chane-Sane, Emmanuel Gottlob, Enguerrand Paquin, Etienne Goffinet, Fabien Niel, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Kunsch, Guillaume Martin, Guillaume Raille, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Harshil Shah, Hope McGovern, Hugo Thimonier, Indraneel Mukherjee, Irene Zhang, Jacques Sun, Jan Ludziejewski, Jason Rute, Jérémie Dentan, Joachim Studnia, Jonas Amar, Joséphine Delas, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kilian Tep, Kush Jain, Laurence Aitchison, Laurent Fainsin, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Marie Pellat, Mark Prins, Martin Alexandre, Mathieu Poirée, Mathieu Schmitt, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Mikhail Biriuchinskii, Minh-Quang Pham, Mircea Lica, Morgane Rivière, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philippe Pinel, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Randall Isenhour, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Rupert Menneer, Sagar Vaze, Samuel Barry, Samuel Belkadi, Sandeep Subramanian, Sean Cha, Shashwat Verma, Siddhant Waghjale, Siddharth Gandhi, Simon Lepage, Sumukh Aithal, Szymon Antoniak, Tarun Kumar Vangani, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Umar Jamil, Umberto Tomasini, Valeriia Nemychnikova, Vedant Nanda, Victor Jouault, Vincent Maladière, Vincent Pfister, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Havard, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yassine El Ouahidi, Yassir Bendou, Yihan Wang, Yimu Pan, Zaccharie Ramzi, Zhenlin Xu

Introduciamo Voxtral TTS, un modello di sintesi vocale multilingue ed espressivo che genera un parlato naturale a partire da soli 3 secondi di audio di riferimento. Voxtral TTS adotta un'architettura ibrida che combina la generazione autoregressiva di token semantici del parlato con il flow-matching per i token acustici. Questi token sono codificati e decodificati con Voxtral Codec, un tokenizzatore vocale addestrato da zero con uno schema di quantizzazione ibrido VQ-FSQ. In valutazioni umane condotte da parlanti nativi, Voxtral TTS è preferito per il cloning vocale multilingue grazie alla sua naturalezza ed espressività, raggiungendo un tasso di preferenza del 68,4% rispetto a ElevenLabs Flash v2.5. Rilasciamo i pesi del modello con licenza CC BY-NC.

MSA: Attenzione Sparsa in Memoria per un'Efficiente Scalabilità End-to-End dei Modelli di Memoria fino a 100 Milioni di Token
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Mar 6

ByYu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li, Jianjin Zhang, Jun Sun, Chuanrui Hu, Yunyun Han, Lidong Bing, Yafeng Deng, Tianqiao Chen

La memoria a lungo termine è una pietra miliare dell'intelligenza umana. Consentire all'IA di elaborare informazioni su scala di una vita rimane un obiettivo di lunga data nel campo. A causa dei vincoli delle architetture di piena attenzione, la lunghezza effettiva del contesto dei grandi modelli linguistici (LLM) è tipicamente limitata a 1 milione di token. Gli approcci esistenti, come l'attenzione lineare ibrida, stati di memoria a dimensione fissa (ad esempio, RNN), e metodi di memorizzazione esterna come RAG o sistemi ad agente, tentano di estendere questo limite. Tuttavia, essi spesso soffrono di una grave degradazione della precisione e di una latenza in rapido aumento con la crescita del contesto, di un'incapacità di modificare dinamicamente il contenuto della memoria, o di una mancanza di ottimizzazione end-to-end. Questi colli di bottiglia ostacolano scenari complessi come la summarizzazione di grandi corpus, i Digital Twins e il ragionamento di agenti su lunga storia, limitando al contempo la capacità di memoria e rallentando l'inferenza. Presentiamo Memory Sparse Attention (MSA), un framework di modelli di memoria addestrabile end-to-end, efficiente e massicciamente scalabile. Attraverso innovazioni fondamentali che includono l'attenzione sparsa scalabile e il RoPE document-wise, MSA raggiunge una complessità lineare sia nell'addestramento che nell'inferenza, mantenendo un'eccezionale stabilità e mostrando un degrado inferiore al 9% quando si scala da 16K a 100M di token. Inoltre, la compressione della cache KV, combinata con Memory Parallel, consente l'inferenza su 100 milioni di token su 2 GPU A800. Proponiamo anche Memory Interleaving per facilitare ragionamenti multi-hop complessi su segmenti di memoria sparsi. MSA supera significativamente gli LLM all'avanguardia, i sistemi RAG più avanzati e i principali agenti di memoria nei benchmark di contesto lungo. Questi risultati dimostrano che, disaccoppiando la capacità di memoria dal ragionamento, MSA fornisce una base scalabile per dotare i modelli generici di una memoria intrinseca su scala di vita.

MACRO: Avanzamento nella Generazione di Immagini Multi-Riferimento con Dati Strutturati a Lungo Contesto
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

Mar 26

ByZhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu

La generazione di immagini condizionata da riferimenti visivi multipli è fondamentale per applicazioni nel mondo reale come la composizione multi-soggetto, l'illustrazione narrativa e la sintesi di nuove visuali, eppure i modelli attuali soffrono di un grave degrado delle prestazioni all'aumentare del numero di riferimenti in input. Identifichiamo la causa principale in un collo di bottiglia fondamentale nei dati: i dataset esistenti sono dominati da coppie con uno o pochi riferimenti e mancano della supervisione strutturata a lungo contesto necessaria per apprendere dense dipendenze inter-riferimento. Per affrontare questo problema, introduciamo MacroData, un dataset su larga scala di 400.000 campioni, ciascuno contenente fino a 10 immagini di riferimento, organizzato sistematicamente lungo quattro dimensioni complementari – Personalizzazione, Illustrazione, Ragionamento spaziale e Dinamiche temporali – per fornire una copertura completa dello spazio di generazione multi-riferimento. Riconoscendo la concomitante assenza di protocolli di valutazione standardizzati, proponiamo ulteriormente MacroBench, un benchmark di 4.000 campioni che valuta la coerenza generativa attraverso dimensioni di compito graduate e scale di input. Esperimenti estensivi mostrano che il fine-tuning su MacroData produce miglioramenti sostanziali nella generazione multi-riferimento, e studi di ablazione rivelano ulteriormente benefici sinergici dell'addestramento congiunto cross-task e strategie efficaci per gestire la complessità del contesto lungo. Il dataset e il benchmark saranno rilasciati pubblicamente.

SlopCodeBench: Benchmark delle Prestazioni Degradanti degli Agenti di Codifica in Compiti Iterativi a Lungo Termine
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Mar 25

ByGabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Frederic Sala, Aws Albarghouthi

Lo sviluppo software è iterativo, eppure i benchmark di programmazione agentica valutano in modo schiacciante soluzioni one-shot rispetto a specifiche complete. Il codice può superare la suite di test ma diventare progressivamente più difficile da estendere. I recenti benchmark iterativi tentano di colmare questa lacuna, ma vincolano troppo strettamente le decisioni di progettazione dell'agente per misurare fedelmente come la qualità del codice modelli le estensioni future. Introduciamo SlopCodeBench, un benchmark language-agnostic che comprende 20 problemi e 93 checkpoint, in cui gli agenti estendono ripetutamente le proprie soluzioni precedenti sotto specifiche in evoluzione che forzano decisioni architetturali senza prescrivere la struttura interna. Tracciamo due segnali di qualità a livello di traiettoria: la verbosità, la frazione di codice ridondante o duplicato, e l'erosione strutturale, la quota di complessità concentrata in funzioni ad alta complessità. Nessun agente risolve alcun problema end-to-end tra 11 modelli; il tasso di risoluzione più alto per checkpoint è del 17,2%. La qualità si degrada costantemente: l'erosione aumenta nell'80% delle traiettorie e la verbosità nell'89,8%. Confrontato con 48 repository Python open-source, il codice degli agenti è 2,2 volte più verboso e marcatamente più eroso. Monitorando 20 di questi repository nel tempo, si osserva che il codice umano rimane stabile, mentre il codice degli agenti si deteriora a ogni iterazione. Uno studio di intervento sui prompt mostra che la qualità iniziale può essere migliorata, ma ciò non arresta il degrado. Questi risultati dimostrano che i benchmark basati sul tasso di superamento sottostimano sistematicamente la robustezza all'estensione e che gli agenti attuali mancano della disciplina progettuale richiesta dallo sviluppo software iterativo.

AVControl: Framework Efficiente per l'Addestramento di Controlli Audio-Visivi
AVControl: Efficient Framework for Training Audio-Visual Controls

Mar 25

ByMatan Ben-Yosef, Tavi Halperin, Naomi Ken Korem, Mohammad Salama, Harel Cain, Asaf Joseph, Anthony Chen, Urska Jelercic, Ofir Bibi

Il controllo della generazione video e audio richiede modalità diversificate, dalla profondità e posa alle traiettorie della telecamera e trasformazioni audio, ma gli approcci esistenti addestrano un unico modello monolitico per un insieme fisso di controlli o introducono costose modifiche architetturali per ogni nuova modalità. Presentiamo AVControl, un framework leggero ed estendibile basato su LTX-2, un modello base audiovisivo congiunto, in cui ogni modalità di controllo viene addestrata come un LoRA separato su una tela parallela che fornisce il segnale di riferimento come token aggiuntivi negli strati di attenzione, senza richiedere modifiche architetturali oltre agli adattatori LoRA stessi. Dimostriamo che estendere semplicemente i metodi in-context basati su immagine al video fallisce per il controllo strutturale, e che il nostro approccio a tela parallela risolve questo problema. Sul VACE Benchmark, superiamo tutte le baseline valutate per la generazione guidata da profondità e posa, inpaintng e outpainting, e mostriamo risultati competitivi sul controllo della telecamera e benchmark audiovisivi. Il nostro framework supporta un insieme diversificato di modalità addestrate indipendentemente: controlli allineati spazialmente come profondità, posa e bordi, traiettoria della telecamera con parametri intrinseci, controllo sparso del movimento, editing video e, a nostra conoscenza, i primi controlli audiovisivi modulari per un modello di generazione congiunto. Il nostro metodo è efficiente sia in termini computazionali che di dati: ogni modalità richiede solo un piccolo dataset e converge in poche centinaia o migliaia di passi di addestramento, una frazione del budget delle alternative monolitiche. Rilasciamo pubblicamente il nostro codice e i checkpoint LoRA addestrati.

VFIG: Vettorializzazione di Figure Complesse in SVG con Modelli Visione-Linguaggio
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Mar 25

ByQijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna

I formati Scalable Vector Graphics (SVG) sono essenziali per l'illustrazione tecnica e il design digitale, offrendo un'indipendenza dalla risoluzione di precisione e un'editabilità semantica flessibile. Tuttavia, nella pratica, i file vettoriali originali vengono spesso persi o risultano inaccessibili, lasciando disponibili solo versioni rasterizzate "piatte" (ad esempio, PNG o JPEG) che sono difficili da modificare o ridimensionare. Ricostruire manualmente queste figure è un processo proibitivamente laborioso, che richiede competenze specializzate per recuperare l'intento geometrico originale. Per colmare questa lacuna, proponiamo VFIG, una famiglia di Vision-Language Models addestrati per la conversione da figura a SVG complessa e ad alta fedeltà. Sebbene questo compito sia intrinsecamente basato sui dati, i dataset esistenti sono generalmente di piccole dimensioni e privi della complessità dei diagrammi professionali. Affrontiamo questo problema introducendo VFIG-DATA, un dataset su larga scala composto da 66.000 coppie figura-SVG di alta qualità, selezionate da un mix vario di figure tratte da articoli reali e diagrammi generati proceduralmente. Riconoscendo che gli SVG sono composti da primitive ricorrenti e strutture locali gerarchiche, introduciamo un curriculum di addestramento dal grossolano al fine che inizia con un fine-tuning supervisionato (SFT) per apprendere le primitive atomiche e passa a una raffinazione con apprendimento per rinforzo (RL) per ottimizzare la fedeltà globale del diagramma, la coerenza del layout e i casi limite topologici. Infine, introduciamo VFIG-BENCH, una suite di valutazione completa con metriche innovative progettate per misurare l'integrità strutturale di figure complesse. VFIG raggiunge prestazioni all'avanguardia tra i modelli open-source e si comporta in modo analogo a GPT-5.2, ottenendo un punteggio VLM-Judge di 0.829 su VFIG-BENCH.

Meno Gaussiane, Più Texture: Splatting Testurizzato in Avanzamento a 4K
Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

Mar 26

ByYixing Lao, Xuyang Bai, Xiaoyang Wu, Nuoyuan Yan, Zixin Luo, Tian Fang, Jean-Daniel Nahmias, Yanghai Tsin, Shiwei Li, Hengshuang Zhao

I metodi esistenti di 3D Gaussian Splatting feed-forward prevedono primitive allineate ai pixel, portando a una crescita quadratica del numero di primitive all'aumentare della risoluzione. Questo limita fondamentalmente la loro scalabilità, rendendo intrattabile la sintesi ad alta risoluzione, come il 4K. Introduciamo LGTM (Less Gaussians, Texture More), un framework feed-forward che supera questa barriera di scalabilità della risoluzione. Prevedendo primitive Gaussianhe compatte accoppiate a texture per primitiva, LGTM disaccoppia la complessità geometrica dalla risoluzione di rendering. Questo approccio consente una sintesi di nuove viste ad alta fedeltà in 4K senza ottimizzazione per scena, una capacità finora irraggiungibile per i metodi feed-forward, utilizzando al contempo un numero significativamente inferiore di primitive Gaussianhe. Pagina del progetto: https://yxlao.github.io/lgtm/

L'allineamento della rappresentazione per i trasformatori di immagini giusti non è più semplice di quanto si pensi
Representation Alignment for Just Image Transformers is not Easier than You Think

Mar 15

ByJaeyo Shin, Jiwook Kim, Hyunjung Shim

L'allineamento delle rappresentazioni (REPA) è emerso come un metodo semplice per accelerare l'addestramento dei Diffusion Transformer nello spazio latente. Allo stesso tempo, i diffusion transformer nello spazio dei pixel, come i Just Image Transformer (JiT), hanno attirato crescente attenzione poiché rimuovono la dipendenza da un tokenizer preaddestrato, evitando così il collo di bottiglia ricostruttivo della diffusione latente. Questo articolo dimostra che il REPA può fallire con i JiT. Il REPA produce un FID peggiore per JiT con il procedere dell'addestramento e collassa la diversità su sottoinsiemi di immagini fortemente raggruppati nello spazio delle rappresentazioni del codificatore semantico preaddestrato su ImageNet. Riconduciamo il fallimento a un'asimmetria informativa: la rimozione del rumore avviene nell'alto spazio dimensionale dell'immagine, mentre il target semantico è fortemente compresso, rendendo la regressione diretta un obiettivo di scorciatoia. Proponiamo PixelREPA, che trasforma il target di allineamento e vincola l'allineamento con un Adapter a Trasformatore Mascherato che combina un adapter a trasformatore superficiale con un mascheramento parziale dei token. PixelREPA migliora sia la convergenza dell'addestramento che la qualità finale. PixelREPA riduce l'FID da 3.66 a 3.17 per JiT-B/16 e migliora l'Inception Score (IS) da 275.1 a 284.6 su ImageNet 256x256, raggiungendo al contempo una convergenza >2 volte più veloce. Infine, PixelREPA-H/16 raggiunge FID=1.81 e IS=317.2. Il nostro codice è disponibile all'indirizzo https://github.com/kaist-cvml/PixelREPA.

MuRF: Sbloccare il Potenziale Multi-Scala dei Modelli di Base per la Visione
MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Mar 26

ByBocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee

I Vision Foundation Model (VFM) sono diventati la pietra angolare della visione artificiale moderna, offrendo rappresentazioni robuste per una vasta gamma di compiti. Sebbene i recenti progressi consentano a questi modelli di gestire dimensioni di input variabili durante l'addestramento, l'inferenza è tipicamente limitata a una singola scala fissa. Questo paradigma prevalente a scala singola trascura una proprietà fondamentale della percezione visiva: risoluzioni diverse offrono bias induttivi complementari, per cui le viste a bassa risoluzione eccellono nel riconoscimento semantico globale, mentre le viste ad alta risoluzione sono essenziali per una raffinatura fine-grana. In questo lavoro, proponiamo la Multi-Resolution Fusion (MuRF), una strategia semplice ma universalmente efficace per sfruttare questa sinergia al momento dell'inferenza. Invece di affidarsi a una singola vista, MuRF costruisce una rappresentazione unificata elaborando un'immagine a più risoluzioni attraverso un VFM congelato e fondendo le caratteristiche risultanti. L'universalità di MuRF è il suo attributo più convincente. Non è legata a un'architettura specifica, fungendo piuttosto da miglioramento fondamentale, privo di addestramento, per la rappresentazione visiva. Convalidiamo empiricamente ciò applicando MuRF a un ampio spettro di compiti critici di visione artificiale attraverso molteplici famiglie distinte di VFM, principalmente DINOv2, ma dimostrando anche una generalizzazione di successo a modelli contrastivi come SigLIP.

MemMA: Coordinazione del Ciclo di Memoria attraverso Ragionamento Multi-Agente e Auto-Evoluzione In-Situ
MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Mar 19

ByMinhua Lin, Zhiwei Zhang, Hanqing Lu, Hui Liu, Xianfeng Tang, Qi He, Xiang Zhang, Suhang Wang

Gli agenti LLM potenziati con memoria mantengono banchi di memoria esterni per supportare interazioni a lungo termine, tuttavia la maggior parte dei sistemi esistenti tratta costruzione, recupero e utilizzo come subroutine isolate. Ciò crea due sfide accoppiate: cecità strategica nel percorso in avanti del ciclo di memoria, dove costruzione e recupero sono guidati da euristiche locali anziché da ragionamenti strategici espliciti, e supervisione rada e ritardata nel percorso all'indietro, dove i fallimenti a valle raramente si traducono in riparazioni dirette del banco di memoria. Per affrontare queste sfide, proponiamo MemMA, un framework multi-agente plug-and-play che coordina il ciclo di memoria lungo entrambi i percorsi. Nel percorso in avanti, un Meta-Pensatore produce linee guida strutturate che orientano un Gestore della Memoria durante la costruzione e dirigono un Motore di Interrogazione durante il recupero iterativo. Nel percorso all'indietro, MemMA introduce una costruzione di memoria auto-evolutiva in situ, che sintetizza coppie di domande-risposte di prova, verifica la memoria corrente e converte i fallimenti in azioni di riparazione prima che la memoria sia finalizzata. Esperimenti estensivi su LoCoMo mostrano che MemMA supera costantemente i baseline esistenti su molteplici backbone LLM e migliora tre diversi backend di archiviazione in modalità plug-and-play. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ventr1c/memma.

FinMCP-Bench: Valutazione di Agenti LLM per l'Uso di Strumenti Finanziari nel Mondo Reale con il Model Context Protocol
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

Mar 26

ByJie Zhu, Yimin Tian, Boyang Li, Kehao Wu, Zhongzhi Liang, Junhui Li, Xianyin Zhang, Lifan Guo, Feng Chen, Yong Liu, Chi Zhang

Questo articolo presenta FinMCP-Bench, un nuovo benchmark per valutare i grandi modelli linguistici (LLM) nella risoluzione di problemi finanziari reali attraverso l'invocazione di strumenti basata su protocolli contestuali di modelli finanziari. FinMCP-Bench contiene 613 campioni che coprono 10 scenari principali e 33 sottoscenari, caratterizzati sia da query utente reali che sintetiche per garantire diversità e autenticità. Incorpora 65 protocolli MCP finanziari reali e tre tipologie di campioni (strumento singoli, strumenti multipli e conversazioni multi-turno), consentendo la valutazione dei modelli su diversi livelli di complessità dei compiti. Utilizzando questo benchmark, valutiamo sistematicamente una serie di LLM mainstream e proponiamo metriche che misurano esplicitamente l'accuratezza nell'invocazione degli strumenti e le capacità di ragionamento. FinMCP-Bench fornisce un banco di prova standardizzato, pratico e stimolante per far progredire la ricerca sugli agenti LLM finanziari.

AVO: Operatori di Variazione Agente per la Ricerca Evolutiva Autonoma
AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Mar 25

ByTerry Chen, Zhifan Ye, Bing Xu, Zihao Ye, Timmy Liu, Ali Hassani, Tianqi Chen, Andrew Kerr, Haicheng Wu, Yang Xu, Yu-Jung Chen, Hanfeng Chen, Aditya Kane, Ronny Krashinsky, Ming-Yu Liu, Vinod Grover, Luis Ceze, Roger Bringmann, John Tran, Wei Liu, Fung Xie, Michael Lightstone, Humphrey Shi

Gli Agentic Variation Operators (AVO) costituiscono una nuova famiglia di operatori di variazione evolutiva che sostituiscono le euristiche fisse di mutazione, crossover e progettazione manuale della ricerca evolutiva classica con agenti di codifica autonomi. Invece di limitare un modello linguistico alla generazione di candidati all'interno di una pipeline predeterminata, AVO istanzia la variazione come un ciclo agente auto-diretto in grado di consultare il lignaggio corrente, una base di conoscenze dominio-specifica e il feedback di esecuzione per proporre, riparare, criticare e verificare modifiche all'implementazione. Valutiamo AVO sull'attenzione, uno dei target di kernel più aggressivamente ottimizzati nell'IA, su GPU NVIDIA Blackwell (B200). Dopo 7 giorni di evoluzione autonoma continua sulla multi-head attention, AVO scopre kernel che superano cuDNN fino al 3,5% e FlashAttention-4 fino al 10,5% nelle configurazioni testate. Le ottimizzazioni scoperte si trasferiscono facilmente alla grouped-query attention, richiedendo solo 30 minuti di adattamento autonomo aggiuntivo e producendo guadagni fino al 7,0% su cuDNN e al 9,3% su FlashAttention-4. Nel complesso, questi risultati dimostrano che gli operatori di variazione agentici vanno oltre le precedenti pipeline evolutive con LLM-in-the-loop, elevando l'agente da generatore di candidati a operatore di variazione, e possono scoprire ottimizzazioni micro-architetturali critiche per le prestazioni che producono kernel superiori alle implementazioni di attenzione state-of-the-art ingegnerizzate da esperti sull'hardware GPU più avanzato di oggi.

Vega: Imparare a guidare con istruzioni in linguaggio naturale
Vega: Learning to Drive with Natural Language Instructions

Mar 26

BySicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu

I modelli visione-linguaggio-azione hanno rivoluzionato la guida autonoma integrando il linguaggio nel processo decisionale. Tuttavia, la maggior parte delle pipeline esistenti utilizza la modalità linguistica solo per descrizioni della scena o ragionamenti, mancando della flessibilità necessaria per seguire istruzioni diversificate dell'utente per una guida personalizzata. Per affrontare questa limitazione, abbiamo inizialmente costruito un dataset su larga scala (InstructScene) contenente circa 100.000 scene annotate con istruzioni di guida diversificate e le relative traiettorie. Successivamente proponiamo Vega, un modello unificato Visione-Linguaggio-Mondo-Azione, per la generazione e pianificazione basata su istruzioni. Adottiamo il paradigma autoregressivo per elaborare gli input visivi (visione) e le istruzioni linguistiche (linguaggio), e il paradigma diffusion per generare previsioni future (modellazione del mondo) e traiettorie (azione). Implementiamo un'attenzione congiunta per abilitare le interazioni tra le modalità e utilizziamo strati di proiezione individuali per le diverse modalità per ottenere maggiori capacità. Esperimenti estensivi dimostrano che il nostro metodo non solo raggiunge prestazioni di pianificazione superiori, ma mostra anche forti capacità di seguire le istruzioni, aprendo la strada a sistemi di guida più intelligenti e personalizzati.

Riesaminare la distillazione on-policy: modalità di fallimento empiriche e soluzioni semplici
Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Mar 26

ByYuqian Fu, Haohuan Huang, Kaiwen Jiang, Yuanheng Zhu, Dongbin Zhao

La distillazione on-policy (OPD) è interessante per il post-addestramento di grandi modelli linguistici (LLM) perché valuta il feedback del docente sui rollout generati dallo studente, anziché su tracce fisse del docente. Tuttavia, in contesti a lungo orizzonte, la variante comune basata sul token campionato è fragile: riduce l'adattamento della distribuzione a un segnale a singolo token e diventa progressivamente inaffidabile man mano che i rollout si allontanano dai prefissi che il docente visita comunemente. Rivediamo l'OPD dal punto di vista dell'estimatore e dell'implementazione. Teoricamente, l'OPD a livello di token è distorto rispetto alla KL inversa a livello di sequenza, ma ha un limite di varianza nel caso peggiore molto più stretto; il nostro studio giocattolo mostra empiricamente lo stesso compromesso, con un accoppiamento più forte della ricompensa futura che produce una maggiore varianza del gradiente e un apprendimento meno stabile. Empiricamente, identifichiamo tre modalità di fallimento dell'OPD a token campionato: un segnale a singolo token sbilanciato, una guida inaffidabile del docente sui prefissi generati dallo studente e distorsioni causate da mismatch del tokenizer o dei token speciali. Affrontiamo questi problemi con l'adattamento del supporto locale top-K del docente, implementato come KL inversa troncata con campionamento dei rollout top-p e mascheramento dei token speciali. In contesti di ragionamento matematico a singolo compito e di addestramento multi-compito (agente+matematica), questo obiettivo produce un'ottimizzazione più stabile e prestazioni migliori a valle rispetto all'OPD a token campionato.

S2D2: Decodifica Rapida per LLM Diffusivi tramite Auto-Speculazione Senza Addestramento
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Mar 26

ByLigong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava

I modelli linguistici a diffusione a blocchi offrono una prospettiva promettente per una generazione più veloce di quella autoregressiva, combinando la decodifica autoregressiva a blocchi con la denoisin parallela all'interno del blocco. Tuttavia, nel regime a pochi passi necessario per un'accelerazione pratica, la decodifica standard basata su soglia di confidenza risulta spesso fragile: soglie aggressive compromettono la qualità, mentre soglie conservative richiedono passi di denoising non necessari. Gli approcci esistenti che affrontano questo problema richiedono o un addestramento aggiuntivo o comportano un costo computazionale supplementare al momento del test. Presentiamo S2D2, un framework di decodifica auto-speculativa, che non richiede addestramento, per modelli linguistici a diffusione a blocchi. La nostra osservazione chiave è che un modello a diffusione a blocchi diventa autoregressivo quando la dimensione del blocco viene ridotta a uno, permettendo allo stesso modello preaddestrato di fungere sia da "bozzettista" (drafter) che da verificatore. S2D2 inserisce un passo di verifica speculativa nella decodifica standard a diffusione a blocchi e utilizza politiche di instradamento leggere per decidere quando la verifica vale il suo costo. Ciò produce una traiettoria di decodifica ibrida in cui la diffusione propone token in parallelo, mentre la modalità autoregressiva funge da critico a livello di sequenza locale. Attraverso tre famiglie principali di modelli a diffusione a blocchi, S2D2 migliora costantemente il compromesso precisione-velocità rispetto a solidi baseline con soglia di confidenza. Su SDAR, osserviamo un'accelerazione fino a 4,7 volte rispetto alla decodifica autoregressiva e fino a 1,57 volte rispetto a un baseline dinamico di decodifica ottimizzato, migliorando al contempo la precisione fino a 4,5 punti. Su LLaDA2.1-Mini, S2D2 rimane complementare alla correzione automatica integrata, incluso un setting conservativo in cui è 4,4 volte più veloce del baseline statico con una precisione leggermente superiore.

Oltre la Moda: Apprendimento per Rinforzo per il Ragionamento Distribuzionale nei Modelli Linguistici
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

Mar 25

ByIsha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim

Data una domanda, un modello linguistico (LM) codifica implicitamente una distribuzione sulle possibili risposte. Nella pratica, le procedure di post-addestramento per i LM spesso collassano questa distribuzione su una singola modalità dominante. Sebbene ciò non sia generalmente un problema per valutazioni di tipo benchmark che presuppongono una risposta corretta, molti compiti del mondo reale coinvolgono intrinsecamente molteplici risposte valide o un'incertezza irriducibile. Esempi includono la diagnosi medica, risposte a domande ambigue e contesti con informazioni incomplete. In questi casi, desidereremmo che i LM generino multiple ipotesi plausibili, idealmente con stime di confidenza per ciascuna, e senza un campionamento ripetuto computazionalmente intensivo per generare risposte non modali. Questo articolo descrive un approccio di apprendimento per rinforzo multi-risposta per addestrare i LM a eseguire ragionamenti distribuzionali su più risposte durante l'inferenza. Modifichiamo l'obiettivo dell'RL per consentire ai modelli di generare esplicitamente più risposte candidate in un unico passaggio in avanti, internalizzando aspetti della ricerca al momento dell'inferenza all'interno del processo generativo del modello. In benchmark di question-answering, diagnostica medica e programmazione, osserviamo punteggi migliorati di diversità, copertura e calibrazione a livello di insieme rispetto a baseline addestrate per singola risposta. I modelli addestrati con il nostro approccio richiedono meno token per generare più risposte rispetto agli approcci concorrenti. Sui compiti di programmazione, sono anche sostanzialmente più accurati. Questi risultati posizionano l'RL multi-risposta come un'alternativa principiata e computazionalmente efficiente alle procedure di scaling al momento dell'inferenza come il best-of-k. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://multi-answer-rl.github.io/.

BioVITA: Dataset Biologico, Modello e Benchmark per l'Allineamento Visivo-Testuale-Acustico
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

Mar 25

ByRisa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura

La comprensione delle specie animali da dati multimodali rappresenta una sfida emergente all'intersezione tra visione artificiale ed ecologia. Sebbene recenti modelli biologici, come BioCLIP, abbiano dimostrato una forte allineamento tra immagini e informazioni tassonomiche testuali per l'identificazione delle specie, l'integrazione della modalità audio rimane un problema aperto. Proponiamo BioVITA, un nuovo framework di allineamento visivo-testuale-acustico per applicazioni biologiche. BioVITA comprende (i) un dataset di addestramento, (ii) un modello di rappresentazione e (iii) un benchmark per il retrieval. In primo luogo, abbiamo costruito un dataset di addestramento su larga scala comprendente 1,3 milioni di clip audio e 2,3 milioni di immagini, che coprono 14.133 specie annotate con 34 etichette di tratti ecologici. In secondo luogo, basandoci su BioCLIP2, introduciamo un framework di addestramento a due stadi per allineare efficacemente le rappresentazioni audio con quelle visive e testuali. In terzo luogo, sviluppiamo un benchmark di retrieval cross-modale che copre tutte le possibili direzioni di retrieval tra le tre modalità (ad esempio, da immagine ad audio, da audio a testo, da testo a immagine e le relative direzioni inverse), con tre livelli tassonomici: Famiglia, Genere e Specie. Esperimenti estensivi dimostrano che il nostro modello apprende uno spazio di rappresentazione unificato che cattura la semantica a livello di specie andando oltre la tassonomia, facendo progredire la comprensione multimodale della biodiversità. La pagina del progetto è disponibile all'indirizzo: https://dahlian00.github.io/BioVITA_Page/

I MLLM Possono Leggere la Mente degli Studenti? Un'Analisi degli Errori Multimodale nella Matematica Scritta a Mano
Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

Mar 26

ByDingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen

La valutazione degli appunti scritti a mano degli studenti è fondamentale per un feedback educativo personalizzato, ma presenta sfide uniche a causa della varietà della grafia, dei layout complessi e degli approcci risolutivi eterogenei. L'NLP educativo esistente si concentra principalmente sulle risposte testuali e trascura la complessità e multimodalità intrinseche degli appunti manoscritti autentici. Gli attuali modelli linguistici multimodali (MLLM) eccellono nel ragionamento visivo, ma tipicamente adottano una "prospettiva dell'esaminando", privilegiando la generazione di risposte corrette piuttosto che la diagnosi degli errori degli studenti. Per colmare queste lacune, introduciamo ScratchMath, un nuovo benchmark specificamente progettato per spiegare e classificare gli errori negli appunti di matematica scritti a mano in contesti reali. Il nostro dataset comprende 1.720 campioni matematici di studenti cinesi di scuola primaria e secondaria, e supporta due compiti chiave: Spiegazione della Causa dell'Errore (ECE) e Classificazione della Causa dell'Errore (ECC), con sette tipi di errore definiti. Il dataset è meticolosamente annotato attraverso rigorosi approcci collaborativi uomo-macchina che coinvolgono più fasi di etichettatura, revisione e verifica da parte di esperti. Valutiamo sistematicamente 16 MLLM leader su ScratchMath, rivelando divari prestazionali significativi rispetto agli esperti umani, specialmente nel riconoscimento visivo e nel ragionamento logico. I modelli proprietari superano notevolmente quelli open-source, con i modelli di ragionamento di grandi dimensioni che mostrano un forte potenziale per la spiegazione degli errori. Tutti i dati e i framework di valutazione sono pubblicamente disponibili per facilitare ulteriori ricerche.

Sintonizzazione elettroluminescente elettrostatica in transistor perovskitici a stato solido
Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

Mar 26

ByVladimir Bruevich, Dmitry Maslennikov, Beier Hu, Artem A. Bakulin, Vitaly Podzorov

Dimostriamo un dispositivo semiconduttore completamente allo stato solido, basato su perovskite ad alogenuro metallico epitassiale monocristallina, che consente il controllo reversibile della fotoluminescenza della perovskite mediante una tensione di gate. Fondamentalmente distinto dai diodi elettroluminescenti, un tale transistor ad effetto di campo a fotoluminescenza utilizza il campo elettrico di gate per modulare elettrostaticamente la densità interfacciale di cariche mobili, influenzando così i canali di ricombinazione radiativa e non radiativa dei fotoportatori. La variazione della tensione di gate in tali transistor modifica efficientemente la velocità di ricombinazione interfacciale non radiativa e modula l'intensità della fotoluminescenza dal 65 al 98 percento (a seconda della temperatura). In condizioni di gate favorevoli, è possibile ottenere una quasi completa eliminazione delle perdite non radiative. Questa funzionalità, unita alla forte assorbimento ed emissione nel visibile, resa possibile dall'elevato coefficiente di assorbimento, nonché dallo spessore controllabile e dalla morfologia macroscopicamente omogenea dei film epitassiali di perovskite, porta ad alte efficienze quantiche di fotoluminescenza esterna realizzate in dispositivi a film sottile di grande area. Tali commutatori optoelettronici ad alta efficienza, scalabili e elettrostaticamente regolabili ampliano le potenziali applicazioni delle perovskite ad alogenuro metallico nella fotonica e nell'optoelettronica.

Comprensione della Scena a Livello di Pixel in un Singolo Token: Gli Stati Visivi Richiedono una Composizione Cosa-Dove
Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

Mar 14

BySeokmin Lee, Yunghee Lee, Byeonghyun Pak, Byeongju Woo

Per i robot che operano in ambienti dinamici, l'apprendimento di rappresentazioni visive dello stato a partire da osservazioni video in streaming è essenziale per il processo decisionale sequenziale. Recenti metodi di apprendimento auto-supervisionato hanno dimostrato una forte trasferibilità tra diversi compiti visivi, ma non affrontano esplicitamente cosa una buona rappresentazione visiva dello stato debba codificare. Sosteniamo che gli stati visivi efficaci debbano catturare il "cosa-dove", codificando congiuntamente le identità semantiche degli elementi della scena e le loro posizioni spaziali, consentendo il rilevamento affidabile di dinamiche sottili tra le osservazioni. A tal fine, proponiamo CroBo, un framework per l'apprendimento di rappresentazioni visive dello stato basato su un obiettivo di ricostruzione globale-locale. Dato un'osservazione di riferimento compressa in un token di collo di bottiglia compatto, CroBo impara a ricostruire patch pesantemente mascherate in un ritaglio locale di destinazione a partire da indizi visibili sparsi, utilizzando il token di collo di bottiglia globale come contesto. Questo obiettivo di apprendimento incoraggia il token di collo di bottiglia a codificare una rappresentazione granulare delle entità semantiche dell'intera scena, incluse identità, posizioni spaziali e configurazioni. Di conseguenza, gli stati visivi appresi rivelano come gli elementi della scena si muovono e interagiscono nel tempo, supportando il processo decisionale sequenziale. Valutiamo CroBo su diversi benchmark per l'apprendimento di policy robotiche basate sulla visione, dove raggiunge prestazioni all'avanguardia. Analisi di ricostruzione ed esperimenti sulla "perceptual straightness" mostrano ulteriormente che le rappresentazioni apprese preservano la composizione della scena a livello di pixel e codificano il "cosa-si-muove-dove" tra le osservazioni. Pagina del progetto disponibile all'indirizzo: https://seokminlee-chris.github.io/CroBo-ProjectPage.

Manipolare gli Stati Nascosti: Guida del Modello Senza Addestramento per il Ragionamento a Catena nei Grandi Modelli Audio-Linguistici
Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Mar 15

ByLok-Lam Ieong, Chia-Chien Chen, Chih-Kai Yang, Yu-Han Huang, An-Yu Cheng, Hung-yi Lee

Il prompting a catena di pensiero (CoT) è stato esteso ai grandi modelli audio-linguistici (LALM) per sollecitare il ragionamento, ma migliorarne l'efficacia senza addestramento rimane una sfida. Studiamo lo steering del modello al momento dell'inferenza come approccio senza training per potenziare il ragionamento dei LALM. Introduciamo tre strategie che utilizzano fonti informative diverse e le valutiamo su quattro LALM e quattro benchmark. I risultati mostrano miglioramenti generali dell'accuratezza fino al 4,4% rispetto al prompting CoT. In particolare, identifichiamo un trasferimento cross-modale in cui vettori di steering derivati da pochi campioni testuali guidano efficacemente il ragionamento basato sul parlato, dimostrando un'elevata efficienza dei dati. Esaminiamo inoltre la sensibilità agli iperparametri per comprendere la robustezza di questi approcci. I nostri risultati posizionano lo steering del modello come una direzione pratica per rafforzare il ragionamento dei LALM.

Estensione degli Orizzonti di Nowcasting delle Precipitazioni tramite Fusione Spettrale di Osservazioni Radar e Informazioni A Priori da Modelli Fondamentali
Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

Mar 23

ByYuze Qin, Qingyong Li, Zhiqing Guo, Wen Wang, Yan Liu, Yangli-ao Geng

La previsione immediata delle precipitazioni è fondamentale per la mitigazione dei disastri e la sicurezza aeronautica. Tuttavia, i modelli basati esclusivamente sui radar soffrono spesso della mancanza di un contesto atmosferico su larga scala, portando a un degrado delle prestazioni per previsioni a più lungo termine. Sebbene l'integrazione di variabili meteorologiche previste da modelli meteorologici fondazionali offra una potenziale soluzione, le architetture esistenti non riescono a conciliare le profonde eterogeneità rappresentative tra le immagini radar e i dati meteorologici. Per colmare questa lacuna, proponiamo PW-FouCast, un innovativo framework di fusione nel dominio della frequenza che utilizza le previsioni di Pangu-Weather come prior spettrali all'interno di un'architettura basata su Fourier. La nostra architettura introduce tre innovazioni chiave: (i) una Modulazione di Frequenza Guidata da Pangu-Weather per allineare magnitudini e fasi spettrali con i prior meteorologici; (ii) una Memoria di Frequenza per correggere le discrepanze di fase e preservare l'evoluzione temporale; e (iii) un'Attenzione di Frequenza Invertita per ricostruire i dettagli ad alta frequenza tipicamente persi nel filtraggio spettrale. Esperimenti estensivi sui benchmark SEVIR e MeteoNet dimostrano che PW-FouCast raggiunge prestazioni all'avanguardia, estendendo efficacemente l'orizzonte previsivo affidabile mantenendo al contempo la fedeltà strutturale. Il nostro codice è disponibile all'indirizzo https://github.com/Onemissed/PW-FouCast.

# Rapporto Tecnico di IQuest-Coder-V1
IQuest-Coder-V1 Technical Report

Mar 17

ByJian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing, Shark Liu, Yizhi Li, Jiajun Wu, Cening Liu, X. Ma, Yuyang Song, Siwei Wu, Yuwen Li, L. Liao, T. Zheng, Ziling Huang, Zelong Huang, Che Liu, Yan Xing, Renyuan Li, Qingsong Cai, Hanxu Yan, Siyue Wang, Shikai Li, Jason Klein Liu, An Huang, Yongsheng Kang, Jinxing Zhang, Chuan Hao, Haowen Wang, Weicheng Gu, Ran Tao, Mingjie Tang, Peihao Wu, Jianzhou Wang, Xianglong Liu, Weifeng Lv, Bryan Dai

In questo rapporto presentiamo la serie IQuest-Coder-V1 (7B/14B/40B/40B-Loop), una nuova famiglia di grandi modelli linguistici per il codice. Andando oltre le rappresentazioni di codice statiche, proponiamo il paradigma di addestramento multi-stadio code-flow, che cattura l'evoluzione dinamica della logica software attraverso diverse fasi della pipeline. I nostri modelli sono sviluppati tramite una pipeline evolutiva, a partire dalla pre-training iniziale composto da dati di fatti di codice, repository e completamento. Successivamente, implementiamo una fase di mid-training specializzata che integra traiettorie di ragionamento e agentività in contesto a 32k e su scala repository in contesto a 128k per forgiare solide fondamenta logiche. I modelli vengono poi finalizzati con un post-training di capacità di codifica specializzate, suddiviso in due percorsi specialistici: il percorso thinking (che utilizza RL guidato dal ragionamento) e il percorso instruct (ottimizzato per l'assistenza generica). IQuest-Coder-V1 raggiunge prestazioni all'avanguardia tra i modelli competitivi nelle dimensioni critiche dell'intelligenza del codice: ingegneria del software agentiva, programmazione competitiva e uso complesso di strumenti. Per affrontare i vincoli di deployment, la variante IQuest-Coder-V1-Loop introduce un meccanismo ricorrente progettato per ottimizzare il compromesso tra capacità del modello e impronta computazionale, offrendo un percorso architetturalmente potenziato per il bilanciamento efficacia-efficienza. Riteniamo che il rilascio della serie IQuest-Coder-V1, inclusa la completa catena white-box dei checkpoint dalle basi di pre-training ai modelli finali thinking e instruction, avanzerà la ricerca nell'intelligenza autonoma del codice e nei sistemi agentivi del mondo reale.

PMT: Plain Mask Transformer per la Segmentazione di Immagini e Video con Encoder Visivi Congelati
PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

Mar 26

ByNiccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus

I Vision Foundation Model (VFM) pre-addestrati su larga scala consentono a un singolo encoder congelato di servire simultaneamente molteplici task downstream. I recenti modelli encoder-only basati su VFM per la segmentazione di immagini e video, come EoMT e VidEoMT, raggiungono un'accuratezza competitiva con una latenza notevolmente bassa; tuttavia, richiedono il fine-tuning dell'encoder, sacrificando la condivisione multi-task dell'encoder che rende i VFM praticamente attraenti per il deployment su larga scala. Per conciliare la semplicità e la velocità dell'approccio encoder-only con le caratteristiche congelate dei VFM, proponiamo il Plain Mask Decoder (PMD), un decoder per la segmentazione veloce basato su Transformer che opera su feature VFM congelate. Il modello risultante, il Plain Mask Transformer (PMT), preserva la semplicità architetturale e la bassa latenza dei design encoder-only mantenendo inalterata e condivisibile la rappresentazione dell'encoder. Il design si applica perfettamente sia alla segmentazione di immagini che di video, ereditando la generalità del framework encoder-only. Su benchmark standard di segmentazione di immagini, PMT eguaglia lo stato dell'arte per encoder congelati mentre è fino a ~3 volte più veloce. Per la segmentazione video, performa addirittura alla pari con metodi completamente sottoposti a fine-tuning, pur essendo fino a 8 volte più veloce dei modelli all'avanguardia con encoder congelato. Codice: https://github.com/tue-mps/pmt.

WAFT-Stereo: Trasformazioni di Campo tramite Warping per la Corrispondenza Stereo
WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

Mar 25

ByYihan Wang, Jia Deng

Introduciamo WAFT-Stereo, un metodo semplice ed efficace basato sulla deformazione per la corrispondenza stereo. WAFT-Stereo dimostra che i volumi di costo, un design comune in molti metodi all'avanguardia, non sono necessari per ottenere prestazioni elevate e possono essere sostituiti dalla deformazione con efficienza migliorata. WAFT-Stereo si classifica al primo posto sui benchmark pubblici ETH3D, KITTI e Middlebury, riducendo l'errore zero-shot dell'81% sul benchmark ETH3D, risultando al contempo 1,8-6,7 volte più veloce rispetto a metodi competitivi. Codice e pesi del modello sono disponibili su https://github.com/princeton-vl/WAFT-Stereo.