HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

Scheda del Sistema GPT-4.
GPT-4o System Card

Oct 25

ByOpenAI, Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, Aleksander Mądry, Alex Baker-Whitcomb, Alex Beutel, Alex Borzunov, Alex Carney, Alex Chow, Alex Kirillov, Alex Nichol, Alex Paino, Alex Renzin, Alex Tachard Passos, Alexander Kirillov, Alexi Christakis, Alexis Conneau, Ali Kamali, Allan Jabri, Allison Moyer, Allison Tam, Amadou Crookes, Amin Tootoochian, Amin Tootoonchian, Ananya Kumar, Andrea Vallone, Andrej Karpathy, Andrew Braunstein, Andrew Cann, Andrew Codispoti, Andrew Galu, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Angela Baek, Angela Jiang, Antoine Pelisse, Antonia Woodford, Anuj Gosalia, Arka Dhar, Ashley Pantuliano, Avi Nayak, Avital Oliver, Barret Zoph, Behrooz Ghorbani, Ben Leimberger, Ben Rossen, Ben Sokolowsky, Ben Wang, Benjamin Zweig, Beth Hoover, Blake Samic, Bob McGrew, Bobby Spero, Bogo Giertler, Bowen Cheng, Brad Lightcap, Brandon Walkin, Brendan Quinn, Brian Guarraci, Brian Hsu, Bright Kellogg, Brydon Eastman, Camillo Lugaresi, Carroll Wainwright, Cary Bassin, Cary Hudson, Casey Chu, Chad Nelson, Chak Li, Chan Jun Shern, Channing Conger, Charlotte Barette, Chelsea Voss, Chen Ding, Cheng Lu, Chong Zhang, Chris Beaumont, Chris Hallacy, Chris Koch, Christian Gibson, Christina Kim, Christine Choi, Christine McLeavey, Christopher Hesse, Claudia Fischer, Clemens Winter, Coley Czarnecki, Colin Jarvis, Colin Wei, Constantin Koumouzelis, Dane Sherburn, Daniel Kappler, Daniel Levin, Daniel Levy, David Carr, David Farhi, David Mely, David Robinson, David Sasaki, Denny Jin, Dev Valladares, Dimitris Tsipras, Doug Li, Duc Phong Nguyen, Duncan Findlay, Edede Oiwoh, Edmund Wong, Ehsan Asdar, Elizabeth Proehl, Elizabeth Yang, Eric Antonow, Eric Kramer, Eric Peterson, Eric Sigler, Eric Wallace, Eugene Brevdo, Evan Mays, Farzad Khorasani, Felipe Petroski Such, Filippo Raso, Francis Zhang, Fred von Lohmann, Freddie Sulit, Gabriel Goh, Gene Oden, Geoff Salmon, Giulio Starace, Greg Brockman, Hadi Salman, Haiming Bao, Haitang Hu, Hannah Wong, Haoyu Wang, Heather Schmidt, Heather Whitney, Heewoo Jun, Hendrik Kirchner, Henrique Ponde de Oliveira Pinto, Hongyu Ren, Huiwen Chang, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian O'Connell, Ian Osband, Ian Silber, Ian Sohl, Ibrahim Okuyucu, Ikai Lan, Ilya Kostrikov, Ilya Sutskever, Ingmar Kanitscheider, Ishaan Gulrajani, Jacob Coxon, Jacob Menick, Jakub Pachocki, James Aung, James Betker, James Crooks, James Lennon, Jamie Kiros, Jan Leike, Jane Park, Jason Kwon, Jason Phang, Jason Teplitz, Jason Wei, Jason Wolfe, Jay Chen, Jeff Harris, Jenia Varavva, Jessica Gan Lee, Jessica Shieh, Ji Lin, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joanne Jang, Joaquin Quinonero Candela, Joe Beutler, Joe Landers, Joel Parish, Johannes Heidecke, John Schulman, Jonathan Lachman, Jonathan McKay, Jonathan Uesato, Jonathan Ward, Jong Wook Kim, Joost Huizinga, Jordan Sitkin, Jos Kraaijeveld, Josh Gross, Josh Kaplan, Josh Snyder, Joshua Achiam, Joy Jiao, Joyce Lee, Juntang Zhuang, Justyn Harriman, Kai Fricke, Kai Hayashi, Karan Singhal, Katy Shi, Kavin Karthik, Kayla Wood, Kendra Rimbach, Kenny Hsu, Kenny Nguyen, Keren Gu-Lemberg, Kevin Button, Kevin Liu, Kiel Howe, Krithika Muthukumar, Kyle Luther, Lama Ahmad, Larry Kai, Lauren Itow, Lauren Workman, Leher Pathak, Leo Chen, Li Jing, Lia Guy, Liam Fedus, Liang Zhou, Lien Mamitsuka, Lilian Weng, Lindsay McCallum, Lindsey Held, Long Ouyang, Louis Feuvrier, Lu Zhang, Lukas Kondraciuk, Lukasz Kaiser, Luke Hewitt, Luke Metz, Lyric Doshi, Mada Aflak, Maddie Simens, Madelaine Boyd, Madeleine Thompson, Marat Dukhan, Mark Chen, Mark Gray, Mark Hudnall, Marvin Zhang, Marwan Aljubeh, Mateusz Litwin, Matthew Zeng, Max Johnson, Maya Shetty, Mayank Gupta, Meghan Shah, Mehmet Yatbaz, Meng Jia Yang, Mengchao Zhong, Mia Glaese, Mianna Chen, Michael Janner, Michael Lampe, Michael Petrov, Michael Wu, Michele Wang, Michelle Fradin, Michelle Pokrass, Miguel Castro, Miguel Oom Temudo de Castro, Mikhail Pavlov, Miles Brundage, Miles Wang, Minal Khan, Mira Murati, Mo Bavarian, Molly Lin, Murat Yesildal, Nacho Soto, Natalia Gimelshein, Natalie Cone, Natalie Staudacher, Natalie Summers, Natan LaFontaine, Neil Chowdhury, Nick Ryder, Nick Stathas, Nick Turley, Nik Tezak, Niko Felix, Nithanth Kudige, Nitish Keskar, Noah Deutsch, Noel Bundick, Nora Puckett, Ofir Nachum, Ola Okelola, Oleg Boiko, Oleg Murk, Oliver Jaffe, Olivia Watkins, Olivier Godement, Owen Campbell-Moore, Patrick Chao, Paul McMillan, Pavel Belov, Peng Su, Peter Bak, Peter Bakkum, Peter Deng, Peter Dolan, Peter Hoeschele, Peter Welinder, Phil Tillet, Philip Pronin, Philippe Tillet, Prafulla Dhariwal, Qiming Yuan, Rachel Dias, Rachel Lim, Rahul Arora, Rajan Troll, Randall Lin, Rapha Gontijo Lopes, Raul Puri, Reah Miyara, Reimar Leike, Renaud Gaubert, Reza Zamani, Ricky Wang, Rob Donnelly, Rob Honsby, Rocky Smith, Rohan Sahai, Rohit Ramchandani, Romain Huet, Rory Carmichael, Rowan Zellers, Roy Chen, Ruby Chen, Ruslan Nigmatullin, Ryan Cheu, Saachi Jain, Sam Altman, Sam Schoenholz, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Sara Culver, Scott Ethersmith, Scott Gray, Sean Grove, Sean Metzger, Shamez Hermani, Shantanu Jain, Shengjia Zhao, Sherwin Wu, Shino Jomoto, Shirong Wu, Shuaiqi, Xia, Sonia Phene, Spencer Papay, Srinivas Narayanan, Steve Coffey, Steve Lee, Stewart Hall, Suchir Balaji, Tal Broda, Tal Stramer, Tao Xu, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Cunninghman, Thomas Degry, Thomas Dimson, Thomas Raoux, Thomas Shadwell, Tianhao Zheng, Todd Underwood, Todor Markov, Toki Sherbakov, Tom Rubin, Tom Stasi, Tomer Kaftan, Tristan Heywood, Troy Peterson, Tyce Walters, Tyna Eloundou, Valerie Qi, Veit Moeller, Vinnie Monaco, Vishal Kuo, Vlad Fomenko, Wayne Chang, Weiyi Zheng, Wenda Zhou, Wesam Manassra, Will Sheu, Wojciech Zaremba, Yash Patil, Yilei Qian, Yongjik Kim, Youlong Cheng, Yu Zhang, Yuchen He, Yuchen Zhang, Yujia Jin, Yunxing Dai, Yury Malkov

GPT-4o è un modello omni autoregressivo che accetta in input qualsiasi combinazione di testo, audio, immagini e video, e genera qualsiasi combinazione di output di testo, audio e immagini. È addestrato end-to-end attraverso testo, visione e audio, il che significa che tutti gli input e output sono elaborati dalla stessa rete neurale. GPT-4o può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, simile al tempo di risposta umano in una conversazione. Eguaglia le prestazioni di GPT-4 Turbo nel testo in inglese e nel codice, con un significativo miglioramento nel testo in lingue non inglesi, risultando anche molto più veloce e il 50\% più economico nell'API. GPT-4o è particolarmente migliore nell'interpretazione della visione e dell'audio rispetto ai modelli esistenti. In linea con il nostro impegno nella costruzione di un'intelligenza artificiale in modo sicuro e coerente con i nostri impegni volontari presso la Casa Bianca, condividiamo la Scheda di Sistema di GPT-4o, che include le nostre valutazioni del Framework di Preparazione. In questa Scheda di Sistema, offriamo una visione dettagliata sulle capacità, limitazioni e valutazioni di sicurezza di GPT-4o in diverse categorie, concentrandoci sulla traduzione vocale, valutando anche le capacità di testo e immagini, e le misure che abbiamo implementato per garantire che il modello sia sicuro e allineato. Includiamo anche valutazioni di terze parti sulle capacità pericolose, nonché una discussione sugli impatti sociali potenziali delle capacità di testo e visione di GPT-4o.

Bielik 7B v0.1: Un Modello Linguistico Polacco -- Sviluppo, Approfondimenti e Valutazione
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

Introduciamo Bielik 7B v0.1, un modello generativo di testo da 7 miliardi di parametri per il trattamento del linguaggio polacco. Addestrato su corpora polacchi curati, questo modello affronta sfide chiave nello sviluppo dei modelli linguistici attraverso tecniche innovative. Queste includono la perdita di entropia incrociata con istruzioni pesate, che bilancia l'apprendimento di diversi tipi di istruzioni, e il tasso di apprendimento adattivo, che regola dinamicamente il tasso di apprendimento in base al progresso dell'addestramento. Per valutare le prestazioni, abbiamo creato la classifica Open PL LLM e Polish MT-Bench, nuovi framework che valutano vari compiti di elaborazione del linguaggio naturale e abilità conversazionali. Bielik 7B v0.1 dimostra miglioramenti significativi, ottenendo un aumento del punteggio medio del 9% rispetto a Mistral-7B-v0.1 nel compito di lettura RAG Reader. Eccelle anche nel Polish MT-Bench, in particolare nelle categorie di Ragionamento (6,15/10) e Gioco di ruolo (7,83/10). Questo modello rappresenta un notevole progresso nell'IA linguistica polacca, offrendo uno strumento potente per diverse applicazioni linguistiche e stabilendo nuovi standard nel settore.

Un'indagine sui Piccoli Modelli Linguistici
A Survey of Small Language Models

Oct 25

ByChien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen

I modelli di linguaggio ridotti (SLM) sono diventati sempre più importanti a causa della loro efficienza e prestazioni nel svolgere varie attività linguistiche con risorse computazionali minime, rendendoli ideali per diverse situazioni, tra cui dispositivi mobili, edge computing, tra molti altri. In questo articolo, presentiamo un'ampia panoramica sugli SLM, concentrandoci sulle loro architetture, tecniche di addestramento e tecniche di compressione del modello. Proponiamo una nuova tassonomia per classificare i metodi utilizzati per ottimizzare gli SLM, inclusi la compressione del modello, il pruning e le tecniche di quantizzazione. Riassumiamo i set di dati di riferimento utili per il benchmark degli SLM insieme alle metriche di valutazione comunemente utilizzate. Inoltre, evidenziamo le principali sfide aperte che devono ancora essere affrontate. La nostra panoramica mira a essere una risorsa preziosa per ricercatori e professionisti interessati allo sviluppo e alla distribuzione di modelli di linguaggio ridotti ma efficienti.

AgentStore: Integrazione Scalabile di Agenti Eterogenei Come Assistenti Informatici Generalisti Specializzati
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24

ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu

Gli agenti digitali capaci di automatizzare complesse attività informatiche hanno attirato considerevole attenzione per il loro immenso potenziale nel migliorare l'interazione uomo-computer. Tuttavia, i metodi degli agenti esistenti mostrano carenze nelle loro capacità di generalizzazione e specializzazione, specialmente nel gestire attività informatiche aperte in ambienti del mondo reale. Ispirandoci alla ricca funzionalità dell'App Store, presentiamo AgentStore, una piattaforma scalabile progettata per integrare dinamicamente agenti eterogenei per automatizzare attività informatiche. AgentStore permette agli utenti di integrare agenti di terze parti, consentendo al sistema di arricchire continuamente le proprie capacità e adattarsi ai sistemi operativi in rapida evoluzione. Inoltre, proponiamo un nuovo nucleo MetaAgente con la strategia AgentToken per gestire efficientemente agenti diversi e sfruttare le loro abilità specializzate e generaliste sia per compiti specifici del dominio che per quelli a livello di sistema. Estesi esperimenti su tre benchmark sfidanti dimostrano che AgentStore supera i limiti dei sistemi precedenti con capacità limitate, ottenendo in particolare un significativo miglioramento dal 11,21% al 23,85% sul benchmark OSWorld, più che raddoppiando i risultati precedenti. Risultati quantitativi e qualitativi completi dimostrano ulteriormente la capacità di AgentStore di migliorare i sistemi di agenti sia nella generalizzazione che nella specializzazione, sottolineando il suo potenziale nello sviluppare l'assistente informatico generalista specializzato. Tutti i nostri codici saranno resi pubblicamente disponibili su https://chengyou-jia.github.io/AgentStore-Home.

Analisi del Documento Svelata: Tecniche, Sfide e Prospettive per l'Estrazione di Informazioni Strutturate
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28

ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He

Il parsing dei documenti è essenziale per convertire dati non strutturati e semi-strutturati - come contratti, articoli accademici e fatture - in dati strutturati leggibili dalle macchine. Il parsing dei documenti estrae dati strutturati affidabili da input non strutturati, offrendo enormi vantaggi per numerose applicazioni. Specialmente con i recenti successi nei Grandi Modelli Linguistici, il parsing dei documenti svolge un ruolo indispensabile sia nella costruzione di basi di conoscenza che nella generazione di dati di addestramento. Questa indagine presenta una revisione completa dello stato attuale del parsing dei documenti, coprendo metodologie chiave, dai sistemi modulari a pipeline ai modelli end-to-end guidati dai grandi modelli visione-linguaggio. Componenti fondamentali come il rilevamento del layout, l'estrazione dei contenuti (compresi testi, tabelle ed espressioni matematiche) e l'integrazione di dati multimodali sono esaminati in dettaglio. Inoltre, questo articolo discute le sfide affrontate dai sistemi modulari di parsing dei documenti e dai modelli visione-linguaggio nella gestione di layout complessi, nell'integrazione di moduli multipli e nel riconoscimento di testi ad alta densità. Sottolinea l'importanza dello sviluppo di set di dati più ampi e diversificati e delinea le future direzioni di ricerca.

MarDini: Diffusione Autoregressiva Mascherata per la Generazione di Video su Larga Scala
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26

ByHaozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa

Introduciamo MarDini, una nuova famiglia di modelli di diffusione video che integrano i vantaggi della regressione auto-mascherata (MAR) in un framework unificato di modelli di diffusione (DM). Qui, MAR gestisce la pianificazione temporale, mentre DM si concentra sulla generazione spaziale in un design di rete asimmetrico: i) un modello di pianificazione basato su MAR che contiene la maggior parte dei parametri genera segnali di pianificazione per ciascun frame mascherato utilizzando un input a bassa risoluzione; ii) un modello di generazione leggero utilizza questi segnali per produrre frame ad alta risoluzione tramite de-noising per diffusione. Il MAR di MarDini consente la generazione di video condizionata a qualsiasi numero di frame mascherati in qualsiasi posizione del frame: un singolo modello può gestire l'interpolazione video (ad esempio, mascherando i frame intermedi), la generazione di immagini-video (ad esempio, mascherando dal secondo frame in poi) e l'espansione video (ad esempio, mascherando la metà dei frame). Il design efficiente assegna la maggior parte delle risorse computazionali al modello di pianificazione a bassa risoluzione, rendendo fattibile a scala l'attenzione spazio-temporale computazionalmente costosa ma importante. MarDini stabilisce un nuovo stato dell'arte per l'interpolazione video; nel frattempo, entro pochi passaggi di inferenza, genera efficientemente video all'altezza di quelli di modelli avanzati di generazione di immagini-video molto più costosi.

COAT: Comprimere gli stati dell'ottimizzatore e l'attivazione per un addestramento efficiente in FP8.
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25

ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han

L'addestramento in FP8 è emerso come un metodo promettente per migliorare l'efficienza dell'addestramento. I framework esistenti accelerano l'addestramento applicando calcoli in FP8 ai livelli lineari lasciando gli stati dell'ottimizzatore e le attivazioni in una precisione più elevata, il che non ottimizza appieno l'utilizzo della memoria. Questo articolo introduce COAT (Compressing Optimizer States and Activations for FP8 Training), un nuovo framework di addestramento in FP8 progettato per ridurre significativamente l'impronta di memoria durante l'addestramento di modelli di grandi dimensioni. COAT affronta le limitazioni attuali attraverso due innovazioni chiave: (1) Espansione dell'Intervallo Dinamico, che allinea più strettamente le distribuzioni degli stati dell'ottimizzatore con l'intervallo di rappresentazione in FP8, riducendo così l'errore di quantizzazione, e (2) Quantizzazione delle Attivazioni a Granularità Mista, che ottimizza la memoria di attivazione utilizzando una combinazione di strategie di quantizzazione per tensore e per gruppo. Gli esperimenti dimostrano che COAT riduce efficacemente l'impronta di memoria di addestramento end-to-end di 1,54x rispetto a BF16, ottenendo prestazioni quasi senza perdite su varie attività, come il preaddestramento e il raffinamento di modelli di lingua di grandi dimensioni e l'addestramento di modelli di lingua per la visione. COAT raggiunge anche un aumento della velocità di addestramento end-to-end di 1,43x rispetto a BF16, eseguendo alla pari o superando l'aumento di velocità di TransformerEngine. COAT consente un addestramento efficiente di tutti i parametri di modelli di grandi dimensioni su meno GPU e facilita il raddoppio della dimensione del batch in ambienti di addestramento distribuito, offrendo una soluzione pratica per scalare l'addestramento di modelli su larga scala. Il codice è disponibile su https://github.com/NVlabs/COAT.

DreamClear: Ripristino di immagini ad alta capacità nel mondo reale con la cura dei dataset sicura per la privacy
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24

ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang

Il ripristino delle immagini (IR) in scenari del mondo reale presenta significativi sfide a causa della mancanza di modelli ad alta capacità e dataset completi. Per affrontare questi problemi, presentiamo una strategia duale: GenIR, un innovativo pipeline di cura dei dati, e DreamClear, un avanzato modello di ripristino delle immagini basato su Diffusion Transformer (DiT). GenIR, il nostro contributo pionieristico, è un pipeline di apprendimento a doppia prompt che supera i limiti dei dataset esistenti, che tipicamente comprendono solo alcune migliaia di immagini e offrono quindi una generalizzabilità limitata per modelli più grandi. GenIR semplifica il processo in tre fasi: costruzione di coppie immagine-testo, fine-tuning basato su doppio prompt e generazione e filtraggio dei dati. Questo approccio evita il laborioso processo di raccolta dati, garantendo la conformità al copyright e fornendo una soluzione economica e sicura dal punto di vista della privacy per la costruzione del dataset IR. Il risultato è un dataset su larga scala di un milione di immagini di alta qualità. Il nostro secondo contributo, DreamClear, è un modello di ripristino delle immagini basato su DiT. Utilizza i prior generativi dei modelli di diffusione testo-immagine (T2I) e le robuste capacità percettive dei modelli di linguaggio multimodale di grandi dimensioni (MLLMs) per ottenere un ripristino fotorealistico. Per potenziare l'adattabilità del modello a diverse degradazioni del mondo reale, introduciamo il Mixture of Adaptive Modulator (MoAM). Utilizza i prior di degradazione a livello di token per integrare dinamicamente vari esperti di ripristino, espandendo così la gamma di degradazioni che il modello può affrontare. I nostri esaurienti esperimenti confermano le prestazioni superiori di DreamClear, sottolineando l'efficacia della nostra strategia duale per il ripristino delle immagini del mondo reale. Codice e modelli pre-addestrati saranno disponibili su: https://github.com/shallowdream204/DreamClear.

LongReward: Migliorare i Modelli Linguistici di Lungo Contesto con Feedback di Intelligenza Artificiale
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28

ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

Nonostante siano stati raggiunti significativi progressi nello sviluppo di modelli linguistici di lungo contesto (LLM), la qualità compromessa dei dati sintetizzati dai LLM per il fine-tuning supervisionato (SFT) influisce spesso sulle prestazioni a lungo contesto dei modelli SFT e porta a limitazioni intrinseche. In linea di principio, il reinforcement learning (RL) con segnali di ricompensa appropriati può ulteriormente potenziare le capacità dei modelli. Tuttavia, come ottenere ricompense affidabili in scenari a lungo contesto rimane inesplorato. A tal fine, proponiamo LongReward, un nuovo metodo che utilizza un LLM pronto all'uso per fornire ricompense per le risposte del modello a lungo contesto da quattro dimensioni di valore umano: utilità, logicità, fedeltà e completezza, ciascuna con un'attenta pipeline di valutazione progettata. Combinando LongReward e l'algoritmo di RL offline DPO, siamo in grado di migliorare efficacemente i modelli SFT a lungo contesto. I nostri esperimenti indicano che LongReward non solo migliora significativamente le prestazioni a lungo contesto dei modelli, ma potenzia anche la loro capacità di seguire brevi istruzioni. Troviamo anche che il DPO a lungo contesto con LongReward e il DPO a breve contesto convenzionale possono essere utilizzati insieme senza compromettere le prestazioni di nessuno dei due.

GrounDiT: Trasformatori di Diffusione del Grounding tramite Trapianto di Patch Rumorose
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27

ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung

Introduciamo una nuova tecnica di ancoraggio spaziale senza addestramento per la generazione di testo-immagine utilizzando i Trasformatori a Diffusione (DiT). L'ancoraggio spaziale con riquadri delimitatori ha attirato l'attenzione per la sua semplicità e versatilità, consentendo un maggiore controllo dell'utente nella generazione di immagini. Tuttavia, gli approcci precedenti senza addestramento spesso si basano sull'aggiornamento dell'immagine rumorosa durante il processo di diffusione inversa tramite retropropagazione da funzioni di perdita personalizzate, che spesso faticano a fornire un controllo preciso su singoli riquadri delimitatori. In questo lavoro, sfruttiamo la flessibilità dell'architettura del Trasformatore, dimostrando che DiT può generare patch rumorose corrispondenti a ciascun riquadro delimitatore, codificando completamente l'oggetto target e consentendo un controllo dettagliato su ciascuna regione. Il nostro approccio si basa su una proprietà intrigante di DiT, che chiamiamo condivisione semantica. Grazie alla condivisione semantica, quando una patch più piccola viene denoisata insieme a un'immagine di dimensioni generabili, le due diventano "cloni semantici". Ciascuna patch viene denoisata nel proprio ramo del processo di generazione e quindi trapiantata nella regione corrispondente dell'immagine rumorosa originale ad ogni passaggio temporale, ottenendo un ancoraggio spaziale robusto per ciascun riquadro delimitatore. Nei nostri esperimenti sui benchmark HRS e DrawBench, otteniamo prestazioni all'avanguardia rispetto agli approcci precedenti di ancoraggio spaziale senza addestramento.

Assistente di Ricerca Visiva: Potenziare i Modelli Visione-Linguaggio come Motori di Ricerca Multimodali
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28

ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

I motori di ricerca consentono di recuperare informazioni sconosciute tramite testi. Tuttavia, i metodi tradizionali risultano limitati nell'ambito della comprensione di contenuti visivi sconosciuti, come l'identificazione di un oggetto che il modello non ha mai visto prima. Questa sfida è particolarmente evidente per i grandi modelli visione-linguaggio (VLM): se il modello non è stato esposto all'oggetto raffigurato in un'immagine, fatica a generare risposte affidabili alla domanda dell'utente riguardo a quell'immagine. Inoltre, poiché nuovi oggetti ed eventi emergono continuamente, l'aggiornamento frequente dei VLM risulta impraticabile a causa di pesanti oneri computazionali. Per affrontare questa limitazione, proponiamo Vision Search Assistant, un nuovo framework che facilita la collaborazione tra i VLM e gli agenti web. Questo approccio sfrutta le capacità di comprensione visiva dei VLM e l'accesso in tempo reale alle informazioni degli agenti web per eseguire la Generazione potenziata da Recupero in un mondo aperto tramite il web. Integrando rappresentazioni visive e testuali attraverso questa collaborazione, il modello può fornire risposte informate anche quando l'immagine è nuova per il sistema. Estesi esperimenti condotti su benchmark di domande e risposte sia a insieme aperto che chiuso dimostrano che il Vision Search Assistant supera significativamente gli altri modelli e può essere ampiamente applicato ai VLM esistenti.

Decodifica rapida Best-of-N tramite Rifiuto Speculativo
Fast Best-of-N Decoding via Speculative Rejection

Oct 26

ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette

Il sicuro ed efficace dispiegamento dei Large Language Models (LLM) coinvolge un passaggio critico chiamato allineamento, che garantisce che le risposte del modello siano in accordo con le preferenze umane. Le tecniche di allineamento prevalenti, come DPO, PPO e le loro varianti, allineano i LLM modificando i pesi del modello pre-addestrato durante una fase chiamata post-addestramento. Sebbene predominanti, questi metodi di post-addestramento aggiungono una complessità sostanziale prima che i LLM possano essere dispiegati. I metodi di allineamento al momento dell'inferenza evitano il complesso passaggio del post-addestramento e invece indirizzano la generazione verso risposte allineate alle preferenze umane. Il metodo di allineamento al momento dell'inferenza più conosciuto, chiamato Best-of-N, è efficace quanto le procedure di post-addestramento all'avanguardia. Purtroppo, Best-of-N richiede notevolmente più risorse al momento dell'inferenza rispetto alle strategie standard di decodifica, rendendolo computazionalmente non praticabile. In questo lavoro, presentiamo il Reiezione Speculativa, un algoritmo di allineamento al momento dell'inferenza computazionalmente praticabile. Genera risposte ad alto punteggio secondo un modello di ricompensa dato, come fa Best-of-N, essendo tra 16 e 32 volte più efficiente dal punto di vista computazionale.

LARP: Tokenizzazione dei video con un precedente generativo autoregressivo appreso
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28

ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

Presentiamo LARP, un nuovo tokenizzatore video progettato per superare le limitazioni nei metodi attuali di tokenizzazione video per modelli generativi autoregressivi (AR). A differenza dei tradizionali tokenizzatori a patch che codificano direttamente patch visive locali in token discreti, LARP introduce uno schema di tokenizzazione olistico che raccoglie informazioni dal contenuto visivo utilizzando un insieme di query olistiche apprese. Questo design consente a LARP di catturare rappresentazioni più globali e semantiche, anziché essere limitato alle informazioni a livello di patch locali. Inoltre, offre flessibilità supportando un numero arbitrario di token discreti, consentendo una tokenizzazione adattiva ed efficiente in base ai requisiti specifici del compito. Per allineare lo spazio dei token discreti con i compiti di generazione AR successivi, LARP integra un trasformatore AR leggero come modello prior durante l'addestramento che predice il token successivo nel suo spazio latente discreto. Incorporando il modello prior durante l'addestramento, LARP apprende uno spazio latente ottimizzato non solo per la ricostruzione video ma anche strutturato in modo più favorevole alla generazione autoregressiva. Inoltre, questo processo definisce un ordine sequenziale per i token discreti, spingendoli progressivamente verso una configurazione ottimale durante l'addestramento, garantendo una generazione AR più fluida e precisa al momento dell'inferenza. Esperimenti completi dimostrano la forte performance di LARP, raggiungendo uno stato dell'arte FVD sul benchmark di generazione video condizionata alla classe UCF101. LARP migliora la compatibilità dei modelli AR con i video e apre il potenziale per costruire modelli linguistici multimodali di alta fedeltà unificati (MLLMs).

EoRA: Compensazione senza addestramento per LLM compressi con spazio degli autovettori Approssimazione a basso rango.
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28

ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen

In questo lavoro, riformuliamo il problema della compressione del modello nel problema della compensazione personalizzata: Dato un modello compresso, miriamo a introdurre percorsi residui a basso rango per compensare gli errori di compressione in base ai requisiti personalizzati degli utenti (ad esempio, compiti, rapporti di compressione), ottenendo una maggiore flessibilità nell'adattare la capacità complessiva senza essere vincolati da formati di compressione specifici. Tuttavia, l'applicazione ingenua della SVD per derivare percorsi residui causa un utilizzo non ottimale della capacità di rappresentazione a basso rango. Invece, proponiamo l'Approssimazione a Basso Rango dello Spazio degli Autovettori Senza Allenamento (EoRA), un metodo che minimizza direttamente gli errori indotti dalla compressione senza richiedere un allenamento basato su gradienti, raggiungendo un'ottimizzazione rapida in pochi minuti utilizzando una piccola quantità di dati di calibrazione. EoRA proietta gli errori di compressione nello spazio degli autovettori delle attivazioni in ingresso, sfruttando gli autovalori per dare priorità in modo efficace alla ricostruzione dei componenti di errore ad alta importanza. Inoltre, EoRA può essere integrato senza soluzione di continuità con il fine-tuning e la quantizzazione per migliorare ulteriormente l'efficacia e l'efficienza. EoRA supera costantemente i metodi precedenti nel compensare gli errori per i modelli LLaMA2/3 compressi su varie attività, come la generazione di linguaggio, il ragionamento di senso comune e le attività di ragionamento matematico (ad esempio, miglioramenti del 31,31%/12,88% e del 9,69% su ARC-Easy/ARC-Challenge e MathQA quando si compensa LLaMA3-8B quantizzato a 4 bit e potato a una sparsità di 2:4). EoRA offre una soluzione scalabile e senza allenamento per compensare gli errori di compressione, rendendolo uno strumento potente per implementare LLM in varie capacità ed esigenze di efficienza.

Trasformatori Ricorsivi Rilassati: Condivisione Efficace dei Parametri con LoRA a Livello di Strato
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Oct 28

BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster

I modelli linguistici di grandi dimensioni (LLM) sono costosi da implementare. La condivisione dei parametri offre un possibile percorso per ridurne dimensioni e costi, ma la sua efficacia nei moderni LLM rimane piuttosto limitata. In questo lavoro, riprendiamo il "layer tying" come forma di condivisione dei parametri nei Transformers e introduciamo nuovi metodi per convertire i LLM esistenti in "Recursive Transformers" più piccoli che condividono i parametri tra i vari layer, con una perdita minima delle prestazioni. Qui, i nostri Recursive Transformers vengono inizializzati in modo efficiente dai Transformers preaddestrati standard, ma utilizzano solo un singolo blocco di layer unici che viene poi ripetuto più volte in un ciclo. Miglioriamo ulteriormente le prestazioni introducendo i Relaxed Recursive Transformers che aggiungono flessibilità al vincolo di condivisione dei layer tramite moduli di adattamento a basso rango (LoRA) in profondità, pur preservando la compattezza del modello complessivo. Dimostriamo che i nostri modelli ricorsivi (ad esempio, Gemma 1B ricorsivo) superano sia modelli preaddestrati simili in dimensioni (come TinyLlama 1.1B e Pythia 1B) che baselines di distillazione della conoscenza, e possono persino recuperare la maggior parte delle prestazioni del modello "a dimensioni complete" originale (ad esempio, Gemma 2B senza parametri condivisi). Infine, proponiamo il Continuous Depth-wise Batching, un nuovo paradigma promettente per l'inferenza reso possibile dal Recursive Transformer abbinato all'uscita anticipata. In un'analisi teorica, mostriamo che questo ha il potenziale per portare a significativi aumenti (2-3 volte) nella capacità di elaborazione dell'inferenza.

VideoWebArena: Valutazione degli Agenti Multimodali a Lungo Contesto con Comprendimento Video per Compiti Web
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Oct 24

ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida

I video sono spesso utilizzati per apprendere o estrarre le informazioni necessarie per completare compiti in modi diversi da quanto possano fornire solo testo e immagini statiche. Tuttavia, molti benchmark esistenti per agenti trascurano la comprensione dei video a lungo contesto, concentrandosi invece su input di testo o immagini statiche. Per colmare questa lacuna, presentiamo VideoWebArena (VideoWA), un benchmark per valutare le capacità degli agenti multimodali a lungo contesto nella comprensione dei video. VideoWA è composto da 2.021 compiti per agenti web basati su tutorial video creati manualmente, che totalizzano quasi quattro ore di contenuti. Per il nostro benchmark, definiamo una tassonomia dei compiti degli agenti basati su video a lungo contesto con due principali aree di focus: la ritenzione delle abilità e la ritenzione dei fatti. Mentre i compiti di ritenzione delle abilità valutano se un agente può utilizzare una dimostrazione umana data per completare un compito in modo efficiente, il compito di ritenzione dei fatti valuta se un agente può recuperare informazioni rilevanti per le istruzioni da un video per completare un compito. Troviamo che il miglior modello raggiunge il 13,3% di successo nei compiti di ritenzione dei fatti e il 45,8% nelle coppie di domande e risposte di ritenzione dei fatti, molto al di sotto delle prestazioni umane rispettivamente del 73,9% e del 79,3%. Nei compiti di ritenzione delle abilità, i modelli a lungo contesto si comportano peggio con i tutorial che senza, mostrando una diminuzione delle prestazioni del 5% nei compiti di WebArena e del 10,3% nei compiti di VisualWebArena. Il nostro lavoro sottolinea la necessità di migliorare le capacità agentiche dei modelli multimodali a lungo contesto e fornisce una base per lo sviluppo futuro con agenti video a lungo contesto.

Campi Neurali in Robotica: Un'Indagine
Neural Fields in Robotics: A Survey

Oct 26

ByMuhammad Zubair Irshad, Mauro Comi, Yen-Chen Lin, Nick Heppert, Abhinav Valada, Rares Ambrus, Zsolt Kira, Jonathan Tremblay

I campi neurali sono emersi come un approccio trasformativo per la rappresentazione di scene 3D nella visione artificiale e nella robotica, consentendo un'accurata inferenza della geometria, della semantica 3D e della dinamica dai dati 2D acquisiti. Sfruttando il rendering differenziabile, i campi neurali comprendono rappresentazioni neurali implicite ed esplicite continue che consentono una ricostruzione 3D ad alta fedeltà, l'integrazione di dati sensoriali multi-modali e la generazione di nuovi punti di vista. Questa panoramica esplora le loro applicazioni nella robotica, sottolineando il loro potenziale nel migliorare la percezione, la pianificazione e il controllo. La loro compattezza, efficienza di memoria e differenziabilità, insieme all'integrazione senza soluzione di continuità con modelli fondamentali e generativi, li rendono ideali per applicazioni in tempo reale, migliorando l'adattabilità e la presa di decisioni del robot. Questo articolo fornisce una revisione approfondita dei campi neurali nella robotica, categorizzando le applicazioni in vari ambiti e valutandone punti di forza e limitazioni, basandosi su oltre 200 articoli. In primo luogo, presentiamo quattro principali framework di campi neurali: Reti di Occupazione, Campi di Distanza Segnata, Campi di Radiazione Neurale e Splatting Gaussiano. In secondo luogo, dettagliamo le applicazioni dei campi neurali in cinque principali ambiti della robotica: stima della posa, manipolazione, navigazione, fisica e guida autonoma, evidenziando lavori chiave e discutendo punti salienti e sfide aperte. Infine, delineiamo le attuali limitazioni dei campi neurali nella robotica e proponiamo direzioni promettenti per la ricerca futura. Pagina del progetto: https://robonerf.github.io

Dialog2Flow: Pre-addestramento di Embedding di Frasi Azione-Driven Soft-Contrastive per l'Estrazione Automatica del Flusso di Dialogo
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

Oct 24

BySergio Burdisso, Srikanth Madikeri, Petr Motlicek

Derivare in modo efficiente flussi di lavoro strutturati da dialoghi non annotati rimane una sfida poco esplorata e formidabile nella linguistica computazionale. Automatizzare questo processo potrebbe accelerare significativamente la progettazione manuale di flussi di lavoro in nuovi domini e consentire l'ancoraggio di grandi modelli linguistici in diagrammi di flusso specifici del dominio, migliorando la trasparenza e la controllabilità. In questo articolo, presentiamo gli embedding Dialog2Flow (D2F), che si differenziano dagli embedding di frasi convenzionali mappando le affermazioni in uno spazio latente dove vengono raggruppate in base alle loro funzioni comunicative e informative (ossia, le azioni che rappresentano). D2F consente di modellare i dialoghi come traiettorie continue in uno spazio latente con regioni distinte correlate alle azioni. Attraverso il clustering degli embedding D2F, lo spazio latente viene quantizzato e i dialoghi possono essere convertiti in sequenze di ID di regione/azione, facilitando l'estrazione del flusso di lavoro sottostante. Per il pre-addestramento di D2F, costruiamo un dataset esaustivo unificando venti dataset di dialoghi orientati al compito con annotazioni normalizzate per azione per turno. Introduciamo inoltre una nuova perdita contrastiva morbida che sfrutta le informazioni semantiche di queste azioni per guidare il processo di apprendimento della rappresentazione, mostrando prestazioni superiori rispetto alla perdita contrastiva supervisionata standard. La valutazione contro vari embedding di frasi, inclusi quelli specifici per i dialoghi, dimostra che D2F produce risultati qualitativi e quantitativi superiori in diversi domini.

Modelli Linguistici e Caso d'Uso di Seconda Opinione: Il Professionista Tascabile
Language Models And A Second Opinion Use Case: The Pocket Professional

Oct 27

ByDavid Noever

Questa ricerca testa il ruolo dei Grandi Modelli Linguistici (LLM) come strumenti formali di seconda opinione nel processo decisionale professionale, concentrandosi in particolare su casi medici complessi in cui persino medici esperti cercano consulenza tra pari. Il lavoro ha analizzato 183 casi medici sfidanti da Medscape in un periodo di 20 mesi, testando le prestazioni di vari LLM rispetto alle risposte dei medici raccolte dalla folla. Una scoperta chiave è stata il punteggio complessivo elevato possibile nei più recenti modelli fondamentali (>80% di accuratezza rispetto all'opinione di consenso), che supera la maggior parte delle metriche umane riportate sugli stessi casi clinici (450 pagine di profili pazienti, risultati dei test). Lo studio valuta la disparità delle prestazioni dei LLM tra casi semplici (>81% di accuratezza) e scenari complessi (43% di accuratezza), in particolare in quei casi che generano un dibattito sostanziale tra i medici umani. La ricerca dimostra che i LLM potrebbero essere preziosi come generatori di diagnosi differenziali complete piuttosto che come strumenti diagnostici primari, potenzialmente contribuendo a contrastare i bias cognitivi nel processo decisionale clinico, ridurre i carichi cognitivi e quindi eliminare alcune fonti di errori medici. L'inclusione di un secondo dataset legale comparativo (casi della Corte Suprema, N=21) fornisce un contesto empirico aggiuntivo sull'uso dell'IA per favorire seconde opinioni, sebbene queste sfide legali si siano rivelate notevolmente più facili per i LLM da analizzare. Oltre ai contributi originali di prove empiriche sull'accuratezza dei LLM, la ricerca ha aggregato un nuovo punto di riferimento per consentire ad altri di valutare l'affidabilità di domande e risposte altamente contestate tra sia i LLM che i professionisti umani in disaccordo. Questi risultati suggeriscono che il dispiegamento ottimale dei LLM in contesti professionali potrebbe differire sostanzialmente dagli approcci attuali che enfatizzano l'automazione delle attività di routine.

Sfruttare la località per aumentare l'efficienza del campionamento nella manipolazione robotica.
Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

Jun 15

ByTong Zhang, Yingdong Hu, Jiacheng You, Yang Gao

Date le elevate spese legate alla raccolta di dati robotici nel mondo reale, l'efficienza campionaria rappresenta un obiettivo costantemente allettante nella robotica. In questo articolo, presentiamo SGRv2, un framework di apprendimento per imitazione che potenzia l'efficienza campionaria attraverso un miglioramento delle rappresentazioni visive e delle azioni. Al centro del design di SGRv2 vi è l'incorporazione di un bias induttivo cruciale - la località dell'azione - che postula che le azioni del robot siano principalmente influenzate dall'oggetto target e dalle sue interazioni con l'ambiente locale. Esperimenti approfonditi sia in ambienti simulati che reali dimostrano che la località dell'azione è essenziale per potenziare l'efficienza campionaria. SGRv2 eccelle nelle attività di RLBench con controllo a frame chiave utilizzando solamente 5 dimostrazioni e supera il modello di base RVT in 23 delle 26 attività. Inoltre, quando valutato su ManiSkill2 e MimicGen utilizzando un controllo denso, il tasso di successo di SGRv2 è 2,54 volte superiore rispetto a SGR. In ambienti reali, con soli otto esempi, SGRv2 può svolgere una varietà di compiti con un tasso di successo nettamente superiore rispetto ai modelli di base. Sito web del progetto: http://sgrv2-robot.github.io

Imitazione del Movimento a Due Livelli per Robot Umanoidi
Bi-Level Motion Imitation for Humanoid Robots

Oct 2

ByWenshuai Zhao, Yi Zhao, Joni Pajarinen, Michael Muehlebach

L'apprendimento per imitazione dai dati di motion capture (MoCap) umani offre un modo promettente per addestrare robot umanoidi. Tuttavia, a causa delle differenze nella morfologia, come variazioni nei gradi di libertà articolari e limiti di forza, la replicazione esatta dei comportamenti umani potrebbe non essere fattibile per i robot umanoidi. Di conseguenza, l'inclusione di dati MoCap fisicamente non realizzabili nei set di addestramento può influire negativamente sulle prestazioni della politica del robot. Per affrontare questo problema, proponiamo un framework di apprendimento per imitazione basato sull'ottimizzazione a due livelli che alterna l'ottimizzazione della politica del robot e dei dati MoCap di destinazione. In particolare, sviluppiamo innanzitutto un modello dinamico latente generativo utilizzando un nuovo autoencoder auto-consistente, che apprende rappresentazioni del movimento sparse e strutturate catturando i modelli di movimento desiderati nel dataset. Il modello dinamico viene poi utilizzato per generare movimenti di riferimento mentre la rappresentazione latente regolarizza il processo di imitazione del movimento a due livelli. Simulazioni condotte con un modello realistico di un robot umanoide dimostrano che il nostro metodo potenzia la politica del robot modificando i movimenti di riferimento per renderli fisicamente coerenti.

Scheda del Sistema GPT-4.
GPT-4o System Card

Oct 25