ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Carte système GPT-4o
GPT-4o System Card

Oct 25
ByOpenAI, Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, Aleksander Mądry, Alex Baker-Whitcomb, Alex Beutel, Alex Borzunov, Alex Carney, Alex Chow, Alex Kirillov, Alex Nichol, Alex Paino, Alex Renzin, Alex Tachard Passos, Alexander Kirillov, Alexi Christakis, Alexis Conneau, Ali Kamali, Allan Jabri, Allison Moyer, Allison Tam, Amadou Crookes, Amin Tootoochian, Amin Tootoonchian, Ananya Kumar, Andrea Vallone, Andrej Karpathy, Andrew Braunstein, Andrew Cann, Andrew Codispoti, Andrew Galu, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Angela Baek, Angela Jiang, Antoine Pelisse, Antonia Woodford, Anuj Gosalia, Arka Dhar, Ashley Pantuliano, Avi Nayak, Avital Oliver, Barret Zoph, Behrooz Ghorbani, Ben Leimberger, Ben Rossen, Ben Sokolowsky, Ben Wang, Benjamin Zweig, Beth Hoover, Blake Samic, Bob McGrew, Bobby Spero, Bogo Giertler, Bowen Cheng, Brad Lightcap, Brandon Walkin, Brendan Quinn, Brian Guarraci, Brian Hsu, Bright Kellogg, Brydon Eastman, Camillo Lugaresi, Carroll Wainwright, Cary Bassin, Cary Hudson, Casey Chu, Chad Nelson, Chak Li, Chan Jun Shern, Channing Conger, Charlotte Barette, Chelsea Voss, Chen Ding, Cheng Lu, Chong Zhang, Chris Beaumont, Chris Hallacy, Chris Koch, Christian Gibson, Christina Kim, Christine Choi, Christine McLeavey, Christopher Hesse, Claudia Fischer, Clemens Winter, Coley Czarnecki, Colin Jarvis, Colin Wei, Constantin Koumouzelis, Dane Sherburn, Daniel Kappler, Daniel Levin, Daniel Levy, David Carr, David Farhi, David Mely, David Robinson, David Sasaki, Denny Jin, Dev Valladares, Dimitris Tsipras, Doug Li, Duc Phong Nguyen, Duncan Findlay, Edede Oiwoh, Edmund Wong, Ehsan Asdar, Elizabeth Proehl, Elizabeth Yang, Eric Antonow, Eric Kramer, Eric Peterson, Eric Sigler, Eric Wallace, Eugene Brevdo, Evan Mays, Farzad Khorasani, Felipe Petroski Such, Filippo Raso, Francis Zhang, Fred von Lohmann, Freddie Sulit, Gabriel Goh, Gene Oden, Geoff Salmon, Giulio Starace, Greg Brockman, Hadi Salman, Haiming Bao, Haitang Hu, Hannah Wong, Haoyu Wang, Heather Schmidt, Heather Whitney, Heewoo Jun, Hendrik Kirchner, Henrique Ponde de Oliveira Pinto, Hongyu Ren, Huiwen Chang, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian O'Connell, Ian Osband, Ian Silber, Ian Sohl, Ibrahim Okuyucu, Ikai Lan, Ilya Kostrikov, Ilya Sutskever, Ingmar Kanitscheider, Ishaan Gulrajani, Jacob Coxon, Jacob Menick, Jakub Pachocki, James Aung, James Betker, James Crooks, James Lennon, Jamie Kiros, Jan Leike, Jane Park, Jason Kwon, Jason Phang, Jason Teplitz, Jason Wei, Jason Wolfe, Jay Chen, Jeff Harris, Jenia Varavva, Jessica Gan Lee, Jessica Shieh, Ji Lin, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joanne Jang, Joaquin Quinonero Candela, Joe Beutler, Joe Landers, Joel Parish, Johannes Heidecke, John Schulman, Jonathan Lachman, Jonathan McKay, Jonathan Uesato, Jonathan Ward, Jong Wook Kim, Joost Huizinga, Jordan Sitkin, Jos Kraaijeveld, Josh Gross, Josh Kaplan, Josh Snyder, Joshua Achiam, Joy Jiao, Joyce Lee, Juntang Zhuang, Justyn Harriman, Kai Fricke, Kai Hayashi, Karan Singhal, Katy Shi, Kavin Karthik, Kayla Wood, Kendra Rimbach, Kenny Hsu, Kenny Nguyen, Keren Gu-Lemberg, Kevin Button, Kevin Liu, Kiel Howe, Krithika Muthukumar, Kyle Luther, Lama Ahmad, Larry Kai, Lauren Itow, Lauren Workman, Leher Pathak, Leo Chen, Li Jing, Lia Guy, Liam Fedus, Liang Zhou, Lien Mamitsuka, Lilian Weng, Lindsay McCallum, Lindsey Held, Long Ouyang, Louis Feuvrier, Lu Zhang, Lukas Kondraciuk, Lukasz Kaiser, Luke Hewitt, Luke Metz, Lyric Doshi, Mada Aflak, Maddie Simens, Madelaine Boyd, Madeleine Thompson, Marat Dukhan, Mark Chen, Mark Gray, Mark Hudnall, Marvin Zhang, Marwan Aljubeh, Mateusz Litwin, Matthew Zeng, Max Johnson, Maya Shetty, Mayank Gupta, Meghan Shah, Mehmet Yatbaz, Meng Jia Yang, Mengchao Zhong, Mia Glaese, Mianna Chen, Michael Janner, Michael Lampe, Michael Petrov, Michael Wu, Michele Wang, Michelle Fradin, Michelle Pokrass, Miguel Castro, Miguel Oom Temudo de Castro, Mikhail Pavlov, Miles Brundage, Miles Wang, Minal Khan, Mira Murati, Mo Bavarian, Molly Lin, Murat Yesildal, Nacho Soto, Natalia Gimelshein, Natalie Cone, Natalie Staudacher, Natalie Summers, Natan LaFontaine, Neil Chowdhury, Nick Ryder, Nick Stathas, Nick Turley, Nik Tezak, Niko Felix, Nithanth Kudige, Nitish Keskar, Noah Deutsch, Noel Bundick, Nora Puckett, Ofir Nachum, Ola Okelola, Oleg Boiko, Oleg Murk, Oliver Jaffe, Olivia Watkins, Olivier Godement, Owen Campbell-Moore, Patrick Chao, Paul McMillan, Pavel Belov, Peng Su, Peter Bak, Peter Bakkum, Peter Deng, Peter Dolan, Peter Hoeschele, Peter Welinder, Phil Tillet, Philip Pronin, Philippe Tillet, Prafulla Dhariwal, Qiming Yuan, Rachel Dias, Rachel Lim, Rahul Arora, Rajan Troll, Randall Lin, Rapha Gontijo Lopes, Raul Puri, Reah Miyara, Reimar Leike, Renaud Gaubert, Reza Zamani, Ricky Wang, Rob Donnelly, Rob Honsby, Rocky Smith, Rohan Sahai, Rohit Ramchandani, Romain Huet, Rory Carmichael, Rowan Zellers, Roy Chen, Ruby Chen, Ruslan Nigmatullin, Ryan Cheu, Saachi Jain, Sam Altman, Sam Schoenholz, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Sara Culver, Scott Ethersmith, Scott Gray, Sean Grove, Sean Metzger, Shamez Hermani, Shantanu Jain, Shengjia Zhao, Sherwin Wu, Shino Jomoto, Shirong Wu, Shuaiqi, Xia, Sonia Phene, Spencer Papay, Srinivas Narayanan, Steve Coffey, Steve Lee, Stewart Hall, Suchir Balaji, Tal Broda, Tal Stramer, Tao Xu, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Cunninghman, Thomas Degry, Thomas Dimson, Thomas Raoux, Thomas Shadwell, Tianhao Zheng, Todd Underwood, Todor Markov, Toki Sherbakov, Tom Rubin, Tom Stasi, Tomer Kaftan, Tristan Heywood, Troy Peterson, Tyce Walters, Tyna Eloundou, Valerie Qi, Veit Moeller, Vinnie Monaco, Vishal Kuo, Vlad Fomenko, Wayne Chang, Weiyi Zheng, Wenda Zhou, Wesam Manassra, Will Sheu, Wojciech Zaremba, Yash Patil, Yilei Qian, Yongjik Kim, Youlong Cheng, Yu Zhang, Yuchen He, Yuchen Zhang, Yujia Jin, Yunxing Dai, Yury Malkov
87
5

GPT-4o est un modèle omni autoregressif qui accepte en entrée toute combinaison de texte, audio, image et vidéo, et génère toute combinaison de sorties texte, audio et image. Il est entraîné de bout en bout à travers le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o peut répondre à des entrées audio en aussi peu que 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. Il égale les performances de GPT-4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les langues autres que l'anglais, tout en étant beaucoup plus rapide et 50\% moins cher dans l'API. GPT-4o est particulièrement meilleur dans la compréhension de la vision et de l'audio par rapport aux modèles existants. Conformément à notre engagement à construire une IA de manière sûre et en accord avec nos engagements volontaires envers la Maison Blanche, nous partageons la Fiche Système de GPT-4o, qui inclut nos évaluations du Cadre de Préparation. Dans cette Fiche Système, nous examinons en détail les capacités, les limitations et les évaluations de sécurité de GPT-4o dans plusieurs catégories, en mettant l'accent sur la traduction vocale, tout en évaluant les capacités de texte et d'image, ainsi que les mesures que nous avons mises en place pour garantir que le modèle est sûr et aligné. Nous incluons également des évaluations de tiers sur les capacités dangereuses, ainsi qu'une discussion sur les impacts sociétaux potentiels des capacités de texte et de vision de GPT-4o.

2

Bielik 7B v0.1 : Un modèle de langue polonais -- Développement, aperçus et évaluation
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24
ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas
47
2

Nous présentons Bielik 7B v0.1, un modèle de texte génératif de 7 milliards de paramètres pour le traitement de la langue polonaise. Entraîné sur des corpus polonais sélectionnés, ce modèle aborde les défis clés du développement de modèles de langue grâce à des techniques innovantes. Celles-ci incluent la Perte d'Entropie Croisée Pondérée par Instruction, qui équilibre l'apprentissage de différents types d'instructions, et le Taux d'Apprentissage Adaptatif, qui ajuste dynamiquement le taux d'apprentissage en fonction de la progression de l'entraînement. Pour évaluer les performances, nous avons créé le Open PL LLM Leaderboard et Polish MT-Bench, de nouveaux cadres évaluant diverses tâches de TAL et capacités conversationnelles. Bielik 7B v0.1 démontre des améliorations significatives, atteignant une augmentation de 9 points de pourcentage en score moyen par rapport à Mistral-7B-v0.1 sur la tâche de lecture RAG. Il excelle également dans le Polish MT-Bench, notamment dans les catégories Raisonnement (6,15/10) et Jeu de rôle (7,83/10). Ce modèle représente une avancée substantielle dans l'IA de la langue polonaise, offrant un outil puissant pour diverses applications linguistiques et établissant de nouveaux benchmarks dans le domaine.

3

Une enquête sur les petits modèles de langage
A Survey of Small Language Models

Oct 25
ByChien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen
46
3

Les petits modèles de langage (SLM) sont devenus de plus en plus importants en raison de leur efficacité et de leurs performances pour effectuer diverses tâches linguistiques avec des ressources computationnelles minimales, ce qui les rend idéaux pour divers environnements, y compris sur des appareils, des appareils mobiles, des appareils périphériques, entre autres. Dans cet article, nous présentons une enquête approfondie sur les SLM, en mettant l'accent sur leurs architectures, leurs techniques d'entraînement et leurs techniques de compression de modèle. Nous proposons une nouvelle taxonomie pour classer les méthodes utilisées pour optimiser les SLM, y compris la compression de modèle, l'élagage et les techniques de quantification. Nous résumons les ensembles de données de référence utiles pour évaluer les SLM ainsi que les métriques d'évaluation couramment utilisées. De plus, nous mettons en lumière les principaux défis ouverts qui restent à relever. Notre enquête vise à servir de ressource précieuse pour les chercheurs et les praticiens intéressés par le développement et le déploiement de petits modèles de langage efficaces.

4

AgentStore : Intégration évolutive d'agents hétérogènes en tant qu'assistant informatique généraliste spécialisé
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24
ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu
32
2

Les agents numériques capables d'automatiser des tâches informatiques complexes ont attiré une attention considérable en raison de leur immense potentiel pour améliorer l'interaction homme-machine. Cependant, les méthodes d'agents existantes présentent des lacunes dans leurs capacités de généralisation et de spécialisation, notamment dans le traitement de tâches informatiques ouvertes dans des environnements du monde réel. Inspiré par la riche fonctionnalité de l'App Store, nous présentons AgentStore, une plateforme évolutive conçue pour intégrer dynamiquement des agents hétérogènes pour automatiser des tâches informatiques. AgentStore permet aux utilisateurs d'intégrer des agents tiers, permettant au système d'enrichir continuellement ses capacités et de s'adapter aux systèmes d'exploitation en évolution rapide. De plus, nous proposons un nouveau MetaAgent central avec la stratégie AgentToken pour gérer efficacement des agents divers et utiliser leurs capacités spécialisées et généralistes pour des tâches spécifiques au domaine et à l'ensemble du système. Des expériences approfondies sur trois benchmarks difficiles démontrent qu'AgentStore surpasse les limitations des systèmes précédents avec des capacités limitées, réalisant en particulier une amélioration significative de 11,21\% à 23,85\% sur le benchmark OSWorld, plus que doublant les résultats précédents. Des résultats quantitatifs et qualitatifs complets démontrent en outre la capacité d'AgentStore à améliorer les systèmes d'agents à la fois en termes de généralisation et de spécialisation, soulignant son potentiel pour développer l'assistant informatique généraliste spécialisé. Tous nos codes seront rendus publics à l'adresse https://chengyou-jia.github.io/AgentStore-Home.

5

Analyse de documents révélée : Techniques, Défis et Perspectives pour l'Extraction d'Informations Structurées
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28
ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
30
3

L'analyse de documents est essentielle pour convertir des documents non structurés et semi-structurés - tels que des contrats, des articles académiques et des factures - en données structurées et exploitables par les machines. L'analyse de documents extrait des données structurées fiables à partir d'entrées non structurées, offrant une grande commodité pour de nombreuses applications. Surtout avec les récentes avancées dans les Grands Modèles de Langage, l'analyse de documents joue un rôle indispensable à la fois dans la construction de bases de connaissances et la génération de données d'entraînement. Cette étude présente une revue complète de l'état actuel de l'analyse de documents, couvrant les méthodologies clés, des systèmes de pipeline modulaires aux modèles de bout en bout pilotés par de grands modèles de vision-langage. Les composants essentiels tels que la détection de mise en page, l'extraction de contenu (y compris le texte, les tableaux et les expressions mathématiques) et l'intégration de données multimodales sont examinés en détail. De plus, cet article discute des défis auxquels sont confrontés les systèmes modulaires d'analyse de documents et les modèles de vision-langage dans la gestion de mises en page complexes, l'intégration de modules multiples et la reconnaissance de textes à haute densité. Il met l'accent sur l'importance du développement de jeux de données plus vastes et plus diversifiés et esquisse les orientations de recherche futures.

6

MarDini : Diffusion Autoregressive Masquée pour la Génération Vidéo à Grande Échelle
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26
ByHaozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
23
2

Nous présentons MarDini, une nouvelle famille de modèles de diffusion vidéo qui intègrent les avantages de l'autorégression masquée (MAR) dans un cadre de modèle de diffusion unifié (DM). Ici, MAR gère la planification temporelle, tandis que DM se concentre sur la génération spatiale dans une conception de réseau asymétrique : i) un modèle de planification basé sur MAR contenant la plupart des paramètres génère des signaux de planification pour chaque trame masquée en utilisant une entrée de basse résolution ; ii) un modèle de génération léger utilise ces signaux pour produire des trames haute résolution via un processus de débruitage par diffusion. Le MAR de MarDini permet la génération de vidéos conditionnée par n'importe quel nombre de trames masquées à n'importe quelle position de trame : un seul modèle peut gérer l'interpolation vidéo (par exemple, le masquage des trames intermédiaires), la génération d'images en vidéo (par exemple, le masquage à partir de la deuxième trame) et l'expansion vidéo (par exemple, le masquage de la moitié des trames). La conception efficace alloue la plupart des ressources informatiques au modèle de planification de basse résolution, rendant ainsi possible à grande échelle une attention spatio-temporelle coûteuse mais importante. MarDini établit un nouvel état de l'art pour l'interpolation vidéo ; en même temps, en quelques étapes d'inférence, il génère efficacement des vidéos comparables à celles de modèles image-vidéo avancés beaucoup plus coûteux.

7

LongReward : Améliorer les grands modèles de langage à long contexte avec l'IA Feedback
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28
ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
19
2

Bien que des avancées significatives aient été réalisées dans le développement de modèles de langage à grande échelle à long contexte (LLM), la qualité compromise des données synthétisées par les LLM pour le fine-tuning supervisé (SFT) affecte souvent les performances à long contexte des modèles SFT et entraîne des limitations inhérentes. En principe, l'apprentissage par renforcement (RL) avec des signaux de récompense appropriés peut renforcer davantage les capacités des modèles. Cependant, la manière d'obtenir des récompenses fiables dans des scénarios à long contexte reste inexplorée. À cette fin, nous proposons LongReward, une nouvelle méthode qui utilise un LLM prêt à l'emploi pour fournir des récompenses pour les réponses des modèles à long contexte à partir de quatre dimensions valorisées par les humains : l'utilité, la logique, la fidélité et l'exhaustivité, chacune avec un pipeline d'évaluation soigneusement conçu. En combinant LongReward et l'algorithme RL hors ligne DPO, nous sommes en mesure d'améliorer efficacement les modèles SFT à long contexte. Nos expériences indiquent que LongReward améliore non seulement de manière significative les performances à long contexte des modèles, mais renforce également leur capacité à suivre de courtes instructions. Nous constatons également que le DPO à long contexte avec LongReward et le DPO à court contexte conventionnel peuvent être utilisés ensemble sans nuire aux performances de l'un ou de l'autre.

8

DreamClear : Restauration d'images du monde réel à haute capacité avec une curation de jeux de données respectueuse de la vie privée
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24
ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
19
3

La restauration d'images (IR) dans des scénarios réels présente des défis significatifs en raison du manque de modèles à haute capacité et de jeux de données complets. Pour relever ces défis, nous présentons une stratégie double : GenIR, un pipeline innovant de curation de données, et DreamClear, un modèle de restauration d'images de pointe basé sur le Transformer de Diffusion (DiT). GenIR, notre contribution pionnière, est un pipeline d'apprentissage à double incitation qui surmonte les limitations des jeux de données existants, qui comprennent généralement seulement quelques milliers d'images et offrent donc une généralisabilité limitée pour les modèles plus grands. GenIR rationalise le processus en trois étapes : construction de paires image-texte, ajustement fin basé sur une double incitation, et génération et filtrage de données. Cette approche contourne le processus fastidieux de collecte de données, garantissant la conformité aux droits d'auteur et fournissant une solution rentable et respectueuse de la vie privée pour la construction de jeux de données IR. Le résultat est un jeu de données à grande échelle de un million d'images de haute qualité. Notre deuxième contribution, DreamClear, est un modèle de restauration d'images basé sur DiT. Il utilise les a priori génératifs des modèles de diffusion texte-image (T2I) et les capacités perceptuelles robustes des grands modèles de langage multimodal (MLLM) pour atteindre une restauration photoréaliste. Pour renforcer l'adaptabilité du modèle à diverses dégradations du monde réel, nous introduisons le Mélange de Modulateur Adaptatif (MoAM). Il utilise des a priori de dégradation au niveau du jeton pour intégrer dynamiquement divers experts en restauration, élargissant ainsi la gamme de dégradations que le modèle peut traiter. Nos expériences exhaustives confirment la performance supérieure de DreamClear, soulignant l'efficacité de notre stratégie double pour la restauration d'images dans le monde réel. Le code et les modèles pré-entraînés seront disponibles sur : https://github.com/shallowdream204/DreamClear.

9

COAT : Compression des états de l'optimiseur et activation pour un entraînement efficace en FP8.
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25
ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han
19
5

La formation en FP8 s'est imposée comme une méthode prometteuse pour améliorer l'efficacité de l'entraînement. Les cadres existants accélèrent l'entraînement en appliquant le calcul en FP8 aux couches linéaires tout en laissant les états de l'optimiseur et les activations dans une précision plus élevée, ce qui ne permet pas d'optimiser pleinement l'utilisation de la mémoire. Cet article présente COAT (Compression des États de l'Optimiseur et des Activations pour la Formation en FP8), un nouveau cadre de formation en FP8 conçu pour réduire de manière significative l'empreinte mémoire lors de l'entraînement de grands modèles. COAT aborde les limitations actuelles à travers deux innovations clés : (1) l'Expansion de la Plage Dynamique, qui aligne plus étroitement les distributions des états de l'optimiseur avec la plage de représentation en FP8, réduisant ainsi l'erreur de quantification, et (2) la Quantification des Activations à Granularité Mixte, qui optimise la mémoire d'activation en utilisant une combinaison de stratégies de quantification par tenseur et par groupe. Les expériences montrent que COAT réduit efficacement l'empreinte mémoire d'entraînement de bout en bout de 1,54x par rapport au BF16 tout en atteignant des performances presque sans perte sur diverses tâches, telles que la préformation et le fine-tuning de grands modèles de langage et la formation de modèles de langage visuel. COAT réalise également un gain de vitesse d'entraînement de bout en bout de 1,43x par rapport au BF16, se situant au niveau ou dépassant le gain de vitesse de TransformerEngine. COAT permet un entraînement efficace de tous les paramètres de grands modèles sur moins de GPU, et facilite le doublement de la taille du lot dans des paramètres d'entraînement distribué, offrant une solution pratique pour mettre à l'échelle l'entraînement de modèles à grande échelle. Le code est disponible sur https://github.com/NVlabs/COAT.

10

GrounDiT : Transformer de Diffusion d'Ancrage via Transplantation de Patchs Bruyants
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27
ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung
14
2

Nous introduisons une nouvelle technique de localisation spatiale sans entraînement pour la génération de texte vers image en utilisant les Transformateurs de Diffusion (DiT). La localisation spatiale avec des boîtes englobantes a attiré l'attention pour sa simplicité et sa polyvalence, permettant un contrôle utilisateur amélioré dans la génération d'images. Cependant, les approches antérieures sans entraînement reposent souvent sur la mise à jour de l'image bruitée pendant le processus de diffusion inverse via la rétropropagation à partir de fonctions de perte personnalisées, qui ont souvent du mal à fournir un contrôle précis sur chaque boîte englobante individuelle. Dans ce travail, nous exploitons la flexibilité de l'architecture Transformer, démontrant que DiT peut générer des patchs bruités correspondant à chaque boîte englobante, encodant entièrement l'objet cible et permettant un contrôle détaillé sur chaque région. Notre approche s'appuie sur une propriété intrigante de DiT, que nous appelons partage sémantique. En raison du partage sémantique, lorsqu'un patch plus petit est débruité conjointement avec une image de taille générable, les deux deviennent des "clones sémantiques". Chaque patch est débruité dans sa propre branche du processus de génération, puis transplanté dans la région correspondante de l'image bruitée originale à chaque pas de temps, ce qui permet une localisation spatiale robuste pour chaque boîte englobante. Dans nos expériences sur les référentiels HRS et DrawBench, nous obtenons des performances de pointe par rapport aux approches antérieures de localisation spatiale sans entraînement.

11

Assistant de Recherche Visuelle : Renforcez les Modèles Vision-Language en tant que Moteurs de Recherche Multimodaux
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28
ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
11
2

Les moteurs de recherche permettent la récupération d'informations inconnues à partir de textes. Cependant, les méthodes traditionnelles montrent leurs limites lorsqu'il s'agit de comprendre du contenu visuel inconnu, tel que l'identification d'un objet que le modèle n'a jamais vu auparavant. Ce défi est particulièrement marqué pour les grands modèles vision-langage (VLM) : si le modèle n'a pas été exposé à l'objet représenté dans une image, il peine à générer des réponses fiables à la question de l'utilisateur concernant cette image. De plus, avec l'émergence continue de nouveaux objets et événements, la mise à jour fréquente des VLM est peu pratique en raison de lourdes charges computationnelles. Pour pallier cette limitation, nous proposons Vision Search Assistant, un nouveau cadre qui facilite la collaboration entre les VLM et les agents web. Cette approche exploite les capacités de compréhension visuelle des VLM et l'accès aux informations en temps réel des agents web pour réaliser une Génération Augmentée par Recherche en monde ouvert via le web. En intégrant les représentations visuelles et textuelles grâce à cette collaboration, le modèle peut fournir des réponses éclairées même lorsque l'image est nouvelle pour le système. Des expériences approfondies menées sur des bancs d'essai de questions-réponses à la fois en ensemble ouvert et en ensemble fermé démontrent que le Vision Search Assistant surpasse significativement les autres modèles et peut être largement appliqué aux VLM existants.

12

Décodage rapide du meilleur parmi N via rejet spéculatif
Fast Best-of-N Decoding via Speculative Rejection

Oct 26
ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette
10
2

Le déploiement sûr et efficace des Grands Modèles de Langage (GML) implique une étape critique appelée alignement, qui garantit que les réponses du modèle sont conformes aux préférences humaines. Les techniques d'alignement courantes, telles que DPO, PPO et leurs variantes, alignent les GML en modifiant les poids du modèle pré-entraîné lors d'une phase appelée post-entraînement. Bien que prédominantes, ces méthodes de post-entraînement ajoutent une complexité substantielle avant que les GML ne puissent être déployés. Les méthodes d'alignement au moment de l'inférence évitent l'étape complexe de post-entraînement et orientent plutôt la génération vers des réponses alignées sur les préférences humaines. La méthode d'alignement au moment de l'inférence la plus connue, appelée Best-of-N, est aussi efficace que les procédures de post-entraînement de pointe. Malheureusement, Best-of-N nécessite beaucoup plus de ressources au moment de l'inférence que les stratégies de décodage standard, ce qui le rend computationnellement non viable. Dans ce travail, nous introduisons le Rejet Spéculatif, un algorithme d'alignement au moment de l'inférence computationnellement viable. Il génère des réponses à score élevé selon un modèle de récompense donné, comme le fait Best-of-N, tout en étant entre 16 et 32 fois plus efficace sur le plan computationnel.

13

LARP : Tokenisation des vidéos avec un prior générateur autoregressif appris
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28
ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
9
2

Nous présentons LARP, un nouveau tokeniseur vidéo conçu pour surmonter les limitations des méthodes actuelles de tokenisation vidéo pour les modèles génératifs autorégressifs (AR). Contrairement aux tokeniseurs traditionnels par patchs qui encodent directement des patchs visuels locaux en tokens discrets, LARP introduit un schéma de tokenisation holistique qui rassemble des informations du contenu visuel en utilisant un ensemble de requêtes holistiques apprises. Cette conception permet à LARP de capturer des représentations plus globales et sémantiques, plutôt que d'être limité aux informations de niveau de patch local. De plus, il offre une flexibilité en prenant en charge un nombre arbitraire de tokens discrets, permettant une tokenisation adaptative et efficace en fonction des exigences spécifiques de la tâche. Pour aligner l'espace de tokens discrets avec les tâches de génération AR en aval, LARP intègre un transformateur AR léger en tant que modèle prioritaire à l'entraînement qui prédit le prochain token dans son espace latent discret. En incorporant le modèle prioritaire lors de l'entraînement, LARP apprend un espace latent qui est non seulement optimisé pour la reconstruction vidéo mais qui est également structuré de manière plus propice à la génération autorégressive. De plus, ce processus définit un ordre séquentiel pour les tokens discrets, les poussant progressivement vers une configuration optimale lors de l'entraînement, garantissant une génération AR plus fluide et précise au moment de l'inférence. Des expériences approfondies démontrent les performances solides de LARP, atteignant un FVD de pointe sur le banc d'essai de génération vidéo conditionnelle à la classe UCF101. LARP améliore la compatibilité des modèles AR avec les vidéos et ouvre la voie à la construction de modèles de langage multimodaux unifiés haute fidélité (MLLMs).

14

EoRA : Compensation sans entraînement pour LLM compressé avec approximation de rang faible de l'espace propre
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28
ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
7
2

Dans ce travail, nous reformulons le problème de compression de modèle en un problème de compensation personnalisée : Étant donné un modèle compressé, notre objectif est d'introduire des chemins résiduels de bas rang pour compenser les erreurs de compression selon les exigences personnalisées des utilisateurs (par exemple, tâches, taux de compression), ce qui permet une plus grande flexibilité dans l'ajustement de la capacité globale sans être contraint par des formats de compression spécifiques. Cependant, l'application naïve de la SVD pour dériver des chemins résiduels entraîne une utilisation sous-optimale de la capacité de représentation de bas rang. À la place, nous proposons l'Approximation de Bas Rang d'Espace Propre sans Entraînement (EoRA), une méthode qui minimise directement les erreurs induites par la compression sans nécessiter d'entraînement basé sur le gradient, réalisant une optimisation rapide en quelques minutes en utilisant une petite quantité de données de calibration. EoRA projette les erreurs de compression dans l'espace propre des activations d'entrée, exploitant les valeurs propres pour prioriser efficacement la reconstruction des composantes d'erreur de haute importance. De plus, EoRA peut être intégré de manière transparente avec le fine-tuning et la quantification pour améliorer davantage l'efficacité et l'efficience. EoRA surpasse de manière constante les méthodes précédentes en compensant les erreurs pour les modèles LLaMA2/3 compressés sur diverses tâches, telles que la génération de langage, le raisonnement de bon sens et les tâches de raisonnement mathématique (par exemple, des améliorations de 31,31%/12,88% et 9,69% sur ARC-Easy/ARC-Challenge et MathQA lors de la compensation de LLaMA3-8B quantifié à 4 bits et élagué à une sparsité de 2:4). EoRA offre une solution évolutive et sans entraînement pour compenser les erreurs de compression, en faisant un outil puissant pour déployer les LLMs dans diverses exigences de capacité et d'efficacité.

15

VideoWebArena : Évaluation des agents multimodaux à long contexte avec compréhension vidéo pour les tâches web.
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Oct 24
ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
6
2

Les vidéos sont souvent utilisées pour apprendre ou extraire les informations nécessaires pour accomplir des tâches de manière différente de ce que le texte et les images statiques seuls peuvent fournir. Cependant, de nombreux benchmarks d'agents existants négligent la compréhension des vidéos à long contexte, se concentrant plutôt sur des entrées de texte ou d'images statiques. Pour combler cette lacune, nous introduisons VideoWebArena (VideoWA), un benchmark pour évaluer les capacités des agents multimodaux à long contexte en matière de compréhension des vidéos. VideoWA se compose de 2 021 tâches d'agents web basées sur des tutoriels vidéo créés manuellement, totalisant près de quatre heures de contenu. Pour notre benchmark, nous définissons une taxonomie des tâches d'agents basées sur des vidéos à long contexte avec deux principaux domaines d'intérêt : la rétention des compétences et la rétention des faits. Alors que les tâches de rétention des compétences évaluent si un agent peut utiliser une démonstration humaine donnée pour accomplir une tâche efficacement, la tâche de rétention des faits évalue si un agent peut récupérer des informations pertinentes à l'instruction à partir d'une vidéo pour accomplir une tâche. Nous constatons que le meilleur modèle atteint un taux de réussite de 13,3 % sur les tâches de rétention des faits et de 45,8 % sur les paires de questions-réponses de rétention des faits, bien en dessous des performances humaines à 73,9 % et 79,3 % respectivement. Sur les tâches de rétention des compétences, les modèles à long contexte se comportent moins bien avec les tutoriels qu'avec les autres, montrant une diminution de performance de 5 % dans les tâches de WebArena et de 10,3 % dans les tâches de VisualWebArena. Notre travail met en évidence la nécessité d'améliorer les capacités agentic des modèles multimodaux à long contexte et fournit une plateforme d'essai pour le développement futur avec des agents vidéo à long contexte.

16

Transformateurs récursifs relaxés : Partage efficace des paramètres avec LoRA par couche.
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Oct 28
BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster
6
3

Les grands modèles de langage (LLM) sont coûteux à déployer. Le partage de paramètres offre une voie possible pour réduire leur taille et leur coût, mais son efficacité dans les LLM modernes reste assez limitée. Dans ce travail, nous revisitons le "layer tying" en tant que forme de partage de paramètres dans les Transformers, et introduisons de nouvelles méthodes pour convertir les LLM existants en "Recursive Transformers" plus petits qui partagent des paramètres entre les couches, avec une perte minimale de performance. Ici, nos Recursive Transformers sont initialisés de manière efficace à partir des Transformers pré-entraînés standard, mais n'utilisent qu'un seul bloc de couches uniques qui est ensuite répété plusieurs fois en boucle. Nous améliorons encore les performances en introduisant des Relaxed Recursive Transformers qui ajoutent de la flexibilité à la contrainte de layer tying via des modules d'adaptation à faible rang en profondeur (LoRA), tout en préservant la compacité du modèle global. Nous montrons que nos modèles récursifs (par exemple, Gemma 1B récursif) surpassent à la fois des modèles pré-entraînés de taille similaire (comme TinyLlama 1.1B et Pythia 1B) et des références de distillation de connaissances - et peuvent même retrouver la plupart des performances du modèle "full-size" original (par exemple, Gemma 2B sans paramètres partagés). Enfin, nous proposons le Batching en profondeur continue, un nouveau paradigme prometteur d'inférence rendu possible par le Recursive Transformer lorsqu'il est associé à des sorties anticipées. Dans une analyse théorique, nous montrons que cela a le potentiel de conduire à des gains significatifs (2-3x) dans le débit d'inférence.

17

Dialog2Flow : Pré-entraînement des plongements de phrases basé sur l'action et le contraste doux pour l'extraction automatique du flux de dialogues
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

Oct 24
BySergio Burdisso, Srikanth Madikeri, Petr Motlicek
5
2

Dériver efficacement des workflows structurés à partir de dialogues non annotés reste un défi sous-exploré et redoutable en linguistique computationnelle. Automatiser ce processus pourrait accélérer considérablement la conception manuelle de workflows dans de nouveaux domaines et permettre l'ancrage de grands modèles linguistiques dans des organigrammes spécifiques au domaine, améliorant ainsi la transparence et la contrôlabilité. Dans cet article, nous introduisons les embeddings Dialog2Flow (D2F), qui se distinguent des embeddings de phrases conventionnels en cartographiant les énoncés dans un espace latent où ils sont regroupés selon leurs fonctions communicatives et informatives (c'est-à-dire les actions qu'ils représentent). D2F permet de modéliser les dialogues comme des trajectoires continues dans un espace latent avec des régions distinctes liées aux actions. En regroupant les embeddings D2F, l'espace latent est quantifié, et les dialogues peuvent être convertis en séquences d'identifiants de région/action, facilitant l'extraction du workflow sous-jacent. Pour pré-entraîner D2F, nous construisons un ensemble de données complet en unifiant vingt ensembles de données de dialogues orientés vers des tâches avec des annotations d'actions normalisées par tour. Nous introduisons également une nouvelle perte contrastive douce qui exploite les informations sémantiques de ces actions pour guider le processus d'apprentissage de la représentation, montrant des performances supérieures par rapport à la perte contrastive supervisée standard. L'évaluation par rapport à divers embeddings de phrases, y compris ceux spécifiques aux dialogues, démontre que D2F produit des résultats qualitatifs et quantitatifs supérieurs dans divers domaines.

18

Champs neuronaux en robotique : Une enquête
Neural Fields in Robotics: A Survey

Oct 26
ByMuhammad Zubair Irshad, Mauro Comi, Yen-Chen Lin, Nick Heppert, Abhinav Valada, Rares Ambrus, Zsolt Kira, Jonathan Tremblay
5
2

Les champs neuronaux ont émergé comme une approche transformative pour la représentation de scènes 3D en vision par ordinateur et en robotique, permettant une inférence précise de la géométrie, des sémantiques 3D et de la dynamique à partir de données 2D posées. En exploitant le rendu différentiable, les champs neuronaux englobent à la fois des représentations neuronales implicites et explicites continues permettant une reconstruction 3D haute fidélité, l'intégration de données de capteurs multimodaux et la génération de nouveaux points de vue. Cette étude explore leurs applications en robotique, en mettant l'accent sur leur potentiel pour améliorer la perception, la planification et le contrôle. Leur compacité, leur efficacité mémoire et leur différentiabilité, ainsi que leur intégration transparente avec des modèles fondamentaux et génératifs, les rendent idéaux pour des applications en temps réel, améliorant l'adaptabilité et la prise de décision des robots. Cet article propose une revue approfondie des champs neuronaux en robotique, en catégorisant les applications dans divers domaines et en évaluant leurs forces et limitations, sur la base de plus de 200 articles. Tout d'abord, nous présentons quatre cadres clés de champs neuronaux : Réseaux d'Occupation, Champs de Distance Signée, Champs de Radiance Neuronale et Étalement Gaussien. Ensuite, nous détaillons les applications des champs neuronaux dans cinq domaines majeurs de la robotique : estimation de pose, manipulation, navigation, physique et conduite autonome, mettant en évidence des travaux clés et discutant des enseignements et des défis ouverts. Enfin, nous soulignons les limitations actuelles des champs neuronaux en robotique et proposons des orientations prometteuses pour la recherche future. Page du projet : https://robonerf.github.io

19

Exploiter la localité pour améliorer l'efficacité de l'échantillonnage dans la manipulation robotique.
Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

Jun 15
ByTong Zhang, Yingdong Hu, Jiacheng You, Yang Gao
2
1

Étant donné le coût élevé de la collecte de données robotiques dans le monde réel, l'efficacité de l'échantillonnage est une quête constante en robotique. Dans cet article, nous présentons SGRv2, un cadre d'apprentissage par imitation qui améliore l'efficacité de l'échantillonnage grâce à des représentations visuelles et d'actions améliorées. Au cœur de la conception de SGRv2 se trouve l'incorporation d'un biais inductif critique - la localité de l'action - qui postule que les actions du robot sont principalement influencées par l'objet cible et ses interactions avec l'environnement local. Des expériences approfondies menées dans des environnements simulés et réels démontrent que la localité de l'action est essentielle pour améliorer l'efficacité de l'échantillonnage. SGRv2 excelle dans les tâches de RLBench avec un contrôle par images clés en utilisant seulement 5 démonstrations et dépasse la ligne de base RVT dans 23 des 26 tâches. De plus, lorsqu'évalué sur ManiSkill2 et MimicGen en utilisant un contrôle dense, le taux de réussite de SGRv2 est 2,54 fois supérieur à celui de SGR. Dans des environnements réels, avec seulement huit démonstrations, SGRv2 peut effectuer une variété de tâches à un taux de réussite nettement plus élevé par rapport aux modèles de base. Site web du projet : http://sgrv2-robot.github.io

20

Modèles de langage et cas d'utilisation d'une deuxième opinion : Le Professionnel de Poche
Language Models And A Second Opinion Use Case: The Pocket Professional

Oct 27
ByDavid Noever
2
2

Cette recherche teste le rôle des Grands Modèles de Langage (GML) en tant qu'outils formels de deuxième avis dans la prise de décision professionnelle, en se concentrant particulièrement sur des cas médicaux complexes où même les médecins expérimentés recherchent des consultations entre pairs. Le travail a analysé 183 cas médicaux difficiles provenant de Medscape sur une période de 20 mois, testant les performances de plusieurs GML par rapport aux réponses des médecins obtenues de manière collaborative. Une découverte clé a été le score global élevé possible dans les derniers modèles fondamentaux (>80% de précision par rapport à l'opinion consensuelle), dépassant la plupart des mesures humaines rapportées sur les mêmes cas cliniques (450 pages de profils de patients, résultats de tests). L'étude évalue l'écart de performance des GML entre les cas simples (>81% de précision) et les scénarios complexes (43% de précision), en particulier dans ces cas générant un débat important parmi les médecins humains. La recherche démontre que les GML pourraient être précieux en tant que générateurs de diagnostics différentiels complets plutôt qu'en tant qu'outils diagnostiques primaires, aidant potentiellement à contrer les biais cognitifs dans la prise de décision clinique, à réduire les charges cognitives et ainsi à éliminer certaines sources d'erreurs médicales. L'inclusion d'un deuxième ensemble de données juridiques comparatives (affaires de la Cour Suprême, N=21) fournit un contexte empirique supplémentaire à l'utilisation de l'IA pour favoriser les deuxièmes avis, bien que ces défis juridiques se soient avérés considérablement plus faciles à analyser pour les GML. En plus des contributions originales de preuves empiriques pour la précision des GML, la recherche a agrégé un nouvel étalon pour que d'autres évaluent la fiabilité des questions et réponses très contestées entre les GML et les praticiens humains en désaccord. Ces résultats suggèrent que le déploiement optimal des GML dans des environnements professionnels peut différer considérablement des approches actuelles qui mettent l'accent sur l'automatisation des tâches routinières.

21

Imitation de mouvement bi-niveau pour les robots humanoïdes
Bi-Level Motion Imitation for Humanoid Robots

Oct 2
ByWenshuai Zhao, Yi Zhao, Joni Pajarinen, Michael Muehlebach
1
2

L'apprentissage par imitation à partir de données de capture de mouvement humain (MoCap) offre une voie prometteuse pour entraîner des robots humanoïdes. Cependant, en raison de différences de morphologie, telles que des degrés variables de liberté articulaire et des limites de force, une réplication exacte des comportements humains peut ne pas être réalisable pour les robots humanoïdes. Par conséquent, l'incorporation de données MoCap physiquement irréalisables dans les ensembles de données d'entraînement peut affecter négativement les performances de la politique du robot. Pour résoudre ce problème, nous proposons un cadre d'apprentissage par imitation basé sur une optimisation bi-niveau qui alterne entre l'optimisation de la politique du robot et des données cibles MoCap. Plus précisément, nous développons d'abord un modèle dynamique latent génératif en utilisant un auto-encodeur auto-cohérent novateur, qui apprend des représentations de mouvement clairsemées et structurées tout en capturant les motifs de mouvement souhaités dans l'ensemble de données. Le modèle dynamique est ensuite utilisé pour générer des mouvements de référence tandis que la représentation latente régularise le processus d'imitation de mouvement bi-niveau. Des simulations réalisées avec un modèle réaliste d'un robot humanoïde démontrent que notre méthode améliore la politique du robot en modifiant les mouvements de référence pour qu'ils soient physiquement cohérents.

Oct 28
Oct 29
Oct 30