HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

DuPO : Permettre une auto-vérification fiable des LLM via l'optimisation de préférences duales
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Aug 20

ByShuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

Nous présentons DuPO, un cadre d'optimisation des préférences basé sur l'apprentissage dual qui génère des retours d'annotation via une dualité généralisée. DuPO aborde deux limitations clés : la dépendance de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) à des étiquettes coûteuses et son applicabilité restreinte aux tâches vérifiables, ainsi que la restriction de l'apprentissage dual traditionnel à des paires de tâches strictement duales (par exemple, traduction et rétro-traduction). Plus précisément, DuPO décompose l'entrée d'une tâche primaire en composantes connues et inconnues, puis construit sa tâche duale pour reconstruire la partie inconnue en utilisant la sortie primaire et les informations connues (par exemple, inverser des solutions mathématiques pour retrouver des variables cachées), élargissant ainsi l'applicabilité à des tâches non inversibles. La qualité de cette reconstruction sert de récompense auto-supervisée pour optimiser la tâche primaire, en synergie avec la capacité des modèles de langage (LLM) à instancier les deux tâches via un seul modèle. Empiriquement, DuPO réalise des gains substantiels sur diverses tâches : il améliore la qualité moyenne de traduction de 2,13 COMET sur 756 directions, augmente la précision du raisonnement mathématique de 6,4 points en moyenne sur trois benchmarks de défis, et améliore les performances de 9,3 points en tant que reclassificateur en temps d'inférence (échangeant du calcul contre de la précision). Ces résultats positionnent DuPO comme un paradigme évolutif, général et sans annotation pour l'optimisation des LLM.

FutureX : Un Benchmark Avancé en Temps Réel pour les Agents LLM dans la Prédiction Future
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Aug 16

ByZhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

La prédiction future est une tâche complexe pour les agents LLM, nécessitant un haut niveau de pensée analytique, de collecte d'informations, de compréhension contextuelle et de prise de décision dans l'incertitude. Les agents doivent non seulement rassembler et interpréter de vastes quantités d'informations dynamiques, mais aussi intégrer des sources de données diverses, évaluer les incertitudes et adapter leurs prédictions en fonction des tendances émergentes, tout comme le font les experts humains dans des domaines tels que la politique, l'économie et la finance. Malgré son importance, il n'existe pas de benchmark à grande échelle pour évaluer les agents sur la prédiction future, principalement en raison des défis liés à la gestion des mises à jour en temps réel et à l'obtention de réponses précises et opportunes. Pour remédier à cela, nous introduisons FutureX, un benchmark d'évaluation dynamique et en temps réel spécialement conçu pour les agents LLM effectuant des tâches de prédiction future. FutureX est le benchmark en temps réel le plus vaste et le plus diversifié pour la prédiction future, prenant en charge des mises à jour quotidiennes en temps réel et éliminant la contamination des données grâce à un pipeline automatisé de collecte de questions et de réponses. Nous évaluons 25 modèles LLM/agents, y compris ceux dotés de capacités de raisonnement, de recherche et d'intégration d'outils externes tels que l'agent de recherche approfondie open-source et les modèles de recherche approfondie fermés. Cette évaluation complète examine le raisonnement adaptatif des agents et leur performance dans des environnements dynamiques. De plus, nous fournissons des analyses approfondies des modes d'échec et des pièges de performance des agents dans des tâches orientées vers l'avenir, y compris la vulnérabilité aux pages web falsifiées et la validité temporelle. Notre objectif est d'établir une norme d'évaluation dynamique et exempte de contamination qui favorise le développement d'agents LLM capables de performer au niveau des analystes humains professionnels dans le raisonnement complexe et la pensée prédictive.

MeshCoder : Génération de maillages structurés à partir de nuages de points par un modèle de langage de grande envergure
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

Aug 20

ByBingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

La reconstruction d'objets 3D en programmes modifiables est essentielle pour des applications telles que la rétro-ingénierie et l'édition de formes. Cependant, les méthodes existantes reposent souvent sur des langages spécifiques à un domaine (DSL) limités et des jeux de données de petite taille, ce qui restreint leur capacité à modéliser des géométries et des structures complexes. Pour relever ces défis, nous présentons MeshCoder, un nouveau cadre de travail qui reconstruit des objets 3D complexes à partir de nuages de points en scripts Python modifiables pour Blender. Nous développons un ensemble complet d'API Python expressives pour Blender, capables de synthétiser des géométries complexes. En exploitant ces API, nous construisons un jeu de données apparié à grande échelle, où le code de chaque objet est décomposé en parties sémantiques distinctes. Par la suite, nous entraînons un modèle de langage multimodal (LLM) qui traduit un nuage de points 3D en scripts Python exécutables pour Blender. Notre approche non seulement atteint des performances supérieures dans les tâches de reconstruction de forme en code, mais facilite également l'édition intuitive de la géométrie et de la topologie grâce à des modifications de code pratiques. De plus, notre représentation basée sur le code améliore les capacités de raisonnement des LLM dans les tâches de compréhension des formes 3D. Ensemble, ces contributions établissent MeshCoder comme une solution puissante et flexible pour la reconstruction et la compréhension programmatique des formes 3D.

Des scores aux compétences : un cadre de diagnostic cognitif pour l'évaluation des grands modèles de langage en finance
From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Aug 19

ByZiyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou

Les modèles de langage de grande taille (LLMs) ont montré des perspectives prometteuses pour les applications financières, mais leur adéquation à ce domaine à haut risque reste largement non prouvée en raison des insuffisances des benchmarks existants. Les benchmarks actuels reposent uniquement sur une évaluation au niveau des scores, résumant la performance par un score unique qui masque une compréhension nuancée de ce que les modèles savent réellement et de leurs limites précises. Ils s'appuient également sur des ensembles de données qui ne couvrent qu'un sous-ensemble étroit de concepts financiers, tout en négligeant d'autres éléments essentiels pour les applications réelles. Pour combler ces lacunes, nous introduisons FinCDM, le premier cadre d'évaluation de diagnostic cognitif conçu pour les LLMs financiers, permettant d'évaluer les LLMs au niveau des connaissances et des compétences, en identifiant les compétences et connaissances financières qu'ils possèdent ou non sur la base de leurs schémas de réponse à des tâches étiquetées par compétences, plutôt que sur un seul nombre agrégé. Nous construisons CPA-QKA, le premier ensemble de données d'évaluation financière informé par la cognition, dérivé de l'examen du Certified Public Accountant (CPA), avec une couverture complète des compétences comptables et financières du monde réel. Il est rigoureusement annoté par des experts du domaine, qui rédigent, valident et annotent les questions avec un accord inter-annotateurs élevé et des étiquettes de connaissances fines. Nos expériences approfondies sur 30 LLMs propriétaires, open-source et spécifiques au domaine montrent que FinCDM révèle des lacunes de connaissances cachées, identifie des domaines sous-testés tels que le raisonnement fiscal et réglementaire négligés par les benchmarks traditionnels, et découvre des clusters comportementaux parmi les modèles. FinCDM introduit un nouveau paradigme pour l'évaluation des LLMs financiers en permettant un diagnostic interprétable et conscient des compétences qui soutient un développement de modèles plus fiable et ciblé, et tous les ensembles de données et scripts d'évaluation seront publiés pour soutenir des recherches ultérieures.

MCP-Universe : Évaluation des modèles de langage de grande envergure avec des serveurs de protocole de contexte du monde réel
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Aug 20

ByZiyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

Le Protocole de Contexte Modèle (MCP) est apparu comme une norme transformative pour connecter les grands modèles de langage à des sources de données externes et à des outils, gagnant rapidement en adoption auprès des principaux fournisseurs d’IA et plateformes de développement. Cependant, les benchmarks existants sont trop simplistes et ne parviennent pas à capturer les défis réels des applications, tels que le raisonnement à long terme et les espaces d’outils vastes et inconnus. Pour combler cette lacune critique, nous introduisons MCP-Universe, le premier benchmark complet spécialement conçu pour évaluer les LLM dans des tâches réalistes et complexes via l’interaction avec des serveurs MCP du monde réel. Notre benchmark couvre 6 domaines principaux répartis sur 11 serveurs MCP différents : Navigation Géographique, Gestion de Référentiels, Analyse Financière, Conception 3D, Automatisation de Navigateurs et Recherche Web. Pour garantir une évaluation rigoureuse, nous mettons en œuvre des évaluateurs basés sur l’exécution, incluant des évaluateurs de format pour la conformité des agents, des évaluateurs statiques pour la correspondance de contenu invariant dans le temps, et des évaluateurs dynamiques qui récupèrent automatiquement la vérité terrain en temps réel pour les tâches sensibles au temps. À travers une évaluation approfondie des LLM leaders, nous constatons que même les modèles de pointe tels que GPT-5 (43,72 %), Grok-4 (33,33 %) et Claude-4.0-Sonnet (29,44 %) présentent des limitations de performance significatives. De plus, notre benchmark pose un défi de contexte long pour les agents LLM, car le nombre de tokens d’entrée augmente rapidement avec le nombre d’étapes d’interaction. Par ailleurs, il introduit un défi d’outils inconnus, car les agents LLM manquent souvent de familiarité avec l’utilisation précise des serveurs MCP. Notamment, les agents de niveau entreprise comme Cursor ne parviennent pas à obtenir de meilleures performances que les frameworks ReAct standards. Au-delà de l’évaluation, nous ouvrons en open-source notre cadre d’évaluation extensible avec support d’interface utilisateur, permettant aux chercheurs et praticiens d’intégrer de nouveaux agents et serveurs MCP de manière transparente tout en favorisant l’innovation dans l’écosystème MCP en évolution rapide.

Tinker : Le don de la diffusion à la 3D – Édition cohérente multi-vues à partir d'entrées éparses sans optimisation par scène
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

Aug 20

ByCanyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen

Nous présentons Tinker, un cadre polyvalent pour l'édition 3D haute fidélité qui fonctionne à la fois en régime one-shot et few-shot sans nécessiter de réglage fin par scène. Contrairement aux techniques antérieures qui exigent une optimisation extensive par scène pour garantir la cohérence multi-vues ou pour produire des dizaines de vues d'entrée cohérentes, Tinker offre des modifications robustes et cohérentes en multi-vues à partir d'une ou deux images seulement. Cette capacité découle de la réutilisation de modèles de diffusion pré-entraînés, qui débloquent leur conscience latente en 3D. Pour stimuler la recherche dans ce domaine, nous avons constitué le premier ensemble de données et pipeline de données à grande échelle pour l'édition multi-vues, couvrant des scènes et des styles variés. En nous appuyant sur cet ensemble de données, nous avons développé notre cadre capable de générer des vues éditées cohérentes en multi-vues sans entraînement par scène, qui se compose de deux composants novateurs : (1) Éditeur multi-vues référencé : Permet des modifications précises et pilotées par référence qui restent cohérentes sous tous les angles de vue. (2) Synthétiseur any-view-to-video : Exploite les a priori spatio-temporels de la diffusion vidéo pour réaliser une complétion de scène de haute qualité et une génération de nouvelles vues même à partir d'entrées éparses. À travers des expériences approfondies, Tinker réduit considérablement les obstacles à la création de contenu 3D généralisable, atteignant des performances de pointe dans les tâches d'édition, de synthèse de nouvelles vues et d'amélioration du rendu. Nous croyons que Tinker représente une étape clé vers une édition 3D véritablement scalable et zero-shot. Page web du projet : https://aim-uofa.github.io/Tinker

NVIDIA Nemotron Nano 2 : Un modèle de raisonnement hybride Mamba-Transformer précis et efficace
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Aug 20

ByNVIDIA, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adi Renduchintala, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Nous présentons Nemotron-Nano-9B-v2, un modèle de langage hybride Mamba-Transformer conçu pour augmenter le débit des charges de travail de raisonnement tout en atteignant une précision de pointe par rapport aux modèles de taille similaire. Nemotron-Nano-9B-v2 s'appuie sur l'architecture Nemotron-H, dans laquelle la majorité des couches d'auto-attention de l'architecture Transformer classique sont remplacées par des couches Mamba-2, afin d'améliorer la vitesse d'inférence lors de la génération des longues traces de pensée nécessaires au raisonnement. Nous avons créé Nemotron-Nano-9B-v2 en pré-entraînant d'abord un modèle de 12 milliards de paramètres (Nemotron-Nano-12B-v2-Base) sur 20 000 milliards de tokens en utilisant une recette d'entraînement FP8. Après avoir aligné Nemotron-Nano-12B-v2-Base, nous avons employé la stratégie Minitron pour compresser et distiller le modèle dans le but de permettre l'inférence sur jusqu'à 128k tokens sur un seul GPU NVIDIA A10G (22GiB de mémoire, précision bfloat16). Par rapport aux modèles existants de taille similaire (par exemple, Qwen3-8B), nous montrons que Nemotron-Nano-9B-v2 atteint une précision équivalente ou supérieure sur les benchmarks de raisonnement tout en obtenant jusqu'à 6 fois plus de débit d'inférence dans des scénarios de raisonnement comme 8k tokens en entrée et 16k tokens en sortie. Nous publions Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base et les points de contrôle Nemotron-Nano-9B-v2-Base, ainsi que la majorité de nos ensembles de données de pré- et post-entraînement sur Hugging Face.

De l'IA pour la science à la science agentique : une étude sur la découverte scientifique autonome
From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

Aug 18

ByJiaqi Wei, Yuejin Yang, Xiang Zhang, Yuhan Chen, Xiang Zhuang, Zhangyang Gao, Dongzhan Zhou, Guangshuai Wang, Zhiqiang Gao, Juntai Cao, Zijie Qiu, Xuming He, Qiang Zhang, Chenyu You, Shuangjia Zheng, Ning Ding, Wanli Ouyang, Nanqing Dong, Yu Cheng, Siqi Sun, Lei Bai, Bowen Zhou

L'intelligence artificielle (IA) est en train de transformer la découverte scientifique, évoluant d'outils informatiques spécialisés vers des partenaires de recherche autonomes. Nous positionnons la Science Agentique comme une étape clé au sein du paradigme plus large de l'IA pour la Science, où les systèmes d'IA passent d'une assistance partielle à une pleine autonomie scientifique. Grâce aux modèles de langage à grande échelle (LLMs), aux systèmes multimodaux et aux plateformes de recherche intégrées, l'IA agentique démontre des capacités dans la génération d'hypothèses, la conception d'expériences, leur exécution, leur analyse et leur raffinement itératif -- des comportements autrefois considérés comme exclusivement humains. Cette étude propose une revue orientée par domaine de la découverte scientifique autonome à travers les sciences de la vie, la chimie, la science des matériaux et la physique. Nous unifions trois perspectives auparavant fragmentées -- orientées processus, autonomie et mécanismes -- à travers un cadre complet qui relie les capacités fondamentales, les processus clés et les réalisations spécifiques à chaque domaine. En nous appuyant sur ce cadre, nous (i) retraçons l'évolution de l'IA pour la Science, (ii) identifions cinq capacités essentielles sous-tendant l'autonomie scientifique, (iii) modélisons la découverte comme un flux de travail dynamique en quatre étapes, (iv) passons en revue les applications dans les domaines mentionnés, et (v) synthétisons les défis majeurs et les opportunités futures. Ce travail établit une synthèse orientée par domaine de la découverte scientifique autonome et positionne la Science Agentique comme un paradigme structuré pour faire progresser la recherche pilotée par l'IA.

Quantisation et dLLMs : Une étude systématique de la quantification post-entraînement pour les LLMs de diffusion
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Aug 20

ByHaokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Les récents progrès dans les modèles de langage à grande échelle basés sur la diffusion (dLLMs) ont introduit une alternative prometteuse aux modèles de langage autoregressifs (AR) pour les tâches de génération de langage naturel, en exploitant des stratégies d'attention complète et de décodage basé sur le débruitage. Cependant, le déploiement de ces modèles sur des appareils périphériques reste difficile en raison de leur échelle massive de paramètres et de leurs exigences élevées en ressources. Bien que la quantification post-entraînement (PTQ) soit devenue une technique largement adoptée pour compresser les modèles de langage AR, son applicabilité aux dLLMs reste largement inexplorée. Dans ce travail, nous présentons la première étude systématique sur la quantification des modèles de langage basés sur la diffusion. Nous commençons par identifier la présence de valeurs d'activation aberrantes, caractérisées par des valeurs d'activation anormalement élevées qui dominent la plage dynamique. Ces valeurs aberrantes constituent un défi majeur pour la quantification à faible bit, car elles rendent difficile la préservation de la précision pour la majorité des valeurs. Plus important encore, nous mettons en œuvre des méthodes de PTQ de pointe et menons une évaluation exhaustive sur plusieurs types de tâches et variantes de modèles. Notre analyse est structurée selon quatre dimensions clés : la largeur de bit, la méthode de quantification, la catégorie de tâche et le type de modèle. À travers cette évaluation multi-perspective, nous offrons des insights pratiques sur le comportement de quantification des dLLMs sous différentes configurations. Nous espérons que nos résultats fourniront une base pour les recherches futures sur le déploiement efficace des dLLMs. Tous les codes et configurations expérimentales seront publiés pour soutenir la communauté.

RynnEC : Intégrer les MLLM dans le monde incarné
RynnEC: Bringing MLLMs into Embodied World

Aug 19

ByRonghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

Nous présentons RynnEC, un modèle de langage multimodal vidéo conçu pour la cognition incarnée. Construit sur un modèle de base vision-langage à usage général, RynnEC intègre un encodeur de région et un décodeur de masque, permettant une interaction flexible au niveau régional des vidéos. Malgré son architecture compacte, RynnEC atteint des performances de pointe dans la compréhension des propriétés des objets, la segmentation des objets et le raisonnement spatial. Conceptuellement, il propose un paradigme vidéo centré sur les régions pour le cerveau des agents incarnés, offrant une perception fine du monde physique et permettant des interactions plus précises. Pour pallier la rareté des ensembles de données 3D annotés, nous proposons un pipeline basé sur des vidéos égocentriques pour générer des données de cognition incarnée. De plus, nous introduisons RynnEC-Bench, un benchmark centré sur les régions pour évaluer les capacités cognitives incarnées. Nous anticipons que RynnEC fera progresser le développement de cœurs cognitifs à usage général pour les agents incarnés et facilitera la généralisation à travers diverses tâches incarnées. Le code, les points de contrôle du modèle et le benchmark sont disponibles à l'adresse suivante : https://github.com/alibaba-damo-academy/RynnEC

Machines vertueuses : Vers une intelligence artificielle générale scientifique
Virtuous Machines: Towards Artificial General Science

Aug 19

ByGabrielle Wehr, Reuben Rideaux, Amaya J. Fox, David R. Lightfoot, Jason Tangen, Jason B. Mattingley, Shane E. Ehrhardt

Les systèmes d'intelligence artificielle transforment la découverte scientifique en accélérant des tâches de recherche spécifiques, allant de la prédiction de structures protéiques à la conception de matériaux, tout en restant confinés à des domaines étroits nécessitant une supervision humaine importante. La croissance exponentielle de la littérature scientifique et la spécialisation croissante des domaines limitent la capacité des chercheurs à synthétiser les connaissances à travers les disciplines et à développer des théories unificatrices, ce qui motive l'exploration de systèmes d'IA plus polyvalents pour la science. Nous montrons ici qu'un système d'IA agentique et indépendant du domaine peut naviguer de manière autonome dans le processus scientifique - de la génération d'hypothèses à la collecte de données jusqu'à la préparation de manuscrits. Le système a conçu et exécuté de manière autonome trois études psychologiques sur la mémoire de travail visuelle, la rotation mentale et la vivacité de l'imagerie, a mené une nouvelle collecte de données en ligne avec 288 participants, a développé des pipelines d'analyse lors de sessions de codage continues de plus de 8 heures, et a produit des manuscrits complets. Les résultats démontrent la capacité des pipelines de découverte scientifique par IA à mener des recherches non triviales avec un raisonnement théorique et une rigueur méthodologique comparables à ceux de chercheurs expérimentés, bien qu'avec des limites en termes de nuances conceptuelles et d'interprétation théorique. Cela représente une étape vers une IA incarnée capable de tester des hypothèses à travers des expériences réelles, accélérant la découverte en explorant de manière autonome des régions de l'espace scientifique que les contraintes cognitives et de ressources humaines pourraient autrement laisser inexplorées. Cela soulève des questions importantes sur la nature de la compréhension scientifique et l'attribution du crédit scientifique.

L'apprentissage par renforcement on-policy rencontre les experts off-policy : Harmonisation du fine-tuning supervisé et de l'apprentissage par renforcement via une pondération dynamique
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Aug 15

ByWenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

Le Fine-Tuning Supervisé (SFT) et l'Apprentissage par Renforcement (RL) sont deux paradigmes post-entraînement majeurs pour affiner les capacités et aligner le comportement des Modèles de Langage à Grande Échelle (LLMs). Les approches existantes qui intègrent SFT et RL sont souvent confrontées au risque de perturber les modèles établis et de provoquer un surajustement aux données expertes. Pour résoudre ce problème, nous présentons une nouvelle investigation de la vision unifiée de SFT et RL à travers une perspective off-policy versus on-policy. Nous proposons CHORD, un cadre pour l'Harmonisation Contrôlée de l'Apprentissage par Renforcement On- et Off-Policy via une Pondération Dynamique, qui redéfinit le SFT non pas comme une étape séparée, mais comme un objectif auxiliaire dynamiquement pondéré au sein du processus RL on-policy. Sur la base d'une analyse de l'influence des données expertes off-policy à la fois aux niveaux holistique et granulaire, nous intégrons un mécanisme de double contrôle dans CHORD. Plus précisément, le cadre utilise d'abord un coefficient global pour guider de manière holistique la transition de l'imitation off-policy à l'exploration on-policy, puis applique une fonction de pondération token par token qui permet un apprentissage granulaire à partir des tokens experts, tout en préservant l'exploration on-policy et en atténuant les perturbations des données off-policy. Nous menons des expériences approfondies sur des benchmarks largement utilisés, fournissant des preuves empiriques que CHORD permet un processus d'apprentissage stable et efficace. En harmonisant efficacement les données expertes off-policy avec l'exploration on-policy, CHORD démontre des améliorations significatives par rapport aux méthodes de référence. Nous mettons à disposition l'implémentation à l'adresse https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord pour inspirer des recherches ultérieures.

FLARE : Moteur de Routage d'Attention Rapide à Faible Rang
FLARE: Fast Low-rank Attention Routing Engine

Aug 18

ByVedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara

La complexité quadratique de l'auto-attention limite son applicabilité et son extensibilité sur de grands maillages non structurés. Nous introduisons Fast Low-rank Attention Routing Engine (FLARE), un mécanisme d'auto-attention à complexité linéaire qui dirige l'attention à travers des séquences latentes de longueur fixe. Chaque tête d'attention effectue une communication globale parmi N tokens en projetant la séquence d'entrée sur une séquence latente de longueur fixe de M ≪ N tokens à l'aide de tokens de requête apprenables. En dirigeant l'attention à travers une séquence goulot, FLARE apprend une forme d'attention de faible rang qui peut être appliquée à un coût de O(NM). FLARE non seulement s'adapte à des tailles de problèmes sans précédent, mais offre également une précision supérieure par rapport aux substituts de PDE neuronaux de pointe sur divers benchmarks. Nous publions également un nouveau jeu de données sur la fabrication additive pour stimuler des recherches ultérieures. Notre code est disponible à l'adresse https://github.com/vpuri3/FLARE.py.

ViExam : Les modèles de vision et de langage surpassent-ils les humains sur les questions d'examen multimodales vietnamiennes ?
ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

Aug 19

ByVy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim

Les modèles de langage visuel (VLMs) démontrent des capacités remarquables sur les tâches multimodales en anglais, mais leurs performances sur les langues à faibles ressources avec un contenu éducatif véritablement multimodal restent largement inexplorées. Dans ce travail, nous testons comment les VLMs se comportent sur des évaluations éducatives vietnamiennes, en examinant si les VLMs principalement entraînés sur des données en anglais peuvent gérer un raisonnement multimodal multilingue dans des contextes réels. Notre étude présente la première évaluation complète des capacités des VLMs sur des examens multimodaux vietnamiens en proposant ViExam, un benchmark contenant 2 548 questions multimodales. Nous constatons que les VLMs de pointe atteignent seulement 57,74 % de précision moyenne, tandis que les modèles open-source atteignent 27,70 % sur 7 domaines académiques, incluant les Mathématiques, la Physique, la Chimie, la Biologie, la Géographie, le Test de Conduite et le Test de QI. La plupart des VLMs sous-performent par rapport aux candidats humains moyens (66,54 %), avec seulement le VLM pensant o3 (74,07 %) dépassant la performance humaine moyenne, tout en restant nettement en deçà de la meilleure performance humaine (99,60 %). L'incitation multilingue avec des instructions en anglais tout en conservant le contenu en vietnamien n'améliore pas les performances, réduisant même la précision de 1 point de pourcentage pour les VLMs de pointe. La collaboration humaine en boucle peut partiellement améliorer les performances des VLMs de 5 points de pourcentage. Le code et les données sont disponibles à l'adresse : https://vi-exam.github.io.

Analyse empirique et étude approfondie du raisonnement intégré aux outils
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

Aug 21

ByYufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans les tâches de raisonnement grâce à des méthodes comme le raisonnement en chaîne de pensées (CoT). Cependant, ils peinent souvent dans les tâches nécessitant des calculs précis. Le raisonnement intégrant des outils (TIR) est apparu comme une solution en incorporant des outils externes dans le processus de raisonnement. Néanmoins, la généralisation du TIR pour améliorer les capacités de raisonnement des LLM reste incertaine. De plus, il reste à étudier si le TIR a amélioré le comportement de raisonnement du modèle et l'a aidé à penser. Nous présentons ReasonZoo, un benchmark complet englobant neuf catégories de raisonnement diverses, pour évaluer l'efficacité du TIR dans différents domaines. Nous proposons également deux nouvelles métriques, le coût conscient de la performance (PAC) et l'aire sous la courbe performance-coût (AUC-PCC), pour évaluer l'efficacité du raisonnement. Notre évaluation empirique démontre que les modèles activés par le TIR surpassent systématiquement leurs homologues non-TIR dans les tâches mathématiques et non mathématiques. De plus, le TIR améliore l'efficacité du raisonnement, comme en témoignent les améliorations du PAC et de l'AUC-PCC, indiquant une réduction de la surréflexion et un raisonnement plus fluide. Ces résultats soulignent les avantages généraux du TIR et son potentiel pour faire progresser les capacités des LLM dans les tâches de raisonnement complexes.

Équivariance locale à l'échelle avec un Canonicaliseur à Équilibre Profond Latent
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

Aug 19

ByMd Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

La variation d'échelle constitue un défi fondamental en vision par ordinateur. Les objets d'une même classe peuvent présenter des tailles différentes, et leur taille perçue est en outre influencée par leur distance par rapport à la caméra. Ces variations sont locales aux objets, c'est-à-dire que les différentes tailles d'objets peuvent évoluer de manière distincte au sein d'une même image. Pour gérer efficacement ces variations d'échelle, nous proposons un équilibreur canonique profond (DEC) afin d'améliorer l'équivariance locale d'échelle d'un modèle. DEC peut être facilement intégré dans les architectures de réseaux existantes et adapté à un modèle pré-entraîné. De manière notable, nous démontrons que sur le benchmark compétitif d'ImageNet, DEC améliore à la fois les performances du modèle et la cohérence locale d'échelle pour quatre réseaux profonds pré-entraînés populaires, tels que ViT, DeiT, Swin et BEiT. Notre code est disponible à l'adresse suivante : https://github.com/ashiq24/local-scale-equivariance.

Leuvenshtein : Calcul efficace de la distance d'édition basé sur FHE avec un seul bootstrap par cellule
Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

Aug 20

ByWouter Legiest, Jan-Pieter D'Anvers, Bojan Spasic, Nam-Luc Tran, Ingrid Verbauwhede

Cet article présente une nouvelle approche pour le calcul de la distance de Levenshtein (ou distance d'édition) dans le cadre du chiffrement entièrement homomorphe (FHE), en ciblant spécifiquement les schémas de troisième génération tels que TFHE. Les calculs de distance d'édition sont essentiels dans des applications variées, notamment en finance et en génomique, comme l'alignement de séquences d'ADN. Nous introduisons un algorithme optimisé, appelé Leuvenshtein, qui réduit significativement le coût des calculs de distance d'édition. Cet algorithme diminue particulièrement le nombre de bootstraps programmables (PBS) nécessaires par cellule de calcul, le faisant passer d'environ 94 opérations — requises par l'algorithme conventionnel de Wagner-Fisher — à seulement 1. De plus, nous proposons une méthode efficace pour effectuer des vérifications d'égalité sur les caractères, réduisant les comparaisons de caractères ASCII à seulement 2 opérations PBS. Enfin, nous explorons le potentiel d'améliorations supplémentaires des performances en utilisant un prétraitement lorsque l'une des chaînes d'entrée est non chiffrée. Notre algorithme Leuvenshtein atteint des performances jusqu'à 278 fois plus rapides que la meilleure implémentation TFHE disponible et jusqu'à 39 fois plus rapides qu'une implémentation optimisée de l'algorithme de Wagner-Fisher. Par ailleurs, lorsqu'un prétraitement hors ligne est possible grâce à la présence d'une entrée non chiffrée côté serveur, une accélération supplémentaire de 3 fois peut être obtenue.

mSCoRe : un benchmark multilingue et évolutif pour le raisonnement de bon sens basé sur les compétences
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

Aug 13

ByNghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

Les avancées récentes dans les modèles de langage de grande taille (LLMs) renforcés par le raisonnement ont démontré des capacités remarquables dans des tâches de raisonnement complexe. Cependant, le mécanisme sous-jacent à leur utilisation de différentes compétences de raisonnement humain reste peu exploré, en particulier pour le raisonnement de bon sens multilingue qui implique des connaissances quotidiennes à travers différentes langues et cultures. Pour combler cette lacune, nous proposons un benchmark multilingue et évolutif pour l'évaluation des compétences de raisonnement de bon sens (mSCoRe). Notre benchmark intègre trois composants clés conçus pour évaluer systématiquement les capacités de raisonnement des LLMs, incluant : (1) une taxonomie novatrice des compétences de raisonnement permettant une analyse fine des processus de raisonnement des modèles, (2) un pipeline robuste de synthèse de données spécifiquement adapté à l'évaluation du raisonnement de bon sens, et (3) un cadre de complexité évolutive permettant à la difficulté des tâches de s'adapter dynamiquement aux futures améliorations des capacités des LLMs. Des expériences approfondies sur huit LLMs de pointe de tailles et d'approches d'entraînement variées montrent que mSCoRe reste un défi significatif pour les modèles actuels, en particulier aux niveaux de complexité élevés. Nos résultats révèlent les limites de ces modèles renforcés par le raisonnement lorsqu'ils sont confrontés à des nuances de bon sens général et culturel multilingue. Nous fournissons également une analyse détaillée des processus de raisonnement des modèles, suggérant des orientations futures pour améliorer les capacités de raisonnement de bon sens multilingue.

Affinement de l'apprentissage contrastif et des relations d'homographie pour la recommandation multimodale
Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

Aug 19

ByShouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu

Le système de recommandation multimodal se concentre sur l'utilisation d'informations riches provenant de différentes modalités (c'est-à-dire les images et les descriptions textuelles) des éléments pour améliorer les performances de recommandation. Les méthodes actuelles ont obtenu un succès remarquable grâce à la puissante capacité de modélisation structurelle des réseaux de neurones graphiques. Cependant, ces méthodes sont souvent entravées par la rareté des données dans les scénarios réels. Bien que l'apprentissage contrastif et l'homographie (c'est-à-dire les graphes homogènes) soient utilisés pour relever le défi de la rareté des données, les méthodes existantes souffrent encore de deux limitations principales : 1) Les contrastes simples des caractéristiques multimodales ne parviennent pas à produire des représentations efficaces, entraînant des caractéristiques partagées entre modalités bruyantes et la perte d'informations précieuses dans les caractéristiques uniques à chaque modalité ; 2) Le manque d'exploration des relations homographiques entre les intérêts des utilisateurs et la co-occurrence des éléments entraîne une exploitation incomplète de l'interaction utilisateur-élément. Pour remédier à ces limitations, nous proposons un nouveau cadre pour l'affinage de l'apprentissage contrastif multimodal et des relations d'homographie (REARM). Plus précisément, nous complétons l'apprentissage contrastif multimodal en employant des stratégies de méta-réseau et de contrainte orthogonale, qui filtrent le bruit dans les caractéristiques partagées entre modalités et conservent les informations pertinentes pour la recommandation dans les caractéristiques uniques à chaque modalité. Pour exploiter efficacement les relations homogènes, nous intégrons un graphe d'intérêts des utilisateurs nouvellement construit et un graphe de co-occurrence des éléments avec les graphes existants de co-occurrence des utilisateurs et de sémantique des éléments pour l'apprentissage sur graphes. Les expériences approfondies sur trois ensembles de données réels démontrent la supériorité de REARM par rapport à diverses méthodes de référence de pointe. Notre visualisation montre en outre une amélioration apportée par REARM dans la distinction entre les caractéristiques partagées et uniques entre modalités. Le code est disponible {ici} : https://github.com/MrShouxingMa/REARM.

NVIDIA Nemotron Nano 2 : Un modèle de raisonnement hybride Mamba-Transformer précis et efficace
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Aug 20