ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Any2Caption : Interpréter toute condition en légende pour une génération vidéo contrôlable
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31, 2025
Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
774

Pour résoudre le goulot d'étranglement lié à l'interprétation précise de l'intention de l'utilisateur au sein de la communauté actuelle de génération vidéo, nous présentons Any2Caption, un cadre novateur pour la génération vidéo contrôlable sous n'importe quelle condition. L'idée clé est de découpler les différentes étapes d'interprétation des conditions de l'étape de synthèse vidéo. En exploitant les modèles de langage multimodaux de grande envergure (MLLMs), Any2Caption interprète des entrées variées—texte, images, vidéos et indices spécialisés tels que les régions, les mouvements et les poses de caméra—en légendes denses et structurées qui offrent aux générateurs vidéo de base une meilleure guidance. Nous introduisons également Any2CapIns, un jeu de données à grande échelle comprenant 337K instances et 407K conditions pour l'ajustement d'instructions de toute-condition-à-légende. Des évaluations approfondies démontrent des améliorations significatives de notre système en termes de contrôlabilité et de qualité vidéo sur divers aspects des modèles existants de génération vidéo. Page du projet : https://sqwu.top/Any2Cap/

JudgeLRM : Les grands modèles de raisonnement en tant qu'arbitres
JudgeLRM: Large Reasoning Models as a Judge

Mar 31, 2025
Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
616

L'essor des modèles de langage de grande taille (LLMs) en tant qu'évaluateurs offre une alternative évolutive à l'annotation humaine, mais les approches existantes de Fine-Tuning Supervisé (SFT) pour les juges se révèlent souvent insuffisantes dans les domaines nécessitant un raisonnement complexe. Dans ce travail, nous examinons si les juges LLMs bénéficient véritablement de capacités de raisonnement améliorées. À travers une analyse détaillée des exigences de raisonnement dans les tâches d'évaluation, nous révélons une corrélation négative entre les gains de performance du SFT et la proportion d'échantillons exigeant un raisonnement approfondi, mettant en lumière les limites du SFT dans de tels scénarios. Pour remédier à cela, nous introduisons JudgeLRM, une famille de LLMs orientés vers le jugement, entraînés à l'aide de l'apprentissage par renforcement (RL) avec des récompenses axées sur les résultats et spécifiques aux juges. Les modèles JudgeLRM surpassent systématiquement à la fois les modèles ajustés par SFT et les modèles de raisonnement de pointe. Notamment, JudgeLRM-3B dépasse GPT-4, et JudgeLRM-7B surpasse DeepSeek-R1 de 2,79 % en score F1, excellant particulièrement dans les tâches de jugement nécessitant un raisonnement approfondi.

Attention Multi-Jetons
Multi-Token Attention

Apr 1, 2025
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
522

L'attention douce est un mécanisme essentiel permettant aux LLM de localiser les parties pertinentes dans un contexte donné. Cependant, les poids d'attention individuels sont déterminés par la similarité d'un seul vecteur de jeton de requête et de clé. Cette "attention à un seul jeton" limite la quantité d'informations utilisées pour distinguer une partie pertinente du reste du contexte. Pour résoudre ce problème, nous proposons une nouvelle méthode d'attention, l'attention multi-jetons (MTA), qui permet aux LLM de conditionner leurs poids d'attention sur plusieurs vecteurs de requête et de clé simultanément. Cela est réalisé en appliquant des opérations de convolution sur les requêtes, les clés et les têtes, permettant ainsi aux requêtes et clés voisines d'influencer mutuellement leurs poids d'attention pour une attention plus précise. En conséquence, notre méthode peut localiser un contexte pertinent en utilisant des informations plus riches et nuancées, dépassant la capacité d'un seul vecteur. Grâce à des évaluations approfondies, nous démontrons que la MTA améliore les performances sur une gamme de benchmarks populaires. Notamment, elle surpasse les modèles de base Transformer sur les tâches standard de modélisation du langage, ainsi que sur les tâches nécessitant la recherche d'informations dans des contextes longs, où la capacité de notre méthode à exploiter des informations plus riches s'avère particulièrement bénéfique.

Exploration de l'effet de l'apprentissage par renforcement sur la compréhension vidéo : Perspectives issues de SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31, 2025
Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
383

Les récents progrès dans la génération de Chaînes de Pensée (Chain of Thought, COT) ont considérablement amélioré les capacités de raisonnement des Grands Modèles de Langage (Large Language Models, LLMs), avec l'apprentissage par renforcement (Reinforcement Learning, RL) émergeant comme une approche efficace en post-formation. Les Grands Modèles de Langage Multimodaux (Multimodal Large Language Models, MLLMs) héritent de ce potentiel de raisonnement, mais restent sous-explorés dans les tâches nécessitant à la fois perception et raisonnement logique. Pour remédier à cela, nous introduisons SEED-Bench-R1, un benchmark conçu pour évaluer systématiquement les méthodes de post-formation pour les MLLMs dans la compréhension vidéo. Il inclut des vidéos complexes du monde réel et des tâches de planification quotidienne sous forme de questions à choix multiples, nécessitant une perception et un raisonnement sophistiqués. SEED-Bench-R1 évalue la généralisation à travers une hiérarchie à trois niveaux : scénarios intra-distribution, inter-environnement et inter-environnement-tâche, et est équipé d'un ensemble de données d'entraînement à grande échelle avec des réponses de référence facilement vérifiables. En utilisant Qwen2-VL-Instruct-7B comme modèle de base, nous comparons le RL au réglage fin supervisé (Supervised Fine-Tuning, SFT), démontrant l'efficacité en données du RL et sa performance supérieure sur les tâches intra-distribution et hors-distribution, surpassant même le SFT sur des benchmarks de compréhension vidéo générale comme LongVideoBench. Notre analyse détaillée révèle que le RL améliore la perception visuelle mais produit souvent des chaînes de raisonnement moins cohérentes sur le plan logique. Nous identifions des limitations clés telles que l'incohérence du raisonnement et la négligence des indices visuels, et suggérons des améliorations futures dans le raisonnement du modèle de base, la modélisation des récompenses et la robustesse du RL face aux signaux bruyants.

Open-Qwen2VL : Pré-entraînement efficace en calcul de modèles de langage multimodaux entièrement ouverts sur des ressources académiques
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1, 2025
Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
367

La reproduction du pré-entraînement de pointe des modèles de langage multimodaux (MLLM) rencontre des obstacles à chaque étape du pipeline, notamment le filtrage de données de haute qualité, les stratégies de mélange de données multimodales, les techniques de regroupement de séquences et les cadres d'entraînement. Nous présentons Open-Qwen2VL, un modèle de langage multimodale de 2 milliards de paramètres entièrement open source, pré-entraîné efficacement sur 29 millions de paires image-texte en utilisant seulement 442 heures de GPU A100-40G. Notre approche utilise une résolution d'image dynamique allant de basse à haute et un regroupement de séquences multimodales pour améliorer significativement l'efficacité du pré-entraînement. Le jeu de données d'entraînement a été soigneusement sélectionné en utilisant à la fois des techniques de filtrage basées sur les MLLM (par exemple, MLM-Filter) et des méthodes de filtrage conventionnelles basées sur CLIP, améliorant ainsi considérablement la qualité des données et l'efficacité de l'entraînement. Le pré-entraînement d'Open-Qwen2VL a été réalisé sur des GPU 8xA100-40G de niveau académique à l'UCSB sur 5 milliards de tokens multimodaux regroupés, ce qui représente 0,36 % des 1,4 trillion de tokens de pré-entraînement multimodaux de Qwen2-VL. Le modèle Open-Qwen2VL finalement ajusté par instruction surpasse le MLLM de pointe partiellement open source Qwen2-VL-2B sur divers benchmarks multimodaux tels que MMBench, SEEDBench, MMstar et MathVista, démontrant ainsi l'efficacité remarquable de l'entraînement d'Open-Qwen2VL. Nous rendons open source tous les aspects de notre travail, y compris les détails de l'entraînement efficace en termes de calcul et de données, les méthodes de filtrage des données, les scripts de regroupement de séquences, les données de pré-entraînement au format WebDataset, le codebase d'entraînement basé sur FSDP, ainsi que les points de contrôle des modèles de base et ajustés par instruction. Nous redéfinissons le terme "entièrement open" pour les MLLM comme la publication complète de : 1) le codebase d'entraînement, 2) les techniques détaillées de filtrage des données, et 3) toutes les données de pré-entraînement et de fine-tuning supervisé utilisées pour développer le modèle.

CodeARC : Évaluation des capacités de raisonnement des agents LLM pour la synthèse inductive de programmes
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29, 2025
Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken
342

La synthèse inductive de programmes, ou programmation par l'exemple, consiste à synthétiser des fonctions à partir d'exemples d'entrées-sorties qui généralisent à des entrées non vues. Bien que les agents basés sur de grands modèles de langage aient montré des résultats prometteurs dans des tâches de programmation guidées par le langage naturel, leur capacité à réaliser une synthèse inductive de programmes reste peu explorée. Les protocoles d'évaluation existants reposent sur des ensembles statiques d'exemples et des tests de validation, ne fournissant aucun retour d'information lorsque les fonctions synthétisées sont incorrectes et ne reflétant pas des scénarios réels tels que la rétro-ingénierie. Nous proposons CodeARC, le Code Abstraction and Reasoning Challenge, un nouveau cadre d'évaluation où les agents interagissent avec une fonction cible cachée en l'interrogeant avec de nouvelles entrées, synthétisent des fonctions candidates et affinent itérativement leurs solutions à l'aide d'un oracle de test différentiel. Ce cadre interactif encourage les agents à effectuer des appels de fonction et à s'auto-corriger en fonction des retours. Nous construisons le premier benchmark à grande échelle pour la synthèse inductive de programmes à usage général, comprenant 1114 fonctions. Parmi les 18 modèles évalués, o3-mini obtient les meilleurs résultats avec un taux de réussite de 52,7 %, soulignant la difficulté de cette tâche. Le fine-tuning de LLaMA-3.1-8B-Instruct sur des traces de synthèse soigneusement sélectionnées permet d'obtenir un gain de performance relatif allant jusqu'à 31 %. CodeARC offre un banc d'essai plus réaliste et plus exigeant pour évaluer la synthèse de programmes et le raisonnement inductif basés sur les LLM.

Mise à l'échelle de l'apprentissage de représentations visuelles sans langage
Scaling Language-Free Visual Representation Learning

Apr 1, 2025
David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
304

L'apprentissage visuel auto-supervisé (SSL) obtient actuellement des performances inférieures au pré-entraînement multimodal contrastif texte-image (CLIP) dans des contextes multimodaux tels que la réponse à des questions visuelles (VQA). Cet écart multimodal est souvent attribué à la sémantique introduite par la supervision linguistique, bien que les modèles SSL visuels et CLIP soient souvent entraînés sur des données différentes. Dans ce travail, nous posons la question suivante : "Les approches visuelles auto-supervisées sont-elles à la traîne par rapport à CLIP en raison de l'absence de supervision linguistique, ou des différences dans les données d'entraînement ?" Nous étudions cette question en entraînant à la fois des modèles SSL visuels et CLIP sur les mêmes données MetaCLIP, et en utilisant VQA comme banc d'essai diversifié pour les encodeurs visuels. Dans cette configuration contrôlée, les modèles SSL visuels montrent une meilleure capacité d'échelle que les modèles CLIP en termes de données et de capacité de modèle, et les performances SSL visuelles ne saturent pas même après un passage à l'échelle jusqu'à 7 milliards de paramètres. Par conséquent, nous observons que les méthodes SSL visuelles atteignent des performances comparables à CLIP sur un large éventail de benchmarks VQA et de vision classique. Ces résultats démontrent que le SSL visuel pur peut rivaliser avec le pré-entraînement visuel supervisé par le langage à grande échelle, ouvrant de nouvelles opportunités pour l'apprentissage de représentations centré sur la vision.

GeometryCrafter : Estimation géométrique cohérente pour les vidéos en monde ouvert avec des a priori de diffusion
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1, 2025
Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
292

Malgré des avancées remarquables dans l'estimation de profondeur vidéo, les méthodes existantes présentent des limitations inhérentes pour atteindre une fidélité géométrique à travers des prédictions invariantes par affinité, limitant ainsi leur applicabilité dans la reconstruction et d'autres tâches en aval nécessitant une précision métrique. Nous proposons GeometryCrafter, un nouveau cadre de travail qui récupère des séquences de cartes de points haute fidélité avec une cohérence temporelle à partir de vidéos du monde réel, permettant une reconstruction 3D/4D précise, l'estimation des paramètres de la caméra et d'autres applications basées sur la profondeur. Au cœur de notre approche se trouve un Variational Autoencoder (VAE) de cartes de points qui apprend un espace latent indépendant des distributions latentes vidéo pour un encodage et un décodage efficaces des cartes de points. En exploitant ce VAE, nous entraînons un modèle de diffusion vidéo pour modéliser la distribution des séquences de cartes de points conditionnées par les vidéos d'entrée. Des évaluations approfondies sur divers ensembles de données démontrent que GeometryCrafter atteint une précision 3D de pointe, une cohérence temporelle et une capacité de généralisation exceptionnelles.

Paysage des Pensées : Visualisation du Processus de Raisonnement des Modèles de Langage à Grande Échelle
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28, 2025
Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han
282

De nombreuses applications des grands modèles de langage (LLM) reposent sur leur capacité à effectuer un raisonnement étape par étape. Cependant, le comportement de raisonnement des LLM reste mal compris, ce qui pose des défis pour la recherche, le développement et la sécurité. Pour combler cette lacune, nous introduisons le paysage des pensées - le premier outil de visualisation permettant aux utilisateurs d'inspecter les chemins de raisonnement de la chaîne de pensée et de ses dérivés sur n'importe quel ensemble de données à choix multiples. Plus précisément, nous représentons les états d'un chemin de raisonnement sous forme de vecteurs de caractéristiques qui quantifient leurs distances par rapport à tous les choix de réponses. Ces caractéristiques sont ensuite visualisées dans des graphiques en deux dimensions à l'aide de t-SNE. L'analyse qualitative et quantitative avec le paysage des pensées distingue efficacement les modèles forts des modèles faibles, les réponses correctes des réponses incorrectes, ainsi que les différentes tâches de raisonnement. Il révèle également des schémas de raisonnement indésirables, tels qu'une faible cohérence et une forte incertitude. De plus, les utilisateurs peuvent adapter notre outil à un modèle qui prédit la propriété qu'ils observent. Nous démontrons cet avantage en adaptant notre outil à un vérificateur léger qui évalue la justesse des chemins de raisonnement. Le code est disponible publiquement à l'adresse suivante : https://github.com/tmlr-group/landscape-of-thoughts.

Z1 : Mise à l'échelle efficace en temps de test avec code
Z1: Efficient Test-time Scaling with Code

Apr 1, 2025
Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
263

Les modèles de langage de grande taille (LLMs) peuvent améliorer leur capacité à résoudre des problèmes complexes grâce à une mise à l'échelle du calcul au moment du test, mais cela implique souvent des contextes plus longs et des coûts élevés en tokens de raisonnement. Dans cet article, nous proposons une méthode efficace de mise à l'échelle au moment du test qui entraîne les LLMs sur des trajectoires de raisonnement liées au code, facilitant ainsi la réduction des tokens de pensée excessifs tout en maintenant les performances. Premièrement, nous créons Z1-Code-Reasoning-107K, un ensemble de données soigneusement sélectionné de problèmes de codage simples et complexes accompagnés de leurs trajectoires de solution courtes et longues. Deuxièmement, nous présentons une nouvelle fenêtre de pensée décalée (Shifted Thinking Window) pour atténuer la surcharge de réflexion en supprimant les balises de délimitation de contexte (par exemple, <think>. . . </think>) et en limitant les tokens de raisonnement. Entraîné avec des données de trajectoires longues et courtes et équipé de la fenêtre de pensée décalée, notre modèle, Z1-7B, démontre la capacité à ajuster son niveau de raisonnement en fonction de la complexité des problèmes et présente une mise à l'échelle efficace au moment du test pour différentes tâches de raisonnement, égalant les performances de R1-Distill-Qwen-7B avec environ 30 % de ses tokens de pensée moyens. Notamment, affiné uniquement avec des trajectoires de code, Z1-7B montre une généralisation à des tâches de raisonnement plus larges (47,5 % sur GPQA Diamond). Notre analyse de l'élicitation efficace du raisonnement fournit également des insights précieux pour les recherches futures.

Commande A : Un modèle de langage de grande envergure prêt pour l'entreprise
Command A: An Enterprise-Ready Large Language Model

Apr 1, 2025
Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao
263

Dans ce rapport, nous décrivons le développement de Command A, un modèle de langage de grande puissance conçu spécifiquement pour exceller dans des cas d'utilisation réels en entreprise. Command A est un modèle optimisé pour les agents et capable de traiter plusieurs langues, avec une prise en charge de 23 langues utilisées dans le monde des affaires, ainsi qu'une architecture hybride novatrice qui équilibre efficacité et performances de pointe. Il offre des capacités de Génération Augmentée par Récupération (RAG) de premier ordre, avec ancrage contextuel et utilisation d'outils pour automatiser des processus métier complexes. Ces capacités sont obtenues grâce à une approche d'entraînement décentralisée, incluant des algorithmes d'auto-affinage et des techniques de fusion de modèles. Nous présentons également les résultats de Command R7B, qui partage des similitudes de capacités et d'architecture avec Command A. Les poids des deux modèles ont été publiés à des fins de recherche. Ce rapport technique détaille notre pipeline d'entraînement original et présente une évaluation approfondie de nos modèles sur un ensemble de tâches pertinentes pour les entreprises et de benchmarks publics, démontrant d'excellentes performances et une grande efficacité.

Agent S2 : Un cadre compositionnel généraliste-spécialiste pour les agents d'utilisation informatique
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1, 2025
Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
222

Les agents d'utilisation informatique automatisent les tâches numériques en interagissant directement avec les interfaces graphiques (GUIs) sur les ordinateurs et les appareils mobiles, offrant un potentiel significatif pour améliorer la productivité humaine en traitant un espace ouvert de requêtes utilisateur. Cependant, les agents actuels rencontrent des défis majeurs : un ancrage imprécis des éléments d'interface graphique, des difficultés dans la planification de tâches à long terme, et des goulots d'étranglement de performance dus à l'utilisation de modèles généralistes uniques pour des tâches cognitives diverses. Pour répondre à ces enjeux, nous introduisons Agent S2, un cadre compositionnel novateur qui répartit les responsabilités cognitives entre divers modèles généralistes et spécialisés. Nous proposons une nouvelle technique de Mélange-d'Ancrage pour atteindre une localisation précise des éléments d'interface graphique et introduisons la Planification Hiérarchique Proactive, qui affine dynamiquement les plans d'action à plusieurs échelles temporelles en réponse aux observations évolutives. Les évaluations démontrent qu'Agent S2 établit de nouvelles performances de pointe (SOTA) sur trois benchmarks majeurs d'utilisation informatique. Plus précisément, Agent S2 réalise des améliorations relatives de 18,9 % et 32,7 % par rapport aux agents de référence tels que Claude Computer Use et UI-TARS sur les évaluations OSWorld à 15 et 50 étapes. De plus, Agent S2 généralise efficacement à d'autres systèmes d'exploitation et applications, surpassant les meilleures méthodes précédentes de 52,8 % sur WindowsAgentArena et de 16,52 % sur AndroidWorld. Le code est disponible à l'adresse https://github.com/simular-ai/Agent-S.

Récitation plutôt que raisonnement : Comment les modèles de langage de pointe peuvent échouer sur des problèmes de raisonnement de niveau école primaire ?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1, 2025
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
2215

L'ascension rapide, depuis des problèmes de niveau école primaire jusqu'aux défis de pointe, en termes de difficulté pour les benchmarks des LLM ces dernières années, a tissé un miracle pour les chercheurs, nous laissant croire que nous ne sommes qu'à quelques pas de surpasser l'intelligence humaine. Cependant, cette remarquable capacité de raisonnement des LLM provient-elle véritablement d'une intelligence au sens humain, ou se contentent-ils simplement de réciter des solutions rencontrées lors de leur entraînement à l'échelle d'Internet ? Pour étudier cette question, nous proposons RoR-Bench, un nouveau benchmark multimodal conçu pour détecter le comportement de récitation des LLM lorsqu'ils sont confrontés à des problèmes de raisonnement simples mais dont les conditions sont subtilement modifiées, et nous menons une analyse empirique sur notre benchmark. Étonnamment, nous avons constaté que les LLM de pointe existants présentent unanimement un comportement de récitation extrêmement prononcé ; en modifiant une seule expression dans la condition, des modèles de premier plan tels qu'OpenAI-o1 et DeepSeek-R1 peuvent subir une perte de performance de 60 % sur des problèmes d'arithmétique et de raisonnement de niveau école primaire. Ces découvertes constituent un appel à la vigilance pour la communauté des LLM, nous obligeant à réévaluer le véritable niveau d'intelligence des LLM de pointe.

YourBench : Des ensembles d'évaluation personnalisés accessibles à tous
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2, 2025
Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
213

L'évaluation efficace des grands modèles de langage (LLM) reste un goulot d'étranglement critique, car les benchmarks statiques traditionnels souffrent de saturation et de contamination, tandis que les évaluations humaines sont coûteuses et lentes. Cela entrave les évaluations opportunes ou spécifiques à un domaine, pourtant cruciales pour les applications réelles. Nous présentons YourBench, un nouveau framework open-source qui surmonte ces limites en permettant la génération dynamique et automatisée de benchmarks fiables, à jour et adaptés à des domaines spécifiques, à moindre coût et sans annotation manuelle, directement à partir de documents fournis par l'utilisateur. Nous démontrons son efficacité en reproduisant 7 sous-ensembles diversifiés de MMLU en utilisant un texte source minimal, pour un coût total d'inférence inférieur à 15 USD, tout en préservant parfaitement les classements relatifs des performances des modèles (Spearman Rho = 1) observés sur le benchmark original. Pour garantir que YourBench génère des données ancrées dans l'entrée fournie plutôt que de s'appuyer sur les connaissances paramétriques postérieures des modèles, nous introduisons également Tempora-0325, un nouveau jeu de données de plus de 7 000 documents diversifiés, publiés exclusivement après mars 2025. Notre analyse approfondie couvre 26 modèles de pointe issus de 7 grandes familles, avec des tailles variées (3 à 671 milliards de paramètres), pour valider la qualité des évaluations générées à travers des vérifications algorithmiques rigoureuses (par exemple, l'ancrage des citations) et des évaluations humaines. Nous mettons à disposition la bibliothèque YourBench, le jeu de données Tempora-0325, plus de 150 000 paires de questions-réponses basées sur Tempora, ainsi que toutes les traces d'évaluation et d'inférence, afin de faciliter la recherche reproductible et de permettre à la communauté de générer des benchmarks sur mesure à la demande, favorisant ainsi une évaluation des LLM plus pertinente et fiable.

Vers des agents d'interface graphique fiables : une étude approfondie
Towards Trustworthy GUI Agents: A Survey

Mar 30, 2025
Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu
213

Les agents d'interface graphique (GUI), alimentés par de grands modèles de base, peuvent interagir avec des interfaces numériques, permettant diverses applications dans l'automatisation web, la navigation mobile et les tests logiciels. Cependant, leur autonomie croissante a soulevé des préoccupations critiques concernant leur sécurité, confidentialité et sûreté. Cette étude examine la fiabilité des agents GUI selon cinq dimensions critiques : les vulnérabilités de sécurité, la fiabilité dans des environnements dynamiques, la transparence et l'explicabilité, les considérations éthiques et les méthodologies d'évaluation. Nous identifions également des défis majeurs tels que la vulnérabilité aux attaques adverses, les modes de défaillance en cascade dans la prise de décision séquentielle et le manque de benchmarks d'évaluation réalistes. Ces problèmes entravent non seulement le déploiement en conditions réelles, mais appellent également à des stratégies d'atténuation globales allant au-delà de la simple réussite des tâches. À mesure que les agents GUI se généralisent, l'établissement de normes de sécurité robustes et de pratiques de développement responsables devient essentiel. Cette étude fournit une base pour faire progresser les agents GUI fiables grâce à une compréhension systématique et à des recherches futures.

MixerMDM : Composition apprenable de modèles de diffusion pour le mouvement humain
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1, 2025
Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
192

La génération de mouvements humains guidés par des conditions telles que des descriptions textuelles est un défi en raison du besoin de jeux de données associant des mouvements de haute qualité à leurs conditions correspondantes. La difficulté s'accroît lorsqu'on vise un contrôle plus fin de la génération. À cette fin, des travaux antérieurs ont proposé de combiner plusieurs modèles de diffusion de mouvements pré-entraînés sur des jeux de données avec différents types de conditions, permettant ainsi un contrôle avec plusieurs conditions. Cependant, les stratégies de fusion proposées négligent le fait que la manière optimale de combiner les processus de génération pourrait dépendre des particularités de chaque modèle génératif pré-entraîné ainsi que des descriptions textuelles spécifiques. Dans ce contexte, nous introduisons MixerMDM, la première technique de composition de modèles apprenable pour combiner des modèles de diffusion de mouvements humains conditionnés par du texte et pré-entraînés. Contrairement aux approches précédentes, MixerMDM propose une stratégie de mélange dynamique qui est entraînée de manière antagoniste pour apprendre à combiner le processus de débruitage de chaque modèle en fonction de l'ensemble des conditions guidant la génération. En utilisant MixerMDM pour combiner des modèles de diffusion de mouvements individuels et multi-personnes, nous obtenons un contrôle granulaire sur la dynamique de chaque personne individuellement, ainsi que sur l'interaction globale. De plus, nous proposons une nouvelle technique d'évaluation qui, pour la première fois dans cette tâche, mesure la qualité de l'interaction et de l'individu en calculant l'alignement entre les mouvements générés mélangés et leurs conditions, ainsi que les capacités de MixerMDM à adapter le mélange tout au long du processus de débruitage en fonction des mouvements à mélanger.

OmniMMI : Un benchmark complet d'interaction multimodale dans les contextes de vidéo en streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29, 2025
Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
182

L'évolution rapide des modèles de langage multi-modaux (MLLMs) comme GPT-4o a propulsé le développement des modèles de langage Omni, conçus pour traiter et répondre de manière proactive à des flux continus de données multi-modales. Malgré leur potentiel, évaluer leurs capacités interactives en contexte réel dans des flux vidéo reste un défi de taille. Dans ce travail, nous présentons OmniMMI, un benchmark complet d'interaction multi-modale spécialement conçu pour les OmniLLMs dans des contextes de flux vidéo. OmniMMI englobe plus de 1 121 vidéos et 2 290 questions, abordant deux défis critiques mais encore peu explorés dans les benchmarks vidéo existants : la compréhension des flux vidéo et le raisonnement proactif, à travers six sous-tâches distinctes. De plus, nous proposons un nouveau cadre, le Modèle de Multiplexage Multi-modal (M4), conçu pour permettre un modèle de streaming efficace en inférence, capable de voir, écouter tout en générant.

Exploiter l'économie du raisonnement : Un panorama des méthodes de raisonnement efficace pour les grands modèles de langage
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31, 2025
Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong
172

Les récents progrès des modèles de langage à grande échelle (LLMs) ont considérablement amélioré leur capacité à effectuer des tâches de raisonnement complexes, passant d'une pensée rapide et intuitive (Système 1) à un raisonnement lent et approfondi (Système 2). Bien que le raisonnement de type Système 2 améliore la précision des tâches, il engendre souvent des coûts computationnels importants en raison de sa nature de pensée lente et de comportements de raisonnement inefficaces ou superflus. En revanche, le raisonnement de type Système 1 est computationnellement efficace, mais conduit à des performances sous-optimales. Par conséquent, il est crucial de trouver un équilibre entre les performances (avantages) et les coûts computationnels (budgets), donnant ainsi naissance au concept d'économie de raisonnement. Dans cette étude, nous proposons une analyse approfondie de l'économie de raisonnement aux étapes de post-entraînement et d'inférence en temps réel des LLMs, englobant i) les causes de l'inefficacité du raisonnement, ii) l'analyse des comportements des différents modèles de raisonnement, et iii) les solutions potentielles pour atteindre une économie de raisonnement. En offrant des perspectives exploitables et en mettant en lumière les défis ouverts, nous visons à éclairer les stratégies pour améliorer l'économie de raisonnement des LLMs, servant ainsi de ressource précieuse pour faire progresser la recherche dans ce domaine en évolution. Nous mettons également à disposition un référentiel public pour suivre continuellement les développements dans ce domaine en rapide mutation.

Quand Résoudre, Quand Vérifier : Résolution de Problèmes Optimisée en Calcul et Vérification Générative pour le Raisonnement des LLM
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1, 2025
Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach
151

L'augmentation du calcul au moment du test est devenue une stratégie clé pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), en particulier dans des tâches comme la résolution de problèmes mathématiques. Une approche traditionnelle, la cohérence interne (Self-Consistency, SC), génère plusieurs solutions à un problème et sélectionne la réponse la plus fréquente via un vote majoritaire. Une autre méthode courante consiste à évaluer chaque solution à l'aide d'un modèle de récompense (vérificateur) et à choisir la meilleure. Les avancées récentes dans les modèles de récompense génératifs (Generative Reward Models, GenRM) reformulent la vérification comme une tâche de prédiction du prochain jeton, permettant une mise à l'échelle au moment de l'inférence selon un nouvel axe. Plus précisément, GenRM génère plusieurs chaînes de raisonnement de vérification pour évaluer chaque solution. Sous un budget d'inférence limité, cela introduit un compromis fondamental : faut-il dépenser le budget pour augmenter le nombre de solutions via SC ou générer moins de solutions et allouer des ressources à la vérification via GenRM ? Pour répondre à cette question, nous évaluons GenRM par rapport à SC sous un budget d'inférence fixe. Fait intéressant, nous constatons que SC est plus efficace en termes de calcul que GenRM pour la plupart des budgets d'inférence pratiques, et ce, sur divers modèles et jeux de données. Par exemple, GenRM atteint d'abord les performances de SC après avoir consommé jusqu'à 8 fois plus de calcul d'inférence et nécessite beaucoup plus de ressources pour le surpasser. De plus, nous dérivons des lois de mise à l'échelle pour le paradigme GenRM, révélant qu'une inférence optimale en termes de calcul favorise une augmentation plus agressive de la génération de solutions que du nombre de vérifications. Notre travail fournit des conseils pratiques pour optimiser la mise à l'échelle au moment du test en équilibrant génération de solutions et vérification. Le code est disponible à l'adresse https://github.com/nishadsinghi/sc-genrm-scaling.

LLaMA-3.2-Vision efficace par élagage des caractéristiques visuelles croisées
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1, 2025
Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
152

La réduction des tokens visuels diminue les coûts d'inférence engendrés par les caractéristiques d'image étendues dans les grands modèles vision-langage (LVLMs). Contrairement aux études pertinentes qui élaguent les tokens dans les LVLMs basés uniquement sur l'auto-attention, notre travail aborde de manière unique les modèles basés sur l'attention croisée, qui offrent des performances supérieures. Nous identifions que la taille du cache clé-valeur (KV) pour les tokens d'image dans les couches d'attention croisée dépasse significativement celle des tokens de texte dans les couches d'auto-attention, constituant ainsi un goulot d'étranglement majeur en termes de calcul. Pour atténuer ce problème, nous exploitons la nature parcimonieuse des cartes d'attention croisée pour élaguer sélectivement les caractéristiques visuelles redondantes. Notre modèle Trimmed Llama réduit efficacement les besoins en cache KV sans nécessiter d'entraînement supplémentaire. En bénéficiant d'une réduction de 50 % des caractéristiques visuelles, notre modèle peut diminuer la latence d'inférence et l'utilisation de la mémoire tout en maintenant des performances équivalentes aux benchmarks.

AdaMMS : Fusion de modèles pour les grands modèles de langage multimodaux hétérogènes avec optimisation non supervisée des coefficients
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31, 2025
Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
113

Récemment, les méthodes de fusion de modèles ont démontré des capacités puissantes pour combiner les compétences sur diverses tâches issues de plusieurs grands modèles de langage (LLMs). Alors que les méthodes précédentes de fusion de modèles se concentraient principalement sur la fusion de modèles homogènes avec une architecture identique, elles rencontrent des difficultés lorsqu'il s'agit de traiter des grands modèles de langage multimodaux (MLLMs) présentant une propriété hétérogène inhérente, incluant des différences dans l'architecture des modèles et une asymétrie dans l'espace des paramètres. Dans ce travail, nous proposons AdaMMS, une nouvelle méthode de fusion de modèles conçue pour les MLLMs hétérogènes. Notre méthode aborde ces défis en trois étapes : cartographie, fusion et recherche. Plus précisément, nous concevons d'abord une fonction de cartographie entre les modèles pour appliquer la fusion de modèles sur des MLLMs avec des architectures différentes. Ensuite, nous appliquons une interpolation linéaire sur les poids des modèles pour s'adapter activement à l'asymétrie des MLLMs hétérogènes. Enfin, dans l'étape de recherche des hyperparamètres, nous proposons une méthode de sélection non supervisée des hyperparamètres pour la fusion de modèles. En tant que première méthode de fusion de modèles capable de fusionner des MLLMs hétérogènes sans données étiquetées, des expériences approfondies sur diverses combinaisons de modèles ont démontré qu'AdaMMS surpasse les méthodes précédentes de fusion de modèles sur divers benchmarks vision-langage.

m1 : Libérez le potentiel de la mise à l'échelle au moment du test pour le raisonnement médical avec les grands modèles de langage
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1, 2025
Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou
102

Le scaling au moment du test est apparu comme une technique puissante pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, son efficacité dans le raisonnement médical reste incertaine, car le domaine médical diffère fondamentalement des tâches mathématiques en termes de représentation des connaissances et de processus de prise de décision. Dans cet article, nous proposons la première investigation complète du scaling au moment du test pour le raisonnement médical et présentons m1, une approche simple mais efficace qui augmente la capacité de raisonnement médical d'un modèle lors de l'inférence. Notre évaluation sur diverses tâches médicales démontre que le scaling au moment du test améliore systématiquement le raisonnement médical, permettant à des modèles légers affinés de moins de 10 milliards de paramètres d'établir de nouvelles performances de pointe, tandis que notre modèle de 32 milliards rivalise avec les précédents modèles de langage médicaux à 70 milliards de paramètres. Cependant, nous identifions un budget optimal de tokens de raisonnement d'environ 4 000, au-delà duquel les performances peuvent se dégrader en raison d'une suranalyse. Le forçage de budget, qui étend le calcul au moment du test via des invites itératives, aide les modèles à revérifier les réponses mais n'améliore pas nécessairement la performance globale en question-réponse médicale et, dans certains cas, introduit même des erreurs dans des réponses précédemment correctes. Notre analyse au cas par cas identifie un manque de connaissances médicales comme un goulot d'étranglement clé qui empêche des gains de performance supplémentaires via le scaling au moment du test. Nous constatons qu'augmenter l'échelle des données, améliorer la qualité des données et étendre la capacité des modèles améliore systématiquement l'ancrage des connaissances médicales, permettant des améliorations continues des performances, en particulier sur des benchmarks médicaux difficiles où les modèles plus petits atteignent la saturation. Ces résultats soulignent les différences fondamentales entre le raisonnement médical et mathématique dans les modèles de langage, mettant en évidence qu'un enrichissement des connaissances médicales, plutôt qu'une simple augmentation de la profondeur de raisonnement, est essentiel pour réaliser les bénéfices du scaling au moment du test.

Mise à l'échelle au moment de l'inférence pour les tâches complexes : État des lieux et perspectives futures
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31, 2025
Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
102

La mise à l'échelle au moment de l'inférence peut améliorer les capacités de raisonnement des grands modèles de langage (LLMs) sur des problèmes complexes qui bénéficient d'une résolution étape par étape. Bien que l'allongement des brouillons générés se soit avéré efficace pour les tâches mathématiques, l'impact plus large de cette approche sur d'autres tâches reste moins clair. Dans ce travail, nous étudions les avantages et les limites des méthodes de mise à l'échelle à travers neuf modèles de pointe et huit tâches difficiles, incluant le raisonnement mathématique et STEM, la planification de calendrier, les problèmes NP-difficiles, la navigation et le raisonnement spatial. Nous comparons des modèles conventionnels (par exemple, GPT-4o) avec des modèles affinés pour la mise à l'échelle au moment de l'inférence (par exemple, o1) à travers des protocoles d'évaluation qui impliquent des appels répétés au modèle, soit de manière indépendante, soit séquentiellement avec retour d'information. Ces évaluations approchent les limites inférieures et supérieures de performance ainsi que le potentiel d'amélioration future pour chaque modèle, que ce soit par un entraînement amélioré ou des systèmes d'inférence multi-modèles. Notre analyse empirique approfondie révèle que les avantages de la mise à l'échelle au moment de l'inférence varient selon les tâches et diminuent à mesure que la complexité des problèmes augmente. De plus, l'utilisation de plus de tokens ne se traduit pas nécessairement par une précision accrue dans ces régimes difficiles. Les résultats de plusieurs exécutions indépendantes avec des modèles conventionnels utilisant des vérificateurs parfaits montrent que, pour certaines tâches, ces modèles peuvent atteindre des performances proches de la performance moyenne des modèles de raisonnement les plus avancés d'aujourd'hui. Cependant, pour d'autres tâches, un écart de performance significatif persiste, même dans des régimes de mise à l'échelle très élevés. De manière encourageante, tous les modèles montrent des gains significatifs lorsque l'inférence est davantage mise à l'échelle avec des vérificateurs parfaits ou des retours d'information forts, suggérant un potentiel important pour des améliorations futures.

Reasoning-SQL : Apprentissage par renforcement avec récompenses partielles adaptées au SQL pour un Text-to-SQL amélioré par le raisonnement
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29, 2025
Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
94

Text-to-SQL est une tâche complexe impliquant plusieurs sous-tâches nécessitant un raisonnement approfondi, notamment la compréhension du langage naturel, l'interprétation des schémas de base de données et la formulation précise de requêtes SQL. Les approches existantes reposent souvent sur des chemins de raisonnement manuellement conçus avec des biais inductifs qui peuvent limiter leur efficacité globale. Inspirés par les récents succès des modèles améliorés par le raisonnement tels que DeepSeek R1 et OpenAI o1, qui exploitent efficacement l'auto-exploration guidée par des récompenses pour renforcer les capacités de raisonnement et la généralisation, nous proposons un nouvel ensemble de récompenses partielles spécifiquement adaptées à la tâche Text-to-SQL. Notre ensemble de récompenses inclut le lien avec le schéma, le retour d'IA, la similarité n-gram et la vérification syntaxique, conçus explicitement pour résoudre le problème de rareté des récompenses dans l'apprentissage par renforcement (RL). En utilisant l'optimisation de politique relative par groupe (GRPO), notre approche encourage explicitement les grands modèles de langage (LLMs) à développer des compétences de raisonnement intrinsèques nécessaires pour générer des requêtes SQL précises. Avec des modèles de différentes tailles, nous démontrons que l'entraînement uniquement par RL avec nos récompenses proposées atteint systématiquement une précision plus élevée et une meilleure généralisation par rapport au réglage fin supervisé (SFT). De manière remarquable, notre modèle de 14 milliards de paramètres entraîné par RL surpasse significativement des modèles propriétaires plus grands, par exemple o3-mini de 4 % et Gemini-1.5-Pro-002 de 3 % sur le benchmark BIRD. Ces résultats mettent en évidence l'efficacité de notre cadre d'entraînement RL avec des récompenses partielles pour améliorer à la fois la précision et les capacités de raisonnement dans les tâches Text-to-SQL.

Chapter-Llama : Segmentation efficace de chapitres dans des vidéos d'une heure grâce aux LLM
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31, 2025
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
72

Nous abordons la tâche de chapitrage vidéo, c'est-à-dire la partition d'une longue vidéo en unités sémantiques et la génération de titres de chapitres correspondants. Bien que relativement peu exploré, le chapitrage automatique a le potentiel de permettre une navigation et une récupération de contenu efficaces dans les vidéos de longue durée. Dans cet article, nous obtenons de solides performances de chapitrage sur des vidéos d'une heure en traitant efficacement le problème dans le domaine textuel grâce à notre framework 'Chapter-Llama'. Plus précisément, nous exploitons un modèle de langage pré-entraîné (LLM) avec une grande fenêtre contextuelle, et fournissons en entrée (i) les transcriptions de parole et (ii) les légendes décrivant les images vidéo, ainsi que leurs horodatages respectifs. Étant donné l'inefficacité de légender exhaustivement toutes les images, nous proposons une stratégie légère de sélection d'images guidée par la parole basée sur le contenu des transcriptions, et démontrons expérimentalement des avantages remarquables. Nous entraînons le LLM à produire les horodatages des limites des chapitres, ainsi que des titres de chapitres libres. Cette approche simple mais puissante permet de traiter des vidéos d'une heure en une seule passe avant. Nos résultats montrent des améliorations substantielles (par exemple, un score F1 de 45,3 contre 26,7) par rapport à l'état de l'art sur le récent benchmark VidChapters-7M. Pour promouvoir la recherche, nous publions notre code et nos modèles sur notre page de projet.

Découvrir les lacunes de connaissances des modèles de langage sur une base de connaissances massive
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30, 2025
Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
62

Les grands modèles de langage (LLMs) possèdent des capacités linguistiques impressionnantes, mais échouent souvent à retenir fidèlement les connaissances factuelles, ce qui entraîne des hallucinations et des sorties peu fiables. Comprendre les lacunes de connaissances des LLMs en les évaluant exhaustivement par rapport à des bases de connaissances complètes est prohibitif en termes de calcul, en particulier pour les modèles à poids fermés. Nous proposons l'ascension stochastique des erreurs (SEA), un cadre évolutif et efficace pour découvrir les lacunes de connaissances (erreurs) dans les LLMs à poids fermés sous un budget de requêtes strict. Plutôt que de sonder naïvement tous les candidats de connaissances, SEA formule la découverte d'erreurs comme un processus d'optimisation stochastique : il récupère itérativement de nouveaux candidats à haute erreur en exploitant la similarité sémantique avec les échecs précédemment observés. Pour améliorer encore l'efficacité et la couverture de la recherche, SEA utilise une récupération hiérarchique aux niveaux du document et du paragraphe, et construit un graphe acyclique dirigé de relations pour modéliser la propagation des erreurs et identifier les modes d'échec systématiques. Empiriquement, SEA découvre 40,7 fois plus d'erreurs de connaissances que la Découverte Automatisée des Capacités et 26,7 % de plus qu'AutoBencher, tout en réduisant le coût par erreur de 599 fois et 9 fois, respectivement. L'évaluation humaine confirme la haute qualité des questions générées, tandis que les analyses d'ablation et de convergence valident la contribution de chaque composant de SEA. Une analyse plus approfondie des erreurs découvertes révèle des modèles d'échec corrélés à travers les familles de LLMs et des déficits récurrents, mettant en évidence la nécessité d'une meilleure couverture des données et d'un réglage fin ciblé dans le développement futur des LLMs.

ManipTrans : Transfert efficace de manipulation bimanuelle dextre via apprentissage résiduel
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27, 2025
Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang
52

Les mains humaines jouent un rôle central dans les interactions, motivant une recherche accrue sur la manipulation robotique dextre. Les algorithmes d'IA incarnée basés sur les données nécessitent des séquences de manipulation précises, à grande échelle et ressemblant à celles des humains, qui sont difficiles à obtenir avec l'apprentissage par renforcement conventionnel ou la téléopération dans le monde réel. Pour répondre à ce défi, nous introduisons ManipTrans, une nouvelle méthode en deux étapes pour transférer efficacement les compétences bimanuelles humaines à des mains robotiques dextres en simulation. ManipTrans commence par pré-entraîner un imitateur de trajectoire généraliste pour reproduire les mouvements de la main, puis affine un module résiduel spécifique sous des contraintes d'interaction, permettant un apprentissage efficace et une exécution précise de tâches bimanuelles complexes. Les expériences montrent que ManipTrans surpasse les méthodes de pointe en termes de taux de réussite, de fidélité et d'efficacité. En exploitant ManipTrans, nous transférons plusieurs ensembles de données main-objet à des mains robotiques, créant ainsi DexManipNet, un ensemble de données à grande échelle incluant des tâches jusque-là inexplorées comme le capuchonnage de stylos et le dévissage de bouteilles. DexManipNet comprend 3 300 épisodes de manipulation robotique et est facilement extensible, facilitant l'entraînement de politiques pour des mains dextres et permettant des déploiements dans le monde réel.

DiET-GS : Défloutage de mouvement assisté par flux d'événements et prior de diffusion pour le splatting 3D Gaussien
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31, 2025
Seungjun Lee, Gim Hee Lee
32

La reconstruction de représentations 3D nettes à partir d'images multivues floues constitue un problème de longue date en vision par ordinateur. Les travaux récents tentent d'améliorer la synthèse de nouvelles vues de haute qualité à partir du flou de mouvement en exploitant des caméras basées sur les événements, bénéficiant ainsi d'une plage dynamique élevée et d'une résolution temporelle de l'ordre de la microseconde. Cependant, ces approches atteignent souvent une qualité visuelle sous-optimale, soit en restaurant des couleurs imprécises, soit en perdant des détails fins. Dans cet article, nous présentons DiET-GS, une méthode de débruitage de mouvement 3DGS assistée par un flux d'événements et un a priori de diffusion. Notre cadre exploite efficacement à la fois les flux d'événements sans flou et l'a priori de diffusion dans une stratégie d'apprentissage en deux étapes. Plus précisément, nous introduisons un nouveau cadre pour contraindre la 3DGS avec une double intégrale d'événements, permettant d'obtenir à la fois des couleurs précises et des détails bien définis. De plus, nous proposons une technique simple pour exploiter l'a priori de diffusion afin d'améliorer davantage les détails des contours. Les résultats qualitatifs et quantitatifs sur des données synthétiques et réelles démontrent que notre DiET-GS est capable de produire des nouvelles vues de qualité significativement supérieure par rapport aux méthodes de référence existantes. Notre page de projet est disponible à l'adresse suivante : https://diet-gs.github.io

MB-ORES : Un raisonneur d'objets à branches multiples pour l'ancrage visuel en télédétection
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31, 2025
Karim Radouane, Hanane Azzag, Mustapha lebbah
22

Nous proposons un cadre unifié qui intègre la détection d'objets (OD) et l'ancrage visuel (VG) pour les images de télédétection (RS). Pour supporter l'OD conventionnelle et établir un a priori intuitif pour la tâche de VG, nous affinons un détecteur d'objets à ensemble ouvert en utilisant des données d'expressions référentielles, en le cadrant comme une tâche d'OD partiellement supervisée. Dans un premier temps, nous construisons une représentation graphique de chaque image, comprenant des requêtes d'objets, des embeddings de classe et des localisations de propositions. Ensuite, notre architecture adaptée à la tâche traite ce graphe pour effectuer la tâche de VG. Le modèle se compose de : (i) un réseau multi-branches qui intègre des caractéristiques spatiales, visuelles et catégorielles pour générer des propositions adaptées à la tâche, et (ii) un réseau de raisonnement sur les objets qui attribue des probabilités aux propositions, suivi d'un mécanisme de sélection douce pour la localisation finale de l'objet référent. Notre modèle démontre une performance supérieure sur les ensembles de données OPT-RSVG et DIOR-RSVG, obtenant des améliorations significatives par rapport aux méthodes de pointe tout en conservant les capacités classiques d'OD. Le code sera disponible dans notre dépôt : https://github.com/rd20karim/MB-ORES.

Apr 1
Apr 2
Apr 3