ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sera-t-il encore vrai demain ? Classification multilingue des questions pérennes pour améliorer la fiabilité des systèmes de question-réponse
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27, 2025
Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
1144

Les grands modèles de langage (LLMs) produisent souvent des hallucinations dans les tâches de question-réponse (QA). Un facteur clé mais encore peu exploré contribuant à ce phénomène est la temporalité des questions — c'est-à-dire si elles sont pérennes (les réponses restent stables dans le temps) ou mutables (les réponses changent). Dans ce travail, nous introduisons EverGreenQA, le premier ensemble de données multilingue de QA avec des étiquettes pérennes, permettant à la fois l'évaluation et l'entraînement. En utilisant EverGreenQA, nous évaluons 12 LLMs modernes pour déterminer s'ils encodent la temporalité des questions explicitement (via des jugements verbalisés) ou implicitement (via des signaux d'incertitude). Nous entraînons également EG-E5, un classifieur multilingue léger qui atteint des performances de pointe sur cette tâche. Enfin, nous démontrons l'utilité pratique de la classification pérenne à travers trois applications : l'amélioration de l'estimation de l'auto-connaissance, le filtrage des ensembles de données QA, et l'explication du comportement de récupération de GPT-4o.

La vérité dans le peu : sélection de données à haute valeur pour un raisonnement multimodal efficace
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Jun 5, 2025
Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
332

Bien que les modèles de langage multi-modaux (MLLMs) aient réalisé des progrès significatifs dans les tâches de raisonnement complexe grâce à l'apprentissage par renforcement, il est communément admis que des données d'entraînement étendues sont nécessaires pour améliorer la capacité de raisonnement multi-modal, entraînant inévitablement une redondance des données et des coûts de calcul substantiels. Cependant, des ensembles de données plus petits mais de haute valeur peuvent-ils égaler ou surpasser des corpus complets pour le raisonnement multi-modal dans les MLLMs ? Dans ce travail, nous remettons en question cette hypothèse grâce à une observation clé : un raisonnement multi-modal significatif est déclenché par seulement un sous-ensemble restreint d'échantillons d'entraînement, appelés échantillons cognitifs, tandis que la majorité contribue marginalement. En nous appuyant sur cette idée, nous proposons un nouveau paradigme de sélection de données appelé Potentiel d'Activation du Raisonnement (RAP), qui identifie les échantillons cognitifs en estimant le potentiel de chaque échantillon à stimuler un véritable raisonnement multi-modal grâce à deux estimateurs complémentaires : 1) l'Estimateur de Discrépance Causale (CDE), basé sur le principe du modèle des résultats potentiels, élimine les échantillons qui dépendent excessivement des a priori linguistiques en comparant les sorties entre les entrées multi-modales et textuelles uniquement ; 2) l'Estimateur de Confiance d'Attention (ACE), qui exploite l'auto-attention au niveau des tokens pour écarter les échantillons dominés par des tokens non pertinents mais sur-emphasés dans les étapes intermédiaires du raisonnement. De plus, nous introduisons un Module de Remplacement Sensible à la Difficulté (DRM) pour remplacer les instances triviales par des exemples cognitivement stimulants, assurant ainsi une complexité nécessaire pour un raisonnement multi-modal robuste. Les expériences menées sur six ensembles de données montrent que notre méthode RAP atteint systématiquement des performances supérieures en utilisant seulement 9,3 % des données d'entraînement, tout en réduisant les coûts de calcul de plus de 43 %. Notre code est disponible à l'adresse https://github.com/Leo-ssl/RAP.

Exploitation de l'auto-attention pour l'incitation contextuelle dépendante de l'entrée dans les LLM
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

Jun 5, 2025
Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay
322

La performance des grands modèles de langage dans des tâches spécifiques à un domaine nécessite un ajustement fin, qui est coûteux en calculs et techniquement complexe. Cet article se concentre sur l'ajustement fin efficace en termes de paramètres en utilisant l'incitation douce, une approche prometteuse qui adapte les modèles pré-entraînés à des tâches en aval en apprenant un petit ensemble de paramètres. Nous proposons une nouvelle technique d'Incitation Douce Dépendante de l'Entrée avec un Mécanisme d'Attention (ID-SPAM) qui génère des incitations douces basées sur les tokens d'entrée et accorde une importance variable à différents tokens. Notre méthode est simple et efficace, en maintenant un nombre réduit de paramètres entraînables. Nous démontrons les avantages de l'approche proposée par rapport aux techniques de pointe sur diverses tâches et montrons une capacité améliorée de transfert de domaine en zéro-shot.

PartCrafter : Génération de maillages 3D structurés via des transformeurs de diffusion latente compositionnelle
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Jun 5, 2025
Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
313

Nous présentons PartCrafter, le premier modèle génératif 3D structuré qui synthétise conjointement plusieurs maillages 3D sémantiquement significatifs et géométriquement distincts à partir d'une seule image RVB. Contrairement aux méthodes existantes qui produisent soit des formes 3D monolithiques, soit suivent des pipelines en deux étapes (c'est-à-dire, segmentant d'abord une image puis reconstruisant chaque segment), PartCrafter adopte une architecture générative unifiée et compositionnelle qui ne repose pas sur des entrées pré-segmentées. Conditionné par une seule image, il débruite simultanément plusieurs parties 3D, permettant une génération consciente des parties de manière end-to-end, aussi bien pour des objets individuels que pour des scènes multi-objets complexes. PartCrafter s'appuie sur un transformateur de diffusion de maillage 3D pré-entraîné (DiT) formé sur des objets entiers, héritant des poids pré-entraînés, de l'encodeur et du décodeur, et introduit deux innovations clés : (1) Un espace latent compositionnel, où chaque partie 3D est représentée par un ensemble de tokens latents désentrelacés ; (2) Un mécanisme d'attention hiérarchique qui permet un flux d'information structuré à la fois au sein des parties individuelles et entre toutes les parties, assurant une cohérence globale tout en préservant les détails au niveau des parties lors de la génération. Pour soutenir la supervision au niveau des parties, nous avons constitué un nouveau jeu de données en extrayant des annotations au niveau des parties à partir de grands ensembles de données d'objets 3D. Les expériences montrent que PartCrafter surpasse les approches existantes dans la génération de maillages 3D décomposables, y compris des parties qui ne sont pas directement visibles dans les images d'entrée, démontrant la puissance des a priori génératifs conscients des parties pour la compréhension et la synthèse 3D. Le code et les données d'entraînement seront publiés.

MORSE-500 : Un benchmark vidéo contrôlable par programmation pour tester en profondeur le raisonnement multimodal
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Jun 5, 2025
Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
312

Malgré les avancées rapides des modèles vision-langage (VLMs), les benchmarks actuels pour le raisonnement multimodal présentent trois lacunes majeures. Premièrement, ils reposent massivement sur des images statiques, ne parvenant pas à capturer la complexité temporelle des environnements réels. Deuxièmement, ils se concentrent étroitement sur la résolution de problèmes mathématiques, négligeant le spectre plus large des compétences de raisonnement — incluant les capacités abstraites, physiques, de planification, spatiales et temporelles — nécessaires pour une intelligence multimodale robuste. Troisièmement, de nombreux benchmarks atteignent rapidement un plafond, offrant un espace limité pour diagnostiquer les modes d'échec ou mesurer les progrès continus. Nous présentons MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark vidéo composé de 500 clips entièrement scénarisés avec des questions intégrées couvrant six catégories de raisonnement complémentaires. Chaque instance est générée de manière programmatique à l'aide de scripts Python déterministes (via Manim, Matplotlib, MoviePy), de modèles génératifs vidéo et de séquences réelles soigneusement sélectionnées. Cette conception pilotée par des scripts permet un contrôle précis de la complexité visuelle, de la densité des distracteurs et de la dynamique temporelle — permettant d'ajuster systématiquement la difficulté à mesure que les modèles s'améliorent. Contrairement aux benchmarks statiques qui deviennent obsolètes une fois saturés, MORSE-500 est conçu pour évoluer : son pipeline de génération contrôlable permet la création de nouvelles instances arbitrairement complexes, le rendant idéal pour tester les modèles de nouvelle génération. Les expériences initiales avec les systèmes de pointe — incluant diverses versions de Gemini 2.5 Pro et OpenAI o3, représentant les plus performants disponibles à l'époque, ainsi que des modèles open-source solides — révèlent des écarts de performance substantiels dans toutes les catégories, avec des déficits particulièrement marqués dans les tâches abstraites et de planification. Nous publions l'ensemble du dataset, les scripts de génération et le cadre d'évaluation pour soutenir une recherche transparente, reproductible et tournée vers l'avenir en raisonnement multimodal.

FusionAudio-1.2M : Vers une description audio fine avec fusion contextuelle multimodale
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Jun 1, 2025
Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
292

La génération de descriptions audio de haute qualité et à grande échelle est cruciale pour faire progresser la compréhension audio. Cependant, les méthodes automatisées actuelles produisent souvent des descriptions manquant de détails fins et de précision contextuelle, principalement en raison de leur dépendance à des informations unimodales limitées ou à des informations multimodales superficielles. S'inspirant de la perception auditive humaine, qui intègre habilement des indices intermodaux et effectue une analyse sophistiquée des scènes auditives, nous introduisons un nouveau pipeline automatisé en deux étapes. Ce pipeline utilise d'abord des modèles pré-entraînés spécialisés pour extraire divers indices contextuels (par exemple, la parole, la musique, les sons généraux et les informations visuelles provenant de vidéos associées). Un grand modèle de langage (LLM) synthétise ensuite ces entrées multimodales riches pour générer des descriptions audio détaillées et conscientes du contexte. Les contributions clés de ce travail incluent : (1) la méthode proposée pour la génération de descriptions audio fines et évolutives ; (2) FusionAudio, un nouveau jeu de données à grande échelle comprenant 1,2 million de descriptions détaillées, combinées à 6 millions de paires de questions-réponses ; et (3) des modèles audio améliorés développés à l'aide de FusionAudio, notamment un encodeur audio basé sur CLAP avec un alignement audio-texte et un suivi d'instructions supérieurs. Cet article ouvre la voie à une compréhension automatisée plus nuancée et précise des environnements audio complexes. Le code et les données sont disponibles sur https://github.com/satsuki2486441738/FusionAudio.

Sentinel : Modèle SOTA pour se protéger contre les injections de prompts
Sentinel: SOTA model to protect against prompt injections

Jun 5, 2025
Dror Ivry, Oran Nahum
222

Les modèles de langage de grande taille (LLMs) deviennent de plus en plus puissants mais restent vulnérables aux attaques par injection de prompts, où des entrées malveillantes amènent le modèle à s'écarter de ses instructions prévues. Cet article présente Sentinel, un nouveau modèle de détection, qualifire/prompt-injection-sentinel, basé sur l'architecture \answerdotai/ModernBERT-large. En exploitant les fonctionnalités avancées de ModernBERT et en affinant le modèle sur un vaste et diversifié ensemble de données comprenant quelques collections open-source et privées, Sentinel atteint des performances de pointe. Cet ensemble de données regroupe divers types d'attaques, allant du détournement de rôle et d'instructions aux tentatives de génération de contenu biaisé, ainsi qu'un large éventail d'instructions bénignes, avec des ensembles de données privés ciblant spécifiquement la correction d'erreurs nuancées et les erreurs de classification en conditions réelles. Sur un ensemble de test interne complet et inédit, Sentinel démontre une précision moyenne de 0,987 et un score F1 de 0,980. De plus, lorsqu'il est évalué sur des benchmarks publics, il surpasse systématiquement des modèles de référence solides comme protectai/deberta-v3-base-prompt-injection-v2. Ce travail détaille l'architecture de Sentinel, la curation méticuleuse de son ensemble de données, sa méthodologie d'entraînement, et une évaluation approfondie, mettant en avant ses capacités de détection supérieures.

L'extension de la modalité est-elle la voie appropriée vers l'omni-modalité ?
Is Extending Modality The Right Path Towards Omni-Modality?

Jun 2, 2025
Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
202

Les modèles de langage omni-modaux (OLMs) visent à intégrer et à raisonner sur des modalités d'entrée diverses—telles que le texte, les images, la vidéo et l'audio—tout en conservant de solides capacités linguistiques. Malgré les avancées récentes, les modèles existants, en particulier ceux open-source, restent loin d'une véritable omni-modalité, peinant à généraliser au-delà des paires de modalités spécifiques sur lesquelles ils sont entraînés ou à obtenir de bonnes performances lors du traitement d'entrées multi-modales. Nous étudions l'effet de l'extension de modalité, la technique dominante pour l'entraînement des modèles multimodaux, où un modèle de langage prêt à l'emploi est affiné sur des données du domaine cible et linguistiques. Plus précisément, nous examinons trois questions clés : (1) L'extension de modalité compromet-elle les capacités linguistiques fondamentales ? (2) La fusion de modèles peut-elle intégrer efficacement des modèles spécifiques à une modalité affinés indépendamment pour atteindre l'omni-modalité ? (3) L'extension omni-modale conduit-elle à un meilleur partage des connaissances et à une meilleure généralisation par rapport à l'extension séquentielle ? À travers des expériences approfondies, nous analysons ces compromis et fournissons des insights sur la faisabilité d'atteindre une véritable omni-modalité en utilisant les approches actuelles.

STARFlow : Mise à l'échelle des flux normalisants latents pour la synthèse d'images haute résolution
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jun 6, 2025
Jiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai
182

Nous présentons STARFlow, un modèle génératif scalable basé sur les flux normalisés qui atteint des performances élevées en synthèse d'images haute résolution. Le cœur de STARFlow est le Transformer Autoregressive Flow (TARFlow), qui combine la puissance expressive des flux normalisés avec les capacités de modélisation structurée des Transformers Autoregressifs. Nous établissons d'abord l'universalité théorique de TARFlow pour la modélisation de distributions continues. Sur cette base, nous introduisons plusieurs innovations architecturales et algorithmiques clés pour améliorer significativement la scalabilité : (1) une conception profonde-superficielle, où un bloc Transformer profond capture la majeure partie de la capacité de représentation du modèle, complété par quelques blocs Transformers superficiels qui sont efficaces sur le plan computationnel tout en étant substantiellement bénéfiques ; (2) une modélisation dans l'espace latent d'autoencodeurs pré-entraînés, qui s'avère plus efficace qu'une modélisation directe au niveau des pixels ; et (3) un nouvel algorithme de guidage qui améliore significativement la qualité des échantillons. De manière cruciale, notre modèle reste un flux normalisé de bout en bout, permettant un entraînement par maximum de vraisemblance exact dans des espaces continus sans discrétisation. STARFlow atteint des performances compétitives dans les tâches de génération d'images conditionnées par classe et par texte, approchant la qualité des échantillons des modèles de diffusion de pointe. À notre connaissance, ce travail constitue la première démonstration réussie de flux normalisés opérant efficacement à cette échelle et cette résolution.

Modèle du Monde Médical : Simulation Générative de l'Évolution Tumorale pour la Planification Thérapeutique
Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

Jun 2, 2025
Yijun Yang, Zhao-Yang Wang, Qiuping Liu, Shuwen Sun, Kang Wang, Rama Chellappa, Zongwei Zhou, Alan Yuille, Lei Zhu, Yu-Dong Zhang, Jieneng Chen
162

Fournir des traitements efficaces et prendre des décisions cliniques éclairées sont des objectifs essentiels de la médecine moderne et des soins cliniques. Nous nous intéressons à la simulation des dynamiques des maladies pour la prise de décision clinique, en exploitant les avancées récentes des grands modèles génératifs. À cette fin, nous présentons le Medical World Model (MeWM), le premier modèle de monde en médecine qui prédit visuellement les états futurs des maladies en fonction des décisions cliniques. MeWM comprend (i) des modèles vision-langage servant de modèles de politique, et (ii) des modèles génératifs de tumeurs comme modèles de dynamique. Le modèle de politique génère des plans d'action, tels que des traitements cliniques, tandis que le modèle de dynamique simule la progression ou la régression des tumeurs sous des conditions de traitement données. Sur cette base, nous proposons le modèle de dynamique inverse qui applique l'analyse de survie à la tumeur simulée post-traitement, permettant d'évaluer l'efficacité du traitement et de sélectionner le plan d'action clinique optimal. En conséquence, le MeWM proposé simule les dynamiques des maladies en synthétisant des tumeurs post-traitement, avec une spécificité de pointe dans les tests de Turing évalués par des radiologues. Parallèlement, son modèle de dynamique inverse surpasse les GPT spécialisés en médecine dans l'optimisation des protocoles de traitement individualisés sur tous les critères. Notamment, MeWM améliore la prise de décision clinique pour les médecins interventionnels, augmentant le score F1 dans la sélection du protocole TACE optimal de 13%, ouvrant la voie à une future intégration des modèles de monde médicaux comme seconds lecteurs.

Modèles de langage à grande échelle sensibles à l'audio comme évaluateurs des styles d'expression orale
Audio-Aware Large Language Models as Judges for Speaking Styles

Jun 6, 2025
Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
144

Les modèles de langage de grande taille conscients de l'audio (ALLMs) peuvent comprendre les informations textuelles et non textuelles contenues dans les entrées audio. Dans cet article, nous explorons l'utilisation des ALLMs comme juges automatiques pour évaluer les styles d'élocution des discours. Nous utilisons des juges ALLMs pour évaluer les discours générés par des modèles de langage parlés (SLMs) sur deux tâches : le suivi d'instructions de style vocal et le jeu de rôle. Le style d'élocution que nous considérons inclut l'émotion, le volume, le rythme de parole, l'accentuation des mots, le contrôle de la hauteur et les éléments non verbaux. Nous utilisons quatre modèles de langage parlés (SLMs) pour accomplir ces deux tâches et faisons appel à des humains et à des ALLMs pour juger les réponses des SLMs. Nous comparons deux juges ALLMs, GPT-4o-audio et Gemini-2.5-pro, avec les résultats d'évaluation humaine et montrons que l'accord entre Gemini et les juges humains est comparable à l'accord entre évaluateurs humains. Ces résultats prometteurs montrent que les ALLMs peuvent être utilisés comme juges pour évaluer les SLMs. Nos résultats révèlent également que les SLMs actuels, y compris GPT-4o-audio, ont encore des marges d'amélioration dans le contrôle du style d'élocution et la génération de dialogues naturels.

CodeContests+ : Génération de cas de test de haute qualité pour la programmation compétitive
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Jun 6, 2025
Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
82

La programmation compétitive, en raison de sa difficulté de raisonnement élevée et de ses retours d'évaluation précis, est devenue une tâche clé pour à la fois entraîner et évaluer les capacités de raisonnement des grands modèles de langage (LLMs). Cependant, bien qu'une grande quantité de données publiques sur les problèmes, telles que les énoncés et les solutions, soit disponible, les cas de test de ces problèmes sont souvent difficiles à obtenir. Par conséquent, la génération de cas de test est une tâche nécessaire pour la construction de jeux de données à grande échelle, et la qualité des cas de test détermine directement la précision de l'évaluation. Dans cet article, nous présentons un système d'agents basé sur des LLMs qui crée des cas de test de haute qualité pour les problèmes de programmation compétitive. Nous appliquons ce système au jeu de données CodeContests et proposons une nouvelle version avec des cas de test améliorés, nommée CodeContests+. Nous avons évalué la qualité des cas de test dans CodeContests+. Tout d'abord, nous avons utilisé 1,72 million de soumissions avec des étiquettes de réussite/échec pour examiner la précision de ces cas de test dans l'évaluation. Les résultats ont indiqué que CodeContests+ atteint une précision significativement plus élevée que CodeContests, en particulier avec un taux de vrais positifs (TVP) nettement supérieur. Par la suite, nos expériences en apprentissage par renforcement (RL) avec des LLMs ont confirmé que les améliorations de la qualité des cas de test apportent des avantages considérables pour le RL.

Précision Classée par les Pairs : Création d'un Ensemble de Données Fondamental pour le Réglage Fin de Modèles de Vision à partir des Images Annotées de DataSeeds
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Jun 6, 2025
Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz
82

Le développement des modèles modernes d'Intelligence Artificielle (IA), en particulier les modèles basés sur la diffusion utilisés dans les tâches de vision par ordinateur et de génération d'images, est en train de subir un changement paradigmatique dans les méthodologies de développement. Traditionnellement dominé par une approche « centrée sur le modèle », où les gains de performance étaient principalement recherchés à travers des architectures de modèles de plus en plus complexes et une optimisation des hyperparamètres, le domaine reconnaît désormais une approche plus nuancée, « centrée sur les données ». Ce cadre émergent met en avant la qualité, la structure et la pertinence des données d'entraînement comme principal moteur de la performance des modèles. Pour opérationnaliser ce changement de paradigme, nous introduisons l'ensemble de données d'échantillons DataSeeds.AI (le « DSD »), initialement composé d'environ 10 610 images photographiques de haute qualité classées par des pairs humains et accompagnées d'annotations multi-niveaux approfondies. Le DSD est un ensemble de données fondamental pour la vision par ordinateur, conçu pour établir une nouvelle norme pour les ensembles de données d'images commerciales. Représentant une petite fraction du catalogue de plus de 100 millions d'images de DataSeed.AI, le DSD fournit une base scalable nécessaire au développement robuste de l'IA commerciale et multimodale. À travers cette analyse exploratoire approfondie, nous documentons les améliorations quantitatives générées par le DSD sur des modèles spécifiques par rapport à des benchmarks connus, et rendons publics le code ainsi que les modèles entraînés utilisés dans notre évaluation.

Relier les perspectives : Une étude sur l'intelligence collaborative inter-vues avec la vision égocentrique et exocentrique
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Jun 6, 2025
Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato
72

Percevoir le monde à la fois d'un point de vue égocentrique (première personne) et exocentrique (troisième personne) est fondamental pour la cognition humaine, permettant une compréhension riche et complémentaire des environnements dynamiques. Ces dernières années, permettre aux machines d'exploiter le potentiel synergique de ces deux perspectives est devenu une direction de recherche prometteuse dans le domaine de la compréhension vidéo. Dans cette revue, nous proposons une analyse exhaustive de la compréhension vidéo à partir des points de vue égocentrique et exocentrique. Nous commençons par mettre en lumière les applications pratiques de l'intégration des techniques égocentriques et exocentriques, en envisageant leur collaboration potentielle à travers divers domaines. Nous identifions ensuite les principales tâches de recherche nécessaires pour concrétiser ces applications. Ensuite, nous organisons et passons en revue systématiquement les avancées récentes en trois grandes directions de recherche : (1) exploiter les données égocentriques pour améliorer la compréhension exocentrique, (2) utiliser les données exocentriques pour enrichir l'analyse égocentrique, et (3) les cadres d'apprentissage conjoint qui unifient les deux perspectives. Pour chaque direction, nous analysons un ensemble varié de tâches et d'œuvres pertinentes. De plus, nous discutons des ensembles de données de référence qui soutiennent la recherche dans les deux perspectives, en évaluant leur portée, leur diversité et leur applicabilité. Enfin, nous abordons les limites des travaux actuels et proposons des directions de recherche futures prometteuses. En synthétisant les insights des deux perspectives, notre objectif est d'inspirer des avancées dans la compréhension vidéo et l'intelligence artificielle, rapprochant les machines d'une perception du monde semblable à celle des humains. Un dépôt GitHub des travaux connexes est disponible à l'adresse suivante : https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.

Projection de Scènes Physiques : Réalité à Simulation de Bout en Bout à partir de Données Robotiques Imparfaites
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

Jun 4, 2025
Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
72

La création de simulations physiques précises directement à partir des mouvements réels de robots présente une grande valeur pour un apprentissage robotique sûr, évolutif et abordable, mais reste exceptionnellement difficile. Les données issues de robots réels souffrent d'occlusions, de poses de caméra bruitées et d'éléments dynamiques dans la scène, ce qui entrave la création de jumeaux numériques géométriquement précis et photoréalistes d'objets non observés. Nous introduisons un nouveau cadre réel-vers-sim qui relève simultanément tous ces défis. Notre idée clé repose sur une représentation hybride de la scène, combinant le rendu photoréaliste du *3D Gaussian Splatting* avec des maillages d'objets explicites adaptés à la simulation physique, le tout au sein d'une seule représentation. Nous proposons un pipeline d'optimisation de bout en bout qui exploite le rendu différentiable et la physique différentiable au sein de MuJoCo pour affiner conjointement tous les composants de la scène – de la géométrie et de l'apparence des objets aux poses du robot et aux paramètres physiques – directement à partir de trajectoires robotiques brutes et imprécises. Cette optimisation unifiée nous permet d'atteindre simultanément une reconstruction de maillage d'objet de haute fidélité, de générer des vues nouvelles photoréalistes et de réaliser une calibration des poses du robot sans annotation. Nous démontrons l'efficacité de notre approche à la fois en simulation et sur des séquences réelles complexes en utilisant un manipulateur bimanuel ALOHA 2, permettant ainsi des pipelines réel-vers-simulation plus pratiques et robustes.

3DFlowAction : Apprentissage de la manipulation inter-embodiment à partir d'un modèle de monde de flux 3D
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

Jun 6, 2025
Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
52

La manipulation a longtemps été une tâche complexe pour les robots, alors que les humains peuvent effectuer sans effort des interactions complexes avec des objets, comme accrocher une tasse sur un porte-mug. Une raison clé est l'absence d'un ensemble de données vaste et uniforme pour enseigner les compétences de manipulation aux robots. Les ensembles de données robotiques actuels enregistrent souvent les actions des robots dans différents espaces d'action au sein d'une scène simple. Cela empêche le robot d'apprendre une représentation d'action unifiée et robuste pour différents robots dans des scènes variées. En observant comment les humains comprennent une tâche de manipulation, nous constatons que comprendre comment les objets doivent se déplacer dans l'espace 3D est un indice crucial pour guider les actions. Cet indice est indépendant de l'incarnation et convient à la fois aux humains et à différents robots. Motivés par cela, nous visons à apprendre un modèle de monde de flux 3D à partir de données de manipulation humaines et robotiques. Ce modèle prédit le mouvement futur des objets en interaction dans l'espace 3D, guidant la planification des actions pour la manipulation. Plus précisément, nous synthétisons un ensemble de données de flux optique 3D à grande échelle, nommé ManiFlow-110k, via un pipeline de détection automatique d'objets en mouvement. Un modèle de monde basé sur la diffusion vidéo apprend ensuite la physique de la manipulation à partir de ces données, générant des trajectoires de flux optique 3D conditionnées par des instructions linguistiques. Avec le flux optique 3D généré, nous proposons un mécanisme de rendu guidé par le flux, qui rend l'état final prédit et utilise GPT-4o pour évaluer si le flux prédit correspond à la description de la tâche. Cela équipe le robot d'une capacité de planification en boucle fermée. Enfin, nous considérons le flux optique 3D prédit comme des contraintes pour une politique d'optimisation afin de déterminer une série d'actions robotiques pour la manipulation. Des expériences approfondies démontrent une forte généralisation à travers diverses tâches de manipulation robotique et une adaptation fiable entre différentes incarnations sans entraînement spécifique au matériel.

MIRIAD : Amélioration des LLM grâce à des millions de paires requête-réponse médicales
MIRIAD: Augmenting LLMs with millions of medical query-response pairs

Jun 6, 2025
Qinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor
52

Les LLM (modèles de langage de grande taille) sont appelés à transformer les soins de santé grâce à un support décisionnel avancé et à des assistants conversationnels flexibles. Cependant, les LLM ont tendance à générer des contenus médicaux inexacts. Pour ancrer les LLM dans des connaissances médicales de haute qualité, ils ont été équipés de connaissances externes via RAG (Retrieval-Augmented Generation), où les connaissances médicales non structurées sont divisées en petits segments de texte pouvant être sélectivement récupérés et intégrés dans le contexte des LLM. Pourtant, les pipelines RAG existants reposent sur des textes médicaux bruts et non structurés, qui peuvent être bruyants, non vérifiés et difficiles à exploiter efficacement par les LLM. Les approches systématiques pour organiser les connaissances médicales afin de les rendre plus accessibles aux LLM font généralement défaut. Pour relever ces défis, nous présentons MIRIAD, un corpus à grande échelle et soigneusement organisé de 5 821 948 paires de questions-réponses médicales, chacune reformulée et ancrée dans un passage de la littérature médicale évaluée par des pairs, grâce à un pipeline semi-automatisé combinant génération par LLM, filtrage, ancrage et annotation humaine. Contrairement aux corpus médicaux précédents, qui reposent sur du texte non structuré, MIRIAD encapsule des connaissances médicales à l'échelle du web dans un format opérationnel de question-réponse, permettant une récupération plus ciblée. Les expériences sur des benchmarks exigeants de questions-réponses médicales montrent que l'augmentation des LLM avec MIRIAD améliore la précision jusqu'à 6,7 % par rapport aux bases de référence RAG non structurées utilisant le même corpus source et la même quantité de texte récupéré. De plus, MIRIAD a amélioré la capacité des LLM à détecter les hallucinations médicales de 22,5 à 37 % (augmentation du score F1). Nous introduisons également MIRIAD-Atlas, une carte interactive de MIRIAD couvrant 56 disciplines médicales, permettant aux utilisateurs cliniques d'explorer, de rechercher et d'affiner visuellement les connaissances médicales. MIRIAD promet de débloquer une multitude d'applications en aval, notamment des systèmes de recherche d'informations médicales, des applications RAG améliorées et des interfaces conversationnelles ancrées dans la connaissance, permettant finalement des applications LLM plus fiables dans le domaine de la santé.

HASHIRU : Système d'Agents Hiérarchique pour l'Utilisation Hybride Intelligente des Ressources
HASHIRU: Hierarchical Agent System for Hybrid Intelligent Resource Utilization

Jun 1, 2025
Kunal Pai, Parth Shah, Harshil Patel
52

Les avancées rapides des modèles de langage de grande taille (LLM) stimulent le développement des systèmes multi-agents (MAS) autonomes. Cependant, les cadres actuels manquent souvent de flexibilité, de conscience des ressources, de diversité de modèles et de création autonome d'outils. Cet article présente HASHIRU (Hierarchical Agent System for Hybrid Intelligent Resource Utilization), un nouveau cadre MAS qui améliore la flexibilité, l'efficacité des ressources et l'adaptabilité. HASHIRU intègre un agent "PDG" gérant dynamiquement des agents spécialisés "employés", instanciés en fonction des besoins des tâches et des contraintes de ressources (coût, mémoire). Son intelligence hybride privilégie les LLM plus petits et locaux (via Ollama) tout en utilisant de manière flexible des API externes et des modèles plus grands lorsque nécessaire. Un modèle économique avec des coûts d'embauche/licenciement favorise la stabilité de l'équipe et l'allocation efficace des ressources. Le système inclut également une création autonome d'outils API et une fonction de mémoire. Les évaluations sur des tâches telles que la revue d'articles académiques (58 % de réussite), les évaluations de sécurité (100 % sur un sous-ensemble de JailbreakBench) et le raisonnement complexe (surpassant Gemini 2.0 Flash sur GSM8K : 96 % contre 61 % ; JEEBench : 80 % contre 68,3 % ; SVAMP : 92 % contre 84 %) démontrent les capacités de HASHIRU. Des études de cas illustrent son auto-amélioration via la génération autonome de modèles de coûts, l'intégration d'outils et la gestion budgétaire. HASHIRU propose une approche prometteuse pour des MAS plus robustes, efficaces et adaptables grâce à un contrôle hiérarchique dynamique, une intelligence hybride consciente des ressources et une extension fonctionnelle autonome. Le code source et les benchmarks sont disponibles respectivement sur https://github.com/HASHIRU-AI/HASHIRU et https://github.com/HASHIRU-AI/HASHIRUBench, et une démonstration en direct est accessible sur https://hashiruagentx-hashiruai.hf.space sur demande.

Quand la sémantique égare la vision : Atténuer les hallucinations des grands modèles multimodaux dans la détection et la compréhension du texte scénique
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Jun 5, 2025
Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
42

Les modèles multimodaux de grande taille (LMMs) ont réalisé des progrès impressionnants en perception visuelle et en raisonnement. Cependant, lorsqu'ils sont confrontés à du texte de scène visuellement ambigu ou non sémantique, ils ont souvent du mal à repérer et à comprendre le contenu avec précision, générant fréquemment des réponses sémantiquement plausibles mais visuellement incorrectes, ce que nous appelons hallucination sémantique. Dans ce travail, nous étudions les causes sous-jacentes de l'hallucination sémantique et identifions un constat clé : les couches Transformer dans les LLM qui accordent une attention plus forte aux régions de texte de scène sont moins susceptibles de produire des hallucinations sémantiques. Ainsi, nous proposons un cadre de mitigation de l'hallucination sémantique sans entraînement, comprenant deux composants clés : (1) ZoomText, une stratégie grossière à fine qui identifie les régions de texte potentielles sans détecteurs externes ; et (2) Grounded Layer Correction, qui exploite de manière adaptative les représentations internes des couches moins sujettes à l'hallucination pour guider le décodage, corrigeant les sorties hallucinées pour les échantillons non sémantiques tout en préservant la sémantique des échantillons significatifs. Pour permettre une évaluation rigoureuse, nous introduisons TextHalu-Bench, un benchmark de plus de 1 730 échantillons couvrant à la fois des cas sémantiques et non sémantiques, avec des paires question-réponse soigneusement conçues pour explorer les hallucinations des modèles. Des expériences approfondies démontrent que notre méthode non seulement atténue efficacement l'hallucination sémantique, mais obtient également de solides performances sur les benchmarks publics pour la détection et la compréhension du texte de scène.

Prefix Grouper : Entraînement efficace de GRPO via le partage de préfixes en propagation avant
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Jun 5, 2025
Zikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu
42

L'Optimisation de Politique Relative par Groupe (GRPO) améliore l'apprentissage de politiques en calculant des gradients à partir de comparaisons relatives entre des sorties candidates partageant un préfixe d'entrée commun. Malgré son efficacité, GRPO introduit une surcharge computationnelle importante lors du traitement de longs préfixes partagés, qui doivent être encodés de manière redondante pour chaque membre du groupe. Cette inefficacité devient un goulot d'étranglement majeur pour la scalabilité dans les scénarios d'apprentissage à contexte long. Nous proposons Prefix Grouper, un algorithme d'entraînement GRPO efficace qui élimine le calcul redondant des préfixes via une stratégie de Forward à Préfixe Partagé. En particulier, en restructurant l'auto-attention en deux parties, notre méthode permet d'encoder le préfixe partagé une seule fois, tout en préservant la différentiabilité complète et la compatibilité avec l'entraînement de bout en bout. Nous fournissons des preuves théoriques et empiriques que Prefix Grouper est équivalent en entraînement au GRPO standard : il produit des sorties avant et des gradients arrière identiques, garantissant que la dynamique d'optimisation et les performances finales de la politique restent inchangées. Empiriquement, nos expériences confirment que Prefix Grouper obtient des résultats cohérents tout en réduisant significativement le coût computationnel de l'entraînement, en particulier dans les scénarios à long préfixe. La méthode proposée est entièrement plug-and-play : elle est compatible avec les architectures existantes basées sur GRPO et peut être intégrée de manière transparente dans les pipelines d'entraînement actuels en tant que remplacement direct, sans nécessiter de modifications structurelles et seulement des changements minimaux dans la construction des entrées et le calcul de l'attention. Prefix Grouper permet l'utilisation de tailles de groupe plus importantes sous le même budget computationnel, améliorant ainsi la scalabilité de GRPO pour des tâches plus complexes et des modèles plus grands. Le code est désormais disponible à l'adresse https://github.com/johncaged/PrefixGrouper.

Quand les modèles en savent plus qu'ils ne peuvent expliquer : Quantifier le transfert de connaissances dans la collaboration humain-IA
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Jun 5, 2025
Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan
32

Les récents progrès en matière de raisonnement par IA ont entraîné des améliorations substantielles dans diverses tâches. Une question ouverte cruciale est de savoir si ces améliorations conduisent également à un meilleur transfert de connaissances : la capacité des modèles à communiquer leur raisonnement de manière compréhensible, applicable et instructive pour les humains. Pour explorer cette question, nous introduisons l'évaluation de l'intégration et du transfert de connaissances (Knowledge Integration and Transfer Evaluation, KITE), un cadre conceptuel et expérimental pour mesurer les capacités de transfert de connaissances entre humains et IA, et nous menons la première étude à grande échelle (N=118) explicitement conçue pour l'évaluer. Dans notre dispositif en deux phases, les humains élaborent d'abord des stratégies de résolution de problèmes avec une IA, puis mettent en œuvre des solutions de manière indépendante, isolant ainsi l'influence des explications du modèle sur la compréhension humaine. Nos résultats révèlent que, bien que la performance des modèles aux benchmarks soit corrélée aux résultats collaboratifs, cette relation est notablement inconstante, avec des outliers significatifs, indiquant que le transfert de connaissances nécessite une optimisation dédiée. Notre analyse identifie des facteurs comportementaux et stratégiques qui médiatisent un transfert de connaissances réussi. Nous publions notre code, notre jeu de données et notre cadre d'évaluation pour soutenir les travaux futurs sur des modèles alignés sur la communication.

GuideX : Génération guidée de données synthétiques pour l'extraction d'information en contexte zero-shot
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31, 2025
Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
32

Les systèmes d'Extraction d'Information (IE) sont traditionnellement spécifiques à un domaine, nécessitant une adaptation coûteuse qui implique la conception de schémas par des experts, l'annotation de données et l'entraînement de modèles. Bien que les modèles de langage de grande taille aient montré des résultats prometteurs en IE zero-shot, leurs performances se dégradent significativement dans des domaines non vus où les définitions des étiquettes diffèrent. Cet article présente GUIDEX, une méthode novatrice qui définit automatiquement des schémas spécifiques à un domaine, infère des directives et génère des instances synthétiquement étiquetées, permettant une meilleure généralisation hors domaine. Le fine-tuning de Llama 3.1 avec GUIDEX établit un nouvel état de l'art sur sept benchmarks de Reconnaissance d'Entités Nommées (NER) zero-shot. Les modèles entraînés avec GUIDEX gagnent jusqu'à 7 points F1 par rapport aux méthodes précédentes sans données annotées manuellement, et près de 2 points F1 supplémentaires lorsqu'ils sont combinés avec ces données. Les modèles entraînés sur GUIDEX démontrent une meilleure compréhension des schémas d'annotation complexes et spécifiques à un domaine. Le code, les modèles et les ensembles de données synthétiques sont disponibles sur neilus03.github.io/guidex.com.

Les modèles d'état espace éparsifiés sont des réseaux autoroutiers efficaces.
Sparsified State-Space Models are Efficient Highway Networks

May 27, 2025
Woomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin
22

Les modèles à espace d'états (SSMs) offrent une architecture prometteuse pour la modélisation de séquences, constituant une alternative aux Transformers en remplaçant l'auto-attention coûteuse par des récurrences linéaires. Dans cet article, nous proposons une astuce simple mais efficace pour améliorer les SSMs dans des budgets de calcul donnés en les rendant parcimonieux. Notre intuition est que les tokens dans les SSMs sont hautement redondants en raison des mises à jour récurrentes graduelles, et que les opérations de récurrence dense bloquent la transmission des informations passées. En particulier, nous observons que les couches supérieures des SSMs ont tendance à être plus redondantes car elles encodent des informations globales, tandis que les couches inférieures encodent des informations locales. Motivés par cela, nous introduisons Simba, une méthode de parcimonie hiérarchique pour les SSMs basée sur l'élagage de tokens. Simba rend les couches supérieures plus parcimonieuses que les couches inférieures, encourageant les couches supérieures à se comporter comme des autoroutes. Pour y parvenir, nous proposons un nouveau critère d'élagage de tokens pour les SSMs, mesurant l'impact global des tokens sur la sortie finale en accumulant les récurrences locales. Nous démontrons que Simba surpasse le modèle de référence, Mamba, avec le même nombre de FLOPS dans diverses tâches de traitement du langage naturel. De plus, nous illustrons l'effet des autoroutes, montrant que Simba améliore non seulement l'efficacité mais aussi le flux d'information à travers les longues séquences. Le code est disponible à l'adresse https://github.com/woominsong/Simba.

AssetOpsBench : Évaluation comparative des agents d'IA pour l'automatisation des tâches dans les opérations et la maintenance des actifs industriels
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance

Jun 4, 2025
Dhaval Patel, Shuxin Lin, James Rayfield, Nianjun Zhou, Roman Vaculin, Natalia Martinez, Fearghal O'donncha, Jayant Kalagnanam
12

L'IA pour la gestion du cycle de vie des actifs industriels vise à automatiser les flux de travail opérationnels complexes -- tels que la surveillance des conditions, la planification de la maintenance et la programmation des interventions -- afin de réduire la charge de travail humaine et de minimiser les temps d'arrêt du système. Les approches traditionnelles d'IA/ML ont principalement abordé ces problèmes de manière isolée, en résolvant des tâches spécifiques au sein du pipeline opérationnel global. En revanche, l'émergence des agents d'IA et des grands modèles de langage (LLM) introduit une opportunité de nouvelle génération : permettre une automatisation de bout en bout sur l'ensemble du cycle de vie des actifs. Cet article envisage un avenir où les agents d'IA gèrent de manière autonome des tâches qui nécessitaient auparavant une expertise distincte et une coordination manuelle. À cette fin, nous présentons AssetOpsBench -- un cadre et un environnement unifiés conçus pour guider le développement, l'orchestration et l'évaluation d'agents spécifiques au domaine, adaptés aux applications de l'Industrie 4.0. Nous décrivons les exigences clés pour de tels systèmes holistiques et fournissons des insights actionnables pour construire des agents intégrant la perception, le raisonnement et le contrôle pour les opérations industrielles réelles. Le logiciel est disponible à l'adresse https://github.com/IBM/AssetOpsBench.

Jun 6
Jun 9
Jun 10