Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunités
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

Ces dernières années ont été marquées par des progrès remarquables dans les modèles de compréhension multimodale et les modèles de génération d'images. Malgré leurs succès respectifs, ces deux domaines ont évolué de manière indépendante, conduisant à des paradigmes architecturaux distincts : alors que les architectures basées sur des modèles autorégressifs ont dominé la compréhension multimodale, les modèles basés sur la diffusion sont devenus la pierre angulaire de la génération d'images. Récemment, un intérêt croissant s'est manifesté pour le développement de cadres unifiés intégrant ces tâches. L'émergence des nouvelles capacités de GPT-4o illustre cette tendance, mettant en lumière le potentiel d'unification. Cependant, les différences architecturales entre ces deux domaines posent des défis significatifs. Pour offrir un aperçu clair des efforts actuels vers l'unification, nous présentons une étude approfondie visant à orienter les recherches futures. Tout d'abord, nous introduisons les concepts fondamentaux et les avancées récentes dans les modèles de compréhension multimodale et de génération d'images à partir de texte. Ensuite, nous passons en revue les modèles unifiés existants, en les classant en trois principaux paradigmes architecturaux : les approches basées sur la diffusion, les approches autorégressives, et les approches hybrides qui fusionnent les mécanismes autorégressifs et de diffusion. Pour chaque catégorie, nous analysons les conceptions structurelles et les innovations introduites par les travaux connexes. De plus, nous compilons des ensembles de données et des benchmarks spécifiquement adaptés aux modèles unifiés, offrant ainsi des ressources pour des explorations futures. Enfin, nous discutons des principaux défis auxquels ce domaine naissant est confronté, notamment la stratégie de tokenisation, l'attention intermodale et les données. Étant donné que ce domaine en est encore à ses débuts, nous anticipons des avancées rapides et mettrons régulièrement à jour cette étude. Notre objectif est d'inspirer des recherches supplémentaires et de fournir une référence précieuse pour la communauté. Les références associées à cette étude sont disponibles sur GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

ZeroSearch : Stimuler la capacité de recherche des LLM sans effectuer de recherche
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

La recherche efficace d'informations est essentielle pour améliorer les capacités de raisonnement et de génération des grands modèles de langage (LLMs). Des recherches récentes ont exploré l'utilisation de l'apprentissage par renforcement (RL) pour améliorer les capacités de recherche des LLMs en interagissant avec des moteurs de recherche en temps réel dans des environnements réels. Bien que ces approches montrent des résultats prometteurs, elles rencontrent deux défis majeurs : (1) Qualité incontrôlée des documents : La qualité des documents renvoyés par les moteurs de recherche est souvent imprévisible, introduisant du bruit et de l'instabilité dans le processus d'entraînement. (2) Coûts d'API prohibitifs : L'entraînement par RL nécessite des déploiements fréquents, impliquant potentiellement des centaines de milliers de requêtes de recherche, ce qui engendre des dépenses d'API substantielles et limite fortement la scalabilité. Pour relever ces défis, nous introduisons ZeroSearch, un cadre d'apprentissage par renforcement qui stimule les capacités de recherche des LLMs sans interagir avec de vrais moteurs de recherche. Notre approche commence par un ajustement supervisé léger pour transformer le LLM en un module de recherche capable de générer à la fois des documents pertinents et bruyants en réponse à une requête. Pendant l'entraînement RL, nous utilisons une stratégie de déploiement basée sur un curriculum qui dégrade progressivement la qualité des documents générés, sollicitant de manière progressive la capacité de raisonnement du modèle en l'exposant à des scénarios de recherche de plus en plus difficiles. Des expériences approfondies démontrent que ZeroSearch stimule efficacement les capacités de recherche des LLMs en utilisant un LLM de 3B comme module de recherche. Fait remarquable, un module de recherche de 7B atteint des performances comparables à celles d'un véritable moteur de recherche, tandis qu'un module de 14B les dépasse même. De plus, il généralise bien sur des modèles de base et ajustés par instruction de différentes tailles de paramètres et est compatible avec une large gamme d'algorithmes RL.

HunyuanCustom : Une architecture pilotée par multimodalité pour la génération de vidéos personnalisées
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

La génération de vidéos personnalisées vise à produire des vidéos mettant en scène des sujets spécifiques sous des conditions flexibles définies par l'utilisateur, mais les méthodes existantes rencontrent souvent des difficultés avec la cohérence d'identité et les modalités d'entrée limitées. Dans cet article, nous proposons HunyuanCustom, un cadre de génération de vidéos personnalisées multi-modales qui met l'accent sur la cohérence du sujet tout en prenant en charge les conditions d'image, d'audio, de vidéo et de texte. Basé sur HunyuanVideo, notre modèle aborde d'abord la tâche de génération conditionnée par image et texte en introduisant un module de fusion texte-image basé sur LLaVA pour une meilleure compréhension multi-modale, ainsi qu'un module d'amélioration d'identité d'image qui exploite la concaténation temporelle pour renforcer les caractéristiques d'identité à travers les images. Pour permettre la génération conditionnée par audio et vidéo, nous proposons en outre des mécanismes d'injection de conditions spécifiques à chaque modalité : un module AudioNet qui réalise un alignement hiérarchique via une attention croisée spatiale, et un module d'injection piloté par la vidéo qui intègre une vidéo conditionnelle compressée en latence à travers un réseau d'alignement de caractéristiques basé sur la patchification. Des expériences approfondies sur des scénarios à un seul sujet et à plusieurs sujets démontrent que HunyuanCustom surpasse significativement les méthodes open-source et propriétaires de pointe en termes de cohérence d'identité, de réalisme et d'alignement texte-vidéo. De plus, nous validons sa robustesse dans diverses tâches en aval, y compris la génération de vidéos personnalisées pilotées par l'audio et la vidéo. Nos résultats mettent en évidence l'efficacité des stratégies de conditionnement multi-modal et de préservation d'identité pour faire progresser la génération de vidéos contrôlables. Tous les codes et modèles sont disponibles à l'adresse https://hunyuancustom.github.io.

OpenVision : Une famille entièrement ouverte et économique d'encodeurs de vision avancés pour l'apprentissage multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

Le CLIP d'OpenAI, publié début 2021, a longtemps été le choix privilégié d'encodeur visuel pour la construction de modèles fondationnels multimodaux. Bien que des alternatives récentes comme SigLIP commencent à remettre en cause ce statu quo, à notre connaissance, aucune n'est entièrement ouverte : leurs données d'entraînement restent propriétaires et/ou leurs méthodes d'entraînement ne sont pas divulguées. Cet article comble cette lacune avec OpenVision, une famille d'encodeurs visuels entièrement ouverte et économique, qui égalent ou surpassent les performances du CLIP d'OpenAI lorsqu'ils sont intégrés dans des frameworks multimodaux comme LLaVA. OpenVision s'appuie sur des travaux existants — par exemple, CLIPS pour le framework d'entraînement et Recap-DataComp-1B pour les données d'entraînement — tout en révélant plusieurs insights clés pour améliorer la qualité des encodeurs et en démontrant les avantages pratiques pour faire progresser les modèles multimodaux. En publiant des encodeurs visuels allant de 5,9M à 632,1M de paramètres, OpenVision offre aux praticiens un compromis flexible entre capacité et efficacité pour construire des modèles multimodaux : les modèles plus grands offrent des performances multimodales améliorées, tandis que les versions plus petites permettent des déploiements multimodaux légers et adaptés aux environnements périphériques.

PrimitiveAnything : Génération d'assemblages de primitives 3D créés par l'homme avec un transformeur auto-régressif
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

L'abstraction par primitives de forme, qui décompose des formes 3D complexes en éléments géométriques simples, joue un rôle crucial dans la cognition visuelle humaine et trouve de nombreuses applications en vision par ordinateur et en infographie. Bien que les récents progrès dans la génération de contenu 3D aient montré des avancées remarquables, les méthodes existantes d'abstraction par primitives reposent soit sur une optimisation géométrique avec une compréhension sémantique limitée, soit sur l'apprentissage à partir de jeux de données spécifiques à une catégorie et de petite taille, ce qui limite leur capacité à généraliser à travers des catégories de formes diverses. Nous présentons PrimitiveAnything, un nouveau cadre qui reformule l'abstraction par primitives de forme comme une tâche de génération d'assemblages de primitives. PrimitiveAnything inclut un transformeur de primitives conditionné par la forme pour la génération auto-régressive et un schéma de paramétrisation sans ambiguïté pour représenter plusieurs types de primitives de manière unifiée. Le cadre proposé apprend directement le processus d'assemblage de primitives à partir de grandes abstractions créées par l'homme, lui permettant de capturer la manière dont les humains décomposent des formes complexes en éléments primitifs. À travers des expériences approfondies, nous démontrons que PrimitiveAnything peut générer des assemblages de primitives de haute qualité qui s'alignent mieux sur la perception humaine tout en maintenant une fidélité géométrique à travers diverses catégories de formes. Il bénéficie à diverses applications 3D et montre un potentiel pour permettre la création de contenu généré par l'utilisateur (UGC) basé sur des primitives dans les jeux. Page du projet : https://primitiveanything.github.io

R&B : Regroupement de domaines et équilibrage des mélanges de données pour un entraînement efficace des modèles de fondation
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

Les stratégies de mélange de données ont permis de réduire avec succès les coûts associés à l'entraînement des modèles de langage. Bien que prometteuses, ces méthodes présentent deux défauts majeurs. Premièrement, elles s'appuient sur des domaines de données prédéfinis (par exemple, sources de données, types de tâches), ce qui peut ne pas capturer des nuances sémantiques critiques, laissant ainsi des performances potentielles inexploitées. Deuxièmement, ces méthodes évoluent de manière prohibitive en termes de calcul avec le nombre de domaines. Nous abordons ces défis via R&B, un cadre qui repartitionne les données d'entraînement en fonction de la similarité sémantique (Regroup) pour créer des domaines plus granulaires, et optimise efficacement la composition des données (Balance) en exploitant une matrice de Gram induite par les gradients de domaine obtenus tout au long de l'entraînement. Contrairement aux travaux précédents, il élimine le besoin de calculs supplémentaires pour obtenir des informations d'évaluation telles que les pertes ou les gradients. Nous analysons cette technique sous des conditions de régularité standard et fournissons des insights théoriques qui justifient l'efficacité de R&B par rapport aux approches de mélange non adaptatives. Empiriquement, nous démontrons l'efficacité de R&B sur cinq ensembles de données diversifiés, allant du langage naturel aux tâches de raisonnement et multimodales. Avec seulement 0,01 % de surcharge de calcul supplémentaire, R&B atteint ou dépasse les performances des stratégies de mélange de données les plus avancées.

Au-delà de la reconnaissance : Évaluation de la prise de perspective visuelle dans les modèles de langage visuel
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

Nous étudions la capacité des modèles de vision et langage (VLMs) à effectuer une prise de perspective visuelle en utilisant un ensemble novateur de tâches visuelles inspirées de tests humains établis. Notre approche exploite des scènes soigneusement contrôlées, dans lesquelles une seule figurine humanoïde est associée à un seul objet. En variant systématiquement les configurations spatiales - telles que la position de l'objet par rapport à la figurine humanoïde et l'orientation de celle-ci - et en utilisant à la fois des vues aériennes et au niveau du sol, nous avons créé 144 tâches visuelles uniques. Chaque tâche visuelle est associée à une série de 7 questions diagnostiques conçues pour évaluer trois niveaux de cognition visuelle : la compréhension de la scène, le raisonnement spatial et la prise de perspective visuelle. Notre évaluation de plusieurs modèles de pointe, incluant GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct et des variantes de Claude Sonnet, révèle que bien qu'ils excellent dans la compréhension de la scène, leur performance décline significativement sur le raisonnement spatial et se détériore davantage sur la prise de perspective. Notre analyse suggère un écart entre la reconnaissance superficielle des objets et le raisonnement spatial et perspectif plus profond requis pour les tâches visuelles complexes, soulignant la nécessité d'intégrer des représentations géométriques explicites et des protocoles d'entraînement adaptés dans le développement futur des VLMs.

Évaluation de l'intelligence en essaim des modèles de langage de grande taille
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

Les modèles de langage de grande taille (LLMs) montrent un potentiel pour le raisonnement complexe, mais leur capacité à coordonner de manière émergente dans les systèmes multi-agents (MAS) lorsqu'ils opèrent sous des contraintes strictes - telles qu'une perception et une communication locales limitées, caractéristiques des essaims naturels - reste largement inexplorée, en particulier en ce qui concerne les nuances de l'intelligence en essaim. Les benchmarks existants ne capturent souvent pas pleinement les défis uniques de la coordination décentralisée qui surviennent lorsque les agents opèrent avec des informations spatio-temporelles incomplètes. Pour combler cette lacune, nous introduisons SwarmBench, un nouveau benchmark conçu pour évaluer systématiquement les capacités d'intelligence en essaim des LLMs agissant comme agents décentralisés. SwarmBench propose cinq tâches fondamentales de coordination MAS dans un environnement configurable en grille 2D, forçant les agents à s'appuyer principalement sur des entrées sensorielles locales (vue k x k) et une communication locale. Nous proposons des métriques pour l'efficacité de la coordination et analysons les dynamiques de groupe émergentes. En évaluant plusieurs LLMs de pointe dans un cadre zero-shot, nous observons des variations significatives de performance selon les tâches, mettant en évidence les difficultés posées par les contraintes d'information locale. Bien qu'une certaine coordination émerge, les résultats indiquent des limites dans la planification robuste et la formation de stratégies sous incertitude dans ces scénarios décentralisés. Évaluer les LLMs dans des conditions semblables à celles d'un essaim est crucial pour réaliser leur potentiel dans les futurs systèmes décentralisés. Nous publions SwarmBench comme un toolkit ouvert et extensible - construit sur un système physique personnalisable et évolutif avec des propriétés mécaniques définies. Il fournit des environnements, des prompts, des scripts d'évaluation et les ensembles de données expérimentales complets générés, visant à favoriser une recherche reproductible sur la coordination MAS basée sur les LLMs et les fondements théoriques des MAS incarnés. Notre dépôt de code est disponible à l'adresse https://github.com/x66ccff/swarmbench.

Au-delà de la démonstration de théorèmes : formulation, cadre et benchmark pour la résolution formelle de problèmes
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

En tant que tâche apparemment évidente, la résolution de problèmes constitue un élément fondamental des sciences et de l'ingénierie. Cependant, une formulation générale et concrète de la résolution de problèmes elle-même fait défaut. Avec le développement récent d'agents de résolution de problèmes basés sur l'IA, la demande de vérifiabilité au niveau des processus augmente rapidement, tout en restant insuffisamment explorée. Pour combler ces lacunes, nous proposons une formulation rigoureuse de la résolution de problèmes en tant que processus de décision markovien déterministe ; un nouveau cadre, FPS (Formal Problem-Solving), qui utilise des environnements existants de preuve formelle (FTP) pour réaliser une résolution de problèmes vérifiée au niveau des processus ; et D-FPS (Deductive FPS), qui découple la résolution et la vérification des réponses pour une meilleure alignement avec les humains. L'expressivité, la solidité et la complétude de ces cadres sont démontrées. Nous construisons trois benchmarks pour la résolution de problèmes : FormalMath500, une formalisation d'un sous-ensemble du benchmark MATH500 ; MiniF2F-Solving et PutnamBench-Solving, des adaptations des benchmarks FTP MiniF2F et PutnamBench. Pour une évaluation fidèle, interprétable et alignée avec les humains, nous proposons RPE (Restricted Propositional Equivalence), une approche symbolique pour déterminer la correction des réponses par vérification formelle. Nous évaluons quatre modèles FTP répandus et deux méthodes d'incitation comme références, résolvant au plus 23,77 % de FormalMath500, 27,47 % de MiniF2F-Solving et 0,31 % de PutnamBench-Solving.

RAG Adaptatif Indépendant des LLM : Laissez la question parler d'elle-même
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

Les grands modèles de langage (LLM) sont sujets aux hallucinations, et la génération augmentée par récupération (RAG) aide à atténuer ce problème, mais à un coût computationnel élevé tout en risquant de propager des informations erronées. La récupération adaptative vise à récupérer uniquement lorsque c'est nécessaire, mais les approches existantes reposent sur l'estimation de l'incertitude basée sur les LLM, qui reste inefficace et peu pratique. Dans cette étude, nous introduisons des méthodes légères de récupération adaptative indépendantes des LLM, basées sur des informations externes. Nous avons étudié 27 caractéristiques, organisées en 7 groupes, ainsi que leurs combinaisons hybrides. Nous avons évalué ces méthodes sur 6 ensembles de données de questions-réponses (QA), en mesurant les performances en QA et l'efficacité. Les résultats montrent que notre approche atteint des performances comparables à celles des méthodes complexes basées sur les LLM tout en obtenant des gains d'efficacité significatifs, démontrant ainsi le potentiel des informations externes pour la récupération adaptative.

OpenHelix : Une brève étude, analyse empirique et modèle VLA à double système open-source pour la manipulation robotique
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

Les architectures VLA (Vision-Langage-Action) à double système sont devenues un sujet brûlant dans la recherche sur l'intelligence incarnée, mais il manque suffisamment de travaux open source pour une analyse et une optimisation approfondies des performances. Pour résoudre ce problème, cet article résumera et comparera les conceptions structurelles des architectures à double système existantes, et mènera des évaluations empiriques systématiques sur les éléments de conception clés de ces architectures. En fin de compte, il fournira un modèle open source à faible coût pour une exploration ultérieure. Bien sûr, ce projet continuera à s'enrichir avec davantage de conclusions expérimentales et de modèles open source aux performances améliorées, disponibles pour tous. Page du projet : https://openhelix-robot.github.io/.

OmniGIRL : Un benchmark multilingue et multimodal pour la résolution d'issues GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

La tâche de résolution d'issues GitHub vise à résoudre automatiquement les problèmes signalés dans les dépôts. Avec les avancées des grands modèles de langage (LLM), cette tâche a suscité un intérêt croissant, et plusieurs benchmarks ont été proposés pour évaluer la capacité des LLM à résoudre les issues. Cependant, les benchmarks existants présentent trois limitations principales. Premièrement, les benchmarks actuels se concentrent sur un seul langage de programmation, limitant l'évaluation des issues provenant de dépôts utilisant différents langages. Deuxièmement, ils couvrent généralement un éventail restreint de domaines, ce qui peut ne pas représenter la diversité des problèmes rencontrés dans le monde réel. Troisièmement, les benchmarks existants s'appuient uniquement sur les informations textuelles des descriptions d'issues, négligeant les informations multimodales telles que les images présentes dans les issues. Dans cet article, nous proposons OmniGIRL, un benchmark de résolution d'issues GitHub multilingue, multimodal et multi-domaine. OmniGIRL comprend 959 instances de tâches, collectées à partir de dépôts utilisant quatre langages de programmation (Python, JavaScript, TypeScript et Java) et couvrant huit domaines différents. Notre évaluation montre que les LLM actuels obtiennent des performances limitées sur OmniGIRL. Notamment, le modèle le plus performant, GPT-4o, ne résout que 8,6 % des issues. De plus, nous constatons que les LLM actuels peinent à résoudre les issues nécessitant la compréhension d'images. La meilleure performance est obtenue par Claude-3.5-Sonnet, qui ne résout que 10,5 % des issues contenant des informations visuelles. Enfin, nous analysons les raisons des échecs des LLM actuels sur OmniGIRL, fournissant des pistes pour des améliorations futures.

Résolution de problèmes complexes enrichie par les connaissances avec les grands modèles de langage : Une étude approfondie
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

La résolution de problèmes a été un moteur fondamental du progrès humain dans de nombreux domaines. Avec les avancées de l'intelligence artificielle, les modèles de langage de grande taille (LLMs) sont apparus comme des outils puissants capables de s'attaquer à des problèmes complexes dans divers domaines. Contrairement aux systèmes computationnels traditionnels, les LLMs combinent une puissance de calcul brute avec une approximation du raisonnement humain, leur permettant de générer des solutions, de faire des inférences et même d'utiliser des outils computationnels externes. Cependant, l'application des LLMs à la résolution de problèmes dans le monde réel présente des défis importants, notamment le raisonnement en plusieurs étapes, l'intégration des connaissances spécifiques au domaine et la vérification des résultats. Cette étude explore les capacités et les limites des LLMs dans la résolution de problèmes complexes, en examinant des techniques telles que le raisonnement en chaîne de pensée (Chain-of-Thought, CoT), l'augmentation des connaissances, et diverses techniques de vérification basées sur les LLMs et sur des outils externes. De plus, nous mettons en lumière les défis spécifiques à différents domaines, tels que l'ingénierie logicielle, le raisonnement et la démonstration mathématiques, l'analyse et la modélisation de données, et la recherche scientifique. L'article discute également des limitations fondamentales des solutions actuelles basées sur les LLMs et des directions futures pour la résolution de problèmes complexes à l'aide des LLMs, en se concentrant sur le raisonnement en plusieurs étapes, l'intégration des connaissances spécifiques au domaine et la vérification des résultats.

OSUniverse : Benchmark pour les agents d'IA de navigation multimodale dans les interfaces graphiques
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6

ByMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

Dans cet article, nous présentons OSUniverse : un benchmark de tâches complexes et multimodales orientées bureau pour des agents d'IA avancés de navigation d'interface graphique, axé sur la facilité d'utilisation, l'extensibilité, une couverture exhaustive des cas de test et une validation automatisée. Nous divisons les tâches en niveaux de complexité croissants, allant de simples clics de précision à des tests multi-étapes et multi-applications nécessitant dextérité, précision et réflexion claire de la part de l'agent. Dans la première version du benchmark, présentée ici, nous avons calibré la complexité des cas de test pour garantir que les agents à l'état de l'art (SOTA, State of the Art) au moment de la publication n'obtiennent pas de résultats supérieurs à 50 %, tandis qu'un travailleur de bureau moyen peut accomplir toutes ces tâches avec une précision parfaite. Le benchmark peut être évalué manuellement, mais nous introduisons également un mécanisme de validation automatisée dont le taux d'erreur moyen est inférieur à 2 %. Ainsi, ce benchmark offre une base solide pour une mesure entièrement automatisée des progrès, des capacités et de l'efficacité des agents d'IA de navigation d'interface graphique à court et moyen terme. Le code source du benchmark est disponible à l'adresse suivante : https://github.com/agentsea/osuniverse.

COSMOS : Adaptation prévisible et rentable des modèles de langage de grande taille
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30

ByJiayu Wang, Aws Albarghouthi, Frederic Sala

Les grands modèles de langage (LLM) atteignent des performances remarquables sur de nombreuses tâches en utilisant une diversité de stratégies d'adaptation. Cependant, sélectionner de manière optimale un modèle et une stratégie d'adaptation sous contraintes de ressources est un défi qui nécessite souvent une expérimentation extensive. Nous étudions s'il est possible de prédire avec précision à la fois les performances et les coûts sans recourir à des essais coûteux. Nous formalisons le problème de sélection de stratégie pour les LLM et introduisons COSMOS, un cadre de prédiction unifié qui estime efficacement les résultats d'adaptation à un coût minimal. Nous instancions et étudions les capacités de notre cadre via une paire de prédicteurs puissants : des modèles proxy légers augmentés par des embeddings pour prédire les performances de fine-tuning, et des lois d'échantillonnage à faible échantillon pour prévoir l'apprentissage en contexte augmenté par récupération. Une évaluation approfondie sur huit benchmarks représentatifs démontre que COSMOS atteint une grande précision de prédiction tout en réduisant les coûts de calcul de 92,72 % en moyenne, et jusqu'à 98,71 % dans des scénarios intensifs en ressources. Nos résultats montrent que la prédiction efficace des résultats d'adaptation est non seulement réalisable, mais peut substantiellement réduire la surcharge computationnelle du déploiement des LLM tout en maintenant les standards de performance.

AutoLibra : Induction de métriques d'agents à partir de retours ouverts
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5

ByHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

Les agents sont principalement évalués et optimisés via des métriques de réussite de tâches, qui sont grossières, reposent sur une conception manuelle par des experts, et ne récompensent pas les comportements émergents intermédiaires. Nous proposons AutoLibra, un cadre d'évaluation des agents, qui transforme les retours ouverts des humains, par exemple "Si vous constatez que le bouton est désactivé, ne cliquez pas à nouveau", ou "Cet agent a trop d'autonomie pour décider seul de ce qu'il doit faire", en métriques pour évaluer les comportements fins dans les trajectoires des agents. AutoLibra y parvient en ancrant les retours au comportement de l'agent, en regroupant les comportements positifs et négatifs similaires, et en créant des métriques concrètes avec des définitions claires et des exemples précis, qui peuvent être utilisées pour solliciter un LLM-as-a-Judge en tant qu'évaluateur. Nous proposons en outre deux méta-métriques pour évaluer l'alignement d'un ensemble de métriques (induites) avec les retours ouverts : "couverture" et "redondance". En optimisant ces méta-métriques, nous démontrons expérimentalement la capacité d'AutoLibra à induire des métriques d'évaluation des agents plus concrètes que celles proposées dans les benchmarks d'évaluation d'agents précédents, et à découvrir de nouvelles métriques pour analyser les agents. Nous présentons également deux applications d'AutoLibra dans l'amélioration des agents : Premièrement, nous montrons que les métriques induites par AutoLibra servent de meilleures cibles pour l'ingénierie des prompts que le taux de réussite des tâches sur une large gamme de jeux textuels, améliorant les performances des agents par rapport à la ligne de base d'une moyenne de 20%. Deuxièmement, nous montrons qu'AutoLibra peut sélectionner itérativement des données de fine-tuning de haute qualité pour les agents de navigation web. Nos résultats suggèrent qu'AutoLibra est un outil puissant et indépendant de la tâche pour évaluer et améliorer les agents linguistiques.

Fusion multimodale image-événement pondérée par l'incertitude pour la détection d'anomalies vidéo
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5

BySungheon Jeong, Jihong Park, Mohsen Imani

La plupart des détecteurs d'anomalies vidéo existants reposent uniquement sur des images RVB, qui manquent de résolution temporelle nécessaire pour capturer des indices de mouvement brusques ou transitoires, des indicateurs clés d'événements anormaux. Pour pallier cette limitation, nous proposons Image-Event Fusion for Video Anomaly Detection (IEF-VAD), un cadre qui synthétise des représentations d'événements directement à partir de vidéos RVB et les fusionne avec des caractéristiques d'images via un processus rigoureux et conscient de l'incertitude. Le système (i) modélise le bruit de capteur à queue lourde avec une vraisemblance de Student, dérivant des poids d'inverse-variance au niveau des valeurs via une approximation de Laplace ; (ii) applique des mises à jour image par image de type Kalman pour équilibrer les modalités dans le temps ; et (iii) affine itérativement l'état latent fusionné pour éliminer le bruit résiduel inter-modal. Sans aucun capteur d'événements dédié ni étiquettes au niveau des images, IEF-VAD établit un nouvel état de l'art sur plusieurs benchmarks de détection d'anomalies du monde réel. Ces résultats mettent en lumière l'utilité des représentations d'événements synthétiques pour mettre en avant des indices de mouvement souvent sous-représentés dans les images RVB, permettant une compréhension vidéo précise et robuste dans diverses applications sans nécessiter de capteurs d'événements dédiés. Le code et les modèles sont disponibles à l'adresse https://github.com/EavnJeong/IEF-VAD.

RAIL : Apprentissage Instructif Conscient des Régions pour la Segmentation Dentaire Semi-Supervisée en CBCT
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

L'apprentissage semi-supervisé est devenu une approche convaincante pour la segmentation 3D des dents à partir de scans CBCT, où les données annotées sont minimales. Cependant, les méthodes existantes continuent de faire face à deux défis persistants : une supervision corrective limitée dans les régions structurellement ambiguës ou mal annotées pendant l'entraînement supervisé, et une dégradation des performances causée par des pseudo-labels peu fiables sur les données non annotées. Pour résoudre ces problèmes, nous proposons Region-Aware Instructive Learning (RAIL), un cadre semi-supervisé à double groupe et double étudiant. Chaque groupe contient deux modèles étudiants guidés par un réseau enseignant partagé. En alternant l'entraînement entre les deux groupes, RAIL favorise le transfert de connaissances intergroupe et une instruction collaborative sensible aux régions, tout en réduisant le surajustement aux caractéristiques d'un seul modèle. Plus précisément, RAIL introduit deux mécanismes instructifs. Le Contrôleur de Supervision Centrée sur les Désaccords (DFS) améliore l'apprentissage supervisé en guidant les prédictions uniquement dans les zones où les sorties des étudiants divergent à la fois de la vérité terrain et du meilleur étudiant, concentrant ainsi la supervision sur les zones structurellement ambiguës ou mal annotées. Dans la phase non supervisée, le Modulateur d'Apprentissage Conscient de la Confiance (CAL) renforce l'accord dans les régions où la certitude du modèle est élevée, tout en réduisant l'effet des prédictions de faible confiance pendant l'entraînement. Cela aide à empêcher notre modèle d'apprendre des motifs instables et améliore la fiabilité globale des pseudo-labels. Des expériences approfondies sur quatre ensembles de données de segmentation dentaire CBCT montrent que RAIL surpasse les méthodes de pointe dans des conditions d'annotation limitée. Notre code sera disponible à l'adresse https://github.com/Tournesol-Saturday/RAIL.

Cognitio Emergens : Agentivité, Dimensions et Dynamiques dans la Co-Création de Connaissances Humain-IA
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin

La création de connaissances scientifiques est en pleine transformation fondamentale alors que les humains et les systèmes d'IA évoluent au-delà des relations outil-utilisateur pour devenir des partenariats épistémiques co-évolutifs. Lorsqu'AlphaFold a révolutionné la prédiction de la structure des protéines, les chercheurs ont décrit une collaboration avec un partenaire épistémique qui a redéfini leur manière de conceptualiser les relations fondamentales. Cet article présente Cognitio Emergens (CE), un cadre qui aborde les limites critiques des modèles existants, lesquels se concentrent sur des rôles statiques ou des métriques étroites sans parvenir à capturer comment la compréhension scientifique émerge à travers des interactions récursives entre humains et IA sur le temps long. CE intègre trois composantes pour surmonter ces limites : les Configurations d'Agence décrivant la répartition de l'autorité entre humains et IA (Dirigée, Contributive, Partenariat), avec des partenariats oscillant dynamiquement entre ces configurations plutôt que de suivre une progression linéaire ; les Dimensions Épistémiques capturant six capacités spécifiques émergeant de la collaboration selon les axes Découverte, Intégration et Projection, créant des "signatures de capacités" distinctives qui guident le développement ; et les Dynamiques de Partenariat identifiant les forces qui façonnent l'évolution de ces relations, notamment le risque d'aliénation épistémique où les chercheurs perdent le contrôle interprétatif sur les connaissances qu'ils endossent formellement. S'inspirant de la théorie de l'autopoïèse, de la théorie des systèmes sociaux et de la modularité organisationnelle, CE révèle comment la co-création de connaissances émerge à travers une négociation continue des rôles, des valeurs et des structures organisationnelles. En reconceptualisant la collaboration scientifique humain-IA comme fondamentalement co-évolutive, CE offre une perspective équilibrée qui ne célèbre pas de manière acritique ni ne craint inutilement le rôle évolutif de l'IA, mais fournit plutôt des outils conceptuels pour cultiver des partenariats qui maintiennent une participation humaine significative tout en permettant des avancées scientifiques transformatrices.

5 minutes a day to keep up with AI

5 trending papers daily, explained in plain words, plus one quick puzzle.

Read today's issue →

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunités
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

ZeroSearch : Stimuler la capacité de recherche des LLM sans effectuer de recherche
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

HunyuanCustom : Une architecture pilotée par multimodalité pour la génération de vidéos personnalisées
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

OpenVision : Une famille entièrement ouverte et économique d'encodeurs de vision avancés pour l'apprentissage multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

PrimitiveAnything : Génération d'assemblages de primitives 3D créés par l'homme avec un transformeur auto-régressif
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

R&B : Regroupement de domaines et équilibrage des mélanges de données pour un entraînement efficace des modèles de fondation
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

Au-delà de la reconnaissance : Évaluation de la prise de perspective visuelle dans les modèles de langage visuel
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

Évaluation de l'intelligence en essaim des modèles de langage de grande taille
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

Au-delà de la démonstration de théorèmes : formulation, cadre et benchmark pour la résolution formelle de problèmes
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

RAG Adaptatif Indépendant des LLM : Laissez la question parler d'elle-même
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

OpenHelix : Une brève étude, analyse empirique et modèle VLA à double système open-source pour la manipulation robotique
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang