Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

BLIP3-o : Une famille de modèles multimodaux unifiés entièrement ouverts - Architecture, entraînement et jeu de données
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

L'unification de la compréhension et de la génération d'images a suscité un intérêt croissant dans les recherches récentes sur les modèles multimodaux. Bien que les choix de conception pour la compréhension d'images aient été largement étudiés, l'architecture optimale du modèle et la recette d'entraînement pour un cadre unifié incluant la génération d'images restent peu explorées. Motivés par le fort potentiel des modèles autorégressifs et de diffusion pour une génération de haute qualité et une grande évolutivité, nous menons une étude approfondie de leur utilisation dans des contextes multimodaux unifiés, en mettant l'accent sur les représentations d'images, les objectifs de modélisation et les stratégies d'entraînement. Sur la base de ces investigations, nous introduisons une nouvelle approche qui utilise un transformeur de diffusion pour générer des caractéristiques d'images CLIP sémantiquement riches, contrairement aux représentations conventionnelles basées sur des VAE. Cette conception offre à la fois une meilleure efficacité d'entraînement et une qualité générative améliorée. De plus, nous démontrons qu'une stratégie de pré-entraînement séquentiel pour les modèles unifiés—d'abord sur la compréhension d'images puis sur la génération d'images—présente des avantages pratiques en préservant la capacité de compréhension d'images tout en développant une forte capacité de génération d'images. Enfin, nous avons soigneusement constitué un ensemble de données de réglage par instructions de haute qualité, BLIP3o-60k, pour la génération d'images en incitant GPT-4o avec un ensemble diversifié de légendes couvrant diverses scènes, objets, gestes humains, et plus encore. En nous appuyant sur notre conception de modèle innovante, notre recette d'entraînement et nos ensembles de données, nous développons BLIP3-o, une suite de modèles multimodaux unifiés de pointe. BLIP3-o obtient des performances supérieures sur la plupart des benchmarks populaires couvrant à la fois les tâches de compréhension et de génération d'images. Pour faciliter les recherches futures, nous rendons entièrement open-source nos modèles, y compris le code, les poids des modèles, les scripts d'entraînement, ainsi que les ensembles de données de pré-entraînement et de réglage par instructions.

Perspectives sur DeepSeek-V3 : Défis de mise à l'échelle et réflexions sur le matériel pour les architectures d'IA
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14

ByChenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

L'essor rapide des grands modèles de langage (LLMs) a révélé des limites critiques dans les architectures matérielles actuelles, notamment des contraintes en matière de capacité mémoire, d'efficacité computationnelle et de bande passante d'interconnexion. DeepSeek-V3, entraîné sur 2 048 GPU NVIDIA H800, démontre comment une co-conception matérielle et modèle peut relever efficacement ces défis, permettant un entraînement et une inférence à grande échelle à moindre coût. Cet article présente une analyse approfondie de l'architecture du modèle DeepSeek-V3/R1 et de son infrastructure IA, mettant en lumière des innovations clés telles que l'attention latente multi-têtes (MLA) pour une meilleure efficacité mémoire, les architectures Mixture of Experts (MoE) pour optimiser les compromis calcul-communication, l'entraînement en précision mixte FP8 pour exploiter pleinement les capacités matérielles, et une topologie réseau multi-plan pour minimiser la surcharge réseau au niveau du cluster. En nous appuyant sur les goulots d'étranglement matériels rencontrés lors du développement de DeepSeek-V3, nous engageons une discussion plus large avec nos pairs académiques et industriels sur les orientations matérielles futures potentielles, incluant des unités de calcul en basse précision précises, la convergence des approches scale-up et scale-out, et des innovations dans les interconnexions à faible latence. Ces insights soulignent le rôle crucial de la co-conception matérielle et modèle pour répondre aux demandes croissantes des charges de travail IA, offrant un plan pratique pour l'innovation dans les systèmes IA de nouvelle génération.

MathCoder-VL : Relier la vision et le code pour un raisonnement mathématique multimodal amélioré
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15

ByKe Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

Les ensembles de données de légendes d'images en langage naturel, largement utilisés pour l'entraînement des grands modèles multimodaux, se concentrent principalement sur des scénarios naturels et négligent les détails complexes des figures mathématiques, pourtant essentiels pour la résolution de problèmes, ce qui freine les progrès des modèles multimodaux actuels dans le raisonnement mathématique multimodal. Pour pallier cela, nous proposons d'utiliser le code comme supervision pour l'alignement intermodal, car le code encode intrinsèquement toutes les informations nécessaires à la génération des figures correspondantes, établissant ainsi une connexion précise entre les deux modalités. Plus précisément, nous co-développons notre modèle image-à-code et notre ensemble de données avec une approche de modèle-en-boucle, aboutissant à un modèle image-à-code, FigCodifier, et à l'ensemble de données ImgCode-8.6M, le plus grand ensemble de données image-code à ce jour. En outre, nous utilisons FigCodifier pour synthétiser de nouvelles figures mathématiques, puis construisons MM-MathInstruct-3M, un ensemble de données de fine-tuning de haute qualité pour les instructions mathématiques multimodales. Enfin, nous présentons MathCoder-VL, entraîné avec ImgCode-8.6M pour l'alignement intermodal, puis fine-tuné sur MM-MathInstruct-3M pour la résolution de problèmes mathématiques multimodaux. Notre modèle atteint un nouvel état de l'art open-source sur les six métriques. Notamment, il surpasse GPT-4o et Claude 3.5 Sonnet dans le sous-ensemble de résolution de problèmes de géométrie de MathVista, avec des améliorations de 8,9 % et 9,2 %. Les ensembles de données et les modèles seront disponibles sur https://github.com/mathllm/MathCoder.

DeCLIP : Apprentissage découplé pour la perception dense à vocabulaire ouvert
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7

ByJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

Les tâches de prédiction visuelle dense ont été limitées par leur dépendance à des catégories prédéfinies, restreignant ainsi leur applicabilité dans des scénarios réels où les concepts visuels sont illimités. Bien que les modèles vision-langage (VLMs) comme CLIP aient montré des résultats prometteurs dans les tâches à vocabulaire ouvert, leur application directe à la prédiction dense conduit souvent à des performances sous-optimales en raison de limitations dans la représentation des caractéristiques locales. Dans ce travail, nous présentons notre observation selon laquelle les tokens d'image de CLIP peinent à agréger efficacement les informations provenant de régions spatialement ou sémantiquement liées, ce qui entraîne des caractéristiques manquant de discriminabilité locale et de cohérence spatiale. Pour résoudre ce problème, nous proposons DeCLIP, un nouveau cadre qui améliore CLIP en découplant le module d'auto-attention pour obtenir respectivement des caractéristiques de « contenu » et de « contexte ». Les caractéristiques de « contenu » sont alignées avec les représentations de recadrage d'image pour améliorer la discriminabilité locale, tandis que les caractéristiques de « contexte » apprennent à préserver les corrélations spatiales sous la guidance de modèles de fondation visuelle, tels que DINO. Des expériences approfondies démontrent que DeCLIP surpasse significativement les méthodes existantes dans plusieurs tâches de prédiction dense à vocabulaire ouvert, incluant la détection d'objets et la segmentation sémantique. Le code est disponible à l'adresse magenta{https://github.com/xiaomoguhz/DeCLIP}.

LightLab : Contrôle des sources lumineuses dans les images grâce aux modèles de diffusion
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14

ByNadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

Nous présentons une méthode simple mais efficace basée sur la diffusion pour un contrôle paramétrique et granulaire des sources lumineuses dans une image. Les méthodes existantes de rééclairage s'appuient soit sur plusieurs vues d'entrée pour effectuer un rendu inverse au moment de l'inférence, soit échouent à fournir un contrôle explicite sur les modifications lumineuses. Notre méthode affine un modèle de diffusion sur un petit ensemble de paires de photographies brutes réelles, complétées par des images synthétiquement rendues à grande échelle, pour exploiter son a priori photoréaliste en matière de rééclairage. Nous tirons parti de la linéarité de la lumière pour synthétiser des paires d'images représentant des changements lumineux contrôlés, que ce soit pour une source lumineuse cible ou pour l'éclairage ambiant. En utilisant ces données et un schéma d'affinage approprié, nous entraînons un modèle pour des modifications précises de l'éclairage avec un contrôle explicite de l'intensité et de la couleur de la lumière. Enfin, nous montrons comment notre méthode peut produire des résultats convaincants en matière d'édition lumineuse, surpassant les méthodes existantes sur la base des préférences des utilisateurs.

Marigold : Adaptation économique de générateurs d'images basés sur la diffusion pour l'analyse d'images
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14

ByBingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

Le succès de l'apprentissage profond en vision par ordinateur au cours de la dernière décennie a reposé sur de grands ensembles de données étiquetées et des modèles pré-entraînés performants. Dans des contextes où les données sont rares, la qualité de ces modèles pré-entraînés devient cruciale pour un transfert d'apprentissage efficace. La classification d'images et l'apprentissage auto-supervisé ont traditionnellement été les principales méthodes pour le pré-entraînement des réseaux de neurones convolutifs (CNN) et des architectures basées sur les transformateurs. Récemment, l'essor des modèles génératifs texte-image, en particulier ceux utilisant la diffusion de débruitage dans un espace latent, a introduit une nouvelle classe de modèles fondamentaux entraînés sur des ensembles massifs d'images légendées. La capacité de ces modèles à générer des images réalistes de contenus inédits suggère qu'ils possèdent une compréhension approfondie du monde visuel. Dans ce travail, nous présentons Marigold, une famille de modèles génératifs conditionnels et un protocole de fine-tuning qui extrait les connaissances des modèles de diffusion latente pré-entraînés comme Stable Diffusion et les adapte pour des tâches d'analyse d'image dense, incluant l'estimation de profondeur monoculaire, la prédiction des normales de surface et la décomposition intrinsèque. Marigold nécessite des modifications minimales de l'architecture du modèle de diffusion latente pré-entraîné, s'entraîne avec de petits ensembles de données synthétiques sur un seul GPU en quelques jours, et démontre une généralisation zero-shot de pointe. Page du projet : https://marigoldcomputervision.github.io

CAST : Reconstruction de scène 3D alignée par composants à partir d'une image RVB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18

ByKaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

La reconstruction de scènes 3D de haute qualité à partir d'une seule image RVB est une tâche complexe en infographie. Les méthodes actuelles rencontrent souvent des limitations spécifiques à un domaine ou produisent des objets de faible qualité. Pour remédier à ces problèmes, nous proposons CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), une nouvelle méthode de reconstruction et de récupération de scènes 3D. CAST commence par extraire une segmentation 2D au niveau des objets et des informations de profondeur relative à partir de l'image d'entrée, puis utilise un modèle basé sur GPT pour analyser les relations spatiales inter-objets. Cela permet de comprendre comment les objets interagissent entre eux dans la scène, assurant une reconstruction plus cohérente. CAST emploie ensuite un modèle de génération 3D à grande échelle prenant en compte les occlusions pour générer indépendamment la géométrie complète de chaque objet, en utilisant le conditionnement par MAE et par nuage de points pour atténuer les effets des occlusions et des informations partielles sur les objets, garantissant un alignement précis avec la géométrie et la texture de l'image source. Pour aligner chaque objet avec la scène, le modèle de génération d'alignement calcule les transformations nécessaires, permettant aux maillages générés d'être positionnés et intégrés avec précision dans le nuage de points de la scène. Enfin, CAST intègre une étape de correction prenant en compte la physique, qui exploite un graphe de relations fines pour générer un graphe de contraintes. Ce graphe guide l'optimisation des poses des objets, assurant une cohérence physique et spatiale. En utilisant les champs de distance signée (SDF), le modèle résout efficacement des problèmes tels que les occlusions, les pénétrations d'objets et les objets flottants, garantissant que la scène générée reflète fidèlement les interactions physiques du monde réel. CAST peut être exploité en robotique, permettant des workflows efficaces du réel à la simulation et fournissant des environnements de simulation réalistes et évolutifs pour les systèmes robotiques.

UniSkill : Imitation de vidéos humaines via des représentations de compétences trans-embodiment
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13

ByHanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

Le mimétisme est un mécanisme d'apprentissage fondamental chez les humains, permettant aux individus d'acquérir de nouvelles compétences en observant et en imitant des experts. Cependant, l'application de cette capacité aux robots présente des défis importants en raison des différences intrinsèques entre les incarnations humaines et robotiques, tant en termes d'apparence visuelle que de capacités physiques. Alors que les méthodes précédentes comblent cet écart en utilisant des ensembles de données inter-embodiments avec des scènes et des tâches partagées, la collecte de telles données alignées entre humains et robots à grande échelle n'est pas triviale. Dans cet article, nous proposons UniSkill, un cadre novateur qui apprend des représentations de compétences indépendantes de l'incarnation à partir de données vidéo inter-embodiments à grande échelle sans aucune annotation, permettant ainsi aux compétences extraites de vidéos humaines de se transférer efficacement à des politiques robotiques entraînées uniquement sur des données robotiques. Nos expériences, menées à la fois en simulation et dans des environnements réels, montrent que nos compétences inter-embodiments guident avec succès les robots dans le choix d'actions appropriées, même avec des vidéos inédites. Le site web du projet est disponible à l'adresse suivante : https://kimhanjung.github.io/UniSkill.

WavReward : Modèles de dialogue parlé avec évaluateurs de récompense généralistes
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14

ByShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Les modèles de dialogue vocal de bout en bout tels que GPT-4o-audio ont récemment suscité une attention significative dans le domaine de la parole. Cependant, l'évaluation des performances conversationnelles des modèles de dialogue vocal a été largement négligée. Cela est principalement dû au fait que les chatbots intelligents véhiculent une richesse d'informations non textuelles qui ne peuvent pas être facilement mesurées à l'aide de modèles de langage basés sur le texte comme ChatGPT. Pour combler cette lacune, nous proposons WavReward, un modèle de rétroaction de récompense basé sur des modèles de langage audio capables d'évaluer à la fois le QI et le QE des systèmes de dialogue vocal avec entrée vocale. Plus précisément, 1) basé sur des modèles de langage audio, WavReward intègre un processus de raisonnement profond et un mécanisme de récompense non linéaire pour l'après-entraînement. En utilisant une rétroaction multi-échantillons via l'algorithme d'apprentissage par renforcement, nous construisons un évaluateur spécialement adapté aux modèles de dialogue vocal. 2) Nous introduisons ChatReward-30K, un ensemble de données de préférences utilisé pour entraîner WavReward. ChatReward-30K inclut à la fois les aspects de compréhension et de génération des modèles de dialogue vocal. Ces scénarios couvrent diverses tâches, telles que les discussions basées sur le texte, neuf attributs acoustiques des discussions d'instruction et les discussions implicites. WavReward surpasse les modèles d'évaluation précédents de pointe dans plusieurs scénarios de dialogue vocal, obtenant une amélioration substantielle par rapport à Qwen2.5-Omni en précision objective, passant de 55,1 % à 91,5 %. Dans les tests subjectifs A/B, WavReward mène également avec une marge de 83 %. Des études d'ablation complètes confirment la nécessité de chaque composant de WavReward. Toutes les données et le code seront publics sur https://github.com/jishengpeng/WavReward après l'acceptation de l'article.

Omni-R1 : Avez-vous vraiment besoin de l'audio pour affiner votre modèle de langage audio ?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14

ByAndrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

Nous proposons Omni-R1, qui affine un modèle de langage multimodal récent, Qwen2.5-Omni, sur un ensemble de données de questions-réponses audio en utilisant la méthode d'apprentissage par renforcement GRPO. Cela conduit à de nouvelles performances de pointe sur le récent benchmark MMAU. Omni-R1 atteint les plus hautes précisions dans les catégories des sons, de la musique, de la parole et de la moyenne globale, à la fois sur les divisions Test-mini et Test-full. Pour comprendre l'amélioration des performances, nous avons testé des modèles avec et sans audio et avons constaté qu'une grande partie de l'amélioration due à GRPO pouvait être attribuée à un meilleur raisonnement basé sur le texte. Nous avons également fait une découverte surprenante : l'affinage sans audio sur un ensemble de données textuel uniquement s'est avéré efficace pour améliorer les performances basées sur l'audio.

SweRank : Localisation des problèmes logiciels par classement de code
SweRank: Software Issue Localization with Code Ranking

May 7

ByRevanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

La localisation des problèmes logiciels, qui consiste à identifier les emplacements précis du code (fichiers, classes ou fonctions) pertinents pour une description en langage naturel d'un problème (par exemple, un rapport de bug ou une demande de fonctionnalité), est un aspect crucial mais chronophage du développement logiciel. Bien que les approches récentes basées sur des modèles de langage (LLM) montrent des résultats prometteurs, elles entraînent souvent une latence et un coût significatifs en raison de leur raisonnement multi-étapes complexe et de leur dépendance à des LLM propriétaires. Par ailleurs, les modèles traditionnels de classement de code, généralement optimisés pour la recherche requête-vers-code ou code-vers-code, peinent à gérer la nature verbale et descriptive des échecs des requêtes de localisation de problèmes. Pour combler cette lacune, nous présentons SweRank, un cadre de récupération et reclassement efficace pour la localisation des problèmes logiciels. Pour faciliter l'entraînement, nous avons construit SweLoc, un jeu de données à grande échelle extrait de dépôts GitHub publics, comprenant des descriptions de problèmes réels associées aux modifications de code correspondantes. Les résultats empiriques sur SWE-Bench-Lite et LocBench montrent que SweRank atteint des performances de pointe, surpassant à la fois les modèles de classement précédents et les systèmes coûteux basés sur des agents utilisant des LLM propriétaires comme Claude-3.5. De plus, nous démontrons l'utilité de SweLoc pour améliorer divers modèles de récupération et reclassement existants pour la localisation de problèmes, établissant ainsi ce jeu de données comme une ressource précieuse pour la communauté.

VCRBench : Exploration des capacités de raisonnement causal à long terme des grands modèles vidéo-langage
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13

ByPritam Sarkar, Ali Etemad

Malgré les récents progrès dans la compréhension vidéo, les capacités des grands modèles de langage vidéo (LVLMs) à effectuer un raisonnement causal basé sur la vidéo restent peu explorées, principalement en raison de l'absence de benchmarks pertinents et dédiés pour évaluer le raisonnement causal dans des contextes visuellement ancrés et orientés vers un objectif. Pour combler cette lacune, nous introduisons un nouveau benchmark nommé Raisonnement Causal Long-Forme basé sur la Vidéo (VCRBench). Nous avons créé VCRBench en utilisant des vidéos procédurales d'activités quotidiennes simples, où les étapes sont délibérément mélangées, chaque clip capturant un événement causal clé, afin de tester si les LVLMs peuvent identifier, raisonner et séquencer correctement les événements nécessaires pour accomplir un objectif spécifique. De plus, le benchmark est soigneusement conçu pour empêcher les LVLMs d'exploiter des raccourcis linguistiques, comme on le voit dans les formats de questions à choix multiples ou binaires, tout en évitant les défis associés à l'évaluation des questions ouvertes. Notre évaluation des LVLMs de pointe sur VCRBench suggère que ces modèles ont du mal avec le raisonnement causal long-forme basé sur la vidéo, principalement en raison de leur difficulté à modéliser les dépendances causales à long terme directement à partir d'observations visuelles. Comme une étape simple pour permettre de telles capacités, nous proposons la Décomposition Reconnaissance-Raisonnement (RRD), une approche modulaire qui divise le raisonnement causal basé sur la vidéo en deux sous-tâches de reconnaissance vidéo et de raisonnement causal. Nos expériences sur VCRBench montrent que RRD améliore significativement la précision sur VCRBench, avec des gains allant jusqu'à 25,2 %. Enfin, notre analyse approfondie révèle des insights intéressants, par exemple, que les LVLMs s'appuient principalement sur les connaissances linguistiques pour les tâches complexes de raisonnement causal long-forme basé sur la vidéo.

DetReIDX : Un jeu de données de test de résistance pour la reconnaissance de personnes en conditions réelles par drones
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7

ByKailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

La technologie de réidentification de personnes (ReID) est généralement considérée comme performante dans des conditions contrôlées au niveau du sol, mais elle montre des limites lorsqu'elle est déployée dans des environnements réels complexes. Cela s'explique principalement par des facteurs de variabilité extrême des données, tels que les changements de résolution, de point de vue, d'échelle, les occlusions, ainsi que les variations d'apparence dues aux vêtements ou aux différences entre sessions. De plus, les ensembles de données publics disponibles n'intègrent pas de manière réaliste ce type et cette ampleur de variabilité, ce qui freine les avancées dans ce domaine. Cet article présente DetReIDX, un vaste ensemble de données aériennes et terrestres dédié à la réidentification de personnes, conçu spécifiquement comme un test de résistance pour la ReID dans des conditions réelles. DetReIDX est un ensemble multi-sessions comprenant plus de 13 millions de boîtes englobantes issues de 509 identités, collectées sur sept campus universitaires répartis sur trois continents, avec des altitudes de drone variant entre 5,8 et 120 mètres. Plus important encore, en tant que nouveauté clé, les sujets de DetReIDX ont été enregistrés lors d'au moins deux sessions à des jours différents, avec des changements de vêtements, d'éclairage et de lieu, ce qui le rend adapté pour évaluer la réidentification de personnes sur le long terme. En outre, les données ont été annotées avec 16 attributs biométriques doux et des étiquettes multitâches pour la détection, le suivi, la ReID et la reconnaissance d'actions. Afin de démontrer empiriquement l'utilité de DetReIDX, nous avons examiné les tâches spécifiques de détection humaine et de ReID, où les méthodes de pointe voient leurs performances se dégrader de manière catastrophique (jusqu'à 80 % en précision de détection et plus de 70 % en ReID Rank-1) lorsqu'elles sont confrontées aux conditions de DetReIDX. Le jeu de données, les annotations et les protocoles d'évaluation officiels sont disponibles publiquement à l'adresse suivante : https://www.it.ubi.pt/DetReIDX/

Comprendre et atténuer la toxicité dans les ensembles de données de pré-entraînement image-texte : une étude de cas sur LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9

ByKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Les ensembles de données de pré-entraînement sont fondamentaux pour le développement de modèles multimodaux, mais ils contiennent souvent des biais inhérents et du contenu toxique provenant des corpus à l'échelle du web dont ils sont issus. Dans cet article, nous étudions la prévalence de la toxicité dans l'ensemble de données de pré-entraînement image-texte LLaVA, en examinant comment le contenu nuisible se manifeste dans différentes modalités. Nous présentons une analyse approfondie des catégories courantes de toxicité et proposons des stratégies ciblées d'atténuation, aboutissant à la création d'un ensemble de données raffiné et atténué en termes de toxicité. Cet ensemble de données supprime 7 531 paires image-texte toxiques dans le jeu de données de pré-entraînement LLaVA. Nous fournissons des lignes directrices pour la mise en œuvre de pipelines robustes de détection de la toxicité. Nos résultats soulignent la nécessité d'identifier et de filtrer activement le contenu toxique - tel que les discours haineux, les images explicites et le harcèlement ciblé - pour construire des systèmes multimodaux plus responsables et équitables. L'ensemble de données atténué en termes de toxicité est open source et disponible pour des recherches ultérieures.

Derrière Maya : Construction d'un modèle de langage visuel multilingue
Behind Maya: Building a Multilingual Vision Language Model

May 13

ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

Ces dernières années, nous avons assisté à un développement rapide des grands modèles vision-langage (VLMs). Ces modèles ont démontré des résultats impressionnants sur les benchmarks académiques, principalement pour les langues largement parlées, mais présentent des lacunes en ce qui concerne les langues à ressources limitées et les contextes culturels variés. Pour pallier ces limitations, nous introduisons Maya, un VLM multilingue open-source. Nos contributions sont les suivantes : 1) un jeu de données multilingue de pré-entraînement image-texte dans huit langues, basé sur le jeu de données de pré-entraînement LLaVA ; et 2) un modèle image-texte multilingue prenant en charge ces langues, améliorant ainsi la compréhension culturelle et linguistique dans les tâches vision-langage. Le code est disponible à l'adresse suivante : https://github.com/nahidalam/maya.

Raisonnement visuellement interprétable par sous-tâches pour la réponse à des questions visuelles
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12

ByYu Cheng, Arushi Goel, Hakan Bilen

Répondre à des questions visuelles complexes comme `Quel meuble rouge peut être utilisé pour s'asseoir ?` nécessite un raisonnement en plusieurs étapes, incluant la reconnaissance d'objets, le filtrage d'attributs et la compréhension des relations. Les travaux récents améliorent l'interprétabilité des modèles de langage multimodaux de grande taille (MLLMs) en décomposant les tâches en sous-programmes, mais ces méthodes sont coûteuses en calcul et moins précises en raison d'une mauvaise adaptation aux données cibles. Pour résoudre ce problème, nous introduisons VISTAR (Modèle de Raisonnement Conscient des Sous-Tâches Visuellement Interprétable), un cadre d'entraînement basé sur les sous-tâches qui améliore à la fois l'interprétabilité et le raisonnement en générant des explications textuelles et visuelles au sein des MLLMs. Au lieu de s'appuyer sur des modèles externes, VISTAR affine les MLLMs pour produire des justifications structurées de type "Sous-Tâche de Pensée" (séquences de raisonnement étape par étape). Les expériences sur deux benchmarks montrent que VISTAR améliore constamment la précision du raisonnement tout en maintenant l'interprétabilité. Notre code et notre ensemble de données seront disponibles à l'adresse https://github.com/ChengJade/VISTAR.

Contrôle de densité par descente la plus raide pour le placage compact de Gaussiennes 3D
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8

ByPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan

Le 3D Gaussian Splatting (3DGS) s'est imposé comme une technique puissante pour la synthèse de nouvelles vues en temps réel et haute résolution. En représentant les scènes comme un mélange de primitives gaussiennes, le 3DGS exploite les pipelines de rasterisation GPU pour un rendu et une reconstruction efficaces. Pour optimiser la couverture de la scène et capturer les détails fins, le 3DGS utilise un algorithme de densification pour générer des points supplémentaires. Cependant, ce processus conduit souvent à des nuages de points redondants, entraînant une utilisation excessive de la mémoire, des performances ralenties et des besoins de stockage importants - posant ainsi des défis majeurs pour le déploiement sur des appareils aux ressources limitées. Pour pallier cette limitation, nous proposons un cadre théorique qui démystifie et améliore le contrôle de la densité dans le 3DGS. Notre analyse révèle que la division est cruciale pour échapper aux points selles. Grâce à une approche d'optimisation théorique, nous établissons les conditions nécessaires à la densification, déterminons le nombre minimal de Gaussiennes filles, identifions la direction optimale de mise à jour des paramètres et fournissons une solution analytique pour normaliser l'opacité des Gaussiennes filles. Sur la base de ces insights, nous introduisons SteepGS, intégrant un contrôle de densité optimal, une stratégie rigoureuse qui minimise la perte tout en maintenant un nuage de points compact. SteepGS permet une réduction d'environ 50 % du nombre de points gaussiens sans compromettre la qualité du rendu, améliorant ainsi significativement l'efficacité et l'évolutivité.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

BLIP3-o : Une famille de modèles multimodaux unifiés entièrement ouverts - Architecture, entraînement et jeu de données
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

Perspectives sur DeepSeek-V3 : Défis de mise à l'échelle et réflexions sur le matériel pour les architectures d'IA
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14

ByChenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

MathCoder-VL : Relier la vision et le code pour un raisonnement mathématique multimodal amélioré
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15

ByKe Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

DeCLIP : Apprentissage découplé pour la perception dense à vocabulaire ouvert
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7

ByJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

LightLab : Contrôle des sources lumineuses dans les images grâce aux modèles de diffusion
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14

ByNadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

Marigold : Adaptation économique de générateurs d'images basés sur la diffusion pour l'analyse d'images
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14

ByBingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

CAST : Reconstruction de scène 3D alignée par composants à partir d'une image RVB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18

ByKaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

UniSkill : Imitation de vidéos humaines via des représentations de compétences trans-embodiment
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13

ByHanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

WavReward : Modèles de dialogue parlé avec évaluateurs de récompense généralistes
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14

ByShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Omni-R1 : Avez-vous vraiment besoin de l'audio pour affiner votre modèle de langage audio ?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14

ByAndrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

SweRank : Localisation des problèmes logiciels par classement de code
SweRank: Software Issue Localization with Code Ranking

May 7

ByRevanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

VCRBench : Exploration des capacités de raisonnement causal à long terme des grands modèles vidéo-langage
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13

ByPritam Sarkar, Ali Etemad

DetReIDX : Un jeu de données de test de résistance pour la reconnaissance de personnes en conditions réelles par drones
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7

ByKailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

Comprendre et atténuer la toxicité dans les ensembles de données de pré-entraînement image-texte : une étude de cas sur LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9

ByKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Derrière Maya : Construction d'un modèle de langage visuel multilingue
Behind Maya: Building a Multilingual Vision Language Model

May 13

Raisonnement visuellement interprétable par sous-tâches pour la réponse à des questions visuelles
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12

ByYu Cheng, Arushi Goel, Hakan Bilen

Contrôle de densité par descente la plus raide pour le placage compact de Gaussiennes 3D
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8

ByPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan