HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

22 papers found

SmolVLM : Redéfinir les modèles multimodaux compacts et efficaces
SmolVLM: Redefining small and efficient multimodal models

Apr 7

ByAndrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf

200

Les grands modèles vision-langage (VLMs) offrent des performances exceptionnelles mais nécessitent d'importantes ressources computationnelles, limitant leur déploiement sur les appareils mobiles et périphériques. Les VLMs plus petits reprennent généralement les choix de conception des modèles plus grands, comme une tokenisation extensive des images, ce qui entraîne une utilisation inefficace de la mémoire GPU et une praticité limitée pour les applications embarquées. Nous présentons SmolVLM, une série de modèles multimodaux compacts spécialement conçus pour une inférence économe en ressources. Nous explorons systématiquement les configurations architecturales, les stratégies de tokenisation et la curation de données optimisées pour une faible surcharge computationnelle. Ce faisant, nous identifions des choix de conception clés qui génèrent des gains de performance substantiels sur les tâches d'images et de vidéos avec des empreintes mémoire minimales. Notre plus petit modèle, SmolVLM-256M, utilise moins de 1 Go de mémoire GPU lors de l'inférence et surpasse le modèle Idefics-80B, 300 fois plus grand, malgré un écart de développement de 18 mois. Notre plus grand modèle, avec 2,2 milliards de paramètres, rivalise avec les VLMs de pointe consommant deux fois plus de mémoire GPU. Les modèles SmolVLM vont au-delà des images statiques, démontrant des capacités robustes de compréhension vidéo. Nos résultats soulignent que des optimisations architecturales stratégiques, une tokenisation agressive mais efficace et des données d'entraînement soigneusement sélectionnées améliorent significativement les performances multimodales, facilitant des déploiements pratiques et économes en énergie à des échelles nettement plus réduites.

Génération de vidéos d'une minute avec entraînement au moment du test
One-Minute Video Generation with Test-Time Training

Apr 7

ByKaran Dalal, Daniel Koceja, Gashon Hussein, Jiarui Xu, Yue Zhao, Youjin Song, Shihao Han, Ka Chun Cheung, Jan Kautz, Carlos Guestrin, Tatsunori Hashimoto, Sanmi Koyejo, Yejin Choi, Yu Sun, Xiaolong Wang

110

Les Transformers actuels peinent encore à générer des vidéos d'une minute, car les couches d'auto-attention sont inefficaces pour les contextes longs. Des alternatives comme les couches Mamba rencontrent des difficultés avec des histoires complexes à scènes multiples, car leurs états cachés sont moins expressifs. Nous expérimentons avec des couches de Test-Time Training (TTT), dont les états cachés peuvent eux-mêmes être des réseaux de neurones, et donc plus expressifs. L'ajout de couches TTT à un Transformer pré-entraîné lui permet de générer des vidéos d'une minute à partir de storyboards textuels. Pour la preuve de concept, nous avons constitué un ensemble de données basé sur les dessins animés Tom et Jerry. Comparées aux méthodes de référence telles que Mamba~2, Gated DeltaNet et les couches d'attention à fenêtre glissante, les couches TTT génèrent des vidéos bien plus cohérentes racontant des histoires complexes, devançant de 34 points Elo dans une évaluation humaine portant sur 100 vidéos par méthode. Bien que prometteurs, les résultats contiennent encore des artefacts, probablement dus aux capacités limitées du modèle pré-entraîné de 5 milliards de paramètres. L'efficacité de notre implémentation peut également être améliorée. Nous n'avons expérimenté qu'avec des vidéos d'une minute en raison de contraintes de ressources, mais l'approche peut être étendue à des vidéos plus longues et à des histoires plus complexes. Des exemples de vidéos, le code et les annotations sont disponibles à l'adresse suivante : https://test-time-training.github.io/video-dit.

Repenser la réflexion dans le pré-entraînement
Rethinking Reflection in Pre-Training

Apr 5

ByEssential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski

La capacité d'un modèle de langage à réfléchir sur son propre raisonnement constitue un avantage clé pour résoudre des problèmes complexes. Alors que la plupart des recherches récentes se sont concentrées sur la manière dont cette capacité se développe pendant l'apprentissage par renforcement, nous montrons qu'elle commence en réalité à émerger bien plus tôt - pendant la phase de pré-entraînement du modèle. Pour étudier ce phénomène, nous introduisons des erreurs délibérées dans des chaînes de raisonnement et testons si le modèle peut tout de même parvenir à la bonne réponse en reconnaissant et en corrigeant ces erreurs. En suivant les performances à différentes étapes du pré-entraînement, nous observons que cette capacité d'auto-correction apparaît tôt et s'améliore régulièrement au fil du temps. Par exemple, un modèle OLMo2-7B pré-entraîné sur 4 billions de tokens démontre une capacité d'auto-correction sur nos six tâches de réflexion personnelle.

T1 : Auto-vérification intégrée aux outils pour l'ajustement dynamique des ressources de calcul lors des tests dans les petits modèles de langage
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

Apr 7

ByMinki Kang, Jongwon Jeong, Jaewoong Cho

Des études récentes ont démontré que l'augmentation des ressources de calcul au moment du test améliore efficacement les performances des petits modèles de langage (sLMs). Cependant, les recherches antérieures ont principalement examiné cette augmentation avec un modèle plus grand servant de vérificateur, laissant l'auto-vérification par les sLMs peu explorée. Dans ce travail, nous étudions si les sLMs peuvent auto-vérifier de manière fiable leurs sorties lors de l'augmentation des ressources de calcul au moment du test. Nous constatons que même avec la distillation de connaissances à partir de vérificateurs plus grands, les sLMs peinent à accomplir des tâches de vérification nécessitant de la mémorisation, telles que les calculs numériques et la vérification des faits. Pour pallier cette limitation, nous proposons l'auto-vérification intégrée à des outils (T1), qui délègue les étapes de vérification exigeant une forte mémorisation à des outils externes, comme un interpréteur de code. Notre analyse théorique montre que l'intégration d'outils réduit les besoins en mémorisation et améliore les performances lors de l'augmentation des ressources de calcul au moment du test. Les expériences sur le benchmark MATH démontrent qu'avec T1, un modèle Llama-3.2 1B sous augmentation des ressources de calcul surpasse le modèle Llama-3.1 8B, pourtant nettement plus grand. De plus, T1 généralise efficacement à la fois aux tâches mathématiques (MATH500) et aux tâches intensives en connaissances multi-domaines (MMLU-Pro). Nos résultats mettent en lumière le potentiel de l'intégration d'outils pour améliorer considérablement les capacités d'auto-vérification des sLMs.

URECA : Description Unique de Région pour Tout Capturer
URECA: Unique Region Caption Anything

Apr 7

BySangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim

La génération de descriptions au niveau des régions vise à produire des descriptions en langage naturel pour des régions spécifiques d'une image tout en mettant en avant leurs caractéristiques distinctives. Cependant, les méthodes existantes peinent à générer des descriptions uniques à travers plusieurs granularités, limitant ainsi leur applicabilité dans le monde réel. Pour répondre au besoin d'une compréhension détaillée au niveau des régions, nous introduisons le jeu de données URECA, un ensemble de données à grande échelle conçu pour la génération de descriptions multi-granularités. Contrairement aux jeux de données précédents qui se concentrent principalement sur des objets saillants, URECA garantit une correspondance unique et cohérente entre les régions et les descriptions en intégrant une diversité d'objets, de parties et d'éléments de fond. Au cœur de cette approche se trouve un pipeline de curation de données par étapes, où chaque étape affine progressivement la sélection des régions et la génération des descriptions. En exploitant des modèles de langage multimodaux à grande échelle (MLLMs) à chaque étape, notre pipeline produit des descriptions distinctes et contextuellement ancrées, avec une précision et une diversité sémantique améliorées. Sur la base de ce jeu de données, nous présentons URECA, un nouveau modèle de génération de descriptions conçu pour encoder efficacement des régions multi-granularités. URECA préserve les propriétés spatiales essentielles telles que la position et la forme grâce à des modifications simples mais impactantes des MLLMs existants, permettant ainsi des descriptions de régions fines et riches en sémantique. Notre approche introduit une modélisation dynamique des masques et un encodeur de masques haute résolution pour améliorer l'unicité des descriptions. Les expériences montrent que URECA atteint des performances de pointe sur le jeu de données URECA et généralise bien aux benchmarks existants de génération de descriptions au niveau des régions.

La quantification nuit-elle au raisonnement ? Une étude empirique sur les modèles de raisonnement quantifiés
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

Apr 7

ByRuikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou

Les récents progrès des modèles de langage à raisonnement ont démontré des performances remarquables dans des tâches complexes, mais leur processus de raisonnement en chaîne de pensée étendue augmente la surcharge d'inférence. Bien que la quantification ait été largement adoptée pour réduire le coût d'inférence des grands modèles de langage, son impact sur les modèles de raisonnement reste peu étudié. Dans cette étude, nous menons la première étude systématique sur les modèles de raisonnement quantifiés, évaluant les familles DeepSeek-R1-Distilled Qwen et LLaMA, allant de 1,5B à 70B paramètres, ainsi que QwQ-32B, disponibles en open source. Notre investigation couvre la quantification des poids, du cache KV et des activations en utilisant des algorithmes de pointe à différentes largeurs de bits, avec une évaluation approfondie sur des benchmarks de raisonnement mathématique (AIME, MATH-500), scientifique (GPQA) et de programmation (LiveCodeBench). Nos résultats révèlent que bien qu'une quantification sans perte puisse être atteinte avec une quantification W8A8 ou W4A16, des largeurs de bits plus faibles introduisent des risques significatifs de précision. Nous identifions également la taille du modèle, son origine et la difficulté de la tâche comme des déterminants critiques de la performance. Contrairement aux attentes, les modèles quantifiés n'exhibent pas d'augmentation de la longueur des sorties. De plus, une mise à l'échelle stratégique des tailles de modèles ou des étapes de raisonnement peut efficacement améliorer les performances. Tous les modèles quantifiés et les codes seront mis à disposition en open source sur https://github.com/ruikangliu/Quantized-Reasoning-Models.

VAPO : Apprentissage par renforcement efficace et fiable pour des tâches de raisonnement avancé
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Apr 7

ByYuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan

Nous présentons VAPO, un cadre d'Optimisation de Politique Proximale Augmentée basée sur la valeur, spécialement conçu pour les modèles de raisonnement dans le paradigme basé sur la valeur. Évalué sur le jeu de données AIME 2024, VAPO, construit sur le modèle pré-entraîné Qwen 32B, atteint un score de pointe de 60,4. En comparaison directe dans des conditions expérimentales identiques, VAPO surpasse les résultats précédemment rapportés de DeepSeek-R1-Zero-Qwen-32B et DAPO de plus de 10 points. Le processus d'entraînement de VAPO se distingue par sa stabilité et son efficacité. Il atteint des performances de pointe en seulement 5 000 étapes. De plus, sur plusieurs exécutions indépendantes, aucun crash d'entraînement ne se produit, soulignant sa fiabilité. Cette recherche explore le raisonnement en chaîne de pensée longue (long-CoT) en utilisant un cadre d'apprentissage par renforcement basé sur la valeur. Nous identifions trois défis majeurs qui affectent les méthodes basées sur la valeur : le biais du modèle de valeur, la présence de longueurs de séquences hétérogènes et la rareté des signaux de récompense. Grâce à une conception systématique, VAPO propose une solution intégrée qui atténue efficacement ces défis, permettant une amélioration des performances dans les tâches de raisonnement long-CoT.

Concept Lancet : Édition d'images avec représentation compositionnelle Transplantation
Concept Lancet: Image Editing with Compositional Representation Transplant

Apr 3

ByJinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal

Les modèles de diffusion sont largement utilisés pour les tâches d'édition d'images. Les méthodes d'édition existantes conçoivent souvent une procédure de manipulation des représentations en définissant une direction d'édition dans l'espace des embeddings textuels ou des scores. Cependant, une telle procédure fait face à un défi majeur : surestimer la force d'édition nuit à la cohérence visuelle, tandis que la sous-estimer compromet la tâche d'édition. Notamment, chaque image source peut nécessiter une force d'édition différente, et il est coûteux de rechercher une force appropriée par essais et erreurs. Pour relever ce défi, nous proposons Concept Lancet (CoLan), un framework plug-and-play zero-shot pour une manipulation de représentation rigoureuse dans l'édition d'images basée sur la diffusion. Au moment de l'inférence, nous décomposons l'entrée source dans l'espace latent (embedding textuel ou score de diffusion) comme une combinaison linéaire parcimonieuse des représentations des concepts visuels collectés. Cela nous permet d'estimer avec précision la présence de concepts dans chaque image, ce qui guide l'édition. En fonction de la tâche d'édition (remplacer/ajouter/supprimer), nous effectuons un processus de transplantation de concept personnalisé pour imposer la direction d'édition correspondante. Pour modéliser suffisamment l'espace des concepts, nous avons constitué un ensemble de données de représentations conceptuelles, CoLan-150K, qui contient des descriptions et des scénarios variés de termes et expressions visuels pour le dictionnaire latent. Les expériences sur plusieurs bases d'édition d'images basées sur la diffusion montrent que les méthodes équipées de CoLan atteignent des performances de pointe en termes d'efficacité d'édition et de préservation de la cohérence.

Pourquoi le raisonnement est-il important ? Un aperçu des avancées en raisonnement multimodal (v1)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Apr 4

ByJing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu

Le raisonnement est au cœur de l'intelligence humaine, permettant une résolution structurée de problèmes dans des tâches variées. Les récents progrès des grands modèles de langage (LLMs) ont considérablement amélioré leurs capacités de raisonnement dans les domaines arithmétiques, de bon sens et symboliques. Cependant, étendre efficacement ces capacités à des contextes multimodaux, où les modèles doivent intégrer à la fois des entrées visuelles et textuelles, reste un défi majeur. Le raisonnement multimodal introduit des complexités, telles que la gestion d'informations conflictuelles entre les modalités, nécessitant des stratégies interprétatives avancées. Relever ces défis implique non seulement des algorithmes sophistiqués, mais aussi des méthodologies robustes pour évaluer la précision et la cohérence du raisonnement. Ce papier propose un aperçu concis mais perspicace des techniques de raisonnement dans les LLMs textuels et multimodaux. À travers une comparaison approfondie et actualisée, nous formulons clairement les défis et opportunités fondamentaux du raisonnement, en mettant en lumière des méthodes pratiques pour l'optimisation post-entraînement et l'inférence en temps réel. Notre travail offre des insights et des orientations précieux, faisant le lien entre les cadres théoriques et les implémentations pratiques, et trace des directions claires pour les recherches futures.

LiveVQA : Recherche visuelle de connaissances en temps réel
LiveVQA: Live Visual Knowledge Seeking

Apr 7

ByMingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen

Nous présentons LiveVQA, un ensemble de données collecté automatiquement contenant les dernières connaissances visuelles provenant d'Internet, accompagné de problèmes de VQA synthétisés. LiveVQA comprend 3 602 questions visuelles à un ou plusieurs sauts, issues de 6 sites d'actualités couvrant 14 catégories de nouvelles, et se distingue par une cohérence image-texte de haute qualité et des informations authentiques. Notre évaluation sur 15 MLLMs (par exemple, GPT-4o, Gemma-3 et la famille Qwen-2.5-VL) montre que les modèles plus performants obtiennent de meilleurs résultats globaux, avec des capacités de raisonnement visuel avancées qui s'avèrent cruciales pour les questions complexes à plusieurs sauts. Malgré des performances excellentes sur les problèmes textuels, les modèles équipés d'outils comme les moteurs de recherche présentent encore des lacunes significatives lorsqu'il s'agit de répondre à des questions visuelles nécessitant les dernières connaissances visuelles, soulignant ainsi des domaines importants pour la recherche future.

Obtenez-vous ce pour quoi vous payez ? Audit de la substitution de modèles dans les API de LLM
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Apr 7

ByWill Cai, Tianneng Shi, Xuandong Zhao, Dawn Song

La prolifération des modèles de langage de grande taille (LLMs) accessibles via des API en boîte noire introduit un défi majeur en matière de confiance : les utilisateurs paient pour des services basés sur les capacités annoncées des modèles (par exemple, la taille, les performances), mais les fournisseurs peuvent substituer secrètement le modèle spécifié par une alternative moins chère et de moindre qualité pour réduire les coûts opérationnels. Ce manque de transparence compromet l'équité, érode la confiance et complique l'évaluation fiable. Détecter de telles substitutions est difficile en raison de la nature en boîte noire, limitant généralement l'interaction à des requêtes entrée-sortie. Cet article formalise le problème de la détection de substitution de modèles dans les API de LLMs. Nous évaluons systématiquement les techniques de vérification existantes, y compris les tests statistiques basés sur les sorties, les évaluations de référence et l'analyse des probabilités logarithmiques, sous divers scénarios d'attaque réalistes comme la quantification de modèles, la substitution aléatoire et l'évasion des benchmarks. Nos résultats révèlent les limites des méthodes reposant uniquement sur les sorties textuelles, en particulier contre des attaques subtiles ou adaptatives. Bien que l'analyse des probabilités logarithmiques offre des garanties plus solides lorsqu'elle est disponible, son accessibilité est souvent limitée. Nous concluons en discutant du potentiel des solutions matérielles comme les environnements d'exécution de confiance (TEEs) comme voie vers l'intégrité prouvable des modèles, en mettant en lumière les compromis entre sécurité, performance et adoption par les fournisseurs. Le code est disponible à l'adresse https://github.com/sunblaze-ucb/llm-api-audit.

Modèles de correspondance de flux par mélange gaussien
Gaussian Mixture Flow Matching Models

Apr 7

ByHansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

Les modèles de diffusion approchent la distribution de débruitage comme une Gaussienne et prédisent sa moyenne, tandis que les modèles de correspondance de flux reparamétrisent la moyenne Gaussienne en tant que vitesse de flux. Cependant, ils sous-performent dans l'échantillonnage en quelques étapes en raison de l'erreur de discrétisation et ont tendance à produire des couleurs sursaturées sous le guidage sans classifieur (CFG). Pour remédier à ces limitations, nous proposons un nouveau modèle de correspondance de flux par mélange Gaussien (GMFlow) : au lieu de prédire la moyenne, GMFlow prédit des paramètres dynamiques de mélange Gaussien (GM) pour capturer une distribution de vitesse de flux multi-modale, qui peut être apprise avec une perte de divergence KL. Nous démontrons que GMFlow généralise les modèles de diffusion et de correspondance de flux précédents où une seule Gaussienne est apprise avec une perte de débruitage L_2. Pour l'inférence, nous dérivons des solveurs GM-SDE/ODE qui exploitent des distributions de débruitage analytiques et des champs de vitesse pour un échantillonnage précis en quelques étapes. De plus, nous introduisons un nouveau schéma de guidage probabiliste qui atténue les problèmes de sursaturation du CFG et améliore la qualité de génération d'images. Des expériences approfondies démontrent que GMFlow surpasse systématiquement les modèles de référence en correspondance de flux en termes de qualité de génération, atteignant une Précision de 0,942 avec seulement 6 étapes d'échantillonnage sur ImageNet 256×256.

DiaTool-DPO : Optimisation Directe des Préférences Multi-Tours pour les Modèles de Langage à Grande Échelle Augmentés par des Outils
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models

Apr 2

BySunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin

Les modèles de langage augmentés par outils (TA-LLMs) ont montré des résultats prometteurs dans des applications réelles, mais rencontrent des difficultés à gérer les requêtes incomplètes et les demandes hors du champ d'application. Alors que les approches existantes reposent principalement sur un ajustement fin supervisé avec des trajectoires expertes, nous proposons DiaTool-DPO, une méthode novatrice qui améliore les capacités de dialogue des TA-LLMs grâce à l'optimisation directe des préférences. Nous modélisons les interactions des TA-LLMs comme un processus de décision markovien avec 5 états de dialogue distincts et classons les requêtes utilisateurs en 3 types en fonction de leurs trajectoires de transition d'état. Nous construisons automatiquement des ensembles de données de trajectoires appariées de flux de dialogue corrects et incorrects et introduisons une fonction de perte spécialisée pour le contrôle du dialogue. Notre évaluation approfondie démontre que DiaTool-DPO approche les performances de GPT-4o (94,8 % en collecte d'informations, 91 % en rejet d'appels d'outils) avec des améliorations substantielles par rapport à la ligne de base (44 % et 9,6 % respectivement) tout en maintenant les fonctionnalités principales. Notre approche ouvre de nouvelles possibilités pour développer des TA-LLMs capables de gérer divers scénarios réels sans nécessiter de démonstrations expertes supplémentaires ou d'étiquetage humain.

Défi BOP 2024 sur l'estimation de la pose 6D d'objets par approches basées sur modèle et sans modèle
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

Apr 3

ByVan Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan

Nous présentons la méthodologie d'évaluation, les jeux de données et les résultats du BOP Challenge 2024, la sixième édition d'une série de compétitions publiques organisées pour mesurer l'état de l'art dans l'estimation de pose 6D d'objets et les tâches associées. En 2024, notre objectif était de faire évoluer BOP des configurations de laboratoire vers des scénarios réels. Premièrement, nous avons introduit de nouvelles tâches sans modèle, où aucun modèle 3D d'objet n'est disponible et où les méthodes doivent intégrer des objets uniquement à partir de vidéos de référence fournies. Deuxièmement, nous avons défini une nouvelle tâche de détection 6D d'objets plus pratique, où les identités des objets visibles dans une image de test ne sont pas fournies en entrée. Troisièmement, nous avons introduit de nouveaux jeux de données BOP-H3, enregistrés avec des capteurs haute résolution et des casques AR/VR, ressemblant étroitement à des scénarios réels. BOP-H3 inclut des modèles 3D et des vidéos d'intégration pour supporter à la fois les tâches avec et sans modèle. Les participants ont concouru sur sept pistes de challenge, chacune définie par une tâche, une configuration d'intégration d'objets et un groupe de jeux de données. Notamment, la meilleure méthode de 2024 pour la localisation 6D basée sur modèle d'objets non vus (FreeZeV2.1) atteint une précision 22% supérieure sur BOP-Classic-Core par rapport à la meilleure méthode de 2023 (GenFlow), et n'est que 4% derrière la meilleure méthode de 2023 pour les objets vus (GPose2023) bien qu'étant significativement plus lente (24,9 vs 2,7s par image). Une méthode plus pratique de 2024 pour cette tâche est Co-op, qui ne prend que 0,8s par image et est 25 fois plus rapide et 13% plus précise que GenFlow. Les méthodes ont un classement similaire en détection 6D qu'en localisation 6D mais avec un temps d'exécution plus élevé. Pour la détection 2D basée sur modèle d'objets non vus, la meilleure méthode de 2024 (MUSE) atteint une amélioration relative de 21% par rapport à la meilleure méthode de 2023 (CNOS). Cependant, la précision de détection 2D pour les objets non vus reste notablement inférieure (-53%) à celle des objets vus (GDet2023). Le système d'évaluation en ligne reste ouvert et est disponible à l'adresse http://bop.felk.cvut.cz/.

Clinical ModernBERT : Un encodeur efficace et à contexte étendu pour le texte biomédical
Clinical ModernBERT: An efficient and long context encoder for biomedical text

Apr 4

BySimon A. Lee, Anthony Wu, Jeffrey N. Chiang

Nous présentons Clinical ModernBERT, un encodeur basé sur des transformateurs pré-entraîné sur une vaste littérature biomédicale, des notes cliniques et des ontologies médicales, intégrant des résumés PubMed, des données cliniques MIMIC IV et des codes médicaux avec leurs descriptions textuelles. S'appuyant sur ModernBERT, l'encodeur de texte en langage naturel actuellement à la pointe de la technologie, qui intègre des améliorations architecturales telles que les embeddings positionnels rotatifs (RoPE), l'attention Flash et une longueur de contexte étendue jusqu'à 8 192 tokens, notre modèle adapte ces innovations spécifiquement aux domaines biomédical et clinique. Clinical ModernBERT excelle dans la production de représentations sémantiquement riches adaptées aux tâches nécessitant un contexte long. Nous validons cela à la fois par l'analyse de ses poids pré-entraînés et par une évaluation empirique sur un ensemble complet de benchmarks en traitement du langage naturel clinique.

Compréhension de scènes 3D par modélisation de séquences à accès aléatoire local
3D Scene Understanding Through Local Random Access Sequence Modeling

Apr 4

ByWanhee Lee, Klemen Kotar, Rahul Mysore Venkatesh, Jared Watrous, Honglin Chen, Khai Loong Aw, Daniel L. K. Yamins

La compréhension de scènes 3D à partir d'images uniques est un problème central en vision par ordinateur, avec de nombreuses applications en infographie, réalité augmentée et robotique. Bien que les approches basées sur la modélisation par diffusion aient montré des résultats prometteurs, elles peinent souvent à maintenir la cohérence des objets et des scènes, en particulier dans des scénarios réels complexes. Pour pallier ces limitations, nous proposons une approche générative autorégressive appelée modélisation par séquence à accès aléatoire local (LRAS), qui utilise une quantification par patchs locaux et une génération de séquences ordonnées aléatoirement. En exploitant le flux optique comme représentation intermédiaire pour l'édition de scènes 3D, nos expériences démontrent que LRAS atteint des performances de pointe en synthèse de vues nouvelles et en manipulation d'objets 3D. De plus, nous montrons que notre cadre s'étend naturellement à l'estimation de profondeur auto-supervisée grâce à une simple modification de la conception des séquences. En obtenant des performances solides sur plusieurs tâches de compréhension de scènes 3D, LRAS fournit un cadre unifié et efficace pour construire la prochaine génération de modèles de vision 3D.

Mamba comme pont : où les modèles de fondation visuelle rencontrent les modèles de langage visuel pour la segmentation sémantique généralisée au domaine
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

Apr 4

ByXin Zhang, Robby T. Tan

Les modèles de base pour la vision (Vision Foundation Models, VFMs) et les modèles vision-langage (Vision-Language Models, VLMs) ont gagné en popularité dans le domaine de la segmentation sémantique généralisée (Domain Generalized Semantic Segmentation, DGSS) grâce à leurs fortes capacités de généralisation. Cependant, les méthodes existantes en DGSS s'appuient souvent exclusivement sur les VFMs ou les VLMs, négligeant ainsi leurs forces complémentaires. Les VFMs (par exemple, DINOv2) excellent dans la capture de caractéristiques fines, tandis que les VLMs (par exemple, CLIP) offrent un alignement textuel robuste mais peinent avec une granularité grossière. Malgré leurs forces complémentaires, l'intégration efficace des VFMs et des VLMs avec des mécanismes d'attention est complexe, car l'augmentation des tokens de patch complique la modélisation des séquences longues. Pour résoudre ce problème, nous proposons MFuser, un nouveau cadre de fusion basé sur Mamba qui combine efficacement les forces des VFMs et des VLMs tout en maintenant une scalabilité linéaire en fonction de la longueur des séquences. MFuser se compose de deux éléments clés : MVFuser, qui agit comme un co-adaptateur pour affiner conjointement les deux modèles en capturant à la fois les dynamiques séquentielles et spatiales ; et MTEnhancer, un module hybride attention-Mamba qui affine les embeddings textuels en intégrant des a priori visuels. Notre approche permet d'obtenir une localisation précise des caractéristiques et un alignement textuel robuste sans entraîner de surcharge computationnelle significative. Des expériences approfondies démontrent que MFuser surpasse de manière significative les méthodes DGSS de pointe, atteignant 68,20 mIoU sur des benchmarks synthétiques-vers-réels et 71,87 mIoU sur des benchmarks réels-vers-réels. Le code est disponible à l'adresse https://github.com/devinxzhang/MFuser.

Distillation et raffinement du raisonnement dans les petits modèles de langage pour le réordonnancement de documents
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

Apr 4

ByChris Samarinas, Hamed Zamani

Nous présentons une nouvelle approche pour entraîner des modèles de langage de petite taille pour le classement de documents nécessitant un raisonnement intensif, qui combine la distillation de connaissances avec une optimisation par apprentissage par renforcement. Alors que les méthodes existantes reposent souvent sur des annotations humaines coûteuses ou sur de grands modèles de langage opaques, notre méthodologie exploite des données web et un modèle de langage enseignant (LLM) pour générer automatiquement des exemples d'entraînement de haute qualité accompagnés d'explications de pertinence. En formulant le classement de documents comme un problème d'apprentissage par renforcement et en encourageant des capacités de raisonnement explicites, nous entraînons un modèle de langage compact de 3 milliards de paramètres qui atteint des performances de pointe sur le benchmark BRIGHT. Notre modèle se classe troisième au classement tout en utilisant nettement moins de paramètres que les autres approches, surpassant des modèles plus de 20 fois plus grands. À travers des expériences approfondies, nous démontrons que la génération d'explications lors de l'inférence, plutôt que la prédiction directe des scores de pertinence, permet un raisonnement plus efficace avec des modèles de langage plus petits. La nature auto-supervisée de notre méthode offre une solution scalable et interprétable pour les systèmes modernes de recherche d'information.

Échantillonner, ne pas chercher : Repenser l'alignement en phase de test pour les modèles de langage
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

Apr 4

ByGonçalo Faria, Noah A. Smith

L'augmentation du calcul au moment du test s'est imposée comme une direction prometteuse pour améliorer les performances des modèles de langage, en particulier dans les scénarios où le fine-tuning du modèle est impraticable ou impossible en raison de contraintes computationnelles ou de poids de modèle privés. Cependant, les méthodes existantes de recherche au moment du test utilisant un modèle de récompense (RM) voient souvent leur qualité se dégrader à mesure que le calcul augmente, en raison de la sur-optimisation de ce qui sont intrinsèquement des proxies de récompense imparfaits. Nous introduisons QAlign, une nouvelle approche d'alignement au moment du test. À mesure que nous augmentons le calcul au moment du test, QAlign converge vers un échantillonnage à partir de la distribution alignée optimale pour chaque prompt individuel. En adoptant les avancées récentes en chaînes de Markov Monte Carlo pour la génération de texte, notre méthode permet d'obtenir des sorties mieux alignées sans modifier le modèle sous-jacent ni même nécessiter un accès aux logits. Nous démontrons l'efficacité de QAlign sur des benchmarks de raisonnement mathématique (GSM8K et GSM-Symbolic) en utilisant un RM spécifique à la tâche, montrant des améliorations constantes par rapport aux méthodes existantes de calcul au moment du test comme best-of-n et le vote majoritaire. De plus, lorsqu'il est appliqué avec des RM plus réalistes entraînés sur le jeu de données de préférences Tulu 3, QAlign surpasse l'optimisation directe des préférences (DPO), best-of-n, le vote majoritaire et le vote majoritaire pondéré sur une gamme variée de jeux de données (GSM8K, MATH500, IFEval, MMLU-Redux et TruthfulQA). Une solution pratique pour aligner les modèles de langage au moment du test en utilisant un calcul supplémentaire sans dégradation, notre approche repousse les limites des capacités que l'on peut obtenir à partir de modèles de langage prêts à l'emploi sans formation supplémentaire.

JailDAM : Détection de Jailbreak avec Mémoire Adaptative pour les Modèles Vision-Langage
JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model

Apr 3

ByYi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Les modèles de langage multimodaux de grande taille (MLLMs) excellent dans les tâches de vision et de langage, mais ils présentent également des risques importants de générer du contenu nuisible, en particulier via des attaques de type "jailbreak". Les attaques de jailbreak désignent des manipulations intentionnelles qui contournent les mécanismes de sécurité des modèles, conduisant à la génération de contenu inapproprié ou dangereux. Détecter de telles attaques est crucial pour assurer un déploiement responsable des MLLMs. Les méthodes existantes de détection de jailbreak rencontrent trois défis majeurs : (1) Beaucoup reposent sur les états cachés ou les gradients du modèle, limitant leur applicabilité aux modèles en boîte blanche, où les mécanismes internes du modèle sont accessibles ; (2) Elles impliquent une surcharge computationnelle élevée due à des analyses basées sur l'incertitude, ce qui limite la détection en temps réel, et (3) Elles nécessitent des jeux de données nuisibles entièrement annotés, souvent rares dans des contextes réels. Pour résoudre ces problèmes, nous introduisons un cadre adaptatif en temps de test appelé JAILDAM. Notre méthode utilise une approche basée sur la mémoire guidée par des représentations de connaissances dangereuses pilotées par des politiques, éliminant le besoin d'une exposition explicite à des données nuisibles. En mettant à jour dynamiquement les connaissances dangereuses pendant le test, notre cadre améliore la généralisation à des stratégies de jailbreak inédites tout en maintenant l'efficacité. Les expériences sur plusieurs benchmarks de jailbreak pour les modèles de vision et de langage (VLM) démontrent que JAILDAM offre des performances de pointe dans la détection de contenu nuisible, améliorant à la fois la précision et la vitesse.

GlotEval : Une suite de tests pour l'évaluation multilingue à grande échelle des modèles de langage de grande taille
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models

Apr 5

ByHengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann

Les grands modèles de langage (LLM) progressent à un rythme sans précédent à l'échelle mondiale, avec des régions qui adoptent de plus en plus ces modèles pour des applications dans leur langue principale. L'évaluation de ces modèles dans des environnements linguistiques divers, en particulier pour les langues à ressources limitées, est devenue un défi majeur pour le monde académique et l'industrie. Les cadres d'évaluation existants se concentrent de manière disproportionnée sur l'anglais et quelques langues à ressources abondantes, négligeant ainsi la performance réelle des LLM dans des scénarios multilingues et à ressources limitées. Pour combler cette lacune, nous présentons GlotEval, un cadre léger conçu pour une évaluation massivement multilingue. Soutenant sept tâches clés (traduction automatique, classification de texte, résumé, génération ouverte, compréhension de lecture, étiquetage de séquences et évaluation intrinsèque), couvrant des dizaines à des centaines de langues, GlotEval met en avant un benchmarking multilingue cohérent, des modèles de prompts spécifiques à chaque langue et une traduction automatique non centrée sur l'anglais. Cela permet un diagnostic précis des forces et faiblesses des modèles dans divers contextes linguistiques. Une étude de cas sur la traduction multilingue démontre l'applicabilité de GlotEval pour les évaluations multilingues et spécifiques à chaque langue.

Repenser le pré-entraînement multilingue continu : le mélange de données pour l'adaptation des modèles de langage à grande échelle à travers les langues et les ressources
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

Apr 5

ByZihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann

Les grands modèles de langage (LLMs) présentent des disparités significatives de performance entre les langues, bénéficiant principalement aux langues riches en ressources tout en marginalisant celles sous-représentées. Le pré-entraînement continu (CPT) s'est révélé être une approche prometteuse pour remédier à ce déséquilibre, bien que l'efficacité relative des stratégies de données monolingues, bilingues et augmentées par du code reste incertaine. Cette étude évalue systématiquement 36 configurations de CPT impliquant trois modèles de base multilingues, à travers plus de 30 langues catégorisées comme altruistes, égoïstes et stagnantes, couvrant divers niveaux de ressources. Nos résultats révèlent trois principales observations : (1) Le CPT bilingue améliore la classification multilingue mais provoque souvent des problèmes de mélange de langues lors de la génération. (2) L'inclusion de données de code de programmation pendant le CPT améliore systématiquement la précision de la classification multilingue, bénéficiant particulièrement aux langues à faibles ressources, mais introduit un compromis en dégradant légèrement la qualité de la génération. (3) Contrairement aux travaux antérieurs, nous observons des écarts substantiels par rapport aux classifications de langues selon leur impact sur le transfert translinguistique : les langues classées comme altruistes affectent souvent négativement les langues apparentées, les langues égoïstes montrent un comportement conditionnel et dépendant de la configuration, et les langues stagnantes démontrent une adaptabilité surprenante dans certaines conditions de CPT. Ces interactions nuancées soulignent la complexité de l'apprentissage de représentations multilingues, mettant en évidence l'importance d'études systématiques sur la classification généralisable des langues pour éclairer les futures stratégies de CPT multilingues.