HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

Instructions explicatives : Vers une compréhension unifiée des tâches de vision et une généralisation sans apprentissage.
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tâches sans entraînement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modèles de transformer, l'entraînement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tâches discrètes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tâches sans entraînement. Notre hypothèse est que sans une véritable compréhension des tâches précédemment rencontrées - en raison de ces définitions terminologiques - les modèles profonds ont du mal à généraliser à de nouvelles tâches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une manière intuitive de définir les objectifs des tâches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraînons un modèle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraînement au niveau de l'instruction pour les tâches précédemment rencontrées et démontre une forte généralisation sans entraînement pour les tâches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépôt GitHub.

Sur la généralisation compositionnelle des LLM multimodaux pour l'imagerie médicale
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28

ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang

Les grands modèles de langage multimodaux (MLLM) détiennent un potentiel significatif dans le domaine médical, mais leurs capacités sont souvent limitées par un manque de données dans certains domaines médicaux, soulignant ainsi la nécessité de comprendre quels types d'images peuvent être utilisés par les MLLM pour la généralisation. Les recherches actuelles suggèrent que l'entraînement multi-tâches surpasse l'entraînement mono-tâche car différentes tâches peuvent se bénéficier mutuellement, mais elles négligent souvent les relations internes au sein de ces tâches, offrant ainsi des orientations limitées sur la sélection des ensembles de données pour améliorer des tâches spécifiques. Pour analyser ce phénomène, nous avons tenté d'utiliser la généralisation compositionnelle (CG) - la capacité des modèles à comprendre des combinaisons nouvelles en recombinant des éléments appris - comme cadre directeur. Étant donné que les images médicales peuvent être précisément définies par la Modalité, la Région anatomique et la Tâche, offrant naturellement un environnement pour explorer la CG. Par conséquent, nous avons assemblé 106 ensembles de données médicales pour créer Med-MAT pour des expérimentations complètes. Les expériences ont confirmé que les MLLM peuvent utiliser la CG pour comprendre des images médicales inédites et ont identifié la CG comme l'un des principaux moteurs de la généralisation observée dans l'entraînement multi-tâches. De plus, des études supplémentaires ont démontré que la CG soutient efficacement les ensembles de données avec des données limitées et offre des performances cohérentes sur différentes architectures, soulignant ainsi sa polyvalence et sa large applicabilité. Med-MAT est publiquement disponible sur https://github.com/FreedomIntelligence/Med-MAT.

Servir efficacement les programmes de raisonnement LLM avec Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30

ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang

La rapide évolution des grands modèles de langage (GML) a débloqué leurs capacités dans des tâches de raisonnement avancées telles que la résolution de problèmes mathématiques, la génération de code et l'analyse juridique. Au cœur de ce progrès se trouvent les algorithmes de raisonnement en temps d'inférence, qui affinent les sorties en explorant plusieurs chemins de solution, au prix d'une augmentation des demandes de calcul et des latences de réponse. Les systèmes de service existants échouent à s'adapter aux comportements d'échelle de ces algorithmes ou à la difficulté variable des requêtes, ce qui entraîne une utilisation inefficace des ressources et des objectifs de latence non atteints. Nous présentons Dynasor, un système qui optimise le calcul en temps d'inférence pour les requêtes de raisonnement des GML. Contrairement aux moteurs traditionnels, Dynasor suit et planifie les requêtes au sein des requêtes de raisonnement et utilise Certaindex, un proxy qui mesure les progrès du raisonnement statistique basé sur la certitude du modèle, pour guider dynamiquement l'allocation de calcul. Dynasor co-adapte la planification avec les progrès du raisonnement : il alloue plus de calcul aux requêtes difficiles, réduit le calcul pour les plus simples, et met fin prématurément aux requêtes peu prometteuses, équilibrant précision, latence et coût. Sur des ensembles de données et des algorithmes divers, Dynasor réduit le calcul jusqu'à 50 % en traitement par lots et maintient des taux de requêtes 3,3 fois plus élevés ou des objectifs de latence 4,7 fois plus serrés en service en ligne.

Édicho : Édition d'Images Cohérente dans la Nature
Edicho: Consistent Image Editing in the Wild

Dec 30

ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen

En tant que besoin vérifié, l'édition cohérente à travers des images prises dans la nature reste un défi technique découlant de divers facteurs ingérables, tels que les poses d'objets, les conditions d'éclairage et les environnements de photographie. Edicho intervient avec une solution sans entraînement basée sur des modèles de diffusion, mettant en avant un principe de conception fondamental utilisant une correspondance d'image explicite pour orienter l'édition. Plus précisément, les composants clés comprennent un module de manipulation de l'attention et une stratégie de débruitage sans classificateur (CFG) soigneusement affinée, tous deux prenant en compte la correspondance pré-estimée. Un tel algorithme à l'heure de l'inférence bénéficie d'une nature plug-and-play et est compatible avec la plupart des méthodes d'édition basées sur la diffusion, telles que ControlNet et BrushNet. Des résultats approfondis démontrent l'efficacité d'Edicho dans l'édition cohérente entre images dans des paramètres divers. Nous publierons le code pour faciliter les études futures.

PERSE : Avatars 3D génératifs personnalisés à partir d'un seul portrait
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30

ByHyunsoo Cha, Inhee Lee, Hanbyul Joo

Nous présentons PERSE, une méthode pour construire un avatar génératif personnalisé et animable à partir d'un portrait de référence. Notre modèle d'avatar permet la modification des attributs faciaux dans un espace latent continu et désentrelacé pour contrôler chaque attribut facial, tout en préservant l'identité de l'individu. Pour ce faire, notre méthode commence par la synthèse de vastes ensembles de données vidéo 2D synthétiques, où chaque vidéo contient des changements cohérents dans l'expression faciale et le point de vue, combinés à une variation d'un attribut facial spécifique de l'entrée d'origine. Nous proposons un nouveau processus pour produire des vidéos 2D photoréalistes de haute qualité avec modification des attributs faciaux. En exploitant cet ensemble de données d'attributs synthétiques, nous présentons une méthode de création d'avatar personnalisé basée sur le Gaussian Splatting en 3D, apprenant un espace latent continu et désentrelacé pour une manipulation intuitive des attributs faciaux. Pour garantir des transitions fluides dans cet espace latent, nous introduisons une technique de régularisation de l'espace latent en utilisant des visages 2D interpolés comme supervision. Comparé aux approches précédentes, nous démontrons que PERSE génère des avatars de haute qualité avec des attributs interpolés tout en préservant l'identité de la personne de référence.

Faciliter l'adaptation en russe de grands modèles de langage avec la propagation d'incorporation apprise
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev

Les avancées rapides des technologies de grands modèles de langage (GML) ont conduit à l'introduction de puissants GML open-source ajustés aux instructions qui présentent la même qualité de génération de texte que les modèles de pointe tels que GPT-4. Alors que l'émergence de tels modèles accélère l'adoption des technologies de GML dans des environnements d'informations sensibles, les auteurs de ces modèles ne divulguent pas les données d'entraînement nécessaires pour la reproduction des résultats, rendant ainsi les réalisations exclusives au modèle. Étant donné que ces modèles open-source sont également multilingues, cela réduit à son tour les avantages de l'entraînement de GML spécifiques à une langue, car une efficacité améliorée de calcul d'inférence devient le seul avantage garanti de cette procédure coûteuse. Des options plus rentables telles que l'extension du vocabulaire et la poursuite ultérieure de la pré-formation sont également entravées par le manque d'accès à des données d'ajustement d'instructions de haute qualité, car c'est le principal facteur derrière les capacités de résolution de tâches des GML résultants. Pour remédier aux limitations et réduire les coûts du pipeline d'adaptation linguistique, nous proposons la Propagation d'Incorporation Apprise (LEP). Contrairement aux approches existantes, notre méthode nécessite une taille de données d'entraînement plus faible en raison de l'impact minimal sur les connaissances existantes des GML, que nous renforçons à l'aide d'une procédure novatrice de propagation d'incorporation ad hoc qui permet de sauter l'étape d'ajustement des instructions et d'implanter directement les nouvelles connaissances linguistiques dans n'importe quelle variante ajustée aux instructions existante. Nous avons évalué quatre adaptations de vocabulaire russe pour LLaMa-3-8B et Mistral-7B, montrant que LEP est compétitif avec les méthodes d'ajustement d'instructions traditionnelles, atteignant des performances comparables à OpenChat 3.5 et LLaMa-3-8B-Instruct, avec des améliorations supplémentaires via l'auto-étalonnage et le réglage continu améliorant les capacités de résolution de tâches.

OneKE : Un système d'extraction de connaissances basé sur un agent LLM guidé par un schéma et dockerisé.
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

Nous présentons OneKE, un système d'extraction de connaissances guidé par schéma dockerisé, capable d'extraire des connaissances du Web et de livres PDF bruts, et prenant en charge divers domaines (science, actualités, etc.). Plus précisément, nous concevons OneKE avec plusieurs agents et une base de connaissances configurée. Différents agents remplissent leurs rôles respectifs, permettant de prendre en charge divers scénarios d'extraction. La base de connaissances configurée facilite la configuration du schéma, le débogage des cas d'erreur et la correction, améliorant ainsi les performances. Des évaluations empiriques sur des ensembles de données de référence démontrent l'efficacité de OneKE, tandis que des études de cas éclairent davantage son adaptabilité à diverses tâches dans de multiples domaines, soulignant son potentiel pour des applications étendues. Nous avons rendu le code source disponible sur https://github.com/zjunlp/OneKE et publié une vidéo sur http://oneke.openkg.cn/demo.mp4.

Perception Lente : Percevons les Figures Géométriques Pas à Pas
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

Récemment, "visual o1" a commencé à entrer dans le champ de vision des gens, avec l'espoir que cette conception de pensée lente puisse résoudre des tâches de raisonnement visuel, en particulier des problèmes de mathématiques géométriques. Cependant, la réalité est que les LVLM actuels (Large Vision Language Models) ont du mal à reproduire avec précision une figure géométrique, sans même parler de comprendre véritablement la logique complexe inhérente et les relations spatiales au sein des formes géométriques. Nous pensons que la reproduction précise (perception forte) est la première étape de visual o1. En conséquence, nous introduisons le concept de "perception lente" (SP), qui guide le modèle pour percevoir progressivement les combinaisons de points-lignes de base, tout comme nos humains reconstruisent progressivement des structures géométriques complexes. Il y a deux étapes dans SP : a) décomposition de la perception. La perception n'est pas instantanée. À cette étape, les figures géométriques complexes sont décomposées en unités simples de base pour uniformiser la représentation géométrique. b) flux de perception, qui reconnaît que retracer précisément une ligne n'est pas une tâche facile. Cette étape vise à éviter les "longs sauts visuels" en régressant les segments de ligne en utilisant une "règle perceptuelle" proposée pour tracer chaque ligne trait par trait. De manière surprenante, une telle manière de perception semblable à celle des humains bénéficie d'une loi d'échelle du temps d'inférence - plus c'est lent, mieux c'est. Les chercheurs ont cherché à accélérer la perception du modèle par le passé, mais nous la ralentissons à nouveau, permettant ainsi au modèle de lire l'image étape par étape et avec soin.

HumanEval Pro et MBPP Pro : Évaluation des grands modèles de langage sur la génération de code auto-invoquant
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

Nous introduisons la génération de code auto-invoquant, une nouvelle tâche conçue pour évaluer les capacités progressives de raisonnement et de résolution de problèmes des LLM. Dans cette tâche, les modèles se voient présenter un problème de base et un problème plus complexe associé. Ils doivent résoudre le problème de base puis utiliser sa solution pour aborder le problème plus complexe. Ce travail présente trois contributions clés. Tout d'abord, nous proposons une recette générale pour générer des versions plus difficiles des benchmarks existants, ce qui a abouti à trois nouveaux benchmarks : HumanEval Pro, MBPP Pro et BigCodeBench-Lite Pro, spécifiquement conçus pour évaluer les LLMs sur la génération de code auto-invoquant. Deuxièmement, à partir de l'analyse des résultats expérimentaux sur vingt LLMs sur nos benchmarks, nous avons deux observations importantes : (i) La plupart des LLMs excellent dans les benchmarks traditionnels de génération de code comme HumanEval et MBPP, mais leurs performances diminuent sur les tâches d'auto-invoquation. Par exemple, o1-mini atteint 96,2 % de réussite@1 sur HumanEval mais seulement 76,2 % sur HumanEval Pro. (ii) Sur la tâche de génération de code auto-invoquant, les modèles ajustés aux instructions ne montrent que des améliorations marginales par rapport aux modèles de base. Troisièmement, nous révélons les types de modes de défaillance présents dans nos résultats d'évaluation. Tous ces résultats soulignent la nécessité de progrès supplémentaires dans les tâches de génération de code auto-invoquant et ouvrent une nouvelle voie pour la recherche future sur l'amélioration des capacités de raisonnement en code des LLMs.

Faciliter l'adaptation en russe de grands modèles de langage avec la propagation d'incorporation apprise
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev