papers.title

papers.description

OS-ATLAS : Un modèle d'action fondamental pour les agents GUI généralistes
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Les efforts actuels pour construire des agents GUI reposent fortement sur la disponibilité de modèles Vision-Language commerciaux robustes (VLM) tels que GPT-4o et GeminiProVision. Les praticiens sont souvent réticents à utiliser des VLM open-source en raison de leur important retard de performance par rapport à leurs homologues en source fermée, notamment dans la localisation GUI et les scénarios Out-Of-Distribution (OOD). Pour faciliter les futures recherches dans ce domaine, nous avons développé OS-Atlas - un modèle d'action GUI fondamental qui excelle dans la localisation GUI et les tâches agentiques OOD grâce à des innovations à la fois dans les données et la modélisation. Nous avons investi des efforts d'ingénierie significatifs dans le développement d'une trousse à outils open-source pour la synthèse de données de localisation GUI sur plusieurs plateformes, y compris Windows, Linux, MacOS, Android et le web. En exploitant cette trousse à outils, nous publions le plus grand corpus de localisation GUI open-source multiplateforme à ce jour, qui contient plus de 13 millions d'éléments GUI. Ce jeu de données, combiné à des innovations dans l'entraînement du modèle, fournit une base solide pour OS-Atlas afin de comprendre les captures d'écran GUI et de généraliser à des interfaces non vues. À travers une évaluation approfondie sur six benchmarks couvrant trois plateformes différentes (mobile, bureau et web), OS-Atlas démontre des améliorations significatives de performance par rapport aux modèles de pointe précédents. Notre évaluation révèle également des informations précieuses pour améliorer et étendre en continu les capacités agentiques des VLM open-source.

Personnalisation des Grands Modèles de Langage : Une Étude
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

La personnalisation des grands modèles de langage (LLM) est récemment devenue de plus en plus importante avec une large gamme d'applications. Malgré l'importance et les progrès récents, la plupart des travaux existants sur les LLM personnalisés se sont concentrés soit entièrement sur (a) la génération de texte personnalisé, soit sur (b) l'exploitation des LLM pour des applications de personnalisation, telles que les systèmes de recommandation. Dans ce travail, nous comblons le fossé entre ces deux principales directions distinctes pour la première fois en introduisant une taxonomie pour l'utilisation des LLM personnalisés et en résumant les principales différences et défis. Nous proposons une formalisation des fondements des LLM personnalisés qui consolide et étend les notions de personnalisation des LLM, en définissant et en discutant de nouveaux aspects de la personnalisation, de l'utilisation et des desiderata des LLM personnalisés. Nous unifions ensuite la littérature à travers ces domaines divers et ces scénarios d'utilisation en proposant des taxonomies systématiques pour la granularité de la personnalisation, les techniques de personnalisation, les ensembles de données, les méthodes d'évaluation et les applications des LLM personnalisés. Enfin, nous mettons en lumière les défis et les problèmes ouverts importants qui restent à résoudre. En unifiant et en passant en revue les recherches récentes en utilisant les taxonomies proposées, nous visons à fournir un guide clair sur la littérature existante et les différents aspects de la personnalisation dans les LLM, permettant ainsi aux chercheurs et aux praticiens de s'émanciper.

Flux à Accélération Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Les procédures de flux rectifié et de reflux ont considérablement fait progresser la génération rapide en redressant progressivement les flux d'équations différentielles ordinaires (ODE). Elles opèrent en supposant que les paires d'images et de bruit, appelées couplages, peuvent être approximées par des trajectoires rectilignes à vitesse constante. Cependant, nous observons que la modélisation avec une vitesse constante et l'utilisation de procédures de reflux présentent des limites dans l'apprentissage précis des trajectoires rectilignes entre les paires, ce qui se traduit par des performances sous-optimales dans la génération en quelques étapes. Pour remédier à ces limitations, nous introduisons le Flux à Accélération Constante (CAF), un nouveau cadre basé sur une simple équation d'accélération constante. Le CAF introduit l'accélération en tant que variable d'apprentissage supplémentaire, permettant une estimation plus expressive et précise du flux ODE. De plus, nous proposons deux techniques pour améliorer davantage la précision de l'estimation : la condition de vitesse initiale pour le modèle d'accélération et un processus de reflux pour la vitesse initiale. Nos études approfondies sur des ensembles de données jouets, CIFAR-10 et ImageNet 64x64, démontrent que le CAF surpasse les références de pointe pour la génération en une étape. Nous montrons également que le CAF améliore considérablement la préservation des couplages en quelques étapes et l'inversion par rapport au flux rectifié. Le code est disponible sur https://github.com/mlvlab/CAF.

TOMATE : Évaluation des capacités de raisonnement temporel visuel dans les modèles fondamentaux multimodaux
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Les benchmarks existants mettent souvent en avant les performances remarquables obtenues par les Modèles Fondamentaux Multimodaux (MFM) de pointe dans l'exploitation du contexte temporel pour la compréhension vidéo. Cependant, dans quelle mesure ces modèles réussissent-ils réellement le raisonnement temporel visuel ? Notre étude des benchmarks existants montre que cette capacité des MFMs est probablement surestimée car de nombreuses questions peuvent être résolues en utilisant un seul, quelques, ou des images hors séquence. Pour examiner systématiquement les tâches actuelles de raisonnement temporel visuel, nous proposons trois principes avec des métriques correspondantes : (1) Gain Multi-Images, (2) Sensibilité à l'Ordre des Images, et (3) Disparité de l'Information des Images. En suivant ces principes, nous introduisons TOMATO, Évaluation Multimodale du Raisonnement Temporel, un nouveau benchmark conçu pour évaluer rigoureusement les capacités de raisonnement temporel des MFMs dans la compréhension vidéo. TOMATO comprend 1 484 questions soigneusement sélectionnées et annotées par des humains couvrant six tâches (c'est-à-dire, comptage d'actions, direction, rotation, forme et tendance, vitesse et fréquence, et indices visuels), appliquées à 1 417 vidéos, comprenant 805 vidéos auto-enregistrées et générées, qui englobent des scénarios centrés sur l'humain, réels et simulés. Notre évaluation complète révèle un écart de performance de 57,3% entre l'humain et le meilleur modèle. De plus, notre analyse approfondie révèle des limitations plus fondamentales au-delà de cet écart dans les MFMs actuels. Alors qu'ils peuvent reconnaître avec précision des événements dans des images isolées, ils échouent à interpréter ces images comme une séquence continue. Nous pensons que TOMATO servira de banc d'essai crucial pour évaluer les MFMs de prochaine génération et comme un appel à la communauté pour développer des systèmes d'IA capables de comprendre la dynamique du monde humain à travers la modalité vidéo.

Génération visuelle autoregressive randomisée
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Cet article présente la modélisation auto-régressive randomisée (RAR) pour la génération visuelle, qui établit une nouvelle performance de pointe dans la tâche de génération d'images tout en maintenant une compatibilité totale avec les cadres de modélisation de langage. Le RAR proposé est simple : pendant un processus d'entraînement auto-régressif standard avec un objectif de prédiction du prochain jeton, la séquence d'entrée - généralement ordonnée sous forme de raster - est aléatoirement permutée dans différents ordres de factorisation avec une probabilité r, où r commence à 1 et décroît linéairement jusqu'à 0 au cours de l'entraînement. Cette stratégie d'entraînement par recuit permet au modèle d'apprendre à maximiser la probabilité attendue sur tous les ordres de factorisation et ainsi d'améliorer efficacement la capacité du modèle à modéliser les contextes bidirectionnels. Importamment, le RAR préserve l'intégrité du cadre de modélisation auto-régressive, garantissant une compatibilité totale avec la modélisation de langage tout en améliorant significativement les performances en génération d'images. Sur le banc d'essai ImageNet-256, le RAR atteint un score FID de 1,48, dépassant non seulement les générateurs d'images auto-régressifs de pointe précédents, mais surpassant également les méthodes basées sur la diffusion et les transformateurs masqués. Le code et les modèles seront disponibles sur https://github.com/bytedance/1d-tokenizer

DynaMath : un banc d'essai visuel dynamique pour évaluer la robustesse du raisonnement mathématique des modèles de langage vision.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Les avancées rapides dans les Modèles Vision-Langage (VLMs) ont montré un grand potentiel pour aborder les tâches de raisonnement mathématique impliquant un contexte visuel. Contrairement aux humains qui peuvent appliquer de manière fiable des étapes de solution à des problèmes similaires avec de légères modifications, nous avons constaté que les VLMs de pointe comme GPT-4o peuvent régulièrement échouer dans ces scénarios, révélant des limitations dans leurs capacités de raisonnement mathématique. Dans cet article, nous étudions la robustesse du raisonnement mathématique dans les VLMs et évaluons la performance de ces modèles sous différentes variantes de la même question, telles que des changements dans les valeurs numériques visuelles ou les graphiques de fonctions. Alors que plusieurs référentiels mathématiques basés sur la vision ont été développés pour évaluer les capacités de résolution de problèmes des VLMs, ces référentiels ne contiennent que des ensembles statiques de problèmes et ne peuvent pas évaluer facilement la robustesse du raisonnement mathématique. Pour combler cette lacune, nous introduisons DynaMath, un référentiel de mathématiques visuelles dynamique conçu pour une évaluation approfondie des VLMs. DynaMath comprend 501 questions de base de haute qualité, multi-thématiques, chacune représentée sous forme de programme Python. Ces programmes sont soigneusement conçus et annotés pour permettre la génération automatique d'un ensemble beaucoup plus large de questions concrètes, comprenant de nombreux types de variations visuelles et textuelles. DynaMath nous permet d'évaluer la capacité de généralisation des VLMs, en évaluant leur performance sous des conditions d'entrée variables d'une question de base. Nous avons évalué 14 VLMs de pointe avec 5 010 questions concrètes générées. Nos résultats montrent que la précision du modèle dans le pire des cas, définie comme le pourcentage de questions de base correctement répondues dans toutes les 10 variantes, est significativement plus basse que la précision dans le cas moyen. Notre analyse souligne la nécessité d'étudier la robustesse des capacités de raisonnement des VLMs, et DynaMath fournit des perspectives précieuses pour guider le développement de modèles plus fiables pour le raisonnement mathématique.

Physique dans la prédiction du prochain jeton
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Nous avons découvert la physique sous-jacente de la Prédiction du Prochain Token (PPT). Nous avons identifié la loi de conservation de l'information au sein de la PPT et avons proposé la Première Loi de Capacité d'Information (CI-1), démontrant que l'émergence de l'intelligence dans les modèles autorégressifs est fondamentalement un processus de transfert d'information. Nous avons également introduit le Principe de Landauer dans la PPT, formulant la Deuxième Loi de Capacité d'Information (CI-2), qui établit la relation entre l'entraînement des modèles autorégressifs et la consommation d'énergie. De plus, nous avons présenté plusieurs corollaires, qui ont une signification pratique pour les pratiques de production. Enfin, nous avons validé la compatibilité et la complémentarité de nos découvertes avec les théories existantes.

GPT ou BERT : pourquoi pas les deux ?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Nous présentons une manière simple de fusionner la modélisation de langage masquée avec la modélisation de langage causale. Cet objectif d'entraînement hybride donne lieu à un modèle qui combine les forces des deux paradigmes de modélisation au sein d'une seule pile de transformateurs : GPT-BERT peut être utilisé de manière transparente comme n'importe quel modèle de langage causale ou masquée standard. Nous testons le processus de pré-entraînement qui permet ce comportement flexible sur le défi BabyLM 2024. Les résultats montrent que le pré-entraînement hybride surpasse les modèles uniquement masqués ou uniquement causaux. Nous publions ouvertement les modèles, les corpus d'entraînement et le code.

Étude des techniques de conception d'interface utilisateur et d'interaction dans les applications d'IA générative
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Les applications de l'IA générative sont devenues extrêmement impressionnantes, et l'interaction entre les utilisateurs et l'IA l'est encore plus. La littérature actuelle sur l'interaction humain-IA examine de manière générale comment les humains interagissent avec l'IA générative, mais elle manque de spécificité en ce qui concerne les conceptions et les modèles d'interface utilisateur utilisés pour créer ces applications. Par conséquent, nous présentons une enquête qui présente de manière exhaustive des taxonomies sur la manière dont un humain interagit avec l'IA et les modèles d'interaction utilisateur conçus pour répondre aux besoins de divers cas d'utilisation pertinents. Nous nous concentrons principalement sur les interactions guidées par l'utilisateur, en examinant les interactions initiées par l'utilisateur et n'incluant aucun signal implicite donné par l'utilisateur. Avec cette enquête, nous visons à créer un recueil de différents modèles d'interaction utilisateur pouvant servir de référence aux concepteurs et développeurs. Ce faisant, nous cherchons également à abaisser la barrière à l'entrée pour ceux qui cherchent à en savoir plus sur la conception d'applications d'IA générative.

Fashion-VDM : Modèle de Diffusion Vidéo pour l'Essayage Virtuel
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Nous présentons Fashion-VDM, un modèle de diffusion vidéo (VDM) pour générer des vidéos d'essayage virtuel. Étant donné une image de vêtement en entrée et une vidéo de personne, notre méthode vise à générer une vidéo d'essayage de haute qualité de la personne portant le vêtement donné, tout en préservant l'identité et le mouvement de la personne. L'essayage virtuel basé sur l'image a montré des résultats impressionnants; cependant, les méthodes d'essayage virtuel vidéo (VVT) existantes manquent encore de détails de vêtements et de cohérence temporelle. Pour résoudre ces problèmes, nous proposons une architecture basée sur la diffusion pour l'essayage virtuel vidéo, un guidage sans classificateur fractionné pour un contrôle accru sur les entrées de conditionnement, et une stratégie d'entraînement temporel progressif pour la génération de vidéos de 64 images en une seule passe, de 512px. Nous démontrons également l'efficacité de l'entraînement conjoint image-vidéo pour l'essayage vidéo, en particulier lorsque les données vidéo sont limitées. Nos expériences qualitatives et quantitatives montrent que notre approche établit le nouvel état de l'art pour l'essayage virtuel vidéo. Pour des résultats supplémentaires, visitez notre page de projet: https://johannakarras.github.io/Fashion-VDM.

LoRA en contexte pour les transformateurs de diffusion
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Une recherche récente arXiv:2410.15027 a exploré l'utilisation des transformateurs de diffusion (DiTs) pour la génération d'images sans tâche spécifique en concaténant simplement des jetons d'attention à travers les images. Cependant, malgré des ressources computationnelles substantielles, la fidélité des images générées reste suboptimale. Dans cette étude, nous réévaluons et rationalisons ce cadre en émettant l'hypothèse que les DiTs texte-image possèdent intrinsèquement des capacités de génération contextuelle, nécessitant seulement un réglage minimal pour les activer. À travers diverses expériences de tâches, nous démontrons qualitativement que les DiTs texte-image existants peuvent effectivement réaliser une génération contextuelle sans aucun réglage. S'appuyant sur cette observation, nous proposons un pipeline remarquablement simple pour exploiter les capacités contextuelles des DiTs : (1) concaténer des images au lieu de jetons, (2) réaliser une légende commune de plusieurs images, et (3) appliquer un réglage LoRA spécifique à la tâche en utilisant de petits ensembles de données (par exemple, 20 à 100 échantillons) au lieu d'un réglage de paramètres complet avec de grands ensembles de données. Nous nommons nos modèles In-Context LoRA (IC-LoRA). Cette approche ne nécessite aucune modification des modèles DiT originaux, seulement des changements aux données d'entraînement. Remarquablement, notre pipeline génère des ensembles d'images de haute fidélité qui respectent mieux les instructions. Bien que spécifique à la tâche en termes de données de réglage, notre cadre reste agnostique à la tâche en termes d'architecture et de pipeline, offrant un outil puissant pour la communauté et fournissant des perspectives précieuses pour de futures recherches sur les systèmes de génération sans tâche au niveau du produit. Nous mettons à disposition notre code, nos données et nos modèles sur https://github.com/ali-vilab/In-Context-LoRA.

Anonymisation faciale simplifiée
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Les techniques actuelles d'anonymisation des visages dépendent souvent de la perte d'identité calculée par des modèles de reconnaissance faciale, qui peuvent être inexactes et peu fiables. De plus, de nombreuses méthodes nécessitent des données supplémentaires telles que des repères faciaux et des masques pour guider le processus de synthèse. En revanche, notre approche utilise des modèles de diffusion avec uniquement une perte de reconstruction, éliminant le besoin de repères faciaux ou de masques tout en produisant des images avec des détails complexes et fins. Nous avons validé nos résultats sur deux référentiels publics à travers des évaluations à la fois quantitatives et qualitatives. Notre modèle atteint des performances de pointe dans trois domaines clés : l'anonymisation de l'identité, la préservation des attributs faciaux et la qualité de l'image. Au-delà de sa fonction principale d'anonymisation, notre modèle peut également effectuer des tâches d'échange de visages en incorporant une image faciale supplémentaire en entrée, démontrant sa polyvalence et son potentiel pour des applications diverses. Notre code et nos modèles sont disponibles sur https://github.com/hanweikung/face_anon_simple.

CityGaussianV2 : Reconstruction Efficace et Géométriquement Précise pour les Scènes à Grande Échelle
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Récemment, le Splatting Gaussien en 3D (3DGS) a révolutionné la reconstruction de champs de radiance, se manifestant par une synthèse de nouvelle vue efficace et de haute fidélité. Cependant, la représentation précise des surfaces, notamment dans des scénarios vastes et complexes, reste un défi majeur en raison de la nature non structurée du 3DGS. Dans cet article, nous présentons CityGaussianV2, une nouvelle approche pour la reconstruction de scènes à grande échelle qui aborde les défis critiques liés à la précision géométrique et à l'efficacité. En capitalisant sur les capacités de généralisation favorables du Splatting Gaussien en 2D (2DGS), nous traitons ses problèmes de convergence et de scalabilité. Plus précisément, nous mettons en œuvre une technique de densification basée sur le gradient décomposé et une technique de régression de profondeur pour éliminer les artefacts flous et accélérer la convergence. Pour augmenter l'échelle, nous introduisons un filtre d'allongement qui atténue l'explosion du nombre gaussien causée par la dégénérescence du 2DGS. De plus, nous optimisons le pipeline CityGaussian pour un entraînement parallèle, atteignant une compression jusqu'à 10 fois, au moins 25% d'économies de temps d'entraînement, et une réduction de 50% de l'utilisation de la mémoire. Nous avons également établi des références géométriques standard pour des scènes à grande échelle. Les résultats expérimentaux démontrent que notre méthode trouve un équilibre prometteur entre la qualité visuelle, la précision géométrique, ainsi que les coûts de stockage et d'entraînement. La page du projet est disponible sur https://dekuliutesla.github.io/CityGaussianV2/.

Adaptation en cours d'apprentissage : Ancrage des LLM pour les problèmes scientifiques avec adaptation de l'utilisation d'outils intelligents
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Les grands modèles de langage (LLM) présentent des capacités prometteuses pour résoudre des problèmes scientifiques simples, mais produisent souvent des hallucinations pour des problèmes complexes. Bien que l'intégration des LLM avec des outils puisse accroître la fiabilité, cette approche entraîne généralement une surdépendance aux outils, diminuant la capacité du modèle à résoudre des problèmes simples par un raisonnement de base. En revanche, les experts humains évaluent d'abord la complexité du problème en utilisant leurs connaissances du domaine avant de choisir une approche de solution appropriée. Inspirés par ce processus humain de résolution de problèmes, nous proposons une nouvelle méthode de fine-tuning en deux composants. Dans le premier composant de Distillation des Connaissances Mondiales (WKD), les LLM apprennent directement à partir des solutions générées en utilisant les informations des outils pour intérioriser les connaissances du domaine. Dans le deuxième composant d'Adaptation de l'Utilisation des Outils (TUA), nous divisons les problèmes en catégories faciles et difficiles en fonction de la précision de réponse directe du modèle. Tout en maintenant le même objectif d'alignement pour les problèmes faciles que dans WKD, nous entraînons le modèle à basculer intelligemment vers l'utilisation des outils pour les problèmes plus difficiles. Nous validons notre méthode sur six ensembles de données de référence scientifiques, couvrant les mathématiques, les sciences du climat et l'épidémiologie. En moyenne, nos modèles présentent une amélioration de 28,18% de la précision des réponses et une augmentation de 13,89% de la précision de l'utilisation des outils sur l'ensemble des ensembles de données, surpassant les modèles de pointe, y compris GPT-4o et Claude-3.5.

Blanchiment Zipfien
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

L'espace d'incorporation de mots dans les modèles neuronaux est biaisé, et corriger cela peut améliorer les performances des tâches. Nous soulignons que la plupart des approches pour modéliser, corriger et mesurer la symétrie d'un espace d'incorporation supposent implicitement que les fréquences des mots sont uniformes ; en réalité, les fréquences des mots suivent une distribution hautement non uniforme, connue sous le nom de loi de Zipf. De manière surprenante, simplement effectuer un blanchiment PCA pondéré par la fréquence empirique des mots qui suit la loi de Zipf améliore significativement les performances des tâches, dépassant les baselines établies. D'un point de vue théorique, notre approche et les méthodes existantes peuvent être clairement catégorisées : les représentations des mots sont distribuées selon une famille exponentielle avec des mesures de base uniformes ou zipfiennes. En adoptant la dernière approche, nous pouvons naturellement mettre l'accent sur les mots informatifs à faible fréquence en termes de leur norme vectorielle, ce qui devient évident du point de vue information-géométrique, et en termes de fonctions de perte pour la classification déséquilibrée. De plus, notre théorie corrobore que des méthodes populaires de traitement du langage naturel, telles que l'échantillonnage négatif skip-gram, WhiteningBERT et les modèles de langage sans tête, fonctionnent bien simplement parce que leurs incorporations de mots encodent la fréquence empirique des mots dans le modèle probabiliste sous-jacent.

BonjourMeme : Intégration des attentions de tricot spatial pour intégrer des conditions de haut niveau et riches en fidélité dans les modèles de diffusion
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Nous proposons une méthode efficace pour insérer des adaptateurs dans les modèles fondamentaux texte-image, ce qui permet d'exécuter des tâches complexes en aval tout en préservant la capacité de généralisation du modèle de base. L'idée principale de cette méthode est d'optimiser le mécanisme d'attention lié aux cartes de caractéristiques 2D, ce qui améliore les performances de l'adaptateur. Cette approche a été validée sur la tâche de génération de vidéos mèmes et a obtenu des résultats significatifs. Nous espérons que ce travail pourra fournir des perspectives pour les tâches post-entraînement des grands modèles texte-image. De plus, comme cette méthode démontre une bonne compatibilité avec les modèles dérivés SD1.5, elle présente une certaine valeur pour la communauté open-source. Par conséquent, nous publierons le code associé (https://songkey.github.io/hellomeme).

LIBMoE : Une bibliothèque pour l'évaluation complète des Mélanges d'Experts dans les Grands Modèles de Langage
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Les Mélanges d'Experts (MoEs) jouent un rôle important dans le développement de modèles de langage de grande taille (LLMs) plus efficaces et performants. En raison des énormes besoins en ressources, l'étude des algorithmes MoE à grande échelle reste inaccessible à de nombreux chercheurs. Ce travail développe LibMoE, un cadre complet et modulaire pour rationaliser la recherche, la formation et l'évaluation des algorithmes MoE. Basé sur trois principes fondamentaux : (i) conception modulaire, (ii) formation efficace ; (iii) évaluation complète, LibMoE rend les MoE dans les LLMs plus accessibles à un large éventail de chercheurs en standardisant les pipelines de formation et d'évaluation. En utilisant LibMoE, nous avons largement évalué cinq algorithmes MoE de pointe sur trois LLMs différents et 11 ensembles de données dans le cadre de la configuration de zéro-shot. Les résultats montrent que malgré les caractéristiques uniques, tous les algorithmes MoE se comportent de manière assez similaire lorsqu'ils sont moyennés sur un large éventail de tâches. Avec sa conception modulaire et son évaluation approfondie, nous pensons que LibMoE sera inestimable pour les chercheurs afin de progresser de manière significative vers la prochaine génération de MoE et de LLMs. Page du projet : https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer : Prédiction de l'état de santé des batteries Li-ion à l'aide de Mamba Modèles d'espaces d'états
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

L'état de santé (SOH) d'une batterie Li-ion est un paramètre critique qui détermine la capacité restante et la durée de vie restante de la batterie. Dans cet article, nous proposons SambaMixer, un nouveau modèle structuré d'espace d'état (SSM) pour prédire l'état de santé des batteries Li-ion. Le SSM proposé est basé sur l'architecture MambaMixer, conçue pour traiter des signaux temporels multivariés. Nous évaluons notre modèle sur l'ensemble de données de décharge de batterie de la NASA et montrons que notre modèle surpasse l'état de l'art sur cet ensemble de données. Nous introduisons en outre une nouvelle méthode de rééchantillonnage basée sur des ancres qui garantit que les signaux temporels ont la longueur attendue tout en servant de technique d'augmentation. Enfin, nous conditionnons la prédiction sur le temps d'échantillonnage et la différence de temps de cycle en utilisant des encodages positionnels pour améliorer les performances de notre modèle et apprendre les effets de récupération. Nos résultats prouvent que notre modèle est capable de prédire l'état de santé des batteries Li-ion avec une grande précision et robustesse.

GRS-QA -- Ensemble de données de Question-Réponse Structurée basée sur le Raisonnement Graphique
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Les grands modèles de langage (LLM) se sont distingués dans la réponse à des questions à plusieurs niveaux (M-QA) en raison de leurs capacités de raisonnement avancées. Cependant, l'impact des structures de raisonnement inhérentes sur les performances de M-QA des LLM reste flou, principalement en raison de l'absence de jeux de données de questions-réponses fournissant des structures de raisonnement détaillées. Pour combler cette lacune, nous introduisons l'Ensemble de données de questions-réponses structurées par raisonnement graphique (GRS-QA), qui inclut à la fois des contextes sémantiques et des structures de raisonnement pour les paires de questions-réponses. Contrairement aux ensembles de données M-QA existants, où différentes structures de raisonnement sont entremêlées, GRS-QA capture explicitement des chemins de raisonnement complexes en construisant des graphes de raisonnement, où les nœuds représentent des contextes textuels et les arêtes indiquent des flux logiques. Ces graphes de raisonnement de différentes structures permettent une évaluation détaillée des capacités de raisonnement des LLM à travers diverses structures de raisonnement. Notre analyse empirique révèle que les LLM se comportent différemment lorsqu'ils traitent des questions avec des structures de raisonnement variables. Cette découverte facilite l'exploration des structures textuelles par rapport à la sémantique.

M2rc-Eval : Évaluation de l'achèvement de code au niveau du référentiel massivement multilingue
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

Le complément de code au niveau du référentiel a attiré une grande attention dans le domaine du génie logiciel, et plusieurs ensembles de données de référence ont été introduits. Cependant, les ensembles de données de référence existants pour le complément de code au niveau du référentiel se concentrent généralement sur un nombre limité de langages (<5), ce qui ne permet pas d'évaluer les capacités générales d'intelligence de code à travers différentes langues pour les grands modèles de langage de code existants (LLM). De plus, les ensembles de données de référence existants rapportent généralement des scores moyens globaux pour différentes langues, où les capacités fines dans différents scénarios de complétion sont ignorées. Par conséquent, pour faciliter la recherche des LLM de code dans des scénarios multilingues, nous proposons un ensemble de données de référence pour le complément de code au niveau du référentiel massivement multilingue couvrant 18 langages de programmation (appelé M2RC-EVAL), et deux types d'annotations fines (c'est-à-dire, au niveau du seau et au niveau sémantique) sur différents scénarios de complétion sont fournis, où nous obtenons ces annotations en fonction de l'arbre de syntaxe abstraite analysé. De plus, nous élaborons également un corpus d'instructions massivement multilingue, l'ensemble de données M2RC-INSTRUCT, pour améliorer les capacités de complément de code au niveau du référentiel des LLM de code existants. Des résultats expérimentaux complets démontrent l'efficacité de notre M2RC-EVAL et M2RC-INSTRUCT.

WikiNER-fr-gold : un corpus NER de référence
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

Dans cet article, nous abordons la qualité du corpus WikiNER, un corpus de reconnaissance d'entités nommées multilingue, et fournissons une version consolidée de celui-ci. L'annotation de WikiNER a été réalisée de manière semi-supervisée, c'est-à-dire qu'aucune vérification manuelle n'a été effectuée a posteriori. Un tel corpus est appelé norme argent. Dans cet article, nous proposons WikiNER-fr-gold, qui est une version révisée de la partie française de WikiNER. Notre corpus se compose d'un échantillon aléatoire de 20 % du sous-corpus français d'origine (26 818 phrases avec 700 000 jetons). Nous commençons par résumer les types d'entités inclus dans chaque catégorie afin de définir un guide d'annotation, puis nous procédons à la révision du corpus. Enfin, nous présentons une analyse des erreurs et des incohérences observées dans le corpus WikiNER-fr, et nous discutons des orientations potentielles pour les travaux futurs.

papers.title

papers.description

OS-ATLAS : Un modèle d'action fondamental pour les agents GUI généralistes
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personnalisation des Grands Modèles de Langage : Une Étude
Personalization of Large Language Models: A Survey

Oct 29

Flux à Accélération Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

TOMATE : Évaluation des capacités de raisonnement temporel visuel dans les modèles fondamentaux multimodaux
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Génération visuelle autoregressive randomisée
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath : un banc d'essai visuel dynamique pour évaluer la robustesse du raisonnement mathématique des modèles de langage vision.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Physique dans la prédiction du prochain jeton
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT ou BERT : pourquoi pas les deux ?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Étude des techniques de conception d'interface utilisateur et d'interaction dans les applications d'IA générative
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Fashion-VDM : Modèle de Diffusion Vidéo pour l'Essayage Virtuel
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

LoRA en contexte pour les transformateurs de diffusion
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Anonymisation faciale simplifiée
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2 : Reconstruction Efficace et Géométriquement Précise pour les Scènes à Grande Échelle
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Adaptation en cours d'apprentissage : Ancrage des LLM pour les problèmes scientifiques avec adaptation de l'utilisation d'outils intelligents
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Blanchiment Zipfien
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

BonjourMeme : Intégration des attentions de tricot spatial pour intégrer des conditions de haut niveau et riches en fidélité dans les modèles de diffusion
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE : Une bibliothèque pour l'évaluation complète des Mélanges d'Experts dans les Grands Modèles de Langage
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer : Prédiction de l'état de santé des batteries Li-ion à l'aide de Mamba Modèles d'espaces d'états
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA -- Ensemble de données de Question-Réponse Structurée basée sur le Raisonnement Graphique
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval : Évaluation de l'achèvement de code au niveau du référentiel massivement multilingue
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold : un corpus NER de référence
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau