HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

Les GAN sont morts ; vive les GAN ! Une référence moderne des GAN
The GAN is dead; long live the GAN! A Modern GAN Baseline

Jan 9

ByYiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin

Il est largement affirmé que les GAN sont difficiles à entraîner, et les architectures de GAN dans la littérature regorgent de stratagèmes empiriques. Nous apportons des preuves contre cette affirmation et construisons une référence moderne de GAN de manière plus fondée. Tout d'abord, nous dérivons une perte de GAN relativiste régularisée bien comportée qui aborde les problèmes de suppression de mode et de non-convergence qui étaient précédemment traités via une série de stratagèmes ad hoc. Nous analysons mathématiquement notre perte et prouvons qu'elle admet des garanties de convergence locale, contrairement à la plupart des pertes relativistes existantes. Deuxièmement, notre nouvelle perte nous permet de nous débarrasser de tous les stratagèmes ad hoc et de remplacer les architectures obsolètes utilisées dans les GAN courants par des architectures modernes. En utilisant StyleGAN2 comme exemple, nous présentons une feuille de route de simplification et de modernisation qui aboutit à une nouvelle référence minimaliste - R3GAN. Malgré sa simplicité, notre approche surpasse StyleGAN2 sur les ensembles de données FFHQ, ImageNet, CIFAR et Stacked MNIST, et se compare favorablement aux GAN de pointe et aux modèles de diffusion.

Améliorer les réponses semblables à celles des humains dans les grands modèles de langage
Enhancing Human-Like Responses in Large Language Models

Jan 9

ByEthem Yağız Çalık, Talha Rüzgar Akkuş

Cet article explore les progrès réalisés dans la création de grands modèles de langage (GML) plus semblables aux humains. Nous nous concentrons sur les techniques qui améliorent la compréhension du langage naturel, la cohérence conversationnelle et l'intelligence émotionnelle dans les systèmes d'IA. L'étude évalue diverses approches, notamment le fine-tuning avec des ensembles de données diversifiés, l'incorporation de principes psychologiques et la conception de modèles qui imitent mieux les schémas de raisonnement humain. Nos résultats démontrent que ces améliorations améliorent non seulement les interactions avec les utilisateurs, mais ouvrent également de nouvelles possibilités pour les applications d'IA dans différents domaines. Les travaux futurs aborderont les implications éthiques et les biais potentiels introduits par ces attributs semblables à ceux des humains.

Une étude empirique de la pré-formation autorégressive à partir de vidéos
An Empirical Study of Autoregressive Pre-training from Videos

Jan 9

ByJathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik

Nous étudions empiriquement la pré-formation autorégressive à partir de vidéos. Pour mener notre étude, nous construisons une série de modèles vidéo autorégressifs, appelés Toto. Nous considérons les vidéos comme des séquences de jetons visuels et entraînons des modèles de transformateur à prédire de manière autorégressive les jetons futurs. Nos modèles sont pré-entraînés sur un ensemble de données diversifié de vidéos et d'images comprenant plus de 1 billion de jetons visuels. Nous explorons différentes options de conception architecturale, d'entraînement et d'inférence. Nous évaluons les représentations visuelles apprises sur une gamme de tâches secondaires, y compris la reconnaissance d'images, la classification vidéo, le suivi d'objets et la robotique. Nos résultats démontrent que, malgré des biais inductifs minimes, la pré-formation autorégressive conduit à des performances compétitives sur tous les benchmarks. Enfin, nous constatons que l'augmentation de l'échelle de nos modèles vidéo entraîne des courbes d'augmentation similaires à celles observées dans les modèles de langage, bien que à un rythme différent. Plus de détails sur https://brjathu.github.io/toto/

Les VLM sont-ils prêts pour la conduite autonome ? Une étude empirique des perspectives de fiabilité, de données et de métriques.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Jan 7

ByShaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan

Les récentes avancées dans les Modèles Vision-Langage (VLM) ont suscité un intérêt pour leur utilisation dans la conduite autonome, notamment pour générer des décisions de conduite interprétables à travers un langage naturel. Cependant, l'hypothèse selon laquelle les VLM fournissent intrinsèquement des explications visuellement ancrées, fiables et interprétables pour la conduite reste largement inexplorée. Pour combler cette lacune, nous introduisons DriveBench, un ensemble de données de référence conçu pour évaluer la fiabilité des VLM à travers 17 configurations (entrées propres, corrompues et texte seul), englobant 19 200 images, 20 498 paires question-réponse, trois types de questions, quatre tâches de conduite principales, et un total de 12 VLM populaires. Nos résultats révèlent que les VLM génèrent souvent des réponses plausibles issues de connaissances générales ou de repères textuels plutôt que d'un ancrage visuel réel, surtout en présence d'entrées visuelles dégradées ou manquantes. Ce comportement, dissimulé par des déséquilibres dans les ensembles de données et des métriques d'évaluation insuffisantes, présente des risques significatifs dans des scénarios critiques en termes de sécurité tels que la conduite autonome. Nous observons en outre que les VLM rencontrent des difficultés avec le raisonnement multi-modal et montrent une sensibilité accrue aux corruptions des entrées, entraînant des incohérences de performance. Pour relever ces défis, nous proposons des métriques d'évaluation affinées qui privilégient un ancrage visuel robuste et une compréhension multi-modale. De plus, nous soulignons le potentiel d'exploiter la conscience des corruptions des VLM pour améliorer leur fiabilité, offrant ainsi une feuille de route pour le développement de systèmes de prise de décision plus fiables et interprétables dans des contextes de conduite autonome du monde réel. L'ensemble d'outils de référence est accessible au public.

Centurio : Sur les moteurs de la capacité multilingue des grands modèles de vision-langage
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

Jan 9

ByGregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš

La plupart des Grands Modèles Vision-Texte (LVLM) actuels sont principalement entraînés sur des données en anglais, ce qui les rend difficiles à comprendre les entrées dans d'autres langues et à générer des résultats dans la langue cible souhaitée. Les efforts existants pour atténuer ces problèmes consistent à ajouter des données d'entraînement multilingues, mais le font de manière largement ad hoc, sans avoir une vision claire de comment différents mélanges d'entraînement influencent les performances pour différents groupes de langues. Dans ce travail, nous présentons une enquête approfondie sur les stratégies d'entraînement pour les LVLM massivement multilingues. Tout d'abord, nous menons une série d'expériences à plusieurs étapes couvrant 13 tâches vision-texte et 43 langues, examinant systématiquement : (1) le nombre de langues d'entraînement pouvant être inclus sans dégrader les performances en anglais, (2) les distributions optimales de langues pour la pré-entraînement ainsi que (3) les données de réglage des instructions. De plus, nous (4) étudions comment améliorer la compréhension multilingue de texte dans des images, et introduisons un nouvel référentiel pour cette tâche. À notre grande surprise, notre analyse révèle que l'on peut (i) inclure jusqu'à 100 langues d'entraînement simultanément (ii) avec aussi peu que 25 à 50\% de données non anglaises, pour améliorer considérablement les performances multilingues tout en conservant de solides performances en anglais. Nous constatons également que (iii) l'inclusion de données OCR non anglaises dans la pré-entraînement et le réglage des instructions est primordiale pour améliorer la compréhension multilingue de texte dans des images. Enfin, nous combinons toutes nos découvertes et entraînons Centurio, un LVLM à 100 langues, offrant des performances de pointe dans une évaluation couvrant 14 tâches et 56 langues.

SWE-Fixer : Entraînement de LLM open source pour une résolution efficace et efficiente des problèmes GitHub
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

Jan 9

ByChengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen

Les grands modèles de langage (LLM) ont démontré une remarquable compétence dans une variété de tâches complexes. Une application significative des LLM est de relever les défis de l'ingénierie logicielle, en particulier en résolvant des tâches du monde réel sur GitHub en corrigeant du code basé sur les problèmes signalés par les utilisateurs. Cependant, de nombreuses approches actuelles reposent sur des LLM propriétaires, ce qui limite la reproductibilité, l'accessibilité et la transparence. Les composants critiques des LLM pour traiter les problèmes d'ingénierie logicielle et comment leurs capacités peuvent être efficacement améliorées restent flous. Pour relever ces défis, nous présentons SWE-Fixer, un nouveau LLM open-source conçu pour résoudre efficacement et efficacement les problèmes de GitHub. SWE-Fixer comprend deux modules essentiels : un module de récupération de fichiers de code et un module d'édition de code. Le module de récupération utilise BM25 ainsi qu'un modèle LLM léger pour réaliser une récupération de fichiers de manière grossière à fine. Ensuite, le module d'édition de code utilise l'autre modèle LLM pour générer des correctifs pour les fichiers identifiés. Ensuite, pour pallier le manque d'ensembles de données publiquement disponibles, nous compilons un ensemble de données étendu comprenant 110 000 problèmes GitHub ainsi que leurs correctifs correspondants, et formons les deux modules de SWE-Fixer séparément. Nous évaluons notre approche sur les benchmarks SWE-Bench Lite et Verified, atteignant des performances de pointe parmi les modèles open-source avec des scores de 23,3 % et 30,2 % respectivement. Ces résultats soulignent l'efficacité de notre approche. Nous rendrons notre modèle, notre ensemble de données et notre code publiquement disponibles sur https://github.com/InternLM/SWE-Fixer.

Sur les limites computationnelles et les critères de performance prouvée des modèles autorégressifs visuels : une analyse de complexité fine.
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

Jan 8

ByYekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

Récemment, les modèles visuels autorégressifs (VAR) ont introduit une avancée révolutionnaire dans le domaine de la génération d'images, offrant une approche évolutive à travers un paradigme de prédiction "prochaine échelle" grossière à fine. Cependant, l'algorithme de pointe des modèles VAR dans [Tian, Jiang, Yuan, Peng et Wang, NeurIPS 2024] prend un temps en O(n^4), ce qui est inefficace du point de vue computationnel. Dans ce travail, nous analysons les limites computationnelles et les critères d'efficacité des modèles VAR à travers une lentille de complexité fine. Notre contribution principale est d'identifier les conditions dans lesquelles les calculs VAR peuvent atteindre une complexité temporelle sous-quadratique. Plus précisément, nous établissons un seuil critique pour la norme des matrices d'entrée utilisées dans les mécanismes d'attention VAR. Au-dessus de ce seuil, en supposant l'Hypothèse du Temps Exponentiel Fort (SETH) de la théorie de la complexité fine, un algorithme temporel sous-quartique pour les modèles VAR est impossible. Pour étayer nos résultats théoriques, nous présentons des constructions efficaces exploitant des approximations de bas rang qui correspondent aux critères dérivés. Ce travail initie l'étude de l'efficacité computationnelle du modèle VAR d'un point de vue théorique. Notre technique éclairera les progrès de la génération d'images évolutive et efficace dans les cadres VAR.

Attention guidée par l'entropie pour les LLM privés
Entropy-Guided Attention for Private LLMs

Jan 7

ByNandan Kumar Jha, Brandon Reagen

La prévalence des modèles de langage propriétaires a soulevé des préoccupations critiques en matière de confidentialité, nécessitant des avancées en matière d'inférence privée (PI), où les calculs sont effectués directement sur des données chiffrées sans révéler les informations sensibles des utilisateurs. Bien que la PI offre une solution prometteuse, son déploiement pratique est entravé par des surdébits de communication et de latence substantiels, principalement dus aux opérations non linéaires. Pour y remédier, nous introduisons un cadre informationnel pour caractériser le rôle des non-linéarités dans les modèles de langage à décodeur uniquement, posant ainsi des bases fondées pour l'optimisation des architectures de transformateur adaptées aux exigences de la PI. En exploitant l'entropie de Shannon comme mesure quantitative, nous révélons la double importance des non-linéarités jusqu'alors inexplorée : au-delà d'assurer la stabilité de l'apprentissage, elles sont cruciales pour maintenir la diversité des têtes d'attention. Plus précisément, nous constatons que leur suppression déclenche deux modes d'échec critiques : l'« effondrement entropique » dans les couches plus profondes qui déstabilise l'apprentissage, et la « surcharge entropique » dans les couches plus précoces qui conduit à une sous-utilisation de la capacité de représentation de l'Attention Multi-Têtes (MHA). Nous proposons un mécanisme d'attention guidé par l'entropie associé à une nouvelle technique de régularisation de l'entropie pour atténuer la surcharge entropique. De plus, nous explorons des alternatives favorables à la PI à la normalisation des couches pour prévenir l'effondrement entropique et stabiliser l'apprentissage des LLM avec des non-linéarités réduites. Notre étude comble le fossé entre la théorie de l'information et la conception architecturale, établissant la dynamique de l'entropie comme guide fondé pour le développement d'architectures PI efficaces. Le code et l'implémentation sont disponibles sur https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.

Établir les bases pour le traitement automatique du langage naturel du turc historique : ressources et modèles
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models

Jan 8

ByŞaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir

Cet article présente des ressources et des modèles fondamentaux pour le traitement automatique du langage naturel (TALN) du turc historique, un domaine qui est resté sous-exploré en linguistique informatique. Nous présentons le premier ensemble de données de reconnaissance d'entités nommées (NER) pour le turc historique, HisTR, ainsi que le premier corpus arboré de dépendances universelles, OTA-BOUN, pour une forme historique de la langue turque, accompagnés de modèles basés sur des transformers entraînés à l'aide de ces ensembles de données pour la reconnaissance d'entités nommées, l'analyse syntaxique de dépendances et l'étiquetage morpho-syntaxique. De plus, nous introduisons le Corpus de Textes Ottomans (OTC), un corpus propre de textes turcs historiques translittérés couvrant une large gamme de périodes historiques. Nos résultats expérimentaux montrent des améliorations significatives dans l'analyse informatique du turc historique, atteignant des résultats prometteurs dans des tâches nécessitant la compréhension des structures linguistiques historiques. Ils soulignent également les défis existants, tels que l'adaptation au domaine et les variations linguistiques à travers les périodes. Toutes les ressources et les modèles présentés sont disponibles sur https://huggingface.co/bucolin pour servir de référence pour les progrès futurs dans le TALN du turc historique.

Les VLM sont-ils prêts pour la conduite autonome ? Une étude empirique des perspectives de fiabilité, de données et de métriques.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Jan 7

ByShaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan