papers.title

papers.description

UCFE : Un référentiel d'expertise financière centré sur l'utilisateur pour les grands modèles de langage.
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Cet article présente l'UCFE : User-Centric Financial Expertise benchmark, un cadre novateur conçu pour évaluer la capacité des grands modèles de langage (LLM) à traiter des tâches financières réelles complexes. Le benchmark UCFE adopte une approche hybride qui combine les évaluations d'experts humains avec des interactions dynamiques spécifiques aux tâches pour simuler les complexités des scénarios financiers évolutifs. Tout d'abord, nous avons mené une étude utilisateur impliquant 804 participants, recueillant leurs retours sur des tâches financières. Ensuite, basé sur ces retours, nous avons créé notre ensemble de données qui englobe une large gamme d'intentions et d'interactions utilisateur. Cet ensemble de données sert de base pour évaluer 12 services LLM en utilisant la méthodologie LLM-en-Juge. Nos résultats montrent un alignement significatif entre les scores du benchmark et les préférences humaines, avec un coefficient de corrélation de Pearson de 0,78, confirmant l'efficacité de l'ensemble de données UCFE et de notre approche d'évaluation. Le benchmark UCFE révèle non seulement le potentiel des LLM dans le secteur financier, mais fournit également un cadre robuste pour évaluer leurs performances et la satisfaction des utilisateurs. L'ensemble de données du benchmark et le code d'évaluation sont disponibles.

Agents Web avec Modèles du Monde : Apprentissage et Exploitation de la Dynamique de l'Environnement dans la Navigation Web
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

Les grands modèles de langage (LLM) ont récemment suscité beaucoup d'attention dans la création d'agents autonomes. Cependant, les performances des agents web actuels basés sur les LLM dans les tâches à long horizon sont loin d'être optimales, entraînant souvent des erreurs telles que l'achat répété d'un billet d'avion non remboursable. En revanche, les humains peuvent éviter une telle erreur irréversible, car nous avons une conscience des résultats potentiels (par exemple, la perte d'argent) de nos actions, également connue sous le nom de "modèle du monde". Motivée par cela, notre étude commence d'abord par des analyses préliminaires, confirmant l'absence de modèles du monde dans les LLM actuels (par exemple, GPT-4o, Claude-3.5-Sonnet, etc.). Ensuite, nous présentons un agent web augmenté d'un modèle du monde (WMA), qui simule les résultats de ses actions pour une meilleure prise de décision. Pour surmonter les défis liés à l'entraînement des LLM en tant que modèles du monde prédisant les prochaines observations, tels que des éléments répétés à travers les observations et de longues entrées HTML, nous proposons une abstraction d'observation axée sur la transition, où les objectifs de prédiction sont des descriptions en langage naturel libre mettant en évidence exclusivement les différences d'état importantes entre les étapes temporelles. Les expériences menées sur WebArena et Mind2Web montrent que nos modèles du monde améliorent la sélection des politiques des agents sans entraînement et démontrent l'efficacité en termes de coûts et de temps de nos agents par rapport aux agents récents basés sur la recherche arborescente.

NaturalBench : Évaluation des modèles Vision-Language sur des échantillons adverses naturels
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

Les modèles vision-langage (VLM) ont réalisé des progrès significatifs dans les récents benchmarks de question-réponse visuelle (VQA) qui évaluent un raisonnement visio-linguistique complexe. Cependant, ces modèles sont-ils réellement efficaces ? Dans ce travail, nous montrons que les VLM ont encore du mal avec les images naturelles et les questions auxquelles les humains peuvent répondre facilement, ce que nous appelons des échantillons adverses naturels. Nous constatons également qu'il est étonnamment facile de générer ces échantillons VQA à partir de corpus d'images-textes naturels en utilisant des modèles prêts à l'emploi tels que CLIP et ChatGPT. Nous proposons une approche semi-automatisée pour collecter un nouveau benchmark, NaturalBench, afin d'évaluer de manière fiable les VLM avec 10 000 échantillons VQA vérifiés par des humains. De manière cruciale, nous adoptons une conception centrée sur la vision en associant à chaque question deux images qui donnent des réponses différentes, empêchant ainsi les solutions aveugles de répondre sans utiliser les images. Cela rend NaturalBench plus difficile que les benchmarks précédents qui peuvent être résolus avec des connaissances a priori. Nous évaluons 53 VLM de pointe sur NaturalBench, montrant que des modèles tels que LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, et même GPT-4o accusent un retard de 50 % à 70 % par rapport aux performances humaines (plus de 90 %). Nous analysons pourquoi NaturalBench est difficile sous deux angles : (1) Compositionnalité : Résoudre NaturalBench nécessite des compétences visio-linguistiques diverses, comprenant la compréhension des liens d'attributs, des relations entre objets, et un raisonnement avancé tel que la logique et le dénombrement. À cette fin, contrairement aux travaux antérieurs qui utilisent un seul tag par échantillon, nous étiquetons chaque échantillon de NaturalBench avec 1 à 8 tags de compétences pour une évaluation fine. (2) Biais : NaturalBench expose des biais sévères dans les VLM, car les modèles choisissent souvent la même réponse indépendamment de l'image. Enfin, nous appliquons notre méthode de curation de benchmark à des sources de données diverses, y compris de longues légendes (plus de 100 mots) et des langues non anglaises comme le chinois et l'hindi, mettant en avant son potentiel pour des évaluations dynamiques des VLM.

MagicTailor : Personnalisation contrôlable par composant dans les modèles de diffusion texte-vers-image
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

Les récents progrès dans les modèles de diffusion texte-image (T2I) ont permis la création d'images de haute qualité à partir de descriptions textuelles, mais ils peinent encore à générer des images avec un contrôle précis sur des concepts visuels spécifiques. Les approches existantes peuvent reproduire un concept donné en apprenant à partir d'images de référence, mais elles manquent de flexibilité pour la personnalisation fine des composants individuels au sein du concept. Dans cet article, nous introduisons la personnalisation contrôlable par composant, une tâche novatrice qui repousse les limites des modèles T2I en permettant aux utilisateurs de reconfigurer des composants spécifiques lors de la personnalisation de concepts visuels. Cette tâche est particulièrement difficile en raison de deux obstacles principaux : la pollution sémantique, où des éléments visuels indésirables corrompent le concept personnalisé, et le déséquilibre sémantique, qui entraîne un apprentissage disproportionné du concept et du composant. Pour surmonter ces défis, nous concevons MagicTailor, un cadre novateur qui exploite la Dégradation Masquée Dynamique (DM-Deg) pour perturber dynamiquement les sémantiques visuelles indésirables et l'Équilibrage à Double Flux (DS-Bal) pour établir un paradigme d'apprentissage équilibré pour les sémantiques visuelles souhaitées. Des comparaisons approfondies, des ablations et des analyses démontrent que MagicTailor excelle non seulement dans cette tâche difficile, mais offre également des perspectives significatives pour des applications pratiques, ouvrant la voie à une génération d'images plus nuancée et créative.

SeerAttention : Apprentissage de l'Attention Intrinsèquement Éparse dans Vos LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

L'attention est la pierre angulaire des modèles de langage de grande taille (LLM) modernes. Cependant, sa complexité quadratique limite l'efficacité et la scalabilité des LLM, en particulier pour ceux avec une fenêtre de contexte longue. Une approche prometteuse pour surmonter cette limitation est d'exploiter la parcimonie dans l'attention. Cependant, les solutions basées sur la parcimonie existantes reposent principalement sur des motifs prédéfinis ou des heuristiques pour approximer la parcimonie. Cette pratique ne parvient pas à capturer pleinement la nature dynamique de la parcimonie de l'attention dans les tâches basées sur le langage. Cet article soutient que la parcimonie de l'attention devrait être apprise plutôt que prédéfinie. À cette fin, nous concevons SeerAttention, un nouveau mécanisme d'attention qui complète l'attention conventionnelle avec une porte apprenante qui sélectionne de manière adaptative des blocs significatifs dans une carte d'attention et considère les autres blocs comme parcimonieux. Une telle parcimonie au niveau des blocs équilibre efficacement précision et accélération. Pour permettre l'apprentissage efficace du réseau de portes, nous développons une implémentation FlashAttention personnalisée qui extrait la vérité terrain au niveau des blocs de la carte d'attention avec un minimum de surcharge. SeerAttention s'applique non seulement à la post-formation, mais excelle également dans le fine-tuning à long contexte. Nos résultats montrent qu'aux étapes de post-formation, SeerAttention surpasse significativement les méthodes d'attention parcimonieuses statiques ou basées sur des heuristiques de pointe, tout en étant plus polyvalent et flexible pour s'adapter à des longueurs de contexte variables et à des taux de parcimonie. Lorsqu'appliqué au fine-tuning à long contexte avec YaRN, SeerAttention peut atteindre un remarquable taux de parcimonie de 90% avec une longueur de contexte de 32k et une perte de perplexité minimale, offrant un gain de vitesse de 5,67 fois par rapport à FlashAttention-2.

FiTv2 : Vision Transformer Flexible amélioré et évolutif pour la diffusion de modèles
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

La nature est infiniment exempte de résolution. Dans le contexte de cette réalité, les modèles de diffusion existants, tels que les Transformateurs de Diffusion, rencontrent souvent des défis lors du traitement de résolutions d'images en dehors de leur domaine d'entraînement. Pour remédier à cette limitation, nous conceptualisons les images comme des séquences de jetons de tailles dynamiques, plutôt que les méthodes traditionnelles qui perçoivent les images comme des grilles de résolution fixe. Cette perspective permet une stratégie d'entraînement flexible qui s'adapte facilement à divers rapports hauteur/largeur à la fois pendant l'entraînement et l'inférence, favorisant ainsi la généralisation de la résolution et éliminant les biais introduits par le recadrage d'images. Sur cette base, nous présentons le Transformateur de Vision Flexible (FiT), une architecture de transformer spécifiquement conçue pour générer des images avec des résolutions et des rapports hauteur/largeur illimités. Nous améliorons ensuite le FiT en FiTv2 avec plusieurs conceptions innovantes, notamment la normalisation des vecteurs de requête-clé, le module AdaLN-LoRA, un planificateur de flux rectifié et un échantillonneur Logit-Normal. Renforcé par une structure de réseau méticuleusement ajustée, le FiTv2 présente une vitesse de convergence 2 fois supérieure à celle du FiT. En incorporant des techniques d'extrapolation avancées sans entraînement, le FiTv2 démontre une adaptabilité remarquable à la fois dans l'extrapolation de résolution et la génération de résolutions diverses. De plus, notre exploration de la scalabilité du modèle FiTv2 révèle que les modèles plus grands présentent une meilleure efficacité computationnelle. En outre, nous introduisons une stratégie efficace de post-entraînement pour adapter un modèle pré-entraîné à la génération haute résolution. Des expériences complètes démontrent les performances exceptionnelles du FiTv2 sur une large gamme de résolutions. Nous avons mis à disposition tous les codes et modèles sur https://github.com/whlzy/FiT pour promouvoir l'exploration des modèles de transformateur de diffusion pour la génération d'images à résolution arbitraire.

DPLM-2 : Un modèle de langue multimodal à diffusion de protéines
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

Les protéines sont des macromolécules essentielles définies par leurs séquences d'acides aminés, qui déterminent leurs structures tridimensionnelles et, par conséquent, leurs fonctions dans tous les organismes vivants. Par conséquent, la modélisation générative des protéines nécessite une approche multimodale pour modéliser, comprendre et générer simultanément les séquences et les structures. Cependant, les méthodes existantes utilisent généralement des modèles séparés pour chaque modalité, limitant leur capacité à capturer les relations complexes entre séquence et structure. Cela se traduit par des performances sous-optimales dans les tâches qui nécessitent une compréhension conjointe et une génération des deux modalités. Dans cet article, nous présentons DPLM-2, un modèle de base multimodal pour les protéines qui étend le modèle de langage de protéines à diffusion discrète (DPLM) pour prendre en compte à la fois les séquences et les structures. Pour permettre l'apprentissage structurel avec le modèle de langage, les coordonnées 3D sont converties en jetons discrets à l'aide d'un tokenizer basé sur une quantification sans recherche de correspondance. En s'entraînant à la fois sur des structures expérimentales et des structures synthétiques de haute qualité, DPLM-2 apprend la distribution conjointe de séquence et de structure, ainsi que leurs marginales et conditionnelles. Nous mettons également en œuvre une stratégie efficace de préchauffage pour exploiter le lien entre les données évolutives à grande échelle et les biais inductifs structurels des modèles de langage de protéines pré-entraînés basés sur les séquences. L'évaluation empirique montre que DPLM-2 peut générer simultanément des séquences d'acides aminés hautement compatibles et leurs structures 3D correspondantes, éliminant ainsi le besoin d'une approche de génération en deux étapes. De plus, DPLM-2 démontre des performances compétitives dans diverses tâches de génération conditionnelle, y compris le repliement, le repliement inverse et l'échafaudage avec des entrées de motifs multimodales, tout en fournissant des représentations conscientes de la structure pour les tâches prédictives.

Mini-Omni2 : Vers un GPT-4o open-source avec des capacités de vision, de parole et de duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

GPT-4o, un modèle tout-en-un, représente une étape importante dans le développement des grands modèles de langage multi-modaux. Il peut comprendre les modalités visuelles, auditives et textuelles, produire directement de l'audio et prendre en charge une interaction duplex flexible. Les modèles de la communauté open-source parviennent souvent à certaines fonctionnalités de GPT-4o, telles que la compréhension visuelle et les conversations vocales. Néanmoins, former un modèle unifié qui intègre toutes les modalités est difficile en raison des complexités des données multi-modales, des architectures de modèle complexes et des processus de formation. Dans cet article, nous présentons Mini-Omni2, un assistant visuel-audio capable de fournir des réponses vocales en temps réel de bout en bout aux requêtes visuelles et audio. En intégrant des codeurs visuels et auditifs pré-entraînés, Mini-Omni2 maintient les performances dans les modalités individuelles. Nous proposons un processus de formation en trois étapes pour aligner les modalités, permettant au modèle de langage de gérer les entrées et sorties multi-modales après la formation sur un ensemble de données limité. Pour l'interaction, nous introduisons un mécanisme d'interruption basé sur des commandes, permettant une interaction plus flexible avec les utilisateurs. À notre connaissance, Mini-Omni2 est l'une des reproductions les plus proches de GPT-4o, qui ont une forme similaire de fonctionnalité, et nous espérons qu'il pourra offrir des perspectives précieuses pour les recherches ultérieures.

HART : Génération Visuelle Efficace avec un Transformateur Autorégressif Hybride
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

Nous introduisons le Transformer Autoregressif Hybride (HART), un modèle de génération visuelle autoregressif capable de générer directement des images de 1024x1024, rivalisant avec les modèles de diffusion en termes de qualité de génération d'images. Les modèles AR existants sont confrontés à des limitations en raison de la mauvaise qualité de reconstruction d'image de leurs tokenizers discrets et des coûts de formation prohibitifs associés à la génération d'images de 1024px. Pour relever ces défis, nous présentons le tokenizer hybride, qui décompose les latents continus de l'autoencodeur en deux composantes : des tokens discrets représentant l'image globale et des tokens continus représentant les composantes résiduelles qui ne peuvent pas être représentées par les tokens discrets. La composante discrète est modélisée par un modèle AR discret à résolution évolutive, tandis que la composante continue est apprise avec un module de diffusion résiduel léger avec seulement 37M de paramètres. Comparé au tokenizer VAR uniquement discret, notre approche hybride améliore le FID de reconstruction de 2,11 à 0,30 sur MJHQ-30K, entraînant une amélioration du FID de génération de 31% de 7,85 à 5,38. HART surpasse également les modèles de diffusion de pointe à la fois en FID et en score CLIP, avec un débit 4,5 à 7,7 fois plus élevé et des MACs 6,9 à 13,4 fois plus faibles. Notre code est open source sur https://github.com/mit-han-lab/hart.

Curriculum de Diffusion : Apprentissage de Curriculum Génératif Synthétique-à-Réel via Diffusion Guidée par Image
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

Les données de qualité médiocre ou rares ont posé des défis significatifs pour l'entraînement des réseaux neuronaux profonds en pratique. Alors que l'augmentation de données classique ne peut pas apporter de données très différentes, les modèles de diffusion ouvrent une nouvelle voie pour construire une IA auto-évolutive en générant des données synthétiques de haute qualité et diversifiées à travers des instructions guidées par texte. Cependant, l'orientation uniquement basée sur le texte ne peut pas contrôler la proximité des images synthétiques avec les images originales, entraînant des données hors distribution préjudiciables à la performance du modèle. Pour surmonter cette limitation, nous étudions l'orientation des images pour obtenir un spectre d'interpolations entre les images synthétiques et réelles. Avec une orientation d'image plus forte, les images générées sont similaires aux données d'entraînement mais difficiles à apprendre. Tandis qu'avec une orientation d'image plus faible, les images synthétiques seront plus faciles pour le modèle mais contribueront à un écart de distribution plus important avec les données originales. Le spectre complet de données générées nous permet de construire un nouveau "Curriculum de Diffusion (DisCL)". DisCL ajuste le niveau d'orientation des images pour la synthèse d'images à chaque étape d'entraînement : il identifie et se concentre sur les échantillons difficiles pour le modèle et évalue le niveau d'orientation le plus efficace des images synthétiques pour améliorer l'apprentissage des données difficiles. Nous appliquons DisCL à deux tâches complexes : la classification à longue traîne (LT) et l'apprentissage à partir de données de qualité médiocre. Il se concentre sur les images à faible orientation de haute qualité pour apprendre des caractéristiques prototypiques en tant qu'échauffement avant d'apprendre des images à orientation plus élevée qui pourraient manquer de diversité ou de qualité. Des expériences approfondies montrent un gain de 2,7% et 2,1% en macro-précision OOD et ID lors de l'application de DisCL à l'ensemble de données iWildCam. Sur ImageNet-LT, DisCL améliore la précision des classes de queue du modèle de base de 4,4% à 23,64% et entraîne une amélioration de 4,02% dans la précision de toutes les classes.

DAWN : Avatar de Cadre Dynamique avec Cadre de Diffusion Non-Autorégressif pour la Génération de Vidéos de Tête Parlante
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

La génération de têtes parlantes vise à produire des vidéos de têtes parlantes vives et réalistes à partir d'un seul portrait et d'un extrait audio de discours. Bien que des progrès significatifs aient été réalisés dans la génération de têtes parlantes basée sur la diffusion, presque toutes les méthodes reposent sur des stratégies autorégressives, qui souffrent d'une utilisation limitée du contexte au-delà de l'étape actuelle de génération, de l'accumulation d'erreurs et d'une vitesse de génération plus lente. Pour relever ces défis, nous présentons DAWN (Avatar de cadre dynamique avec diffusion non autorégressive), un cadre qui permet la génération simultanée de séquences vidéo de longueurs dynamiques. Plus précisément, il se compose de deux composants principaux : (1) la génération holistique des dynamiques faciales basée sur l'audio dans l'espace de mouvement latent, et (2) la génération de la pose de tête et des clignements basée sur l'audio. Des expériences approfondies démontrent que notre méthode génère des vidéos authentiques et vives avec des mouvements précis des lèvres, et des mouvements naturels de pose/clignement. De plus, avec une vitesse de génération élevée, DAWN possède de solides capacités d'extrapolation, garantissant la production stable de vidéos longues de haute qualité. Ces résultats soulignent la promesse considérable et l'impact potentiel de DAWN dans le domaine de la génération de vidéos de têtes parlantes. De plus, nous espérons que DAWN suscite une exploration plus poussée des approches non autorégressives dans les modèles de diffusion. Notre code sera disponible publiquement sur https://github.com/Hanbo-Cheng/DAWN-pytorch.

Les détecteurs d'IA sont-ils suffisamment performants ? Une enquête sur la qualité des ensembles de données contenant des textes générés par des machines.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

Le développement rapide des grands modèles de langage autorégressifs (LLMs) a considérablement amélioré la qualité des textes générés, nécessitant des détecteurs de texte généré par machine fiables. Un grand nombre de détecteurs et de collections contenant des fragments d'IA ont émergé, et plusieurs méthodes de détection ont même montré une qualité de reconnaissance allant jusqu'à 99,9 % selon les métriques cibles dans de telles collections. Cependant, la qualité de ces détecteurs a tendance à chuter de manière significative dans des conditions réelles, posant la question : les détecteurs sont-ils réellement très fiables ou leurs scores de référence élevés proviennent-ils de la mauvaise qualité des ensembles de données d'évaluation ? Dans cet article, nous soulignons le besoin de méthodes robustes et qualitatives pour évaluer les données générées afin d'être protégé contre les biais et la faible capacité de généralisation des futurs modèles. Nous présentons une revue systématique des ensembles de données provenant de compétitions dédiées à la détection de contenu généré par IA et proposons des méthodes pour évaluer la qualité des ensembles de données contenant des fragments générés par IA. De plus, nous discutons de la possibilité d'utiliser des données générées de haute qualité pour atteindre deux objectifs : améliorer la formation des modèles de détection et améliorer les ensembles de données d'entraînement eux-mêmes. Notre contribution vise à faciliter une meilleure compréhension de la dynamique entre le texte humain et machine, ce qui soutiendra finalement l'intégrité de l'information dans un monde de plus en plus automatisé.

BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

Nous présentons BiGR, un nouveau modèle de génération d'images conditionnelles utilisant des codes latents binaires compacts pour l'entraînement génératif, mettant l'accent sur l'amélioration des capacités de génération et de représentation. BiGR est le premier modèle génératif conditionnel qui unifie la génération et la discrimination au sein du même cadre. BiGR présente un tokeniseur binaire, un mécanisme de modélisation masqué et un transcodeur binaire pour la prédiction de codes binaires. De plus, nous introduisons une nouvelle méthode d'échantillonnage ordonnée par entropie pour permettre une génération d'images efficace. Des expériences approfondies valident les performances supérieures de BiGR en termes de qualité de génération, mesurée par FID-50k, et de capacités de représentation, comme en témoigne la précision de la sonde linéaire. De plus, BiGR démontre une généralisation sans apprentissage sur diverses tâches de vision, permettant des applications telles que l'inpainting, l'outpainting, l'édition, l'interpolation et l'enrichissement d'images, sans nécessiter de modifications structurelles. Nos résultats suggèrent que BiGR unifie efficacement les tâches génératives et discriminatives, ouvrant la voie à de nouvelles avancées dans le domaine.

SHAKTI : Un petit modèle de langage de 2,5 milliards de paramètres optimisé pour l'IA embarquée et les environnements à faibles ressources.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

Nous présentons Shakti, un modèle de langage de 2,5 milliards de paramètres spécifiquement optimisé pour les environnements contraints en ressources tels que les appareils périphériques, y compris les smartphones, les dispositifs portables et les systèmes IoT. Shakti associe NLP haute performance avec une efficacité et une précision optimisées, le rendant idéal pour les applications d'IA en temps réel où les ressources de calcul et la mémoire sont limitées. Avec le support des langues vernaculaires et des tâches spécifiques au domaine, Shakti excelle dans des industries telles que la santé, la finance et le service client. Les évaluations de référence démontrent que Shakti se comporte de manière compétitive par rapport aux modèles plus grands tout en maintenant une faible latence et une efficacité sur l'appareil, le positionnant comme une solution de premier plan pour l'IA périphérique.

Regarder vers l'intérieur : les modèles de langage peuvent apprendre à propos d'eux-mêmes par introspection.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

Les humains acquièrent des connaissances en observant le monde extérieur, mais aussi par l'introspection. L'introspection donne à une personne un accès privilégié à son état mental actuel (par exemple, ses pensées et ses émotions) qui n'est pas accessible aux observateurs externes. Les LLM peuvent-ils s'introspecter ? Nous définissons l'introspection comme l'acquisition de connaissances qui ne sont pas contenues dans les données d'entraînement ni dérivées de celles-ci, mais qui proviennent plutôt des états internes. Une telle capacité pourrait améliorer l'interprétabilité du modèle. Au lieu d'analyser laborieusement le fonctionnement interne d'un modèle, nous pourrions simplement lui demander ses croyances, ses modèles du monde et ses objectifs. De manière plus spéculative, un modèle introspectif pourrait rendre compte de l'existence en lui d'états internes tels que des sentiments subjectifs ou des désirs, ce qui pourrait nous renseigner sur le statut moral de ces états. Ces auto-rapports ne seraient pas entièrement dictés par les données d'entraînement du modèle. Nous étudions l'introspection en affinant les LLM pour prédire les propriétés de leur propre comportement dans des scénarios hypothétiques. Par exemple, "Étant donné l'entrée P, votre sortie favoriserait-elle l'option à court ou à long terme ?" Si un modèle M1 peut s'introspecter, il devrait surpasser un autre modèle M2 dans la prédiction du comportement de M1, même si M2 est entraîné sur le comportement réel de M1. L'idée est que M1 a un accès privilégié à ses propres tendances comportementales, ce qui lui permet de se prédire lui-même mieux que M2 (même si M2 est généralement plus fort). Dans des expériences avec les modèles GPT-4, GPT-4o et Llama-3 (chacun affiné pour se prédire lui-même), nous constatons que le modèle M1 surpasse M2 dans sa prédiction de lui-même, fournissant ainsi des preuves d'introspection. Notamment, M1 continue à prédire son comportement avec précision même après avoir intentionnellement modifié son comportement réel. Cependant, bien que nous parvenions à susciter l'introspection sur des tâches simples, nous échouons sur des tâches plus complexes ou nécessitant une généralisation hors distribution.

Comment les méthodes d'entraînement influencent-elles l'utilisation des modèles de vision ?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

Tous les paramètres apprenables (par exemple, les poids) ne contribuent pas de manière égale à la fonction de décision d'un réseau neuronal. En fait, il arrive parfois que les paramètres de couches entières puissent être réinitialisés à des valeurs aléatoires sans impact significatif sur les décisions du modèle. Nous revisitons des études antérieures qui ont examiné comment l'architecture et la complexité de la tâche influencent ce phénomène et nous posons la question : ce phénomène est-il également affecté par la manière dont nous entraînons le modèle ? Nous avons réalisé des évaluations expérimentales sur un ensemble diversifié de modèles de classification ImageNet-1k pour explorer cela, en gardant l'architecture et les données d'entraînement constants mais en variant le pipeline d'entraînement. Nos résultats révèlent que la méthode d'entraînement influence fortement quelles couches deviennent critiques pour la fonction de décision d'une tâche donnée. Par exemple, les régimes d'entraînement améliorés et l'entraînement auto-supervisé augmentent l'importance des premières couches tout en sous-utilisant significativement les couches plus profondes. En revanche, des méthodes telles que l'entraînement adversarial montrent une tendance opposée. Nos résultats préliminaires étendent les découvertes antérieures, offrant une compréhension plus nuancée des mécanismes internes des réseaux neuronaux. Code : https://github.com/paulgavrikov/layer_criticality

Le contexte est clé (NMF) : Modélisation de la dynamique de l'information thématique dans les médias de la diaspora chinoise
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

La République populaire de Chine (RPC) interfère-t-elle dans les élections européennes à travers les médias de la diaspora chinoise ? Cette question constitue la base d'un projet de recherche en cours explorant comment les récits de la RPC sur les élections européennes sont représentés dans les médias de la diaspora chinoise, et donc les objectifs de la manipulation des médias d'information de la RPC. Afin d'étudier efficacement et à grande échelle les médias de la diaspora, il est nécessaire d'utiliser des techniques issues de l'analyse textuelle quantitative, telles que la modélisation de sujets. Dans cet article, nous présentons un pipeline pour étudier la dynamique de l'information dans les médias chinois. Tout d'abord, nous présentons KeyNMF, une nouvelle approche de modélisation de sujets statiques et dynamiques utilisant des modèles d'encastrement contextuels basés sur des transformateurs. Nous fournissons des évaluations de référence pour démontrer que notre approche est compétitive sur un certain nombre d'ensembles de données et de métriques chinoises. Deuxièmement, nous intégrons KeyNMF avec des méthodes existantes pour décrire la dynamique de l'information dans des systèmes complexes. Nous appliquons ce pipeline à des données provenant de cinq sites d'actualités, en mettant l'accent sur la période précédant les élections parlementaires européennes de 2024. Nos méthodes et résultats démontrent l'efficacité de KeyNMF pour étudier la dynamique de l'information dans les médias chinois et posent les bases pour de futurs travaux abordant des questions de recherche plus larges.

Un piège courant de l'alignement de modèles de langage basé sur la marge : l'enchevêtrement de gradients.
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

L'apprentissage par renforcement à partir des retours humains (RLHF) est devenu l'approche prédominante pour l'alignement des modèles de langage (LM). Fondamentalement, le RLHF utilise une perte basée sur la marge pour l'optimisation des préférences, spécifiant le comportement idéal du LM uniquement par la différence entre les réponses préférées et non préférées. Dans cet article, nous identifions une erreur commune des méthodes basées sur la marge - la sous-spécification du comportement idéal du LM sur les réponses préférées et non préférées individuellement, ce qui entraîne deux conséquences non voulues à mesure que la marge augmente : (1) La probabilité de réponses non préférées (par exemple, non sécurisées) peut augmenter, entraînant des échecs potentiels d'alignement de sécurité. (2) La probabilité de réponses préférées peut diminuer, même lorsque ces réponses sont idéales. Nous clarifions les raisons derrière ces comportements problématiques : les pertes basées sur la marge couplent le changement de la probabilité préférée au gradient de la probabilité non préférée, et vice versa, empêchant souvent l'augmentation de la probabilité préférée tandis que celle de la probabilité non préférée diminue, entraînant ainsi une augmentation ou une diminution synchronisée des deux probabilités. Nous nommons cet effet, inhérent aux objectifs basés sur la marge, l'enchevêtrement des gradients. Formellement, nous dérivons des conditions pour des objectifs d'alignement basés sur la marge généraux sous lesquelles l'enchevêtrement des gradients devient préoccupant : le produit scalaire des gradients des log-probabilités préférées et non préférées est grand par rapport aux normes de gradient individuelles. Nous étudions théoriquement pourquoi de tels produits scalaires peuvent être importants lors de l'alignement des modèles de langage et validons empiriquement nos résultats. Les implications empiriques de notre cadre s'étendent à l'explication des différences importantes dans la dynamique d'entraînement de divers algorithmes d'optimisation des préférences, et suggèrent des conceptions d'algorithmes potentielles pour atténuer le problème de sous-spécification des méthodes basées sur la marge et ainsi améliorer l'alignement des modèles de langage.

Montessori-Instruct : Générer des données d'entraînement influentes adaptées à l'apprentissage des étudiants
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong

Les données synthétiques ont été largement utilisées pour entraîner de grands modèles de langage, mais leur nature générative introduit inévitablement des signaux d'apprentissage bruyants, non informatifs et trompeurs. Dans cet article, nous proposons Montessori-Instruct, un nouveau cadre de synthèse de données qui adapte la capacité de synthèse de données du modèle de langage enseignant au processus d'apprentissage du modèle de langage étudiant. Plus précisément, nous utilisons l'influence locale des données synthétiques d'entraînement sur les étudiants pour caractériser les préférences d'apprentissage des étudiants. Ensuite, nous formons le modèle enseignant avec l'Optimisation des Préférences Directes (OPD) pour générer des données synthétiques adaptées aux préférences d'apprentissage des étudiants. Des expériences avec Llama3-8B-Instruct (enseignant) et Llama3-8B (étudiant) sur Alpaca Eval et MT-Bench montrent que Montessori-Instruct surpasse significativement les méthodes de synthèse standard de 18,35 % et 46,24 % respectivement. Notre méthode surpasse également les données synthétisées par un modèle enseignant plus puissant, GPT-4o. Une analyse supplémentaire confirme les avantages de l'apprentissage de l'enseignant pour générer des données d'entraînement plus influentes dans l'amélioration de l'apprentissage de l'étudiant, les avantages de l'influence locale des données pour mesurer avec précision les préférences des étudiants, et la robustesse de Montessori-Instruct sur différents modèles d'étudiants. Notre code et nos données sont disponibles en open source sur https://github.com/cxcscmu/Montessori-Instruct.

Enseigner aux modèles à équilibrer la résistance et l'acceptation de la persuasion.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal

Les grands modèles de langage (LLMs) sont susceptibles d'être persuadés, ce qui peut poser des risques lorsque les modèles sont confrontés à un interlocuteur adversaire. Nous faisons un premier pas vers la défense des modèles contre la persuasion tout en soutenant également que la défense contre la persuasion adversaire (c'est-à-dire négative) n'est que la moitié de l'équation : les modèles devraient également être capables d'accepter la persuasion bénéfique (c'est-à-dire positive) pour améliorer leurs réponses. Nous montrons qu'optimiser les modèles pour un seul côté entraîne de mauvaises performances de l'autre côté. Afin d'équilibrer la persuasion positive et négative, nous introduisons l'Entraînement Équilibré par la Persuasion (ou PBT), qui exploite des arbres de dialogue récursifs multi-agents pour créer des données et entraîner les modèles via l'optimisation des préférences pour accepter la persuasion lorsque c'est approprié. Le PBT améliore de manière constante la résistance à la désinformation et la résilience face aux défis tout en donnant les meilleures performances globales sur des données holistiques contenant à la fois de la persuasion positive et négative. De manière cruciale, nous montrons que les modèles PBT sont de meilleurs coéquipiers dans les débats multi-agents. Nous constatons qu'en l'absence de PBT, les paires de modèles plus forts et plus faibles ont des performances instables, l'ordre dans lequel les modèles présentent leurs réponses déterminant si l'équipe obtient les performances du modèle le plus fort ou du plus faible. Le PBT conduit à de meilleurs résultats plus stables et moins dépendants de l'ordre, le modèle plus fort tirant systématiquement vers le haut le plus faible.

papers.title

papers.description

UCFE : Un référentiel d'expertise financière centré sur l'utilisateur pour les grands modèles de langage.
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Agents Web avec Modèles du Monde : Apprentissage et Exploitation de la Dynamique de l'Environnement dans la Navigation Web
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

NaturalBench : Évaluation des modèles Vision-Language sur des échantillons adverses naturels
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

MagicTailor : Personnalisation contrôlable par composant dans les modèles de diffusion texte-vers-image
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

SeerAttention : Apprentissage de l'Attention Intrinsèquement Éparse dans Vos LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

FiTv2 : Vision Transformer Flexible amélioré et évolutif pour la diffusion de modèles
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

DPLM-2 : Un modèle de langue multimodal à diffusion de protéines
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

Mini-Omni2 : Vers un GPT-4o open-source avec des capacités de vision, de parole et de duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

HART : Génération Visuelle Efficace avec un Transformateur Autorégressif Hybride
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

Curriculum de Diffusion : Apprentissage de Curriculum Génératif Synthétique-à-Réel via Diffusion Guidée par Image
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

DAWN : Avatar de Cadre Dynamique avec Cadre de Diffusion Non-Autorégressif pour la Génération de Vidéos de Tête Parlante
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

Les détecteurs d'IA sont-ils suffisamment performants ? Une enquête sur la qualité des ensembles de données contenant des textes générés par des machines.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

SHAKTI : Un petit modèle de langage de 2,5 milliards de paramètres optimisé pour l'IA embarquée et les environnements à faibles ressources.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

Regarder vers l'intérieur : les modèles de langage peuvent apprendre à propos d'eux-mêmes par introspection.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

Comment les méthodes d'entraînement influencent-elles l'utilisation des modèles de vision ?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

Le contexte est clé (NMF) : Modélisation de la dynamique de l'information thématique dans les médias de la diaspora chinoise
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

Un piège courant de l'alignement de modèles de langage basé sur la marge : l'enchevêtrement de gradients.
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

Montessori-Instruct : Générer des données d'entraînement influentes adaptées à l'apprentissage des étudiants
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong

Enseigner aux modèles à équilibrer la résistance et l'acceptation de la persuasion.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal