ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

DeepSeek-Prover-V1.5 : Exploitation des retours d'assistant de preuve pour l'apprentissage par renforcement et la recherche arborescente Monte-Carlo
DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

Aug 15
ByHuajian Xin, Z. Z. Ren, Junxiao Song, Zhihong Shao, Wanjia Zhao, Haocheng Wang, Bo Liu, Liyue Zhang, Xuan Lu, Qiushi Du, Wenjun Gao, Qihao Zhu, Dejian Yang, Zhibin Gou, Z. F. Wu, Fuli Luo, Chong Ruan
59
3

Nous présentons DeepSeek-Prover-V1.5, un modèle de langage open-source conçu pour la démonstration de théorèmes dans Lean 4, qui améliore DeepSeek-Prover-V1 en optimisant à la fois les processus d'entraînement et d'inférence. Pré-entraîné sur DeepSeekMath-Base avec une spécialisation dans les langages mathématiques formels, le modèle subit un fine-tuning supervisé en utilisant un ensemble de données amélioré pour la démonstration formelle de théorèmes, dérivé de DeepSeek-Prover-V1. Un raffinement supplémentaire est obtenu grâce à l'apprentissage par renforcement basé sur les retours d'un assistant de preuve (RLPAF). Au-delà de l'approche de génération de preuves en une seule passe de DeepSeek-Prover-V1, nous proposons RMaxTS, une variante de la recherche arborescente Monte-Carlo qui utilise une stratégie d'exploitation guidée par des récompenses intrinsèques pour générer des chemins de preuve diversifiés. DeepSeek-Prover-V1.5 démontre des améliorations significatives par rapport à DeepSeek-Prover-V1, atteignant de nouveaux résultats de pointe sur l'ensemble de test du benchmark miniF2F de niveau lycée (63,5%) et du benchmark ProofNet de niveau universitaire (25,3%).

2

I-SHEEP : Auto-alignement des LLM à partir de zéro grâce à un paradigme itératif d'auto-amélioration
I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm

Aug 15
ByYiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang
34
2

Les modèles de langage de grande taille (LLMs) ont réalisé des avancées significatives. Cependant, le paradigme d'apprentissage courant traite les LLMs comme des dépôts d'informations passifs, négligeant leur potentiel pour l'apprentissage actif et l'alignement. Certaines approches entraînent les LLMs en utilisant leurs propres données synthétiques générées, explorant ainsi la possibilité d'un alignement actif. Néanmoins, il existe encore un énorme fossé entre ces méthodes d'alignement ponctuelles et l'alignement automatique continu des humains. Dans cet article, nous présentons I-SHEEP, un paradigme itératif d'auto-amélioration. Ce paradigme, inspiré du comportement humain, permet aux LLMs de s'auto-aligner continuellement à partir de rien. Comparé à la méthode d'alignement ponctuelle Dromedary (sun2023principledriven), qui correspond à la première itération dans cet article, I-SHEEP peut considérablement améliorer les capacités des modèles Qwen et Llama. I-SHEEP atteint une amélioration relative maximale de 78,2 % dans Alpaca Eval, 24,0 % dans MT Bench, et une augmentation absolue de 8,88 % dans la précision de IFEval sur les itérations suivantes du modèle Qwen-1.5 72B. De plus, I-SHEEP surpasse le modèle de base dans diverses tâches de génération de benchmarks standards, obtenant une amélioration moyenne de 24,77 % dans les tâches de génération de code, 12,04 % dans TrivialQA, et 20,29 % dans SQuAD. Nous fournissons également de nouvelles perspectives basées sur les résultats expérimentaux. Nos codes, ensembles de données et modèles sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/I-SHEEP.

3

Vers une perception flexible avec mémoire visuelle
Towards flexible perception with visual memory

Aug 15
ByRobert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
23
3

L'entraînement d'un réseau de neurones est une entreprise monolithique, comparable à graver la connaissance dans la pierre : une fois le processus terminé, modifier cette connaissance dans le réseau est quasiment impossible, car toutes les informations sont distribuées à travers les poids du réseau. Nous explorons ici une alternative simple et convaincante en combinant la puissance de représentation des réseaux de neurones profonds avec la flexibilité d'une base de données. En décomposant la tâche de classification d'images en similarité d'images (via un plongement pré-entraîné) et en recherche (via une récupération rapide des plus proches voisins dans une base de connaissances), nous construisons une mémoire visuelle simple et flexible dotée des capacités clés suivantes : (1.) La capacité d'ajouter des données de manière flexible à différentes échelles : des échantillons individuels jusqu'à des classes entières et des données à l'échelle du milliard ; (2.) La capacité de supprimer des données via le désapprentissage et l'élagage de la mémoire ; (3.) Un mécanisme de décision interprétable sur lequel nous pouvons intervenir pour contrôler son comportement. Ensemble, ces capacités démontrent de manière exhaustive les avantages d'une mémoire visuelle explicite. Nous espérons que cela pourra contribuer à une réflexion sur la manière dont la connaissance devrait être représentée dans les modèles de vision profonde — au-delà de la graver dans des poids « de pierre ».

4

Étiquettes lourdes, dehors ! Distillation de jeux de données avec allègement de l'espace des étiquettes
Heavy Labels Out! Dataset Distillation with Label Space Lightening

Aug 15
ByRuonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
19
2

La distillation ou condensation de jeux de données vise à condenser un ensemble d'entraînement à grande échelle en un ensemble synthétique beaucoup plus petit, de sorte que les performances d'entraînement des ensembles distillés et originaux sur les réseaux de neurones soient similaires. Bien que le nombre d'échantillons d'entraînement puisse être considérablement réduit, les méthodes actuelles de pointe reposent fortement sur d'énormes étiquettes douces pour obtenir des performances satisfaisantes. Par conséquent, le stockage requis peut être comparable à celui des jeux de données originaux, en particulier pour les ensembles à grande échelle. Pour résoudre ce problème, au lieu de stocker ces étiquettes lourdes, nous proposons un nouveau cadre d'allègement des étiquettes appelé HeLlO, visant à créer des projecteurs image-étiquette efficaces, avec lesquels les étiquettes synthétiques peuvent être générées directement en ligne à partir d'images synthétiques. Plus précisément, pour construire de tels projecteurs, nous exploitons les connaissances préalables des modèles de base open-source, par exemple CLIP, et introduisons une stratégie de fine-tuning de type LoRA pour réduire l'écart entre les distributions pré-entraînées et cibles, afin que les modèles originaux pour la génération d'étiquettes douces puissent être distillés en un groupe de matrices de faible rang. De plus, une méthode d'optimisation d'image efficace est proposée pour atténuer davantage l'erreur potentielle entre les générateurs d'étiquettes originaux et distillés. Des expériences approfondies démontrent qu'avec seulement environ 0,003 % du stockage original requis pour un ensemble complet d'étiquettes douces, nous obtenons des performances comparables aux méthodes actuelles de pointe en matière de distillation de jeux de données sur des ensembles à grande échelle. Notre code sera disponible.

5

FancyVideo : Vers une génération vidéo dynamique et cohérente grâce à un guidage textuel inter-images
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

Aug 15
ByJiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
17
3

La synthèse de vidéos riches en mouvements et temporellement cohérentes reste un défi en intelligence artificielle, en particulier lorsqu'il s'agit de durées prolongées. Les modèles existants de texte-à-vidéo (T2V) utilisent couramment une attention croisée spatiale pour le contrôle textuel, guidant de manière équivalente la génération de différentes images sans guidage textuel spécifique à chaque image. Ainsi, la capacité du modèle à comprendre la logique temporelle véhiculée dans les prompts et à générer des vidéos avec des mouvements cohérents est limitée. Pour surmonter cette limitation, nous introduisons FancyVideo, un générateur de vidéos innovant qui améliore le mécanisme de contrôle textuel existant avec le module de guidage textuel inter-images bien conçu (CTGM). Plus précisément, le CTGM intègre l'injecteur d'informations temporelles (TII), le raffineur d'affinité temporelle (TAR) et le booster de caractéristiques temporelles (TFB) respectivement au début, au milieu et à la fin de l'attention croisée, pour obtenir un guidage textuel spécifique à chaque image. Tout d'abord, le TII injecte des informations spécifiques à chaque image à partir des caractéristiques latentes dans les conditions textuelles, obtenant ainsi des conditions textuelles inter-images. Ensuite, le TAR affine la matrice de corrélation entre les conditions textuelles inter-images et les caractéristiques latentes le long de la dimension temporelle. Enfin, le TFB renforce la cohérence temporelle des caractéristiques latentes. Des expériences approfondies comprenant des évaluations quantitatives et qualitatives démontrent l'efficacité de FancyVideo. Notre approche atteint des résultats de génération T2V de pointe sur le benchmark EvalCrafter et facilite la synthèse de vidéos dynamiques et cohérentes. Les résultats vidéo sont disponibles à l'adresse https://fancyvideo.github.io/, et nous rendrons notre code et les poids du modèle publics.

6

Entraînement des modèles de langage sur le graphe de connaissances : Perspectives sur les hallucinations et leur détectabilité
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

Aug 14
ByJiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith
16
2

Alors que de nombreuses capacités des modèles de langage (LMs) s'améliorent avec l'augmentation du budget d'entraînement, l'influence de l'échelle sur les hallucinations n'est pas encore pleinement comprise. Les hallucinations se présentent sous de nombreuses formes, et il n'existe pas de définition universellement acceptée. Nous nous concentrons donc sur l'étude des hallucinations où une réponse correcte apparaît textuellement dans l'ensemble d'entraînement. Pour contrôler entièrement le contenu des données d'entraînement, nous construisons un ensemble de données basé sur un graphe de connaissances (KG), et l'utilisons pour entraîner une série de LMs de taille croissante. Nous constatons que, pour un ensemble de données fixe, les LMs plus grands et entraînés plus longtemps hallucinent moins. Cependant, halluciner sur ≤5 % des données d'entraînement nécessite un modèle d'un ordre de grandeur plus grand, et donc un ordre de grandeur plus de calcul, que ce que Hoffmann et al. (2022) ont rapporté comme étant optimal. Compte tenu de ce coût élevé, nous étudions comment les détecteurs d'hallucinations dépendent de l'échelle. Bien que nous observions que la taille du détecteur améliore les performances sur les sorties d'un LM fixe, nous trouvons une relation inverse entre l'échelle du LM et la détectabilité de ses hallucinations.

7

FuseChat : Fusion des connaissances des modèles de conversation
FuseChat: Knowledge Fusion of Chat Models

Aug 15
ByFanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
14
2

Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cela engendre des coûts substantiels et peut entraîner une redondance dans les compétences. La fusion de connaissances vise à intégrer des LLM existants de diverses architectures et capacités en un LLM plus puissant grâce à un entraînement continu léger, réduisant ainsi la nécessité d'un développement coûteux de LLM. Dans ce travail, nous proposons un nouveau cadre pour la fusion de connaissances de LLM conversationnels à travers deux étapes principales, aboutissant à FuseChat. Premièrement, nous effectuons une fusion de connaissances par paire sur des LLM conversationnels sources de structures et d'échelles variées pour créer plusieurs LLM cibles avec une structure et une taille identiques via un ajustement fin léger. Durant ce processus, une approche d'alignement de tokens basée sur des statistiques est introduite comme pierre angulaire pour fusionner des LLM de structures différentes. Deuxièmement, nous fusionnons ces LLM cibles dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les coefficients de fusion basée sur l'amplitude des mises à jour des paramètres avant et après l'ajustement fin. Nous implémentons et validons FuseChat en utilisant six LLM conversationnels de premier plan avec des architectures et des échelles diverses, incluant OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, et Qwen-1.5-Chat-72B. Les résultats expérimentaux sur deux benchmarks de suivi d'instructions, AlpacaEval 2.0 et MT-Bench, démontrent la supériorité de FuseChat-7B par rapport aux modèles de référence de différentes tailles. Notre modèle est même comparable au plus grand Mixtral-8x7B-Instruct et approche GPT-3.5-Turbo-1106 sur MT-Bench. Notre code, les poids du modèle et les données sont publics à l'adresse https://github.com/fanqiwan/FuseAI.

8

BAM ! En un clin d'œil : un recyclage de paramètres simple et efficace pour les mélanges d'experts
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts

Aug 15
ByQizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli
13
3

Le cadre du Mixture of Experts (MoE) est devenu une architecture populaire pour les grands modèles de langage en raison de ses performances supérieures par rapport aux modèles denses. Cependant, l'entraînement des MoE à partir de zéro à grande échelle est prohibitivement coûteux. Les méthodes existantes atténuent ce problème en pré-entraînant plusieurs modèles denses experts de manière indépendante et en les utilisant pour initialiser un MoE. Cela se fait en utilisant le réseau feed-forward (FFN) des experts pour initialiser les experts du MoE tout en fusionnant les autres paramètres. Cependant, cette méthode limite la réutilisation des paramètres des modèles denses aux seules couches FFN, restreignant ainsi les avantages lors de la "revalorisation" de ces modèles en MoE. Nous proposons BAM (Branch-Attend-Mix), une méthode simple mais efficace qui remédie à cette lacune. BAM tire pleinement parti des modèles denses spécialisés en utilisant non seulement leur FFN pour initialiser les couches du MoE, mais en exploitant également pleinement les paramètres d'attention des experts en les initialisant dans une variante douce des couches Mixture of Attention (MoA). Nous explorons deux méthodes pour revaloriser les paramètres d'attention : 1) initialiser des experts d'attention séparés à partir de modèles denses en incluant tous les paramètres d'attention pour une performance optimale du modèle ; et 2) partager les paramètres de clé et de valeur entre tous les experts pour favoriser une meilleure efficacité lors de l'inférence. Pour améliorer encore l'efficacité, nous adoptons une architecture de transformateur à attention parallèle pour les MoE, ce qui permet aux experts d'attention et aux experts FFN d'être calculés simultanément. Nos expériences sur des modèles de départ allant de 590 millions à 2 milliards de paramètres démontrent que BAM surpasse les méthodes de référence à la fois en termes de perplexité et de performance sur les tâches en aval, dans les mêmes contraintes de calcul et de données.

9

Accélération de la génération de formes d'onde haute fidélité via l'optimisation par correspondance de flux adversarial
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

Aug 15
BySang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
11
4

Cet article présente PeriodWave-Turbo, un modèle de génération de formes d'ondes à haute fidélité et haute efficacité, optimisé par appariement de flux adversarial. Récemment, les modèles génératifs basés sur l'appariement de flux conditionnel (CFM) ont été adoptés avec succès pour des tâches de génération de formes d'ondes, en exploitant un objectif unique d'estimation de champ vectoriel pour l'entraînement. Bien que ces modèles puissent générer des signaux de forme d'onde à haute fidélité, ils nécessitent un nombre significativement plus élevé d'étapes d'équations différentielles ordinaires (ODE) par rapport aux modèles basés sur les GAN, qui ne nécessitent qu'une seule étape de génération. De plus, les échantillons générés manquent souvent d'informations à haute fréquence en raison d'une estimation bruyante du champ vectoriel, ce qui ne garantit pas une reproduction fidèle des hautes fréquences. Pour pallier cette limitation, nous améliorons les modèles génératifs pré-entraînés basés sur CFM en incorporant une modification du générateur à pas fixe. Nous avons utilisé des pertes de reconstruction et un retour adversarial pour accélérer la génération de formes d'ondes à haute fidélité. Grâce à l'optimisation par appariement de flux adversarial, seulement 1 000 étapes de réglage fin sont nécessaires pour atteindre des performances de pointe sur diverses métriques objectives. De plus, nous réduisons significativement la vitesse d'inférence, passant de 16 étapes à 2 ou 4 étapes. En augmentant également la taille du modèle de base de PeriodWave de 29 millions à 70 millions de paramètres pour améliorer la généralisation, PeriodWave-Turbo atteint des performances sans précédent, avec un score d'évaluation perceptuelle de la qualité de la parole (PESQ) de 4,454 sur le jeu de données LibriTTS. Les échantillons audio, le code source et les points de contrôle seront disponibles à l'adresse https://github.com/sh-lee-prml/PeriodWave.

10

La Collection ShareLM et son Plugin : Contribuer aux Conversations Humain-Modèle pour le Bien de la Communauté
The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community

Aug 15
ByShachar Don-Yehiya, Leshem Choshen, Omri Abend
11
1

Les conversations entre humains et modèles offrent un aperçu des scénarios réels des utilisateurs, de leurs comportements et de leurs besoins, constituant ainsi une ressource précieuse pour le développement et la recherche sur les modèles. Alors que les entreprises à but lucratif collectent des données utilisateurs via les API de leurs modèles, les utilisant en interne pour améliorer leurs propres modèles, la communauté open source et de recherche est à la traîne. Nous présentons la collection ShareLM, un ensemble unifié de conversations humaines avec des grands modèles de langage, ainsi que son plugin d'accompagnement, une extension Web permettant de contribuer volontairement des conversations utilisateur-modèle. Alors que peu de plateformes partagent leurs discussions, le plugin ShareLM ajoute cette fonctionnalité, permettant ainsi aux utilisateurs de partager des conversations provenant de la plupart des plateformes. Le plugin permet à l'utilisateur d'évaluer ses conversations, à la fois au niveau de la conversation et des réponses, et de supprimer les conversations qu'il préfère garder privées avant qu'elles ne quittent le stockage local de l'utilisateur. Nous publions les conversations du plugin dans le cadre de la collection ShareLM, et appelons à un effort communautaire accru dans le domaine des données ouvertes humain-modèle. Le code, le plugin et les données sont disponibles.

11

MVInpainter : Apprentissage d'une inpainting cohérente multi-vues pour relier l'édition 2D et 3D
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing

Aug 15
ByChenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
9
2

La synthèse de nouvelles vues (Novel View Synthesis, NVS) et la génération 3D ont récemment enregistré des améliorations notables. Cependant, ces travaux se concentrent principalement sur des catégories restreintes ou des actifs 3D synthétiques, ce qui limite leur capacité à généraliser à des scènes complexes en conditions réelles et à être directement intégrés à la synthèse 2D. De plus, ces méthodes dépendent fortement des poses de caméra, ce qui restreint leurs applications pratiques. Pour surmonter ces limitations, nous proposons MVInpainter, qui reformule l'édition 3D comme une tâche d'inpainting 2D multi-vues. Concrètement, MVInpainter effectue un inpainting partiel d'images multi-vues en s'appuyant sur des références plutôt que de générer entièrement une nouvelle vue à partir de zéro, ce qui simplifie grandement la complexité de la NVS en conditions réelles et exploite des indices non masqués au lieu de conditions de pose explicites. Pour garantir la cohérence inter-vues, MVInpainter est renforcé par des préalables vidéo issus de composantes de mouvement et des guides d'apparence basés sur l'attention concaténée des clés et valeurs de référence. Par ailleurs, MVInpainter intègre une attention par slots pour agréger des caractéristiques de flux optique de haut niveau à partir des régions non masquées, permettant ainsi de contrôler le mouvement de la caméra sans nécessiter de pose lors de l'entraînement et de l'inférence. Des expériences approfondies au niveau des scènes, sur des ensembles de données centrés sur les objets et orientés vers l'avant, confirment l'efficacité de MVInpainter pour diverses tâches, telles que la suppression, la synthèse, l'insertion et le remplacement d'objets multi-vues. La page du projet est disponible à l'adresse suivante : https://ewrfcas.github.io/MVInpainter/.

12

Les grands modèles de langage peuvent-ils comprendre les programmes graphiques symboliques ?
Can Large Language Models Understand Symbolic Graphics Programs?

Aug 15
ByZeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf
7
2

Évaluer les capacités des grands modèles de langage (LLMs) est souvent un défi, en partie parce qu'il est difficile de trouver des tâches auxquelles ils n'ont pas été exposés pendant leur entraînement. Nous abordons ce défi en nous concentrant sur une nouvelle tâche : les programmes graphiques symboliques, une représentation populaire du contenu graphique qui génère des données visuelles de manière procédurale. Les LLMs ont montré un potentiel prometteur pour la synthèse de programmes, mais comprennent-ils les programmes graphiques symboliques ? Contrairement aux programmes conventionnels, les programmes graphiques symboliques peuvent être traduits en contenu graphique. Ici, nous caractérisons la compréhension d'un LLM des programmes symboliques en termes de sa capacité à répondre à des questions liées au contenu graphique. Cette tâche est difficile car les questions sont complexes à répondre à partir des seuls programmes symboliques — pourtant, elles seraient faciles à répondre à partir du contenu graphique correspondant, comme nous le vérifions via une expérience humaine. Pour comprendre les programmes symboliques, les LLMs pourraient avoir besoin de la capacité à imaginer à quoi ressemblerait le contenu graphique correspondant sans accéder directement au rendu visuel. Nous utilisons cette tâche pour évaluer les LLMs en créant un vaste benchmark pour la compréhension sémantique des programmes graphiques symboliques. Ce benchmark est construit via la correspondance programme-graphique, nécessitant ainsi un effort humain minimal. Nous évaluons les LLMs actuels sur notre benchmark pour obtenir une évaluation préliminaire de leur capacité à raisonner sur des scènes visuelles à partir de programmes. Nous constatons que cette tâche distingue les LLMs existants et que les modèles considérés comme bons en raisonnement performent mieux. Enfin, nous introduisons le Symbolic Instruction Tuning (SIT) pour améliorer cette capacité. Concrètement, nous interrogeons GPT-4 avec des questions et des images générées par des programmes symboliques. Ces données sont ensuite utilisées pour affiner un LLM. Nous constatons également que les données SIT peuvent améliorer la capacité générale des LLMs à suivre des instructions.

Aug 15
Aug 16
Aug 19