Les grands modèles de langage peuvent-ils comprendre les programmes graphiques symboliques ?
Can Large Language Models Understand Symbolic Graphics Programs?
August 15, 2024
Auteurs: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf
cs.AI
Résumé
Évaluer les capacités des grands modèles de langage (LLMs) est souvent un défi, en partie parce qu'il est difficile de trouver des tâches auxquelles ils n'ont pas été exposés pendant leur entraînement. Nous abordons ce défi en nous concentrant sur une nouvelle tâche : les programmes graphiques symboliques, une représentation populaire du contenu graphique qui génère des données visuelles de manière procédurale. Les LLMs ont montré un potentiel prometteur pour la synthèse de programmes, mais comprennent-ils les programmes graphiques symboliques ? Contrairement aux programmes conventionnels, les programmes graphiques symboliques peuvent être traduits en contenu graphique. Ici, nous caractérisons la compréhension d'un LLM des programmes symboliques en termes de sa capacité à répondre à des questions liées au contenu graphique. Cette tâche est difficile car les questions sont complexes à répondre à partir des seuls programmes symboliques — pourtant, elles seraient faciles à répondre à partir du contenu graphique correspondant, comme nous le vérifions via une expérience humaine. Pour comprendre les programmes symboliques, les LLMs pourraient avoir besoin de la capacité à imaginer à quoi ressemblerait le contenu graphique correspondant sans accéder directement au rendu visuel. Nous utilisons cette tâche pour évaluer les LLMs en créant un vaste benchmark pour la compréhension sémantique des programmes graphiques symboliques. Ce benchmark est construit via la correspondance programme-graphique, nécessitant ainsi un effort humain minimal. Nous évaluons les LLMs actuels sur notre benchmark pour obtenir une évaluation préliminaire de leur capacité à raisonner sur des scènes visuelles à partir de programmes. Nous constatons que cette tâche distingue les LLMs existants et que les modèles considérés comme bons en raisonnement performent mieux. Enfin, nous introduisons le Symbolic Instruction Tuning (SIT) pour améliorer cette capacité. Concrètement, nous interrogeons GPT-4 avec des questions et des images générées par des programmes symboliques. Ces données sont ensuite utilisées pour affiner un LLM. Nous constatons également que les données SIT peuvent améliorer la capacité générale des LLMs à suivre des instructions.
English
Assessing the capabilities of large language models (LLMs) is often
challenging, in part, because it is hard to find tasks to which they have not
been exposed during training. We take one step to address this challenge by
turning to a new task: focusing on symbolic graphics programs, which are a
popular representation for graphics content that procedurally generates visual
data. LLMs have shown exciting promise towards program synthesis, but do they
understand symbolic graphics programs? Unlike conventional programs, symbolic
graphics programs can be translated to graphics content. Here, we characterize
an LLM's understanding of symbolic programs in terms of their ability to answer
questions related to the graphics content. This task is challenging as the
questions are difficult to answer from the symbolic programs alone -- yet, they
would be easy to answer from the corresponding graphics content as we verify
through a human experiment. To understand symbolic programs, LLMs may need to
possess the ability to imagine how the corresponding graphics content would
look without directly accessing the rendered visual content. We use this task
to evaluate LLMs by creating a large benchmark for the semantic understanding
of symbolic graphics programs. This benchmark is built via program-graphics
correspondence, hence requiring minimal human efforts. We evaluate current LLMs
on our benchmark to elucidate a preliminary assessment of their ability to
reason about visual scenes from programs. We find that this task distinguishes
existing LLMs and models considered good at reasoning perform better. Lastly,
we introduce Symbolic Instruction Tuning (SIT) to improve this ability.
Specifically, we query GPT4-o with questions and images generated by symbolic
programs. Such data are then used to finetune an LLM. We also find that SIT
data can improve the general instruction following ability of LLMs.Summary
AI-Generated Summary