Kunnen grote taalmodellen symbolische grafische programma's begrijpen?

Samenvatting

Het beoordelen van de mogelijkheden van grote taalmodellen (LLMs) is vaak een uitdaging, deels omdat het moeilijk is om taken te vinden waaraan ze niet zijn blootgesteld tijdens de training. We zetten een stap om deze uitdaging aan te pakken door ons te richten op een nieuwe taak: symbolische grafische programma's, een populaire representatie voor grafische inhoud die visuele data procedureel genereert. LLMs hebben veelbelovende vooruitgang geboekt in programmasynthese, maar begrijpen ze ook symbolische grafische programma's? In tegenstelling tot conventionele programma's kunnen symbolische grafische programma's worden vertaald naar grafische inhoud. Hier karakteriseren we het begrip van een LLM van symbolische programma's in termen van hun vermogen om vragen te beantwoorden die gerelateerd zijn aan de grafische inhoud. Deze taak is uitdagend omdat de vragen moeilijk te beantwoorden zijn vanuit de symbolische programma's alleen – toch zouden ze eenvoudig te beantwoorden zijn vanuit de corresponderende grafische inhoud, zoals we bevestigen via een menselijk experiment. Om symbolische programma's te begrijpen, hebben LLMs mogelijk het vermogen nodig om zich voor te stellen hoe de corresponderende grafische inhoud eruit zou zien zonder direct toegang te hebben tot de gerenderde visuele inhoud. We gebruiken deze taak om LLMs te evalueren door een grote benchmark te creëren voor het semantische begrip van symbolische grafische programma's. Deze benchmark is gebouwd via programma-grafische correspondentie, waardoor er minimale menselijke inspanning nodig is. We evalueren huidige LLMs op onze benchmark om een eerste beoordeling te geven van hun vermogen om te redeneren over visuele scènes vanuit programma's. We ontdekken dat deze taak bestaande LLMs onderscheidt en dat modellen die als goed worden beschouwd in redeneren beter presteren. Tot slot introduceren we Symbolic Instruction Tuning (SIT) om dit vermogen te verbeteren. Specifiek vragen we GPT4-o met vragen en afbeeldingen die gegenereerd zijn door symbolische programma's. Deze data worden vervolgens gebruikt om een LLM te finetunen. We ontdekken ook dat SIT-data het algemene vermogen van LLMs om instructies te volgen kunnen verbeteren.

English

Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.

Kunnen grote taalmodellen symbolische grafische programma's begrijpen?

Can Large Language Models Understand Symbolic Graphics Programs?

Samenvatting

Support