Können große Sprachmodelle symbolische Grafikprogramme verstehen?

Zusammenfassung

Die Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) ist oft herausfordernd, teilweise weil es schwierig ist, Aufgaben zu finden, mit denen sie während des Trainings nicht in Berührung gekommen sind. Wir gehen einen Schritt weiter, um dieser Herausforderung zu begegnen, indem wir uns einer neuen Aufgabe zuwenden: dem Fokus auf symbolische Grafikprogramme, die eine beliebte Darstellung für Grafikinhalte darstellen, die visuelle Daten prozedural generieren. LLMs haben vielversprechende Fortschritte in Richtung Programmsynthese gezeigt, aber verstehen sie symbolische Grafikprogramme? Im Gegensatz zu herkömmlichen Programmen können symbolische Grafikprogramme in Grafikinhalte übersetzt werden. Hier charakterisieren wir das Verständnis eines LLMs für symbolische Programme anhand ihrer Fähigkeit, Fragen zum Grafikinhalt zu beantworten. Diese Aufgabe ist herausfordernd, da die Fragen allein aus den symbolischen Programmen schwer zu beantworten sind - jedoch wären sie leicht zu beantworten aus den entsprechenden Grafikinhalten, wie wir durch ein menschliches Experiment bestätigen. Um symbolische Programme zu verstehen, müssen LLMs möglicherweise die Fähigkeit besitzen, sich vorzustellen, wie die entsprechenden Grafikinhalte aussehen würden, ohne direkt auf die gerenderten visuellen Inhalte zuzugreifen. Wir verwenden diese Aufgabe, um LLMs zu bewerten, indem wir einen umfangreichen Benchmark für das semantische Verständnis von symbolischen Grafikprogrammen erstellen. Dieser Benchmark wird über die Programm-Grafik-Korrespondenz aufgebaut und erfordert daher minimale menschliche Anstrengungen. Wir bewerten aktuelle LLMs anhand unseres Benchmarks, um eine vorläufige Bewertung ihrer Fähigkeit abzugeben, über visuelle Szenen aus Programmen zu schlussfolgern. Wir stellen fest, dass diese Aufgabe bestehende LLMs unterscheidet und Modelle, die als gut im Schlussfolgern angesehen werden, besser abschneiden. Schließlich führen wir das Symbolic Instruction Tuning (SIT) ein, um diese Fähigkeit zu verbessern. Konkret befragen wir GPT4-o mit Fragen und Bildern, die von symbolischen Programmen generiert wurden. Diese Daten werden dann verwendet, um ein LLM zu feinabstimmen. Wir stellen auch fest, dass SIT-Daten die allgemeine Anweisungsfähigkeit von LLMs verbessern können.

English

Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.

Können große Sprachmodelle symbolische Grafikprogramme verstehen?

Can Large Language Models Understand Symbolic Graphics Programs?

Zusammenfassung

Support