I grandi modelli linguistici possono comprendere programmi grafici simbolici?
Can Large Language Models Understand Symbolic Graphics Programs?
August 15, 2024
Autori: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf
cs.AI
Abstract
Valutare le capacità dei grandi modelli linguistici (LLM) è spesso impegnativo, in parte perché è difficile trovare compiti a cui non siano stati esposti durante l'addestramento. Facciamo un passo avanti per affrontare questa sfida rivolgendoci a un nuovo compito: concentrarci sui programmi grafici simbolici, che sono una rappresentazione popolare per i contenuti grafici che generano in modo procedurale dati visivi. I LLM hanno mostrato promettenti potenzialità nella sintesi di programmi, ma comprendono i programmi grafici simbolici? A differenza dei programmi convenzionali, i programmi grafici simbolici possono essere tradotti in contenuti grafici. Qui, caratterizziamo la comprensione di un LLM dei programmi simbolici in termini della loro capacità di rispondere a domande relative ai contenuti grafici. Questo compito è impegnativo perché le domande sono difficili da rispondere basandosi solo sui programmi simbolici — eppure, sarebbero facili da rispondere osservando i corrispondenti contenuti grafici, come verifichiamo attraverso un esperimento umano. Per comprendere i programmi simbolici, i LLM potrebbero aver bisogno di possedere la capacità di immaginare come apparirebbero i corrispondenti contenuti grafici senza accedere direttamente ai contenuti visivi renderizzati. Utilizziamo questo compito per valutare i LLM creando un ampio benchmark per la comprensione semantica dei programmi grafici simbolici. Questo benchmark è costruito tramite corrispondenza programma-grafica, richiedendo quindi uno sforzo umano minimo. Valutiamo i LLM attuali sul nostro benchmark per ottenere una valutazione preliminare della loro capacità di ragionare sulle scene visive a partire dai programmi. Troviamo che questo compito distingue i LLM esistenti e i modelli considerati bravi nel ragionamento performano meglio. Infine, introduciamo il Symbolic Instruction Tuning (SIT) per migliorare questa capacità. Nello specifico, interroghiamo GPT4-o con domande e immagini generate da programmi simbolici. Tali dati vengono poi utilizzati per affinare un LLM. Troviamo anche che i dati SIT possono migliorare la capacità generale dei LLM di seguire le istruzioni.
English
Assessing the capabilities of large language models (LLMs) is often
challenging, in part, because it is hard to find tasks to which they have not
been exposed during training. We take one step to address this challenge by
turning to a new task: focusing on symbolic graphics programs, which are a
popular representation for graphics content that procedurally generates visual
data. LLMs have shown exciting promise towards program synthesis, but do they
understand symbolic graphics programs? Unlike conventional programs, symbolic
graphics programs can be translated to graphics content. Here, we characterize
an LLM's understanding of symbolic programs in terms of their ability to answer
questions related to the graphics content. This task is challenging as the
questions are difficult to answer from the symbolic programs alone -- yet, they
would be easy to answer from the corresponding graphics content as we verify
through a human experiment. To understand symbolic programs, LLMs may need to
possess the ability to imagine how the corresponding graphics content would
look without directly accessing the rendered visual content. We use this task
to evaluate LLMs by creating a large benchmark for the semantic understanding
of symbolic graphics programs. This benchmark is built via program-graphics
correspondence, hence requiring minimal human efforts. We evaluate current LLMs
on our benchmark to elucidate a preliminary assessment of their ability to
reason about visual scenes from programs. We find that this task distinguishes
existing LLMs and models considered good at reasoning perform better. Lastly,
we introduce Symbolic Instruction Tuning (SIT) to improve this ability.
Specifically, we query GPT4-o with questions and images generated by symbolic
programs. Such data are then used to finetune an LLM. We also find that SIT
data can improve the general instruction following ability of LLMs.