Os Grandes Modelos de Linguagem Podem Compreender Programas Gráficos Simbólicos?
Can Large Language Models Understand Symbolic Graphics Programs?
August 15, 2024
Autores: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf
cs.AI
Resumo
Avaliar as capacidades de grandes modelos de linguagem (LLMs) é frequentemente desafiador, em parte, porque é difícil encontrar tarefas às quais eles não foram expostos durante o treinamento. Damos um passo para enfrentar esse desafio ao nos voltarmos para uma nova tarefa: focando em programas simbólicos de gráficos, que são uma representação popular para conteúdo gráfico que gera dados visuais de forma procedural. Os LLMs têm mostrado promessas empolgantes em relação à síntese de programas, mas será que eles entendem programas simbólicos de gráficos? Ao contrário de programas convencionais, programas simbólicos de gráficos podem ser traduzidos para conteúdo gráfico. Aqui, caracterizamos o entendimento de um LLM de programas simbólicos em termos de sua capacidade de responder a perguntas relacionadas ao conteúdo gráfico. Essa tarefa é desafiadora, pois as perguntas são difíceis de responder apenas com base nos programas simbólicos - no entanto, seriam fáceis de responder a partir do conteúdo gráfico correspondente, como verificamos por meio de um experimento humano. Para entender programas simbólicos, os LLMs podem precisar possuir a capacidade de imaginar como o conteúdo gráfico correspondente pareceria sem acessar diretamente o conteúdo visual renderizado. Utilizamos essa tarefa para avaliar LLMs criando um amplo benchmark para o entendimento semântico de programas simbólicos de gráficos. Esse benchmark é construído por meio da correspondência programa-gráfico, exigindo assim esforços humanos mínimos. Avaliamos os LLMs atuais em nosso benchmark para elucidar uma avaliação preliminar de sua capacidade de raciocinar sobre cenas visuais a partir de programas. Descobrimos que essa tarefa distingue os LLMs existentes e os modelos considerados bons em raciocínio se saem melhor. Por fim, introduzimos o Ajuste de Instrução Simbólica (SIT) para melhorar essa capacidade. Especificamente, consultamos o GPT4-o com perguntas e imagens geradas por programas simbólicos. Esses dados são então usados para ajustar finamente um LLM. Também descobrimos que os dados do SIT podem melhorar a capacidade geral de seguir instruções dos LLMs.
English
Assessing the capabilities of large language models (LLMs) is often
challenging, in part, because it is hard to find tasks to which they have not
been exposed during training. We take one step to address this challenge by
turning to a new task: focusing on symbolic graphics programs, which are a
popular representation for graphics content that procedurally generates visual
data. LLMs have shown exciting promise towards program synthesis, but do they
understand symbolic graphics programs? Unlike conventional programs, symbolic
graphics programs can be translated to graphics content. Here, we characterize
an LLM's understanding of symbolic programs in terms of their ability to answer
questions related to the graphics content. This task is challenging as the
questions are difficult to answer from the symbolic programs alone -- yet, they
would be easy to answer from the corresponding graphics content as we verify
through a human experiment. To understand symbolic programs, LLMs may need to
possess the ability to imagine how the corresponding graphics content would
look without directly accessing the rendered visual content. We use this task
to evaluate LLMs by creating a large benchmark for the semantic understanding
of symbolic graphics programs. This benchmark is built via program-graphics
correspondence, hence requiring minimal human efforts. We evaluate current LLMs
on our benchmark to elucidate a preliminary assessment of their ability to
reason about visual scenes from programs. We find that this task distinguishes
existing LLMs and models considered good at reasoning perform better. Lastly,
we introduce Symbolic Instruction Tuning (SIT) to improve this ability.
Specifically, we query GPT4-o with questions and images generated by symbolic
programs. Such data are then used to finetune an LLM. We also find that SIT
data can improve the general instruction following ability of LLMs.Summary
AI-Generated Summary