¿Pueden los Modelos de Lenguaje Grandes Entender Programas Gráficos Simbólicos?
Can Large Language Models Understand Symbolic Graphics Programs?
August 15, 2024
Autores: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf
cs.AI
Resumen
Evaluar las capacidades de los modelos de lenguaje grandes (LLMs) a menudo es desafiante, en parte, porque es difícil encontrar tareas a las que no hayan sido expuestos durante el entrenamiento. Damos un paso para abordar este desafío al dirigirnos a una nueva tarea: centrándonos en programas simbólicos de gráficos, que son una representación popular para el contenido gráfico que genera datos visuales de forma procedural. Los LLMs han mostrado una prometedora capacidad hacia la síntesis de programas, pero ¿entienden los programas simbólicos de gráficos? A diferencia de los programas convencionales, los programas simbólicos de gráficos pueden ser traducidos a contenido gráfico. Aquí, caracterizamos la comprensión de un LLM de programas simbólicos en términos de su capacidad para responder preguntas relacionadas con el contenido gráfico. Esta tarea es desafiante ya que las preguntas son difíciles de responder solo con los programas simbólicos, sin embargo, serían fáciles de responder con el contenido gráfico correspondiente, como verificamos a través de un experimento humano. Para comprender los programas simbólicos, los LLMs pueden necesitar poseer la habilidad de imaginar cómo se vería el contenido gráfico correspondiente sin acceder directamente al contenido visual renderizado. Utilizamos esta tarea para evaluar los LLMs creando un extenso banco de pruebas para la comprensión semántica de programas simbólicos de gráficos. Este banco de pruebas se construye a través de la correspondencia programa-gráfico, por lo tanto, requiere esfuerzos humanos mínimos. Evaluamos los LLMs actuales en nuestro banco de pruebas para esclarecer una evaluación preliminar de su capacidad para razonar sobre escenas visuales a partir de programas. Descubrimos que esta tarea distingue entre los LLMs existentes y los modelos considerados buenos en el razonamiento que tienen un mejor desempeño. Por último, presentamos el Ajuste de Instrucciones Simbólicas (SIT) para mejorar esta capacidad. Específicamente, consultamos a GPT4-o con preguntas e imágenes generadas por programas simbólicos. Estos datos luego se utilizan para ajustar finamente un LLM. También descubrimos que los datos de SIT pueden mejorar la capacidad general de seguir instrucciones de los LLMs.
English
Assessing the capabilities of large language models (LLMs) is often
challenging, in part, because it is hard to find tasks to which they have not
been exposed during training. We take one step to address this challenge by
turning to a new task: focusing on symbolic graphics programs, which are a
popular representation for graphics content that procedurally generates visual
data. LLMs have shown exciting promise towards program synthesis, but do they
understand symbolic graphics programs? Unlike conventional programs, symbolic
graphics programs can be translated to graphics content. Here, we characterize
an LLM's understanding of symbolic programs in terms of their ability to answer
questions related to the graphics content. This task is challenging as the
questions are difficult to answer from the symbolic programs alone -- yet, they
would be easy to answer from the corresponding graphics content as we verify
through a human experiment. To understand symbolic programs, LLMs may need to
possess the ability to imagine how the corresponding graphics content would
look without directly accessing the rendered visual content. We use this task
to evaluate LLMs by creating a large benchmark for the semantic understanding
of symbolic graphics programs. This benchmark is built via program-graphics
correspondence, hence requiring minimal human efforts. We evaluate current LLMs
on our benchmark to elucidate a preliminary assessment of their ability to
reason about visual scenes from programs. We find that this task distinguishes
existing LLMs and models considered good at reasoning perform better. Lastly,
we introduce Symbolic Instruction Tuning (SIT) to improve this ability.
Specifically, we query GPT4-o with questions and images generated by symbolic
programs. Such data are then used to finetune an LLM. We also find that SIT
data can improve the general instruction following ability of LLMs.Summary
AI-Generated Summary