¿Pueden los Modelos de Lenguaje Grandes Entender Programas Gráficos Simbólicos?

Resumen

Evaluar las capacidades de los modelos de lenguaje grandes (LLMs) a menudo es desafiante, en parte, porque es difícil encontrar tareas a las que no hayan sido expuestos durante el entrenamiento. Damos un paso para abordar este desafío al dirigirnos a una nueva tarea: centrándonos en programas simbólicos de gráficos, que son una representación popular para el contenido gráfico que genera datos visuales de forma procedural. Los LLMs han mostrado una prometedora capacidad hacia la síntesis de programas, pero ¿entienden los programas simbólicos de gráficos? A diferencia de los programas convencionales, los programas simbólicos de gráficos pueden ser traducidos a contenido gráfico. Aquí, caracterizamos la comprensión de un LLM de programas simbólicos en términos de su capacidad para responder preguntas relacionadas con el contenido gráfico. Esta tarea es desafiante ya que las preguntas son difíciles de responder solo con los programas simbólicos, sin embargo, serían fáciles de responder con el contenido gráfico correspondiente, como verificamos a través de un experimento humano. Para comprender los programas simbólicos, los LLMs pueden necesitar poseer la habilidad de imaginar cómo se vería el contenido gráfico correspondiente sin acceder directamente al contenido visual renderizado. Utilizamos esta tarea para evaluar los LLMs creando un extenso banco de pruebas para la comprensión semántica de programas simbólicos de gráficos. Este banco de pruebas se construye a través de la correspondencia programa-gráfico, por lo tanto, requiere esfuerzos humanos mínimos. Evaluamos los LLMs actuales en nuestro banco de pruebas para esclarecer una evaluación preliminar de su capacidad para razonar sobre escenas visuales a partir de programas. Descubrimos que esta tarea distingue entre los LLMs existentes y los modelos considerados buenos en el razonamiento que tienen un mejor desempeño. Por último, presentamos el Ajuste de Instrucciones Simbólicas (SIT) para mejorar esta capacidad. Específicamente, consultamos a GPT4-o con preguntas e imágenes generadas por programas simbólicos. Estos datos luego se utilizan para ajustar finamente un LLM. También descubrimos que los datos de SIT pueden mejorar la capacidad general de seguir instrucciones de los LLMs.

English

Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.

¿Pueden los Modelos de Lenguaje Grandes Entender Programas Gráficos Simbólicos?

Can Large Language Models Understand Symbolic Graphics Programs?

Resumen

Support