GENOME: Razonamiento visual Generativo Neuro-simbólico mediante el crecimiento y reutilización de Módulos
GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs
November 8, 2023
Autores: Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan
cs.AI
Resumen
Trabajos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) podrían potenciar los modelos neuro-simbólicos tradicionales mediante capacidades de programación para traducir lenguaje en descripciones de módulos, logrando así resultados sólidos en razonamiento visual mientras se mantiene la transparencia y eficiencia del modelo. Sin embargo, estos modelos suelen generar exhaustivamente el fragmento de código completo para cada nueva instancia de una tarea, lo cual es extremadamente ineficiente. Proponemos un enfoque de razonamiento visual neuro-simbólico generativo mediante el crecimiento y reutilización de módulos. Específicamente, nuestro modelo consta de tres etapas únicas: inicialización de módulos, generación de módulos y ejecución de módulos. Primero, dada una tarea de visión y lenguaje, utilizamos LLMs para examinar si podemos reutilizar y expandir módulos establecidos para manejar esta nueva tarea. Si no es posible, inicializamos un nuevo módulo requerido por la tarea y especificamos sus entradas y salidas. Luego, el nuevo módulo se crea consultando a los LLMs para generar fragmentos de código correspondientes que cumplan con los requisitos. Para evaluar mejor la capacidad del nuevo módulo, tratamos ejemplos de entrenamiento con pocos datos como casos de prueba para ver si el nuevo módulo puede superarlos. Si es así, el nuevo módulo se añade a la biblioteca de módulos para su reutilización futura. Finalmente, evaluamos el rendimiento de nuestro modelo en el conjunto de pruebas ejecutando los programas analizados con los módulos visuales recién creados para obtener los resultados. Encontramos que el modelo propuesto posee varias ventajas. En primer lugar, tiene un desempeño competitivo en tareas estándar como respuesta a preguntas visuales y comprensión de expresiones referenciales; en segundo lugar, los módulos aprendidos de una tarea pueden transferirse sin problemas a nuevas tareas; y, por último, es capaz de adaptarse a nuevas tareas de razonamiento visual observando unos pocos ejemplos de entrenamiento y reutilizando módulos.
English
Recent works have shown that Large Language Models (LLMs) could empower
traditional neuro-symbolic models via programming capabilities to translate
language into module descriptions, thus achieving strong visual reasoning
results while maintaining the model's transparency and efficiency. However,
these models usually exhaustively generate the entire code snippet given each
new instance of a task, which is extremely ineffective. We propose generative
neuro-symbolic visual reasoning by growing and reusing modules. Specifically,
our model consists of three unique stages, module initialization, module
generation, and module execution. First, given a vision-language task, we adopt
LLMs to examine whether we could reuse and grow over established modules to
handle this new task. If not, we initialize a new module needed by the task and
specify the inputs and outputs of this new module. After that, the new module
is created by querying LLMs to generate corresponding code snippets that match
the requirements. In order to get a better sense of the new module's ability,
we treat few-shot training examples as test cases to see if our new module
could pass these cases. If yes, the new module is added to the module library
for future reuse. Finally, we evaluate the performance of our model on the
testing set by executing the parsed programs with the newly made visual modules
to get the results. We find the proposed model possesses several advantages.
First, it performs competitively on standard tasks like visual question
answering and referring expression comprehension; Second, the modules learned
from one task can be seamlessly transferred to new tasks; Last but not least,
it is able to adapt to new visual reasoning tasks by observing a few training
examples and reusing modules.