ChatPaper.aiChatPaper

GENOME: Razonamiento visual Generativo Neuro-simbólico mediante el crecimiento y reutilización de Módulos

GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

November 8, 2023
Autores: Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan
cs.AI

Resumen

Trabajos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) podrían potenciar los modelos neuro-simbólicos tradicionales mediante capacidades de programación para traducir lenguaje en descripciones de módulos, logrando así resultados sólidos en razonamiento visual mientras se mantiene la transparencia y eficiencia del modelo. Sin embargo, estos modelos suelen generar exhaustivamente el fragmento de código completo para cada nueva instancia de una tarea, lo cual es extremadamente ineficiente. Proponemos un enfoque de razonamiento visual neuro-simbólico generativo mediante el crecimiento y reutilización de módulos. Específicamente, nuestro modelo consta de tres etapas únicas: inicialización de módulos, generación de módulos y ejecución de módulos. Primero, dada una tarea de visión y lenguaje, utilizamos LLMs para examinar si podemos reutilizar y expandir módulos establecidos para manejar esta nueva tarea. Si no es posible, inicializamos un nuevo módulo requerido por la tarea y especificamos sus entradas y salidas. Luego, el nuevo módulo se crea consultando a los LLMs para generar fragmentos de código correspondientes que cumplan con los requisitos. Para evaluar mejor la capacidad del nuevo módulo, tratamos ejemplos de entrenamiento con pocos datos como casos de prueba para ver si el nuevo módulo puede superarlos. Si es así, el nuevo módulo se añade a la biblioteca de módulos para su reutilización futura. Finalmente, evaluamos el rendimiento de nuestro modelo en el conjunto de pruebas ejecutando los programas analizados con los módulos visuales recién creados para obtener los resultados. Encontramos que el modelo propuesto posee varias ventajas. En primer lugar, tiene un desempeño competitivo en tareas estándar como respuesta a preguntas visuales y comprensión de expresiones referenciales; en segundo lugar, los módulos aprendidos de una tarea pueden transferirse sin problemas a nuevas tareas; y, por último, es capaz de adaptarse a nuevas tareas de razonamiento visual observando unos pocos ejemplos de entrenamiento y reutilizando módulos.
English
Recent works have shown that Large Language Models (LLMs) could empower traditional neuro-symbolic models via programming capabilities to translate language into module descriptions, thus achieving strong visual reasoning results while maintaining the model's transparency and efficiency. However, these models usually exhaustively generate the entire code snippet given each new instance of a task, which is extremely ineffective. We propose generative neuro-symbolic visual reasoning by growing and reusing modules. Specifically, our model consists of three unique stages, module initialization, module generation, and module execution. First, given a vision-language task, we adopt LLMs to examine whether we could reuse and grow over established modules to handle this new task. If not, we initialize a new module needed by the task and specify the inputs and outputs of this new module. After that, the new module is created by querying LLMs to generate corresponding code snippets that match the requirements. In order to get a better sense of the new module's ability, we treat few-shot training examples as test cases to see if our new module could pass these cases. If yes, the new module is added to the module library for future reuse. Finally, we evaluate the performance of our model on the testing set by executing the parsed programs with the newly made visual modules to get the results. We find the proposed model possesses several advantages. First, it performs competitively on standard tasks like visual question answering and referring expression comprehension; Second, the modules learned from one task can be seamlessly transferred to new tasks; Last but not least, it is able to adapt to new visual reasoning tasks by observing a few training examples and reusing modules.
PDF110December 15, 2024