¿Saltar una capa o repetirla? Adaptación de profundidad en tiempo de prueba de LLMs preentrenados

Resumen

¿Puede una red neuronal preentrenada adaptar su arquitectura a diferentes entradas sin necesidad de ajuste fino? ¿Necesitamos todas las capas para tareas simples, y son adecuadas para tareas desafiantes? Descubrimos que las capas de un modelo de lenguaje grande (LLM) preentrenado pueden manipularse como módulos separados para construir un modelo mejor e incluso más superficial personalizado para cada muestra de prueba. En particular, cada capa del modelo preentrenado puede omitirse/podarse o repetirse múltiples veces como redes neuronales recurrentes (RNN), y apilarse con otras en órdenes arbitrarios, generando una cadena-de-capas (CoLa) por muestra. Este espacio composicional amplía enormemente el alcance de trabajos existentes sobre módulos preentrenados en bucle/recurrentes, poda de capas o redes de salida temprana. Desarrollamos un protocolo de Búsqueda de Árbol de Monte Carlo (MCTS) para explorar e identificar la CoLa óptima para cada muestra en benchmarks de razonamiento matemático y de sentido común. En comparación con un modelo estático de profundidad fija, CoLa permite rutas cortas (pensamiento rápido), recurrencia de la(s) misma(s) capa(s) (pensamiento lento) y la combinación de ambos, ofreciendo arquitecturas más flexibles y dinámicas para diferentes entradas. Realizamos un análisis extenso de la CoLa optimizada por MCTS, lo que lleva a dos hallazgos clave: (1) Para >75% de las muestras con predicciones correctas por el LLM original, podemos encontrar CoLa más cortas, sugiriendo un gran espacio para mejorar la eficiencia de inferencia; (2) Para >60% de las muestras con predicciones originalmente incorrectas, podemos identificar CoLa que logran predicciones correctas, sugiriendo un gran espacio de mejora de rendimiento. Nuestros resultados destacan las limitaciones de usar una arquitectura fija de LLMs preentrenados para inferencia en diferentes muestras y allanan el camino para desbloquear el poder de generalización de la adaptación de profundidad en tiempo de prueba.

English

Can a pretrained neural network adapt its architecture to different inputs without any finetuning? Do we need all layers for simple tasks, and are they adequate for challenging tasks? We found that the layers of a pretrained large language model (LLM) can be manipulated as separate modules to build a better and even shallower model customized for each test sample. In particular, each layer from the pretrained model can be skipped/pruned or repeated multiple times as recurrent neural networks (RNN), and stacked with others in arbitrary orders, yielding a chain-of-layers (CoLa) per sample. This compositional space greatly expands the scope of existing works on looped/recurrent pretrained modules, layer pruning, or early-exit networks. We develop a Monte Carlo Tree Search (MCTS) protocol to explore and identify the optimal CoLa for each sample from math and commonsense reasoning benchmarks. Compared to a static model of a fixed depth, CoLa allows shortcut paths (fast thinking), recurrence of the same layer(s) (slow thinking), and combining both, offering more flexible, dynamic architectures for different inputs. We conduct an extensive analysis of the MCTS-optimized CoLa, which leads to two key findings: (1) For >75% of samples with correct predictions by the original LLM, we can find shorter CoLa, suggesting a large space for improving inference efficiency; (2) For >60% of samples with originally incorrect predictions, we can identify CoLa achieving correct predictions, suggesting a large space of performance enhancement. Our results highlight the shortcomings of using a fixed architecture of pre-trained LLMs for inference on different samples and pave the way to unlock the generalization power of test-time depth adaptation.

¿Saltar una capa o repetirla? Adaptación de profundidad en tiempo de prueba de LLMs preentrenados

Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Resumen

Support