ChatPaper.aiChatPaper

Cuándo Resolver, Cuándo Verificar: Resolución de Problemas Óptima en Cómputo y Verificación Generativa para el Razonamiento en LLM

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

April 1, 2025
Autores: Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach
cs.AI

Resumen

El escalado del cómputo en tiempo de prueba ha surgido como una estrategia clave para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), particularmente en tareas como la resolución de problemas matemáticos. Un enfoque tradicional, la Autoconsistencia (SC, por sus siglas en inglés), genera múltiples soluciones a un problema y selecciona la respuesta más común mediante votación mayoritaria. Otro método común implica puntuar cada solución con un modelo de recompensa (verificador) y elegir la mejor. Los avances recientes en Modelos Generativos de Recompensa (GenRM, por sus siglas en inglés) replantean la verificación como una tarea de predicción del siguiente token, permitiendo el escalado en tiempo de inferencia a lo largo de un nuevo eje. Específicamente, GenRM genera múltiples cadenas de pensamiento de verificación para puntuar cada solución. Bajo un presupuesto limitado de inferencia, esto introduce una compensación fundamental: ¿deberías gastar el presupuesto en escalar soluciones mediante SC o generar menos soluciones y asignar cómputo a la verificación mediante GenRM? Para abordar esto, evaluamos GenRM frente a SC bajo un presupuesto fijo de inferencia. Curiosamente, encontramos que SC es más eficiente en términos de cómputo que GenRM para la mayoría de los presupuestos prácticos de inferencia en diversos modelos y conjuntos de datos. Por ejemplo, GenRM iguala a SC solo después de consumir hasta 8 veces el cómputo de inferencia y requiere significativamente más cómputo para superarlo. Además, derivamos leyes de escalado de inferencia para el paradigma GenRM, revelando que la inferencia óptima en términos de cómputo favorece escalar la generación de soluciones de manera más agresiva que escalar el número de verificaciones. Nuestro trabajo proporciona orientación práctica sobre cómo optimizar el escalado en tiempo de prueba equilibrando la generación de soluciones y la verificación. El código está disponible en https://github.com/nishadsinghi/sc-genrm-scaling.
English
Scaling test-time compute has emerged as a key strategy for enhancing the reasoning capabilities of large language models (LLMs), particularly in tasks like mathematical problem-solving. A traditional approach, Self-Consistency (SC), generates multiple solutions to a problem and selects the most common answer via majority voting. Another common method involves scoring each solution with a reward model (verifier) and choosing the best one. Recent advancements in Generative Reward Models (GenRM) reframe verification as a next-token prediction task, enabling inference-time scaling along a new axis. Specifically, GenRM generates multiple verification chains-of-thought to score each solution. Under a limited inference budget, this introduces a fundamental trade-off: should you spend the budget on scaling solutions via SC or generate fewer solutions and allocate compute to verification via GenRM? To address this, we evaluate GenRM against SC under a fixed inference budget. Interestingly, we find that SC is more compute-efficient than GenRM for most practical inference budgets across diverse models and datasets. For instance, GenRM first matches SC after consuming up to 8x the inference compute and requires significantly more compute to outperform it. Furthermore, we derive inference scaling laws for the GenRM paradigm, revealing that compute-optimal inference favors scaling solution generation more aggressively than scaling the number of verifications. Our work provides practical guidance on optimizing test-time scaling by balancing solution generation and verification. The code is available at https://github.com/nishadsinghi/sc-genrm-scaling.

Summary

AI-Generated Summary

PDF151April 2, 2025