Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los modelos de lenguaje grandes han facilitado avances en muchas aplicaciones de inteligencia artificial, su gran tamaño inherente los hace computacionalmente costosos y difíciles de implementar en entornos con recursos limitados. En este documento, documentamos el desarrollo de SmolLM2, un modelo de lenguaje (LM) "pequeño" (con 1.7 mil millones de parámetros) de última generación. Para lograr un rendimiento sólido, sobreentrenamos SmolLM2 con ~11 billones de tokens de datos utilizando un proceso de entrenamiento multietapa que combina texto web con datos especializados de matemáticas, código e instrucciones a seguir. Además, introducimos nuevos conjuntos de datos especializados (FineMath, Stack-Edu y SmolTalk) en etapas donde encontramos que los conjuntos de datos existentes eran problemáticamente pequeños o de baja calidad. Para informar nuestras decisiones de diseño, realizamos tanto ablaciones a pequeña escala como un proceso de refinamiento manual que actualiza las tasas de mezcla de conjuntos de datos en cada etapa en función del rendimiento en la etapa anterior. En última instancia, demostramos que SmolLM2 supera a otros LM pequeños recientes, incluidos Qwen2.5-1.5B y Llama3.2-1B. Para facilitar la investigación futura sobre el desarrollo de LM, así como las aplicaciones de LM pequeños, lanzamos tanto SmolLM2 como todos los conjuntos de datos que preparamos en el transcurso de este proyecto.
Presentamos un descubrimiento fundamental que desafía nuestra comprensión de cómo surge el razonamiento complejo en grandes modelos de lenguaje. Mientras la sabiduría convencional sugiere que las tareas de razonamiento sofisticado requieren extensos datos de entrenamiento (>100,000 ejemplos), demostramos que las habilidades de razonamiento matemático complejo pueden ser eficazmente provocadas con sorprendentemente pocos ejemplos. A través de experimentos exhaustivos, nuestro modelo propuesto LIMO demuestra un rendimiento sin precedentes en el razonamiento matemático. Con tan solo 817 ejemplos de entrenamiento seleccionados, LIMO logra una precisión del 57.1% en AIME y del 94.8% en MATH, mejorando respecto a los modelos anteriores basados en SFT que tenían un 6.5% y un 59.2% respectivamente, utilizando solo el 1% de los datos de entrenamiento requeridos por enfoques anteriores. LIMO muestra una generalización excepcional fuera de la distribución, logrando una mejora absoluta del 40.5% en 10 benchmarks diversos, superando a modelos entrenados con 100 veces más datos, desafiando la noción de que SFT conduce a la memorización en lugar de la generalización. Basándonos en estos resultados, proponemos la Hipótesis de Razonamiento Menos es Más (Hipótesis LIMO): En modelos fundamentales donde el conocimiento del dominio ha sido codificado de manera exhaustiva durante el pre-entrenamiento, las capacidades de razonamiento sofisticado pueden surgir a través de demostraciones mínimas pero precisamente orquestadas de procesos cognitivos. Esta hipótesis postula que el umbral de provocación para el razonamiento complejo está determinado por dos factores clave: (1) la completitud de la base de conocimiento codificada del modelo durante el pre-entrenamiento, y (2) la efectividad de los ejemplos de post-entrenamiento como "plantillas cognitivas" que muestran al modelo cómo utilizar su base de conocimiento para resolver tareas de razonamiento complejas. Para facilitar la reproducibilidad y la investigación futura en razonamiento eficiente en datos, lanzamos LIMO como un conjunto completo de código abierto en https://github.com/GAIR-NLP/LIMO.
La ampliación del cálculo de inferencia mejora el razonamiento en modelos de lenguaje grandes (LLMs), con largas cadenas de pensamiento (CoTs) que permiten estrategias como el retroceso y la corrección de errores. El aprendizaje por refuerzo (RL) ha surgido como un método crucial para desarrollar estas capacidades, sin embargo, las condiciones bajo las cuales surgen las largas CoTs siguen siendo poco claras, y el entrenamiento de RL requiere elecciones de diseño cuidadosas. En este estudio, investigamos sistemáticamente la mecánica del razonamiento de largas CoT, identificando los factores clave que permiten a los modelos generar trayectorias de largas CoT. A través de extensos experimentos de ajuste fino supervisado (SFT) y RL, presentamos cuatro hallazgos principales: (1) Si bien el SFT no es estrictamente necesario, simplifica el entrenamiento y mejora la eficiencia; (2) Las capacidades de razonamiento tienden a emerger con un aumento en el cálculo de entrenamiento, pero su desarrollo no está garantizado, por lo que dar forma a la recompensa es crucial para estabilizar el crecimiento de la longitud de CoT; (3) Escalar señales de recompensa verificables es fundamental para RL. Descubrimos que aprovechar soluciones ruidosas extraídas de la web con mecanismos de filtrado muestra un gran potencial, especialmente para tareas fuera de distribución (OOD) como el razonamiento STEM; y (4) Habilidades fundamentales como la corrección de errores están inherentemente presentes en los modelos base, pero incentivar eficazmente estas habilidades para tareas complejas a través de RL requiere un cálculo significativo, y medir su emergencia requiere un enfoque matizado. Estas ideas ofrecen orientación práctica para optimizar estrategias de entrenamiento y mejorar el razonamiento de largas CoT en LLMs. Nuestro código está disponible en: https://github.com/eddycmu/demystify-long-cot.
El estudio de la emergencia social ha sido durante mucho tiempo un enfoque central en las ciencias sociales. Los enfoques de modelado tradicionales, como los Modelos Basados en Agentes (ABMs) basados en reglas, luchan por capturar la diversidad y complejidad del comportamiento humano, especialmente los factores irracionales enfatizados en la economía conductual. Recientemente, los agentes de modelos de lenguaje grande (LLM) han ganado tracción como herramientas de simulación para modelar el comportamiento humano en ciencias sociales y aplicaciones de juego de roles. Estudios sugieren que los LLMs pueden tener en cuenta los sesgos cognitivos, las fluctuaciones emocionales y otras influencias no racionales, permitiendo simulaciones más realistas de dinámicas socioeconómicas. En este trabajo, presentamos TwinMarket, un nuevo marco multiagente que aprovecha los LLMs para simular sistemas socioeconómicos. Específicamente, examinamos cómo los comportamientos individuales, a través de interacciones y mecanismos de retroalimentación, dan lugar a dinámicas colectivas y fenómenos emergentes. A través de experimentos en un entorno simulado de mercado de valores, demostramos cómo las acciones individuales pueden desencadenar comportamientos grupales, lo que lleva a resultados emergentes como burbujas financieras y recesiones. Nuestro enfoque proporciona ideas valiosas sobre la compleja interacción entre la toma de decisiones individuales y los patrones socioeconómicos colectivos.
Los modelos de lenguaje grandes multimodales (MLLMs) exhiben capacidades impresionantes pero aún enfrentan desafíos en el razonamiento visual complejo. Mientras que los esfuerzos recientes intentan mejorar el razonamiento de MLLMs incorporando un pensamiento estructurado similar al de OpenAI o1 a través de estructuras de búsqueda explícitas o destilación guiada por maestros, a menudo luchan por equilibrar el rendimiento y la eficiencia. Una limitación crítica es su fuerte dependencia en datos extensos y espacios de búsqueda, lo que resulta en una extracción de información implícita y utilización de datos de baja eficiencia. Para abordar esto, proponemos AStar, un paradigma de pensamiento estructurado automatizado para el razonamiento multimodal a través de la Búsqueda de Árbol de Monte Carlo (MCTS). AStar deriva automáticamente patrones de razonamiento cognitivo de alto nivel a partir de datos limitados utilizando estructuras jerárquicas potenciadas por MCTS. Basándonos en estos patrones explícitos, diseñamos un marco de razonamiento unificado que integra de manera fluida las capacidades de razonamiento interno de los modelos y las pautas de razonamiento externas, permitiendo una inferencia eficiente con un mínimo de iteraciones en el árbol. Este nuevo paradigma logra un equilibrio convincente entre rendimiento y eficiencia. Experimentos extensos demuestran la efectividad de AStar, logrando una precisión superior (54.0%) en el banco de pruebas MathVerse con una base de 7B, superando a GPT-4o (50.2%) manteniendo una eficiencia sustancial en datos y computación.
La generación de SVGs en capas alineados cognitivamente sigue siendo un desafío debido a las tendencias de los métodos existentes hacia salidas de una sola capa demasiado simplificadas o redundancias de formas inducidas por la optimización. Proponemos LayerTracer, un marco basado en transformadores de difusión que colma esta brecha al aprender los procesos de creación de SVGs en capas de los diseñadores a partir de un nuevo conjunto de datos de operaciones de diseño secuenciales. Nuestro enfoque opera en dos fases: primero, un DiT condicionado por texto genera planos de construcción rasterizados de múltiples fases que simulan los flujos de trabajo de diseño humano. En segundo lugar, la vectorización por capas con deduplicación de rutas produce SVGs limpios y editables. Para la vectorización de imágenes, introducimos un mecanismo de difusión condicional que codifica imágenes de referencia en tokens latentes, guiando la reconstrucción jerárquica mientras se preserva la integridad estructural. Experimentos extensos demuestran el rendimiento superior de LayerTracer frente a baselines basados en optimización y redes neuronales tanto en calidad de generación como en capacidad de edición, alineando efectivamente los vectores generados por IA con la cognición del diseño profesional.
Los Modelos de Lenguaje Grandes (LLMs) destacan en el razonamiento y la planificación cuando se entrenan con datos de cadena de pensamiento (CoT), donde el proceso de pensamiento paso a paso está explícitamente delineado por tokens de texto. Sin embargo, esto resulta en entradas extensas donde muchas palabras respaldan la coherencia textual en lugar de la información de razonamiento central, y el procesamiento de estas entradas consume recursos computacionales sustanciales. En este trabajo, proponemos una representación híbrida del proceso de razonamiento, donde abstraemos parcialmente los pasos de razonamiento iniciales utilizando tokens discretos latentes generados por VQ-VAE, reduciendo significativamente la longitud de las trazas de razonamiento. Exploramos el uso de abstracciones de trazas latentes en dos escenarios: 1) entrenando el modelo desde cero para el problema del Laberinto de Búsqueda de Claves, 2) ajustando finamente LLMs en estos datos híbridos con un vocabulario extendido que incluye tokens latentes no vistos, tanto para problemas de razonamiento lógico como matemático. Para facilitar un aprendizaje efectivo, introducimos un procedimiento de entrenamiento simple que mezcla aleatoriamente tokens latentes y de texto, lo que permite una rápida adaptación a nuevos tokens latentes. Nuestro enfoque supera consistentemente a los métodos de referencia en varios benchmarks.
El post-entrenamiento de modelos de lenguaje (LMs) depende cada vez más de las siguientes dos etapas: (i) destilación de conocimiento, donde el LM se entrena para imitar a un LM profesor más grande, y (ii) aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), donde el LM se alinea optimizando un modelo de recompensa. En la segunda etapa de RLHF, un desafío bien conocido es el hacking de recompensa, donde el LM sobre-optimiza el modelo de recompensa. Este fenómeno está en línea con la ley de Goodhart y puede llevar a un rendimiento degradado en el objetivo real. En este artículo, investigamos si un fenómeno similar, al que llamamos hacking de profesor, puede ocurrir durante la destilación de conocimiento. Esto podría surgir porque el LM profesor es en sí misma una aproximación imperfecta de la verdadera distribución. Para estudiar esto, proponemos una configuración experimental controlada que involucra: (i) un LM oráculo que representa la distribución de verdad, (ii) un LM profesor destilado del oráculo, y (iii) un LM estudiante destilado del profesor. Nuestros experimentos revelan las siguientes percepciones. Cuando se utiliza un conjunto de datos fijos sin conexión para la destilación, ocurre el hacking de profesor; además, podemos detectarlo observando cuándo el proceso de optimización se desvía de las leyes de convergencia polinomial. En contraste, el empleo de técnicas de generación de datos en línea mitiga efectivamente el hacking de profesor. Más precisamente, identificamos la diversidad de datos como el factor clave para prevenir el hacking. En general, nuestros hallazgos proporcionan una comprensión más profunda de los beneficios y limitaciones de la destilación para construir LMs robustos y eficientes.
La generación automatizada de código está adquiriendo una importancia significativa en la programación informática inteligente y la implementación de sistemas. Sin embargo, los enfoques actuales a menudo enfrentan desafíos en eficiencia computacional y carecen de mecanismos sólidos para el análisis de código y corrección de errores. En este trabajo, proponemos un nuevo marco, PyCapsule, con un pipeline de dos agentes simple pero efectivo y módulos de auto-depuración eficientes para la generación de código en Python. PyCapsule cuenta con una inferencia de indicaciones sofisticada, manejo iterativo de errores y pruebas de casos, asegurando una alta estabilidad, seguridad y corrección en la generación. Empíricamente, PyCapsule logra hasta un 5.7% de mejora en la tasa de éxito en HumanEval, un 10.3% en HumanEval-ET y un 24.4% en BigCodeBench en comparación con los métodos de vanguardia. También observamos una disminución en la tasa de éxito normalizada con más intentos de auto-depuración, potencialmente afectada por retroalimentación de errores limitada y ruidosa en la retención. PyCapsule demuestra impactos más amplios en el avance de la generación de código ligero y eficiente para sistemas de inteligencia artificial.
Los modelos de lenguaje grandes (LLMs) han logrado mejoras significativas en rendimiento mediante el aumento de tamaños de modelos y/o datos. Sin embargo, evidencia reciente sugiere rendimientos decrecientes de tales enfoques, lo que motiva escalar la computación utilizada en el tiempo de inferencia. Los métodos existentes de escalado en tiempo de inferencia, generalmente con modelos de recompensa, plantean la tarea como un problema de búsqueda, que tiende a ser vulnerable a manipulaciones de recompensa como consecuencia de errores de aproximación en los modelos de recompensa. En este documento, en cambio, planteamos el escalado en tiempo de inferencia como una tarea de inferencia probabilística y aprovechamos técnicas basadas en muestreo para explorar el conjunto típico de la distribución de estados de un modelo de espacio de estados con una verosimilitud aproximada, en lugar de optimizar directamente para su modo. Proponemos un enfoque novedoso de escalado en tiempo de inferencia adaptando métodos de Monte Carlo basados en partículas a esta tarea. Nuestra evaluación empírica demuestra que nuestros métodos tienen una tasa de escalado 4-16 veces mejor que nuestros contrapartes de búsqueda determinística en varias tareas desafiantes de razonamiento matemático. Utilizando nuestro enfoque, mostramos que Qwen2.5-Math-1.5B-Instruct puede superar la precisión de GPT-4o en solo 4 iteraciones, mientras que Qwen2.5-Math-7B-Instruct alcanza una precisión de nivel o1 en solo 32 iteraciones. Nuestro trabajo no solo presenta un método efectivo para el escalado en tiempo de inferencia, sino que también conecta la rica literatura en inferencia probabilística con el escalado en tiempo de inferencia de LLMs para desarrollar algoritmos más robustos en trabajos futuros. El código y más información están disponibles en https://probabilistic-inference-scaling.github.io.
Los modelos de lenguaje grandes (LLMs) han experimentado un rápido desarrollo en los últimos años, revolucionando diversas aplicaciones y mejorando significativamente la comodidad y productividad. Sin embargo, junto con sus impresionantes capacidades, han surgido preocupaciones éticas y nuevos tipos de ataques, como el jailbreaking. Mientras que la mayoría de las técnicas de generación de texto se centran en optimizar las entradas adversarias para casos individuales, lo que resulta en mayores costos computacionales al tratar con conjuntos de datos grandes. Menos investigaciones se han ocupado del escenario más general de entrenar un atacante universal que pueda transferirse a tareas no vistas. En este documento, presentamos JUMP, un método basado en indicaciones diseñado para realizar jailbreak a LLMs utilizando multi-indicaciones universales. También adaptamos nuestro enfoque para la defensa, al que llamamos DUMP. Los resultados experimentales demuestran que nuestro método para optimizar multi-indicaciones universales supera a las técnicas existentes.
La fusión de modelos, un método que combina los parámetros y las incrustaciones de múltiples grandes modelos de lenguaje finamente ajustados (LLMs), ofrece un enfoque prometedor para mejorar el rendimiento del modelo en diversas tareas manteniendo la eficiencia computacional. Este documento presenta la Fusión Informada por Activación (AIM), una técnica que integra la información del espacio de activación de los LLMs en el proceso de fusión para mejorar el rendimiento y la robustez. AIM está diseñado como una solución flexible y complementaria que es aplicable a cualquier método de fusión existente. Su objetivo es preservar los pesos críticos del modelo base, basándose en principios del aprendizaje continuo (CL) y la compresión de modelos. Utilizando un conjunto de calibración agnóstico de tareas, AIM prioriza selectivamente los pesos esenciales durante la fusión. Demostramos empíricamente que AIM mejora significativamente el rendimiento de los modelos fusionados en múltiples pruebas. Nuestros hallazgos sugieren que considerar la información del espacio de activación puede proporcionar avances sustanciales en las estrategias de fusión de modelos para LLMs, con un aumento de hasta un 40\% en el rendimiento de las pruebas.
La Generación con Recuperación Aumentada (RAG) permite a los Modelos de Lenguaje Grandes (LLMs) generar respuestas fundamentadas aprovechando bases de conocimiento externas sin alterar los parámetros del modelo. Aunque la ausencia de ajuste de pesos evita fugas a través de los parámetros del modelo, introduce el riesgo de que adversarios de inferencia exploten documentos recuperados en el contexto del modelo. Los métodos existentes para inferencia de membresía y extracción de datos a menudo dependen de desbloqueos o consultas cuidadosamente elaboradas no naturales, que pueden ser fácilmente detectadas o frustradas con técnicas de reescritura de consultas comunes en sistemas RAG. En este trabajo, presentamos el Ataque de Interrogación (IA), una técnica de inferencia de membresía dirigida a documentos en el almacén de datos de RAG. Al elaborar consultas de texto natural que solo pueden ser respondidas con la presencia del documento objetivo, nuestro enfoque demuestra una inferencia exitosa con solo 30 consultas manteniéndose sigiloso; los detectores directos identifican las indicaciones adversariales de los métodos existentes hasta ~76 veces más frecuentemente que las generadas por nuestro ataque. Observamos una mejora de 2 veces en TPR@1%FPR respecto a ataques de inferencia anteriores en diversas configuraciones de RAG, todo ello costando menos de $0.02 por inferencia de documento.
Evaluar la aplicabilidad en el mundo real de los modelos de lenguaje grandes (LLMs) proporciona información valiosa para su desarrollo y uso en tareas de desarrollo de software. Los benchmarks existentes a menudo se centran en problemas de codificación independientes o bibliotecas específicas, pasando por alto escenarios basados en proyectos de múltiples archivos y careciendo de una evaluación rigurosa de la consistencia. El Benchmark HackerRank-ASTRA introduce problemas de codificación basados en proyectos que reflejan escenarios del mundo real. Evalúa la consistencia del modelo a través de 32 ejecuciones (k = 32) y la desviación estándar mediana, al tiempo que incorpora un análisis a nivel de taxonomía para evaluar las capacidades de sub-habilidades. Las evaluaciones iniciales en 65 problemas muestran que los tres mejores modelos -- o1, o1-preview y Claude-3.5-Sonnet-1022 -- lograron puntuaciones promedio comparables del 75%, sin diferencias estadísticamente significativas en el rendimiento. Es notable que Claude-3.5-Sonnet-1022 demostró la mayor consistencia en los problemas, con baja variabilidad (SD = 0.0497), lo cual fue estadísticamente significativo en comparación con otros modelos, resaltando su confiabilidad para tareas de desarrollo de software del mundo real.