Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos rStar-Math para demostrar que los modelos de lenguaje pequeños (SLMs) pueden rivalizar e incluso superar la capacidad de razonamiento matemático de OpenAI o1, sin destilación de modelos superiores. rStar-Math logra esto ejerciendo "pensamiento profundo" a través de la Búsqueda del Árbol de Monte Carlo (MCTS), donde un SLM de política matemática realiza una búsqueda en tiempo de prueba guiada por un modelo de recompensa de proceso basado en SLM. rStar-Math introduce tres innovaciones para abordar los desafíos en el entrenamiento de los dos SLMs: (1) un novedoso método de síntesis de datos CoT aumentado con código, que realiza extensas simulaciones MCTS para generar trayectorias de razonamiento verificadas paso a paso utilizadas para entrenar el SLM de política; (2) un novedoso método de entrenamiento de modelo de recompensa de proceso que evita la anotación de puntajes a nivel de paso ingenua, produciendo un modelo de preferencia de proceso (PPM) más efectivo; (3) una receta de autoevolución en la que el SLM de política y el PPM se construyen desde cero y se evolucionan iterativamente para mejorar las capacidades de razonamiento. A través de 4 rondas de autoevolución con millones de soluciones sintetizadas para 747k problemas matemáticos, rStar-Math impulsa el razonamiento matemático de los SLMs a niveles de vanguardia. En el banco de pruebas MATH, mejora Qwen2.5-Math-7B del 58.8% al 90.0% y Phi3-mini-3.8B del 41.4% al 86.4%, superando a o1-preview en +4.5% y +0.9%. En la Olimpiada Matemática de EE. UU. (AIME), rStar-Math resuelve un promedio del 53.3% (8/15) de problemas, ubicándose entre el 20% superior de los estudiantes de matemáticas más brillantes de la escuela secundaria. El código y los datos estarán disponibles en https://github.com/microsoft/rStar.
Proponemos un nuevo marco, Meta Cadena de Pensamiento (Meta-CoT), que extiende la Cadena de Pensamiento tradicional (CoT) al modelar explícitamente el razonamiento subyacente necesario para llegar a una CoT particular. Presentamos evidencia empírica de modelos de vanguardia que exhiben comportamientos consistentes con la búsqueda en contexto, y exploramos métodos para producir Meta-CoT a través de supervisión de procesos, generación de datos sintéticos y algoritmos de búsqueda. Finalmente, esbozamos un pipeline concreto para entrenar un modelo que produzca Meta-CoTs, incorporando ajuste de instrucciones con trazas de búsqueda linealizadas y aprendizaje por refuerzo post-entrenamiento. Además, discutimos preguntas de investigación abiertas, incluyendo leyes de escalado, roles de verificador y el potencial para descubrir nuevos algoritmos de razonamiento. Este trabajo proporciona una hoja de ruta teórica y práctica para habilitar Meta-CoT en LLMs, allanando el camino para un razonamiento más potente y similar al humano en la inteligencia artificial.
Históricamente, el descubrimiento científico ha sido un proceso largo y costoso, demandando un tiempo y recursos sustanciales desde la concepción inicial hasta los resultados finales. Para acelerar el descubrimiento científico, reducir los costos de investigación y mejorar la calidad de la investigación, presentamos Agent Laboratory, un marco autónomo basado en LLM capaz de completar todo el proceso de investigación. Este marco acepta una idea de investigación proporcionada por humanos y avanza a través de tres etapas: revisión de literatura, experimentación y redacción de informes para producir resultados de investigación completos, incluyendo un repositorio de código y un informe de investigación, al mismo tiempo que permite a los usuarios proporcionar retroalimentación y orientación en cada etapa. Desplegamos Agent Laboratory con varios LLMs de última generación e invitamos a múltiples investigadores a evaluar su calidad participando en una encuesta, brindando retroalimentación humana para guiar el proceso de investigación y luego evaluar el artículo final. Encontramos que: (1) Agent Laboratory impulsado por o1-preview genera los mejores resultados de investigación; (2) El código de aprendizaje automático generado logra un rendimiento de vanguardia en comparación con los métodos existentes; (3) La participación humana, proporcionando retroalimentación en cada etapa, mejora significativamente la calidad general de la investigación; (4) Agent Laboratory reduce significativamente los gastos de investigación, logrando una disminución del 84% en comparación con los métodos de investigación autónomos anteriores. Esperamos que Agent Laboratory permita a los investigadores dedicar más esfuerzo a la ideación creativa en lugar de la codificación y redacción a bajo nivel, acelerando en última instancia el descubrimiento científico.
El razonamiento de Cadena de Pensamiento (CoT) ha sido ampliamente aplicado en el razonamiento matemático de Modelos de Lenguaje Extensos (LLMs). Recientemente, la introducción de supervisión de procesos derivados en las trayectorias de CoT ha generado discusiones sobre cómo mejorar las capacidades de escalado durante el tiempo de prueba, potenciando así el potencial de estos modelos. Sin embargo, en el razonamiento matemático multimodal, la escasez de datos de entrenamiento de CoT de alta calidad ha obstaculizado a los modelos existentes para lograr un razonamiento preciso de CoT y ha limitado la realización del potencial de razonamiento durante el tiempo de prueba. En este trabajo, proponemos una estrategia de síntesis de tres módulos que integra la destilación de CoT, la reescritura en formato de trayectoria y la unificación de formato. Esto resulta en un conjunto de datos de ajuste fino de instrucciones de razonamiento de CoT de alta calidad en matemáticas multimodales, MMathCoT-1M. Validamos exhaustivamente el rendimiento de vanguardia (SOTA) del modelo entrenado URSA-7B en múltiples referencias matemáticas multimodales. Para el escalado en tiempo de prueba, introducimos una estrategia de síntesis de datos que genera automáticamente conjuntos de datos de anotación de procesos, conocidos como DualMath-1.1M, centrándose tanto en la interpretación como en la lógica. Al entrenar aún más a URSA-7B en DualMath-1.1M, pasamos de las capacidades de razonamiento de CoT a habilidades de supervisión robustas. El modelo entrenado URSA-RM-7B actúa como verificador, mejorando efectivamente el rendimiento de URSA-7B en el tiempo de prueba. URSA-RM-7B también demuestra excelentes capacidades de verificación fuera de distribución (OOD), mostrando su capacidad de generalización. Los pesos del modelo, los datos de entrenamiento y el código serán de código abierto.
En los últimos años, el rápido avance de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha transformado el panorama de la investigación científica, ofreciendo un apoyo sin precedentes en diversas etapas del ciclo de investigación. Este artículo presenta la primera encuesta sistemática dedicada a explorar cómo los LLMs están revolucionando el proceso de investigación científica. Analizamos los roles únicos que desempeñan los LLMs en cuatro etapas críticas de la investigación: descubrimiento de hipótesis, planificación e implementación de experimentos, redacción científica y revisión por pares. Nuestra revisión muestra de manera exhaustiva las metodologías específicas de cada tarea y los puntos de referencia de evaluación. Al identificar los desafíos actuales y proponer futuras direcciones de investigación, esta encuesta no solo destaca el potencial transformador de los LLMs, sino que también tiene como objetivo inspirar y guiar a investigadores y profesionales en el aprovechamiento de los LLMs para avanzar en la indagación científica. Los recursos están disponibles en el siguiente repositorio: https://github.com/du-nlp-lab/LLM4SR
Los Agentes de Interfaz Gráfica de Usuario (GUI), impulsados por modelos de lenguaje multimodales grandes (MLLM), han demostrado un gran potencial para la automatización de tareas en dispositivos informáticos como computadoras y teléfonos móviles. Sin embargo, los agentes existentes enfrentan desafíos en el razonamiento de múltiples pasos y la dependencia de anotaciones textuales, lo que limita su efectividad. Presentamos InfiGUIAgent, un Agente GUI basado en MLLM entrenado con un proceso de ajuste fino supervisado de dos etapas. La Etapa 1 mejora habilidades fundamentales como la comprensión y el anclaje de GUI, mientras que la Etapa 2 integra razonamiento jerárquico y razonamiento de reflexión de expectativas utilizando datos sintetizados para habilitar habilidades de razonamiento nativo de los agentes. InfiGUIAgent logra un rendimiento competitivo en varios bancos de pruebas de GUI, resaltando el impacto de las habilidades de razonamiento nativo en la mejora de la interacción de GUI para tareas de automatización. Los recursos están disponibles en https://github.com/Reallm-Labs/InfiGUIAgent.
Las técnicas de recuperación de documentos forman la base para el desarrollo de sistemas de información a gran escala. La metodología predominante consiste en construir un bi-codificador y calcular la similitud semántica. Sin embargo, esta similitud escalar es difícil de reflejar suficiente información y obstaculiza nuestra comprensión de los resultados de recuperación. Además, este proceso computacional enfatiza principalmente la semántica global e ignora la relación semántica detallada entre la consulta y el texto complejo en el documento. En este documento, proponemos un nuevo método llamado Recuperación Aumentada por Generación (GeAR) que incorpora módulos de fusión y decodificación bien diseñados. Esto permite que GeAR genere el texto relevante de los documentos basándose en la representación fusionada de la consulta y el documento, aprendiendo así a "enfocarse en" la información detallada. Además, al utilizarse como recuperador, GeAR no añade ninguna carga computacional sobre los bi-codificadores. Para respaldar el entrenamiento del nuevo marco de trabajo, hemos introducido un proceso para sintetizar eficientemente datos de alta calidad utilizando grandes modelos de lenguaje. GeAR muestra un rendimiento competitivo en la recuperación y localización en diversos escenarios y conjuntos de datos. Además, el análisis cualitativo y los resultados generados por GeAR proporcionan nuevas perspectivas sobre la interpretación de los resultados de recuperación. El código, los datos y los modelos se publicarán después de completar la revisión técnica para facilitar futuras investigaciones.
En este documento, ampliamos los límites de la generación 3D detallada hacia un territorio verdaderamente creativo. Los métodos actuales carecen de detalles intrincados o simplemente imitan objetos existentes; nosotros permitimos ambos. Al elevar la comprensión detallada en 2D a 3D a través de la difusión multi-vista y modelando latentes de partes como distribuciones continuas, desbloqueamos la capacidad de generar partes completamente nuevas, pero plausibles, a través de la interpolación y el muestreo. Una pérdida de consistencia de características auto-supervisada garantiza además la generación estable de estas partes no vistas. El resultado es el primer sistema capaz de crear objetos 3D novedosos con detalles específicos de especies que trascienden los ejemplos existentes. Aunque demostramos nuestro enfoque en aves, el marco subyacente se extiende más allá de las cosas que pueden piar. El código estará disponible en https://github.com/kamwoh/chirpy3d.
Estudiamos el problema de la reconstrucción tridimensional de objetos a partir de una sola imagen. Trabajos recientes han divergido en dos direcciones: modelado basado en regresión y modelado generativo. Los métodos de regresión infieren eficientemente las superficies visibles, pero tienen dificultades con las regiones ocultas. Los métodos generativos manejan mejor las regiones inciertas al modelar distribuciones, pero son computacionalmente costosos y la generación a menudo no se alinea correctamente con las superficies visibles. En este documento, presentamos SPAR3D, un enfoque novedoso de dos etapas que tiene como objetivo aprovechar lo mejor de ambas direcciones. La primera etapa de SPAR3D genera nubes de puntos 3D dispersas utilizando un modelo de difusión de puntos ligero, que tiene una velocidad de muestreo rápida. La segunda etapa utiliza tanto la nube de puntos muestreada como la imagen de entrada para crear mallas altamente detalladas. Nuestro diseño de dos etapas permite el modelado probabilístico de la tarea tridimensional a partir de una sola imagen, manteniendo una alta eficiencia computacional y una gran fidelidad en la salida. El uso de nubes de puntos como representación intermedia también permite ediciones interactivas por parte del usuario. Evaluado en conjuntos de datos diversos, SPAR3D demuestra un rendimiento superior a los métodos anteriores de vanguardia, con una velocidad de inferencia de 0.7 segundos. Página del proyecto con código y modelo: https://spar3d.github.io
La sintonización efectiva de instrucciones es indispensable para optimizar los LLM de código, alinear el comportamiento del modelo con las expectativas del usuario y mejorar el rendimiento del modelo en aplicaciones del mundo real. Sin embargo, la mayoría de los métodos existentes se centran en fragmentos de código, que están limitados a funcionalidades específicas y estructuras rígidas, lo que restringe la complejidad y diversidad de los datos sintetizados. Para abordar estas limitaciones, presentamos un novedoso marco de síntesis basado en árboles de características inspirado en los Árboles de Sintaxis Abstracta (AST). A diferencia del AST, que captura la estructura sintáctica del código, nuestro marco modela las relaciones semánticas entre los elementos de código, lo que permite la generación de datos más matizados y diversos. El árbol de características se construye a partir de datos en bruto y se refina de forma iterativa para aumentar la cantidad y diversidad de las características extraídas. Este proceso permite identificar patrones y relaciones más complejos dentro del código. Muestreando subárboles con profundidad y amplitud controladas, nuestro marco permite ajustes precisos a la complejidad del código generado, respaldando una amplia gama de tareas, desde operaciones simples a nivel de función hasta escenarios multi-archivo intrincados. Ajustamos finamente modelos base ampliamente utilizados para crear la serie EpiCoder, logrando un rendimiento de vanguardia tanto a nivel de función como de archivo en múltiples pruebas. Es importante destacar que la evidencia empírica indica que nuestro enfoque muestra un potencial significativo en la síntesis de datos de código de repositorio altamente complejos. Un análisis adicional aclara los méritos de este enfoque al evaluar rigurosamente la complejidad y diversidad de los datos a través de principios de ingeniería de software y el método LLM-como-juez.
El rápido ascenso de los grandes modelos de lenguaje (LLMs) ha desbloqueado muchas aplicaciones, pero también subraya el desafío de alinearlos con valores y preferencias diversas. La Optimización Directa de Preferencias (DPO) es fundamental para la alineación, pero está limitada por divergencias fijas y transformaciones de características limitadas. Proponemos DPO-Kernels, que integra métodos de kernel para abordar estos problemas a través de cuatro contribuciones clave: (i) Representaciones Kernelizadas con kernels polinomiales, RBF, Mahalanobis y espectrales para transformaciones más ricas, además de una pérdida híbrida que combina objetivos basados en incrustaciones y en probabilidades; (ii) Alternativas de Divergencia (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein y f-divergencias) para una mayor estabilidad; (iii) Métricas de Selección Dirigida por Datos que eligen automáticamente el mejor par kernel-divergencia; y (iv) una Mezcla Jerárquica de Kernels para una precisión local y modelado global. Las evaluaciones en 12 conjuntos de datos demuestran un rendimiento de vanguardia en factualidad, seguridad, razonamiento y seguimiento de instrucciones. Basado en la Autorregulación de Cola Pesada, DPO-Kernels mantiene una generalización robusta para LLMs, ofreciendo un recurso integral para futuras investigaciones de alineación.
La Generación con Recuperación Aumentada (RAG) se ha vuelto ubicua al implementar Modelos de Lenguaje Grandes (LLMs), ya que puede abordar limitaciones típicas como la generación de información alucinada o desactualizada. Sin embargo, al construir aplicaciones RAG del mundo real, surgen problemas prácticos. En primer lugar, la información recuperada suele ser específica del dominio. Dado que es costoso en cuanto a cómputo ajustar finamente los LLMs, es más factible ajustar finamente el recuperador para mejorar la calidad de los datos incluidos en la entrada del LLM. En segundo lugar, a medida que se implementan más aplicaciones en el mismo sistema del mundo real, no se puede permitir desplegar recuperadores separados. Además, estas aplicaciones RAG normalmente recuperan diferentes tipos de datos. Nuestra solución es ajustar finamente un pequeño codificador recuperador en una variedad de tareas específicas del dominio para permitirnos desplegar un codificador que pueda servir a muchos casos de uso, logrando así bajo costo, escalabilidad y velocidad. Mostramos cómo este codificador se generaliza a entornos fuera del dominio, así como a una tarea de recuperación no vista en casos de uso empresariales del mundo real.