Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los LLMs impactan cada vez más en aplicaciones críticas para la seguridad, garantizar su seguridad mediante el uso de barandillas sigue siendo un desafío clave. En este documento se propone GuardReasoner, una nueva salvaguarda para LLMs, guiando al modelo de protección para que aprenda a razonar. Concretamente, primero creamos el conjunto de datos GuardReasonerTrain, que consta de 127K muestras con 460K pasos detallados de razonamiento. Luego, introducimos SFT de razonamiento para desbloquear la capacidad de razonamiento de los modelos de protección. Además, presentamos DPO de muestras difíciles para fortalecer aún más su capacidad de razonamiento. De esta manera, GuardReasoner logra un mejor rendimiento, explicabilidad y generalización. Experimentos extensos y análisis en 13 benchmarks de 3 tareas de barandillas demuestran su superioridad. Notablemente, GuardReasoner 8B supera a GPT-4o+CoT en un 5.74% y a LLaMA Guard 3 8B en un 20.84% en puntuación F1 en promedio. Publicamos los datos de entrenamiento, el código y los modelos con diferentes escalas (1B, 3B, 8B) de GuardReasoner en: https://github.com/yueliu1999/GuardReasoner/.
Los modelos de lenguaje grandes (LLMs) como el o1 de OpenAI han demostrado habilidades notables en tareas de razonamiento complejo al escalar el cálculo en tiempo de prueba y mostrar un pensamiento profundo similar al humano. Sin embargo, identificamos un fenómeno al que denominamos subpensamiento, donde los LLMs similares al o1 cambian frecuentemente entre diferentes pensamientos de razonamiento sin explorar suficientemente caminos prometedores para llegar a una solución correcta. Este comportamiento conduce a una profundidad de razonamiento inadecuada y un rendimiento disminuido, especialmente en problemas matemáticos desafiantes. Para analizar sistemáticamente este problema, realizamos experimentos en tres conjuntos de pruebas desafiantes y dos modelos de código abierto representativos similares al o1, revelando que el cambio frecuente de pensamientos se correlaciona con respuestas incorrectas. Introducimos una métrica novedosa para cuantificar el subpensamiento mediante la medición de la eficiencia de tokens en respuestas incorrectas. Para abordar el subpensamiento, proponemos una estrategia de decodificación con una penalización por cambio de pensamiento (TIP) que desalienta las transiciones prematuras entre pensamientos, fomentando una exploración más profunda de cada camino de razonamiento. Los resultados experimentales demuestran que nuestro enfoque mejora la precisión en conjuntos de datos desafiantes sin necesidad de ajuste fino del modelo. Nuestros hallazgos contribuyen a comprender las ineficiencias de razonamiento en LLMs similares al o1 y ofrecen una solución práctica para mejorar sus capacidades de resolución de problemas.
El entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) suele distribuirse en un gran número de aceleradores para reducir el tiempo de entrenamiento. Dado que los estados internos y los gradientes de parámetros deben intercambiarse en cada paso de gradiente, todos los dispositivos deben estar ubicados en el mismo lugar utilizando enlaces de comunicación de baja latencia y alta capacidad de ancho de banda para soportar el alto volumen de bits intercambiados requerido. Recientemente, algoritmos distribuidos como DiLoCo han relajado esta restricción de ubicación: los aceleradores pueden agruparse en "trabajadores", donde las sincronizaciones entre trabajadores solo ocurren ocasionalmente. Esto significa a su vez que los trabajadores pueden estar conectados por enlaces de comunicación de menor ancho de banda sin afectar la calidad del aprendizaje. Sin embargo, en estos métodos, la comunicación entre trabajadores aún requiere el mismo ancho de banda máximo que antes, ya que las sincronizaciones requieren que todos los parámetros se intercambien entre todos los trabajadores. En este documento, mejoramos DiLoCo de tres maneras. Primero, sincronizamos solo subconjuntos de parámetros en secuencia, en lugar de todos a la vez, lo que reduce significativamente el ancho de banda máximo. Segundo, permitimos que los trabajadores continúen entrenando mientras se sincronizan, lo que disminuye el tiempo de reloj de pared. Tercero, cuantificamos los datos intercambiados por los trabajadores, lo que reduce aún más el ancho de banda entre los trabajadores. Al combinar adecuadamente estas modificaciones, demostramos experimentalmente que podemos distribuir el entrenamiento de parámetros a escala de miles de millones y alcanzar una calidad similar a la anterior, pero reduciendo el ancho de banda requerido en dos órdenes de magnitud.
La irrupción de DeepSeek-R1 constituye un punto de inflexión para la industria de la IA en general y para los LLMs en particular. Sus capacidades han demostrado un rendimiento excepcional en varias tareas, incluyendo el pensamiento creativo, generación de código, matemáticas y reparación automática de programas, aparentemente a un menor costo de ejecución. Sin embargo, los LLMs deben cumplir con una importante propiedad cualitativa, es decir, su alineación con la seguridad y los valores humanos. Un claro competidor de DeepSeek-R1 es su contraparte estadounidense, el modelo o3-mini de OpenAI, se espera que establezca altos estándares en términos de rendimiento, seguridad y costo. En este documento realizamos una evaluación sistemática del nivel de seguridad de ambos, DeepSeek-R1 (versión 70b) y o3-mini de OpenAI (versión beta). Para ello, hacemos uso de nuestra herramienta de prueba de seguridad automatizada recientemente lanzada, llamada ASTRAL. Al aprovechar esta herramienta, generamos y ejecutamos automáticamente y sistemáticamente un total de 1260 entradas de prueba inseguras en ambos modelos. Después de realizar una evaluación semi-automatizada de los resultados proporcionados por ambos LLMs, los resultados indican que DeepSeek-R1 es altamente inseguro en comparación con o3-mini de OpenAI. Según nuestra evaluación, DeepSeek-R1 respondió de manera insegura al 11.98% de las solicitudes ejecutadas, mientras que o3-mini solo al 1.19%.
Los Modelos de Lenguaje de Gran Tamaño han desarrollado muchas capacidades intelectuales. Aunque numerosas evaluaciones miden su inteligencia, se ha prestado poca atención a su capacidad de exploración, una capacidad esencial para descubrir nueva información y adaptarse a entornos novedosos tanto en sistemas naturales como artificiales. Permanece incierto en qué medida los MLL pueden explorar de manera efectiva, especialmente en tareas de naturaleza abierta. Este estudio investiga si los MLL pueden superar a los humanos en exploración durante una tarea de naturaleza abierta, utilizando Little Alchemy 2 como paradigma, donde los agentes combinan elementos para descubrir nuevos. Los resultados muestran que la mayoría de los MLL tienen un rendimiento inferior al de los humanos, excepto el modelo o1, siendo que esos MLL tradicionales se basan principalmente en estrategias impulsadas por la incertidumbre, a diferencia de los humanos que equilibran la incertidumbre y el empoderamiento. El análisis representacional de los modelos con Autoencoders Dispersos reveló que la incertidumbre y las elecciones se representan en bloques transformadores anteriores, mientras que los valores de empoderamiento se procesan más tarde, lo que hace que los MLL piensen demasiado rápido y tomen decisiones prematuras, obstaculizando una exploración efectiva. Estos hallazgos arrojan luz sobre las limitaciones de la exploración de los MLL y sugieren direcciones para mejorar su adaptabilidad.
Presentamos MedXpertQA, un desafío altamente exigente y completo para evaluar el conocimiento médico de nivel experto y el razonamiento avanzado. MedXpertQA consta de 4,460 preguntas que abarcan 17 especialidades y 11 sistemas corporales. Incluye dos subconjuntos, Texto para evaluación de texto y MM para evaluación multimodal. Destacablemente, MM introduce preguntas de exámenes de nivel experto con diversas imágenes e información clínica detallada, que incluye historias clínicas y resultados de exámenes de pacientes, diferenciándose de los benchmarks médicos multimodales tradicionales con simples pares de preguntas y respuestas generadas a partir de subtítulos de imágenes. MedXpertQA aplica un filtrado riguroso y aumentos para abordar la insuficiente dificultad de benchmarks existentes como MedQA, e incorpora preguntas de exámenes especializados para mejorar la relevancia clínica y la exhaustividad. Realizamos síntesis de datos para mitigar el riesgo de fuga de datos y llevamos a cabo múltiples rondas de revisiones de expertos para garantizar precisión y confiabilidad. Evaluamos 16 modelos líderes en MedXpertQA. Además, la medicina está profundamente conectada con la toma de decisiones del mundo real, proporcionando un entorno rico y representativo para evaluar habilidades de razonamiento más allá de las matemáticas y el código. Con este fin, desarrollamos un subconjunto orientado al razonamiento para facilitar la evaluación de modelos similares a o1.
El post-entrenamiento del modelo de lenguaje (LLM), desde DPO hasta la destilación, puede refinar comportamientos y desbloquear nuevas habilidades, pero la ciencia abierta que respalda estas técnicas de post-entrenamiento aún está en sus inicios. Un factor limitante ha sido la dificultad de llevar a cabo análisis comparativos a gran escala de modelos generadores de datos sintéticos y jueces LLM. Para cerrar esta brecha, presentamos WILDCHAT-50M, el conjunto de datos de chat público más grande hasta la fecha. Ampliamos el conjunto de datos existente de WildChat para incluir respuestas no solo de GPT, sino de más de 50 modelos abiertos de peso, que van desde 0.5B hasta 104B parámetros. Realizamos un extenso análisis comparativo y demostramos el potencial de este conjunto de datos creando RE-WILD, nuestra propia mezcla pública SFT, que supera al reciente Tulu-3 SFT de Allen AI con solo el 40% de muestras. Nuestro conjunto de datos, muestras y código están disponibles en https://github.com/penfever/wildchat-50m.
Este documento presenta SANA-1.5, un Transformador de Difusión lineal para una escalabilidad eficiente en la generación de texto a imagen. Basándose en SANA-1.0, introducimos tres innovaciones clave: (1) Escalado Eficiente del Entrenamiento: Un paradigma de crecimiento en profundidad que permite la escalabilidad de 1.6B a 4.8B parámetros con recursos computacionales significativamente reducidos, combinado con un optimizador eficiente de 8 bits. (2) Poda de Profundidad del Modelo: Una técnica de análisis de importancia de bloques para una compresión eficiente del modelo a tamaños arbitrarios con una pérdida mínima de calidad. (3) Escalado en Tiempo de Inferencia: Una estrategia de muestreo repetido que intercambia cálculos por capacidad del modelo, permitiendo que modelos más pequeños igualen la calidad de modelos más grandes en el momento de la inferencia. A través de estas estrategias, SANA-1.5 logra una puntuación de alineación de texto-imagen de 0.72 en GenEval, que puede mejorarse aún más a 0.80 mediante el escalado en inferencia, estableciendo un nuevo Estado del Arte en el banco de pruebas de GenEval. Estas innovaciones permiten un escalado eficiente del modelo en diferentes presupuestos computacionales manteniendo una alta calidad, haciendo que la generación de imágenes de alta calidad sea más accesible.
Comprender el mundo físico es un desafío fundamental en la IA incorporada, crucial para permitir que los agentes realicen tareas complejas y operen de manera segura en entornos del mundo real. Si bien los Modelos de Visión-Lenguaje (VLMs) han mostrado un gran potencial en razonamiento y planificación de tareas para agentes incorporados, su capacidad para comprender fenómenos físicos sigue siendo extremadamente limitada. Para cerrar esta brecha, presentamos PhysBench, un banco de pruebas integral diseñado para evaluar la capacidad de comprensión del mundo físico de los VLMs a través de un conjunto diverso de tareas. PhysBench contiene 10,002 entradas de datos de video-imagen-texto entrelazados, categorizados en cuatro dominios principales: propiedades de objetos físicos, relaciones entre objetos físicos, comprensión de escenas físicas y dinámicas basadas en la física, divididas además en 19 subclases y 8 dimensiones de capacidad distintas. Nuestros experimentos extensos, realizados en 75 VLMs representativos, revelan que si bien estos modelos sobresalen en el razonamiento de sentido común, tienen dificultades para comprender el mundo físico, probablemente debido a la ausencia de conocimiento físico en sus datos de entrenamiento y a la falta de precursores físicos integrados. Para abordar esta deficiencia, presentamos PhysAgent, un marco novedoso que combina las fortalezas de generalización de los VLMs con la experiencia especializada de los modelos de visión, mejorando significativamente la comprensión física de los VLMs en una variedad de tareas, incluida una mejora del 18.4\% en GPT-4o. Además, nuestros resultados demuestran que mejorar las capacidades de comprensión del mundo físico de los VLMs puede ayudar a agentes incorporados como MOKA. Creemos que PhysBench y PhysAgent ofrecen ideas valiosas y contribuyen a cerrar la brecha entre los VLMs y la comprensión del mundo físico.
Si bien gran parte del trabajo sobre agentes web enfatiza la promesa de realizar tareas de forma autónoma en nombre de los usuarios, en realidad, los agentes a menudo no logran realizar tareas complejas en contextos del mundo real y modelar las preferencias de los usuarios. Esto presenta una oportunidad para que los humanos colaboren con el agente y aprovechen de manera efectiva las capacidades del agente. Proponemos CowPilot, un marco que respalda la navegación web autónoma, así como la colaboración entre humanos y agentes, y la evaluación en términos de éxito y eficiencia de las tareas. CowPilot reduce la cantidad de pasos que los humanos necesitan realizar al permitir que los agentes propongan los siguientes pasos, mientras que los usuarios pueden pausar, rechazar o tomar acciones alternativas. Durante la ejecución, los usuarios pueden intercalar sus acciones con las del agente al anular sugerencias o retomar el control del agente cuando sea necesario. Realizamos estudios de caso en cinco sitios web comunes y encontramos que el modo colaborativo entre humanos y agentes logra la tasa de éxito más alta, del 95%, mientras requiere que los humanos realicen solo el 15.2% de los pasos totales. Incluso con intervenciones humanas durante la ejecución de la tarea, el agente logra impulsar con éxito hasta la mitad del éxito de la tarea por sí solo. CowPilot puede servir como una herramienta útil para la recopilación de datos y la evaluación de agentes en sitios web, lo que creemos que permitirá investigar cómo los usuarios y los agentes pueden colaborar. Las demostraciones en video están disponibles en https://oaishi.github.io/cowpilot.html