Artículos de investigación en IA seleccionados diariamente con traducciones
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) se utiliza comúnmente para entrenar modelos de lenguaje a imitar respuestas anotadas para instrucciones dadas. En este documento, desafiamos este paradigma y proponemos el Ajuste Fino de Críticas (CFT, por sus siglas en inglés), una estrategia donde los modelos aprenden a criticar respuestas ruidosas en lugar de simplemente imitar las correctas. Inspirado en procesos de aprendizaje humanos que enfatizan el pensamiento crítico, CFT fomenta un análisis más profundo y una comprensión matizada, rasgos a menudo pasados por alto por el SFT estándar. Para validar la efectividad de CFT, construimos un conjunto de datos de 50K muestras de WebInstruct, utilizando GPT-4o como maestro para generar críticas en forma de (entrada=[consulta; respuesta ruidosa], salida=crítica). CFT en este conjunto de datos produce una mejora constante del 4-10% sobre SFT en seis pruebas de matemáticas con diferentes modelos base como Qwen2.5, Qwen2.5-Math y DeepSeek-Math. Ampliamos además a conjuntos de datos MetaMath y NuminaMath y observamos ganancias similares sobre SFT. Notablemente, nuestro modelo Qwen2.5-Math-CFT, entrenado con solo 50K muestras, coincide o supera a modelos competitivos como AceMath y Qwen2.5-Math-Instruct en la mayoría de las pruebas, ambos utilizando más de 2M muestras. Estudios de ablación muestran que CFT es robusto a la fuente de la respuesta ruidosa y al modelo de crítica del maestro. A través de estos hallazgos, argumentamos que el entrenamiento basado en críticas ofrece una alternativa más efectiva para avanzar en el razonamiento de los modelos de lenguaje.
Presentamos Atla Selene Mini, un modelo de lenguaje pequeño de última generación como juez (SLMJ). Selene Mini es un evaluador de propósito general que supera a los mejores SLMJs y a GPT-4o-mini en rendimiento general en 11 bancos de pruebas fuera de distribución, que abarcan puntuación absoluta, clasificación y tareas de preferencia pairwise. Es el modelo generativo de 8B con la puntuación más alta en RewardBench, superando a referencias sólidas como GPT-4o y jueces especializados. Para lograr esto, desarrollamos una estrategia de curación de datos basada en principios que aumenta conjuntos de datos públicos con críticas generadas sintéticamente y garantiza alta calidad mediante filtrado y abstracciones de conjunto de datos. Entrenamos nuestro modelo con una combinación de optimización de preferencia directa (DPO) y ajuste fino supervisado (SFT), y producimos un evaluador altamente adaptable que sobresale en escenarios del mundo real. Selene Mini muestra un acuerdo de cero disparos dramáticamente mejorado con evaluaciones de expertos humanos en conjuntos de datos de la industria financiera y médica. También es robusto ante variaciones en el formato de la solicitud. Los resultados preliminares indican que Selene Mini es el evaluador de mayor rango en un Arena de Jueces en vivo impulsado por la comunidad. Publicamos los pesos del modelo en HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) y Ollama para fomentar su adopción generalizada por la comunidad.
El rápido crecimiento de la inteligencia artificial (IA), en particular los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), ha suscitado preocupaciones sobre su impacto ambiental global que va más allá de las emisiones de gases de efecto invernadero e incluye la consideración de la fabricación de hardware y los procesos de fin de vida. La falta de transparencia por parte de los principales proveedores dificulta la capacidad de las empresas para evaluar los impactos ambientales relacionados con la IA y alcanzar objetivos de emisión neta cero. En este artículo, proponemos una metodología para estimar el impacto ambiental del portafolio de IA de una empresa, brindando información práctica sin necesidad de poseer una amplia experiencia en IA y Evaluación del Ciclo de Vida (LCA, por sus siglas en inglés). Los resultados confirman que los grandes modelos generativos de IA consumen hasta 4600 veces más energía que los modelos tradicionales. Nuestro enfoque de modelado, que considera el aumento en el uso de IA, la eficiencia computacional del hardware y los cambios en la mezcla eléctrica de acuerdo con los escenarios del IPCC, pronostica el uso de electricidad de la IA hasta 2030. Bajo un escenario de alta adopción, impulsado por una amplia adopción de IA Generativa y agentes asociados a modelos y marcos cada vez más complejos, se proyecta que el uso de electricidad de la IA aumentará en un factor de 24.4. Para mitigar el impacto ambiental de la IA Generativa para 2030 se requiere de esfuerzos coordinados en toda la cadena de valor de la IA. Las medidas aisladas en eficiencia de hardware, eficiencia de modelos o mejoras en la red eléctrica por sí solas son insuficientes. Abogamos por marcos de evaluación ambiental estandarizados, una mayor transparencia por parte de todos los actores de la cadena de valor y la introducción de una métrica de "Retorno al Medio Ambiente" para alinear el desarrollo de la IA con los objetivos de emisión neta cero.
El virtual try-on basado en imágenes (VTON) tiene como objetivo generar un resultado de prueba virtual transfiriendo una prenda de vestir de entrada a la imagen de una persona objetivo. Sin embargo, la escasez de datos emparejados de prendas y modelos dificulta que los métodos existentes logren una alta generalización y calidad en VTON. Además, limita la capacidad de generar pruebas sin máscara. Para abordar el problema de escasez de datos, enfoques como Stable Garment y MMTryon utilizan una estrategia de datos sintéticos, aumentando efectivamente la cantidad de datos emparejados en el lado del modelo. Sin embargo, los métodos existentes suelen estar limitados a realizar tareas específicas de prueba y carecen de facilidad de uso. Para mejorar la generalización y controlabilidad de la generación de VTON, proponemos Any2AnyTryon, que puede generar resultados de prueba basados en diferentes instrucciones textuales e imágenes de prendas modelo para satisfacer diversas necesidades, eliminando la dependencia de máscaras, poses u otras condiciones. Específicamente, primero construimos el conjunto de datos de prueba virtual LAION-Garment, el conjunto de datos de prueba de prendas de vestir de código abierto más grande conocido. Luego, introducimos la incrustación de posición adaptativa, que permite que el modelo genere imágenes de modelos equipados o imágenes de prendas satisfactorias basadas en imágenes de entrada de diferentes tamaños y categorías, mejorando significativamente la generalización y controlabilidad de la generación de VTON. En nuestros experimentos, demostramos la efectividad de nuestro Any2AnyTryon y lo comparamos con los métodos existentes. Los resultados muestran que Any2AnyTryon permite una generación flexible, controlable y de alta calidad de pruebas virtuales basadas en imágenes.
En este documento, estudiamos cuán bien pueden los humanos detectar texto generado por LLMs comerciales (GPT-4o, Claude, o1). Contratamos anotadores para leer 300 artículos en inglés de no ficción, etiquetarlos como escritos por humanos o generados por IA, y proporcionar explicaciones de longitud de párrafo para sus decisiones. Nuestros experimentos muestran que los anotadores que utilizan frecuentemente LLMs para tareas de escritura destacan en la detección de texto generado por IA, incluso sin ningún entrenamiento especializado o retroalimentación. De hecho, la votación mayoritaria entre cinco de estos anotadores "expertos" clasifica erróneamente solo 1 de 300 artículos, superando significativamente a la mayoría de los detectores comerciales y de código abierto que evaluamos, incluso en presencia de tácticas de evasión como parafraseo y humanización. El análisis cualitativo de las explicaciones en forma libre de los expertos muestra que, si bien dependen en gran medida de pistas léxicas específicas ('vocabulario de IA'), también identifican fenómenos más complejos dentro del texto (por ejemplo, formalidad, originalidad, claridad) que son desafiantes de evaluar para los detectores automáticos. Publicamos nuestro conjunto de datos anotado y código para fomentar futuras investigaciones tanto en la detección humana como automatizada de texto generado por IA.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) se han convertido en una parte integral de nuestra vida diaria. Sin embargo, imponen ciertos riesgos, incluidos aquellos que pueden dañar la privacidad de las personas, perpetuar sesgos y difundir desinformación. Estos riesgos resaltan la necesidad de mecanismos de seguridad robustos, pautas éticas y pruebas exhaustivas para garantizar su implementación responsable. La seguridad de los LLMs es una propiedad clave que debe ser probada a fondo antes de que el modelo sea implementado y accesible para los usuarios en general. Este documento informa sobre la experiencia de pruebas de seguridad externas realizadas por investigadores de la Universidad de Mondragón y la Universidad de Sevilla en el nuevo LLM o3-mini de OpenAI como parte del programa de acceso anticipado para pruebas de seguridad de OpenAI. En particular, aplicamos nuestra herramienta, ASTRAL, para generar automáticamente y de manera sistemática entradas de prueba inseguras actualizadas (es decir, indicaciones) que nos ayudan a probar y evaluar diferentes categorías de seguridad de los LLMs. Generamos y ejecutamos automáticamente un total de 10,080 entradas de prueba inseguras en una versión beta temprana del o3-mini. Después de verificar manualmente los casos de prueba clasificados como inseguros por ASTRAL, identificamos un total de 87 instancias reales de comportamiento inseguro de LLM. Destacamos ideas clave y hallazgos descubiertos durante la fase de pruebas externas previas a la implementación del último LLM de OpenAI.
Investigaciones recientes muestran que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) son vulnerables a ataques perjudiciales de ajuste fino: los modelos pierden su capacidad de alineación de seguridad después de ajustarse finamente con algunas muestras perjudiciales. Para la mitigación del riesgo, se utiliza típicamente una barandilla de protección para filtrar las muestras perjudiciales antes del ajuste fino. Al diseñar un nuevo método de simulación de adversarios, en este documento mostramos que depender exclusivamente de la barandilla de moderación para la filtración de datos no es fiable. Nuestro método de ataque propuesto, denominado Virus, elude fácilmente la moderación de la barandilla al modificar ligeramente los datos perjudiciales. Los resultados experimentales muestran que los datos perjudiciales optimizados por Virus no son detectables por la barandilla con una tasa de fuga de hasta el 100\%, y pueden lograr simultáneamente un rendimiento de ataque superior. Finalmente, el mensaje clave que queremos transmitir a través de este documento es que es imprudente considerar la moderación de la barandilla como una solución a los ataques perjudiciales de ajuste fino, ya que no puede resolver el problema de seguridad inherente de los LLMs pre-entrenados. Nuestro código está disponible en https://github.com/git-disl/Virus