Artículos de investigación en IA seleccionados diariamente con traducciones
El Desaprendizaje de Máquinas (MU, por sus siglas en inglés) es fundamental para mejorar la privacidad y la seguridad en los modelos de aprendizaje profundo, especialmente en los grandes modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés), al eliminar información específica privada o peligrosa. Aunque el MU ha avanzado significativamente en las modalidades textual y visual, el desaprendizaje multimodal (MMU, por sus siglas en inglés) sigue siendo ampliamente inexplorado, en parte debido a la falta de un banco de pruebas de código abierto adecuado. Para abordar esto, presentamos CLEAR, un nuevo banco de pruebas diseñado para evaluar métodos de MMU. CLEAR contiene 200 individuos ficticios y 3,700 imágenes vinculadas con pares de preguntas y respuestas correspondientes, lo que permite una evaluación exhaustiva entre modalidades. Evaluamos 10 métodos de MU, adaptándolos para MMU, y destacamos nuevos desafíos específicos del olvido multimodal. También demostramos que la simple regularización ell_1 en los pesos de LoRA mitiga significativamente el olvido catastrófico, preservando el rendimiento del modelo en los datos retenidos. El conjunto de datos está disponible en https://huggingface.co/datasets/therem/CLEAR
Las tareas de ciencia de datos que implican datos tabulares presentan desafíos complejos que requieren enfoques sofisticados para la resolución de problemas. Proponemos AutoKaggle, un marco potente y centrado en el usuario que asiste a los científicos de datos en completar las canalizaciones de datos diarias a través de un sistema colaborativo de múltiples agentes. AutoKaggle implementa un proceso de desarrollo iterativo que combina la ejecución de código, la depuración y pruebas unitarias exhaustivas para garantizar la corrección del código y la consistencia lógica. El marco ofrece flujos de trabajo altamente personalizables, permitiendo a los usuarios intervenir en cada fase, integrando así la inteligencia automatizada con la experiencia humana. Nuestra caja de herramientas universal de ciencia de datos, que comprende funciones validadas para la limpieza de datos, la ingeniería de características y modelado, constituye la base de esta solución, mejorando la productividad al optimizar tareas comunes. Seleccionamos 8 competiciones de Kaggle para simular flujos de procesamiento de datos en escenarios de aplicación del mundo real. Los resultados de evaluación demuestran que AutoKaggle logra una tasa de presentación de validación del 0.85 y una puntuación integral del 0.82 en canalizaciones típicas de ciencia de datos, demostrando plenamente su eficacia y practicidad en el manejo de tareas complejas de ciencia de datos.
El razonamiento sobre relaciones sociales tiene como objetivo identificar categorías de relaciones como amigos, cónyuges y colegas a partir de imágenes. Si bien los métodos actuales adoptan el paradigma de entrenar una red dedicada de extremo a extremo utilizando datos de imágenes etiquetados, están limitados en cuanto a generalización e interpretabilidad. Para abordar estos problemas, primero presentamos un marco simple pero bien elaborado llamado {\name}, que combina la capacidad de percepción de los Modelos de Fundación de Visión (VFMs) y la capacidad de razonamiento de los Modelos de Lenguaje Grandes (LLMs) dentro de un marco modular, proporcionando una base sólida para el reconocimiento de relaciones sociales. Específicamente, instruimos a los VFMs para traducir el contenido de la imagen en una historia social textual, y luego utilizamos los LLMs para el razonamiento basado en texto. {\name} introduce principios de diseño sistemáticos para adaptar los VFMs y LLMs por separado y cerrar sus brechas. Sin entrenamiento adicional del modelo, logra resultados competitivos de cero disparos en dos bases de datos al ofrecer respuestas interpretables, ya que los LLMs pueden generar explicaciones basadas en el lenguaje para las decisiones. El proceso de diseño manual de indicaciones para los LLMs en la fase de razonamiento es tedioso y se desea un método automatizado de optimización de indicaciones. Dado que esencialmente convertimos una tarea de clasificación visual en una tarea generativa de LLMs, la optimización automática de indicaciones se enfrenta a un problema único de optimización de indicaciones largas. Para abordar este problema, proponemos además la Optimización de Indicaciones de Segmento Codicioso (GSPO), que realiza una búsqueda codiciosa utilizando información de gradientes a nivel de segmento. Los resultados experimentales muestran que GSPO mejora significativamente el rendimiento, y nuestro método también se generaliza a diferentes estilos de imágenes. El código está disponible en https://github.com/Mengzibin/SocialGPT.
El razonamiento matemático es una capacidad crucial para los Modelos de Lenguaje de Gran Tamaño (LLMs), sin embargo, generar trazas de razonamiento detalladas y precisas sigue siendo un desafío significativo. Este artículo introduce un enfoque novedoso para producir trazas de razonamiento de alta calidad para el ajuste fino de LLM utilizando Flujos de aprendizaje en línea. Nuestro método emplea un Flujo de producción de salida incremental, donde los LLMs componentes construyen soluciones de forma colaborativa a través de comunicación iterativa. Entrenamos el Flujo utilizando aprendizaje en línea de Optimización de Preferencia Directa (DPO) con despliegues, generando pares DPO para cada ejemplo de entrenamiento y actualizando modelos en tiempo real. Comparamos directamente la calidad de las trazas de razonamiento generadas por nuestro método con aquellas producidas a través de inferencia directa de modelos, demostrando la efectividad de nuestro enfoque en mejorar el rendimiento de LLM en tareas de razonamiento matemático.
El rápido desarrollo de modelos de lenguaje grandes y multimodales ha generado un gran interés en el uso de modelos propietarios, como GPT-4o, para desarrollar agentes autónomos capaces de manejar escenarios del mundo real como la navegación web. Aunque recientes esfuerzos de código abierto han intentado equipar a los agentes con la capacidad de explorar entornos y mejorar continuamente con el tiempo, están construyendo agentes solo de texto en entornos sintéticos donde las señales de recompensa están claramente definidas. Dichos agentes tienen dificultades para generalizar a entornos realistas que requieren habilidades de percepción multimodal y carecen de señales de verdad absoluta. En este documento, presentamos un marco de código abierto diseñado para facilitar el desarrollo de un agente web multimodal que pueda llevar a cabo exploraciones del mundo real de forma autónoma y mejorar por sí mismo. Primero entrenamos el modelo base con aprendizaje por imitación para adquirir las habilidades básicas. Luego permitimos que el agente explore la web abierta y recolecte retroalimentación sobre sus trayectorias. Después, mejora aún más su política aprendiendo de trayectorias con buen rendimiento evaluadas por otro modelo de propósito general. Este ciclo de exploración-retroalimentación-optimización puede continuar durante varias iteraciones. Los resultados experimentales muestran que nuestro agente web mejora exitosamente después de cada iteración, demostrando un rendimiento sólido en múltiples conjuntos de pruebas.
Los modelos de lenguaje grandes (LLMs) han demostrado una notable capacidad en la generación de código con más del 90% de aciertos en la resolución de problemas de codificación en Python en HumanEval y MBPP. Esta alta precisión plantea la pregunta: ¿pueden los LLMs reemplazar a los programadores humanos? Los benchmarks existentes de generación de código manual, simple o de una sola línea no pueden responder a esta pregunta debido a su brecha con el desarrollo de software del mundo real. Para responder a esta pregunta, proponemos REPOCOD, un benchmark de generación de código con 980 problemas recopilados de 11 proyectos del mundo real populares, con más del 58% de ellos que requieren información de contexto a nivel de archivo o repositorio. Además, REPOCOD tiene la longitud promedio de solución canónica más larga (331.6 tokens) y la complejidad ciclomática promedio más alta (9.00) en comparación con los benchmarks existentes. En nuestras evaluaciones con diez LLMs, ninguno de los modelos logra más del 30% de aciertos en REPOCOD, lo que revela la necesidad de construir LLMs más sólidos que puedan ayudar a los desarrolladores en el desarrollo de software del mundo real.
El aprendizaje por refuerzo (RL) promete habilitar la adquisición autónoma de habilidades complejas de manipulación robótica, pero materializar este potencial en entornos del mundo real ha sido desafiante. Presentamos un sistema de RL basado en visión humano-en-el-bucle que muestra un rendimiento impresionante en una amplia gama de tareas de manipulación hábil, incluyendo manipulación dinámica, ensamblaje de precisión y coordinación de brazos duales. Nuestro enfoque integra demostraciones y correcciones humanas, algoritmos eficientes de RL y otras decisiones de diseño a nivel de sistema para aprender políticas que logran tasas de éxito casi perfectas y tiempos de ciclo rápidos en solo 1 a 2.5 horas de entrenamiento. Mostramos que nuestro método supera significativamente a los baselines de aprendizaje por imitación y enfoques de RL anteriores, con una mejora promedio del 2x en la tasa de éxito y una ejecución 1.8x más rápida. A través de experimentos extensos y análisis, proporcionamos ideas sobre la efectividad de nuestro enfoque, demostrando cómo aprende políticas robustas y adaptables tanto para estrategias de control reactivas como predictivas. Nuestros resultados sugieren que el RL puede realmente aprender una amplia gama de políticas de manipulación basadas en visión directamente en el mundo real en tiempos de entrenamiento prácticos. Esperamos que este trabajo inspire una nueva generación de técnicas de manipulación robótica aprendidas, beneficiando tanto a aplicaciones industriales como a avances en la investigación. Los videos y el código están disponibles en nuestro sitio web del proyecto https://hil-serl.github.io/.
La técnica de inducción de cadenas de pensamiento (CoT, por sus siglas en inglés) se ha convertido en una estrategia ampliamente utilizada para trabajar con modelos de lenguaje y multimodales de gran tamaño. Si bien se ha demostrado que CoT mejora el rendimiento en muchas tareas, determinar los contextos en los que es efectivo sigue siendo un esfuerzo continuo. En particular, todavía es una pregunta abierta en qué contextos CoT reduce sistemáticamente el rendimiento del modelo. En este artículo, buscamos identificar las características de las tareas donde CoT disminuye el rendimiento, tomando inspiración de la psicología cognitiva, examinando casos en los que (i) el pensamiento verbal o la deliberación perjudican el rendimiento en humanos, y (ii) las restricciones que rigen el rendimiento humano se generalizan a los modelos de lenguaje. Tres casos de este tipo son el aprendizaje estadístico implícito, el reconocimiento visual y la clasificación con patrones que contienen excepciones. En experimentos extensos en los tres contextos, encontramos que una colección diversa de modelos de última generación exhiben caídas significativas en el rendimiento (por ejemplo, hasta un 36.3% de precisión absoluta para OpenAI o1-preview en comparación con GPT-4o) al utilizar el razonamiento en tiempo de inferencia en comparación con sus contrapartes de cero disparo. También identificamos tres tareas que cumplen con la condición (i) pero no con la (ii), y descubrimos que mientras el pensamiento verbal reduce el rendimiento humano en estas tareas, CoT mantiene o aumenta el rendimiento del modelo. En general, nuestros resultados muestran que si bien no hay un paralelo exacto entre los procesos cognitivos de los modelos y los de los humanos, considerar casos donde el pensamiento tiene consecuencias negativas para el rendimiento humano puede ayudarnos a identificar contextos donde impacta negativamente en los modelos. Al conectar la literatura sobre la deliberación humana con las evaluaciones de CoT, ofrecemos una nueva herramienta que puede utilizarse para comprender el impacto de las elecciones de indicaciones y el razonamiento en tiempo de inferencia.
Investigamos las representaciones internas de los modelos de visión y lenguaje (VLMs) y cómo codifican las representaciones de tareas. Consideramos tareas especificadas a través de ejemplos o instrucciones, utilizando entradas de texto o imagen. Sorprendentemente, descubrimos que tareas conceptualmente similares se asignan a representaciones vectoriales de tareas similares, independientemente de cómo estén especificadas. Nuestros hallazgos sugieren que para producir respuestas, los tokens en los VLMs atraviesan tres fases distintas: entrada, tarea y respuesta, un proceso que es consistente en diferentes modalidades y especificaciones. Los vectores de tarea que identificamos en los VLMs son lo suficientemente generales como para ser derivados en una modalidad (por ejemplo, texto) y transferidos a otra (por ejemplo, imagen). Además, descubrimos que combinar vectores de tarea basados en ejemplos e instrucciones produce mejores representaciones de tareas. En conjunto, estos conocimientos arrojan luz sobre los mecanismos subyacentes de los VLMs, particularmente su capacidad para representar tareas de manera compartida en diferentes modalidades y especificaciones de tareas. Página del proyecto: https://task-vectors-are-cross-modal.github.io.
Con la amplia implementación de modelos de lenguaje grandes de contexto largo (LLMs, por sus siglas en inglés), ha habido una creciente demanda de soporte eficiente para inferencia de alto rendimiento. Sin embargo, a medida que la caché clave-valor (KV) se expande con la longitud de la secuencia, el aumento en la huella de memoria y la necesidad de acceder a ella para cada generación de token resultan en una baja velocidad de procesamiento al atender LLMs de largo contexto. Aunque se han propuesto varios métodos de atención dinámica dispersa para acelerar la inferencia manteniendo la calidad de generación, estos métodos no logran reducir suficientemente el consumo de memoria de la GPU o introducen una latencia significativa en la decodificación al transferir la caché KV a la CPU. Presentamos ShadowKV, un sistema de inferencia de alto rendimiento para LLMs de largo contexto que almacena la caché de claves de rango bajo y transfiere la caché de valores para reducir la huella de memoria en tamaños de lote más grandes y secuencias más largas. Para minimizar la latencia de decodificación, ShadowKV emplea una estrategia precisa de selección de KV que reconstruye pares KV dispersos mínimos sobre la marcha. Al evaluar ShadowKV en una amplia gama de pruebas, incluidas RULER, LongBench y Needle In A Haystack, y modelos como Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K y Qwen2-7B-128K, demostramos que puede admitir hasta 6 veces mayores tamaños de lote y aumentar la velocidad de procesamiento hasta 3.04 veces en una GPU A100 sin sacrificar precisión, incluso superando el rendimiento alcanzable con un tamaño de lote infinito bajo la suposición de memoria de GPU infinita. El código está disponible en https://github.com/bytedance/ShadowKV.
El pre-entrenamiento de representaciones visuales ha mejorado la eficiencia del aprendizaje de robots. Debido a la falta de conjuntos de datos robóticos en dominios a gran escala, trabajos previos utilizan videos humanos en entornos naturales para pre-entrenar la representación visual robótica. A pesar de sus resultados prometedores, las representaciones de videos humanos están inevitablemente sujetas a cambios en la distribución y carecen de la información dinámica crucial para la finalización de tareas. Primero evaluamos varias representaciones pre-entrenadas en términos de su correlación con las tareas robóticas de manipulación subsecuentes (es decir, centralidad de la manipulación). De manera interesante, descubrimos que la "centralidad de la manipulación" es un fuerte indicador de las tasas de éxito cuando se aplica a tareas subsecuentes. Basándonos en estos hallazgos, proponemos la Representación Centrada en la Manipulación (MCR), un marco de aprendizaje de representación fundamental que captura tanto características visuales como la información dinámica, como acciones y propiocepciones de tareas de manipulación para mejorar la centralidad de la manipulación. Específicamente, pre-entrenamos un codificador visual en el conjunto de datos robóticos DROID y aprovechamos datos relevantes para el movimiento, como estados propioceptivos y acciones del robot. Introducimos una pérdida contrastiva novedosa que alinea observaciones visuales con la dinámica estado-acción propioceptiva del robot, combinada con una pérdida de actor similar a clonación de comportamiento (BC) para predecir acciones durante el pre-entrenamiento, junto con una pérdida contrastiva temporal. Los resultados empíricos en 4 dominios de simulación con 20 tareas verifican que MCR supera al método base más sólido en un 14.8%. Además, MCR mejora el rendimiento del aprendizaje eficiente de datos con un brazo UR5e en 3 tareas del mundo real en un 76.9%. Sitio web del proyecto: https://robots-pretrain-robots.github.io/.
La construcción de sistemas de recuperación densa efectivos sigue siendo difícil cuando no se dispone de supervisión de relevancia. Trabajos recientes han buscado superar este desafío utilizando un Modelo de Lenguaje Grande (LLM) para generar documentos hipotéticos que puedan usarse para encontrar el documento real más cercano. Sin embargo, este enfoque depende únicamente de que el LLM tenga conocimientos específicos del dominio relevantes para la consulta, lo cual puede no ser práctico. Además, la generación de documentos hipotéticos puede ser ineficiente, ya que requiere que el LLM genere un gran número de tokens para cada consulta. Para abordar estos desafíos, presentamos Incrustaciones de Documentos Reales a partir de Retroalimentación de Relevancia (ReDE-RF). Inspirado en la retroalimentación de relevancia, ReDE-RF propone reformular la generación de documentos hipotéticos como una tarea de estimación de relevancia, utilizando un LLM para seleccionar qué documentos deben usarse para la búsqueda del vecino más cercano. A través de esta reformulación, el LLM ya no necesita conocimientos específicos del dominio, sino que solo necesita juzgar qué es relevante. Además, la estimación de relevancia solo requiere que el LLM produzca un solo token, mejorando así la latencia de búsqueda. Nuestros experimentos muestran que ReDE-RF supera consistentemente a los métodos de recuperación densa de disparo cero de última generación en una amplia gama de conjuntos de datos de recuperación de recursos limitados, al tiempo que también logra mejoras significativas en la latencia por consulta.
Los algoritmos de optimización de preferencias emparejadas sin conexión se han convertido en un enfoque popular para el ajuste fino en datos de preferencias, superando al ajuste fino supervisado tradicional en diversas tareas. Sin embargo, las implementaciones tradicionales a menudo implican cálculos redundantes, especialmente para tareas con largas indicaciones compartidas. Introducimos el uso compartido de prefijos para el ajuste de preferencias, una técnica novedosa que procesa las respuestas elegidas y rechazadas como una secuencia con un prefijo compartido. Para evitar la contaminación entre respuestas, utilizamos una máscara de atención personalizada dispersa en bloques. Nuestro método logra una mejora de 1.1-1.5 veces en el rendimiento de entrenamiento en conjuntos de datos DPO populares, sin ningún efecto en la convergencia. Al combinarlo con el empaquetado de secuencias, observamos mejoras de velocidad consistentes de 1.3-1.6 veces, beneficiando incluso a conjuntos de datos con longitudes de secuencia más cortas. Si bien nos enfocamos en la Optimización Directa de Preferencias (DPO), nuestro enfoque es aplicable a otros métodos de ajuste de preferencias emparejadas. Al mejorar la eficiencia computacional, nuestro trabajo contribuye a hacer que el ajuste fino basado en preferencias sea más accesible para una amplia gama de aplicaciones y tamaños de modelos. Ponemos nuestro código en código abierto en https://github.com/frankxwang/dpo-prefix-sharing.
Investigamos si los ejemplos en contexto, ampliamente utilizados en modelos de lenguaje de solo decodificador (LLMs), pueden mejorar el rendimiento del modelo de incrustación en tareas de recuperación. A diferencia de los LLMs, agregar de forma ingenua ejemplos en contexto (pares de consulta-documento) al principio de la consulta objetivo en tiempo de inferencia no funciona de manera directa. Introducimos un enfoque sencillo para permitir a los recuperadores utilizar ejemplos en contexto. Nuestro enfoque, RARe, ajusta finamente un modelo preentrenado con ejemplos en contexto cuya consulta es semánticamente similar a la consulta objetivo. Esto se puede aplicar para adaptar varias arquitecturas base (es decir, modelos de lenguaje de solo decodificador, modelos recuperadores) y logra de manera consistente ganancias de rendimiento de hasta +2.72% nDCG en varios conjuntos de datos de recuperación de dominio abierto (BeIR, RAR-b). En particular, encontramos que RARe muestra una generalización más sólida fuera del dominio en comparación con los modelos que utilizan consultas sin ejemplos en contexto, similar a lo que se observa en el aprendizaje en contexto en LLMs. Además, proporcionamos un análisis sobre las elecciones de diseño de la ampliación de ejemplos en contexto y sentamos las bases para trabajos futuros en este ámbito.
Los modelos de lenguaje grandes (LLMs) son susceptibles a memorizar datos de entrenamiento, lo que plantea preocupaciones debido a la posible extracción de información sensible. Los métodos actuales para medir las tasas de memorización de LLMs, principalmente la extracción descubrible (Carlini et al., 2022), se basan en muestreo codicioso de secuencia única, subestimando potencialmente la verdadera extensión de la memorización. Este artículo introduce una relajación probabilística de la extracción descubrible que cuantifica la probabilidad de extraer una secuencia objetivo dentro de un conjunto de muestras generadas, considerando varios esquemas de muestreo y múltiples intentos. Este enfoque aborda las limitaciones de informar tasas de memorización a través de la extracción descubrible al tener en cuenta la naturaleza probabilística de los LLMs y los patrones de interacción del usuario. Nuestros experimentos demuestran que esta medida probabilística puede revelar casos de tasas de memorización más altas en comparación con las tasas encontradas a través de la extracción descubrible. Investigamos además el impacto de diferentes esquemas de muestreo en la extraibilidad, proporcionando una evaluación más completa y realista de la memorización de LLM y sus riesgos asociados. Nuestras contribuciones incluyen una nueva definición de memorización probabilística, evidencia empírica de su efectividad y una evaluación exhaustiva en diferentes modelos, tamaños, esquemas de muestreo y repeticiones de datos de entrenamiento.