Artículos de investigación en IA seleccionados diariamente con traducciones
La introducción de los modelos de lenguaje de gran escala ha avanzado significativamente la generación de código. Sin embargo, los modelos de código abierto a menudo carecen de las capacidades de ejecución y refinamiento iterativo de sistemas avanzados como el GPT-4 Code Interpreter. Para abordar esto, presentamos OpenCodeInterpreter, una familia de sistemas de código abierto diseñados para generar, ejecutar y refinar código de manera iterativa. Respaldado por Code-Feedback, un conjunto de datos que incluye 68K interacciones multiturno, OpenCodeInterpreter integra la ejecución y la retroalimentación humana para el refinamiento dinámico del código. Nuestra evaluación exhaustiva de OpenCodeInterpreter en puntos de referencia clave como HumanEval, MBPP y sus versiones mejoradas de EvalPlus revela un rendimiento excepcional. En particular, OpenCodeInterpreter-33B logra una precisión de 83.2 (76.4) en el promedio (y versiones plus) de HumanEval y MBPP, rivalizando estrechamente con el 84.2 (76.2) de GPT-4, y se eleva aún más a 91.6 (84.6) con retroalimentación humana sintetizada de GPT-4. OpenCodeInterpreter reduce la brecha entre los modelos de generación de código de código abierto y los sistemas propietarios como GPT-4 Code Interpreter.
Si bien los Transformers han permitido avances significativos en diversos entornos de aplicación, estas arquitecturas aún se quedan atrás de los planificadores simbólicos tradicionales para resolver tareas complejas de toma de decisiones. En este trabajo, demostramos cómo entrenar Transformers para resolver tareas de planificación complejas y presentamos Searchformer, un modelo Transformer que resuelve óptimamente rompecabezas de Sokoban previamente desconocidos en un 93.7% de los casos, utilizando hasta un 26.8% menos de pasos de búsqueda que el algoritmo A^* estándar. Searchformer es un modelo Transformer de codificador-decodificador entrenado para predecir la dinámica de búsqueda de A^*. Este modelo se ajusta mediante iteraciones expertas para realizar menos pasos de búsqueda que A^* mientras sigue generando un plan óptimo. En nuestro método de entrenamiento, la dinámica de búsqueda de A^* se expresa como una secuencia de tokens que describe cuándo los estados de la tarea se agregan y eliminan del árbol de búsqueda durante la planificación simbólica. En nuestros estudios de ablación sobre navegación en laberintos, encontramos que Searchformer supera significativamente a los modelos de referencia que predicen el plan óptimo directamente, con un tamaño de modelo 5-10 veces menor y un conjunto de entrenamiento 10 veces más pequeño. También demostramos cómo Searchformer escala a tareas de toma de decisiones más grandes y complejas, como Sokoban, con un porcentaje mejorado de tareas resueltas y una dinámica de búsqueda acortada.
En la búsqueda de Modelos de Visión-Lenguaje (VLMs) más inclusivos, este estudio presenta un Modelo Multilingüe y Multimodal a Gran Escala llamado Palo. Palo ofrece capacidades de razonamiento visual en 10 idiomas principales, incluyendo inglés, chino, hindi, español, francés, árabe, bengalí, ruso, urdu y japonés, que abarcan un total de aproximadamente 5 mil millones de personas (65% de la población mundial). Nuestro enfoque implica un método de traducción semi-automatizado para adaptar el conjunto de datos de instrucciones multimodales del inglés a los idiomas objetivo utilizando un Modelo de Lenguaje a Gran Escala ajustado, garantizando así una alta fidelidad lingüística mientras se permite escalabilidad debido al mínimo esfuerzo manual. La incorporación de diversos conjuntos de instrucciones nos ayuda a mejorar el rendimiento general en múltiples idiomas, especialmente en aquellos que están subrepresentados como el hindi, árabe, bengalí y urdu. Los modelos resultantes se entrenan en tres escalas (1.7B, 7B y 13B parámetros) para demostrar la generalización y escalabilidad, donde observamos mejoras sustanciales en comparación con líneas base sólidas. También proponemos el primer punto de referencia multimodal y multilingüe para los enfoques futuros, con el fin de evaluar sus capacidades de razonamiento visión-lenguaje en diferentes idiomas. Código: https://github.com/mbzuai-oryx/PALO.
Presentamos el marco TinyLLaVA, que ofrece una perspectiva unificada en el diseño y análisis de Modelos Multimodales de Gran Escala (LMMs) a pequeña escala. Estudiamos empíricamente los efectos de diferentes codificadores visuales, módulos de conexión, modelos de lenguaje, datos de entrenamiento y recetas de entrenamiento. Nuestros extensos experimentos demostraron que, al combinar datos de mayor calidad con mejores recetas de entrenamiento, los LMMs más pequeños pueden lograr consistentemente un rendimiento comparable al de los LMMs más grandes. Bajo nuestro marco, entrenamos una familia de LMMs a pequeña escala. Nuestro mejor modelo, TinyLLaVA-3.1B, logra un mejor rendimiento general en comparación con modelos existentes de 7B, como LLaVA-1.5 y Qwen-VL. Esperamos que nuestros hallazgos sirvan como referencia para futuras investigaciones en términos de escalado de datos, configuraciones de entrenamiento y selección de modelos. Los pesos de nuestro modelo y los códigos se harán públicos.
Los modelos de visión basados en Transformer suelen tokenizar imágenes en parches cuadrados de tamaño fijo como unidades de entrada, lo que carece de adaptabilidad al contenido de la imagen y pasa por alto la estructura inherente de agrupación de píxeles. Inspirados por la tokenización de subpalabras ampliamente adoptada en los modelos de lenguaje, proponemos un tokenizador de imágenes a nivel de subobjetos, donde los subobjetos están representados por segmentos de imagen semánticamente significativos obtenidos mediante modelos de segmentación (por ejemplo, modelos de segmentación universal). Para implementar un sistema de aprendizaje basado en la tokenización de subobjetos, primero introdujimos un AutoEncoder de Secuencia a Secuencia (SeqAE) para comprimir segmentos de subobjetos de diversos tamaños y formas en vectores de incrustación compactos, luego alimentamos las incrustaciones de subobjetos en un modelo de lenguaje grande para el aprendizaje de visión y lenguaje. Los resultados empíricos demostraron que nuestra tokenización a nivel de subobjetos facilita significativamente el aprendizaje eficiente de la traducción de imágenes en descripciones de objetos y atributos en comparación con la tokenización tradicional a nivel de parches. Los códigos y modelos se publicarán en https://github.com/ChenDelong1999/subobjects.
En el amplio panorama del diseño experimental, la regresión ha sido una herramienta poderosa para predecir con precisión las métricas de resultado de un sistema o modelo dado un conjunto de parámetros, pero tradicionalmente se ha limitado a métodos aplicables únicamente a tareas específicas. En este artículo, proponemos OmniPred, un marco para entrenar modelos de lenguaje como regresores universales de extremo a extremo sobre datos de evaluación (x, y) provenientes de diversos experimentos del mundo real. Utilizando datos obtenidos de Google Vizier, una de las bases de datos de optimización de caja negra más grandes del mundo, nuestros extensos experimentos demuestran que, a través de representaciones textuales de parámetros y valores matemáticos, los modelos de lenguaje son capaces de realizar regresiones numéricas muy precisas y, si se les da la oportunidad de entrenar en múltiples tareas, pueden superar significativamente a los modelos de regresión tradicionales.
Con el rápido avance de los Modelos de Lenguaje de Gran Escala (LLMs), se han logrado avances significativos en aplicaciones multiagente. Sin embargo, las complejidades en la coordinación de la cooperación entre agentes y el desempeño errático de los LLMs plantean desafíos notables en el desarrollo de aplicaciones multiagente robustas y eficientes. Para abordar estos desafíos, proponemos AgentScope, una plataforma multiagente centrada en el desarrollador, con el intercambio de mensajes como su mecanismo central de comunicación. Junto con abundantes herramientas sintácticas, recursos integrados e interacciones amigables, nuestro mecanismo de comunicación reduce significativamente las barreras tanto para el desarrollo como para la comprensión. Hacia aplicaciones multiagente robustas y flexibles, AgentScope ofrece mecanismos de tolerancia a fallos tanto integrados como personalizables, además de contar con soportes a nivel de sistema para la generación, almacenamiento y transmisión de datos multimodales. Adicionalmente, diseñamos un marco de distribución basado en actores, permitiendo una conversión sencilla entre implementaciones locales y distribuidas, así como una optimización paralela automática sin esfuerzo adicional. Con estas características, AgentScope capacita a los desarrolladores para construir aplicaciones que aprovechen al máximo el potencial de los agentes inteligentes. Hemos lanzado AgentScope en https://github.com/modelscope/agentscope, y esperamos que AgentScope invite a una mayor participación e innovación en este campo en rápido movimiento.
El muestreo a partir de modelos probabilísticos de difusión (DPMs, por sus siglas en inglés) suele ser costoso para la generación de imágenes de alta calidad y generalmente requiere muchos pasos con un modelo grande. En este artículo, presentamos T-Stitch, una técnica simple pero eficiente para mejorar la eficiencia del muestreo con poca o ninguna degradación en la generación. En lugar de utilizar únicamente un DPM grande para toda la trayectoria de muestreo, T-Stitch aprovecha primero un DPM más pequeño en los pasos iniciales como un reemplazo económico del DPM más grande y cambia al DPM más grande en una etapa posterior. Nuestra idea clave es que diferentes modelos de difusión aprenden codificaciones similares bajo la misma distribución de datos de entrenamiento, y los modelos más pequeños son capaces de generar buenas estructuras globales en los pasos iniciales. Experimentos extensos demuestran que T-Stitch no requiere entrenamiento, es aplicable de manera general a diferentes arquitecturas y complementa la mayoría de las técnicas de muestreo rápido existentes con compensaciones flexibles entre velocidad y calidad. En DiT-XL, por ejemplo, el 40% de los pasos iniciales puede ser reemplazado de manera segura por un DiT-S 10 veces más rápido sin pérdida de rendimiento en la generación condicionada por clases de ImageNet. Además, mostramos que nuestro método también puede utilizarse como una técnica de reemplazo directo para no solo acelerar los populares modelos preentrenados de difusión estable (SD, por sus siglas en inglés), sino también mejorar la alineación con el prompt en modelos SD estilizados del repositorio público de modelos. El código está disponible en https://github.com/NVlabs/T-Stitch.
La integración de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en Entornos de Desarrollo Integrados (IDEs) se ha convertido en un punto central en el desarrollo de software moderno. LLMs como OpenAI GPT-3.5/4 y Code Llama ofrecen el potencial de aumentar significativamente la productividad de los desarrolladores al funcionar como asistentes de programación inteligentes basados en chat. Sin embargo, utilizar LLMs sin adaptaciones específicas es poco probable que sea óptimo para cualquier escenario dado. En su lugar, cada sistema requiere que el LLM sea ajustado a su conjunto de heurísticas para garantizar el mejor rendimiento. En este artículo, presentamos el sistema de evaluación Copilot: un conjunto de datos y herramientas para evaluar las interacciones guiadas por LLMs en IDEs, abarcando diversos escenarios y lenguajes de programación. Proponemos nuestras métricas como una evaluación más robusta y rica en información que los sistemas de evaluación anteriores del estado del arte. Diseñamos y calculamos métricas de éxito tanto estáticas como basadas en la ejecución para escenarios que abarcan una amplia gama de tareas de desarrolladores, incluyendo la generación de código a partir de lenguaje natural (generar), la generación de documentación a partir de código (doc), la generación de casos de prueba (test), la corrección de errores (fix) y la comprensión del espacio de trabajo y resolución de consultas (workspace). Estas métricas de éxito están diseñadas para evaluar el rendimiento de los LLMs dentro de un IDE dado y su respectivo espacio de parámetros. Nuestros aprendizajes al evaluar tres LLMs comunes utilizando estas métricas pueden informar el desarrollo y validación de futuros escenarios en IDEs guiados por LLMs.
La escasez de datos en lenguajes de bajos recursos puede abordarse mediante traducciones palabra por palabra de datos etiquetados de tareas en lenguajes de altos recursos utilizando léxicos bilingües. Sin embargo, los léxicos bilingües suelen tener un solapamiento léxico limitado con los datos de la tarea, lo que resulta en una cobertura de traducción y utilización del léxico deficientes. Proponemos la generación de datos condicionada por léxicos (LexC-Gen), un método que genera datos de tareas de clasificación en lenguajes de bajos recursos a gran escala. Específicamente, LexC-Gen primero utiliza palabras de lenguajes de altos recursos de léxicos bilingües para generar datos de tareas compatibles con el léxico, y luego los traduce a lenguajes de bajos recursos mediante traducción palabra por palabra utilizando léxicos bilingües. En 17 lenguajes extremadamente bajos en recursos, los datos generados por LexC-Gen son competitivos con datos de referencia traducidos por expertos, y muestran una mejora promedio de 5.6 y 8.9 puntos sobre los métodos existentes de traducción basados en léxicos para tareas de análisis de sentimientos y clasificación de temas, respectivamente. Demostramos que el condicionamiento por léxicos bilingües es el componente clave de LexC-Gen. Además, LexC-Gen es práctico: solo necesita una única GPU para generar datos a gran escala. Funciona bien con modelos de lenguaje de acceso abierto, y su costo es una quinta parte del costo de la generación de datos multilingüe basada en GPT-4.
En este trabajo, abordamos el desafiante problema de eliminar el ruido en las interacciones mano-objeto (HOI, por sus siglas en inglés). Dada una secuencia de interacción errónea, el objetivo es refinar la trayectoria incorrecta de la mano para eliminar artefactos de interacción y obtener una secuencia perceptualmente realista. Este desafío implica ruido de interacción complejo, incluyendo poses antinaturales de la mano y relaciones incorrectas entre la mano y el objeto, junto con la necesidad de una generalización robusta a nuevas interacciones y diversos patrones de ruido. Abordamos estos desafíos mediante un enfoque novedoso, GeneOH Diffusion, que incorpora dos diseños clave: una representación centrada en el contacto de HOI llamada GeneOH y un nuevo esquema de eliminación de ruido generalizable a diferentes dominios. La representación centrada en el contacto, GeneOH, parametriza de manera informativa el proceso de HOI, facilitando una mejor generalización en diversos escenarios de HOI. El nuevo esquema de eliminación de ruido consiste en un modelo canónico de eliminación de ruido entrenado para proyectar muestras de datos ruidosos desde un espacio de ruido blanqueado hacia una variedad de datos limpios, y una estrategia de "eliminación de ruido mediante difusión" que puede manejar trayectorias de entrada con diversos patrones de ruido al difundirlas primero para alinearlas con el espacio de ruido blanqueado y luego limpiarlas mediante el eliminador de ruido canónico. Experimentos exhaustivos en cuatro benchmarks con variaciones significativas de dominio demuestran la superior efectividad de nuestro método. GeneOH Diffusion también muestra potencial para diversas aplicaciones posteriores. Sitio web del proyecto: https://meowuu7.github.io/GeneOH-Diffusion/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son herramientas poderosas para la moderación de contenido, pero sus costos de inferencia y latencia los hacen prohibitivos para su uso casual en grandes conjuntos de datos, como el repositorio de Google Ads. Este estudio propone un método para escalar las revisiones de LLMs para la moderación de contenido en Google Ads. Primero, utilizamos heurísticas para seleccionar candidatos mediante filtrado y eliminación de duplicados, y creamos grupos de anuncios para los cuales seleccionamos un anuncio representativo por grupo. Luego, utilizamos LLMs para revisar únicamente los anuncios representativos. Finalmente, propagamos las decisiones de los LLMs para los anuncios representativos de vuelta a sus grupos. Este método reduce el número de revisiones en más de 3 órdenes de magnitud mientras logra un recall 2 veces mayor en comparación con un modelo de referencia no basado en LLMs. El éxito de este enfoque depende en gran medida de las representaciones utilizadas en la agrupación y la propagación de etiquetas; encontramos que las representaciones de similitud multimodal arrojan mejores resultados que las representaciones unimodales.
Los modelos de texto a imagen a gran escala permiten una amplia gama de técnicas de edición de imágenes, utilizando indicaciones de texto o incluso controles espaciales. Sin embargo, aplicar estos métodos de edición a imágenes de múltiples vistas que representan una sola escena produce resultados inconsistentes en 3D. En este trabajo, nos enfocamos en manipulaciones geométricas basadas en controles espaciales e introducimos un método para consolidar el proceso de edición en varias vistas. Partimos de dos ideas clave: (1) mantener características consistentes durante todo el proceso generativo ayuda a lograr coherencia en la edición de múltiples vistas, y (2) las consultas en las capas de autoatención influyen significativamente en la estructura de la imagen. Por lo tanto, proponemos mejorar la consistencia geométrica de las imágenes editadas reforzando la coherencia de las consultas. Para ello, presentamos QNeRF, un campo de radiación neural entrenado en las características internas de las consultas de las imágenes editadas. Una vez entrenado, QNeRF puede renderizar consultas consistentes en 3D, las cuales se inyectan suavemente de nuevo en las capas de autoatención durante la generación, mejorando notablemente la coherencia de múltiples vistas. Refinamos el proceso mediante un método progresivo e iterativo que consolida mejor las consultas a lo largo de los pasos de difusión. Comparamos nuestro método con una variedad de técnicas existentes y demostramos que puede lograr una mejor consistencia de múltiples vistas y una mayor fidelidad a la escena de entrada. Estas ventajas nos permiten entrenar NeRFs con menos artefactos visuales, que están mejor alineados con la geometría objetivo.
El advenimiento del Splatting Gaussiano 3D (3DGS) ha revolucionado recientemente el campo del renderizado neuronal, permitiendo renderizados de alta calidad en tiempo real. Sin embargo, el 3DGS depende en gran medida de la nube de puntos inicial generada por técnicas de Estructura a partir del Movimiento (SfM). Al abordar escenas a gran escala que inevitablemente contienen superficies sin textura, las técnicas SfM no logran producir suficientes puntos en estas superficies y no pueden proporcionar una buena inicialización para el 3DGS. Como resultado, el 3DGS enfrenta dificultades de optimización y renderizados de baja calidad. En este artículo, inspirados por las técnicas clásicas de estereoscopía multivista (MVS), proponemos GaussianPro, un método novedoso que aplica una estrategia de propagación progresiva para guiar la densificación de los Gaussianos 3D. En comparación con las simples estrategias de división y clonación utilizadas en el 3DGS, nuestro método aprovecha los priors de las geometrías reconstruidas existentes de la escena y técnicas de emparejamiento de parches para producir nuevos Gaussianos con posiciones y orientaciones precisas. Los experimentos en escenas tanto a gran como a pequeña escala validan la efectividad de nuestro método, donde nuestro enfoque supera significativamente al 3DGS en el conjunto de datos Waymo, mostrando una mejora de 1.15 dB en términos de PSNR.
Presentamos CyberDemo, un enfoque novedoso para el aprendizaje por imitación robótica que aprovecha demostraciones humanas simuladas para tareas del mundo real. Al incorporar una amplia ampliación de datos en un entorno simulado, CyberDemo supera a las demostraciones tradicionales en el dominio del mundo real cuando se transfiere a este, manejando diversas condiciones físicas y visuales. A pesar de su asequibilidad y conveniencia en la recolección de datos, CyberDemo supera a los métodos de referencia en términos de tasas de éxito en diversas tareas y exhibe generalización con objetos previamente no vistos. Por ejemplo, puede rotar tetra-válvulas y penta-válvulas novedosas, a pesar de que las demostraciones humanas solo involucraban tri-válvulas. Nuestra investigación demuestra el potencial significativo de las demostraciones humanas simuladas para tareas de manipulación diestra en el mundo real. Más detalles se pueden encontrar en https://cyber-demo.github.io.
Como una técnica prometedora de generación 3D, la difusión multivista (MVD, por sus siglas en inglés) ha recibido mucha atención debido a sus ventajas en términos de generalización, calidad y eficiencia. Al ajustar modelos de difusión de imágenes preentrenados con datos 3D, los métodos MVD primero generan múltiples vistas de un objeto 3D basándose en una imagen o un texto de entrada, y luego reconstruyen formas 3D mediante reconstrucción 3D multivista. Sin embargo, las vistas dispersas y los detalles inconsistentes en las imágenes generadas hacen que la reconstrucción 3D sea un desafío. Presentamos MVD^2, un método eficiente de reconstrucción 3D para imágenes de difusión multivista (MVD). MVD^2 agrega características de imagen en un volumen de características 3D mediante proyección y convolución, y luego decodifica las características volumétricas en una malla 3D. Entrenamos MVD^2 con colecciones de formas 3D e imágenes MVD generadas a partir de vistas renderizadas de formas 3D. Para abordar la discrepancia entre las imágenes multivista generadas y las vistas de referencia de las formas 3D, diseñamos un esquema de entrenamiento dependiente de la vista simple pero eficiente. MVD^2 mejora la calidad de la generación 3D de MVD y es rápido y robusto frente a diversos métodos MVD. Después del entrenamiento, puede decodificar eficientemente mallas 3D a partir de imágenes multivista en menos de un segundo. Entrenamos MVD^2 con Zero-123++ y el conjunto de datos 3D ObjectVerse-LVIS, y demostramos su rendimiento superior en la generación de modelos 3D a partir de imágenes multivista generadas por diferentes métodos MVD, utilizando tanto imágenes sintéticas como reales como entradas.
Investigaciones recientes han demostrado que los transformadores, particularmente los modelos de atención lineal, ejecutan implícitamente algoritmos similares al descenso de gradiente sobre los datos proporcionados en contexto durante su paso de inferencia hacia adelante. Sin embargo, su capacidad para manejar problemas más complejos sigue sin explorarse. En este artículo, demostramos que cualquier transformador lineal mantiene un modelo lineal implícito y puede interpretarse como si realizara una variante de descenso de gradiente precondicionado. También investigamos el uso de transformadores lineales en un escenario desafiante donde los datos de entrenamiento están corrompidos con diferentes niveles de ruido. Notablemente, demostramos que, para este problema, los transformadores lineales descubren un algoritmo de optimización intrincado y altamente efectivo, superando o igualando en rendimiento a muchas líneas base razonables. Ingeniería inversa de este algoritmo revela que se trata de un enfoque novedoso que incorpora momentum y reescalado adaptativo basado en los niveles de ruido. Nuestros hallazgos muestran que incluso los transformadores lineales poseen la sorprendente capacidad de descubrir estrategias de optimización sofisticadas.
El aprendizaje por imitación aprende una política a partir de demostraciones sin requerir funciones de recompensa diseñadas manualmente. En muchas tareas robóticas, como las carreras autónomas, las políticas imitadas deben modelar dinámicas ambientales complejas y la toma de decisiones humanas. El modelado de secuencias es altamente efectivo para capturar patrones intrincados en secuencias de movimiento, pero tiene dificultades para adaptarse a nuevos entornos o cambios en la distribución, que son comunes en tareas robóticas del mundo real. En contraste, el Aprendizaje por Imitación Adversarial (AIL, por sus siglas en inglés) puede mitigar este efecto, pero lucha con la ineficiencia de muestras y el manejo de patrones de movimiento complejos. Por lo tanto, proponemos BeTAIL: Aprendizaje por Imitación Adversarial con Transformador de Comportamiento, que combina una política de Transformador de Comportamiento (BeT, por sus siglas en inglés) a partir de demostraciones humanas con AIL en línea. BeTAIL añade una política residual de AIL a la política BeT para modelar el proceso secuencial de toma de decisiones de expertos humanos y corregir estados fuera de distribución o cambios en las dinámicas del entorno. Probamos BeTAIL en tres desafíos con demostraciones de nivel experto de partidas reales de humanos en Gran Turismo Sport. Nuestra propuesta residual de BeTAIL reduce las interacciones con el entorno y mejora el rendimiento y la estabilidad en las carreras, incluso cuando el BeT se entrena previamente en pistas diferentes a las del aprendizaje posterior. Videos y código disponibles en: https://sites.google.com/berkeley.edu/BeTAIL/home.