Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos StdGEN, un innovador pipeline para generar personajes 3D de alta calidad descompuestos semánticamente a partir de imágenes individuales, lo que permite diversas aplicaciones en realidad virtual, videojuegos, cine, entre otros. A diferencia de métodos anteriores que luchan con una descomponibilidad limitada, calidad insatisfactoria y largos tiempos de optimización, StdGEN se destaca por su descomponibilidad, efectividad y eficiencia; es decir, genera personajes 3D detallados con intrincados componentes semánticos separados como el cuerpo, la ropa y el cabello, en tres minutos. En el núcleo de StdGEN se encuentra nuestro propuesto Modelo de Reconstrucción Grande Consciente de la Semántica (S-LRM), un modelo generalizable basado en transformers que reconstruye conjuntamente geometría, color y semántica a partir de imágenes de múltiples vistas de manera feed-forward. Se introduce un esquema diferenciable de extracción de superficie semántica de múltiples capas para adquirir mallas a partir de campos implícitos híbridos reconstruidos por nuestro S-LRM. Además, se integra en el pipeline un modelo de difusión eficiente de múltiples vistas y un módulo iterativo de refinamiento de superficie de múltiples capas especializado para facilitar la generación de personajes 3D de alta calidad y descomponibles. Experimentos extensos demuestran nuestro rendimiento de vanguardia en la generación de personajes de anime 3D, superando significativamente a los puntos de referencia existentes en geometría, textura y descomponibilidad. StdGEN ofrece personajes 3D descompuestos semánticamente listos para usar y permite una personalización flexible para una amplia gama de aplicaciones. Página del proyecto: https://stdgen.github.io
CLIP es uno de los modelos multimodales fundamentales más importantes hoy en día. ¿Qué impulsa las capacidades de CLIP? Las señales de supervisión ricas proporcionadas por el lenguaje natural, portador del conocimiento humano, dan forma a un espacio de representación cruzada poderoso. Sin embargo, con los rápidos avances en modelos de lenguaje grandes (LLMs) como GPT-4 y LLaMA, los límites de la comprensión y generación del lenguaje están siendo continuamente ampliados. Esto plantea una pregunta intrigante: ¿se pueden aprovechar las capacidades de los LLMs para mejorar aún más el aprendizaje de representaciones multimodales? Los beneficios potenciales de incorporar LLMs en CLIP son claros. La sólida comprensión textual de los LLMs puede mejorar fundamentalmente la capacidad de CLIP para manejar subtítulos de imágenes, mejorando drásticamente su capacidad para procesar textos largos y complejos, una limitación bien conocida de CLIP básico. Además, los LLMs se entrenan en un vasto corpus de texto, poseyendo conocimiento del mundo abierto. Esto les permite ampliar la información de los subtítulos durante el entrenamiento, aumentando la eficiencia del proceso de aprendizaje. En este documento, proponemos LLM2CLIP, un enfoque novedoso que aprovecha el poder de los LLMs para desbloquear el potencial de CLIP. Al ajustar finamente el LLM en el espacio de subtítulos con aprendizaje contrastivo, extraemos sus capacidades textuales en las incrustaciones de salida, mejorando significativamente la discriminabilidad textual de la capa de salida. Luego diseñamos un proceso de entrenamiento eficiente donde el LLM ajustado finamente actúa como un maestro poderoso para el codificador visual de CLIP. Gracias a la presencia del LLM, ahora podemos incorporar subtítulos más largos y complejos sin verse restringidos por la ventana de contexto y las limitaciones de capacidad del codificador de texto de CLIP básico. Nuestros experimentos demuestran que este enfoque aporta mejoras sustanciales en tareas multimodales.
Los modelos de lenguaje grandes (LLMs) han demostrado capacidades impresionantes, pero aún enfrentan dificultades con tareas de razonamiento complejas que requieren múltiples pasos. Mientras que los métodos basados en indicaciones como Cadena de Pensamiento (CoT) pueden mejorar el razonamiento de LLM durante la inferencia, optimizar las capacidades de razonamiento durante el entrenamiento sigue siendo un desafío. Presentamos LaTent Reasoning Optimization (LaTRO), un marco principista que formula el razonamiento como muestreo de una distribución latente y lo optimiza a través de enfoques variacionales. LaTRO permite a los LLMs mejorar simultáneamente su proceso de razonamiento y su capacidad para evaluar la calidad del razonamiento, sin necesidad de retroalimentación externa o modelos de recompensa. Validamos LaTRO a través de experimentos en los conjuntos de datos GSM8K y ARC-Challenge utilizando múltiples arquitecturas de modelos. En GSM8K, LaTRO mejora la precisión de cero disparos en un promedio del 12.5% sobre los modelos base y 9.6% sobre el ajuste fino supervisado en Phi-3.5-mini, Mistral-7B y Llama-3.1-8B. Nuestros hallazgos sugieren que los LLMs pre-entrenados poseen capacidades de razonamiento latentes que pueden ser desbloqueadas y mejoradas a través de nuestro enfoque de optimización propuesto de manera auto-mejorativa. El código de LaTRO está disponible en https://github.com/SalesforceAIResearch/LaTRO.
El paralelismo de canalización se utiliza ampliamente para escalar el entrenamiento de modelos de lenguaje grandes basados en transformadores; se han realizado diversos trabajos para mejorar su rendimiento y huella de memoria. En este documento, abordamos un problema frecuentemente pasado por alto: las capas de vocabulario pueden causar desequilibrios en la computación y el uso de memoria en las etapas de la canalización, empeorando las burbujas de la canalización y el cuello de botella de memoria. Para abordar esto, dividimos equitativamente las capas de vocabulario entre los dispositivos de la canalización y agrupamos la computación en pases de canalización. Para reducir la sobrecarga de memoria de activación, proponemos varios algoritmos para disminuir las barreras de comunicación dentro de las capas de vocabulario. Además, utilizamos un método generalizable para integrar el Paralelismo de Vocabulario con los horarios de canalización existentes. Al combinar estas técnicas, nuestros métodos equilibran eficazmente la computación y la memoria de los parámetros, con solo una pequeña sobrecarga constante de memoria de activación. Especialmente, al combinarse con horarios de memoria de activación equilibrados como V-Half, nuestro enfoque logra un equilibrio perfecto tanto en la memoria como en la computación. Evaluaciones exhaustivas demuestran que nuestro método logra un equilibrio entre la computación y la memoria independientemente del tamaño del vocabulario, lo que resulta en una mejora del 5% al 51% en el rendimiento en comparación con enfoques ingenuos, al mismo tiempo que reduce significativamente el uso máximo de memoria, especialmente para escenarios de vocabulario grande. Nuestra implementación está disponible en código abierto en https://github.com/sail-sg/VocabularyParallelism.
El ajuste fino de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es esencial para mejorar su rendimiento en tareas específicas, pero suele ser intensivo en recursos debido a datos redundantes o poco informativos. Para abordar esta ineficiencia, presentamos DELIFT (Ajuste Fino de Instrucciones de Modelos de Lenguaje Eficiente en Datos), un algoritmo novedoso que optimiza sistemáticamente la selección de datos en las tres etapas clave del ajuste fino: (1) ajuste de instrucciones, (2) ajuste fino específico de la tarea (por ejemplo, razonamiento, pregunta-respuesta) y (3) ajuste fino continuo (por ejemplo, incorporación de nuevas versiones de datos). A diferencia de los métodos existentes que se centran en la optimización de una sola etapa o dependen de cálculos de gradientes intensivos computacionalmente, DELIFT opera eficientemente en todas las etapas. En el centro de nuestro enfoque se encuentra una métrica de utilidad por pares que cuantifica cuán beneficioso es una muestra de datos para mejorar las respuestas del modelo a otras muestras, midiendo efectivamente el valor informativo en relación con las capacidades actuales del modelo. Al aprovechar diferentes funciones submodulares aplicadas a esta métrica, DELIFT selecciona subconjuntos diversos y óptimos que son útiles en todas las etapas de ajuste fino. Experimentos en diversas tareas y escalas de modelos demuestran que DELIFT puede reducir el tamaño de los datos de ajuste fino hasta en un 70% sin comprometer el rendimiento, ofreciendo ahorros computacionales significativos y superando a los métodos existentes tanto en eficiencia como en eficacia.
Este documento tiene como objetivo diseñar un sistema unificado de generación de Diseño Asistido por Computadora (CAD) que pueda generar fácilmente modelos CAD basados en las entradas del usuario en forma de descripción textual, imágenes, nubes de puntos o incluso una combinación de ellas. Con este fin, presentamos el CAD-MLLM, el primer sistema capaz de generar modelos CAD paramétricos condicionados a la entrada multimodal. Específicamente, dentro del marco del CAD-MLLM, aprovechamos las secuencias de comandos de modelos CAD y luego empleamos modelos de lenguaje grandes avanzados (LLMs) para alinear el espacio de características en estos diversos datos multimodales y representaciones vectorizadas de modelos CAD. Para facilitar el entrenamiento del modelo, diseñamos un completo proceso de construcción de datos y anotación que dota a cada modelo CAD con datos multimodales correspondientes. Nuestro conjunto de datos resultante, llamado Omni-CAD, es el primer conjunto de datos CAD multimodal que contiene descripciones textuales, imágenes de múltiples vistas, puntos y secuencias de comandos para cada modelo CAD. Contiene aproximadamente 450K instancias y sus secuencias de construcción CAD. Para evaluar a fondo la calidad de nuestros modelos CAD generados, vamos más allá de las métricas de evaluación actuales que se centran en la calidad de reconstrucción al introducir métricas adicionales que evalúan la calidad topológica y la extensión de cierre de superficie. Los extensos resultados experimentales demuestran que CAD-MLLM supera significativamente a los métodos generativos condicionales existentes y sigue siendo altamente robusto ante ruidos y puntos faltantes. La página del proyecto y más visualizaciones se pueden encontrar en: https://cad-mllm.github.io/
La llegada de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como GitHub Copilot ha mejorado significativamente la productividad de los programadores, especialmente en la generación de código. Sin embargo, estos modelos a menudo enfrentan dificultades con tareas del mundo real sin un ajuste fino. A medida que los LLMs crecen en tamaño y rendimiento, el ajuste fino para tareas especializadas se vuelve cada vez más costoso. Los métodos de ajuste fino eficientes en parámetros (PEFT, por sus siglas en inglés), que ajustan solo un subconjunto de parámetros del modelo, ofrecen una solución prometedora al reducir los costos computacionales de ajustar LLMs manteniendo su rendimiento. Estudios previos han explorado el uso de PEFT y LLMs para diversas tareas relacionadas con el código y han encontrado que la efectividad de las técnicas de PEFT depende de la tarea. La aplicación de técnicas de PEFT en la generación de pruebas unitarias sigue siendo poco explorada. El estado del arte se limita al uso de LLMs con ajuste fino completo para generar pruebas unitarias. Este documento investiga tanto el ajuste fino completo como varios métodos de PEFT, incluidos LoRA, (IA)^3 y ajuste de indicaciones, en diferentes arquitecturas y tamaños de modelos. Utilizamos conjuntos de datos de referencia bien establecidos para evaluar su efectividad en la generación de pruebas unitarias. Nuestros hallazgos muestran que los métodos de PEFT pueden ofrecer un rendimiento comparable al ajuste fino completo para la generación de pruebas unitarias, haciendo que el ajuste fino especializado sea más accesible y rentable. Destacadamente, el ajuste de indicaciones es el más efectivo en cuanto a costo y utilización de recursos, mientras que LoRA se acerca a la efectividad del ajuste fino completo en varios casos.
Los modelos de lenguaje modernos pueden procesar entradas en diversos idiomas y modalidades. Postulamos que los modelos adquieren esta capacidad a través del aprendizaje de un espacio de representación compartido entre diferentes tipos de datos heterogéneos (por ejemplo, distintos idiomas y modalidades), que coloca entradas semánticamente similares cerca unas de otras, incluso si provienen de diferentes modalidades/idiomas. Denominamos a esto la hipótesis del centro semántico, siguiendo el modelo de centro y radios de la neurociencia (Patterson et al., 2007), el cual postula que el conocimiento semántico en el cerebro humano está organizado a través de un "centro" semántico transmodal que integra información de diversas regiones "radios" específicas de cada modalidad. Primero demostramos que las representaciones del modelo para entradas semánticamente equivalentes en diferentes idiomas son similares en las capas intermedias, y que este espacio puede ser interpretado utilizando el idioma de preentrenamiento dominante del modelo a través de la lente de logit. Esta tendencia se extiende a otros tipos de datos, incluyendo expresiones aritméticas, código y entradas visuales/auditivas. Las intervenciones en el espacio de representación compartido en un tipo de datos también afectan predeciblemente las salidas del modelo en otros tipos de datos, lo que sugiere que este espacio de representaciones compartidas no es simplemente un subproducto vestigial del entrenamiento a gran escala en datos amplios, sino algo que es activamente utilizado por el modelo durante el procesamiento de entradas.
Los modelos de visión-lenguaje ajustados (VLMs) a menudo capturan correlaciones espurias entre las características de la imagen y los atributos textuales, lo que resulta en un rendimiento de cero disparos degradado en el momento de la prueba. Los enfoques existentes para abordar las correlaciones espurias (i) operan principalmente a nivel de imagen global en lugar de intervenir directamente en las características de imagen detalladas y (ii) están diseñados predominantemente para entornos unimodales. En este trabajo, presentamos RaVL, que adopta una perspectiva detallada sobre la robustez de los VLM al descubrir y mitigar correlaciones espurias utilizando características de imagen locales en lugar de operar a nivel de imagen global. Dado un VLM ajustado, RaVL primero descubre correlaciones espurias aprovechando un enfoque de agrupamiento a nivel de región para identificar características de imagen precisas que contribuyen a los errores de clasificación de cero disparos. Luego, RaVL mitiga la correlación espuria identificada con una nueva función de pérdida consciente de la región que permite al VLM centrarse en regiones relevantes e ignorar relaciones espurias durante el ajuste fino. Evaluamos RaVL en 654 VLMs con diversas arquitecturas de modelos, dominios de datos y correlaciones espurias aprendidas. Nuestros resultados muestran que RaVL descubre con precisión (mejora del 191% sobre la línea base más cercana) y mitiga (mejora del 8.2% en la precisión de clasificación de imágenes del peor grupo) las correlaciones espurias. Las evaluaciones cualitativas en VLMs de dominio general y médico confirman nuestros hallazgos.
La deuda técnica (TD) es un término utilizado para describir el trabajo adicional y los costos que surgen cuando los desarrolladores optan por una solución rápida y sencilla a un problema, en lugar de un enfoque más efectivo y bien diseñado, pero que consume más tiempo. Las Deudas Técnicas Autoadmitidas (SATDs) son un tipo específico de deuda técnica que los desarrolladores documentan y reconocen intencionalmente, generalmente a través de comentarios textuales. Si bien estos comentarios autoadmitidos son una herramienta útil para identificar deudas técnicas, la mayoría de los enfoques existentes se centran en capturar tokens cruciales asociados con diversas categorías de TD, descuidando la rica información incrustada en el propio código fuente. Investigaciones recientes se han centrado en detectar SATDs mediante el análisis de comentarios incrustados en el código fuente, y ha habido poco trabajo relacionado con las deudas técnicas contenidas en el código fuente. Para cubrir esta brecha, en este estudio, a través del análisis de comentarios y su código fuente asociado de 974 proyectos Java alojados en el corpus Stack, creamos el primer conjunto de datos de TD identificado por comentarios de código, junto con su código fuente asociado. A través de una evaluación empírica, descubrimos que los comentarios del conjunto de datos resultante ayudan a mejorar el rendimiento de predicción de los modelos de detección de SATD de última generación. Más importante aún, incluir el código fuente clasificado mejora significativamente la precisión en la predicción de varios tipos de deuda técnica. En este sentido, nuestro trabajo es doble: (i) Creemos que nuestro conjunto de datos catalizará futuros trabajos en el dominio, inspirando diversas cuestiones de investigación relacionadas con el reconocimiento de la deuda técnica; (ii) Los clasificadores propuestos pueden servir como líneas de base para otros estudios sobre la detección de TD mediante el conjunto de datos curado.