Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión han logrado un éxito notable en la generación de imágenes y videos. En este trabajo, demostramos que los modelos de difusión también pueden generar parámetros de redes neuronales de alto rendimiento. Nuestro enfoque es simple, utilizando un autoencoder y un modelo de difusión latente estándar. El autoencoder extrae representaciones latentes de un subconjunto de los parámetros entrenados de la red. Luego, se entrena un modelo de difusión para sintetizar estas representaciones latentes de parámetros a partir de ruido aleatorio. Posteriormente, genera nuevas representaciones que se pasan a través del decodificador del autoencoder, cuyas salidas están listas para usarse como nuevos subconjuntos de parámetros de la red. En diversas arquitecturas y conjuntos de datos, nuestro proceso de difusión genera consistentemente modelos con un rendimiento comparable o mejorado en comparación con las redes entrenadas, con un costo adicional mínimo. Es notable que, empíricamente, encontramos que los modelos generados se comportan de manera diferente a las redes entrenadas. Nuestros resultados fomentan una mayor exploración sobre el uso versátil de los modelos de difusión.
Presentamos el Ajuste de Instrucciones Generalizado (denominado GLAN), un método general y escalable para el ajuste de instrucciones de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A diferencia de trabajos previos que dependen de ejemplos iniciales o conjuntos de datos existentes para construir datos de ajuste de instrucciones, GLAN utiliza exclusivamente una taxonomía predefinida del conocimiento y las capacidades humanas como entrada y genera datos sintéticos de instrucciones a gran escala en todas las disciplinas. Específicamente, inspirados por la estructura sistemática del sistema educativo humano, construimos la taxonomía descomponiendo el conocimiento y las capacidades humanas en diversos campos, subcampos y, finalmente, disciplinas distintas de manera semi-automática, facilitado por LLMs. Posteriormente, generamos una lista exhaustiva de temas para cada disciplina y procedemos a diseñar un plan de estudios adaptado a cada tema, nuevamente utilizando LLMs. Con los conceptos clave detallados en cada sesión del plan de estudios, podemos generar instrucciones diversas con una amplia cobertura en todo el espectro del conocimiento y las habilidades humanas. Experimentos extensivos en modelos de lenguaje de gran escala (por ejemplo, Mistral) demuestran que GLAN sobresale en múltiples dimensiones, desde el razonamiento matemático, la codificación, exámenes académicos, razonamiento lógico hasta el seguimiento general de instrucciones, sin utilizar datos de entrenamiento específicos para estas tareas. Además, GLAN permite una fácil personalización y nuevos campos o habilidades pueden añadirse simplemente incorporando un nuevo nodo en nuestra taxonomía.
La mayoría de los modelos de generación de subtítulos para videos están diseñados para procesar clips cortos de pocos segundos y producir texto que describe conceptos visuales de bajo nivel (por ejemplo, objetos, escenas, acciones atómicas). Sin embargo, la mayoría de los videos del mundo real duran minutos u horas y tienen una estructura jerárquica compleja que abarca diferentes granularidades temporales. Proponemos Video ReCap, un modelo recursivo de generación de subtítulos para videos que puede procesar entradas de video de longitudes drásticamente diferentes (desde 1 segundo hasta 2 horas) y generar subtítulos en múltiples niveles de jerarquía. La arquitectura recursiva de video y lenguaje aprovecha la sinergia entre las diferentes jerarquías de video y puede procesar videos de larga duración de manera eficiente. Utilizamos un esquema de entrenamiento basado en aprendizaje curricular para aprender la estructura jerárquica de los videos, comenzando con subtítulos a nivel de clip que describen acciones atómicas, luego enfocándonos en descripciones a nivel de segmento y concluyendo con la generación de resúmenes para videos de una hora de duración. Además, presentamos el conjunto de datos Ego4D-HCap, ampliando Ego4D con 8,267 resúmenes de video de largo alcance recopilados manualmente. Nuestro modelo recursivo puede generar subtítulos de manera flexible en diferentes niveles de jerarquía, siendo también útil para otras tareas complejas de comprensión de video, como VideoQA en EgoSchema. Los datos, código y modelos están disponibles en: https://sites.google.com/view/vidrecap.
Presentamos VideoPrism, un codificador de video de propósito general que aborda diversas tareas de comprensión de video con un único modelo congelado. Preentrenamos VideoPrism en un corpus heterogéneo que contiene 36 millones de pares de video-texto de alta calidad y 582 millones de clips de video con texto paralelo ruidoso (por ejemplo, transcripciones ASR). El enfoque de preentrenamiento mejora el autoenmascaramiento mediante la destilación global-local de embeddings semánticos de video y un esquema de reorganización de tokens, permitiendo que VideoPrism se centre principalmente en la modalidad de video mientras aprovecha el invaluable texto asociado con los videos. Evaluamos exhaustivamente VideoPrism en cuatro grupos amplios de tareas de comprensión de video, desde preguntas y respuestas sobre videos web hasta visión por computadora para la ciencia, logrando un rendimiento de vanguardia en 30 de 33 benchmarks de comprensión de video.
Para que los asistentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) puedan adaptarse eficazmente a las necesidades de información en constante evolución, es necesario que sea posible actualizar su conocimiento factual mediante un entrenamiento continuo con nuevos datos. El enfoque estándar para lograrlo implica un pre-entrenamiento continuo con nuevos documentos, seguido de un ajuste por instrucción (instruction-tuning) utilizando pares de preguntas y respuestas (QA). Sin embargo, hemos observado que los LLM entrenados con este enfoque tienen dificultades para responder preguntas, a pesar de que la perplejidad de los documentos se minimiza. Descubrimos que los pares QA suelen ser directos, mientras que los documentos son más complejos, entrelazando múltiples afirmaciones factuales de manera intrincada. Por lo tanto, planteamos la hipótesis de que es beneficioso exponer a los LLM a pares QA antes del pre-entrenamiento continuo con documentos, de modo que el proceso de codificación del conocimiento a partir de documentos complejos tenga en cuenta cómo se accede a este conocimiento a través de preguntas. Basándonos en esto, proponemos el pre-ajuste por instrucción (PIT, por sus siglas en inglés), un método que realiza el ajuste por instrucción con preguntas antes del entrenamiento con documentos. Esto contrasta con el ajuste por instrucción estándar, que aprende a extraer conocimiento después del entrenamiento con documentos. Experimentos exhaustivos y estudios de ablación demuestran que PIT mejora significativamente la capacidad de los LLM para absorber conocimiento de nuevos documentos, superando al ajuste por instrucción estándar en un 17.8%.
Los LLM han transformado el PLN y han demostrado potencial en diversos campos, aunque su aplicación en finanzas está poco explorada debido a la falta de evaluaciones exhaustivas y la complejidad de las tareas financieras. Esto, junto con el rápido desarrollo de los LLM, subraya la necesidad urgente de un benchmark sistemático de evaluación financiera para estos modelos. En este artículo, presentamos FinBen, el primer benchmark de evaluación integral y de código abierto, diseñado específicamente para evaluar a fondo las capacidades de los LLM en el ámbito financiero. FinBen abarca 35 conjuntos de datos en 23 tareas financieras, organizadas en tres espectros de dificultad inspirados en la teoría de Cattell-Horn-Carroll, para evaluar las habilidades cognitivas de los LLM en razonamiento inductivo, memoria asociativa, razonamiento cuantitativo, inteligencia cristalizada y más. Nuestra evaluación de 15 LLM representativos, incluyendo GPT-4, ChatGPT y el último Gemini, revela sus fortalezas y limitaciones en el dominio financiero. Los hallazgos indican que GPT-4 lidera en cuantificación, extracción, razonamiento numérico y operaciones bursátiles, mientras que Gemini destaca en generación y predicción; sin embargo, ambos tienen dificultades con la extracción compleja y la predicción, mostrando una clara necesidad de mejoras específicas. El ajuste por instrucciones mejora el rendimiento en tareas simples, pero no logra potenciar las habilidades de razonamiento complejo y predicción. FinBen busca evaluar continuamente los LLM en finanzas, fomentando el desarrollo de la IA con actualizaciones periódicas de tareas y modelos.
En este artículo, proponemos un algoritmo que permite el refinamiento conjunto de la pose de la cámara y la geometría de la escena representada mediante un tensor de bajo rango descompuesto, utilizando únicamente imágenes 2D como supervisión. Primero, realizamos un estudio piloto basado en una señal 1D y relacionamos nuestros hallazgos con escenarios 3D, donde la optimización conjunta ingenua de la pose en NeRFs basados en vóxeles puede fácilmente conducir a soluciones subóptimas. Además, basándonos en el análisis del espectro de frecuencias, proponemos aplicar filtros gaussianos convolucionales en campos de radiancia 2D y 3D para un entrenamiento de coarse-to-fine que permite la optimización conjunta de la pose de la cámara. Aprovechando la propiedad de descomposición en el tensor de bajo rango descompuesto, nuestro método logra un efecto equivalente a la convolución 3D por fuerza bruta con solo incurrir en un pequeño sobrecosto computacional. Para mejorar aún más la robustez y estabilidad de la optimización conjunta, también proponemos técnicas de supervisión 2D suavizada, parámetros de kernel escalados aleatoriamente y máscara de pérdida guiada por bordes. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que nuestro marco propuesto logra un rendimiento superior en la síntesis de nuevas vistas, así como una rápida convergencia en la optimización.
Este artículo presenta una arquitectura neuronal llamada MVDiffusion++ para la reconstrucción de objetos 3D, que sintetiza vistas densas y de alta resolución de un objeto a partir de una o pocas imágenes sin información de poses de cámara. MVDiffusion++ logra una flexibilidad y escalabilidad superiores con dos ideas sorprendentemente simples: 1) Una "arquitectura libre de poses" donde la autoatención estándar entre características latentes 2D aprende la consistencia 3D a través de un número arbitrario de vistas condicionales y de generación sin utilizar explícitamente información de poses de cámara; y 2) Una "estrategia de descarte de vistas" que elimina un número sustancial de vistas de salida durante el entrenamiento, lo que reduce la huella de memoria en tiempo de entrenamiento y permite la síntesis de vistas densas y de alta resolución en tiempo de prueba. Utilizamos Objaverse para el entrenamiento y Google Scanned Objects para la evaluación con métricas estándar de síntesis de vistas novedosas y reconstrucción 3D, donde MVDiffusion++ supera significativamente el estado del arte actual. También demostramos un ejemplo de aplicación de texto a 3D combinando MVDiffusion++ con un modelo generativo de texto a imagen.
La creación manual de texturas para mallas 3D es un proceso que consume mucho tiempo, incluso para creadores expertos de contenido visual. Proponemos un enfoque rápido para texturizar automáticamente una malla 3D de entrada basado en una indicación de texto proporcionada por el usuario. Es importante destacar que nuestro enfoque separa la iluminación del material/superficie reflectante en la textura resultante, de modo que la malla pueda ser correctamente reiluminada y renderizada en cualquier entorno de iluminación. Introducimos LightControlNet, un nuevo modelo de texto a imagen basado en la arquitectura ControlNet, que permite especificar la iluminación deseada como una imagen de condicionamiento para el modelo. Nuestra canalización de texto a textura construye la textura en dos etapas. La primera etapa produce un conjunto disperso de vistas de referencia visualmente consistentes de la malla utilizando LightControlNet. La segunda etapa aplica una optimización de textura basada en Score Distillation Sampling (SDS) que trabaja con LightControlNet para aumentar la calidad de la textura mientras se separa el material de la superficie de la iluminación. Nuestra canalización es significativamente más rápida que los métodos anteriores de texto a textura, produciendo texturas de alta calidad y reiluminables.
El tacto es una modalidad sensorial importante para los seres humanos, pero aún no se ha incorporado en un modelo generativo de lenguaje multimodal. Esto se debe en parte a la dificultad de obtener etiquetas en lenguaje natural para datos táctiles y a la complejidad de alinear lecturas táctiles con observaciones visuales y descripciones lingüísticas. Como un paso hacia la reducción de esta brecha, este trabajo introduce un nuevo conjunto de datos de 44K pares visión-tacto capturados en entornos reales, con etiquetas en inglés anotadas por humanos (10%) y pseudo-etiquetas textuales generadas por GPT-4V (90%). Utilizamos este conjunto de datos para entrenar un codificador táctico alineado con visión y lenguaje para clasificación de vocabulario abierto, y un modelo tacto-visión-lenguaje (TVL) para generación de texto utilizando el codificador entrenado. Los resultados sugieren que, al incorporar el tacto, el modelo TVL mejora (+29% en precisión de clasificación) la alineación tacto-visión-lenguaje en comparación con modelos existentes entrenados en cualquier par de esas modalidades. Aunque solo una pequeña fracción del conjunto de datos está etiquetada por humanos, el modelo TVL demuestra una mejor comprensión visual-táctil sobre GPT-4V (+12%) y modelos de visión-lenguaje de código abierto (+32%) en un nuevo punto de referencia de comprensión tacto-visión. Código y datos: https://tactile-vlm.github.io.
Los notables avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) no los han hecho inmunes a desafíos, particularmente en el contexto de manejar información engañosa en las indicaciones, lo que resulta en respuestas alucinadas bajo tales condiciones. Para evaluar cuantitativamente esta vulnerabilidad, presentamos MAD-Bench, un punto de referencia cuidadosamente seleccionado que contiene 850 muestras de prueba divididas en 6 categorías, como objetos inexistentes, conteo de objetos, relaciones espaciales y confusión visual. Proporcionamos un análisis exhaustivo de MLLMs populares, que van desde GPT-4V y Gemini-Pro hasta modelos de código abierto, como LLaVA-1.5 y CogVLM. Empíricamente, observamos brechas significativas en el rendimiento entre GPT-4V y otros modelos; y modelos previamente robustos ajustados por instrucciones, como LRV-Instruction y LLaVA-RLHF, no son efectivos en este nuevo punto de referencia. Mientras que GPT-4V logra un 75.02% de precisión en MAD-Bench, la precisión de cualquier otro modelo en nuestros experimentos oscila entre el 5% y el 35%. Además, proponemos un remedio que añade un párrafo adicional a las indicaciones engañosas para alentar a los modelos a pensar dos veces antes de responder la pregunta. Sorprendentemente, este método simple puede incluso duplicar la precisión; sin embargo, los números absolutos siguen siendo demasiado bajos para ser satisfactorios. Esperamos que MAD-Bench pueda servir como un punto de referencia valioso para estimular más investigaciones que mejoren la resistencia de los modelos frente a indicaciones engañosas.
La resumenización de noticias de un solo documento ha experimentado avances significativos en cuanto a fidelidad en los últimos años, impulsados por investigaciones sobre la evaluación de la consistencia factual o las alucinaciones. Nos preguntamos si estos avances se trasladan a otros dominios de resumenización de texto. Proponemos un nuevo punto de referencia de evaluación en la resumenización de diálogos centrados en temas, generados por modelos de lenguaje de gran tamaño (LLMs) de diversos tamaños. Proporcionamos anotaciones humanas binarias a nivel de oración sobre la consistencia factual de estos resúmenes, junto con explicaciones detalladas de las oraciones que son factualmente inconsistentes. Nuestro análisis muestra que los LLMs existentes generan una cantidad significativa de errores factuales en el dominio de los diálogos, independientemente del tamaño del modelo. Por otro lado, cuando los LLMs, incluido GPT-4, actúan como evaluadores binarios de factualidad, su desempeño es deficiente y pueden ser superados por métricas especializadas de evaluación de factualidad, que representan el estado del arte. Finalmente, realizamos un análisis de los tipos de alucinaciones con una taxonomía de errores cuidadosamente seleccionada. Encontramos que hay diversos errores y distribuciones de errores en los resúmenes generados por los modelos, y que las métricas no basadas en LLMs pueden capturar todos los tipos de errores mejor que los evaluadores basados en LLMs.
Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo