Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos de química cuántica computacional proporcionan aproximaciones precisas de propiedades moleculares cruciales para el descubrimiento de fármacos asistido por computadora y otras áreas de la ciencia química. Sin embargo, la alta complejidad computacional limita la escalabilidad de sus aplicaciones. Los potenciales de redes neuronales (NNPs, por sus siglas en inglés) son una alternativa prometedora a los métodos de química cuántica, pero requieren grandes y diversos conjuntos de datos para su entrenamiento. Este trabajo presenta un nuevo conjunto de datos y punto de referencia llamado nabla^2DFT, basado en nablaDFT. Contiene el doble de estructuras moleculares, tres veces más conformaciones, nuevos tipos de datos y tareas, y modelos de vanguardia. El conjunto de datos incluye energías, fuerzas, 17 propiedades moleculares, matrices hamiltonianas y de solapamiento, y un objeto de función de onda. Todos los cálculos se realizaron a nivel DFT (omegaB97X-D/def2-SVP) para cada conformación. Además, nabla^2DFT es el primer conjunto de datos que contiene trayectorias de relajación para un número sustancial de moléculas similares a fármacos. También introducimos un nuevo punto de referencia para evaluar NNPs en tareas de predicción de propiedades moleculares, predicción hamiltoniana y optimización conformacional. Finalmente, proponemos un marco extensible para entrenar NNPs e implementamos 10 modelos dentro de él.
El preentrenamiento multitarea no supervisado ha sido el método clave detrás del reciente éxito de los modelos de lenguaje (LM). Sin embargo, el aprendizaje multitarea supervisado sigue siendo muy prometedor, ya que su escalamiento en la etapa posterior al entrenamiento tiende a mejorar la generalización. En este artículo, exploramos el preentrenamiento multitarea supervisado mediante la propuesta de Instruction Pre-Training, un marco que amplía de manera escalable grandes corpus de texto en bruto con pares de instrucción-respuesta para preentrenar LM. Los pares de instrucción-respuesta son generados por un sintetizador de instrucciones eficiente construido sobre modelos de código abierto. En nuestros experimentos, sintetizamos 200 millones de pares de instrucción-respuesta que cubren más de 40 categorías de tareas para verificar la efectividad de Instruction Pre-Training. En el preentrenamiento desde cero, Instruction Pre-Training no solo mejora consistentemente los modelos base preentrenados, sino que también se beneficia más del ajuste posterior con instrucciones. En el preentrenamiento continuo, Instruction Pre-Training permite que Llama3-8B sea comparable o incluso supere a Llama3-70B. Nuestro modelo, código y datos están disponibles en https://github.com/microsoft/LMOps.
La tarea de manipular atributos de imágenes reales mediante la inversión de StyleGAN ha sido ampliamente investigada. Este proceso implica buscar variables latentes de un generador StyleGAN bien entrenado que pueda sintetizar una imagen real, modificar estas variables latentes y luego sintetizar una imagen con las ediciones deseadas. Es necesario encontrar un equilibrio entre la calidad de la reconstrucción y la capacidad de edición. Estudios anteriores utilizaron el espacio W de baja dimensión para la búsqueda latente, lo que facilitó una edición efectiva pero presentó dificultades para reconstruir detalles intrincados. Investigaciones más recientes han recurrido al espacio de características F de alta dimensión, que logra invertir la imagen de entrada pero pierde gran parte de los detalles durante la edición. En este artículo, presentamos StyleFeatureEditor, un método novedoso que permite la edición tanto en latentes w como en latentes F. Esta técnica no solo permite la reconstrucción de detalles más finos de la imagen, sino que también asegura su preservación durante la edición. También presentamos una nueva canalización de entrenamiento diseñada específicamente para entrenar nuestro modelo y editar con precisión los latentes F. Nuestro método se compara con enfoques de codificación de última generación, demostrando que nuestro modelo sobresale en términos de calidad de reconstrucción y es capaz de editar incluso ejemplos desafiantes fuera del dominio. El código está disponible en https://github.com/AIRI-Institute/StyleFeatureEditor.
Los conocimientos previos humanos desempeñan un papel crucial en la utilización eficiente de los datos en el aprendizaje profundo. Sin embargo, con el desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), se ha puesto un mayor énfasis en escalar tanto el tamaño del modelo como el volumen de datos, lo que a menudo reduce la importancia de los conocimientos previos humanos en la construcción de datos. Influenciados por estas tendencias, los modelos de lenguaje pequeños (SLMs, por sus siglas en inglés) existentes dependen principalmente de datos de entrenamiento a gran escala extraídos de la web, descuidando la incorporación adecuada de los conocimientos previos humanos. Esta omisión limita la eficiencia del entrenamiento de los modelos de lenguaje en entornos con recursos limitados. En este artículo, proponemos un principio para aprovechar los conocimientos previos humanos en la construcción de datos. Este principio enfatiza la obtención de SLMs de alto rendimiento mediante el entrenamiento en un conjunto de datos conciso que combine diversidad semántica y consistencia en la calidad de los datos, evitando la filtración de datos de referencia. Siguiendo este principio, entrenamos un SLM llamado HARE-1.1B. Experimentos exhaustivos en conjuntos de datos de referencia a gran escala demuestran que HARE-1.1B supera favorablemente a los SLMs más avanzados, validando la efectividad del principio propuesto. Además, esto proporciona nuevas perspectivas sobre el entrenamiento eficiente de modelos de lenguaje en entornos con recursos limitados desde el punto de vista de los conocimientos previos humanos.
Los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) demuestran una notable competencia para abordar una amplia gama de preguntas visuales, lo que requiere fuertes capacidades de percepción y razonamiento. Evaluar estas dos competencias de manera independiente es crucial para el refinamiento de los modelos, a pesar de la inherente dificultad debido a la naturaleza entrelazada de la percepción y el razonamiento en los VLMs existentes. Para abordar este problema, presentamos Prism, un marco innovador diseñado para desentrañar los procesos de percepción y razonamiento involucrados en la resolución de preguntas visuales. Prism consta de dos etapas distintas: una etapa de percepción que utiliza un VLM para extraer y articular información visual en forma textual, y una etapa de razonamiento que formula respuestas basadas en la información visual extraída utilizando un Modelo de Lenguaje Grande (LLM, por sus siglas en inglés). Este diseño modular permite la comparación y evaluación sistemática tanto de VLMs propietarios como de código abierto en términos de sus fortalezas en percepción y razonamiento. Nuestro marco analítico proporciona varias ideas valiosas, destacando el potencial de Prism como una solución rentable para tareas de visión y lenguaje. Al combinar un VLM simplificado centrado en la percepción con un LLM potente adaptado para el razonamiento, Prism logra resultados superiores en tareas generales de visión y lenguaje mientras reduce sustancialmente los costos de entrenamiento y operación. Las evaluaciones cuantitativas muestran que Prism, cuando se configura con un LLaVA 2B básico y un GPT-3.5 de acceso gratuito, ofrece un rendimiento comparable al de VLMs 10 veces más grandes en el riguroso punto de referencia multimodal MMStar. El proyecto se encuentra disponible en: https://github.com/SparksJoe/Prism.
El surgimiento de los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) ha impulsado la investigación sobre sus aplicaciones en contextos multimodales, particularmente en la comprensión de videos. Los puntos de referencia tradicionales de VideoQA, a pesar de proporcionar métricas cuantitativas, a menudo no logran abarcar el espectro completo del contenido de video y evalúan de manera insuficiente la comprensión temporal de los modelos. Para abordar estas limitaciones, presentamos MMBench-Video, un punto de referencia cuantitativo diseñado para evaluar rigurosamente la competencia de los LVLMs en la comprensión de videos. MMBench-Video incorpora videos extensos de YouTube y emplea preguntas de formato libre, reflejando casos de uso prácticos. El punto de referencia está meticulosamente elaborado para sondear las habilidades de razonamiento temporal de los modelos, con todas las preguntas anotadas manualmente según una taxonomía de habilidades cuidadosamente construida. Utilizamos GPT-4 para la evaluación automatizada, demostrando una precisión y robustez superiores en comparación con evaluaciones anteriores basadas en LLM. Utilizando MMBench-Video, hemos realizado evaluaciones exhaustivas que incluyen tanto LVLMs propietarios como de código abierto para imágenes y videos. MMBench-Video se erige como un recurso valioso para la comunidad de investigación, facilitando una mejor evaluación de los LVLMs y catalizando el progreso en el campo de la comprensión de videos. El código de evaluación de MMBench-Video se integrará en VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
La fusión de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es una técnica rentable para combinar múltiples LLMs expertos en un único modelo versátil, conservando la experiencia de los originales. Sin embargo, los enfoques actuales suelen pasar por alto la importancia de la alineación de seguridad durante la fusión, lo que da lugar a modelos altamente desalineados. Este trabajo investiga los efectos de la fusión de modelos en la alineación. Evaluamos varias técnicas populares de fusión de modelos, demostrando que los métodos existentes no solo transfieren la experiencia en dominios específicos, sino que también propagan la desalineación. Proponemos un enfoque simple de dos pasos para abordar este problema: (i) generar datos sintéticos de seguridad y específicos del dominio, y (ii) incorporar estos datos generados en el proceso de optimización de las técnicas existentes de fusión de modelos basadas en datos. Esto nos permite tratar la alineación como una habilidad que puede maximizarse en el LLM fusionado resultante. Nuestros experimentos ilustran la efectividad de integrar datos relacionados con la alineación durante la fusión, lo que da como resultado modelos que sobresalen tanto en la experiencia del dominio como en la alineación.
Cuando se enfrentan a preguntas que involucran pensamiento visual, los humanos cambian naturalmente de modalidad de razonamiento, a menudo formando imágenes mentales o dibujando ayudas visuales. Los modelos de lenguaje grandes han mostrado resultados prometedores en razonamiento aritmético y simbólico al expresar el razonamiento intermedio en texto como una cadena de pensamiento, pero luchan por extender esta capacidad para responder consultas de texto que se resuelven fácilmente mediante razonamiento visual, incluso con un extenso entrenamiento multimodal. Introducimos un método simple, el prompting de pizarra de pensamiento, para desbloquear las capacidades de razonamiento visual de los modelos de lenguaje grandes multimodales a través de diferentes modalidades. El prompting de pizarra de pensamiento proporciona a los modelos de lenguaje grandes multimodales una `pizarra' metafórica para dibujar los pasos de razonamiento como imágenes, y luego devuelve estas imágenes al modelo para su posterior procesamiento. Descubrimos que esto se puede lograr sin demostraciones o módulos especializados, aprovechando en su lugar la capacidad existente de los modelos para escribir código con bibliotecas como Matplotlib y Turtle. Este enfoque simple muestra resultados de vanguardia en cuatro tareas difíciles de lenguaje natural que involucran razonamiento visual y espacial. Identificamos múltiples escenarios donde GPT-4o usando cadena de pensamiento falla dramáticamente, incluyendo más de uno donde alcanza un 0% de precisión, mientras que la pizarra de pensamiento permite alcanzar hasta un 92% de precisión en estos mismos escenarios. Presentamos una exploración detallada de dónde la técnica tiene éxito, así como sus fuentes de error.
La destilación de difusión representa una dirección altamente prometedora para lograr una generación fiel de imágenes a partir de texto en pocos pasos de muestreo. Sin embargo, a pesar de los recientes éxitos, los modelos destilados existentes aún no ofrecen todo el espectro de capacidades de difusión, como la inversión de imágenes reales, que permite muchos métodos precisos de manipulación de imágenes. Este trabajo tiene como objetivo enriquecer los modelos destilados de difusión de texto a imagen con la capacidad de codificar eficazmente imágenes reales en su espacio latente. Para ello, introducimos la Destilación de Consistencia Invertible (iCD), un marco generalizado de destilación de consistencia que facilita tanto la síntesis de imágenes de alta calidad como la codificación precisa de imágenes en solo 3-4 pasos de inferencia. Aunque el problema de inversión para los modelos de difusión de texto a imagen se ve agravado por las altas escalas de guía sin clasificador, observamos que la guía dinámica reduce significativamente los errores de reconstrucción sin una degradación notable en el rendimiento de generación. Como resultado, demostramos que iCD equipado con guía dinámica puede servir como una herramientia altamente efectiva para la edición de imágenes guiada por texto en modo zero-shot, compitiendo con alternativas más costosas del estado del arte.
Las tareas de extracción de información requieren modelos precisos, eficientes y generalizables. Los enfoques clásicos de aprendizaje profundo supervisado pueden alcanzar el rendimiento necesario, pero requieren grandes conjuntos de datos y tienen limitaciones para adaptarse a diferentes tareas. Por otro lado, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una buena generalización, lo que significa que pueden adaptarse a muchas tareas diferentes según las solicitudes del usuario. Sin embargo, los LLMs son computacionalmente costosos y tienden a fallar al generar salidas estructuradas. En este artículo, presentaremos un nuevo tipo de modelo GLiNER que puede utilizarse para diversas tareas de extracción de información mientras es un modelo codificador pequeño. Nuestro modelo logró un rendimiento de vanguardia (SoTA) en benchmarks de reconocimiento de entidades nombradas (NER) en modo zero-shot y un rendimiento destacado en tareas de respuesta a preguntas, resumen y extracción de relaciones. Además, en este artículo, cubriremos resultados experimentales sobre enfoques de autoaprendizaje para el reconocimiento de entidades nombradas utilizando modelos GLiNER.
Los avances recientes en los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han aprovechado extensos conjuntos de datos multimodales para mejorar las capacidades en tareas complejas basadas en conocimiento. Sin embargo, los desafíos persistentes en errores de percepción y razonamiento limitan su eficacia, particularmente en la interpretación de datos visuales intrincados y la deducción de relaciones multimodales. Para abordar estos problemas, presentamos un formato novedoso de conjunto de datos, PIN (Documentos Multimodales Emparejados e Intercalados), diseñado para mejorar significativamente tanto la profundidad como la amplitud del entrenamiento multimodal. El formato PIN se basa en tres principios fundamentales: intensidad de conocimiento, escalabilidad y soporte para diversas modalidades de entrenamiento. Este formato innovador combina archivos markdown e imágenes detalladas para enriquecer los datos de entrenamiento con una estructura de conocimiento densa y estrategias de entrenamiento versátiles. Presentamos PIN-14M, un conjunto de datos de código abierto que comprende 14 millones de muestras derivadas de una amplia gama de fuentes en chino e inglés, diseñado para incluir contenido web y científico complejo. Este conjunto de datos se construye meticulosamente para garantizar la calidad de los datos y la integridad ética, con el objetivo de facilitar estrategias de entrenamiento avanzadas y mejorar la robustez del modelo frente a los desafíos comunes del entrenamiento multimodal. Nuestros resultados iniciales, que forman la base de este informe técnico, sugieren un potencial significativo para el formato PIN en la mejora del rendimiento de los LMMs, con planes para futuras expansiones y evaluaciones detalladas de su impacto en las capacidades del modelo.
Los corpus de entrenamiento para modelos de lenguaje visual (VLMs, por sus siglas en inglés) generalmente carecen de cantidades suficientes de datos centrados en la toma de decisiones. Esto hace que los VLMs preentrenados sean subóptimos para tareas de toma de decisiones, como el control de dispositivos en entornos reales a través de interfaces gráficas de usuario (GUIs). Aunque el entrenamiento con demostraciones estáticas ha mostrado cierto potencial, demostramos que estos métodos son insuficientes para controlar GUIs reales debido a su incapacidad para manejar la estocasticidad y la no estacionariedad del mundo real, aspectos que no se capturan en datos de observación estáticos. Este artículo introduce un novedoso enfoque de aprendizaje por refuerzo (RL) autónomo, llamado DigiRL, para entrenar agentes de control de dispositivos en entornos reales mediante el ajuste fino de un VLM preentrenado en dos etapas: RL fuera de línea para inicializar el modelo, seguido de RL de fuera de línea a en línea. Para lograrlo, construimos un entorno de aprendizaje escalable y paralelizable para Android equipado con un evaluador basado en VLM y desarrollamos un enfoque de RL simple pero efectivo para el aprendizaje en este dominio. Nuestro enfoque ejecuta RL ponderado por ventajas con estimadores de ventaja mejorados para tener en cuenta la estocasticidad, junto con un currículo automático para obtener la máxima señal de aprendizaje. Demostramos la efectividad de DigiRL utilizando el conjunto de datos Android-in-the-Wild (AitW), donde nuestro VLM de 1.3B entrenado con RL logra una mejora absoluta del 49.5% —de una tasa de éxito del 17.7% al 67.2%— en comparación con el ajuste fino supervisado utilizando datos de demostración humana estática. Estos resultados superan significativamente no solo a los mejores agentes anteriores, incluyendo AppAgent con GPT-4V (8.3% de tasa de éxito) y el CogAgent de 17B entrenado con datos de AitW (38.5%), sino también al mejor enfoque de RL autónomo anterior basado en clonación de comportamiento filtrada (57.8%), estableciendo así un nuevo estado del arte para agentes digitales de control de dispositivos en entornos reales.
Una capacidad fundamental de los modelos de lenguaje de gran escala (LLMs) es seguir instrucciones en lenguaje natural. Sin embargo, el problema de construir automáticamente datos de entrenamiento de alta calidad para mejorar las habilidades complejas de seguimiento de instrucciones de los LLMs sin anotación manual sigue sin resolverse. En este artículo, presentamos AutoIF, el primer método escalable y confiable para generar automáticamente datos de entrenamiento de seguimiento de instrucciones. AutoIF transforma la validación de la calidad de los datos de seguimiento de instrucciones en verificación de código, requiriendo que los LLMs generen instrucciones, el código correspondiente para verificar la corrección de las respuestas a las instrucciones y muestras de pruebas unitarias para verificar la corrección del código. Luego, el muestreo por rechazo basado en retroalimentación de ejecución puede generar datos para el Ajuste Supervisado (SFT) y el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). AutoIF logra mejoras significativas en tres algoritmos de entrenamiento, SFT, DPO Offline y DPO Online, cuando se aplica a los principales LLMs de código abierto, Qwen2 y LLaMA3, en configuraciones de autoalineación y destilación de fuerte a débil. Nuestro código está disponible públicamente en https://github.com/QwenLM/AutoIF.
En este artículo, presentamos un novedoso marco de inferencia de baja latencia para modelos de lenguaje grandes (LLMs, por sus siglas en inglés) que permite realizar inferencias con indicaciones incompletas. Al reasignar los procesos computacionales a la fase de entrada de la indicación, logramos una reducción sustancial en la latencia, mejorando significativamente la experiencia interactiva de los usuarios de LLMs. El marco gestiona de manera eficiente la visibilidad de la indicación en flujo para el modelo, permitiéndole inferir a partir de indicaciones incompletas o esperar indicaciones adicionales. En comparación con los métodos tradicionales de inferencia que utilizan indicaciones completas, nuestro enfoque demuestra una reducción promedio del 59% en la latencia de respuesta en el conjunto de datos MMLU-Pro, manteniendo una precisión comparable. Además, nuestro marco facilita la inferencia colaborativa y la generación de salida entre diferentes modelos. Al emplear un LLM para la inferencia y un modelo de lenguaje pequeño (SLM, por sus siglas en inglés) para la salida, logramos una reducción promedio del 68% en la latencia de respuesta, junto con una mejora del 5.5% en la precisión en el conjunto de datos MMLU-Pro en comparación con la línea base del SLM. Para indicaciones largas que superan las 20 oraciones, la latencia de respuesta puede reducirse hasta en un 93%.
El razonamiento de sentido común se basa fundamentalmente en conocimiento multimodal. Sin embargo, los modelos de lenguaje de gran escala (LLMs) existentes se entrenan principalmente utilizando únicamente datos textuales, lo que limita su capacidad para incorporar información visual esencial. Por el contrario, los modelos de lenguaje visual, que sobresalen en tareas orientadas a lo visual, a menudo fallan en tareas no visuales como el razonamiento básico de sentido común. Esta divergencia resalta un desafío crítico: la integración de una comprensión visual robusta con el razonamiento lingüístico basado en texto. Con este fin, presentamos un método destinado a mejorar el sentido común visual de los LLMs. Específicamente, nuestro método genera múltiples imágenes basadas en el texto de entrada y las integra en el proceso de toma de decisiones del modelo mediante la combinación de sus probabilidades de predicción. Para facilitar el modelado de lenguaje multimodal fundamentado, empleamos una capa de fusión tardía que combina las características visuales proyectadas con la salida de un LLM preentrenado condicionado únicamente en texto. Esta capa de fusión tardía permite realizar predicciones basadas en conocimiento integral de imagen-texto, así como únicamente en texto cuando esto es necesario. Evaluamos nuestro enfoque utilizando varias tareas de razonamiento de sentido común visual junto con tareas tradicionales de PLN, incluyendo razonamiento de sentido común y comprensión lectora. Nuestros resultados experimentales demuestran una superioridad significativa sobre las líneas base existentes. Cuando se aplica a los LLMs más recientes de última generación (por ejemplo, Llama3), observamos mejoras no solo en el sentido común visual, sino también en los puntos de referencia tradicionales de PLN. El código y los modelos están disponibles en https://github.com/guyyariv/vLMIG.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés), un método estándar para alinear modelos de lenguaje con las preferencias humanas, se aplica tradicionalmente a preferencias fuera de línea. Estudios recientes muestran que DPO se beneficia del entrenamiento iterativo con preferencias en línea etiquetadas por un modelo de recompensa entrenado. En este trabajo, identificamos un inconveniente de la DPO iterativa básica: la mejora en la calidad de las respuestas puede llevar a un aumento en la verbosidad. Para abordar esto, introducimos la DPO iterativa con regularización de longitud (iLR-DPO) para penalizar la extensión de las respuestas. Nuestros resultados empíricos muestran que iLR-DPO puede mejorar un modelo de 7B para rendir al nivel de GPT-4 sin incrementar la verbosidad. Específicamente, nuestro modelo de 7B alcanza una tasa de victoria controlada por longitud del 50.5% frente a GPT-4 Preview en AlpacaEval 2.0, y destaca en benchmarks estándar como MT-Bench, Arena-Hard y el OpenLLM Leaderboard. Estos resultados demuestran la efectividad de la DPO iterativa para alinear modelos de lenguaje con el feedback humano.
La capacidad de los CodeLLMs para generar código ejecutable y funcionalmente correcto a escala de repositorio sigue siendo en gran medida inexplorada. Presentamos RepoExec, un nuevo punto de referencia para evaluar la generación de código a escala de repositorio. RepoExec se centra en tres aspectos principales: la capacidad de ejecución, la corrección funcional mediante la generación automatizada de casos de prueba con una alta tasa de cobertura, y contextos cuidadosamente diseñados entre archivos para generar código con precisión. Nuestro trabajo explora un escenario controlado en el que los desarrolladores especifican las dependencias de código necesarias, desafiando al modelo a integrarlas con precisión. Los experimentos muestran que, aunque los LLMs preentrenados superan a los modelos ajustados por instrucciones en cuanto a corrección, estos últimos sobresalen en la utilización de las dependencias proporcionadas y en la demostración de capacidades de depuración. También presentamos un nuevo conjunto de datos ajustado por instrucciones que se centra en las dependencias de código y demostramos que los CodeLLMs afinados con nuestro conjunto de datos tienen una mejor capacidad para aprovechar estas dependencias de manera efectiva. RepoExec tiene como objetivo proporcionar una evaluación integral de la funcionalidad del código y su alineación con la intención del desarrollador, allanando el camino para CodeLLMs más confiables y aplicables en escenarios del mundo real. El conjunto de datos y el código fuente se pueden encontrar en~https://github.com/FSoft-AI4Code/RepoExec.
Recientemente, los avances en la síntesis de video han captado una atención significativa. Modelos de síntesis de video como AnimateDiff y Stable Video Diffusion han demostrado la aplicabilidad práctica de los modelos de difusión en la creación de contenido visual dinámico. La aparición de SORA ha destacado aún más el potencial de las tecnologías de generación de video. Sin embargo, la extensión de la duración de los videos se ha visto limitada por las restricciones en los recursos computacionales. La mayoría de los modelos de síntesis de video existentes solo pueden generar clips de video cortos. En este artículo, proponemos una novedosa metodología de ajuste posterior para modelos de síntesis de video, denominada ExVideo. Este enfoque está diseñado para mejorar la capacidad de los modelos actuales de síntesis de video, permitiéndoles producir contenido durante períodos temporales más extensos con menores costos de entrenamiento. En particular, diseñamos estrategias de extensión para arquitecturas de modelos temporales comunes, incluyendo convolución 3D, atención temporal y embebido posicional. Para evaluar la eficacia de nuestro enfoque de ajuste posterior, realizamos entrenamiento de extensión en el modelo Stable Video Diffusion. Nuestro enfoque aumenta la capacidad del modelo para generar hasta 5 veces su número original de fotogramas, requiriendo solo 1.5k horas de entrenamiento en GPU en un conjunto de datos que comprende 40k videos. Es importante destacar que el aumento sustancial en la duración del video no compromete las capacidades de generalización innatas del modelo, y este demuestra sus ventajas en la generación de videos de diversos estilos y resoluciones. Publicaremos el código fuente y el modelo mejorado de manera pública.
Los puntos de referencia existentes no evalúan a los agentes de lenguaje en su interacción con usuarios humanos ni en su capacidad para seguir reglas específicas de un dominio, ambos aspectos vitales para su implementación en aplicaciones del mundo real. Proponemos tau-bench, un punto de referencia que simula conversaciones dinámicas entre un usuario (simulado por modelos de lenguaje) y un agente de lenguaje equipado con herramientas API específicas del dominio y directrices de políticas. Empleamos un proceso de evaluación eficiente y fiel que compara el estado de la base de datos al final de una conversación con el estado objetivo anotado. También proponemos una nueva métrica (pass^k) para evaluar la confiabilidad del comportamiento del agente en múltiples intentos. Nuestros experimentos muestran que incluso los agentes de llamada a funciones de última generación (como gpt-4o) tienen éxito en menos del 50% de las tareas y son bastante inconsistentes (pass^8 <25% en retail). Nuestros hallazgos señalan la necesidad de métodos que puedan mejorar la capacidad de los agentes para actuar de manera consistente y seguir reglas de forma confiable.
Garantizar la verificabilidad de las respuestas del modelo es un desafío fundamental para la generación aumentada por recuperación (RAG, por sus siglas en inglés) en el dominio de respuesta a preguntas (QA, por sus siglas en inglés). Recientemente, se propuso el auto-citado mediante indicaciones (self-citation prompting) para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) generen citas a documentos de apoyo junto con sus respuestas. Sin embargo, los LLMs que se auto-citan a menudo tienen dificultades para seguir el formato requerido, hacen referencia a fuentes inexistentes y no reflejan fielmente el uso del contexto por parte de los LLMs durante la generación. En este trabajo, presentamos MIRAGE (Model Internals-based RAG Explanations), un enfoque plug-and-play que utiliza los componentes internos del modelo para una atribución fiel de respuestas en aplicaciones de RAG. MIRAGE detecta tokens de respuesta sensibles al contexto y los empareja con documentos recuperados que contribuyen a su predicción mediante métodos de prominencia. Evaluamos nuestro enfoque propuesto en un conjunto de datos multilingüe de QA extractiva, encontrando una alta concordancia con la atribución de respuestas realizada por humanos. En QA de respuesta abierta, MIRAGE logra una calidad y eficiencia en las citas comparable al auto-citado, además de permitir un control más granular de los parámetros de atribución. Nuestra evaluación cualitativa destaca la fidelidad de las atribuciones de MIRAGE y subraya la prometedora aplicación de los componentes internos del modelo para la atribución de respuestas en RAG.
Comprender la semántica de las escenas visuales es un desafío fundamental en Visión por Computador. Un aspecto clave de este desafío es que los objetos que comparten significados o funciones semánticas similares pueden exhibir diferencias visuales llamativas, lo que dificulta su identificación y categorización precisa. Los avances recientes en los marcos de texto a imagen han dado lugar a modelos que capturan implícitamente las estadísticas naturales de las escenas. Estos marcos tienen en cuenta la variabilidad visual de los objetos, así como las complejas co-ocurrencias de objetos y fuentes de ruido como diversas condiciones de iluminación. Al aprovechar conjuntos de datos a gran escala y el condicionamiento de atención cruzada, estos modelos generan representaciones de escenas detalladas y contextualmente ricas. Esta capacidad abre nuevas vías para mejorar el reconocimiento de objetos y la comprensión de escenas en entornos variados y desafiantes. Nuestro trabajo presenta StableSemantics, un conjunto de datos que comprende 224 mil indicaciones curradas por humanos, subtítulos de lenguaje natural procesados, más de 2 millones de imágenes sintéticas y 10 millones de mapas de atención correspondientes a fragmentos nominales individuales. Aprovechamos explícitamente indicaciones generadas por humanos que corresponden a generaciones visualmente interesantes de difusión estable, proporcionamos 10 generaciones por frase y extraemos mapas de atención cruzada para cada imagen. Exploramos la distribución semántica de las imágenes generadas, examinamos la distribución de objetos dentro de las imágenes y evaluamos métodos de subtitulado y segmentación de vocabulario abierto en nuestros datos. Hasta donde sabemos, somos los primeros en publicar un conjunto de datos de difusión con atribuciones semánticas. Esperamos que nuestro conjunto de datos propuesto catalice avances en la comprensión semántica visual y proporcione una base para el desarrollo de modelos visuales más sofisticados y efectivos. Sitio web: https://stablesemantics.github.io/StableSemantics
La investigación en interpretabilidad y análisis (IA) es un subcampo en crecimiento dentro del procesamiento del lenguaje natural (PLN) que tiene como objetivo desarrollar una comprensión más profunda del comportamiento o el funcionamiento interno de los sistemas y métodos de PLN. A pesar del creciente interés en este subcampo, una crítica comúnmente expresada es que carece de insights prácticos y, por lo tanto, tiene poco impacto en el PLN. En este artículo, buscamos cuantificar el impacto de la investigación en IA en el campo más amplio del PLN. Abordamos esto con un análisis de métodos mixtos que incluye: (1) un grafo de citas de más de 185.000 artículos construido a partir de todos los trabajos publicados en las conferencias ACL y EMNLP entre 2018 y 2023, y (2) una encuesta a 138 miembros de la comunidad de PLN. Nuestros resultados cuantitativos muestran que los trabajos de IA son ampliamente citados fuera de este subcampo y ocupan un lugar central en el grafo de citas del PLN. A través del análisis cualitativo de las respuestas de la encuesta y la anotación manual de 556 artículos, encontramos que los investigadores de PLN se basan en los hallazgos de la investigación en IA y perciben que es importante para el avance del PLN y de múltiples subcampos, además de depender de sus hallazgos y terminología para su propio trabajo. Muchos métodos novedosos se proponen basándose en los hallazgos de IA y están altamente influenciados por ellos, aunque trabajos altamente influyentes fuera de la IA citan sus hallazgos sin estar impulsados por ellos. Concluimos resumiendo lo que falta en la investigación en IA actual y proporcionamos un llamado a la acción para allanar el camino hacia un futuro más impactante de la investigación en IA.
La investigación en resumen de textos ha experimentado varias transformaciones significativas con el surgimiento de las redes neuronales profundas, los modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) y los recientes modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Esta revisión ofrece, por lo tanto, un análisis exhaustivo del progreso y la evolución de la investigación en resumen de textos a través del prisma de estos cambios de paradigma. Está organizada en dos partes principales: (1) una descripción detallada de conjuntos de datos, métricas de evaluación y métodos de resumen antes de la era de los LLMs, que abarca métodos estadísticos tradicionales, enfoques de aprendizaje profundo y técnicas de ajuste fino de PLMs, y (2) el primer examen detallado de los avances recientes en la creación de puntos de referencia, modelado y evaluación del resumen en la era de los LLMs. Al sintetizar la literatura existente y presentar una visión cohesiva, esta revisión también discute tendencias de investigación, desafíos abiertos y propone direcciones de investigación prometedoras en el campo del resumen, con el objetivo de guiar a los investigadores a través del panorama en constante evolución de la investigación en resumen de textos.
Presentamos un modelo de difusión latente sobre escenas 3D que puede entrenarse utilizando únicamente datos de imágenes 2D. Para lograrlo, primero diseñamos un autocodificador que mapea imágenes multivista a splats Gaussianos 3D, y simultáneamente construye una representación latente comprimida de estos splats. Luego, entrenamos un modelo de difusión multivista sobre el espacio latente para aprender un modelo generativo eficiente. Este pipeline no requiere máscaras de objetos ni profundidades, y es adecuado para escenas complejas con posiciones arbitrarias de cámara. Realizamos experimentos cuidadosos en dos conjuntos de datos a gran escala de escenas complejas del mundo real: MVImgNet y RealEstate10K. Demostramos que nuestro enfoque permite generar escenas 3D en tan solo 0.2 segundos, ya sea desde cero, desde una única vista de entrada o desde vistas de entrada dispersas. Produce resultados diversos y de alta calidad mientras funciona un orden de magnitud más rápido que los modelos de difusión no latentes y los modelos generativos basados en NeRF anteriores.