Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Grandes (LLMs) muestran capacidades prometedoras en la resolución de problemas científicos simples, pero a menudo producen alucinaciones en los más complejos. Si bien la integración de LLMs con herramientas puede aumentar la fiabilidad, este enfoque suele resultar en una dependencia excesiva de las herramientas, disminuyendo la capacidad del modelo para resolver problemas simples a través del razonamiento básico. En contraste, los expertos humanos evalúan primero la complejidad del problema utilizando el conocimiento del dominio antes de elegir un enfoque de solución adecuado. Inspirados por este proceso humano de resolución de problemas, proponemos un novedoso método de ajuste fino de dos componentes. En el primer componente, Destilación de Conocimiento del Mundo (WKD por sus siglas en inglés), los LLMs aprenden directamente de las soluciones generadas utilizando la información de las herramientas para interiorizar el conocimiento del dominio. En el segundo componente, Adaptación del Uso de Herramientas (TUA), dividimos los problemas en categorías fáciles y difíciles basándonos en la precisión de respuesta directa del modelo. Manteniendo el mismo objetivo de alineación para los problemas fáciles como en WKD, entrenamos al modelo para cambiar inteligentemente al uso de herramientas para problemas más desafiantes. Validamos nuestro método en seis conjuntos de datos de referencia científica, que abarcan matemáticas, ciencias climáticas y epidemiología. En promedio, nuestros modelos muestran una mejora del 28.18% en la precisión de respuestas y un aumento del 13.89% en la precisión del uso de herramientas en todos los conjuntos de datos, superando a modelos de vanguardia como GPT-4o y Claude-3.5.
Los esfuerzos existentes en la construcción de agentes de interfaz gráfica de usuario (GUI) dependen en gran medida de la disponibilidad de Modelos Visión-Lenguaje comerciales robustos (VLM) como GPT-4o y GeminiProVision. Los profesionales a menudo se muestran reacios a utilizar VLM de código abierto debido a su notable rezago de rendimiento en comparación con sus contrapartes de código cerrado, especialmente en la fundamentación de GUI y escenarios Fuera de Distribución (OOD). Para facilitar futuras investigaciones en esta área, desarrollamos OS-Atlas, un modelo de acción GUI fundamental que sobresale en la fundamentación de GUI y tareas agentes OOD a través de innovaciones tanto en datos como en modelado. Hemos invertido un esfuerzo de ingeniería significativo en el desarrollo de un conjunto de herramientas de código abierto para sintetizar datos de fundamentación de GUI en múltiples plataformas, incluyendo Windows, Linux, MacOS, Android y la web. Aprovechando este conjunto de herramientas, estamos lanzando el corpus de fundamentación de GUI de código abierto multiplataforma más grande hasta la fecha, que contiene más de 13 millones de elementos de GUI. Este conjunto de datos, combinado con innovaciones en el entrenamiento de modelos, proporciona una base sólida para que OS-Atlas comprenda capturas de pantalla de GUI y se generalice a interfaces no vistas. A través de una evaluación extensa en seis pruebas que abarcan tres plataformas diferentes (móvil, escritorio y web), OS-Atlas demuestra mejoras significativas en el rendimiento en comparación con modelos previos de vanguardia. Nuestra evaluación también revela ideas valiosas para mejorar y escalar continuamente las capacidades agentes de VLM de código abierto.
La personalización de los Modelos de Lenguaje de Gran Tamaño (LLMs) ha cobrado recientemente una importancia creciente con una amplia gama de aplicaciones. A pesar de la importancia y los avances recientes, la mayoría de los trabajos existentes sobre LLMs personalizados se han centrado ya sea completamente en (a) la generación de texto personalizado o (b) en aprovechar los LLMs para aplicaciones relacionadas con la personalización, como sistemas de recomendación. En este trabajo, cerramos la brecha entre estas dos direcciones principales separadas por primera vez al introducir una taxonomía para el uso de LLMs personalizados y resumir las diferencias clave y los desafíos. Proporcionamos una formalización de los fundamentos de los LLMs personalizados que consolida y amplía las nociones de personalización de los LLMs, definiendo y discutiendo facetas novedosas de personalización, uso y deseos de los LLMs personalizados. Luego unificamos la literatura en estos diversos campos y escenarios de uso proponiendo taxonomías sistemáticas para la granularidad de la personalización, técnicas de personalización, conjuntos de datos, métodos de evaluación y aplicaciones de LLMs personalizados. Finalmente, destacamos los desafíos y problemas abiertos importantes que aún deben abordarse. Al unificar y examinar la investigación reciente utilizando las taxonomías propuestas, nuestro objetivo es proporcionar una guía clara sobre la literatura existente y las diferentes facetas de la personalización en LLMs, capacitando tanto a investigadores como a profesionales.
Los procedimientos de flujo rectificado y reflujo han avanzado significativamente en la generación rápida al enderezar progresivamente los flujos de ecuaciones diferenciales ordinarias (ODE). Operan bajo la suposición de que los pares de imagen y ruido, conocidos como acoplamientos, pueden aproximarse mediante trayectorias rectas con velocidad constante. Sin embargo, observamos que modelar con velocidad constante y utilizar procedimientos de reflujo tienen limitaciones para aprender con precisión trayectorias rectas entre pares, lo que resulta en un rendimiento subóptimo en la generación de pocos pasos. Para abordar estas limitaciones, presentamos el Flujo de Aceleración Constante (CAF), un marco novedoso basado en una simple ecuación de aceleración constante. CAF introduce la aceleración como una variable adicional aprendible, lo que permite una estimación más expresiva y precisa del flujo de ODE. Además, proponemos dos técnicas para mejorar aún más la precisión de la estimación: condicionamiento de la velocidad inicial para el modelo de aceleración y un proceso de reflujo para la velocidad inicial. Nuestros estudios exhaustivos en conjuntos de datos de juguete, CIFAR-10 y ImageNet 64x64 demuestran que CAF supera a las líneas de base de vanguardia para la generación de un paso. También mostramos que CAF mejora drásticamente la preservación de acoplamientos y la inversión de pocos pasos sobre el flujo rectificado. El código está disponible en https://github.com/mlvlab/CAF.
Los benchmarks existentes a menudo resaltan el notable rendimiento logrado por los Modelos Fundamentales Multimodales (MFM, por sus siglas en inglés) de última generación en aprovechar el contexto temporal para la comprensión de videos. Sin embargo, ¿qué tan bien realizan realmente los modelos el razonamiento temporal visual? Nuestro estudio de los benchmarks existentes muestra que esta capacidad de los MFM probablemente está sobreestimada, ya que muchas preguntas pueden resolverse utilizando uno, unos pocos o cuadros fuera de orden. Para examinar sistemáticamente las tareas actuales de razonamiento temporal visual, proponemos tres principios con métricas correspondientes: (1) Ganancia Multi-Cuadro, (2) Sensibilidad al Orden de Cuadros y (3) Disparidad de Información de Cuadros. Siguiendo estos principios, presentamos TOMATO, Evaluación Multimodal de Razonamiento Temporal, un nuevo benchmark diseñado para evaluar rigurosamente las capacidades de razonamiento temporal de los MFM en la comprensión de videos. TOMATO consta de 1,484 preguntas cuidadosamente seleccionadas y anotadas por humanos que abarcan seis tareas (es decir, conteo de acciones, dirección, rotación, forma y tendencia, velocidad y frecuencia, y pistas visuales), aplicadas a 1,417 videos, que incluyen 805 videos auto-grabados y generados, que abarcan escenarios centrados en humanos, del mundo real y simulados. Nuestra evaluación exhaustiva revela una brecha de rendimiento humano-modelo del 57.3% con el modelo de mejor rendimiento. Además, nuestro análisis en profundidad revela limitaciones más fundamentales más allá de esta brecha en los MFM actuales. Si bien pueden reconocer eventos con precisión en cuadros aislados, fallan en interpretar estos cuadros como una secuencia continua. Creemos que TOMATO servirá como un banco de pruebas crucial para evaluar los MFM de próxima generación y como un llamado a la comunidad para desarrollar sistemas de IA capaces de comprender la dinámica del mundo humano a través de la modalidad de video.
Este documento presenta el modelado AutoRegressive Aleatorizado (RAR) para generación visual, el cual establece un nuevo rendimiento de vanguardia en la tarea de generación de imágenes al mismo tiempo que mantiene una completa compatibilidad con los marcos de modelado de lenguaje. El RAR propuesto es simple: durante un proceso de entrenamiento autoregresivo estándar con un objetivo de predicción del siguiente token, la secuencia de entrada, típicamente ordenada en forma de ráster, se permuta aleatoriamente en diferentes órdenes de factorización con una probabilidad r, donde r comienza en 1 y decae linealmente a 0 a lo largo del entrenamiento. Esta estrategia de entrenamiento de recocido permite que el modelo aprenda a maximizar la probabilidad esperada sobre todos los órdenes de factorización y, por lo tanto, mejore efectivamente la capacidad del modelo para modelar contextos bidireccionales. Es importante destacar que el RAR preserva la integridad del marco de modelado autoregresivo, asegurando una completa compatibilidad con el modelado de lenguaje al mismo tiempo que mejora significativamente el rendimiento en la generación de imágenes. En el banco de pruebas ImageNet-256, RAR logra una puntuación FID de 1.48, superando no solo a los generadores de imágenes autoregresivos de vanguardia anteriores, sino también a los métodos líderes basados en difusión y transformadores enmascarados. El código y los modelos estarán disponibles en https://github.com/bytedance/1d-tokenizer
Descubrimos la física subyacente en la Predicción del Próximo Token (PPT). Identificamos la ley de conservación de la información dentro de la PPT y propusimos la Primera Ley de Capacidad de Información (CI-1), demostrando que la esencia de la emergencia de la inteligencia en modelos autorregresivos es fundamentalmente un proceso de transferencia de información. También introdujimos el Principio de Landauer en la PPT, formulando la Segunda Ley de Capacidad de Información (CI-2), que establece la relación entre el entrenamiento de modelos autorregresivos y el consumo de energía. Además, presentamos varios corolarios, que tienen significado práctico para las prácticas de producción. Finalmente, validamos la compatibilidad y complementariedad de nuestros hallazgos con las teorías existentes.
Presentamos una forma sencilla de combinar el modelado de lenguaje enmascarado con el modelado de lenguaje causal. Este objetivo de entrenamiento híbrido resulta en un modelo que combina las fortalezas de ambos paradigmas de modelado dentro de una única pila de transformadores: GPT-BERT puede ser utilizado de manera transparente como cualquier modelo de lenguaje causal o enmascarado estándar. Probamos el proceso de preentrenamiento que permite este comportamiento flexible en el Desafío BabyLM 2024. Los resultados muestran que el preentrenamiento híbrido supera a los modelos solo enmascarados o solo causales. Publicamos abiertamente los modelos, corpus de entrenamiento y código.
Las aplicaciones de la IA generativa se han vuelto extremadamente impresionantes, y la interacción entre los usuarios y la IA aún más. La literatura actual sobre la interacción humano-IA ha examinado ampliamente cómo interactúan los humanos con la IA generativa, pero carece de especificidad en cuanto a los diseños de interfaz de usuario y patrones utilizados para crear estas aplicaciones. Por lo tanto, presentamos una encuesta que presenta de manera exhaustiva taxonomías de cómo un humano interactúa con la IA y los patrones de interacción de usuario diseñados para satisfacer las necesidades de una variedad de casos de uso relevantes. Nos enfocamos principalmente en interacciones guiadas por el usuario, encuestando interacciones que son iniciadas por el usuario y no incluyen señales implícitas dadas por el usuario. Con esta encuesta, nuestro objetivo es crear un compendio de diferentes patrones de interacción de usuario que puedan ser utilizados como referencia tanto para diseñadores como para desarrolladores. Al hacerlo, también nos esforzamos por reducir la barrera de entrada para aquellos que intentan aprender más sobre el diseño de aplicaciones de IA generativa.
Presentamos Fashion-VDM, un modelo de difusión de video (VDM) para generar videos de prueba virtual. Dado una imagen de prenda de vestir de entrada y un video de persona, nuestro método tiene como objetivo generar un video de prueba de alta calidad de la persona vistiendo la prenda dada, manteniendo la identidad y el movimiento de la persona. La prueba virtual basada en imágenes ha demostrado resultados impresionantes; sin embargo, los métodos existentes de prueba virtual de video (VVT) aún carecen de detalles de prendas y consistencia temporal. Para abordar estos problemas, proponemos una arquitectura basada en difusión para la prueba virtual de video, guía dividida sin clasificador para un mayor control sobre las entradas de condicionamiento, y una estrategia de entrenamiento temporal progresiva para la generación de video de 64 cuadros de un solo pase, 512px. También demostramos la efectividad del entrenamiento conjunto de imagen-video para la prueba de video, especialmente cuando los datos de video son limitados. Nuestros experimentos cualitativos y cuantitativos muestran que nuestro enfoque establece el nuevo estado del arte para la prueba virtual de video. Para resultados adicionales, visite nuestra página del proyecto: https://johannakarras.github.io/Fashion-VDM.
Investigaciones recientes arXiv:2410.15027 han explorado el uso de transformadores de difusión (DiTs) para la generación de imágenes sin tarea específica mediante la simple concatenación de tokens de atención en imágenes. Sin embargo, a pesar de los recursos computacionales sustanciales, la fidelidad de las imágenes generadas sigue siendo subóptima. En este estudio, reevaluamos y optimizamos este marco teórico al hipotetizar que los DiTs de texto a imagen poseen inherentemente capacidades de generación contextual, que solo requieren ajustes mínimos para activarse. A través de diversos experimentos de tarea, demostramos cualitativamente que los DiTs de texto a imagen existentes pueden realizar eficazmente generación contextual sin ningún ajuste. Basándonos en esta idea, proponemos un flujo de trabajo notablemente simple para aprovechar las capacidades contextuales de los DiTs: (1) concatenar imágenes en lugar de tokens, (2) realizar subtitulado conjunto de múltiples imágenes y (3) aplicar ajustes LoRA específicos de la tarea utilizando conjuntos de datos pequeños (por ejemplo, 20 a 100 muestras) en lugar de ajustes de parámetros completos con conjuntos de datos grandes. Nombramos a nuestros modelos In-Context LoRA (IC-LoRA). Este enfoque no requiere modificaciones en los modelos DiT originales, solo cambios en los datos de entrenamiento. Notablemente, nuestro flujo de trabajo genera conjuntos de imágenes de alta fidelidad que se adhieren mejor a las indicaciones. Si bien es específico de la tarea en términos de ajuste de datos, nuestro marco teórico sigue siendo agnóstico a la tarea en arquitectura y flujo de trabajo, ofreciendo una herramienta potente para la comunidad y proporcionando ideas valiosas para investigaciones futuras sobre sistemas de generación agnósticos a la tarea a nivel de producto. Publicamos nuestro código, datos y modelos en https://github.com/ali-vilab/In-Context-LoRA
Recientemente, el Splatting Gaussiano 3D (3DGS) ha revolucionado la reconstrucción de campos de luminancia, manifestando una síntesis de vista novedosa eficiente y de alta fidelidad. Sin embargo, representar superficies con precisión, especialmente en escenarios grandes y complejos, sigue siendo un desafío significativo debido a la naturaleza no estructurada del 3DGS. En este documento, presentamos CityGaussianV2, un enfoque novedoso para la reconstrucción de escenas a gran escala que aborda desafíos críticos relacionados con la precisión geométrica y la eficiencia. Basándonos en las capacidades favorables de generalización del Splatting Gaussiano 2D (2DGS), abordamos sus problemas de convergencia y escalabilidad. Específicamente, implementamos una técnica de densificación basada en gradientes descompuestos y regresión de profundidad para eliminar artefactos borrosos y acelerar la convergencia. Para escalar, introducimos un filtro de elongación que mitiga la explosión de recuento gaussiano causada por la degeneración del 2DGS. Además, optimizamos el pipeline de CityGaussian para entrenamiento paralelo, logrando una compresión de hasta 10 veces, al menos un 25% de ahorro en tiempo de entrenamiento y una disminución del 50% en el uso de memoria. También establecimos benchmarks de geometría estándar en escenas a gran escala. Los resultados experimentales demuestran que nuestro método logra un equilibrio prometedor entre calidad visual, precisión geométrica, así como costos de almacenamiento y entrenamiento. La página del proyecto está disponible en https://dekuliutesla.github.io/CityGaussianV2/.
El espacio de incrustación de palabras en modelos neuronales está sesgado, y corregir esto puede mejorar el rendimiento de la tarea. Señalamos que la mayoría de los enfoques para modelar, corregir y medir la simetría de un espacio de incrustación asumen implícitamente que las frecuencias de las palabras son uniformes; en realidad, las frecuencias de las palabras siguen una distribución altamente no uniforme, conocida como la ley de Zipf. Sorprendentemente, simplemente realizar un blanqueo de PCA ponderado por la frecuencia empírica de las palabras que sigue la ley de Zipf mejora significativamente el rendimiento de la tarea, superando los baselines establecidos. Desde una perspectiva teórica, tanto nuestro enfoque como los métodos existentes pueden clasificarse claramente: las representaciones de palabras se distribuyen de acuerdo con una familia exponencial con medidas base uniformes o zipfianas. Al adoptar el último enfoque, podemos enfatizar naturalmente las palabras informativas de baja frecuencia en términos de su norma vectorial, lo que se hace evidente desde la perspectiva de la geometría de la información, y en términos de las funciones de pérdida para la clasificación desequilibrada. Además, nuestra teoría corrobora que los métodos populares de procesamiento del lenguaje natural, como el muestreo negativo de skip-gram, WhiteningBERT y modelos de lenguaje sin cabeza, funcionan bien simplemente porque sus incrustaciones de palabras codifican la frecuencia empírica de las palabras en el modelo probabilístico subyacente.
Proponemos un método efectivo para insertar adaptadores en modelos base de texto a imagen, lo que permite la ejecución de tareas complejas en aguas abajo mientras se preserva la capacidad de generalización del modelo base. La idea central de este método es optimizar el mecanismo de atención relacionado con mapas de características 2D, lo que mejora el rendimiento del adaptador. Este enfoque se validó en la tarea de generación de videos de memes y logró resultados significativos. Esperamos que este trabajo pueda proporcionar ideas para tareas posteriores al entrenamiento de grandes modelos de texto a imagen. Además, dado que este método demuestra una buena compatibilidad con modelos derivados de SD1.5, tiene cierto valor para la comunidad de código abierto. Por lo tanto, publicaremos el código relacionado (https://songkey.github.io/hellomeme).
Las técnicas actuales de anonimización facial a menudo dependen de la pérdida de identidad calculada por modelos de reconocimiento facial, los cuales pueden ser inexactos e poco confiables. Además, muchos métodos requieren datos complementarios como puntos de referencia faciales y máscaras para guiar el proceso de síntesis. En contraste, nuestro enfoque utiliza modelos de difusión con solo una pérdida de reconstrucción, eliminando la necesidad de puntos de referencia faciales o máscaras, al mismo tiempo que produce imágenes con detalles intrincados y detallados. Validamos nuestros resultados en dos benchmarks públicos a través de evaluaciones tanto cuantitativas como cualitativas. Nuestro modelo logra un rendimiento de vanguardia en tres áreas clave: anonimización de identidad, preservación de atributos faciales y calidad de imagen. Más allá de su función principal de anonimización, nuestro modelo también puede realizar tareas de intercambio facial al incorporar una imagen facial adicional como entrada, demostrando su versatilidad y potencial para diversas aplicaciones. Nuestro código y modelos están disponibles en https://github.com/hanweikung/face_anon_simple.
Los Modelos de Lenguaje Grandes (LLMs) han destacado en la resolución de preguntas de múltiples pasos (M-QA) debido a sus avanzadas habilidades de razonamiento. Sin embargo, el impacto de las estructuras de razonamiento inherentes en el rendimiento de LLM M-QA sigue siendo incierto, en gran parte debido a la ausencia de conjuntos de datos de QA que proporcionen estructuras de razonamiento detalladas. Para abordar esta brecha, presentamos el Conjunto de Datos de Preguntas y Respuestas Estructuradas por Razonamiento en Grafo (GRS-QA), que incluye tanto contextos semánticos como estructuras de razonamiento para pares de preguntas y respuestas. A diferencia de los conjuntos de datos de M-QA existentes, donde diferentes estructuras de razonamiento están entrelazadas, GRS-QA captura explícitamente intrincados caminos de razonamiento mediante la construcción de grafos de razonamiento, donde los nodos representan contextos textuales y los bordes denotan flujos lógicos. Estos grafos de razonamiento de diferentes estructuras permiten una evaluación detallada de las capacidades de razonamiento de LLM en diversas estructuras de razonamiento. Nuestro análisis empírico revela que los LLMs se desempeñan de manera diferente al abordar preguntas con diversas estructuras de razonamiento. Este hallazgo facilita la exploración de estructuras textuales en comparación con la semántica.
El estado de salud (SOH) de una batería de iones de litio es un parámetro crítico que determina la capacidad restante y la vida útil restante de la batería. En este documento, proponemos SambaMixer, un modelo estructurado novedoso de espacio de estados (SSM) para predecir el estado de salud de las baterías de iones de litio. El SSM propuesto se basa en la arquitectura MambaMixer, la cual está diseñada para manejar señales temporales multivariadas. Evaluamos nuestro modelo en el conjunto de datos de descarga de baterías de la NASA y demostramos que nuestro modelo supera al estado del arte en este conjunto de datos. Además, introducimos un novedoso método de re-muestreo basado en anclas que garantiza que las señales temporales tengan la longitud esperada, al mismo tiempo que sirve como técnica de aumento. Finalmente, condicionamos la predicción en el tiempo de muestra y la diferencia de tiempo de ciclo utilizando codificaciones posicionales para mejorar el rendimiento de nuestro modelo y aprender efectos de recuperación. Nuestros resultados demuestran que nuestro modelo es capaz de predecir el SOH de las baterías de iones de litio con alta precisión y robustez.
La finalización de código a nivel de repositorio ha atraído gran atención en ingeniería de software, y se han introducido varios conjuntos de datos de referencia. Sin embargo, los conjuntos de datos de referencia existentes para la finalización de código a nivel de repositorio suelen centrarse en un número limitado de lenguajes (<5), lo que no permite evaluar las capacidades generales de inteligencia de código en diferentes lenguajes para los Modelos de Lenguaje de Código Grande (LLMs, por sus siglas en inglés) existentes. Además, los conjuntos de datos existentes suelen informar puntajes promedio generales de diferentes lenguajes, donde se ignoran las habilidades detalladas en diferentes escenarios de completado. Por lo tanto, para facilitar la investigación de LLMs de código en escenarios multilingües, proponemos un conjunto de datos de referencia de finalización de código a nivel de repositorio masivamente multilingüe que abarca 18 lenguajes de programación (llamado M2RC-EVAL), y se proporcionan dos tipos de anotaciones detalladas (es decir, a nivel de cubo y a nivel semántico) en diferentes escenarios de completado, donde obtenemos estas anotaciones basadas en el árbol de sintaxis abstracta analizado. Además, también recopilamos un corpus de instrucciones masivamente multilingüe, el conjunto de datos M2RC-INSTRUCT, para mejorar las capacidades de finalización de código a nivel de repositorio de los LLMs de código existentes. Los resultados experimentales exhaustivos demuestran la efectividad de nuestro M2RC-EVAL y M2RC-INSTRUCT.
En este artículo abordamos la calidad del corpus WikiNER, un corpus multilingüe de Reconocimiento de Entidades Nombradas, y proporcionamos una versión consolidada del mismo. La anotación de WikiNER se realizó de manera semisupervisada, es decir, no se llevó a cabo verificación manual a posteriori. Dicho corpus se denomina de estándar plata. En este documento proponemos WikiNER-fr-gold, que es una versión revisada de la porción en francés de WikiNER. Nuestro corpus consta de una muestra aleatoria del 20% del subcorpus francés original (26,818 oraciones con 700k tokens). Comenzamos por resumir los tipos de entidades incluidas en cada categoría para definir una guía de anotación, y luego procedemos a revisar el corpus. Finalmente, presentamos un análisis de los errores e inconsistencias observados en el corpus WikiNER-fr, y discutimos posibles direcciones para trabajos futuros.