Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Transfusion, una receta para entrenar un modelo multi-modal sobre datos discretos y continuos. Transfusion combina la función de pérdida de modelado de lenguaje (predicción del siguiente token) con difusión para entrenar un único transformador sobre secuencias de modalidad mixta. Preentrenamos múltiples modelos de Transfusion con hasta 7 mil millones de parámetros desde cero en una mezcla de datos de texto e imagen, estableciendo leyes de escalado con respecto a una variedad de benchmarks uni- y cross-modales. Nuestros experimentos muestran que Transfusion escala significativamente mejor que cuantificar imágenes y entrenar un modelo de lenguaje sobre tokens de imagen discretos. Al introducir capas de codificación y decodificación específicas de la modalidad, podemos mejorar aún más el rendimiento de los modelos de Transfusion e incluso comprimir cada imagen a solo 16 parches. Además, demostramos que al escalar nuestra receta de Transfusion a 7 mil millones de parámetros y 2 billones de tokens multi-modales, producimos un modelo que puede generar imágenes y texto al nivel de modelos de difusión y modelos de lenguaje de escala similar, aprovechando los beneficios de ambos mundos.
Los avances recientes en Modelos de Lenguaje de Gran Tamaño (LLMs) han mejorado notablemente la interpretación y procesamiento de datos tabulares, introduciendo capacidades previamente inimaginables. A pesar de estos logros, los LLMs aún enfrentan desafíos significativos al ser aplicados en escenarios industriales, especialmente debido a la mayor complejidad de razonamiento requerida con datos tabulares del mundo real, subrayando una notable disparidad entre los puntos de referencia académicos y las aplicaciones prácticas. Para abordar esta discrepancia, llevamos a cabo una investigación detallada sobre la aplicación de datos tabulares en escenarios industriales y proponemos un benchmark completo y complejo, TableBench, que incluye 18 campos dentro de cuatro categorías principales de capacidades de respuesta a preguntas de tablas (TableQA). Además, presentamos TableLLM, entrenado en nuestro detallado conjunto de entrenamiento, TableInstruct, logrando un rendimiento comparable con GPT-3.5. Experimentos masivos realizados en TableBench indican que tanto los LLMs de código abierto como los propietarios todavía tienen un amplio margen de mejora para satisfacer las demandas del mundo real, donde el modelo más avanzado, GPT-4, alcanza solo una puntuación modesta en comparación con los humanos.
Incluir código en la mezcla de datos de pre-entrenamiento, incluso para modelos no específicamente diseñados para código, se ha convertido en una práctica común en el pre-entrenamiento de LLMs. Aunque ha habido un consenso anecdótico entre los profesionales de que los datos de código desempeñan un papel vital en el rendimiento general de LLMs, solo hay trabajos limitados que analizan el impacto preciso del código en tareas no relacionadas con código. En este trabajo, investigamos sistemáticamente el impacto de los datos de código en el rendimiento general. Nos preguntamos "¿cuál es el impacto de los datos de código utilizados en el pre-entrenamiento en una amplia variedad de tareas posteriores más allá de la generación de código?". Realizamos extensas abstracciones y evaluaciones en una amplia gama de tareas de razonamiento en lenguaje natural, tareas de conocimiento del mundo, benchmarks de código y tasas de éxito de LLM como juez para modelos con tamaños que van desde 470M hasta 2.8B parámetros. En todos los escenarios, encontramos resultados consistentes de que el código es un componente crítico para la generalización mucho más allá de las tareas de codificación y las mejoras en la calidad del código tienen un impacto desproporcionado en todas las tareas. En particular, en comparación con el pre-entrenamiento solo de texto, la adición de código resulta en un aumento relativo de hasta un 8.2% en el razonamiento en lenguaje natural (NL), un 4.2% en el conocimiento del mundo, una mejora del 6.6% en las tasas de éxito generativas y un aumento de 12 veces en el rendimiento del código respectivamente. Nuestro trabajo sugiere que las inversiones en calidad de código y la preservación del código durante el pre-entrenamiento tienen impactos positivos.
Proponemos ordenar representaciones de parches entre vistas como una señal de aprendizaje auto-supervisado novedosa para mejorar las representaciones preentrenadas. Con este fin, presentamos NeCo: Consistencia de Vecinos de Parches, una pérdida de entrenamiento novedosa que garantiza la consistencia de vecinos más cercanos a nivel de parche entre un modelo estudiante y un modelo profesor, en relación con lotes de referencia. Nuestro método aprovecha un método de ordenamiento diferenciable aplicado sobre representaciones preentrenadas, como DINOv2, para inicializar la señal de aprendizaje y mejorar aún más sobre ellas. Este post-entrenamiento denso conduce a un rendimiento superior en varios modelos y conjuntos de datos, a pesar de requerir solo 19 horas en una sola GPU. Demostramos que este método genera codificadores de características densas de alta calidad y establece varios nuevos resultados de vanguardia: +5.5% y +6% para segmentación semántica no paramétrica en contexto en ADE20k y Pascal VOC, y +7.2% y +5.7% para evaluaciones de segmentación lineal en COCO-Things y -Stuff.
Los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) se han vuelto más comunes en aplicaciones de largo contexto como chatbots interactivos, análisis de documentos y flujos de trabajo de agentes, pero resulta desafiante atender solicitudes de largo contexto con baja latencia y alto rendimiento. La decodificación especulativa (SD) es una técnica ampliamente utilizada para reducir la latencia sin sacrificar el rendimiento, aunque la sabiduría convencional sugiere que su eficacia está limitada a tamaños de lote pequeños. En MagicDec, demostramos que sorprendentemente, la SD puede lograr una aceleración incluso para un régimen de inferencia de alto rendimiento para secuencias moderadas a largas. Más interesante aún, una estrategia de redacción inteligente puede lograr una mayor aceleración con el aumento del tamaño del lote según nuestro análisis riguroso. MagicDec primero identifica los cambios en el cuello de botella con el aumento del tamaño del lote y la longitud de la secuencia, y utiliza estas percepciones para implementar la decodificación especulativa de manera más efectiva para la inferencia de alto rendimiento. Luego, aprovecha modelos de borrador con caché KV dispersa para abordar el cuello de botella KV que escala tanto con la longitud de la secuencia como con el tamaño del lote.
Los modelos de difusión han surgido como líderes en la generación de texto a imagen por sus impresionantes capacidades. Sin embargo, su resolución de imagen fija durante el entrenamiento a menudo conlleva desafíos en la generación de imágenes de alta resolución, como inexactitudes semánticas y replicación de objetos. Este artículo presenta MegaFusion, un enfoque novedoso que amplía los modelos existentes de generación de texto a imagen basados en difusión para una generación eficiente de mayor resolución sin necesidad de ajustes adicionales o adaptación extra. Específicamente, empleamos una estrategia innovadora de truncamiento y retransmisión para conectar los procesos de eliminación de ruido a través de diferentes resoluciones, permitiendo la generación de imágenes de alta resolución de manera de grueso a fino. Además, al integrar convoluciones dilatadas y reprogramación de ruido, adaptamos aún más los conocimientos previos del modelo para una mayor resolución. La versatilidad y eficacia de MegaFusion lo hacen universalmente aplicable tanto a modelos de difusión en espacio latente como en espacio de píxeles, junto con otros modelos derivados. Experimentos extensos confirman que MegaFusion aumenta significativamente la capacidad de los modelos existentes para producir imágenes de megapíxeles y varios aspect ratios, con solo requerir aproximadamente el 40% del costo computacional original.
En la era actual, donde los grandes modelos de lenguaje (GL) se integran en numerosas aplicaciones del mundo real, garantizar su seguridad y robustez es crucial para un uso responsable de la IA. Los métodos automatizados de red teaming juegan un papel clave en este proceso al generar ataques adversarios para identificar y mitigar posibles vulnerabilidades en estos modelos. Sin embargo, los métodos existentes a menudo tienen dificultades con el rendimiento lento, la diversidad limitada de categorías y altas demandas de recursos. Mientras que Rainbow Teaming, un enfoque reciente, aborda el desafío de la diversidad al enmarcar la generación de estímulos adversarios como una búsqueda de calidad-diversidad, sigue siendo lento y requiere un mutador finamente ajustado para un rendimiento óptimo. Para superar estas limitaciones, proponemos Ferret, un enfoque novedoso que se basa en Rainbow Teaming al generar múltiples mutaciones de estímulos adversarios por iteración y utilizar una función de puntuación para clasificar y seleccionar el estímulo adversario más efectivo. Exploramos diversas funciones de puntuación, incluidos modelos de recompensa, Llama Guard y GL como juez, para clasificar las mutaciones adversarias según su posible daño y mejorar la eficiencia de la búsqueda de mutaciones dañinas. Nuestros resultados demuestran que Ferret, utilizando un modelo de recompensa como función de puntuación, mejora la tasa de éxito del ataque global (ASR) al 95%, lo que es un 46% más alto que Rainbow Teaming. Además, Ferret reduce el tiempo necesario para lograr un ASR del 90% en un 15.2% en comparación con el valor base y genera estímulos adversarios transferibles, es decir, efectivos en otros GL de mayor tamaño. Nuestros códigos están disponibles en https://github.com/declare-lab/ferret.
Un "corte coincidente" es una técnica común de edición de video donde un par de tomas con una composición similar hacen una transición fluida de una a otra. Aunque los cortes coincidentes suelen ser visuales, ciertos cortes coincidentes implican la transición fluida de audio, donde sonidos de diferentes fuentes se fusionan en una transición indistinguible entre dos tomas. En este documento, exploramos la capacidad de encontrar y crear automáticamente "cortes coincidentes de audio" dentro de videos y películas. Creamos una representación de audio auto-supervisada para el corte coincidente de audio y desarrollamos un proceso de corte coincidente de audio de grueso a fino que recomienda tomas coincidentes y crea el audio mezclado. Además, anotamos un conjunto de datos para la tarea propuesta de corte coincidente de audio y comparamos la capacidad de múltiples representaciones de audio para encontrar candidatos a cortes coincidentes de audio. Finalmente, evaluamos múltiples métodos para mezclar dos candidatos a cortes coincidentes de audio con el objetivo de crear una transición suave. La página del proyecto y ejemplos están disponibles en: https://denfed.github.io/audiomatchcut/
Los modelos de lenguaje grandes (LLMs) basados en transformers presentan limitaciones como la generación de respuestas inseguras, razonamientos poco confiables, etc. Los enfoques de intervención en la inferencia existentes intentan mitigar estos problemas mediante el ajuste fino de modelos adicionales para producir señales de calibración (como recompensas) que guíen el proceso de decodificación del LLM. Sin embargo, esta solución introduce una sobrecarga sustancial de tiempo y espacio debido a los modelos separados requeridos. Este trabajo propone la inserción de parámetros no disruptiva (Otter), que consiste en insertar parámetros adicionales en la arquitectura del transformer para predecir señales de calibración junto con la salida original del LLM. Otter ofrece un rendimiento de vanguardia en múltiples tareas exigentes mientras ahorra hasta un 86.5\% de espacio adicional y un 98.5\% de tiempo adicional. Además, Otter se integra perfectamente con los motores de inferencia existentes, requiriendo solo un cambio de código de una línea, y la respuesta del modelo original sigue siendo accesible después de la inserción de parámetros. Nuestro código está disponible públicamente en https://github.com/chenhan97/Otter
El rápido avance de los sistemas de generación de texto a imagen, ejemplificado por modelos como Stable Diffusion, Midjourney, Imagen y DALL-E, ha aumentado las preocupaciones sobre su posible uso indebido. En respuesta, empresas como Meta y Google han intensificado sus esfuerzos para implementar técnicas de marca de agua en imágenes generadas por IA con el fin de frenar la circulación de visuales potencialmente engañosos. Sin embargo, en este documento argumentamos que los métodos actuales de marca de agua en imágenes son frágiles y susceptibles de ser eludidos mediante ataques de paráfrasis visual. El paráfrasis visual propuesto opera en dos pasos. Primero, genera un título para la imagen dada utilizando KOSMOS-2, uno de los últimos sistemas de descripción de imágenes de vanguardia. En segundo lugar, pasa tanto la imagen original como el título generado a un sistema de difusión de imagen a imagen. Durante el paso de eliminación de ruido del proceso de difusión, el sistema genera una imagen visualmente similar guiada por el título de texto. La imagen resultante es una paráfrasis visual y está libre de marcas de agua. Nuestros hallazgos empíricos demuestran que los ataques de paráfrasis visual pueden eliminar efectivamente las marcas de agua de las imágenes. Este documento proporciona una evaluación crítica, revelando empíricamente la vulnerabilidad de las técnicas de marca de agua existentes a los ataques de paráfrasis visual. Aunque no proponemos soluciones a este problema, este documento sirve como un llamado a la acción para que la comunidad científica priorice el desarrollo de técnicas de marca de agua más robustas. Nuestro conjunto de datos de paráfrasis visual único en su tipo y el código correspondiente están disponibles públicamente.
El lenguaje especializado y los conceptos complejos en física plantean desafíos significativos para la extracción de información a través del Procesamiento del Lenguaje Natural (PLN). Fundamental para las aplicaciones efectivas de PLN es el modelo de incrustación de texto, que convierte el texto en representaciones vectoriales densas para una recuperación eficiente de información y análisis semántico. En este trabajo, presentamos PhysBERT, el primer modelo de incrustación de texto específico de física. Pre-entrenado en un corpus curado de 1.2 millones de artículos de física de arXiv y afinado con datos supervisados, PhysBERT supera a los principales modelos de propósito general en tareas específicas de física, incluida la efectividad en el ajuste fino para subdominios específicos de física.
El seguimiento visual basado en cámara de eventos ha atraído cada vez más atención en los últimos años debido al principio de imagen único y a las ventajas de bajo consumo de energía, alto rango dinámico y alta resolución temporal densa. Los algoritmos actuales de seguimiento basados en eventos están alcanzando gradualmente sus cuellos de botella de rendimiento, debido a la utilización del Transformador de Visión y la plantilla estática para la localización del objeto objetivo. En este documento, proponemos un nuevo marco de seguimiento visual basado en Mamba que adopta el modelo de espacio de estados con complejidad lineal como red principal. Las regiones de búsqueda y la plantilla objetivo se introducen en la red Mamba de visión para la extracción de características e interacción simultáneas. Los tokens de salida de las regiones de búsqueda se introducirán en la cabeza de seguimiento para la localización del objetivo. Más importante aún, consideramos la introducción de una estrategia de actualización dinámica de plantillas en el marco de seguimiento utilizando la red Memory Mamba. Al considerar la diversidad de muestras en la biblioteca de plantillas objetivo y realizar ajustes apropiados en el módulo de memoria de plantillas, se puede integrar una plantilla dinámica más efectiva. La combinación efectiva de plantillas dinámicas y estáticas permite que nuestro algoritmo de seguimiento basado en Mamba logre un buen equilibrio entre precisión y costo computacional en múltiples conjuntos de datos a gran escala, incluidos EventVOT, VisEvent y FE240hz. El código fuente se publicará en https://github.com/Event-AHU/MambaEVT.
Ha sido un objetivo de investigación de larga data dotar a las manos de robots con destreza a nivel humano. La interpretación de piano por robots bimanuales constituye una tarea que combina desafíos de tareas dinámicas, como generar movimientos rápidos y precisos, con problemas de manipulación más lentos pero ricos en contacto. Aunque los enfoques basados en aprendizaje por refuerzo han mostrado resultados prometedores en el rendimiento de tareas individuales, estos métodos tienen dificultades en un entorno de múltiples canciones. Nuestro trabajo tiene como objetivo cerrar esta brecha y, por lo tanto, permitir enfoques de aprendizaje por imitación para la interpretación de piano por robots a gran escala. Con este fin, presentamos el conjunto de datos Robot Piano 1 Millón (RP1M), que contiene datos de movimiento de interpretación de piano por robots bimanuales de más de un millón de trayectorias. Formulamos la colocación de los dedos como un problema de transporte óptimo, lo que permite la anotación automática de grandes cantidades de canciones no etiquetadas. La evaluación de los enfoques existentes de aprendizaje por imitación muestra que dichos enfoques alcanzan un rendimiento de interpretación de piano por robots de vanguardia al aprovechar RP1M.
El Splatting Gaussiano 3D (3DGS) se ha convertido en el método de representación 3D por defecto en muchas tareas de visión. Esto requiere una comprensión 3D directamente en este espacio de representación. Para facilitar la investigación en esta dirección, primero construimos un conjunto de datos a gran escala de 3DGS utilizando los conjuntos de datos ShapeNet y ModelNet comúnmente utilizados. Nuestro conjunto de datos ShapeSplat consta de 65K objetos de 87 categorías únicas, cuyas etiquetas están en concordancia con los respectivos conjuntos de datos. La creación de este conjunto de datos utilizó el equivalente computacional de 2 años de GPU en una GPU TITAN XP. Utilizamos nuestro conjunto de datos para el preentrenamiento no supervisado y el ajuste fino supervisado para tareas de clasificación y segmentación. Con este fin, presentamos \textit{Gaussian-MAE}, que destaca los beneficios únicos del aprendizaje de representación a partir de parámetros gaussianos. A través de experimentos exhaustivos, proporcionamos varias ideas valiosas. En particular, mostramos que (1) la distribución de los centroides de GS optimizados difiere significativamente de la nube de puntos muestreada uniformemente (utilizada para la inicialización); (2) este cambio en la distribución resulta en degradación en la clasificación pero mejora en las tareas de segmentación al usar solo los centroides; (3) para aprovechar parámetros gaussianos adicionales, proponemos el agrupamiento de características gaussianas en un espacio de características normalizado, junto con una capa de agrupamiento de splats, ofreciendo una solución personalizada para agrupar e incrustar de manera efectiva Gaussians similares, lo que conduce a una notable mejora en las tareas de ajuste fino.
La movilidad urbana y los sistemas de transporte han sido transformados profundamente por el avance de las tecnologías de vehículos autónomos. Baidu Apollo Go, un servicio pionero de robotaxis de la gigante tecnológica china Baidu, ha sido recientemente ampliamente desplegado en ciudades importantes como Beijing y Wuhan, generando una mayor conversación y ofreciendo una visión del futuro de la movilidad urbana. Este estudio investiga las actitudes del público hacia Apollo Go en toda China utilizando Análisis de Sentimientos con un modelo BERT híbrido en 36,096 publicaciones de Weibo desde enero hasta julio de 2024. El análisis muestra que el 89.56\% de las publicaciones relacionadas con Apollo Go se concentran en julio. Desde enero hasta julio, el sentimiento público fue mayormente positivo, pero los comentarios negativos comenzaron a aumentar después de convertirse en un tema candente el 21 de julio. El análisis espacial indica una fuerte correlación entre las provincias con alta intensidad de discusión y aquellas donde opera Apollo Go. Inicialmente, Hubei y Guangdong dominaban el volumen de publicaciones en línea, pero para julio, Guangdong, Beijing y regiones internacionales habían superado a Hubei. Las actitudes variaron significativamente entre las provincias, con Xinjiang y Qinghai mostrando optimismo y Tíbet y Gansu expresando preocupaciones sobre el impacto en los servicios de taxis tradicionales. El análisis de sentimientos reveló que los comentarios positivos se centraron en las aplicaciones tecnológicas y las experiencias personales, mientras que los comentarios negativos se enfocaron en la pérdida de empleo y las preocupaciones de seguridad. En resumen, este estudio destaca la divergencia en las percepciones públicas de los servicios autónomos de transporte con conductor, proporcionando información valiosa para planificadores, responsables de políticas y proveedores de servicios. El modelo está publicado en Hugging Face en https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao y el repositorio en GitHub en https://github.com/GIStudio/trb2024.