Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito impresionante en muchos puntos de referencia para el razonamiento matemático. Sin embargo, existe una creciente preocupación de que parte de este rendimiento refleje en realidad contaminación de datos, donde información que se asemeja estrechamente a las preguntas de los benchmarks se filtra en los datos de entrenamiento, en lugar de una verdadera capacidad de razonamiento. Para investigar esta afirmación de manera rigurosa, hemos creado Grade School Math 1000 (GSM1k). GSM1k está diseñado para reflejar el estilo y la complejidad del benchmark establecido GSM8k, considerado el estándar de oro para medir el razonamiento matemático elemental. Nos aseguramos de que ambos benchmarks sean comparables en métricas importantes, como las tasas de resolución humana, el número de pasos en la solución, la magnitud de las respuestas y más. Al evaluar los principales LLMs de código abierto y cerrado en GSM1k, observamos caídas en la precisión de hasta un 13%, con varias familias de modelos (por ejemplo, Phi y Mistral) mostrando evidencia de sobreajuste sistemático en casi todos los tamaños de modelo. Al mismo tiempo, muchos modelos, especialmente aquellos en la frontera (por ejemplo, Gemini/GPT/Claude), muestran signos mínimos de sobreajuste. Un análisis adicional sugiere una relación positiva (r^2 de Spearman = 0.32) entre la probabilidad de que un modelo genere un ejemplo de GSM8k y su brecha de rendimiento entre GSM8k y GSM1k, lo que indica que muchos modelos podrían haber memorizado parcialmente GSM8k.
La edición de imágenes ha avanzado significativamente con la introducción de modelos de difusión condicionados por texto. A pesar de este progreso, agregar objetos a las imágenes de manera fluida basándose en instrucciones textuales, sin requerir máscaras proporcionadas por el usuario, sigue siendo un desafío. Abordamos este problema aprovechando la idea de que eliminar objetos (Inpainting) es considerablemente más simple que su proceso inverso de agregarlos (Painting), lo cual se atribuye al uso de conjuntos de datos de máscaras de segmentación junto con modelos de inpainting que rellenan dentro de estas máscaras. Aprovechando esta comprensión, mediante la implementación de una canalización automatizada y extensa, creamos un conjunto de datos de imágenes a gran escala y filtrado que contiene pares de imágenes y sus versiones con objetos eliminados. Utilizando estos pares, entrenamos un modelo de difusión para invertir el proceso de inpainting, agregando efectivamente objetos a las imágenes. A diferencia de otros conjuntos de datos de edición, el nuestro presenta imágenes objetivo naturales en lugar de sintéticas; además, mantiene la coherencia entre la fuente y el objetivo por construcción. Adicionalmente, utilizamos un modelo grande de Visión-Lenguaje para proporcionar descripciones detalladas de los objetos eliminados y un Modelo de Lenguaje Grande para convertir estas descripciones en instrucciones diversas y en lenguaje natural. Demostramos que el modelo entrenado supera a los existentes tanto cualitativa como cuantitativamente, y liberamos el conjunto de datos a gran escala junto con los modelos entrenados para la comunidad.
Los enfoques tradicionales de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) que dependen de modelos paramétricos como el modelo de Bradley-Terry no logran capturar la intransitividad e irracionalidad en las preferencias humanas. Avances recientes sugieren que trabajar directamente con probabilidades de preferencia puede reflejar de manera más precisa las preferencias humanas, permitiendo una alineación de modelos de lenguaje más flexible y precisa. En este artículo, proponemos un método basado en autojuego para la alineación de modelos de lenguaje, que aborda el problema como un juego de suma constante entre dos jugadores destinado a identificar la política de equilibrio de Nash. Nuestro enfoque, denominado Optimización de Preferencias por Autojuego (SPPO, por sus siglas en inglés), aproxima el equilibrio de Nash mediante actualizaciones iterativas de políticas y cuenta con una garantía teórica de convergencia. Nuestro método puede aumentar efectivamente la verosimilitud logarítmica de la respuesta elegida y disminuir la de la respuesta rechazada, lo cual no puede lograrse trivialmente con funciones de pérdida simétricas por pares como la Optimización Directa de Preferencias (DPO) o la Optimización de Preferencias de Identidad (IPO). En nuestros experimentos, utilizando solo 60k indicaciones (sin respuestas) del conjunto de datos UltraFeedback y sin ninguna ampliación de indicaciones, al aprovechar un modelo de preferencias preentrenado PairRM con solo 0.4 mil millones de parámetros, SPPO puede obtener un modelo a partir del ajuste fino de Mistral-7B-Instruct-v0.2 que alcanza una tasa de victoria controlada por longitud de 28.53% contra GPT-4-Turbo en AlpacaEval 2.0, superando también a DPO (iterativo) e IPO en MT-Bench y en el Open LLM Leaderboard. Cabe destacar que el fuerte rendimiento de SPPO se logra sin supervisión externa adicional (por ejemplo, respuestas, preferencias, etc.) de GPT-4 u otros modelos de lenguaje más potentes.
Este estudio presenta un análisis dirigido de edición de modelos centrado en el último modelo de lenguaje a gran escala, Llama-3. Exploramos la eficacia de técnicas populares de edición de modelos - ROME, MEMIT y EMMET, diseñadas para intervenciones precisas en capas. Identificamos las capas más efectivas para ediciones dirigidas mediante una evaluación que abarca hasta 4096 ediciones en tres estrategias distintas: edición secuencial, edición por lotes y un enfoque híbrido que denominamos edición secuencial-por lotes. Nuestros hallazgos indican que aumentar el tamaño de los lotes de edición puede degradar el rendimiento del modelo más significativamente que utilizar lotes de edición más pequeños de manera secuencial para un número igual de ediciones. Con esto, argumentamos que la edición secuencial de modelos es un componente importante para escalar los métodos de edición de modelos, y que futuras investigaciones deberían centrarse en métodos que combinen tanto la edición por lotes como la secuencial. Esta observación sugiere una limitación potencial en los métodos actuales de edición de modelos que tienden hacia tamaños de lotes de edición más grandes, y esperamos que abra el camino para futuras investigaciones sobre la optimización de los tamaños de lotes y el rendimiento de la edición de modelos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado significativamente en el procesamiento de audio a través de códecs que convierten el audio en tokens discretos, permitiendo la aplicación de técnicas de modelado de lenguaje a datos de audio. Sin embargo, los códecs tradicionales suelen operar a altas tasas de bits o en dominios estrechos como el habla, y carecen de las pistas semánticas necesarias para un modelado de lenguaje eficiente. Para abordar estos desafíos, presentamos SemantiCodec, un códec novedoso diseñado para comprimir audio en menos de cien tokens por segundo en diversos tipos de audio, incluyendo habla, audio general y música, sin comprometer la calidad. SemantiCodec cuenta con una arquitectura de doble codificador: un codificador semántico que utiliza un AudioMAE auto-supervisado, discretizado mediante clustering k-means en extensos datos de audio, y un codificador acústico para capturar los detalles restantes. Las salidas de los codificadores semántico y acústico se utilizan para reconstruir el audio a través de un decodificador basado en modelos de difusión. SemantiCodec se presenta en tres variantes con tasas de tokens de 25, 50 y 100 por segundo, soportando un rango de tasas de bits ultra bajas entre 0.31 kbps y 1.43 kbps. Los resultados experimentales demuestran que SemantiCodec supera significativamente al códec de última generación Descript en calidad de reconstrucción. Nuestros resultados también sugieren que SemantiCodec contiene información semántica significativamente más rica que todos los códecs de audio evaluados, incluso a tasas de bits considerablemente más bajas. Nuestro código y demostraciones están disponibles en https://haoheliu.github.io/SemantiCodec/.
Los modelos de lenguaje de gran escala (LLMs) presentan una baja eficiencia debido a la discrepancia entre los requisitos de decodificación auto-regresiva y el diseño de la mayoría de las GPU contemporáneas. Específicamente, miles de millones a billones de parámetros deben cargarse en la caché de la GPU a través de su limitado ancho de banda de memoria para su cálculo, pero solo se computa un pequeño lote de tokens. Como consecuencia, la GPU dedica la mayor parte de su tiempo a la transferencia de memoria en lugar de al cálculo. Recientemente, la decodificación paralela, un tipo de algoritmo de decodificación especulativa, está ganando popularidad y ha demostrado una mejora impresionante en la eficiencia de la generación. Este enfoque introduce cabezales de decodificación adicionales en los modelos grandes, permitiéndoles predecir múltiples tokens subsiguientes simultáneamente y verificar estas continuaciones candidatas en un solo paso de decodificación. Sin embargo, este método se desvía del objetivo de entrenamiento de predicción del siguiente token utilizado durante el pre-entrenamiento, lo que resulta en una baja tasa de acierto para los tokens candidatos. En este artículo, proponemos un nuevo algoritmo de decodificación especulativa, Clover, que integra conocimiento secuencial en el proceso de decodificación paralela. Esta mejora aumenta la tasa de acierto de los especuladores y, por lo tanto, incrementa la eficiencia general. Clover transmite el conocimiento secuencial de los tokens pre-especulados a través de la Conexión Regresiva, luego emplea un Decodificador de Atención para integrar estos tokens especulados. Además, Clover incorpora un Bloque de Aumento que modifica los estados ocultos para alinearse mejor con el propósito de la generación especulativa en lugar de la predicción del siguiente token. Los resultados experimentales demuestran que Clover supera la línea base hasta en un 91% en Baichuan-Small y un 146% en Baichuan-Large, respectivamente, y supera el rendimiento del método anteriormente más destacado, Medusa, hasta en un 37% en Baichuan-Small y un 57% en Baichuan-Large, respectivamente.
Recientemente, el Splatting Gaussiano 3D, como una novedosa representación 3D, ha captado atención por su velocidad de renderizado rápida y alta calidad de visualización. Sin embargo, esto conlleva un alto consumo de memoria, por ejemplo, un campo Gaussiano bien entrenado puede utilizar tres millones de primitivas Gaussianas y más de 700 MB de memoria. Atribuimos este alto uso de memoria a la falta de consideración de la relación entre las primitivas. En este artículo, proponemos un campo Gaussiano eficiente en memoria llamado SUNDAE con poda espectral y compensación neuronal. Por un lado, construimos un grafo sobre el conjunto de primitivas Gaussianas para modelar su relación y diseñamos un módulo de submuestreo espectral para eliminar primitivas mientras preservamos las señales deseadas. Por otro lado, para compensar la pérdida de calidad al podar las Gaussianas, utilizamos una cabeza de red neuronal ligera para mezclar características splatting, lo que compensa efectivamente las pérdidas de calidad mientras captura la relación entre las primitivas en sus pesos. Demostramos el rendimiento de SUNDAE con resultados extensivos. Por ejemplo, SUNDAE puede alcanzar 26.80 PSNR a 145 FPS utilizando 104 MB de memoria, mientras que el algoritmo de splatting Gaussiano convencional alcanza 25.60 PSNR a 160 FPS utilizando 523 MB de memoria, en el conjunto de datos Mip-NeRF360. Los códigos están disponibles públicamente en https://runyiyang.github.io/projects/SUNDAE/.
El seguimiento de objetos en el espacio tridimensional es fundamental para la conducción autónoma. Para garantizar la seguridad al conducir, el sistema de seguimiento debe ser capaz de rastrear objetos de manera confiable a lo largo de los fotogramas y estimar con precisión sus estados, como la velocidad y la aceleración, en el momento presente. Los trabajos existentes suelen centrarse en la tarea de asociación, mientras que descuidan el rendimiento del modelo en la estimación de estados o implementan heurísticas complejas para predecir dichos estados. En este artículo, proponemos STT, un modelo de seguimiento con estado construido con Transformers, que puede rastrear objetos de manera consistente en las escenas y, al mismo tiempo, predecir sus estados con precisión. STT utiliza señales ricas de apariencia, geometría y movimiento a través de un historial a largo plazo de detecciones y está optimizado conjuntamente para las tareas de asociación de datos y estimación de estados. Dado que las métricas estándar de seguimiento, como MOTA y MOTP, no capturan el rendimiento combinado de ambas tareas en el espectro más amplio de estados de los objetos, las extendemos con nuevas métricas llamadas S-MOTA y MOTPS que abordan esta limitación. STT logra un rendimiento competitivo en tiempo real en el conjunto de datos Waymo Open.
Los desarrolladores de aplicaciones promocionan sus Apps creando páginas de producto con imágenes de la aplicación y realizando pujas por términos de búsqueda. Por lo tanto, es crucial que las imágenes de las Apps sean altamente relevantes con los términos de búsqueda. Las soluciones a este problema requieren un modelo de emparejamiento imagen-texto para predecir la calidad de la coincidencia entre la imagen seleccionada y los términos de búsqueda. En este trabajo, presentamos un enfoque novedoso para emparejar una imagen de App con términos de búsqueda basado en el ajuste fino de un modelo LXMERT preentrenado. Demostramos que, en comparación con el modelo CLIP y una línea de base que utiliza un modelo Transformer para los términos de búsqueda y un modelo ResNet para las imágenes, mejoramos significativamente la precisión del emparejamiento. Evaluamos nuestro enfoque utilizando dos conjuntos de etiquetas: pares (imagen, término de búsqueda) asociados por el anunciante para una aplicación dada, y calificaciones humanas sobre la relevancia entre pares (imagen, término de búsqueda). Nuestro enfoque alcanza un puntaje AUC de 0.96 para la verdad de campo asociada al anunciante, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 8% y 14%, respectivamente. Para la verdad de campo etiquetada por humanos, nuestro enfoque alcanza un puntaje AUC de 0.95, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 16% y 17%, respectivamente.