Artículos de investigación en IA seleccionados diariamente con traducciones
La capacidad de autocorrección es una característica altamente deseable de los grandes modelos de lenguaje (LLMs), sin embargo, se ha encontrado consistentemente que es poco efectiva en los LLMs modernos. Los enfoques existentes para entrenar la autocorrección requieren múltiples modelos o dependen de un modelo más capaz u otras formas de supervisión. Con este fin, desarrollamos un enfoque de aprendizaje por refuerzo en línea multi-turno, SCoRe, que mejora significativamente la capacidad de autocorrección de un LLM utilizando datos generados internamente. Para construir SCoRe, primero demostramos que las variantes del ajuste fino supervisado (SFT) en trazas de corrección generadas por el modelo fuera de línea son insuficientes para inculcar el comportamiento de autocorrección. En particular, observamos que el entrenamiento a través de SFT sufre de una falta de coincidencia de distribución entre los datos de entrenamiento y las respuestas propias del modelo o prefiere implícitamente solo un cierto modo de comportamiento de corrección que a menudo no es efectivo en el momento de la prueba. SCoRe aborda estos desafíos entrenando bajo la distribución propia del modelo de trazas de corrección generadas internamente y utilizando regularización apropiada para dirigir el proceso de aprendizaje hacia la adquisición de una estrategia de autocorrección efectiva en el momento de la prueba en lugar de simplemente ajustar respuestas de alto valor de recompensa para una indicación dada. Esta regularización prescribe ejecutar una primera fase de RL en un modelo base para generar una inicialización de política menos susceptible al colapso y luego utilizar un bono de recompensa para amplificar la autocorrección durante el entrenamiento. Cuando se aplica a los modelos Gemini 1.0 Pro y 1.5 Flash, encontramos que SCoRe logra un rendimiento de autocorrección de vanguardia, mejorando la autocorrección de los modelos base en un 15.6% y un 9.1% respectivamente en los benchmarks MATH y HumanEval.
El pre-entrenamiento en conjuntos de datos a gran escala y de alta calidad es crucial para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes (LLMs), especialmente en dominios especializados como las matemáticas. A pesar de la importancia reconocida, el campo de los Modelos de Lenguaje Multimodales (MLLMs) actualmente carece de un conjunto de datos de pre-entrenamiento de código abierto y completo diseñado específicamente para el razonamiento matemático. Para abordar esta brecha, presentamos InfiMM-WebMath-40B, un conjunto de datos de alta calidad de documentos de imagen-texto entrelazados. Consta de 24 millones de páginas web, 85 millones de URL de imágenes asociadas y 40 mil millones de tokens de texto, todos extraídos y filtrados meticulosamente de CommonCrawl. Proporcionamos una descripción detallada de nuestra recopilación de datos y el proceso de procesamiento. Para demostrar la robustez de InfiMM-WebMath-40B, realizamos evaluaciones tanto en configuraciones solo de texto como multimodales. Nuestras evaluaciones en bancos de pruebas solo de texto muestran que, a pesar de utilizar solo 40 mil millones de tokens, nuestro conjunto de datos mejora significativamente el rendimiento de nuestro modelo de 1.3B, ofreciendo resultados comparables a DeepSeekMath-1.3B, que utiliza 120 mil millones de tokens para el mismo tamaño de modelo. Sin embargo, con la introducción de nuestro conjunto de datos de pre-entrenamiento matemático multimodal, nuestros modelos establecen un nuevo estado del arte entre los modelos de código abierto en bancos de pruebas matemáticas multimodales como MathVerse y We-Math. Publicamos nuestros datos en https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
La llegada de los Modelos de Lenguaje Grandes (LLMs) ha allanado el camino para los motores de búsqueda de IA, por ejemplo, SearchGPT, mostrando un nuevo paradigma en la interacción humano-internet. Sin embargo, la mayoría de los actuales motores de búsqueda de IA se limitan a entornos solo de texto, descuidando las consultas de usuarios multimodales y la naturaleza entrelazada de texto e imagen de la información en los sitios web. Recientemente, los Modelos Multimodales Grandes (LMMs) han logrado avances impresionantes. Aún así, si pueden funcionar como motores de búsqueda de IA sigue siendo poco explorado, dejando la potencialidad de los LMMs en la búsqueda multimodal como una pregunta abierta. Con este fin, primero diseñamos un delicado pipeline, MMSearch-Engine, para dotar a cualquier LMM con capacidades de búsqueda multimodal. Además, presentamos MMSearch, un benchmark de evaluación integral para evaluar el rendimiento de búsqueda multimodal de los LMMs. El conjunto de datos curado contiene 300 instancias recopiladas manualmente que abarcan 14 subcampos, sin superposición con los datos de entrenamiento actuales de los LMMs, asegurando que la respuesta correcta solo se pueda obtener mediante la búsqueda. Utilizando MMSearch-Engine, los LMMs son evaluados realizando tres tareas individuales (reconsulta, reordenamiento y resumen) y una tarea desafiante de extremo a extremo con un proceso de búsqueda completo. Realizamos experimentos exhaustivos en LMMs de código cerrado y de código abierto. Entre todos los modelos probados, GPT-4o con MMSearch-Engine logra los mejores resultados, superando al producto comercial, Perplexity Pro, en la tarea de extremo a extremo, demostrando la efectividad de nuestro pipeline propuesto. Además, presentamos un análisis de errores para revelar que los LMMs actuales aún luchan por comprender completamente las tareas de búsqueda multimodal, y realizamos un estudio de ablación para indicar el potencial de escalar la computación en tiempo de prueba para motores de búsqueda de IA. Esperamos que MMSearch pueda proporcionar ideas únicas para guiar el futuro desarrollo de motores de búsqueda de IA multimodales. Página del Proyecto: https://mmsearch.github.io
Seleccionar la mejor solución de código entre varias generadas es una tarea esencial en la generación de código, la cual se puede lograr utilizando validadores confiables (por ejemplo, casos de prueba escritos por desarrolladores) como ayuda. Dado que los casos de prueba confiables no siempre están disponibles y pueden ser costosos de construir en la práctica, los investigadores proponen generar automáticamente casos de prueba para evaluar las soluciones de código. Sin embargo, cuando tanto las soluciones de código como los casos de prueba son plausibles y no confiables, seleccionar la mejor solución se vuelve un desafío. Aunque se han propuesto algunas estrategias heurísticas para abordar este problema, carecen de una garantía teórica sólida y sigue siendo una pregunta abierta si existe una estrategia de selección óptima. Nuestro trabajo contribuye de dos maneras. Primero, mostramos que dentro de un marco bayesiano, la estrategia óptima de selección se puede definir en función de la probabilidad posterior de los estados de aprobación observados entre las soluciones y los tests. El problema de identificar la mejor solución se plantea entonces como un problema de programación entera. Segundo, proponemos un enfoque eficiente para aproximar esta estrategia óptima (aunque no computable), donde el error de aproximación está limitado por la corrección del conocimiento previo. Luego incorporamos conocimiento previo efectivo para adaptar tareas de generación de código. Estudios tanto teóricos como empíricos confirman que las heurísticas existentes son limitadas en la selección de las mejores soluciones con casos de prueba plausibles. Nuestra estrategia óptima aproximada propuesta B4 supera significativamente a las heurísticas existentes en la selección de soluciones de código generadas por grandes modelos de lenguaje (LLMs) con pruebas generadas por LLM, logrando una mejora de rendimiento relativa de hasta un 50% sobre la heurística más sólida y un 246% sobre la selección aleatoria en los escenarios más desafiantes. Nuestro código está disponible públicamente en https://github.com/ZJU-CTAG/B4.
Los datos visuales se presentan en diversas formas, desde pequeños iconos de solo unos pocos píxeles hasta largos videos que abarcan horas. Los LLMs multimodales existentes generalmente estandarizan estas diversas entradas visuales a una resolución fija para los codificadores visuales y producen números similares de tokens para los LLMs. Este enfoque no es óptimo para la comprensión multimodal y es ineficiente para procesar entradas con contenidos visuales largos y cortos. Para resolver el problema, proponemos Oryx, una arquitectura multimodal unificada para la comprensión espacio-temporal de imágenes, videos y escenas 3D de múltiples vistas. Oryx ofrece una solución a pedido para procesar de manera fluida y eficiente entradas visuales con tamaños espaciales y longitudes temporales arbitrarias a través de dos innovaciones principales: 1) un modelo pre-entrenado OryxViT que puede codificar imágenes a cualquier resolución en representaciones visuales amigables para LLMs; 2) un módulo compresor dinámico que admite compresión de 1x a 16x en tokens visuales a pedido. Estas características de diseño permiten que Oryx acomode contextos visuales extremadamente largos, como videos, con baja resolución y alta compresión, manteniendo una alta precisión de reconocimiento para tareas como la comprensión de documentos con resolución nativa y sin compresión. Más allá de las mejoras arquitectónicas, la mejora en la curación de datos y el entrenamiento especializado en recuperación de contextos largos y datos espaciales conscientes ayudan a Oryx a lograr capacidades sólidas en la comprensión multimodal de imágenes, videos y 3D simultáneamente. Nuestro trabajo está disponible en código abierto en https://github.com/Oryx-mllm/Oryx.
Proponemos el primer marco de difusión de video para la colorización de videos de líneas de referencia. A diferencia de trabajos anteriores que se basan únicamente en modelos generativos de imágenes para colorear cuadro por cuadro las líneas de referencia, nuestro enfoque aprovecha un modelo de difusión de video preentrenado a gran escala para generar videos de animación colorizados. Este enfoque conduce a resultados más consistentes temporalmente y está mejor equipado para manejar grandes movimientos. En primer lugar, presentamos ControlNet guiado por bocetos, que proporciona un control adicional para refinar un modelo de difusión de imagen a video para síntesis de video controlable, lo que permite la generación de videos de animación condicionados a líneas de referencia. Luego, proponemos Atención de Referencia para facilitar la transferencia de colores del cuadro de referencia a otros cuadros que contienen movimientos rápidos y expansivos. Finalmente, presentamos un esquema novedoso para muestreo secuencial, que incorpora el Módulo de Mezcla Superpuesta y la Atención a la Referencia Anterior, para extender el modelo de difusión de video más allá de su limitación original de longitud fija para la colorización de videos largos. Tanto los resultados cualitativos como cuantitativos demuestran que nuestro método supera significativamente a las técnicas de vanguardia en cuanto a calidad de cuadro y video, así como consistencia temporal. Además, nuestro método es capaz de generar videos de animación de alta calidad y larga consistencia temporal con grandes movimientos, lo cual no era alcanzable en trabajos anteriores. Nuestro código y modelo están disponibles en https://luckyhzt.github.io/lvcd.
La fase de pre-entrenamiento de los modelos de lenguaje a menudo comienza con parámetros inicializados aleatoriamente. Con las tendencias actuales en la escalabilidad de los modelos, entrenar su gran cantidad de parámetros puede ser extremadamente lento y costoso. En contraste, los modelos de lenguaje pequeños son menos costosos de entrenar, pero a menudo no pueden alcanzar la precisión de los modelos grandes. En este documento, exploramos una idea intrigante para conectar estos dos regímenes diferentes: ¿Podemos desarrollar un método para inicializar modelos de lenguaje grandes utilizando modelos pre-entrenados más pequeños? ¿Traerá esta inicialización algún beneficio en términos de tiempo de entrenamiento y precisión final? En este documento, presentamos HyperCloning, un método que puede expandir los parámetros de un modelo de lenguaje pre-entrenado a los de un modelo más grande con dimensiones ocultas aumentadas. Nuestro método garantiza que el modelo más grande retenga la funcionalidad del modelo más pequeño. Como resultado, el modelo más grande ya hereda el poder predictivo y la precisión del modelo más pequeño antes de que comience el entrenamiento. Demostramos que entrenar un modelo inicializado de esta manera resulta en ahorros significativos en términos de horas de GPU requeridas para el pre-entrenamiento de modelos de lenguaje grandes.
La creciente demanda de activos 3D de alta calidad en diversas industrias necesita una creación de contenido 3D eficiente y automatizada. A pesar de los avances recientes en modelos generativos 3D, los métodos existentes aún enfrentan desafíos con la velocidad de optimización, la fidelidad geométrica y la falta de activos para renderizado basado en física (PBR). En este documento, presentamos 3DTopia-XL, un modelo generativo 3D nativo escalable diseñado para superar estas limitaciones. 3DTopia-XL aprovecha una representación 3D basada en primitivas novedosa, PrimX, que codifica la forma detallada, el albedo y el campo de material en un formato tensorial compacto, facilitando la modelización de geometría de alta resolución con activos PBR. Sobre la representación novedosa, proponemos un marco generativo basado en el Transformador de Difusión (DiT), que comprende 1) Compresión de Parches Primitivos, y 2) Difusión de Primitivas Latentes. 3DTopia-XL aprende a generar activos 3D de alta calidad a partir de entradas textuales o visuales. Realizamos experimentos cualitativos y cuantitativos extensos para demostrar que 3DTopia-XL supera significativamente a los métodos existentes en la generación de activos 3D de alta calidad con texturas y materiales detallados, cerrando eficazmente la brecha de calidad entre los modelos generativos y las aplicaciones del mundo real.
Los métodos de generación de imágenes personalizadas sin ajuste han logrado un éxito significativo en mantener la consistencia facial, es decir, las identidades, incluso con múltiples personajes. Sin embargo, la falta de consistencia holística en escenas con múltiples personajes obstaculiza la capacidad de estos métodos para crear una narrativa cohesiva. En este artículo, presentamos StoryMaker, una solución de personalización que preserva no solo la consistencia facial, sino también la ropa, peinados y la consistencia corporal, facilitando así la creación de una historia a través de una serie de imágenes. StoryMaker incorpora condiciones basadas en identidades faciales e imágenes de personajes recortados, que incluyen ropa, peinados y cuerpos. Específicamente, integramos la información de identidad facial con las imágenes de personajes recortados utilizando el Muestreador Perceptivo Consciente de la Posición (PPR) para obtener características de personajes distintas. Para evitar la mezcla de múltiples personajes y el fondo, restringimos por separado las regiones de impacto de atención cruzada de diferentes personajes y el fondo utilizando pérdida MSE con máscaras de segmentación. Además, entrenamos la red de generación condicionada a poses para promover el desacoplamiento de las poses. También se emplea un LoRA para mejorar la fidelidad y calidad. Los experimentos destacan la efectividad de nuestro enfoque. StoryMaker soporta numerosas aplicaciones y es compatible con otros complementos sociales. Nuestros códigos fuente y pesos del modelo están disponibles en https://github.com/RedAIGC/StoryMaker.
Los métodos recientes de generación de texturas logran resultados impresionantes debido al potente prior generativo que aprovechan de los modelos de difusión texto-imagen a gran escala. Sin embargo, las indicaciones textuales abstractas tienen limitaciones en proporcionar información global sobre texturas o formas, lo que resulta en que los métodos de generación de texturas produzcan patrones borrosos o inconsistentes. Para abordar esto, presentamos FlexiTex, que incorpora información detallada a través de orientación visual para generar una textura de alta calidad. El núcleo de FlexiTex es el módulo de Mejora de la Orientación Visual, que incorpora información más específica de la orientación visual para reducir la ambigüedad en la indicación textual y preservar detalles de alta frecuencia. Para mejorar aún más la orientación visual, introducimos un módulo de Adaptación con Conciencia de Dirección que diseña automáticamente indicaciones de dirección basadas en diferentes posiciones de cámara, evitando el problema de Janus y manteniendo la coherencia semántica global. Beneficiándose de la orientación visual, FlexiTex produce resultados sólidos cuantitativa y cualitativamente, demostrando su potencial para avanzar en la generación de texturas para aplicaciones del mundo real.
Los modelos de lenguaje (LMs) pueden producir errores difíciles de detectar para los humanos, especialmente cuando la tarea es compleja. RLHF, el método post-entrenamiento más popular, puede agravar este problema: para obtener recompensas más altas, los LMs podrían volverse mejores en convencer a los humanos de que tienen razón incluso cuando están equivocados. Estudiamos este fenómeno bajo un proceso estándar de RLHF, al que llamamos "U-SOPHISTRY" dado que es No Intencionado por los desarrolladores del modelo. Específicamente, solicitamos a sujetos humanos con restricción de tiempo (por ejemplo, 3-10 minutos) que evalúen la corrección de las salidas del modelo y calculen la precisión de los humanos frente a las etiquetas de referencia. En una tarea de pregunta-respuesta (QuALITY) y una tarea de programación (APPS), RLHF hace que los LMs sean mejores en convencer a nuestros sujetos, pero no en completar la tarea correctamente. RLHF también dificulta la evaluación del modelo: la tasa de falsos positivos de nuestros sujetos aumenta en un 24.1% en QuALITY y un 18.3% en APPS. Finalmente, demostramos que el sondeo, un enfoque de vanguardia para detectar Sofistería Intencionada (por ejemplo, LMs con puertas traseras), no se generaliza a U-SOPHISTRY. Nuestros resultados resaltan un modo de falla importante de RLHF y llaman a más investigaciones para asistir a los humanos en alinearlos.
La optimización de instrucciones mejora los modelos de lenguaje grandes (LLMs) al alinearlos con las preferencias humanas en diversas tareas. Los enfoques tradicionales para crear conjuntos de datos de optimización de instrucciones enfrentan desafíos significativos para los idiomas con recursos limitados debido a su dependencia de la anotación de datos. Este trabajo introduce un método novedoso, Instrucciones Reversas Multilingües (MURI), que genera conjuntos de datos de optimización de instrucciones de alta calidad para idiomas con recursos limitados sin necesidad de anotadores humanos o modelos multilingües preexistentes. Utilizando instrucciones reversas y un pipeline de traducción, MURI produce pares de instrucciones-salida a partir de textos escritos por humanos en idiomas con recursos limitados. Este método garantiza relevancia cultural y diversidad al obtener textos de diferentes dominios nativos y aplicar filtros para eliminar contenido inapropiado. Nuestro conjunto de datos, MURI-IT, incluye más de 2 millones de pares de instrucciones-salida en 200 idiomas. La evaluación por hablantes nativos y experimentos de ajuste fino con modelos mT5 demuestran la efectividad del enfoque tanto para ULN como para generación abierta. Publicamos los conjuntos de datos y modelos en https://github.com/akoksal/muri.
Presentamos 3DGS-LM, un nuevo método que acelera la reconstrucción de Splatting Gaussiano 3D (3DGS) al reemplazar su optimizador ADAM con un Levenberg-Marquardt (LM) adaptado. Los métodos existentes reducen el tiempo de optimización disminuyendo el número de gaussianas o mejorando la implementación del rasterizador diferenciable. Sin embargo, siguen dependiendo del optimizador ADAM para ajustar los parámetros gaussianos de una escena en miles de iteraciones, lo que puede llevar hasta una hora. Con este fin, cambiamos el optimizador a LM que se ejecuta en conjunto con el rasterizador diferenciable 3DGS. Para una paralelización eficiente en GPU, proponemos una estructura de datos de almacenamiento en caché para gradientes intermedios que nos permite calcular de manera eficiente productos de Jacobianos-vector en núcleos CUDA personalizados. En cada iteración de LM, calculamos direcciones de actualización a partir de múltiples subconjuntos de imágenes utilizando estos núcleos y los combinamos en una media ponderada. En general, nuestro método es un 30% más rápido que el 3DGS original, manteniendo la misma calidad de reconstrucción. Nuestra optimización también es agnóstica a otros métodos que aceleran 3DGS, lo que permite incluso aceleraciones más rápidas en comparación con el 3DGS estándar.
La generación de video utilizando modelos basados en difusión se ve limitada por altos costos computacionales debido al proceso de difusión iterativa por cuadros. Este trabajo presenta una red llamada Difusión Reutilizada de Movimiento (Dr. Mo) para acelerar la generación de video latente. Nuestro descubrimiento clave es que los ruidos de grano grueso en etapas anteriores de eliminación de ruido han demostrado una alta consistencia de movimiento entre cuadros de video consecutivos. Siguiendo esta observación, Dr. Mo propaga esos ruidos de grano grueso al cuadro siguiente mediante la incorporación de movimientos intercuadro cuidadosamente diseñados y livianos, eliminando la redundancia computacional masiva en modelos de difusión por cuadros. Los ruidos más sensibles y de grano fino aún se adquieren a través de etapas posteriores de eliminación de ruido, lo cual puede ser esencial para mantener la calidad visual. Por lo tanto, decidir en qué etapas intermedias se debe cambiar de propagaciones basadas en movimiento a eliminación de ruido puede ser un problema crucial y un compromiso clave entre eficiencia y calidad. Dr. Mo emplea una meta-red llamada Selector de Etapas de Eliminación de Ruido (DSS) para determinar dinámicamente las etapas intermedias deseadas en cuadros de video. Evaluaciones extensas en tareas de generación y edición de video han demostrado que Dr. Mo puede acelerar sustancialmente los modelos de difusión en tareas de video con mejoras en la calidad visual.
La tarea de Subtitulado Automático de Audio (SAA) solicita a los modelos generar descripciones en lenguaje natural de una entrada de audio. Evaluar estos subtítulos de audio generados por máquinas es una tarea compleja que requiere considerar diversos factores, entre ellos, la comprensión de escenas auditivas, inferencia de objetos de sonido, coherencia temporal y el contexto ambiental de la escena. Si bien los métodos actuales se centran en aspectos específicos, a menudo no logran proporcionar una puntuación general que se alinee bien con el juicio humano. En este trabajo, proponemos CLAIR-A, un método simple y flexible que aprovecha las capacidades de cero disparo de los grandes modelos de lenguaje (LLMs) para evaluar subtítulos de audio candidatos al preguntar directamente a los LLMs por una puntuación de distancia semántica. En nuestras evaluaciones, CLAIR-A predice mejor los juicios humanos de calidad en comparación con métricas tradicionales, con una mejora de precisión relativa del 5.8% en comparación con la métrica FENSE específica del dominio y hasta un 11% sobre la mejor medida de propósito general en el conjunto de datos Clotho-Eval. Además, CLAIR-A ofrece más transparencia al permitir que el modelo de lenguaje explique el razonamiento detrás de sus puntuaciones, con estas explicaciones valoradas hasta un 30% mejor por evaluadores humanos que las proporcionadas por métodos de referencia. CLAIR-A está disponible públicamente en https://github.com/DavidMChan/clair-a.