Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos DeepSeek-Prover-V1.5, un modelo de lenguaje de código abierto diseñado para la demostración de teoremas en Lean 4, que mejora DeepSeek-Prover-V1 al optimizar tanto los procesos de entrenamiento como de inferencia. Pre-entrenado en DeepSeekMath-Base con especialización en lenguajes matemáticos formales, el modelo se somete a un ajuste fino supervisado utilizando un conjunto de datos mejorado de demostración de teoremas formales derivado de DeepSeek-Prover-V1. Además, se logra un mayor refinamiento a través del aprendizaje por refuerzo a partir de la retroalimentación del asistente de pruebas (RLPAF). Más allá del enfoque de generación de pruebas completas de un solo paso de DeepSeek-Prover-V1, proponemos RMaxTS, una variante de la búsqueda de árboles de Monte Carlo que emplea una estrategia de exploración impulsada por recompensas intrínsecas para generar caminos de prueba diversos. DeepSeek-Prover-V1.5 muestra mejoras significativas sobre DeepSeek-Prover-V1, logrando nuevos resultados de vanguardia en el conjunto de pruebas del benchmark miniF2F de nivel de secundaria (63.5%) y en el benchmark ProofNet de nivel universitario (25.3%).
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han logrado avances significativos, sin embargo, el paradigma común de aprendizaje trata a los LLMs como repositorios pasivos de información, descuidando su potencial para el aprendizaje activo y la alineación. Algunos enfoques entrenan a los LLMs utilizando sus propios datos sintéticos generados, explorando la posibilidad de una alineación activa. Sin embargo, todavía existe una gran brecha entre estos métodos de alineación única y la alineación automática continua de los humanos. En este artículo, presentamos I-SHEEP, un Paradigma de Mejora Autónoma Iterativa. Este paradigma humanoide permite a los LLMs autoalinearse continuamente desde cero. En comparación con el método de alineación única Dromedario sun2023principledriven, que se refiere a la primera iteración en este artículo, I-SHEEP puede mejorar significativamente las capacidades en los modelos Qwen y Llama. I-SHEEP logra una mejora relativa máxima del 78.2% en Alpaca Eval, 24.0% en MT Bench, y un aumento absoluto del 8.88% en la precisión de IFEval en las iteraciones subsiguientes en el modelo Qwen-1.5 72B. Además, I-SHEEP supera al modelo base en varias tareas estándar de generación de benchmarks, logrando una mejora promedio del 24.77% en tareas de generación de código, 12.04% en TrivialQA, y 20.29% en SQuAD. También proporcionamos nuevas ideas basadas en los resultados experimentales. Nuestros códigos, conjuntos de datos y modelos están disponibles en https://anonymous.4open.science/r/I-SHEEP.
Entrenar una red neuronal es un esfuerzo monolítico, similar a esculpir conocimiento en piedra: una vez que se completa el proceso, editar el conocimiento en una red es casi imposible, ya que toda la información está distribuida en los pesos de la red. Aquí exploramos una alternativa simple y convincente al combinar el poder representacional de las redes neuronales profundas con la flexibilidad de una base de datos. Descomponiendo la tarea de clasificación de imágenes en similitud de imágenes (desde un incrustado pre-entrenado) y búsqueda (a través de una recuperación rápida de vecinos más cercanos desde una base de conocimiento), construimos una memoria visual simple y flexible que tiene las siguientes capacidades clave: (1.) La capacidad de agregar datos de manera flexible en diferentes escalas: desde muestras individuales hasta clases enteras y datos a escala de miles de millones; (2.) La capacidad de eliminar datos a través del desaprendizaje y la poda de la memoria; (3.) Un mecanismo de decisión interpretable en el que podemos intervenir para controlar su comportamiento. En conjunto, estas capacidades demuestran de manera integral los beneficios de una memoria visual explícita. Esperamos que pueda contribuir a una conversación sobre cómo debería representarse el conocimiento en modelos de visión profunda, más allá de esculpirlo en pesos de "piedra".
La destilación o condensación de conjuntos de datos tiene como objetivo condensar un conjunto de entrenamiento a gran escala en uno sintético mucho más pequeño de tal manera que el rendimiento de entrenamiento de los conjuntos destilados y originales en redes neuronales sea similar. Aunque el número de muestras de entrenamiento puede reducirse considerablemente, los métodos actuales de vanguardia dependen en gran medida de etiquetas suaves enormes para lograr un rendimiento satisfactorio. Como resultado, el almacenamiento requerido puede ser comparable incluso a los conjuntos de datos originales, especialmente para los de gran escala. Para resolver este problema, en lugar de almacenar estas etiquetas pesadas, proponemos un nuevo marco de aligeramiento de etiquetas denominado HeLlO que tiene como objetivo proyectores efectivos de imagen a etiqueta, con los cuales las etiquetas sintéticas pueden generarse directamente en línea a partir de imágenes sintéticas. Específicamente, para construir dichos proyectores, aprovechamos el conocimiento previo en modelos de base de código abierto, por ejemplo, CLIP, e introducimos una estrategia de ajuste fino similar a LoRA para mitigar la brecha entre las distribuciones pre-entrenadas y objetivo, de modo que los modelos originales para la generación de etiquetas suaves puedan destilarse en un grupo de matrices de rango bajo. Además, se propone un método efectivo de optimización de imágenes para mitigar aún más el error potencial entre los generadores de etiquetas originales y destilados. Experimentos extensos demuestran que con solo aproximadamente el 0.003% del almacenamiento original requerido para un conjunto completo de etiquetas suaves, logramos un rendimiento comparable a los métodos actuales de destilación de conjuntos de datos de vanguardia en conjuntos de datos a gran escala. Nuestro código estará disponible.
La síntesis de videos ricos en movimiento y temporalmente consistentes sigue siendo un desafío en inteligencia artificial, especialmente al tratar con duraciones prolongadas. Los modelos existentes de texto a video (T2V) comúnmente emplean atención cruzada espacial para el control de texto, guiando de manera equivalente diferentes generaciones de fotogramas sin una guía textual específica por fotograma. Por lo tanto, la capacidad del modelo para comprender la lógica temporal transmitida en las indicaciones y generar videos con movimiento coherente se ve restringida. Para abordar esta limitación, presentamos FancyVideo, un generador de videos innovador que mejora el mecanismo de control de texto existente con el bien diseñado Módulo de Guía Textual entre Fotogramas Cruzados (CTGM). Específicamente, CTGM incorpora el Inyector de Información Temporal (TII), el Refinador de Afinidad Temporal (TAR) y el Potenciador de Características Temporales (TFB) al principio, en medio y al final de la atención cruzada, respectivamente, para lograr una guía textual específica por fotograma. En primer lugar, TII inyecta información específica de fotogramas de características latentes en condiciones de texto, obteniendo así condiciones textuales entre fotogramas cruzados. Luego, TAR refina la matriz de correlación entre las condiciones textuales entre fotogramas cruzados y las características latentes a lo largo de la dimensión temporal. Por último, TFB mejora la consistencia temporal de las características latentes. Experimentos extensos que comprenden evaluaciones tanto cuantitativas como cualitativas demuestran la efectividad de FancyVideo. Nuestro enfoque logra resultados de generación T2V de vanguardia en el conjunto de datos de evaluación EvalCrafter y facilita la síntesis de videos dinámicos y consistentes. Los resultados del video pueden estar disponibles en https://fancyvideo.github.io/, y haremos públicos nuestro código y los pesos del modelo.
Si bien muchas capacidades de los modelos de lenguaje (LMs) mejoran con un presupuesto de entrenamiento mayor, la influencia de la escala en las alucinaciones aún no se comprende completamente. Las alucinaciones se presentan en diversas formas, y no hay una definición universalmente aceptada. Por lo tanto, nos centramos en estudiar solo aquellas alucinaciones donde una respuesta correcta aparece textualmente en el conjunto de entrenamiento. Para controlar completamente el contenido de los datos de entrenamiento, construimos un conjunto de datos basado en un grafo de conocimiento (KG) y lo utilizamos para entrenar un conjunto de LMs cada vez más grandes. Descubrimos que, para un conjunto de datos fijo, los LMs más grandes y entrenados durante más tiempo alucinan menos. Sin embargo, alucinar en menos del 5% de los datos de entrenamiento requiere un modelo significativamente más grande, y por lo tanto, un orden de magnitud más de recursos computacionales, de lo que Hoffmann et al. (2022) informaron como óptimo. Dada esta costosidad, estudiamos cómo los detectores de alucinaciones dependen de la escala. Si bien observamos que el tamaño del detector mejora el rendimiento en las salidas de LM fijos, encontramos una relación inversa entre la escala del LM y la capacidad de detectar sus alucinaciones.
Si bien entrenar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) desde cero puede conducir efectivamente a modelos con capacidades y fortalezas distintas, conlleva costos sustanciales y puede resultar en redundancia de competencias. La fusión de conocimiento tiene como objetivo integrar LLMs existentes con diversas arquitecturas y capacidades en un LLM más potente a través de un entrenamiento continuo ligero, reduciendo así la necesidad de un costoso desarrollo de LLM. En este trabajo, proponemos un nuevo marco para la fusión de conocimiento de LLMs de chat a través de dos etapas principales, lo que resulta en FuseChat. En primer lugar, realizamos una fusión de conocimiento por pares en LLMs de chat fuente con estructuras y escalas variables para crear múltiples LLMs objetivo con la misma estructura y tamaño mediante un ajuste fino ligero. Durante este proceso, se introduce un enfoque de alineación de tokens basado en estadísticas como piedra angular para fusionar LLMs con estructuras diferentes. En segundo lugar, fusionamos estos LLMs objetivo dentro del espacio de parámetros, donde proponemos un método novedoso para determinar los coeficientes de fusión basados en la magnitud de las actualizaciones de parámetros antes y después del ajuste fino. Implementamos y validamos FuseChat utilizando seis destacados LLMs de chat con diversas arquitecturas y escalas, incluidos OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct y Qwen-1.5-Chat-72B. Los resultados experimentales en dos bancos de pruebas de seguimiento de instrucciones, AlpacaEval 2.0 y MT-Bench, demuestran la superioridad de FuseChat-7B sobre las líneas de base de varios tamaños. Nuestro modelo es incluso comparable al más grande Mixtral-8x7B-Instruct y se acerca a GPT-3.5-Turbo-1106 en MT-Bench. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseAI.
El marco de Mezcla de Expertos (MoE) se ha convertido en una arquitectura popular para modelos de lenguaje grandes debido a su rendimiento superior sobre modelos densos. Sin embargo, entrenar MoEs desde cero en un régimen a gran escala es prohibitivamente costoso. Los métodos existentes mitigan esto pre-entrenando múltiples modelos expertos densos de forma independiente y utilizando su inicialización para un MoE. Esto se logra utilizando la red feed-forward (FFN) de los expertos para inicializar los expertos del MoE mientras se fusionan otros parámetros. Sin embargo, este método limita la reutilización de los parámetros del modelo denso solo a las capas FFN, lo que restringe las ventajas al "reciclar" estos modelos en MoEs. Proponemos BAM (Rama-Atender-Mezclar), un método simple pero efectivo que aborda esta deficiencia. BAM aprovecha al máximo los modelos densos especializados no solo utilizando sus capas FFN para inicializar las capas del MoE, sino también aprovechando plenamente los parámetros de atención de los expertos al inicializarlos en una variante suave de capas de Mezcla de Atención (MoA). Exploramos dos métodos para reciclar los parámetros de atención: 1) inicializando expertos de atención separados a partir de modelos densos que incluyen todos los parámetros de atención para obtener el mejor rendimiento del modelo; y 2) compartiendo parámetros clave y de valor entre todos los expertos para facilitar una mejor eficiencia de inferencia. Para mejorar aún más la eficiencia, adoptamos una arquitectura de transformador de atención paralela a MoEs, que permite que los expertos de atención y los expertos de FFN se calculen de forma concurrente. Nuestros experimentos en modelos base que van desde 590 millones hasta 2 mil millones de parámetros demuestran que BAM supera a las líneas de base tanto en perplejidad como en el rendimiento de tareas secundarias, dentro de las mismas limitaciones computacionales y de datos.
Las conversaciones humano-modelo ofrecen una ventana a los escenarios, comportamientos y necesidades del usuario en el mundo real, por lo tanto, son un recurso valioso para el desarrollo y la investigación de modelos. Mientras que las empresas con ánimo de lucro recopilan datos de usuario a través de las API de sus modelos, utilizándolos internamente para mejorar sus propios modelos, la comunidad de código abierto e investigación se queda rezagada. Presentamos la colección ShareLM, un conjunto unificado de conversaciones humanas con grandes modelos de lenguaje, y su complemento correspondiente, una extensión web para contribuir voluntariamente con conversaciones usuario-modelo. Donde pocas plataformas comparten sus chats, el complemento ShareLM añade esta funcionalidad, permitiendo a los usuarios compartir conversaciones desde la mayoría de las plataformas. El complemento permite al usuario calificar sus conversaciones, tanto a nivel de la conversación como de la respuesta, y eliminar conversaciones que prefieran mantener privadas antes de que abandonen el almacenamiento local del usuario. Publicamos las conversaciones del complemento como parte de la colección ShareLM, y solicitamos un mayor esfuerzo comunitario en el campo de los datos abiertos humano-modelo. El código, el complemento y los datos están disponibles.
Este artículo presenta PeriodWave-Turbo, un modelo de generación de formas de onda de alta fidelidad y alta eficiencia a través de la optimización de emparejamiento de flujo adversarial. Recientemente, los modelos generativos de emparejamiento de flujo condicional (CFM) han sido adoptados con éxito para tareas de generación de formas de onda, aprovechando un objetivo de estimación de campo vectorial único para el entrenamiento. Aunque estos modelos pueden generar señales de formas de onda de alta fidelidad, requieren significativamente más pasos de EDO en comparación con los modelos basados en GAN, que solo necesitan un paso de generación. Además, las muestras generadas a menudo carecen de información de alta frecuencia debido a la estimación ruidosa del campo vectorial, lo que no garantiza una reproducción de alta frecuencia. Para abordar esta limitación, mejoramos los modelos generativos basados en CFM pre-entrenados mediante la incorporación de una modificación de generador de paso fijo. Utilizamos pérdidas de reconstrucción y retroalimentación adversarial para acelerar la generación de formas de onda de alta fidelidad. A través de la optimización de emparejamiento de flujo adversarial, solo se requieren 1,000 pasos de ajuste fino para lograr un rendimiento de vanguardia en diversas métricas objetivas. Además, reducimos significativamente la velocidad de inferencia de 16 pasos a 2 o 4 pasos. Además, al escalar el esqueleto de PeriodWave de 29M a 70M parámetros para una generalización mejorada, PeriodWave-Turbo logra un rendimiento sin precedentes, con una puntuación de calidad de habla evaluada perceptualmente (PESQ) de 4.454 en el conjunto de datos LibriTTS. Las muestras de audio, el código fuente y los puntos de control estarán disponibles en https://github.com/sh-lee-prml/PeriodWave.
La Síntesis de Vistas Noveles (SVN) y la generación 3D han logrado recientemente mejoras destacadas. Sin embargo, estos trabajos se centran principalmente en categorías limitadas o activos 3D sintéticos, lo que dificulta su generalización a escenas desafiantes en entornos naturales y su uso directo en la síntesis 2D. Además, estos métodos dependen en gran medida de las poses de la cámara, lo que limita sus aplicaciones en el mundo real. Para superar estos problemas, proponemos MVInpainter, reformulando la edición 3D como una tarea de rellenado de huecos en múltiples vistas 2D. Específicamente, MVInpainter rellena parcialmente imágenes de múltiples vistas con la guía de referencia en lugar de generar de manera inmanejable una vista completamente nueva desde cero, lo que simplifica en gran medida la dificultad de SVN en entornos naturales y aprovecha pistas no enmascaradas en lugar de condiciones explícitas de pose. Para garantizar la consistencia entre vistas, MVInpainter se mejora con prioridades de video a partir de componentes de movimiento y guía de apariencia de atención clave y valor concatenados. Además, MVInpainter incorpora atención por ranuras para agregar características de flujo óptico de alto nivel de regiones no enmascaradas para controlar el movimiento de la cámara con entrenamiento e inferencia sin pose. Experimentos a nivel de escena suficientes en conjuntos de datos centrados en objetos y orientados hacia adelante verifican la efectividad de MVInpainter, incluidas diversas tareas como eliminación, síntesis, inserción y reemplazo de objetos en múltiples vistas. La página del proyecto es https://ewrfcas.github.io/MVInpainter/.
Evaluar las capacidades de los modelos de lenguaje grandes (LLMs) a menudo es desafiante, en parte, porque es difícil encontrar tareas a las que no hayan sido expuestos durante el entrenamiento. Damos un paso para abordar este desafío al dirigirnos a una nueva tarea: centrándonos en programas simbólicos de gráficos, que son una representación popular para el contenido gráfico que genera datos visuales de forma procedural. Los LLMs han mostrado una prometedora capacidad hacia la síntesis de programas, pero ¿entienden los programas simbólicos de gráficos? A diferencia de los programas convencionales, los programas simbólicos de gráficos pueden ser traducidos a contenido gráfico. Aquí, caracterizamos la comprensión de un LLM de programas simbólicos en términos de su capacidad para responder preguntas relacionadas con el contenido gráfico. Esta tarea es desafiante ya que las preguntas son difíciles de responder solo con los programas simbólicos, sin embargo, serían fáciles de responder con el contenido gráfico correspondiente, como verificamos a través de un experimento humano. Para comprender los programas simbólicos, los LLMs pueden necesitar poseer la habilidad de imaginar cómo se vería el contenido gráfico correspondiente sin acceder directamente al contenido visual renderizado. Utilizamos esta tarea para evaluar los LLMs creando un extenso banco de pruebas para la comprensión semántica de programas simbólicos de gráficos. Este banco de pruebas se construye a través de la correspondencia programa-gráfico, por lo tanto, requiere esfuerzos humanos mínimos. Evaluamos los LLMs actuales en nuestro banco de pruebas para esclarecer una evaluación preliminar de su capacidad para razonar sobre escenas visuales a partir de programas. Descubrimos que esta tarea distingue entre los LLMs existentes y los modelos considerados buenos en el razonamiento que tienen un mejor desempeño. Por último, presentamos el Ajuste de Instrucciones Simbólicas (SIT) para mejorar esta capacidad. Específicamente, consultamos a GPT4-o con preguntas e imágenes generadas por programas simbólicos. Estos datos luego se utilizan para ajustar finamente un LLM. También descubrimos que los datos de SIT pueden mejorar la capacidad general de seguir instrucciones de los LLMs.