Artículos de investigación en IA seleccionados diariamente con traducciones
El ajuste fino eficiente es crucial para adaptar los grandes modelos de lenguaje (LLMs) a tareas específicas. Sin embargo, implementar estos métodos en diferentes modelos requiere esfuerzos considerables. Presentamos LlamaFactory, un marco unificado que integra un conjunto de métodos de entrenamiento eficiente de vanguardia. Permite a los usuarios personalizar de manera flexible el ajuste fino de más de 100 LLMs sin necesidad de codificación, a través de la interfaz web integrada LlamaBoard. Validamos empíricamente la eficiencia y efectividad de nuestro marco en tareas de modelado de lenguaje y generación de texto. Ha sido publicado en https://github.com/hiyouga/LLaMA-Factory y ya ha recibido más de 13,000 estrellas y 1,600 bifurcaciones.
Sora es el primer modelo de generación de video generalista a gran escala que ha captado una atención significativa en toda la sociedad. Desde su lanzamiento por OpenAI en febrero de 2024, ningún otro modelo de generación de video ha igualado el rendimiento de Sora ni su capacidad para respaldar una amplia gama de tareas de generación de video. Además, existen pocos modelos de generación de video completamente publicados, siendo la mayoría de código cerrado. Para abordar esta brecha, este artículo propone un nuevo marco de trabajo multiagente llamado Mora, que incorpora varios agentes de IA visual avanzados para replicar la generación de video generalista demostrada por Sora. En particular, Mora puede utilizar múltiples agentes visuales y replicar con éxito las capacidades de generación de video de Sora en diversas tareas, como (1) generación de texto a video, (2) generación de imagen a video condicionada por texto, (3) extensión de videos generados, (4) edición de video a video, (5) conexión de videos y (6) simulación de mundos digitales. Nuestros extensos resultados experimentales muestran que Mora alcanza un rendimiento cercano al de Sora en diversas tareas. Sin embargo, existe una brecha de rendimiento evidente entre nuestro trabajo y Sora cuando se evalúa de manera integral. En resumen, esperamos que este proyecto pueda guiar la trayectoria futura de la generación de video a través de la colaboración de agentes de IA.
Presentamos una aplicación novedosa de algoritmos evolutivos para automatizar la creación de modelos base potentes. Si bien la fusión de modelos ha surgido como un enfoque prometedor para el desarrollo de LLM debido a su rentabilidad, actualmente depende de la intuición humana y el conocimiento del dominio, lo que limita su potencial. Aquí, proponemos un enfoque evolutivo que supera esta limitación al descubrir automáticamente combinaciones efectivas de diversos modelos de código abierto, aprovechando su inteligencia colectiva sin requerir datos adicionales extensos ni recursos computacionales. Nuestro enfoque opera tanto en el espacio de parámetros como en el espacio de flujo de datos, permitiendo una optimización que va más allá de los pesos de los modelos individuales. Este enfoque incluso facilita la fusión entre dominios, generando modelos como un LLM japonés con capacidades de razonamiento matemático. Sorprendentemente, nuestro LLM japonés de matemáticas alcanzó un rendimiento de vanguardia en una variedad de benchmarks establecidos para LLM japoneses, superando incluso a modelos con significativamente más parámetros, a pesar de no haber sido entrenado explícitamente para tales tareas. Además, un VLM japonés culturalmente consciente generado a través de nuestro enfoque demuestra su eficacia al describir contenido específico de la cultura japonesa, superando a los VLM japoneses anteriores. Este trabajo no solo contribuye con nuevos modelos de vanguardia a la comunidad de código abierto, sino que también introduce un nuevo paradigma para la composición automatizada de modelos, allanando el camino para explorar enfoques alternativos y eficientes en el desarrollo de modelos base.
Presentamos SceneScript, un método que produce directamente modelos completos de escenas como una secuencia de comandos estructurados en lenguaje utilizando un enfoque autoregresivo basado en tokens. Nuestra representación de escena propuesta se inspira en los recientes éxitos de los transformadores y los modelos de lenguaje grandes (LLMs), y se aparta de los métodos más tradicionales que comúnmente describen las escenas como mallas, cuadrículas de vóxeles, nubes de puntos o campos de radiancia. Nuestro método infiere el conjunto de comandos estructurados en lenguaje directamente a partir de datos visuales codificados utilizando una arquitectura codificador-decodificador de lenguaje de escenas. Para entrenar SceneScript, generamos y publicamos un conjunto de datos sintético a gran escala llamado Aria Synthetic Environments, que consta de 100,000 escenas interiores de alta calidad, con renders fotorrealistas y anotaciones de verdad fundamental de recorridos egocéntricos de escenas. Nuestro método ofrece resultados de vanguardia en la estimación de la disposición arquitectónica y resultados competitivos en la detección de objetos 3D. Por último, exploramos una ventaja de SceneScript, que es la capacidad de adaptarse fácilmente a nuevos comandos mediante simples adiciones al lenguaje estructurado, lo que ilustramos para tareas como la reconstrucción aproximada de partes de objetos 3D.
El aumento del tamaño de los modelos de visión ha sido el estándar de facto para obtener representaciones visuales más potentes. En este trabajo, discutimos el punto más allá del cual los modelos de visión más grandes no son necesarios. Primero, demostramos el poder de Escalado en Escalas (S^2), mediante el cual un modelo de visión más pequeño preentrenado y congelado (por ejemplo, ViT-B o ViT-L), ejecutado en múltiples escalas de imagen, puede superar a modelos más grandes (por ejemplo, ViT-H o ViT-G) en clasificación, segmentación, estimación de profundidad, benchmarks de MLLM (Modelos de Lenguaje Multimodal) y manipulación robótica. Notablemente, S^2 logra un rendimiento de vanguardia en la comprensión detallada de MLLM en el benchmark V*, superando a modelos como GPT-4V. Examinamos las condiciones bajo las cuales S^2 es un enfoque de escalado preferido en comparación con el escalado en tamaño de modelo. Si bien los modelos más grandes tienen la ventaja de una mejor generalización en ejemplos difíciles, mostramos que las características de los modelos de visión más grandes pueden ser bien aproximadas por las de modelos más pequeños multi-escala. Esto sugiere que la mayoría, si no todas, de las representaciones aprendidas por los modelos grandes preentrenados actuales también pueden obtenerse de modelos más pequeños multi-escala. Nuestros resultados muestran que un modelo más pequeño multi-escala tiene una capacidad de aprendizaje comparable a un modelo más grande, y que el preentrenamiento de modelos más pequeños con S^2 puede igualar o incluso superar la ventaja de los modelos más grandes. Lanzamos un paquete de Python que puede aplicar S^2 en cualquier modelo de visión con una sola línea de código: https://github.com/bfshi/scaling_on_scales.
El uso de Stable Diffusion para la generación de retratos personalizados ha surgido como una herramienta poderosa y destacada, permitiendo a los usuarios crear avatares de personajes personalizados de alta fidelidad basados en sus indicaciones específicas. Sin embargo, los métodos de personalización existentes enfrentan desafíos, como el ajuste fino en tiempo de prueba, la necesidad de múltiples imágenes de entrada, la baja preservación de la identidad y la diversidad limitada en los resultados generados. Para superar estos desafíos, presentamos IDAdapter, un enfoque sin ajuste fino que mejora la diversidad y la preservación de la identidad en la generación de imágenes personalizadas a partir de una sola imagen facial. IDAdapter integra un concepto personalizado en el proceso de generación mediante una combinación de inyecciones textuales y visuales y una pérdida de identidad facial. Durante la fase de entrenamiento, incorporamos características mixtas de múltiples imágenes de referencia de una identidad específica para enriquecer los detalles relacionados con la identidad, guiando al modelo para generar imágenes con estilos, expresiones y ángulos más diversos en comparación con trabajos anteriores. Evaluaciones exhaustivas demuestran la efectividad de nuestro método, logrando tanto diversidad como fidelidad de identidad en las imágenes generadas.
Los modelos de recompensa (RMs) son fundamentales para el éxito del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) al alinear modelos preentrenados con las preferencias humanas, sin embargo, ha habido relativamente pocos estudios que se centren en la evaluación de dichos modelos de recompensa. Evaluar los modelos de recompensa presenta una oportunidad para comprender las tecnologías opacas utilizadas para la alineación de modelos de lenguaje y qué valores están incorporados en ellos. Hasta la fecha, existen muy pocos descriptores de capacidades, métodos de entrenamiento o modelos de recompensa de código abierto. En este artículo, presentamos RewardBench, un conjunto de datos de referencia y una base de código para la evaluación, con el fin de mejorar la comprensión científica de los modelos de recompensa. El conjunto de datos de RewardBench es una colección de tríos de indicaciones-ganar-perder que abarcan chat, razonamiento y seguridad, para evaluar cómo los modelos de recompensa se desempeñan en consultas desafiantes, estructuradas y fuera de distribución. Creamos conjuntos de datos de comparación específicos para RMs que tienen razones sutiles, pero verificables (por ejemplo, errores, hechos incorrectos) por las cuales una respuesta debería ser preferida sobre otra. En el tablero de líderes de RewardBench, evaluamos modelos de recompensa entrenados con una variedad de métodos, como el entrenamiento directo de clasificadores mediante Máxima Verosimilitud (MLE) y el modelado implícito de recompensas de la Optimización Directa de Preferencias (DPO), y en un espectro de conjuntos de datos. Presentamos muchos hallazgos sobre la propensión a las negativas, las limitaciones de razonamiento y las deficiencias en el seguimiento de instrucciones de varios modelos de recompensa, con el objetivo de comprender mejor el proceso de RLHF.
Los avances recientes indican que escalar los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) mejora efectivamente el rendimiento en tareas multimodales posteriores. El paradigma predominante de los MLLMs, como LLaVA, transforma características visuales en tokens similares a texto utilizando un mapeador visión-lenguaje estático, permitiendo así que los LLMs estáticos desarrollen la capacidad de comprender información visual mediante ajuste instruccional visual. Aunque prometedor, la estrategia de ajuste estático ~El ajuste estático se refiere al modelo entrenado con parámetros estáticos. que comparte los mismos parámetros puede limitar el rendimiento en diferentes tareas multimodales posteriores. En vista de esto, presentamos HyperLLaVA, que implica un ajuste adaptativo de los parámetros del proyector y del LLM, junto con un experto visual dinámico y un experto en lenguaje, respectivamente. Estos expertos se derivan de HyperNetworks, que genera cambios de parámetros adaptativos mediante guía visual y de lenguaje, permitiendo un modelado dinámico del proyector y del LLM en un entrenamiento en dos etapas. Nuestros experimentos demuestran que nuestra solución supera significativamente a LLaVA en los puntos de referencia existentes de MLLM, incluyendo MME, MMBench, SEED-Bench y LLaVA-Bench. ~Nuestro proyecto está disponible en el enlace https://github.com/DCDmllm/HyperLLaVA.
Los recientes avances en síntesis de vistas y renderizado en tiempo real han logrado una calidad fotorrealista con velocidades de renderizado impresionantes. Si bien los métodos basados en campos de radiancia alcanzan un rendimiento de vanguardia en escenarios desafiantes, como capturas en entornos naturales y escenas a gran escala, a menudo sufren de requisitos computacionales excesivamente altos asociados con el renderizado volumétrico. Por otro lado, los métodos basados en splatting gaussiano dependen de la rasterización y logran naturalmente el renderizado en tiempo real, pero se ven afectados por heurísticas de optimización frágiles que tienen un rendimiento inferior en escenas más complejas. En este trabajo, presentamos RadSplat, un método ligero para el renderizado robusto en tiempo real de escenas complejas. Nuestras principales contribuciones son tres. Primero, utilizamos campos de radiancia como una señal previa y de supervisión para optimizar representaciones de escenas basadas en puntos, lo que conduce a una mejora en la calidad y una optimización más robusta. A continuación, desarrollamos una técnica novedosa de poda que reduce el número total de puntos mientras mantiene una alta calidad, lo que resulta en representaciones de escenas más pequeñas y compactas con velocidades de inferencia más rápidas. Finalmente, proponemos un enfoque novedoso de filtrado en tiempo de prueba que acelera aún más el renderizado y permite escalar a escenas más grandes, del tamaño de una casa. Encontramos que nuestro método permite la síntesis de vanguardia de capturas complejas a más de 900 FPS.
El modelo de difusión ha enfrentado durante mucho tiempo problemas de escalabilidad y complejidad cuadrática, especialmente dentro de estructuras basadas en transformadores. En este estudio, buscamos aprovechar la capacidad de modelado de secuencias largas de un Modelo de Espacio de Estados llamado Mamba para extender su aplicabilidad a la generación de datos visuales. En primer lugar, identificamos una omisión crítica en la mayoría de los métodos visuales actuales basados en Mamba, específicamente la falta de consideración de la continuidad espacial en el esquema de escaneo de Mamba. En segundo lugar, basándonos en esta observación, introducimos un método simple, plug-and-play y sin parámetros llamado Zigzag Mamba, que supera a las líneas base basadas en Mamba y demuestra una mejora en la velocidad y la utilización de memoria en comparación con las líneas base basadas en transformadores. Por último, integramos Zigzag Mamba con el marco de Interpolante Estocástico para investigar la escalabilidad del modelo en conjuntos de datos visuales de alta resolución, como FacesHQ 1024x1024, UCF101, MultiModal-CelebA-HQ y MS COCO 256x256. El código se publicará en https://taohu.me/zigma/.
La estimación de profundidad monocular es crucial para numerosas tareas y aplicaciones de visión por computadora. Los enfoques discriminativos actuales para este problema están limitados debido a artefactos borrosos, mientras que los métodos generativos de última generación sufren de un muestreo lento debido a su naturaleza basada en ecuaciones diferenciales estocásticas (SDE). En lugar de comenzar desde ruido, buscamos un mapeo directo desde la imagen de entrada al mapa de profundidad. Observamos que esto puede formularse efectivamente utilizando emparejamiento de flujos, ya que sus trayectorias rectas a través del espacio de soluciones ofrecen eficiencia y alta calidad. Nuestro estudio demuestra que un modelo de difusión de imágenes preentrenado puede servir como un prior adecuado para un modelo de profundidad basado en emparejamiento de flujos, permitiendo un entrenamiento eficiente con solo datos sintéticos que generaliza a imágenes reales. Encontramos que una pérdida auxiliar de normales de superficie mejora aún más las estimaciones de profundidad. Debido a la naturaleza generativa de nuestro enfoque, nuestro modelo predice de manera confiable la certeza de sus estimaciones de profundidad. En benchmarks estándar de escenas naturales complejas, nuestro enfoque ligero exhibe un rendimiento de última generación con un bajo costo computacional favorable, a pesar de haber sido entrenado con pocos datos sintéticos.
Proponemos un modelo generativo que, dada una imagen editada de manera aproximada, sintetiza una salida fotorrealista que sigue el diseño especificado. Nuestro método transfiere detalles finos de la imagen original y preserva la identidad de sus partes. Sin embargo, la adapta a la iluminación y el contexto definidos por el nuevo diseño. Nuestra idea clave es que los videos son una fuente poderosa de supervisión para esta tarea: los objetos y los movimientos de la cámara proporcionan múltiples observaciones de cómo el mundo cambia con el punto de vista, la iluminación y las interacciones físicas. Construimos un conjunto de datos de imágenes en el que cada muestra es un par de fotogramas de origen y destino extraídos del mismo video en intervalos de tiempo elegidos al azar. Deformamos el fotograma de origen hacia el objetivo utilizando dos modelos de movimiento que imitan las ediciones esperadas del usuario en tiempo de prueba. Supervisamos nuestro modelo para traducir la imagen deformada en la verdad de referencia, partiendo de un modelo de difusión preentrenado. El diseño de nuestro modelo permite explícitamente la transferencia de detalles finos desde el fotograma de origen a la imagen generada, siguiendo de cerca el diseño especificado por el usuario. Demostramos que, mediante el uso de segmentaciones simples y manipulaciones 2D aproximadas, podemos sintetizar una edición fotorrealista fiel a la entrada del usuario, abordando efectos de segundo orden como la armonización de la iluminación y las interacciones físicas entre los objetos editados.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presentan una falla sorprendente: cuando se entrenan con "A tiene una característica B", no generalizan a "B es una característica de A", lo que se denomina la Maldición de la Inversión. Incluso cuando se entrenan con billones de tokens, este problema persiste debido a la ley de Zipf, por lo que ocurre aunque se entrene con todo el contenido de internet. Este trabajo propone un esquema de entrenamiento alternativo, llamado entrenamiento inverso, en el que todas las palabras se utilizan dos veces, duplicando la cantidad de tokens disponibles. El LLM se entrena tanto en dirección directa como inversa invirtiendo las cadenas de entrenamiento, pero preservando (es decir, sin invertir) subcadenas específicas, como entidades. Demostramos que los modelos entrenados con datos inversos emparejados ofrecen un rendimiento superior a los modelos estándar en tareas convencionales, y que los modelos entrenados con inversión emparejada en términos de cómputo brindan un rendimiento mucho mejor en tareas de inversión, ayudando a resolver el problema de la maldición de la inversión.
El outpainting de video es una tarea desafiante que busca generar contenido de video fuera del área visible del video de entrada, manteniendo la consistencia tanto entre fotogramas como dentro de cada fotograma. Los métodos existentes carecen de calidad de generación o flexibilidad. Presentamos MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), una pipeline basada en difusión que aprovecha tanto los patrones intrínsecos específicos de los datos del video fuente como el conocimiento previo de generación de imágenes/videos para lograr un outpainting efectivo. MOTIA consta de dos fases principales: adaptación específica a la entrada y outpainting consciente de patrones. La fase de adaptación específica a la entrada implica realizar un aprendizaje eficiente y efectivo de pseudo-outpainting en el video fuente de una sola toma. Este proceso fomenta que el modelo identifique y aprenda los patrones dentro del video fuente, además de cerrar la brecha entre los procesos generativos estándar y el outpainting. La fase posterior, outpainting consciente de patrones, se dedica a generalizar estos patrones aprendidos para generar resultados de outpainting. Se proponen estrategias adicionales, como la inserción espacialmente consciente y el viaje de ruido, para aprovechar mejor el conocimiento previo generativo del modelo de difusión y los patrones de video adquiridos de los videos fuente. Evaluaciones exhaustivas destacan la superioridad de MOTIA, superando a los métodos más avanzados actuales en benchmarks ampliamente reconocidos. Cabe destacar que estos avances se logran sin necesidad de ajustes extensos específicos para la tarea.
A pesar del progreso significativo en el campo de la síntesis de texto a video (T2V), los modelos de difusión T2V de código abierto enfrentan dificultades para generar videos más largos con contenido dinámico y en evolución. Estos modelos tienden a sintetizar videos cuasi estáticos, ignorando los cambios visuales necesarios a lo largo del tiempo que se sugieren en el texto de entrada. Al mismo tiempo, escalar estos modelos para permitir la síntesis de videos más largos y dinámicos suele ser computacionalmente inviable. Para abordar este desafío, introducimos el concepto de Cuidado Temporal Generativo (GTN, por sus siglas en inglés), donde buscamos modificar el proceso generativo sobre la marcha durante la inferencia para mejorar el control sobre la dinámica temporal y permitir la generación de videos más extensos. Proponemos un método para GTN, denominado VSTAR, que consta de dos componentes clave: 1) Sugerencia de Sinopsis de Video (VSP, por sus siglas en inglés): la generación automática de una sinopsis de video basada en el texto de entrada original utilizando modelos de lenguaje grandes (LLMs), lo que proporciona una guía textual precisa para los diferentes estados visuales de videos más largos, y 2) Regularización de Atención Temporal (TAR, por sus siglas en inglés): una técnica de regularización para refinar las unidades de atención temporal de los modelos de difusión T2V preentrenados, lo que permite controlar la dinámica del video. Experimentalmente, demostramos la superioridad del enfoque propuesto en la generación de videos más largos y visualmente atractivos en comparación con los modelos T2V de código abierto existentes. Además, analizamos los mapas de atención temporal obtenidos con y sin VSTAR, destacando la importancia de aplicar nuestro método para mitigar la omisión de los cambios visuales deseados a lo largo del tiempo.
Los Modelos de Lenguaje (LM, por sus siglas en inglés) han influido significativamente en diversos dominios. Sin embargo, su limitación inherente para comprender estructuras moleculares 3D ha restringido considerablemente su potencial en el ámbito biomolecular. Para cerrar esta brecha, nos enfocamos en la interpretación de texto-molécula 3D y proponemos 3D-MoLM: Modelado de Lenguaje Molecular 3D. Específicamente, 3D-MoLM permite que un LM interprete y analice moléculas 3D al equiparlo con un codificador molecular 3D. Esta integración se logra mediante un proyector de texto-molécula 3D, que conecta el espacio de representación del codificador molecular 3D con el espacio de entrada del LM. Además, para mejorar la capacidad de 3D-MoLM en la comprensión molecular multimodal y el seguimiento de instrucciones, hemos creado meticulosamente un conjunto de datos de ajuste de instrucciones centrado en moléculas 3D: 3D-MoIT. A través de la alineación de texto-molécula 3D y el ajuste de instrucciones centrado en moléculas 3D, 3D-MoLM establece una integración entre el codificador molecular 3D y el LM. Supera significativamente a los modelos de referencia existentes en tareas posteriores, incluyendo la recuperación de texto-molécula, la descripción de moléculas y tareas más desafiantes de preguntas y respuestas abiertas sobre moléculas, especialmente aquellas que dependen de propiedades 3D.
La generación 3D ha experimentado avances significativos, sin embargo, producir eficientemente activos 3D de alta calidad a partir de una sola imagen sigue siendo un desafío. En este artículo, presentamos un autoencoder de triplano, que codifica modelos 3D en un espacio latente de triplano compacto para comprimir efectivamente tanto la geometría 3D como la información de textura. Dentro del marco del autoencoder, introducimos un mecanismo de atención cruzada 3D, que utiliza representaciones latentes de baja resolución para consultar características de un volumen de características 3D de alta resolución, mejorando así la capacidad de representación del espacio latente. Posteriormente, entrenamos un modelo de difusión en este espacio latente refinado. A diferencia de depender únicamente de la incrustación de imágenes para la generación 3D, nuestro método propuesto aboga por la utilización simultánea de la incrustación de imágenes y la incrustación de forma como condiciones. Específicamente, la incrustación de forma se estima mediante un modelo de difusión previo condicionado en la incrustación de imágenes. A través de experimentos exhaustivos, demostramos que nuestro método supera a los algoritmos más avanzados, logrando un rendimiento superior mientras requiere menos datos de entrenamiento y tiempo. Nuestro enfoque permite la generación de activos 3D de alta calidad en apenas 7 segundos en una sola GPU A100.
Para comprender los riesgos que plantea un nuevo sistema de IA, debemos entender lo que puede y no puede hacer. Basándonos en trabajos previos, presentamos un programa de nuevas evaluaciones de "capacidades peligrosas" y las implementamos en los modelos Gemini 1.0. Nuestras evaluaciones abarcan cuatro áreas: (1) persuasión y engaño; (2) ciberseguridad; (3) auto-proliferación; y (4) auto-razonamiento. No encontramos evidencia de capacidades peligrosas fuertes en los modelos evaluados, pero señalamos indicios tempranos de advertencia. Nuestro objetivo es contribuir al avance de una ciencia rigurosa de evaluación de capacidades peligrosas, en preparación para futuros modelos.