Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje han demostrado ser efectivos en una amplia gama de aplicaciones, aunque los modelos más sofisticados suelen ser propietarios. Por ejemplo, GPT-4 de OpenAI y varios modelos de Anthropic son costosos y consumen una cantidad considerable de energía. En contraste, la comunidad de código abierto ha producido modelos competitivos, como Llama3. Además, modelos de lenguaje más pequeños y específicos para nichos, como aquellos diseñados para tareas legales, médicas o financieras, han superado a sus contrapartes propietarias. Este artículo introduce un enfoque novedoso que emplea tokens funcionales para integrar múltiples modelos de código abierto, cada uno optimizado para tareas particulares. Nuestro recién desarrollado modelo Octopus v4 aprovecha los tokens funcionales para dirigir inteligentemente las consultas de los usuarios al modelo vertical más apropiado y reformatear la consulta para lograr el mejor rendimiento. Octopus v4, una evolución de los modelos Octopus v1, v2 y v3, destaca en la selección, comprensión de parámetros y reformateo. Además, exploramos el uso de grafos como una estructura de datos versátil que coordina eficazmente múltiples modelos de código abierto aprovechando las capacidades del modelo Octopus y los tokens funcionales. Utilice nuestro repositorio de GitHub de código abierto (https://www.nexa4ai.com/) para probar los modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) y contribuir a un grafo más amplio de modelos de lenguaje. Al activar modelos con menos de 10B parámetros, logramos un puntaje SOTA MMLU de 74.8 entre modelos del mismo nivel.
Inspirados por el teorema de representación de Kolmogorov-Arnold, proponemos las Redes de Kolmogorov-Arnold (KANs) como alternativas prometedoras a los Perceptrones Multicapa (MLPs). Mientras que los MLPs tienen funciones de activación fijas en los nodos ("neuronas"), las KANs tienen funciones de activación aprendibles en las aristas ("pesos"). Las KANs no tienen pesos lineales en absoluto: cada parámetro de peso es reemplazado por una función univariada parametrizada como un spline. Demostramos que este cambio aparentemente simple hace que las KANs superen a los MLPs en términos de precisión e interpretabilidad. En cuanto a la precisión, KANs mucho más pequeñas pueden lograr una precisión comparable o mejor que MLPs mucho más grandes en ajuste de datos y resolución de EDPs. Teórica y empíricamente, las KANs poseen leyes de escalado neuronal más rápidas que los MLPs. En cuanto a la interpretabilidad, las KANs pueden visualizarse de manera intuitiva y pueden interactuar fácilmente con usuarios humanos. A través de dos ejemplos en matemáticas y física, se muestra que las KANs son colaboradoras útiles que ayudan a los científicos a (re)descubrir leyes matemáticas y físicas. En resumen, las KANs son alternativas prometedoras para los MLPs, abriendo oportunidades para mejorar aún más los modelos de aprendizaje profundo actuales que dependen en gran medida de los MLPs.
Los grandes modelos de lenguaje como GPT y Llama se entrenan con una pérdida de predicción del siguiente token. En este trabajo, sugerimos que entrenar modelos de lenguaje para predecir múltiples tokens futuros simultáneamente resulta en una mayor eficiencia muestral. Más específicamente, en cada posición del corpus de entrenamiento, solicitamos al modelo que prediga los siguientes n tokens utilizando n cabezales de salida independientes, operando sobre un tronco de modelo compartido. Al considerar la predicción de múltiples tokens como una tarea de entrenamiento auxiliar, medimos capacidades mejoradas en tareas posteriores sin sobrecarga en el tiempo de entrenamiento, tanto para modelos de código como de lenguaje natural. El método es cada vez más útil para tamaños de modelo más grandes y mantiene su atractivo al entrenar durante múltiples épocas. Las mejoras son especialmente notables en benchmarks generativos como la codificación, donde nuestros modelos superan consistentemente líneas base sólidas por varios puntos porcentuales. Nuestros modelos de 13B parámetros resuelven un 12 % más de problemas en HumanEval y un 17 % más en MBPP en comparación con modelos de predicción de un solo token. Experimentos en tareas algorítmicas pequeñas demuestran que la predicción de múltiples tokens favorece el desarrollo de cabezales de inducción y capacidades de razonamiento algorítmico. Como beneficio adicional, los modelos entrenados con predicción de 4 tokens son hasta 3 veces más rápidos en inferencia, incluso con tamaños de lote grandes.
En el campo de la generación de imágenes personalizadas, la capacidad de crear imágenes que preserven conceptos ha mejorado significativamente. Crear una imagen que integre naturalmente múltiples conceptos en una composición cohesiva y visualmente atractiva puede ser, de hecho, un desafío. Este artículo presenta "InstantFamily", un enfoque que emplea un novedoso mecanismo de atención cruzada enmascarada y una pila de embeddings multimodales para lograr la generación de imágenes multi-ID sin necesidad de entrenamiento previo. Nuestro método preserva eficazmente la identidad (ID) al utilizar características globales y locales de un modelo de reconocimiento facial preentrenado, integrado con condiciones de texto. Además, nuestro mecanismo de atención cruzada enmascarada permite un control preciso de la multi-ID y la composición en las imágenes generadas. Demostramos la efectividad de InstantFamily mediante experimentos que muestran su dominio en la generación de imágenes con multi-ID, resolviendo problemas conocidos en la generación multi-ID. Asimismo, nuestro modelo alcanza un rendimiento de vanguardia tanto en la preservación de ID única como multi-ID. Además, nuestro modelo exhibe una escalabilidad notable, preservando un mayor número de identidades que aquellas con las que fue originalmente entrenado.
Los métodos de optimización iterativa de preferencias han demostrado recientemente un buen desempeño en tareas generales de ajuste de instrucciones, pero suelen mostrar pocas mejoras en tareas de razonamiento (Yuan et al., 2024, Chen et al., 2024). En este trabajo, desarrollamos un enfoque iterativo que optimiza la preferencia entre candidatos generados de Cadenas de Pensamiento (CoT, por sus siglas en inglés) compitiendo, optimizando los pasos de razonamiento ganadores frente a los perdedores que conducen a la respuesta correcta. Entrenamos utilizando una función de pérdida DPO modificada (Rafailov et al., 2023) con un término adicional de log-verosimilitud negativa, que consideramos crucial. Demostramos que el razonamiento mejora a través de iteraciones repetidas de este esquema. Aunque solo nos basamos en ejemplos del conjunto de entrenamiento, nuestro enfoque aumenta la precisión de Llama-2-70B-Chat del 55.6% al 81.6% en GSM8K (y 88.7% con votación mayoritaria de 32 muestras), del 12.5% al 20.8% en MATH, y del 77.8% al 86.7% en ARC-Challenge, superando a otros modelos basados en Llama-2 que no dependen de conjuntos de datos adicionales.
Extendemos la longitud de contexto de Llama-3-8B-Instruct de 8K a 80K mediante ajuste fino con QLoRA. Todo el ciclo de entrenamiento es extremadamente eficiente, tomando solo 8 horas en una máquina con 8 GPUs A800 (80G). El modelo resultante muestra un rendimiento superior en una amplia gama de tareas de evaluación, como NIHS, recuperación de temas y comprensión de lenguaje en contextos largos; al mismo tiempo, conserva adecuadamente las capacidades originales en contextos cortos. La extensión dramática del contexto se atribuye principalmente a solo 3.5K muestras de entrenamiento sintéticas generadas por GPT-4, lo que indica el potencial inherente (aunque en gran medida subestimado) de los LLMs para extender su longitud de contexto original. De hecho, la longitud de contexto podría extenderse mucho más allá de 80K con más recursos computacionales. Por lo tanto, el equipo liberará públicamente todos los recursos (incluyendo datos, modelo, pipeline de generación de datos y código de entrenamiento) para facilitar futuras investigaciones por parte de la comunidad: https://github.com/FlagOpen/FlagEmbedding.
Este trabajo presenta MotionLCM, extendiendo la generación controlable de movimiento a un nivel en tiempo real. Los métodos existentes para el control espacial en la generación de movimiento condicionado por texto sufren de una ineficiencia significativa en tiempo de ejecución. Para abordar este problema, primero proponemos el modelo de consistencia latente de movimiento (MotionLCM) para la generación de movimiento, basado en el modelo de difusión latente (MLD). Al emplear inferencia en un paso (o pocos pasos), mejoramos aún más la eficiencia en tiempo de ejecución del modelo de difusión latente de movimiento para la generación de movimiento. Para garantizar una controlabilidad efectiva, incorporamos un ControlNet de movimiento dentro del espacio latente de MotionLCM y habilitamos señales de control explícitas (por ejemplo, la trayectoria de la pelvis) en el espacio de movimiento básico para controlar directamente el proceso de generación, de manera similar a como se controlan otros modelos de difusión sin latencia para la generación de movimiento. Al emplear estas técnicas, nuestro enfoque puede generar movimientos humanos con texto y señales de control en tiempo real. Los resultados experimentales demuestran las notables capacidades de generación y control de MotionLCM mientras se mantiene una eficiencia en tiempo de ejecución en tiempo real.
Los métodos automáticos existentes para la generación de descripciones de contenido visual enfrentan desafíos como la falta de detalle, la alucinación de contenido y el seguimiento deficiente de instrucciones. En este trabajo, proponemos VisualFactChecker (VFC), una pipeline flexible y sin necesidad de entrenamiento que genera descripciones de alta fidelidad y detalladas tanto para imágenes 2D como para objetos 3D. VFC consta de tres pasos: 1) propuesta, donde modelos de generación de texto a partir de imágenes proponen múltiples descripciones iniciales; 2) verificación, donde un modelo de lenguaje grande (LLM) utiliza herramientas como detección de objetos y modelos de VQA para verificar la precisión de las descripciones propuestas; 3) generación de la descripción, donde un LLM produce la descripción final resumiendo las propuestas de descripción y los resultados de la verificación de hechos. En este paso, VFC puede generar descripciones de manera flexible en diversos estilos siguiendo instrucciones complejas. Realizamos evaluaciones exhaustivas de la generación de descripciones utilizando cuatro métricas: 1) CLIP-Score para la similitud entre imagen y texto; 2) CLIP-Image-Score para medir la similitud entre la imagen original y la imagen reconstruida generada por un modelo de texto a imagen utilizando la descripción; 3) un estudio humano en Amazon Mechanical Turk; 4) GPT-4V para una evaluación detallada. Los resultados de la evaluación muestran que VFC supera a los métodos de generación de descripciones de código abierto más avanzados para imágenes 2D en el conjunto de datos COCO y para activos 3D en el conjunto de datos Objaverse. Nuestro estudio demuestra que, al combinar modelos de código abierto en una pipeline, podemos alcanzar una capacidad de generación de descripciones comparable a la de modelos propietarios como GPT-4V, a pesar de ser más de 10 veces más pequeños en tamaño de modelo.
Proponemos GS-LRM, un modelo escalable de reconstrucción a gran escala que puede predecir primitivas 3D de alta calidad en Gaussianas a partir de 2-4 imágenes dispersas con pose en 0.23 segundos en una sola GPU A100. Nuestro modelo presenta una arquitectura extremadamente simple basada en transformadores: dividimos en parches las imágenes de entrada con pose, pasamos los tokens de imágenes multivista concatenados a través de una secuencia de bloques de transformadores, y decodificamos directamente los parámetros Gaussianos por píxel finales a partir de estos tokens para un renderizado diferenciable. A diferencia de los LRM anteriores que solo pueden reconstruir objetos, al predecir Gaussianas por píxel, GS-LRM maneja naturalmente escenas con grandes variaciones en escala y complejidad. Mostramos que nuestro modelo puede funcionar tanto en capturas de objetos como de escenas al entrenarlo en Objaverse y RealEstate10K, respectivamente. En ambos escenarios, los modelos superan ampliamente a los baselines de última generación. También demostramos aplicaciones de nuestro modelo en tareas de generación 3D posteriores. Nuestra página web del proyecto está disponible en: https://sai-bi.github.io/project/gs-lrm/.
Tras la aparición de los NeRFs, el método de 3D Gaussian Splatting (3D-GS) ha abierto el camino hacia el renderizado neuronal en tiempo real, superando la carga computacional de los métodos volumétricos. Siguiendo el trabajo pionero de 3D-GS, varios métodos han intentado lograr alternativas con un rendimiento comprimible y de alta fidelidad. Sin embargo, al emplear un esquema de optimización agnóstico a la geometría, estos métodos descuidan la estructura 3D inherente de la escena, lo que restringe la expresividad y la calidad de la representación, resultando en diversos puntos flotantes y artefactos. En este trabajo, proponemos un método de Gaussian Splatting consciente de la estructura (SAGS) que codifica implícitamente la geometría de la escena, lo que se traduce en un rendimiento de renderizado de vanguardia y requisitos de almacenamiento reducidos en conjuntos de datos de síntesis de nuevas vistas de referencia. SAGS se basa en una representación gráfica local-global que facilita el aprendizaje de escenas complejas y aplica desplazamientos de puntos significativos que preservan la geometría de la escena. Además, presentamos una versión ligera de SAGS, utilizando un esquema de interpolación de punto medio simple pero efectivo, que muestra una representación compacta de la escena con una reducción de tamaño de hasta 24 veces sin depender de ninguna estrategia de compresión. Experimentos exhaustivos en múltiples conjuntos de datos de referencia demuestran la superioridad de SAGS en comparación con los métodos 3D-GS más avanzados, tanto en calidad de renderizado como en tamaño del modelo. Además, demostramos que nuestro método consciente de la estructura puede mitigar efectivamente los artefactos flotantes y las distorsiones irregulares de los métodos anteriores, obteniendo mapas de profundidad precisos. Página del proyecto: https://eververas.github.io/SAGS/.
Los conjuntos de datos de visión y lenguaje son fundamentales tanto para la investigación de texto a imagen (T2I) como de imagen a texto (I2T). Sin embargo, los conjuntos de datos actuales carecen de descripciones con un nivel de detalle fino que permita a los modelos aprender asociaciones más ricas. Para llenar este vacío, presentamos Descriptions of Connected and Contrasting Images (DOCCI), un conjunto de datos con descripciones largas y anotadas manualmente en inglés para 15,000 imágenes que fueron capturadas, curadas y donadas por un único investigador con el objetivo de capturar desafíos clave como relaciones espaciales, conteo, representación de texto, conocimiento del mundo y más. Instruimos a los anotadores humanos para que creen descripciones exhaustivas de cada imagen; estas tienen un promedio de 136 palabras de longitud y están diseñadas para distinguir claramente cada imagen de aquellas que están relacionadas o son similares. Cada descripción es altamente composicional y generalmente abarca múltiples desafíos. A través de análisis tanto cuantitativos como cualitativos, demostramos que DOCCI sirve como un recurso de entrenamiento efectivo para la generación de imagen a texto: un modelo PaLI 5B ajustado con DOCCI muestra resultados iguales o superiores en comparación con modelos más grandes y de alto rendimiento como LLaVA-1.5 7B e InstructBLIP 7B. Además, mostramos que DOCCI es un banco de pruebas útil para la generación de texto a imagen, destacando las limitaciones de los modelos actuales de texto a imagen para capturar descripciones largas y detalles finos.
La generación de escenas 3D se ha convertido rápidamente en una nueva y desafiante dirección de investigación, impulsada por las mejoras constantes en los modelos generativos de difusión 2D. La mayoría de los trabajos previos en esta área generan escenas uniendo iterativamente nuevos fotogramas generados con la geometría existente. Estos trabajos suelen depender de estimadores de profundidad monoculares preentrenados para elevar las imágenes generadas a 3D, fusionándolas con la representación de la escena existente. Estos enfoques se evalúan comúnmente mediante una métrica textual, que mide la similitud entre las imágenes generadas y un texto de referencia dado. En este trabajo, realizamos dos contribuciones fundamentales al campo de la generación de escenas 3D. En primer lugar, observamos que elevar imágenes a 3D con un modelo de estimación de profundidad monocular es subóptimo, ya que ignora la geometría de la escena existente. Por lo tanto, introducimos un nuevo modelo de completado de profundidad, entrenado mediante destilación de profesor y autoentrenamiento para aprender el proceso de fusión 3D, lo que resulta en una mayor coherencia geométrica de la escena. En segundo lugar, presentamos un nuevo esquema de evaluación para métodos de generación de escenas basado en geometría de referencia, lo que permite medir la calidad de la estructura de la escena.
Los enfoques basados en optimización, como el muestreo por destilación de puntuación (SDS), muestran potencial en la generación de modelos 3D sin datos previos (zero-shot), pero adolecen de baja eficiencia, principalmente debido al alto número de evaluaciones de funciones (NFEs) requeridas para cada muestra. En este artículo, presentamos la reconstrucción iterativa basada en puntuación (SIR), un algoritmo eficiente y general para la generación 3D utilizando un modelo de difusión basado en puntuación multi-vista. Dadas las imágenes producidas por el modelo de difusión, SIR reduce los NFEs optimizando repetidamente los parámetros 3D, a diferencia de la optimización única en SDS, imitando el proceso de reconstrucción 3D. Con otras mejoras, incluida la optimización en el espacio de píxeles, presentamos un enfoque eficiente llamado MicroDreamer que se aplica de manera general a diversas representaciones 3D y tareas de generación 3D. En particular, manteniendo un rendimiento comparable, MicroDreamer es 5-20 veces más rápido que SDS en la generación de campos de radiancia neural y tarda unos 20 segundos en generar mallas a partir de la división de Gaussianas 3D en una sola GPU A100, reduciendo a la mitad el tiempo de la línea base zero-shot más rápida, DreamGaussian. Nuestro código está disponible en https://github.com/ML-GSAI/MicroDreamer.
La investigación contemporánea en 3D, particularmente en reconstrucción y generación, depende en gran medida de imágenes 2D como entradas o supervisión. Sin embargo, los diseños actuales para estos mapeos 2D-3D son intensivos en memoria, lo que representa un cuello de botella significativo para los métodos existentes y obstaculiza nuevas aplicaciones. En respuesta, proponemos un par de componentes altamente escalables para campos neuronales 3D: Lightplane Render y Splatter, que reducen considerablemente el uso de memoria en el mapeo 2D-3D. Estas innovaciones permiten procesar muchas más imágenes y con mayor resolución, con un bajo costo de memoria y computación. Demostramos su utilidad en diversas aplicaciones, desde optimizar escenas individuales con pérdidas a nivel de imagen hasta implementar una pipeline versátil para escalar drásticamente la reconstrucción y generación 3D. Código: https://github.com/facebookresearch/lightplane.