Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de lenguaje han demostrado avances sustanciales en capacidades de razonamiento, especialmente a través de la escalabilidad en tiempo de inferencia, como se ilustra en modelos como el o1 de OpenAI. Sin embargo, los Modelos Visión-Lenguaje (VLMs) actuales a menudo tienen dificultades para realizar razonamientos sistemáticos y estructurados, especialmente al enfrentarse a tareas complejas de pregunta-respuesta visual. En este trabajo, presentamos LLaVA-o1, un nuevo VLM diseñado para llevar a cabo razonamientos autónomos en múltiples etapas. A diferencia de la activación de cadenas de pensamiento, LLaVA-o1 se involucra de forma independiente en etapas secuenciales de resumen, interpretación visual, razonamiento lógico y generación de conclusiones. Este enfoque estructurado permite a LLaVA-o1 lograr mejoras significativas en precisión en tareas intensivas en razonamiento. Para lograr esto, compilamos el conjunto de datos LLaVA-o1-100k, integrando muestras de diversas fuentes de preguntas y respuestas visuales y proporcionando anotaciones de razonamiento estructurado. Además, proponemos un método de búsqueda de haz a nivel de etapa en tiempo de inferencia, que permite una escalabilidad efectiva en tiempo de inferencia. Notablemente, con solo 100k muestras de entrenamiento y un método de escalado en tiempo de inferencia simple pero efectivo, LLaVA-o1 no solo supera a su modelo base en un 8.9% en una amplia gama de pruebas de razonamiento multimodal, sino que también supera el rendimiento de modelos más grandes e incluso de código cerrado, como Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct.
Aunque la generación de contenido 3D ha avanzado significativamente, los métodos existentes todavía enfrentan desafíos con los formatos de entrada, el diseño del espacio latente y las representaciones de salida. Este artículo presenta un nuevo marco de trabajo para la generación 3D que aborda estos desafíos, ofreciendo una generación 3D escalable y de alta calidad con un espacio latente interactivo estructurado en Nube de Puntos. Nuestro marco de trabajo emplea un Autoencoder Variacional (VAE) con representaciones RGB-D(epth)-N(ormal) de múltiples vistas como entrada, utilizando un diseño único de espacio latente que preserva la información de forma 3D e incorpora un modelo de difusión latente en cascada para una mejor desentrelazamiento forma-textura. El método propuesto, GaussianAnything, soporta generación 3D condicional multimodal, permitiendo entradas de nube de puntos, subtítulos e imágenes de vista única/múltiple. Notablemente, el espacio latente recién propuesto permite naturalmente el desentrelazamiento geometría-textura, permitiendo así la edición consciente de 3D. Los resultados experimentales demuestran la efectividad de nuestro enfoque en múltiples conjuntos de datos, superando a los métodos existentes tanto en la generación 3D condicionada por texto como por imagen.
En este documento, presentamos RAG, un método de Generación de texto a imagen Consciente de la región condicionado a descripciones regionales para una composición de diseño precisa. La solicitud regional, o generación composicional, que permite un control espacial detallado, ha ganado cada vez más atención por su practicidad en aplicaciones del mundo real. Sin embargo, los métodos anteriores introducen módulos entrenables adicionales, por lo tanto, solo son aplicables a modelos específicos, o manipulan mapas de puntuación dentro de capas de atención cruzada utilizando máscaras de atención, lo que resulta en una fuerza de control limitada cuando el número de regiones aumenta. Para manejar estas limitaciones, desacoplamos la generación multi-región en dos sub-tareas, la construcción de regiones individuales (Vinculación Dura Regional) que garantiza que la solicitud regional se ejecute correctamente, y el refinamiento general de detalles (Refinamiento Suave Regional) sobre regiones que desestiman los límites visuales y mejoran las interacciones adyacentes. Además, RAG hace posible la repintura de manera novedosa, donde los usuarios pueden modificar regiones específicas insatisfactorias en la última generación manteniendo todas las demás regiones sin cambios, sin depender de modelos de rellenado adicionales. Nuestro enfoque no requiere ajustes y es aplicable a otros marcos como una mejora a la propiedad de seguimiento de solicitud. Experimentos cuantitativos y cualitativos demuestran que RAG logra un rendimiento superior en la vinculación de atributos y relaciones de objetos que los métodos anteriores sin ajuste.
El modelo recientemente lanzado, Claude 3.5 Computer Use, destaca como el primer modelo de inteligencia artificial de vanguardia que ofrece el uso de computadora en versión beta pública como un agente de interfaz gráfica de usuario (GUI). Siendo una versión beta temprana, su capacidad en entornos complejos del mundo real permanece desconocida. En este estudio de caso para explorar Claude 3.5 Computer Use, curamos y organizamos una colección de tareas cuidadosamente diseñadas que abarcan una variedad de dominios y software. Las observaciones de estos casos demuestran la capacidad sin precedentes de Claude 3.5 Computer Use en acciones de lenguaje a acciones de escritorio de extremo a extremo. Junto con este estudio, proporcionamos un marco de agente listo para usar para implementar modelos de automatización de GUI basados en API con una implementación sencilla. Nuestros estudios de caso tienen como objetivo mostrar una base de capacidades y limitaciones de Claude 3.5 Computer Use con análisis detallados y plantear preguntas sobre planificación, acción y crítica, que deben considerarse para futuras mejoras. Esperamos que esta exploración preliminar inspire futuras investigaciones en la comunidad de agentes de GUI. Todos los casos de prueba en el artículo se pueden probar a través del proyecto: https://github.com/showlab/computer_use_ootb.
Los Modelos de Lenguaje de Video a Gran Escala (Vid-LLMs) han logrado avances notables en la comprensión del contenido de video para el diálogo de preguntas y respuestas. Sin embargo, tienen dificultades para extender esta comprensión visual a tareas que requieren una localización temporal precisa, conocida como Anclaje Temporal de Video (VTG, por sus siglas en inglés). Para abordar esta brecha, presentamos Number-Prompt (NumPro), un método novedoso que capacita a los Vid-LLMs para conectar la comprensión visual con el anclaje temporal mediante la adición de identificadores numéricos únicos a cada fotograma de video. Tratando un video como una secuencia de imágenes de fotogramas numerados, NumPro transforma el VTG en un proceso intuitivo: hojear paneles de manga en secuencia. Esto permite a los Vid-LLMs "leer" líneas de tiempo de eventos, vinculando con precisión el contenido visual con la información temporal correspondiente. Nuestros experimentos demuestran que NumPro mejora significativamente el rendimiento de VTG de los Vid-LLMs de primer nivel sin costo computacional adicional. Además, el ajuste fino en un conjunto de datos mejorado por NumPro establece un nuevo estado del arte para VTG, superando a los métodos anteriores más efectivos hasta en un 6.9\% en mIoU para la recuperación de momentos y un 8.5\% en mAP para la detección de aspectos destacados. El código estará disponible en https://github.com/yongliang-wu/NumPro.
Presentamos Xmodel-1.5, un novedoso modelo grande multilingüe de 1.5 mil millones de parámetros preentrenado en aproximadamente 2 billones de tokens. El modelo demuestra un sólido rendimiento en varios idiomas, con resultados particularmente destacados en tailandés, árabe y francés, junto con su efectividad en chino e inglés. Además, contribuimos a la comunidad de investigación al liberar un conjunto de datos de evaluación en tailandés, que incluye cientos de preguntas anotadas por estudiantes de la Escuela de Innovación Integrada de la Universidad Chulalongkorn. Aunque los resultados son prometedores, reconocemos que aún hay margen para mejorar. Esperamos que este trabajo impulse los esfuerzos en curso en la investigación de IA multilingüe y fomente una mejor comprensión interlingüística en diversas tareas de procesamiento de lenguaje natural. Nuestros modelos y código están disponibles públicamente en GitHub en https://github.com/XiaoduoAILab/XmodelLM.
Entrenar redes neuronales profundas, y más recientemente, modelos grandes, requiere optimizadores eficientes y escalables. Algoritmos de gradiente adaptativos como Adam, AdamW y sus variantes han sido fundamentales para esta tarea. A pesar del desarrollo de numerosos algoritmos de reducción de varianza en la última década destinados a acelerar la optimización estocástica en entornos convexas y no convexas, la reducción de varianza no ha tenido un éxito generalizado en el entrenamiento de redes neuronales profundas o modelos de lenguaje grandes. En consecuencia, ha seguido siendo un enfoque menos preferido en la IA moderna. En este documento, para liberar el poder de la reducción de varianza para el entrenamiento eficiente de modelos grandes, proponemos un marco de optimización unificado, MARS (Make vAriance Reduction Shine), que concilia los métodos de gradiente precondicionado con la reducción de varianza a través de una técnica de momento estocástico escalado recursivo. Dentro de nuestro marco, presentamos tres instancias de MARS que aprovechan actualizaciones de gradiente precondicionado basadas en AdamW, Lion y Shampoo, respectivamente. También establecemos una conexión entre nuestros algoritmos y optimizadores existentes. Los resultados experimentales en el entrenamiento de modelos GPT-2 indican que MARS supera consistentemente a AdamW por un amplio margen.