Artículos de investigación en IA seleccionados diariamente con traducciones
Investigamos hasta qué punto los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) contemporáneos pueden participar en la exploración, una capacidad fundamental en el aprendizaje por refuerzo y la toma de decisiones. Nos centramos en el rendimiento nativo de los LLMs existentes, sin intervenciones de entrenamiento. Desplegamos LLMs como agentes en entornos simples de bandidos multi-brazo, especificando la descripción del entorno y el historial de interacción completamente en contexto, es decir, dentro del prompt del LLM. Experimentamos con GPT-3.5, GPT-4 y Llama2, utilizando una variedad de diseños de prompts, y encontramos que los modelos no participan de manera robusta en la exploración sin intervenciones sustanciales: i) En todos nuestros experimentos, solo una configuración resultó en un comportamiento exploratorio satisfactorio: GPT-4 con razonamiento en cadena de pensamiento y un historial de interacción resumido externamente, presentado como estadísticas suficientes; ii) Todas las demás configuraciones no resultaron en un comportamiento exploratorio robusto, incluidas aquellas con razonamiento en cadena de pensamiento pero con historial no resumido. Aunque estos hallazgos pueden interpretarse positivamente, sugieren que la resumización externa —que puede no ser posible en entornos más complejos— es importante para obtener un comportamiento deseable de los agentes basados en LLMs. Concluimos que pueden ser necesarias intervenciones algorítmicas no triviales, como el ajuste fino o la curación de conjuntos de datos, para empoderar a los agentes de toma de decisiones basados en LLMs en entornos complejos.
Los modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés) son actualmente el estado del arte para resolver la gran mayoría de las tareas de procesamiento del lenguaje natural. Si bien muchas aplicaciones del mundo real aún requieren ajustes finos para alcanzar niveles satisfactorios de rendimiento, muchas de ellas se encuentran en regímenes de datos limitados, lo que hace que el ajuste fino sea un desafío. Para abordar esto, proponemos LLM2LLM, una estrategia de aumento de datos dirigida e iterativa que utiliza un LLM maestro para mejorar un pequeño conjunto de datos inicial mediante la generación de datos adicionales que pueden usarse para el ajuste fino en una tarea específica. LLM2LLM (1) ajusta un LLM estudiante de referencia en los datos iniciales, (2) evalúa y extrae los puntos de datos que el modelo predice incorrectamente, y (3) utiliza un LLM maestro para generar datos sintéticos basados en estos puntos incorrectos, los cuales se añaden nuevamente al conjunto de entrenamiento. Este enfoque amplifica la señal de los puntos de datos mal predichos por el LLM durante el entrenamiento y los reintegra en el conjunto de datos para enfocarse en ejemplos más desafiantes para el LLM. Nuestros resultados muestran que LLM2LLM mejora significativamente el rendimiento de los LLMs en regímenes de datos limitados, superando tanto el ajuste fino tradicional como otras técnicas de aumento de datos. LLM2LLM reduce la dependencia de la curación de datos intensiva en mano de obra y allana el camino para soluciones de LLM más escalables y eficientes, permitiéndonos abordar dominios y tareas con limitaciones de datos. Logramos mejoras de hasta un 24.2% en el conjunto de datos GSM8K, 32.6% en CaseHOLD, 32.0% en SNIPS, 52.6% en TREC y 39.8% en SST-2 en comparación con el ajuste fino regular en regímenes de datos limitados utilizando un modelo estudiante LLaMA2-7B.
Presentamos InternVideo2, un nuevo modelo fundacional de video (ViFM) que alcanza el rendimiento más avanzado en reconocimiento de acciones, tareas de video-texto y diálogo centrado en video. Nuestro enfoque emplea un paradigma de entrenamiento progresivo que unifica los diferentes marcos de aprendizaje autosupervisado o débilmente supervisado de reconstrucción de tokens de video enmascarados, aprendizaje contrastivo multimodal y predicción del siguiente token. Diferentes etapas de entrenamiento guían a nuestro modelo para capturar distintos niveles de información estructural y semántica a través de diversas tareas pretexto. A nivel de datos, priorizamos la consistencia espacio-temporal mediante la segmentación semántica de videos y la generación de subtítulos de video-audio-habla. Esto mejora la alineación entre video y texto. Escalamos tanto el tamaño de los datos como del modelo para nuestro InternVideo2. A través de extensos experimentos, validamos nuestros diseños y demostramos el rendimiento más avanzado en más de 60 tareas de video y audio. Destacablemente, nuestro modelo supera a otros en varios puntos de referencia relacionados con subtitulado de video, diálogo y comprensión de videos largos, resaltando su capacidad para razonar y comprender contextos temporales prolongados. El código y los modelos están disponibles en https://github.com/OpenGVLab/InternVideo2/.
En este estudio, presentamos una metodología para la animación de imágenes humanas mediante el uso de un modelo paramétrico humano 3D dentro de un marco de difusión latente para mejorar la alineación de formas y la guía de movimiento en las técnicas actuales de generación humana. La metodología utiliza el modelo SMPL (Skinned Multi-Person Linear) como modelo paramétrico humano 3D para establecer una representación unificada de la forma y la postura del cuerpo. Esto facilita la captura precisa de la geometría humana compleja y las características de movimiento a partir de videos fuente. Específicamente, incorporamos imágenes de profundidad renderizadas, mapas normales y mapas semánticos obtenidos de secuencias SMPL, junto con una guía de movimiento basada en esqueletos, para enriquecer las condiciones del modelo de difusión latente con una forma 3D integral y atributos detallados de postura. Un módulo de fusión de movimiento multicapa, que integra mecanismos de auto-atención, se emplea para fusionar las representaciones latentes de forma y movimiento en el dominio espacial. Al representar el modelo paramétrico humano 3D como la guía de movimiento, podemos realizar una alineación paramétrica de la forma del cuerpo humano entre la imagen de referencia y el movimiento del video fuente. Las evaluaciones experimentales realizadas en conjuntos de datos de referencia demuestran la capacidad superior de la metodología para generar animaciones humanas de alta calidad que capturan con precisión tanto las variaciones de postura como de forma. Además, nuestro enfoque también exhibe capacidades de generalización superiores en el conjunto de datos propuesto en entornos no controlados. Página del proyecto: https://fudan-generative-vision.github.io/champ.
Las aplicaciones del mundo real a menudo requieren una gran colección de activos 3D que compartan un tema consistente. Si bien se han logrado avances notables en la creación general de contenido 3D a partir de texto o imágenes, la síntesis de activos 3D personalizados que sigan el tema compartido de ejemplos 3D de entrada sigue siendo un problema abierto y desafiante. En este trabajo, presentamos ThemeStation, un enfoque novedoso para la generación 3D-a-3D consciente del tema. ThemeStation sintetiza activos 3D personalizados basados en unos pocos ejemplos dados con dos objetivos: 1) unidad para generar activos 3D que se alineen temáticamente con los ejemplos proporcionados y 2) diversidad para generar activos 3D con un alto grado de variaciones. Para ello, diseñamos un marco de trabajo de dos etapas que primero dibuja una imagen conceptual, seguido de una etapa de modelado 3D informada por referencias. Proponemos una nueva pérdida de destilación de puntuación dual (DSD) para aprovechar conjuntamente los conocimientos previos tanto de los ejemplos de entrada como de la imagen conceptual sintetizada. Experimentos extensos y estudios de usuario confirman que ThemeStation supera trabajos anteriores en la producción de modelos 3D diversos y conscientes del tema con una calidad impresionante. ThemeStation también permite diversas aplicaciones, como la generación 3D-a-3D controlable.
En este artículo, proponemos VidLA, un enfoque para la alineación video-lenguaje a gran escala. Existen dos limitaciones principales en los enfoques previos de alineación video-lenguaje. En primer lugar, no capturan tanto las dependencias temporales de corto como de largo alcance y, por lo general, emplean arquitecturas de redes profundas jerárquicas complejas que son difíciles de integrar con los modelos base preentrenados de imagen-texto existentes. Para abordar eficazmente esta limitación, en su lugar mantenemos la arquitectura de la red simple y utilizamos un conjunto de tokens de datos que operan a diferentes resoluciones temporales de manera jerárquica, teniendo en cuenta la naturaleza temporalmente jerárquica de los videos. Al emplear una arquitectura simple de dos torres, podemos inicializar nuestro modelo video-lenguaje con modelos base preentrenados de imagen-texto, mejorando así el rendimiento final. En segundo lugar, los trabajos existentes de alineación video-lenguaje enfrentan dificultades debido a la falta de datos de entrenamiento a gran escala semánticamente alineados. Para superar esto, aprovechamos modelos de lenguaje grandes (LLMs) recientes para curar el mayor conjunto de datos video-lenguaje hasta la fecha con un mejor anclaje visual. Además, a diferencia de los conjuntos de datos video-texto existentes que solo contienen clips cortos, nuestro conjunto de datos está enriquecido con clips de video de duraciones variadas para ayudar a nuestros tokens de datos jerárquicos temporales a extraer mejores representaciones en diferentes escalas temporales. En general, los resultados empíricos muestran que nuestro enfoque propuesto supera a los métodos más avanzados en múltiples benchmarks de recuperación, especialmente en videos más largos, y compite de manera competitiva en benchmarks de clasificación.
Los Transformers han adoptado ampliamente redes de atención para la mezcla de secuencias y MLPs para la mezcla de canales, desempeñando un papel fundamental en la consecución de avances en diversos dominios. Sin embargo, la literatura reciente destaca problemas con las redes de atención, incluyendo un bajo sesgo inductivo y una complejidad cuadrática en relación con la longitud de la secuencia de entrada. Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) como S4 y otros (Hippo, Convoluciones Globales, liquid S4, LRU, Mega y Mamba) han surgido para abordar estos problemas y ayudar a manejar secuencias más largas. Mamba, aunque es el SSM más avanzado, presenta un problema de estabilidad cuando se escala a redes grandes para conjuntos de datos de visión por computadora. Proponemos SiMBA, una nueva arquitectura que introduce la Transformada Rápida de Fourier de Einstein (EinFFT) para el modelado de canales mediante cálculos específicos de valores propios y utiliza el bloque Mamba para el modelado de secuencias. Estudios exhaustivos de rendimiento en benchmarks de imágenes y series temporales demuestran que SiMBA supera a los SSMs existentes, cerrando la brecha de rendimiento con los transformers más avanzados. Notablemente, SiMBA se establece como el nuevo SSM más avanzado en ImageNet y benchmarks de aprendizaje por transferencia como Stanford Car y Flower, así como en benchmarks de aprendizaje de tareas y siete conjuntos de datos de series temporales. La página del proyecto está disponible en este sitio web ~https://github.com/badripatro/Simba.
Presentamos DragAPart, un método que, dada una imagen y un conjunto de arrastres como entrada, puede generar una nueva imagen del mismo objeto en un nuevo estado, compatible con la acción de los arrastres. A diferencia de trabajos previos que se centraban en reposicionar objetos, DragAPart predice interacciones a nivel de partes, como abrir y cerrar un cajón. Estudiamos este problema como un proxy para aprender un modelo de movimiento generalista, no restringido a una estructura cinemática o categoría de objeto específica. Para ello, partimos de un generador de imágenes preentrenado y lo ajustamos en un nuevo conjunto de datos sintéticos, Drag-a-Move, que introducimos. Combinado con una nueva codificación para los arrastres y la aleatorización del conjunto de datos, el nuevo modelo generaliza bien a imágenes reales y diferentes categorías. En comparación con generadores controlados por movimiento anteriores, demostramos una comprensión mucho mejor del movimiento a nivel de partes.
Los modelos modernos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son capaces de seguir instrucciones largas y complejas que permiten una amplia variedad de tareas para los usuarios. Sin embargo, a pesar de que los modelos de Recuperación de Información (IR, por sus siglas en inglés) utilizan LLMs como la base de sus arquitecturas, casi todos ellos aún solo toman consultas como entrada, sin instrucciones. Para los pocos modelos recientes que sí aceptan instrucciones, no está claro cómo las utilizan. Presentamos nuestro conjunto de datos FollowIR, que incluye un riguroso punto de referencia para la evaluación de instrucciones, así como un conjunto de entrenamiento para ayudar a los modelos de IR a aprender a seguir mejor las instrucciones del mundo real. FollowIR se basa en la larga historia de las conferencias TREC: así como TREC proporciona a los anotadores humanos instrucciones (también conocidas como narrativas) para determinar la relevancia de los documentos, los modelos de IR deberían ser capaces de comprender y decidir la relevancia basándose en estas instrucciones detalladas. Nuestro punto de referencia de evaluación comienza con tres colecciones de TREC profundamente evaluadas y modifica las instrucciones de los anotadores, reanotando los documentos relevantes. A través de este proceso, podemos medir qué tan bien los modelos de IR siguen las instrucciones, utilizando un nuevo marco de evaluación por pares. Nuestros resultados indican que los modelos de recuperación existentes no utilizan correctamente las instrucciones, usándolas para palabras clave básicas y luchando por comprender información extensa. Sin embargo, demostramos que es posible que los modelos de IR aprendan a seguir instrucciones complejas: nuestro nuevo modelo FollowIR-7B muestra mejoras significativas (más del 13%) después del ajuste fino en nuestro conjunto de entrenamiento.
Los comentarios textuales constituyen un valioso repositorio de experiencias, opiniones y requisitos de los usuarios esenciales para el desarrollo de software. Extraer de manera efectiva y eficiente información valiosa de dichos datos representa una tarea desafiante. Este artículo presenta Allhands, un marco analítico innovador diseñado para el análisis de comentarios a gran escala a través de una interfaz de lenguaje natural, aprovechando los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Allhands sigue un flujo de trabajo convencional de análisis de comentarios, comenzando con la clasificación y el modelado de temas en los comentarios para convertirlos en un formato estructuralmente mejorado, incorporando LLMs para aumentar la precisión, robustez, generalización y facilidad de uso. Posteriormente, se emplea un agente basado en LLM para interpretar las diversas preguntas de los usuarios en lenguaje natural sobre los comentarios, traduciéndolas a código Python para su ejecución y proporcionando respuestas multimodales completas, incluyendo texto, código, tablas e imágenes. Evaluamos Allhands en tres conjuntos de datos de comentarios diversos. Los experimentos demuestran que Allhands logra una eficacia superior en todas las etapas del análisis, incluyendo la clasificación y el modelado de temas, ofreciendo finalmente a los usuarios una experiencia de "pregúntame cualquier cosa" con respuestas completas, correctas y legibles para humanos. Hasta donde sabemos, Allhands se erige como el primer marco integral de análisis de comentarios que respalda requisitos diversos y personalizados para la extracción de insights a través de una interfaz de lenguaje natural.
Los enfoques recientes de generación de texto a 3D producen resultados 3D impresionantes, pero requieren una optimización que consume tiempo y puede tardar hasta una hora por prompt. Métodos amortizados como ATT3D optimizan múltiples prompts simultáneamente para mejorar la eficiencia, permitiendo una síntesis rápida de texto a 3D. Sin embargo, no pueden capturar detalles de geometría y textura de alta frecuencia y tienen dificultades para escalar a grandes conjuntos de prompts, por lo que generalizan de manera deficiente. Presentamos LATTE3D, que aborda estas limitaciones para lograr una generación rápida y de alta calidad en un conjunto de prompts significativamente más grande. Clave en nuestro método es 1) construir una arquitectura escalable y 2) aprovechar datos 3D durante la optimización mediante priores de difusión 3D, regularización de formas e inicialización del modelo para lograr robustez frente a prompts de entrenamiento diversos y complejos. LATTE3D amortiza tanto la generación de campos neuronales como de superficies texturizadas para producir mallas texturizadas altamente detalladas en un único paso hacia adelante. LATTE3D genera objetos 3D en 400 ms y puede mejorarse aún más con una optimización rápida en tiempo de prueba.
Introducimos un nuevo paradigma en la optimización de compiladores impulsado por Modelos de Lenguaje de Gran Escala (LLM) con retroalimentación del compilador para optimizar el tamaño del código en ensamblador LLVM. El modelo toma como entrada un código intermedio LLVM no optimizado y produce un código intermedio optimizado, los mejores pases de optimización y los conteos de instrucciones tanto del código no optimizado como del optimizado. Luego, compilamos la entrada con los pases de optimización generados y evaluamos si el conteo de instrucciones predicho es correcto, si el código intermedio generado es compilable y si corresponde al código compilado. Proporcionamos esta retroalimentación al LLM y le damos otra oportunidad para optimizar el código. Este enfoque añade una mejora adicional del 0.53% sobre -Oz al modelo original. Aunque añadir más información con retroalimentación parece intuitivo, técnicas simples de muestreo logran un rendimiento mucho mayor cuando se utilizan 10 o más muestras.