Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de lenguaje han demostrado habilidades impresionantes para resolver problemas en entornos definidos y con plazos breves. Sin embargo, ante las complejidades en constante evolución de las simulaciones de mundo abierto, existe una necesidad urgente de agentes que puedan adaptarse de manera flexible a entornos complejos y mantener de forma consistente una memoria a largo plazo para garantizar acciones coherentes. Para cerrar la brecha entre los agentes de lenguaje y los juegos de mundo abierto, presentamos el Agente de Lenguaje para Role-Playing (LARP), que incluye una arquitectura cognitiva que abarca el procesamiento de memoria y un asistente de toma de decisiones, un módulo de interacción con el entorno con un espacio de acción aprendible basado en retroalimentación, y un método de postprocesamiento que fomenta la alineación de diversas personalidades. El marco LARP refina las interacciones entre los usuarios y los agentes, predefinidos con antecedentes y personalidades únicos, mejorando en última instancia la experiencia de juego en contextos de mundo abierto. Además, destaca los diversos usos de los modelos de lenguaje en áreas como el entretenimiento, la educación y diversos escenarios de simulación. La página del proyecto está disponible en https://miao-ai-lab.github.io/LARP/.
Los modelos de difusión han revolucionado la síntesis de imagen a imagen (I2I) y ahora están permeando en el ámbito de los videos. Sin embargo, el avance en la síntesis de video a video (V2V) se ha visto obstaculizado por el desafío de mantener la consistencia temporal entre los fotogramas del video. Este artículo propone un marco de síntesis V2V consistente al aprovechar conjuntamente las condiciones espaciales y las pistas de flujo óptico temporal dentro del video fuente. A diferencia de métodos anteriores que se adhieren estrictamente al flujo óptico, nuestro enfoque aprovecha sus beneficios mientras maneja las imperfecciones en la estimación del flujo. Codificamos el flujo óptico mediante deformación a partir del primer fotograma y lo utilizamos como una referencia complementaria en el modelo de difusión. Esto permite que nuestro modelo realice síntesis de video editando el primer fotograma con cualquier modelo I2I prevalente y luego propagando las ediciones a los fotogramas sucesivos. Nuestro modelo V2V, FlowVid, demuestra propiedades notables: (1) Flexibilidad: FlowVid funciona sin problemas con los modelos I2I existentes, facilitando diversas modificaciones, incluyendo estilización, intercambio de objetos y ediciones locales. (2) Eficiencia: La generación de un video de 4 segundos con 30 FPS y resolución de 512x512 toma solo 1.5 minutos, lo que es 3.1x, 7.2x y 10.5x más rápido que CoDeF, Rerender y TokenFlow, respectivamente. (3) Alta calidad: En estudios de usuarios, nuestro FlowVid es preferido el 45.7% de las veces, superando a CoDeF (3.5%), Rerender (10.2%) y TokenFlow (40.4%).
Presentamos SynCLR, un enfoque novedoso para aprender representaciones visuales exclusivamente a partir de imágenes sintéticas y descripciones sintéticas, sin utilizar ningún dato real. Sintetizamos un gran conjunto de datos de descripciones de imágenes utilizando modelos de lenguaje (LLMs), luego empleamos un modelo estándar de texto a imagen para generar múltiples imágenes correspondientes a cada descripción sintética. Realizamos el aprendizaje de representaciones visuales en estas imágenes sintéticas mediante aprendizaje contrastivo, tratando las imágenes que comparten la misma descripción como pares positivos. Las representaciones resultantes se transfieren eficazmente a muchas tareas posteriores, compitiendo favorablemente con otros métodos de aprendizaje de representaciones visuales de propósito general, como CLIP y DINO v2, en tareas de clasificación de imágenes. Además, en tareas de predicción densa, como la segmentación semántica, SynCLR supera significativamente a métodos anteriores de auto-supervisión, por ejemplo, mejorando sobre MAE e iBOT en 6.2 y 4.3 mIoU respectivamente en ADE20k para ViT-B/16.
La tendencia reciente en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es aumentar la escala tanto del tamaño del modelo (es decir, el número de parámetros) como del conjunto de datos para lograr una mejor capacidad generativa, lo cual ha sido ampliamente demostrado por trabajos como los famosos GPT y Llama. Sin embargo, los modelos grandes suelen implicar costos computacionales masivos, y las aplicaciones prácticas no pueden asumir precios tan elevados. Además, el método para construir una arquitectura de modelo sólida para LLMs rara vez se discute. En primer lugar, analizamos las arquitecturas de modelos de lenguaje más avanzadas y observamos el problema del colapso de características. Basándonos en el análisis teórico, proponemos que la no linealidad también es muy importante para los modelos de lenguaje, un aspecto que suele estudiarse en las redes neuronales convolucionales para tareas de visión. Luego, introducimos la función de activación informada en serie con cálculos mínimos que pueden ignorarse, y se utiliza un atajo aumentado para mejorar la no linealidad del modelo. Demostramos que el enfoque propuesto es significativamente efectivo para mejorar la no linealidad del modelo mediante ablaciones cuidadosamente diseñadas; así, presentamos una nueva arquitectura de modelo eficiente para establecer modelos modernos, denominada PanGu-pi. Posteriormente, se realizan experimentos utilizando el mismo conjunto de datos y estrategia de entrenamiento para comparar PanGu-pi con los LLMs más avanzados. Los resultados muestran que PanGu-pi-7B puede alcanzar un rendimiento comparable al de los puntos de referencia con una aceleración de inferencia de aproximadamente el 10%, y PanGu-pi-1B puede lograr un rendimiento de vanguardia en términos de precisión y eficiencia. Además, hemos implementado PanGu-pi-7B en los dominios de alto valor de las finanzas y el derecho, desarrollando un LLM llamado YunShan para aplicaciones prácticas. Los resultados muestran que YunShan puede superar a otros modelos de escalas similares en puntos de referencia.
El creciente interés en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha impactado significativamente tanto en el ámbito académico como industrial. Estos modelos mejoran los Modelos de Lenguaje de Gran Escala (LLMs) con capacidades avanzadas de comprensión visual, facilitando su aplicación en una variedad de tareas multimodales. Recientemente, Google presentó Gemini, un MLLM de vanguardia diseñado específicamente para la integración multimodal. A pesar de sus avances, los primeros benchmarks indican que Gemini se queda atrás de los modelos GPT en tareas de razonamiento de sentido común. Sin embargo, esta evaluación, basada en un conjunto de datos limitado (es decir, HellaSWAG), no captura completamente el potencial auténtico de razonamiento de sentido común de Gemini. Para abordar esta brecha, nuestro estudio realiza una evaluación exhaustiva del rendimiento de Gemini en tareas de razonamiento complejo que requieren la integración de conocimiento de sentido común a través de modalidades. Llevamos a cabo un análisis completo de 12 conjuntos de datos de razonamiento de sentido común, que van desde tareas generales hasta específicas de dominio. Esto incluye 11 conjuntos de datos centrados únicamente en lenguaje, así como uno que incorpora elementos multimodales. Nuestros experimentos en cuatro LLMs y dos MLLMs demuestran las capacidades competitivas de razonamiento de sentido común de Gemini. Además, identificamos desafíos comunes que enfrentan los LLMs y MLLMs actuales al abordar problemas de sentido común, destacando la necesidad de avances adicionales para mejorar las habilidades de razonamiento de sentido común de estos modelos.