Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos EXAONE 3.0, un modelo de lenguaje ajustado a instrucciones, el primer modelo abierto de la familia de Modelos de Lenguaje Grandes (LLMs) desarrollado por LG AI Research. Entre diferentes tamaños de modelos, lanzamos públicamente el modelo ajustado a instrucciones de 7.8 mil millones para fomentar la investigación abierta e innovaciones. A través de extensas evaluaciones en una amplia gama de benchmarks públicos y propios, EXAONE 3.0 demuestra un rendimiento altamente competitivo en el mundo real con capacidad de seguimiento de instrucciones frente a otros modelos abiertos de tamaño similar de última generación. Nuestro análisis comparativo muestra que EXAONE 3.0 destaca especialmente en coreano, al tiempo que logra un rendimiento convincente en tareas generales y razonamiento complejo. Con su sólida efectividad en el mundo real y competencia bilingüe, esperamos que EXAONE siga contribuyendo a los avances en la Inteligencia Artificial Expert. Nuestro modelo EXAONE 3.0 ajustado a instrucciones está disponible en https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
La construcción de un agente de propósito general es una visión de larga data en el campo de la inteligencia artificial. Los agentes existentes han logrado un progreso notable en muchos dominios, sin embargo, aún luchan por completar tareas de largo horizonte en un mundo abierto. Atribuimos esto a la falta de conocimiento del mundo necesario y experiencia multimodal que pueda guiar a los agentes a través de una variedad de tareas de largo horizonte. En este documento, proponemos un módulo de Memoria Multimodal Híbrida para abordar los desafíos mencionados anteriormente. 1) Transforma el conocimiento en un Grafo de Conocimiento Dirigido Jerárquicamente que permite a los agentes representar y aprender explícitamente el conocimiento del mundo, y 2) resume la información histórica en un Conjunto de Experiencia Multimodal Abstracta que proporciona a los agentes referencias ricas para el aprendizaje contextual. Sobre el módulo de Memoria Multimodal Híbrida, se construye un agente multimodal, Optimus-1, con un Planificador Guiado por el Conocimiento y un Reflector Impulsado por la Experiencia, contribuyendo a una mejor planificación y reflexión frente a tareas de largo horizonte en Minecraft. Los extensos resultados experimentales muestran que Optimus-1 supera significativamente a todos los agentes existentes en desafiantes benchmarks de tareas de largo horizonte, y exhibe un rendimiento cercano al nivel humano en muchas tareas. Además, presentamos varios Modelos de Lenguaje Multimodal Grande (MLLMs) como la columna vertebral de Optimus-1. Los resultados experimentales muestran que Optimus-1 exhibe una fuerte generalización con la ayuda del módulo de Memoria Multimodal Híbrida, superando la línea base GPT-4V en muchas tareas.
Lograr la velocidad y el rendimiento a nivel humano en tareas del mundo real es un faro para la comunidad de investigación en robótica. Este trabajo da un paso hacia ese objetivo y presenta el primer agente robot aprendido que alcanza un rendimiento a nivel humano amateur en tenis de mesa competitivo. El tenis de mesa es un deporte físicamente exigente que requiere que los jugadores humanos pasen años de entrenamiento para alcanzar un nivel avanzado de destreza. En este documento, contribuimos con (1) una arquitectura de política jerárquica y modular que consiste en (i) controladores de bajo nivel con sus descriptores detallados de habilidades que modelan las capacidades del agente y ayudan a cerrar la brecha entre simulación y realidad y (ii) un controlador de alto nivel que elige las habilidades de bajo nivel, (2) técnicas para habilitar la transferencia de simulación a realidad sin entrenamiento previo, incluido un enfoque iterativo para definir la distribución de tareas que se basa en el mundo real y define un currículo automático, y (3) adaptación en tiempo real a oponentes no vistos. El rendimiento de la política se evaluó a través de 29 partidos de robot contra humano, de los cuales el robot ganó el 45% (13/29). Todos los humanos eran jugadores no vistos y su nivel de habilidad variaba desde principiante hasta nivel de torneo. Mientras que el robot perdió todos los partidos contra los jugadores más avanzados, ganó el 100% de los partidos contra principiantes y el 55% de los partidos contra jugadores intermedios, demostrando un rendimiento sólidamente amateur a nivel humano. Los videos de los partidos se pueden ver en https://sites.google.com/view/competitive-robot-table-tennis
Los Modelos de Lenguaje de Gran Escala (LLMs) destacan en tareas de código independientes como HumanEval y MBPP, pero tienen dificultades para manejar repositorios de código completos. Este desafío ha impulsado la investigación sobre cómo mejorar la interacción LLM-repositorio de código a escala de repositorio. Las soluciones actuales se basan en recuperación basada en similitud o herramientas manuales y APIs, cada una con inconvenientes notables. La recuperación basada en similitud a menudo tiene baja recuperación en tareas complejas, mientras que las herramientas manuales y APIs suelen ser específicas de la tarea y requieren conocimientos expertos, lo que reduce su generalización en diversas tareas de código y aplicaciones del mundo real. Para mitigar estas limitaciones, presentamos \framework, un sistema que integra agentes LLM con interfaces de bases de datos de grafos extraídas de repositorios de código. Al aprovechar las propiedades estructurales de las bases de datos de grafos y la flexibilidad del lenguaje de consulta de grafos, \framework permite que el agente LLM construya y ejecute consultas, lo que permite una recuperación precisa consciente de la estructura del código y navegación de código. Evaluamos \framework utilizando tres bancos de pruebas: CrossCodeEval, SWE-bench y EvoCodeBench. Además, desarrollamos cinco aplicaciones de codificación del mundo real. Con un esquema unificado de base de datos de grafos, \framework demuestra un rendimiento competitivo y potencial tanto en entornos académicos como en entornos del mundo real, mostrando su versatilidad y eficacia en ingeniería de software. Nuestra demo de la aplicación: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval es un completo conjunto de herramientas de prueba de seguridad de IA diseñado para evaluar grandes modelos de lenguaje (LLMs). Acomoda una amplia gama de modelos, incluidos los de peso abierto y basados en API, y cuenta con más de 35 pruebas de seguridad que abarcan áreas como seguridad multilingüe, seguridad exagerada e inyecciones de indicaciones. El marco de trabajo admite tanto la evaluación de LLM como de jueces, e incorpora mutadores personalizados para probar la seguridad frente a diversas mutaciones de estilo de texto, como el tiempo futuro y la parafraseo. Además, WalledEval presenta WalledGuard, una nueva herramienta de moderación de contenido pequeña y eficiente, y SGXSTest, una prueba para evaluar la seguridad exagerada en contextos culturales. Ponemos WalledEval a disposición del público en https://github.com/walledai/walledevalA.
La técnica de "splatting" gaussiano en 3D (3DGS) ha surgido recientemente como una representación alternativa que aprovecha una representación basada en Gaussianas en 3D e introduce una renderización volumétrica aproximada, logrando una velocidad de renderizado muy rápida y una calidad de imagen prometedora. Además, estudios posteriores han extendido con éxito el 3DGS a escenas 3D dinámicas, demostrando su amplio rango de aplicaciones. Sin embargo, surge un inconveniente significativo ya que el 3DGS y sus métodos subsiguientes implican un número sustancial de Gaussianas para mantener la alta fidelidad de las imágenes renderizadas, lo que requiere una gran cantidad de memoria y almacenamiento. Para abordar este problema crítico, enfatizamos dos objetivos clave: reducir el número de puntos Gaussianos sin sacrificar el rendimiento y comprimir los atributos Gaussianos, como el color dependiente de la vista y la covarianza. Con este fin, proponemos una estrategia de máscara aprendible que reduce significativamente el número de Gaussianas mientras se preserva un alto rendimiento. Además, proponemos una representación compacta pero efectiva del color dependiente de la vista mediante el uso de un campo neural basado en cuadrícula en lugar de depender de armónicos esféricos. Finalmente, aprendemos libros de códigos para representar de forma compacta los atributos geométricos y temporales mediante cuantificación vectorial residual. Con técnicas de compresión de modelos como cuantificación y codificación de entropía, demostramos de manera consistente una reducción de más de 25 veces en el almacenamiento y una velocidad de renderizado mejorada en comparación con el 3DGS para escenas estáticas, manteniendo la calidad de la representación de la escena. Para escenas dinámicas, nuestro enfoque logra una eficiencia de almacenamiento de más de 12 veces y conserva una reconstrucción de alta calidad en comparación con los métodos existentes de vanguardia. Nuestro trabajo proporciona un marco integral para la representación de escenas en 3D, logrando un alto rendimiento, entrenamiento rápido, compacidad y renderizado en tiempo real. Nuestra página de proyecto está disponible en https://maincold2.github.io/c3dgs/.
Los modelos recientes de generación de imágenes destacan en la creación de imágenes de alta calidad a partir de breves descripciones. Sin embargo, fallan en mantener la consistencia de múltiples instancias a lo largo de las imágenes al encontrarse con contextos extensos. Esta inconsistencia se debe en gran medida a la ausencia de etiquetado detallado de características de instancia en los conjuntos de datos de entrenamiento existentes. Para abordar estos problemas, presentamos Openstory++, un conjunto de datos a gran escala que combina anotaciones adicionales a nivel de instancia con imágenes y texto. Además, desarrollamos una metodología de entrenamiento que enfatiza la generación de imágenes y texto centrada en entidades, asegurando que los modelos aprendan a entrelazar de manera efectiva la información visual y textual. Específicamente, Openstory++ agiliza el proceso de extracción de fotogramas clave de videos de dominio abierto, empleando modelos de visión y lenguaje para generar descripciones que luego son pulidas por un gran modelo de lenguaje para mantener la continuidad narrativa. Supera a conjuntos de datos anteriores al ofrecer un recurso de dominio abierto más amplio, que incorpora subtitulación automatizada, imágenes de alta resolución adaptadas al recuento de instancias y extensas secuencias de fotogramas para consistencia temporal. Además, presentamos Cohere-Bench, un marco de referencia pionero para evaluar las tareas de generación de imágenes cuando se proporciona un contexto multimodal largo, incluida la capacidad de mantener coherente el fondo, el estilo y las instancias en el contexto dado. En comparación con los marcos de referencia existentes, nuestro trabajo cubre lagunas críticas en la generación multimodal, impulsando el desarrollo de modelos que puedan generar e interpretar con destreza narrativas complejas en entornos de dominio abierto. Experimentos realizados dentro de Cohere-Bench confirman la superioridad de Openstory++ en el fomento de modelos de narración visual de alta calidad, mejorando su capacidad para abordar tareas de generación de dominio abierto. Se pueden encontrar más detalles en https://openstorypp.github.io/
Presentamos Speech-MASSIVE, un conjunto de datos de Entendimiento del Lenguaje Hablado (SLU, por sus siglas en inglés) multilingüe que comprende la contraparte hablada de una parte del corpus textual MASSIVE. Speech-MASSIVE abarca 12 idiomas de diferentes familias y hereda de MASSIVE las anotaciones para las tareas de predicción de intención y rellenado de espacios. Nuestra extensión surge de la escasez de conjuntos de datos SLU masivamente multilingües y la creciente necesidad de conjuntos de datos de habla versátiles para evaluar modelos fundamentales (LLMs, codificadores de habla) a través de idiomas y tareas. Proporcionamos un conjunto de datos multimodal, multitarea, multilingüe y presentamos líneas base de SLU utilizando arquitecturas tanto en cascada como de extremo a extremo en varios escenarios de entrenamiento (cero disparos, pocos disparos y ajuste fino completo). Además, demostramos la idoneidad de Speech-MASSIVE para la evaluación de otras tareas como transcripción de habla, identificación de idioma y traducción de habla. El conjunto de datos, modelos y código están disponibles públicamente en: https://github.com/hlt-mt/Speech-MASSIVE
Los métodos basados en renderizado volumétrico diferenciable han logrado avances significativos en la síntesis de vistas novedosas. Por un lado, métodos innovadores han reemplazado la red Neural Radiance Fields (NeRF) con estructuras parametrizadas localmente, permitiendo renderizados de alta calidad en un tiempo razonable. Por otro lado, enfoques han utilizado el splatting diferenciable en lugar del trazado de rayos de NeRF para optimizar campos de radiancia rápidamente utilizando núcleos gaussianos, lo que permite una adaptación fina a la escena. Sin embargo, el trazado de rayos diferenciable de núcleos irregularmente espaciados ha sido escasamente explorado, mientras que el splatting, a pesar de permitir tiempos de renderizado rápidos, es susceptible a artefactos claramente visibles. Nuestro trabajo cierra esta brecha al proporcionar una formulación físicamente consistente de la radiancia emitida c y la densidad σ, descompuestas con funciones gaussianas asociadas con gaussianas/esféricas para la representación colorimétrica de todas las frecuencias. También introducimos un método que permite el trazado de rayos diferenciable de gaussianas distribuidas irregularmente utilizando un algoritmo que integra campos de radiancia por capas y aprovecha una estructura de BVH. Esto permite que nuestro enfoque se adapte finamente a la escena evitando los artefactos del splatting. Como resultado, logramos una calidad de renderizado superior en comparación con el estado del arte, manteniendo tiempos de entrenamiento razonables y alcanzando velocidades de inferencia de 25 FPS en el conjunto de datos de Blender. Página del proyecto con videos y código: https://raygauss.github.io/
Este documento presenta un enfoque para descomponer gráficos animados en sprites, un conjunto de elementos o capas básicas. Nuestro enfoque se basa en la optimización de los parámetros del sprite para ajustarse al video rasterizado. Para ser eficientes, asumimos texturas estáticas para los sprites para reducir el espacio de búsqueda y evitar artefactos utilizando un modelo previo de textura. Para acelerar aún más la optimización, introducimos la inicialización de los parámetros del sprite utilizando un modelo pre-entrenado de segmentación de objetos de video y la entrada del usuario de anotaciones de un solo fotograma. Para nuestro estudio, construimos el conjunto de datos de animación de Crello a partir de un servicio de diseño en línea y definimos métricas cuantitativas para medir la calidad de los sprites extraídos. Los experimentos muestran que nuestro método supera significativamente a los baselines para tareas de descomposición similares en términos del equilibrio calidad/eficiencia.
La separación de fuentes de audio cinematográfico (CASS) es una sub tarea bastante nueva de la separación de fuentes de audio. Una configuración típica de CASS es un problema de tres pistas, con el objetivo de separar la mezcla en la pista de diálogo (DX), la pista de música (MX) y la pista de efectos (FX). Sin embargo, en la práctica, existen varios casos límite ya que algunas fuentes de sonido no encajan claramente en ninguna de estas tres pistas, lo que hace necesario el uso de pistas auxiliares adicionales en la producción. Un caso límite muy común es la voz cantante en el audio cinematográfico, que puede pertenecer tanto a la DX como a la MX, dependiendo en gran medida del contexto cinematográfico. En este trabajo, demostramos una extensión muy directa de los modelos Bandit con decodificador dedicado y Banquet con decodificador único basado en consultas a un problema de cuatro pistas, tratando el diálogo no musical, la música instrumental, la voz cantante y los efectos como pistas separadas. Curiosamente, el modelo Banquet basado en consultas superó al modelo Bandit con decodificador dedicado. Hipotetizamos que esto se debe a una mejor alineación de características en el cuello de botella, como se impone por la capa FiLM agnóstica a la banda. El conjunto de datos y la implementación del modelo estarán disponibles en https://github.com/kwatcharasupat/source-separation-landing.