Artículos de investigación en IA seleccionados diariamente con traducciones
Introducimos un nuevo punto de referencia para evaluar las capacidades de juego de roles de los modelos de lenguaje. Nuestro enfoque aprovecha los propios modelos de lenguaje para emular a los usuarios en conversaciones dinámicas y multi-turno y para evaluar los diálogos resultantes. El marco consta de tres componentes principales: un modelo de jugador que asume un rol de personaje específico, un modelo interrogador que simula el comportamiento del usuario, y un modelo juez que evalúa la calidad de la conversación. Realizamos experimentos comparando evaluaciones automatizadas con anotaciones humanas para validar nuestro enfoque, demostrando fuertes correlaciones en múltiples criterios. Este trabajo proporciona una base para una evaluación robusta y dinámica de las capacidades del modelo en escenarios interactivos.
El rápido desarrollo de Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) para aplicaciones en salud ha generado llamados para una evaluación holística más allá de los benchmarks frecuentemente citados como el USMLE, para reflejar mejor el rendimiento en el mundo real. Si bien las evaluaciones en el mundo real son indicadores valiosos de utilidad, a menudo van rezagadas respecto al ritmo de evolución de los LLMs, lo que probablemente vuelva obsoletos los hallazgos al momento de su implementación. Esta desconexión temporal hace necesaria una evaluación integral inicial que pueda guiar la selección de modelos para aplicaciones clínicas específicas. Presentamos MEDIC, un marco que evalúa LLMs a lo largo de cinco dimensiones críticas de competencia clínica: razonamiento médico, ética y sesgo, comprensión de datos e idioma, aprendizaje en contexto y seguridad clínica. MEDIC cuenta con un novedoso marco de contraste que cuantifica el rendimiento de los LLMs en áreas como cobertura y detección de alucinaciones, sin necesidad de salidas de referencia. Aplicamos MEDIC para evaluar LLMs en preguntas y respuestas médicas, seguridad, resumen, generación de notas y otras tareas. Nuestros resultados muestran disparidades de rendimiento entre tamaños de modelos, modelos base frente a modelos ajustados médicamente, y tienen implicaciones en la selección de modelos para aplicaciones que requieren fortalezas específicas del modelo, como baja alucinación o menor costo de inferencia. La evaluación multifacética de MEDIC revela estos compromisos de rendimiento, cerrando la brecha entre capacidades teóricas e implementación práctica en entornos de salud, asegurando que se identifiquen y adapten los modelos más prometedores para diversas aplicaciones en salud.
A pesar del potencial de los agentes basados en modelos de lenguaje para resolver tareas del mundo real como la navegación web, los métodos actuales aún tienen dificultades con tareas a largo plazo que implican trayectorias de acciones complejas. En contraste, los humanos pueden resolver de manera flexible tareas complejas aprendiendo flujos de trabajo reutilizables a partir de experiencias pasadas y utilizando estos para guiar acciones futuras. Para construir agentes que puedan beneficiarse de este proceso de manera similar, presentamos la Memoria de Flujo de Trabajo del Agente (AWM), un método para inducir rutinas comúnmente reutilizadas, es decir, flujos de trabajo, y proporcionar selectivamente flujos de trabajo al agente para guiar generaciones posteriores. AWM se aplica de manera flexible tanto en escenarios offline como online, donde los agentes inducen flujos de trabajo a partir de ejemplos de entrenamiento de antemano o de consultas de prueba sobre la marcha. Experimentamos en dos importantes referencias de navegación web: Mind2Web y WebArena, que cubren colectivamente 1000+ tareas de 200+ dominios que incluyen viajes, compras y redes sociales, entre otros. AWM mejora sustancialmente los resultados base en un 24.6% y un 51.1% en la tasa de éxito relativa en Mind2Web y WebArena, al tiempo que reduce el número de pasos necesarios para resolver con éxito las tareas de WebArena. Además, AWM online generaliza de manera robusta en evaluaciones cruzadas de tareas, sitios web y dominios, superando a los resultados base de 8.9 a 14.0 puntos absolutos a medida que aumentan las brechas de distribución de tareas de entrenamiento y prueba.
A pesar de los enormes avances en la generación de imágenes a 3D, los métodos existentes aún tienen dificultades para producir imágenes consistentes en múltiples vistas con texturas de alta resolución en detalle, especialmente en el paradigma de difusión 2D que carece de conciencia 3D. En este trabajo, presentamos el modelo de Imagen a 3D de alta resolución (Hi3D), un nuevo paradigma basado en difusión de video que redefine una imagen única a imágenes en múltiples vistas como generación de imágenes secuenciales con conciencia 3D (es decir, generación de video orbital). Esta metodología explora el conocimiento subyacente de consistencia temporal en el modelo de difusión de video que se generaliza bien a la consistencia geométrica en múltiples vistas en la generación 3D. Técnicamente, Hi3D primero potencia el modelo pre-entrenado de difusión de video con una prioridad consciente de 3D (condición de posición de la cámara), produciendo imágenes en múltiples vistas con detalles de textura de baja resolución. Se aprende un refinador de video a video consciente de 3D para escalar aún más las imágenes en múltiples vistas con detalles de textura de alta resolución. Estas imágenes en múltiples vistas de alta resolución se amplían aún más con vistas novedosas a través de Splatting Gaussiano 3D, que finalmente se aprovechan para obtener mallas de alta fidelidad a través de la reconstrucción 3D. Experimentos extensos tanto en síntesis de vistas novedosas como en reconstrucción de vistas individuales demuestran que nuestro Hi3D logra producir imágenes de consistencia en múltiples vistas superiores con texturas altamente detalladas. El código fuente y los datos están disponibles en https://github.com/yanghb22-fdu/Hi3D-Official.
Los Transformers de atención lineal y sus variantes con compuertas, conocidos por permitir el entrenamiento paralelo y una inferencia recurrente eficiente, aún se quedan cortos en tareas intensivas en recuperación en comparación con los Transformers tradicionales y requieren recursos significativos para el entrenamiento desde cero. Este artículo presenta la Atención con Ranuras con Compuertas (GSA), que mejora la Atención con Control de Memoria Limitada (ABC) al incorporar un mecanismo de compuerta inspirado en la Atención Lineal con Compuertas (GLA). Esencialmente, GSA consta de dos capas de GLA conectadas a través de una función softmax, utilizando lectura de memoria consciente del contexto y olvido adaptativo para mejorar la capacidad de memoria manteniendo un tamaño compacto de estado recurrente. Este diseño mejora considerablemente la eficiencia tanto en el entrenamiento como en la inferencia a través del algoritmo de entrenamiento eficiente en hardware de GLA y el tamaño reducido del estado. Además, conservar la operación softmax es particularmente beneficioso en entornos de "ajuste fino de Transformers preentrenados a RNNs" (T2R), reduciendo la necesidad de un extenso entrenamiento desde cero. Experimentos extensos confirman el rendimiento superior de GSA en escenarios que requieren recuperación contextual y en entornos T2R.
La técnica de estímulo de Cadena de Pensamiento (CoT) revela que los grandes modelos de lenguaje son capaces de realizar un razonamiento complejo a través de pasos intermedios. La técnica de estímulo CoT se categoriza principalmente en tres enfoques. El primer enfoque utiliza estímulos directos como "Pensemos paso a paso" para generar un proceso de pensamiento secuencial antes de proporcionar una respuesta. El segundo enfoque emplea demostraciones humanas elaboradas paso a paso para guiar el proceso de razonamiento del modelo. El tercero automatiza la generación de demostraciones razonadas con el enunciado "Pensemos paso a paso". Este enfoque a veces conduce a errores de razonamiento, resaltando la necesidad de diversificar las demostraciones para mitigar sus efectos engañosos. Sin embargo, las demostraciones diversas plantean desafíos para representaciones efectivas. En este trabajo, proponemos ECHO, un método de estímulo de Cadena de Pensamiento autoarmonizado. Consolida diversos caminos de solución en un patrón de solución uniforme y efectivo. ECHO demuestra el mejor rendimiento general en tres dominios de razonamiento.
gsplat es una biblioteca de código abierto diseñada para entrenar y desarrollar métodos de Splatting Gaussiano. Cuenta con una interfaz con enlaces a Python compatibles con la biblioteca PyTorch y un núcleo con CUDA altamente optimizado. gsplat ofrece numerosas características que mejoran la optimización de modelos de Splatting Gaussiano, que incluyen mejoras de optimización para velocidad, memoria y tiempos de convergencia. Los resultados experimentales demuestran que gsplat logra hasta un 10% menos de tiempo de entrenamiento y 4 veces menos memoria que la implementación original. Utilizado en varios proyectos de investigación, gsplat se mantiene activamente en GitHub. El código fuente está disponible en https://github.com/nerfstudio-project/gsplat bajo la Licencia Apache 2.0. Agradecemos las contribuciones de la comunidad de código abierto.
"Una idea no es más ni menos que una nueva combinación de elementos antiguos" (Young, J.W.). La amplia adopción de Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) y ChatGPT de acceso público han marcado un punto de inflexión significativo en la integración de la Inteligencia Artificial (IA) en la vida cotidiana de las personas. Este estudio explora la capacidad de los LLMs para generar ideas de investigación novedosas basadas en información de artículos de investigación. Realizamos un examen exhaustivo de 4 LLMs en cinco dominios (por ejemplo, Química, Computación, Economía, Medicina y Física). Descubrimos que las ideas de investigación futuras generadas por Claude-2 y GPT-4 están más alineadas con la perspectiva del autor que las de GPT-3.5 y Gemini. También encontramos que Claude-2 genera ideas de investigación futuras más diversas que GPT-4, GPT-3.5 y Gemini 1.0. Además, realizamos una evaluación humana de la novedad, relevancia y viabilidad de las ideas de investigación futuras generadas. Esta investigación ofrece información sobre el papel en evolución de los LLMs en la generación de ideas, destacando tanto su capacidad como sus limitaciones. Nuestro trabajo contribuye a los esfuerzos en curso para evaluar y utilizar modelos de lenguaje en la generación de ideas de investigación futuras. Ponemos nuestros conjuntos de datos y códigos a disposición del público.
Proponemos GauFace, una novedosa representación de Splatting Gaussiano, diseñada para la animación eficiente y renderizado de activos faciales basados en física. Aprovechando fuertes prioridades geométricas y optimización restringida, GauFace garantiza una representación Gaussiana ordenada y estructurada, ofreciendo alta fidelidad e interacción facial en tiempo real de 30 fps a 1440p en una plataforma móvil Snapdragon 8 Gen 2. Luego, presentamos TransGS, un transformador de difusión que traduce instantáneamente activos faciales basados en física a las correspondientes representaciones de GauFace. Específicamente, adoptamos un flujo de trabajo basado en parches para manejar eficazmente el gran número de gaussianas. También introducimos un novedoso esquema de muestreo alineado con píxeles con codificación posicional UV para garantizar el rendimiento y la calidad de renderizado de los activos de GauFace generados por nuestro TransGS. Una vez entrenado, TransGS puede traducir instantáneamente activos faciales con condiciones de iluminación a la representación de GauFace. Con las ricas modalidades de condicionamiento, también permite capacidades de edición y animación que recuerdan a los flujos de trabajo de CG tradicionales. Realizamos extensas evaluaciones y estudios de usuarios, comparados con renderizadores tradicionales en línea y fuera de línea, así como métodos de renderizado neuronal recientes, que demuestran el rendimiento superior de nuestro enfoque para el renderizado de activos faciales. También mostramos diversas aplicaciones inmersivas de activos faciales utilizando nuestro enfoque TransGS y la representación de GauFace, en diversas plataformas como PC, teléfonos e incluso auriculares de realidad virtual.
Presentamos un marco para aprender a generar música de fondo a partir de entradas de video. A diferencia de los trabajos existentes que dependen de anotaciones musicales simbólicas, las cuales son limitadas en cantidad y diversidad, nuestro método aprovecha videos a gran escala acompañados de música de fondo. Esto permite que nuestro modelo aprenda a generar música realista y diversa. Para lograr este objetivo, desarrollamos un Transformador generativo video-música con un novedoso esquema de alineación semántica video-música. Nuestro modelo utiliza un objetivo de aprendizaje conjunto autoregresivo y contrastivo, que fomenta la generación de música alineada con el contenido de video de alto nivel. También introducimos un novedoso esquema de alineación video-compás para emparejar los compases de la música generada con los movimientos de bajo nivel en el video. Por último, para capturar señales visuales detalladas en un video necesarias para la generación realista de música de fondo, introducimos una nueva arquitectura de codificador de video temporal, lo que nos permite procesar eficientemente videos que consisten en muchos fotogramas muestreados densamente. Entrenamos nuestro marco en nuestro nuevo conjunto de datos DISCO-MV, que consta de 2.2 millones de muestras de video-música, que es órdenes de magnitud más grande que cualquier conjunto de datos previo utilizado para la generación de música de video. Nuestro método supera a los enfoques existentes en los conjuntos de datos DISCO-MV y MusicCaps según varios métricas de evaluación de generación de música, incluida la evaluación humana. Los resultados están disponibles en https://genjib.github.io/project_page/VMAs/index.html
Los últimos años han sido testigos de un aumento en el desarrollo de modelos fundamentales de proteínas, mejorando significativamente el rendimiento en la predicción de proteínas y tareas generativas que van desde la predicción de estructuras 3D y diseño de proteínas hasta dinámicas conformacionales. Sin embargo, las capacidades y limitaciones asociadas con estos modelos siguen siendo poco comprendidas debido a la falta de un marco de evaluación unificado. Para llenar este vacío, presentamos ProteinBench, un marco de evaluación integral diseñado para mejorar la transparencia de los modelos fundamentales de proteínas. Nuestro enfoque consta de tres componentes clave: (i) Una clasificación taxonómica de tareas que abarca ampliamente los principales desafíos en el dominio de las proteínas, basada en las relaciones entre diferentes modalidades de proteínas; (ii) Un enfoque de evaluación multi-métrico que evalúa el rendimiento en cuatro dimensiones clave: calidad, novedad, diversidad y robustez; y (iii) Análisis en profundidad desde varios objetivos de usuario, proporcionando una visión holística del rendimiento del modelo. Nuestra evaluación exhaustiva de los modelos fundamentales de proteínas revela varios hallazgos clave que arrojan luz sobre sus capacidades y limitaciones actuales. Para promover la transparencia y facilitar una mayor investigación, publicamos el conjunto de datos de evaluación, el código y un tablero público para un análisis adicional y un kit de herramientas modular general. Nuestro objetivo es que ProteinBench sea un referente en constante evolución para establecer un marco de evaluación estandarizado y profundo para los modelos fundamentales de proteínas, impulsando su desarrollo y aplicación al mismo tiempo que fomenta la colaboración dentro del campo.
Dado que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han avanzado significativamente en la escritura de código, ¿pueden ahora ser utilizados para reproducir de manera autónoma resultados de repositorios de investigación? Tal capacidad sería de gran ayuda para la comunidad investigadora, ayudando a validar, comprender y ampliar trabajos previos. Para avanzar hacia este objetivo, presentamos SUPER, el primer banco de pruebas diseñado para evaluar la capacidad de los LLMs para configurar y ejecutar tareas de repositorios de investigación. SUPER tiene como objetivo capturar los desafíos realistas a los que se enfrentan los investigadores que trabajan con repositorios de investigación de Aprendizaje Automático (ML, por sus siglas en inglés) y Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Nuestro banco de pruebas consta de tres conjuntos de problemas distintos: 45 problemas de extremo a extremo con soluciones expertas anotadas, 152 subproblemas derivados del conjunto de expertos que se centran en desafíos específicos (por ejemplo, configurar un entrenador), y 602 problemas generados automáticamente para un desarrollo a mayor escala. Introducimos diversas medidas de evaluación para evaluar tanto el éxito de la tarea como el progreso, utilizando soluciones de referencia cuando estén disponibles o aproximaciones en caso contrario. Mostramos que los enfoques de vanguardia tienen dificultades para resolver estos problemas, siendo el mejor modelo (GPT-4o) capaz de resolver solo el 16.3% del conjunto de extremo a extremo y el 46.1% de los escenarios. Esto ilustra el desafío de esta tarea y sugiere que SUPER puede servir como un recurso valioso para la comunidad para realizar y medir el progreso.
Este documento presenta MVLLaVA, un agente inteligente diseñado para tareas de síntesis de vistas novedosas. MVLLaVA integra múltiples modelos de difusión multi-vista con un gran modelo multimodal, LLaVA, lo que le permite manejar eficientemente una amplia gama de tareas. MVLLaVA representa una plataforma versátil y unificada que se adapta a diversos tipos de entradas, incluyendo una sola imagen, una leyenda descriptiva o un cambio específico en la azimut de visualización, guiado por instrucciones en lenguaje para la generación de puntos de vista. Elaboramos cuidadosamente plantillas de instrucciones específicas para cada tarea, las cuales se utilizan posteriormente para ajustar finamente LLaVA. Como resultado, MVLLaVA adquiere la capacidad de generar imágenes de vistas novedosas basadas en instrucciones de usuario, demostrando su flexibilidad en diversas tareas. Se realizan experimentos para validar la efectividad de MVLLaVA, demostrando su rendimiento robusto y versatilidad al abordar diversos desafíos de síntesis de vistas novedosas.
Los modelos generativos entrenados a gran escala pueden ahora producir texto, video y, más recientemente, datos científicos como estructuras cristalinas. En aplicaciones de enfoques generativos a la ciencia de materiales, y en particular a las estructuras cristalinas, la orientación del experto en el dominio en forma de instrucciones de alto nivel puede ser esencial para que un sistema automatizado genere cristales candidatos viables para investigaciones posteriores. En este trabajo, formulamos la generación de lenguaje a estructura de extremo a extremo como un problema de optimización multiobjetivo, y proponemos la Búsqueda Jerárquica Generativa de Materiales (GenMS) para la generación controlable de estructuras cristalinas. GenMS consta de (1) un modelo de lenguaje que recibe lenguaje natural de alto nivel como entrada y genera información textual intermedia sobre un cristal (por ejemplo, fórmulas químicas), y (2) un modelo de difusión que recibe información intermedia como entrada y genera estructuras cristalinas de valor continuo a bajo nivel. GenMS además utiliza una red neuronal gráfica para predecir propiedades (por ejemplo, energía de formación) a partir de las estructuras cristalinas generadas. Durante la inferencia, GenMS aprovecha los tres componentes para realizar una búsqueda en árbol hacia adelante sobre el espacio de posibles estructuras. Los experimentos muestran que GenMS supera a otras alternativas de usar directamente modelos de lenguaje para generar estructuras tanto en satisfacer las solicitudes del usuario como en generar estructuras de baja energía. Confirmamos que GenMS es capaz de generar estructuras cristalinas comunes como perovskitas dobles o espinelas, únicamente a partir de entradas de lenguaje natural, y por lo tanto puede sentar las bases para una generación de estructuras más complejas en un futuro cercano.