Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado, han superado nuestra capacidad para evaluar con precisión su calidad. No solo es difícil encontrar datos que permitan sondear adecuadamente propiedades específicas de los modelos, sino que evaluar la corrección de una generación de texto libre por sí misma representa un desafío. Para abordar esto, muchas evaluaciones ahora dependen del uso de los propios LLMs como jueces para calificar la calidad de las salidas de otros LLMs. Las evaluaciones suelen utilizar un único modelo grande como GPT-4. Si bien este método ha ganado popularidad, es costoso, se ha demostrado que introduce sesgos intramodelo, y en este trabajo encontramos que los modelos muy grandes a menudo no son necesarios. En su lugar, proponemos evaluar los modelos utilizando un Panel de Evaluadores LLM (PoLL, por sus siglas en inglés). A través de tres configuraciones distintas de jueces y abarcando seis conjuntos de datos diferentes, encontramos que el uso de un PoLL compuesto por un mayor número de modelos más pequeños supera a un único juez grande, exhibe menos sesgo intramodelo debido a su composición de familias de modelos disjuntas, y lo hace siendo más de siete veces menos costoso.
La decodificación especulativa ha demostrado su eficacia para acelerar la inferencia de modelos de lenguaje grandes mientras se mantiene una distribución de muestreo consistente. Sin embargo, el enfoque convencional de entrenar un modelo borrador separado para lograr una tasa de aceptación de tokens satisfactoria puede resultar costoso. Inspirándonos en el concepto de salida temprana, proponemos un novedoso marco de decodificación auto-especulativa llamado Kangaroo, que utiliza una subred superficial fija como modelo borrador automático, mientras que las capas restantes funcionan como el modelo objetivo más grande. Entrenamos un módulo adaptador ligero y eficiente sobre la subred para cerrar la brecha entre la capacidad de representación de la subred y la del modelo completo. Es importante destacar que la latencia de inferencia del modelo borrador automático puede dejar de ser insignificante en comparación con el modelo grande, lo que requiere estrategias para aumentar la tasa de aceptación de tokens mientras se minimizan los pasos de generación del modelo pequeño. Para abordar este desafío, introducimos un mecanismo adicional de salida temprana para generar tokens borradores. Específicamente, detenemos la predicción subsiguiente del modelo pequeño durante la fase de generación una vez que el nivel de confianza para el token actual cae por debajo de un umbral determinado. Experimentos exhaustivos en Spec-Bench demuestran la efectividad de Kangaroo. Bajo verificación de secuencia única, Kangaroo logra aceleraciones de hasta 1.68 veces en Spec-Bench, superando a Medusa-1 con un 88.7% menos de parámetros adicionales (67M en comparación con 591M). El código de Kangaroo está disponible en https://github.com/Equationliu/Kangaroo.
La excelencia en una amplia variedad de aplicaciones médicas plantea desafíos considerables para la IA, requiriendo razonamiento avanzado, acceso a conocimientos médicos actualizados y comprensión de datos multimodales complejos. Los modelos Gemini, con sólidas capacidades generales en razonamiento multimodal y de contexto extenso, ofrecen posibilidades emocionantes en medicina. Basándonos en estas fortalezas centrales de Gemini, presentamos Med-Gemini, una familia de modelos multimodales altamente capacitados especializados en medicina, con la capacidad de utilizar de manera fluida la búsqueda web y que pueden adaptarse eficientemente a nuevas modalidades mediante codificadores personalizados. Evaluamos Med-Gemini en 14 benchmarks médicos, estableciendo un nuevo estado del arte (SoTA) en 10 de ellos, y superamos a la familia de modelos GPT-4 en cada benchmark donde es posible una comparación directa, a menudo por un amplio margen. En el popular benchmark MedQA (USMLE), nuestro modelo Med-Gemini de mejor rendimiento alcanza un SoTA con un 91.1% de precisión, utilizando una novedosa estrategia de búsqueda guiada por incertidumbre. En 7 benchmarks multimodales, incluyendo NEJM Image Challenges y MMMU (salud y medicina), Med-Gemini supera a GPT-4V con un margen relativo promedio del 44.5%. Demostramos la efectividad de las capacidades de contexto extenso de Med-Gemini a través de un rendimiento SoTA en una tarea de recuperación de "aguja en un pajar" a partir de registros de salud desidentificados extensos y en la respuesta a preguntas sobre videos médicos, superando métodos personalizados previos utilizando solo aprendizaje en contexto. Finalmente, el rendimiento de Med-Gemini sugiere utilidad en el mundo real al superar a expertos humanos en tareas como la resumen de textos médicos, junto con demostraciones de un potencial prometedor para el diálogo médico multimodal, la investigación médica y la educación. En conjunto, nuestros resultados ofrecen evidencia convincente del potencial de Med-Gemini, aunque una evaluación rigurosa adicional será crucial antes de su implementación en el mundo real en este dominio crítico para la seguridad.
A pesar de los avances en los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos Multimodales de Gran Escala (LMMs), su integración en agentes encarnados con fundamento lingüístico y características humanas sigue siendo incompleta, lo que dificulta el desempeño de tareas complejas en entornos físicos de la vida real. Las integraciones existentes a menudo presentan un acceso limitado al código abierto, lo que obstaculiza el progreso colectivo en este campo. Presentamos LEGENT, una plataforma abierta y escalable para desarrollar agentes encarnados utilizando LLMs y LMMs. LEGENT ofrece un enfoque dual: un entorno 3D rico e interactivo con agentes comunicativos y accionables, combinado con una interfaz de usuario amigable, y una sofisticada pipeline de generación de datos que utiliza algoritmos avanzados para aprovechar la supervisión de mundos simulados a gran escala. En nuestros experimentos, un modelo incipiente de visión-lenguaje-acción entrenado con datos generados por LEGENT supera a GPT-4V en tareas encarnadas, demostrando capacidades prometedoras de generalización.
El diseño gráfico es crucial para diversas aplicaciones, incluyendo la producción de películas y el diseño de videojuegos. Para crear una escena de alta calidad, los diseñadores suelen necesitar pasar horas en software como Blender, donde podrían tener que intercalar y repetir operaciones, como conectar nodos de materiales, cientos de veces. Además, objetivos de diseño ligeramente diferentes pueden requerir secuencias completamente distintas, lo que dificulta la automatización. En este artículo, proponemos un sistema que aprovecha los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), como GPT-4V, para buscar de manera inteligente en el espacio de acciones de diseño y llegar a una solución que satisfaga la intención del usuario. Específicamente, diseñamos un generador de ediciones basado en visión y un evaluador de estados que trabajan juntos para encontrar la secuencia correcta de acciones que permita alcanzar el objetivo. Inspirados por el papel de la imaginación visual en el proceso de diseño humano, complementamos las capacidades de razonamiento visual de los VLMs con imágenes de referencia "imaginadas" generadas por modelos de generación de imágenes, proporcionando una base visual para descripciones de lenguaje abstracto. En este artículo, presentamos evidencia empírica que sugiere que nuestro sistema puede producir secuencias de edición en Blender simples pero tediosas para tareas como editar materiales procedimentales a partir de texto y/o imágenes de referencia, así como ajustar configuraciones de iluminación para renderizaciones de productos en escenas complejas.
Más allá de escalar modelos base con más datos o parámetros, los adaptadores ajustados ofrecen una alternativa para generar imágenes personalizadas de alta fidelidad a costos reducidos. Como tal, los adaptadores han sido ampliamente adoptados por comunidades de código abierto, acumulando una base de datos de más de 100K adaptadores, la mayoría de los cuales están altamente personalizados con descripciones insuficientes. Este artículo explora el problema de emparejar el prompt con un conjunto de adaptadores relevantes, basándose en trabajos recientes que destacan las mejoras de rendimiento al componer adaptadores. Presentamos Stylus, que selecciona y compone automáticamente adaptadores específicos para tareas basándose en las palabras clave del prompt. Stylus describe un enfoque de tres etapas que primero resume los adaptadores con descripciones y embeddings mejorados, recupera adaptadores relevantes y luego los ensambla según las palabras clave del prompt, verificando qué tan bien se ajustan al prompt. Para evaluar Stylus, desarrollamos StylusDocs, un conjunto de datos curado que incluye 75K adaptadores con embeddings precalculados. En nuestra evaluación en checkpoints populares de Stable Diffusion, Stylus logra una mayor eficiencia Pareto en CLIP-FID y es dos veces más preferido, tanto por humanos como por modelos multimodales como evaluadores, en comparación con el modelo base. Visita stylus-diffusion.github.io para más información.
Los sistemas robóticos autónomos capaces de aprender nuevas tareas de manipulación están preparados para transformar industrias, desde la manufactura hasta la automatización de servicios. Sin embargo, los métodos modernos (por ejemplo, VIP y R3M) aún enfrentan obstáculos significativos, destacándose la brecha de dominio entre las diferentes configuraciones robóticas y la escasez de ejecuciones exitosas de tareas dentro de espacios de acción específicos, lo que resulta en representaciones de tareas desalineadas y ambiguas. Presentamos Ag2Manip (Representaciones Agente-Agnósticas para Manipulación), un marco diseñado para superar estos desafíos mediante dos innovaciones clave: una representación visual agente-agnóstica novedosa derivada de videos de manipulación humana, donde los detalles específicos de las configuraciones se ocultan para mejorar la generalización; y una representación de acción agente-agnóstica que abstrae la cinemática de un robot a un proxy de agente universal, enfatizando las interacciones cruciales entre el efector final y el objeto. La validación empírica de Ag2Manip en benchmarks simulados como FrankaKitchen, ManiSkill y PartManip muestra un aumento del 325% en el rendimiento, logrado sin demostraciones específicas del dominio. Los estudios de ablación subrayan las contribuciones esenciales de las representaciones visuales y de acción para este éxito. Al extender nuestras evaluaciones al mundo real, Ag2Manip mejora significativamente las tasas de éxito en el aprendizaje por imitación del 50% al 77.5%, demostrando su efectividad y generalización tanto en entornos simulados como físicos.
El papel significativo de la indumentaria en la apariencia humana subraya la importancia de la digitalización de prendas para la creación de humanos digitales. Los avances recientes en la creación de contenido 3D son fundamentales para la creación de humanos digitales. Sin embargo, la generación de prendas a partir de guías textuales aún está en sus inicios. Presentamos un marco de generación de prendas 3D impulsado por texto, DressCode, que tiene como objetivo democratizar el diseño para principiantes y ofrecer un gran potencial en el diseño de moda, pruebas virtuales y creación de humanos digitales. Para nuestro marco, primero introducimos SewingGPT, una arquitectura basada en GPT que integra atención cruzada con incrustaciones condicionadas por texto para generar patrones de costura con guía textual. También adaptamos un Stable Diffusion preentrenado para la generación de texturas PBR basadas en mosaicos de alta calidad. Al aprovechar un modelo de lenguaje grande, nuestro marco genera prendas amigables para gráficos por computadora a través de la interacción en lenguaje natural. Nuestro método también facilita la finalización de patrones y la edición de texturas, simplificando el proceso para los diseñadores mediante una interacción fácil de usar. Con evaluaciones exhaustivas y comparaciones con otros métodos de vanguardia, nuestro método muestra la mejor calidad y alineación con las indicaciones de entrada. Los estudios de usuarios validan aún más nuestros resultados de renderizado de alta calidad, destacando su utilidad práctica y potencial en entornos de producción.