Artículos de investigación en IA seleccionados diariamente con traducciones
Este trabajo presenta un análisis de la efectividad de utilizar redes feed-forward superficiales estándar para imitar el comportamiento del mecanismo de atención en el modelo Transformer original, una arquitectura de vanguardia para tareas de secuencia a secuencia. Sustituimos elementos clave del mecanismo de atención en el Transformer con redes feed-forward simples, entrenadas utilizando los componentes originales mediante destilación de conocimiento. Nuestros experimentos, realizados en el conjunto de datos IWSLT2017, revelan la capacidad de estos "Transformers sin atención" para rivalizar con el rendimiento de la arquitectura original. A través de estudios de ablación rigurosos y experimentando con varios tipos y tamaños de redes de reemplazo, ofrecemos ideas que respaldan la viabilidad de nuestro enfoque. Esto no solo arroja luz sobre la adaptabilidad de las redes feed-forward superficiales para emular mecanismos de atención, sino que también subraya su potencial para simplificar arquitecturas complejas en tareas de secuencia a secuencia.
Los modelos generativos para la síntesis de objetos 3D han experimentado avances significativos con la incorporación de conocimiento previo extraído de modelos de difusión 2D. Sin embargo, persisten desafíos en forma de inconsistencias geométricas multi-vista y velocidades de generación lentas dentro de los marcos de síntesis 3D existentes. Esto puede atribuirse a dos factores: en primer lugar, la falta de abundante conocimiento geométrico a priori en la optimización, y en segundo lugar, el problema de entrelazamiento entre geometría y textura en los métodos convencionales de generación 3D. En respuesta, presentamos MetaDreamer, un enfoque de optimización en dos etapas que aprovecha un rico conocimiento previo 2D y 3D. En la primera etapa, nuestro énfasis está en optimizar la representación geométrica para garantizar la consistencia multi-vista y la precisión de los objetos 3D. En la segunda etapa, nos concentramos en ajustar finamente la geometría y optimizar la textura, logrando así un objeto 3D más refinado. Al aprovechar el conocimiento previo 2D y 3D en dos etapas respectivamente, mitigamos efectivamente la interdependencia entre geometría y textura. MetaDreamer establece objetivos de optimización claros para cada etapa, lo que resulta en un ahorro significativo de tiempo en el proceso de generación 3D. En última instancia, MetaDreamer puede generar objetos 3D de alta calidad basados en indicaciones textuales en menos de 20 minutos, y, hasta donde sabemos, es el método más eficiente para la generación de texto a 3D. Además, introducimos control de imagen en el proceso, mejorando la controlabilidad de la generación 3D. Evidencia empírica extensa confirma que nuestro método no solo es altamente eficiente, sino que también alcanza un nivel de calidad que está a la vanguardia de las técnicas actuales de generación 3D de última generación.
En este trabajo, demostramos que los modelos generativos de texto a imagen pueden "invertirse" para evaluar sus propias capacidades de comprensión texto-imagen de manera completamente automatizada. Nuestro método, llamado SelfEval, utiliza el modelo generativo para calcular la probabilidad de imágenes reales dadas indicaciones de texto, haciendo que el modelo generativo sea directamente aplicable a tareas discriminativas. Utilizando SelfEval, reutilizamos conjuntos de datos estándar creados para evaluar modelos discriminativos multimodales de texto-imagen para evaluar modelos generativos de manera detallada: evaluando su rendimiento en la vinculación de atributos, reconocimiento de colores, conteo, reconocimiento de formas y comprensión espacial. Hasta donde sabemos, SelfEval es la primera métrica automatizada que muestra un alto grado de concordancia para medir la fidelidad al texto con las evaluaciones humanas de referencia en múltiples modelos y benchmarks. Además, SelfEval nos permite evaluar modelos generativos en tareas desafiantes como la puntuación de imágenes en Winoground, donde demuestran un rendimiento competitivo frente a modelos discriminativos. También mostramos graves inconvenientes de las métricas automatizadas estándar, como el CLIP-score, para medir la fidelidad al texto en benchmarks como DrawBench, y cómo SelfEval evita estos problemas. Esperamos que SelfEval permita una evaluación automatizada fácil y confiable para modelos de difusión.
Aunque los transformadores de visión (ViTs) ofrecen un rendimiento escalable, los elevados costos computacionales (entrenamiento e inferencia) socavan su posición en aplicaciones industriales. La cuantización post-entrenamiento (PTQ), que ajusta los ViTs con un pequeño conjunto de datos y los ejecuta en un formato de baja precisión, aborda bien el problema de costos, pero desafortunadamente sufre mayores caídas de rendimiento en casos de menor precisión. En este artículo, presentamos I&S-ViT, un método novedoso que regula la PTQ de los ViTs de manera inclusiva y estable. I&S-ViT primero identifica dos problemas en la PTQ de los ViTs: (1) Ineficiencia de cuantización en el cuantizador log2 predominante para activaciones post-Softmax; (2) Paisaje de pérdida irregular y amplificado en la granularidad de cuantización de grano grueso para activaciones post-LayerNorm. Luego, I&S-ViT aborda estos problemas introduciendo: (1) Un novedoso cuantizador shift-uniform-log2 (SULQ) que incorpora un mecanismo de desplazamiento seguido de cuantización uniforme para lograr tanto una representación de dominio inclusiva como una aproximación precisa de la distribución; (2) Una estrategia de optimización suave en tres etapas (SOS) que combina las fortalezas de la cuantización por canal y por capa para permitir un aprendizaje estable. Evaluaciones exhaustivas en diversas tareas de visión validan la superioridad de I&S-ViT sobre los métodos existentes de PTQ para ViTs, particularmente en escenarios de baja precisión. Por ejemplo, I&S-ViT eleva el rendimiento de ViT-B de 3 bits en un impresionante 50.68%.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado mejoras significativas en habilidades de razonamiento y toma de decisiones, y pueden mantener conversaciones naturales con los usuarios. Muchos trabajos recientes buscan potenciar a los asistentes basados en LLMs con herramientas externas para que puedan acceder a información privada o actualizada y realizar acciones en nombre de los usuarios. Para medir mejor el rendimiento de estos asistentes, este artículo presenta ToolTalk, un benchmark que consiste en intenciones complejas de usuarios que requieren el uso de herramientas en múltiples pasos especificados a través de diálogos. ToolTalk contiene 28 herramientas agrupadas en 7 complementos, e incluye una implementación simulada completa de cada herramienta, permitiendo una evaluación totalmente automatizada de asistentes que dependen de retroalimentación de ejecución. ToolTalk también enfatiza herramientas que afectan externamente al mundo, en lugar de solo herramientas para consultar o buscar información. Evaluamos GPT-3.5 y GPT-4 en ToolTalk, obteniendo tasas de éxito del 26% y 50%, respectivamente. Nuestro análisis de los errores revela tres categorías principales y sugiere algunas direcciones futuras para la mejora. Publicamos ToolTalk en https://github.com/microsoft/ToolTalk.
Las políticas de los robots actuales muestran un rendimiento deficiente cuando se enfrentan al desafío de generalizar a entornos novedosos. La retroalimentación correctiva humana es una forma crucial de orientación para permitir dicha generalización. Sin embargo, adaptarse y aprender de correcciones humanas en línea es una tarea no trivial: no solo los robots necesitan recordar la retroalimentación humana a lo largo del tiempo para recuperar la información correcta en nuevos entornos y reducir la tasa de intervención, sino que también necesitarían ser capaces de responder a retroalimentaciones que pueden ser correcciones arbitrarias, desde preferencias humanas de alto nivel hasta ajustes de bajo nivel en los parámetros de las habilidades. En este trabajo, presentamos Distillation and Retrieval of Online Corrections (DROC), un sistema basado en modelos de lenguaje de gran escala (LLM) que puede responder a formas arbitrarias de retroalimentación en lenguaje natural, destilar conocimiento generalizable a partir de correcciones y recuperar experiencias pasadas relevantes basadas en similitudes textuales y visuales para mejorar el rendimiento en entornos novedosos. DROC es capaz de responder a una secuencia de correcciones en línea que abordan fallas tanto en planes de tareas de alto nivel como en primitivas de habilidades de bajo nivel. Demostramos que DROC destila efectivamente la información relevante de la secuencia de correcciones en línea en una base de conocimiento y recupera ese conocimiento en entornos con nuevas instancias de tareas u objetos. DROC supera a otras técnicas que generan directamente código de robot mediante LLM al utilizar solo la mitad del número total de correcciones necesarias en la primera ronda y requiere pocas o ninguna corrección después de dos iteraciones. Mostramos más resultados, videos, indicaciones y código en https://sites.google.com/stanford.edu/droc.