Artículos de investigación en IA seleccionados diariamente con traducciones
Dadas dos imágenes que representan a una persona y una prenda de vestir usada por otra persona, nuestro objetivo es generar una visualización de cómo podría verse la prenda en la persona de entrada. Un desafío clave es sintetizar una visualización fotorrealista que preserve los detalles de la prenda, mientras se deforma la prenda para adaptarse a un cambio significativo en la postura y la forma del cuerpo entre los sujetos. Métodos anteriores se centran en la preservación de los detalles de la prenda sin una variación efectiva de la postura y la forma, o permiten probarse la prenda con la forma y postura deseadas pero carecen de detalles en la prenda. En este artículo, proponemos una arquitectura basada en difusión que unifica dos UNets (denominada Parallel-UNet), lo que nos permite preservar los detalles de la prenda y deformarla para un cambio significativo en la postura y el cuerpo en una sola red. Las ideas clave detrás de Parallel-UNet incluyen: 1) la prenda se deforma implícitamente mediante un mecanismo de atención cruzada, 2) la deformación de la prenda y la fusión con la persona ocurren como parte de un proceso unificado en lugar de una secuencia de dos tareas separadas. Los resultados experimentales indican que TryOnDiffusion logra un rendimiento de vanguardia tanto cualitativa como cuantitativamente.
La naturaleza reflectante del ojo humano es una fuente de información subestimada sobre cómo se ve el mundo que nos rodea. Al capturar imágenes de los ojos de una persona en movimiento, podemos recolectar múltiples vistas de una escena fuera del campo de visión directo de la cámara a través de los reflejos en los ojos. En este artículo, reconstruimos una escena 3D más allá de la línea de visión de la cámara utilizando imágenes de retrato que contienen reflejos en los ojos. Esta tarea es desafiante debido a 1) la dificultad de estimar con precisión las poses de los ojos y 2) la apariencia entrelazada del iris del ojo y los reflejos de la escena. Nuestro método refina conjuntamente las poses de la córnea, el campo de radiancia que representa la escena y la textura del iris del observador. Además, proponemos un prior de regularización simple sobre el patrón de textura del iris para mejorar la calidad de la reconstrucción. A través de varios experimentos en capturas sintéticas y del mundo real que incluyen personas con diversos colores de ojos, demostramos la viabilidad de nuestro enfoque para recuperar escenas 3D utilizando reflejos en los ojos.
Los modelos de lenguaje de gran escala para código (Code LLMs), como StarCoder, han demostrado un rendimiento excepcional en tareas relacionadas con código. Sin embargo, la mayoría de los modelos existentes se preentrenan únicamente con grandes volúmenes de datos de código en bruto, sin un ajuste fino mediante instrucciones. En este artículo, presentamos WizardCoder, que potencia a los Code LLMs con un ajuste fino de instrucciones complejas, adaptando el método Evol-Instruct al dominio del código. A través de experimentos exhaustivos en cuatro destacados benchmarks de generación de código, concretamente HumanEval, HumanEval+, MBPP y DS-1000, revelamos las capacidades excepcionales de nuestro modelo. Este supera a todos los demás Code LLMs de código abierto por un margen considerable. Además, nuestro modelo incluso supera a los LLMs cerrados más grandes, como Claude de Anthropic y Bard de Google, en HumanEval y HumanEval+. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/nlpxucan/WizardLM.
Las investigaciones recientes sobre los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han llevado a avances notables en asistentes de IA generales para el Procesamiento del Lenguaje Natural (NLP). Algunos estudios han explorado además el uso de LLMs para planificar e invocar modelos o APIs con el fin de abordar consultas de usuarios multimodales más generales. A pesar de este progreso, las tareas visuales complejas siguen siendo un desafío debido a la naturaleza diversa de estas tareas. Esta diversidad se refleja en dos aspectos: 1) Rutas de razonamiento. Para muchas aplicaciones de la vida real, es difícil descomponer con precisión una consulta simplemente examinando la consulta en sí. Por lo general, se requiere una planificación basada en el contenido visual específico y los resultados de cada paso. 2) Entradas y resultados intermedios flexibles. Las formas de entrada pueden ser flexibles en casos del mundo real, y no solo involucran una sola imagen o video, sino una mezcla de videos e imágenes, por ejemplo, una imagen de la vista del usuario con algunos videos de referencia. Además, un proceso de razonamiento complejo también generará resultados intermedios multimodales diversos, como narraciones de video, clips de video segmentados, etc. Para abordar estos casos generales, proponemos un asistente de IA multimodal, AssistGPT, con un enfoque de razonamiento intercalado entre código y lenguaje llamado Planificar, Ejecutar, Inspeccionar y Aprender (PEIL, por sus siglas en inglés) para integrar LLMs con diversas herramientas. Específicamente, el Planificador es capaz de usar lenguaje natural para decidir qué herramienta en el Ejecutor debe actuar a continuación, basándose en el progreso actual del razonamiento. El Inspector es un gestor de memoria eficiente que ayuda al Planificador a proporcionar la información visual adecuada a una herramienta específica. Finalmente, dado que todo el proceso de razonamiento es complejo y flexible, se ha diseñado un Aprendiz para permitir que el modelo explore y descubra de manera autónoma la solución óptima. Realizamos experimentos en los benchmarks A-OKVQA y NExT-QA, logrando resultados de vanguardia. Además, demostraciones muestran la capacidad de nuestro sistema para manejar preguntas mucho más complejas que las encontradas en los benchmarks.
La Distilación de Conocimiento (KD, por sus siglas en inglés) es una técnica prometedora para reducir la alta demanda computacional de los modelos de lenguaje grandes (LLMs). Sin embargo, los métodos anteriores de KD se aplican principalmente a modelos de clasificación de caja blanca o al entrenamiento de modelos pequeños para imitar APIs de modelos de caja negra como ChatGPT. Cómo destilar efectivamente el conocimiento de LLMs generativos de caja blanca sigue siendo un área poco explorada, lo cual se vuelve cada vez más importante con el auge de los LLMs. En este trabajo, proponemos MiniLLM, que destila modelos de lenguaje más pequeños a partir de modelos de lenguaje generativos más grandes. Primero, reemplazamos el objetivo de divergencia de Kullback-Leibler (KLD) directa en los enfoques estándar de KD con KLD inversa, que es más adecuada para la KD en modelos de lenguaje generativos, para evitar que el modelo estudiante sobreestime las regiones de baja probabilidad de la distribución del modelo maestro. Luego, derivamos un enfoque de optimización efectivo para aprender este objetivo. Experimentos extensos en el contexto de seguimiento de instrucciones muestran que los modelos MiniLLM generan respuestas más precisas con una calidad general más alta, menor sesgo de exposición, mejor calibración y un mayor rendimiento en la generación de textos largos. Nuestro método también es escalable para diferentes familias de modelos con parámetros que van desde 120M hasta 13B. Publicaremos nuestro código y puntos de control del modelo en https://aka.ms/MiniLLM.
El rendimiento sin precedentes de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) exige mejoras en las evaluaciones. En lugar de simplemente explorar la amplitud de las capacidades de los LLMs, creemos que diseños meticulosos y reflexivos son esenciales para evaluaciones exhaustivas, imparciales y aplicables. Dada la importancia del conocimiento del mundo para los LLMs, construimos un punto de referencia de evaluación orientado al conocimiento para LLMs (KoLA), en el cual diseñamos cuidadosamente tres factores cruciales: (1) Para el modelado de capacidades, imitamos la cognición humana para formar una taxonomía de cuatro niveles de habilidades relacionadas con el conocimiento, abarcando 19 tareas. (2) Para los datos, con el fin de garantizar comparaciones justas, utilizamos tanto Wikipedia, un corpus ampliamente preentrenado por los LLMs, como corpus emergentes recopilados continuamente, con el objetivo de evaluar la capacidad para manejar datos no vistos y conocimiento en evolución. (3) Para los criterios de evaluación, adoptamos un sistema contrastivo, que incluye puntuaciones estándar generales para una mejor comparabilidad numérica entre tareas y modelos, y una métrica única de autocontraste para evaluar automáticamente la alucinación de conocimiento. Evaluamos 21 LLMs de código abierto y comerciales y obtenemos hallazgos interesantes. El conjunto de datos KoLA y la tabla de clasificación de participación abierta se han publicado públicamente en https://kola.xlore.cn y se actualizarán continuamente para proporcionar referencias para el desarrollo de LLMs y sistemas relacionados con el conocimiento.
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) fundacionales, como GPT-4, representan una revolución en la inteligencia artificial debido a sus aplicaciones en el mundo real a través del procesamiento del lenguaje natural. Sin embargo, también plantean riesgos significativos, como la presencia de texto sesgado, privado o dañino, y la inclusión no autorizada de material protegido por derechos de autor. Presentamos h2oGPT, un conjunto de repositorios de código de código abierto para la creación y uso de modelos de lenguaje de gran escala (LLM) basados en Transformadores Preentrenados Generativos (GPT). El objetivo de este proyecto es crear la mejor alternativa de código abierto verdaderamente abierta a los GPT de código cerrado. En colaboración con y como parte de la increíble e imparable comunidad de código abierto, liberamos varios modelos h2oGPT ajustados, que van desde 7 hasta 40 mil millones de parámetros, listos para uso comercial bajo licencias completamente permisivas Apache 2.0. Incluido en nuestra publicación está la búsqueda de documentos 100% privada utilizando lenguaje natural. Los modelos de lenguaje de código abierto impulsan el desarrollo de la inteligencia artificial y la hacen más accesible y confiable. Reducen las barreras de entrada, permitiendo que personas y grupos adapten estos modelos a sus necesidades. Esta apertura fomenta la innovación, la transparencia y la equidad. Se necesita una estrategia de código abierto para compartir los beneficios de la inteligencia artificial de manera justa, y H2O.ai continuará democratizando la inteligencia artificial y los modelos de lenguaje de gran escala.
Presentamos DreamHuman, un método para generar modelos realistas de avatares humanos 3D animables únicamente a partir de descripciones textuales. Los métodos recientes de texto a 3D han logrado avances considerables en la generación, pero aún carecen de aspectos importantes. El control y, a menudo, la resolución espacial siguen siendo limitados, los métodos existentes producen modelos humanos 3D fijos en lugar de animados, y la consistencia antropométrica para estructuras complejas como las personas sigue siendo un desafío. DreamHuman conecta modelos de síntesis de imágenes a partir de texto a gran escala, campos de radiancia neural y modelos estadísticos del cuerpo humano en un marco novedoso de modelado y optimización. Esto hace posible generar avatares humanos 3D dinámicos con texturas de alta calidad y deformaciones de superficie específicas de la instancia aprendidas. Demostramos que nuestro método es capaz de generar una amplia variedad de modelos humanos 3D realistas y animables a partir de texto. Nuestros modelos 3D tienen apariencias, vestimentas, tonos de piel y formas corporales diversas, y superan significativamente tanto a los enfoques genéricos de texto a 3D como a los generadores de avatares 3D basados en texto anteriores en fidelidad visual. Para más resultados y animaciones, visite nuestro sitio web en https://dream-human.github.io.
Aunque los grandes modelos de lenguaje (LLMs) ajustados mediante instrucciones han demostrado capacidades notables en diversas tareas de PLN, su efectividad en otras modalidades de datos más allá del texto no ha sido completamente estudiada. En este trabajo, proponemos Macaw-LLM, un novedoso LLM multimodal que integra de manera fluida información visual, auditiva y textual. Macaw-LLM consta de tres componentes principales: un módulo de modalidad para codificar datos multimodales, un módulo cognitivo para aprovechar LLMs preentrenados y un módulo de alineación para armonizar representaciones diversas. Nuestro innovador módulo de alineación conecta de manera fluida las características multimodales con las características textuales, simplificando el proceso de adaptación desde los módulos de modalidad al módulo cognitivo. Además, construimos un conjunto de datos de instrucciones multimodal a gran escala en términos de diálogos multiturno, que incluye 69K instancias de imágenes y 50K instancias de videos. Hemos puesto a disposición pública nuestros datos, código y modelo, con la esperanza de que puedan allanar el camino para futuras investigaciones en LLMs multimodales y expandir las capacidades de los LLMs para manejar diversas modalidades de datos y abordar escenarios complejos del mundo real.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances emocionantes en la adquisición de diversas capacidades nuevas a través del aprendizaje en contexto, que van desde el razonamiento lógico hasta la escritura de código. Los investigadores en robótica también han explorado el uso de LLMs para mejorar las capacidades de control robótico. Sin embargo, dado que las acciones de bajo nivel de los robots dependen del hardware y están subrepresentadas en los corpus de entrenamiento de los LLMs, los esfuerzos existentes para aplicar LLMs a la robótica han tratado principalmente a los LLMs como planificadores semánticos o han dependido de primitivas de control diseñadas por humanos para interactuar con el robot. Por otro lado, se ha demostrado que las funciones de recompensa son representaciones flexibles que pueden optimizarse para políticas de control con el fin de lograr diversas tareas, mientras que su riqueza semántica las hace adecuadas para ser especificadas por LLMs. En este trabajo, introducimos un nuevo paradigma que aprovecha esta idea utilizando LLMs para definir parámetros de recompensa que pueden optimizarse y lograr una variedad de tareas robóticas. Al utilizar la recompensa como la interfaz intermedia generada por los LLMs, podemos cerrar eficazmente la brecha entre las instrucciones o correcciones de lenguaje de alto nivel y las acciones de bajo nivel del robot. Al mismo tiempo, al combinar esto con un optimizador en tiempo real, MuJoCo MPC, se potencia una experiencia interactiva de creación de comportamientos donde los usuarios pueden observar inmediatamente los resultados y proporcionar retroalimentación al sistema. Para evaluar sistemáticamente el rendimiento de nuestro método propuesto, diseñamos un total de 17 tareas para un robot cuadrúpedo simulado y un robot manipulador diestro. Demostramos que nuestro método propuesto aborda con éxito el 90% de las tareas diseñadas, mientras que una línea base que utiliza habilidades primitivas como interfaz con "Código-como-políticas" logra el 50% de las tareas. Además, validamos nuestro método en un brazo robótico real, donde habilidades de manipulación complejas, como el empuje no prensil, emergen a través de nuestro sistema interactivo.
Introducimos la anticipación: un método para construir un modelo generativo controlable de un proceso puntual temporal (el proceso de eventos) condicionado de manera asíncrona por realizaciones de un segundo proceso correlacionado (el proceso de control). Logramos esto intercalando secuencias de eventos y controles, de modo que los controles aparezcan después de tiempos de parada en la secuencia de eventos. Este trabajo está motivado por problemas que surgen en el control de la generación de música simbólica. Nos enfocamos en tareas de control de relleno, donde los controles son un subconjunto de los eventos mismos, y la generación condicional completa una secuencia de eventos dados los eventos de control fijos. Entrenamos modelos de relleno anticipatorio utilizando el amplio y diverso conjunto de datos Lakh MIDI. Estos modelos igualan el rendimiento de los modelos autorregresivos para la generación de música con indicaciones, con la capacidad adicional de realizar tareas de control de relleno, incluido el acompañamiento. Evaluadores humanos informan que un modelo anticipatorio produce acompañamientos con una musicalidad similar incluso a la música compuesta por humanos en un clip de 20 segundos.
Al resolver tareas de toma de decisiones, los humanos suelen depender de información proveniente de dos fuentes clave: (1) Datos históricos de políticas, que proporcionan repeticiones de interacciones con el entorno, y (2) Perspectivas analíticas en forma de lenguaje natural, que revelan el invaluable proceso de pensamiento o consideraciones estratégicas. A pesar de esto, la mayoría de las investigaciones previas se centran en solo una fuente: o bien utilizan exclusivamente repeticiones históricas para aprender directamente funciones de política o valor, o se enfocan en el entrenamiento de modelos de lenguaje utilizando únicamente corpus lingüísticos. En este artículo, argumentamos que un agente autónomo poderoso debería abarcar ambas fuentes. Por lo tanto, proponemos ChessGPT, un modelo GPT que une el aprendizaje de políticas y el modelado de lenguaje al integrar datos de estas dos fuentes en juegos de ajedrez. Específicamente, construimos un conjunto de datos a gran escala de juegos y lenguaje relacionados con el ajedrez. Utilizando este conjunto de datos, presentamos dos ejemplos de modelos, ChessCLIP y ChessGPT, que integran el aprendizaje de políticas y el modelado de lenguaje. Finalmente, proponemos un marco de evaluación completo para evaluar la habilidad de los modelos de lenguaje en el ajedrez. Los resultados experimentales validan la efectividad de nuestro modelo y conjunto de datos. Hacemos público nuestro código, modelo y conjunto de datos en https://github.com/waterhorse1/ChessGPT.
Recopilamos un conjunto de datos exhaustivo de 4,550 preguntas y soluciones provenientes de conjuntos de problemas, exámenes parciales y finales de todos los cursos de Matemáticas e Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT necesarios para obtener un título. Evaluamos la capacidad de los modelos de lenguaje grandes para cumplir con los requisitos de graduación de cualquier especialización en Matemáticas y EECS del MIT. Nuestros resultados demuestran que GPT-3.5 resuelve exitosamente un tercio de todo el plan de estudios del MIT, mientras que GPT-4, con ingeniería de prompts, logra una tasa de resolución perfecta en un conjunto de prueba que excluye preguntas basadas en imágenes. Ajustamos un modelo de lenguaje grande de código abierto utilizando este conjunto de datos. Empleamos GPT-4 para calificar automáticamente las respuestas del modelo, proporcionando un desglose detallado del rendimiento por curso, pregunta y tipo de respuesta. Al incrustar las preguntas en un espacio de baja dimensionalidad, exploramos las relaciones entre preguntas, temas y clases, y descubrimos qué preguntas y clases son necesarias para resolver otras preguntas y clases mediante aprendizaje con pocos ejemplos. Nuestro análisis ofrece valiosas perspectivas sobre los prerrequisitos de los cursos y el diseño del plan de estudios, destacando el potencial de los modelos de lenguaje para aprender y mejorar la educación en Matemáticas y EECS.
La variedad de objetos en el mundo real es prácticamente ilimitada, lo que hace imposible capturarla utilizando modelos entrenados en un conjunto fijo de categorías. Como resultado, en los últimos años, los métodos de vocabulario abierto han despertado el interés de la comunidad. Este artículo propone un nuevo método para la segmentación de vocabulario abierto en escenarios de cero disparos. Trabajos previos se basan principalmente en entrenamiento contrastivo utilizando pares de imagen-texto, aprovechando mecanismos de agrupación para aprender características de imagen que estén alineadas con el lenguaje y bien localizadas. Sin embargo, esto puede introducir ambigüedad, ya que la apariencia visual de imágenes con descripciones similares suele variar. En su lugar, aprovechamos las propiedades generativas de los modelos de difusión a gran escala de texto a imagen para muestrear un conjunto de imágenes de soporte para una categoría textual dada. Esto proporciona una distribución de apariencias para un texto dado, evitando el problema de ambigüedad. Además, proponemos un mecanismo que considera el contexto de fondo de las imágenes muestreadas para localizar mejor los objetos y segmentar directamente el fondo. Demostramos que nuestro método puede utilizarse para anclar varios extractores de características preentrenados con auto-supervisión en lenguaje natural y proporcionar predicciones explicables al mapear de vuelta a regiones en el conjunto de soporte. Nuestra propuesta no requiere entrenamiento, ya que se basa únicamente en componentes preentrenados, y sin embargo, muestra un rendimiento sólido en una variedad de benchmarks de segmentación de vocabulario abierto, obteniendo una ventaja de más del 10% en el benchmark Pascal VOC.
Abordamos una tarea de referencia en robótica ágil: atrapar objetos lanzados a alta velocidad. Esta es una tarea desafiante que implica rastrear, interceptar y acunar un objeto lanzado, con acceso únicamente a observaciones visuales del objeto y al estado propioceptivo del robot, todo en una fracción de segundo. Presentamos los méritos relativos de dos estrategias de solución fundamentalmente diferentes: (i) Control Predictivo basado en Modelos utilizando optimización de trayectorias con restricciones aceleradas, y (ii) Aprendizaje por Refuerzo utilizando optimización de orden cero. Ofrecemos insights sobre varios compromisos de rendimiento, incluyendo eficiencia de muestreo, transferencia de simulación a realidad, robustez frente a cambios de distribución y multimodalidad de cuerpo completo, mediante extensos experimentos en hardware. Concluimos con propuestas para fusionar técnicas "clásicas" y "basadas en aprendizaje" para el control ágil de robots. Los videos de nuestros experimentos pueden encontrarse en https://sites.google.com/view/agile-catching.
Proponemos un método para recomendar música para un video de entrada mientras permitimos que un usuario guíe la selección musical mediante lenguaje natural de forma libre. Un desafío clave de este escenario es que los conjuntos de datos existentes de videos musicales proporcionan los pares de entrenamiento necesarios (video, música), pero carecen de descripciones textuales de la música. Este trabajo aborda este desafío con las siguientes tres contribuciones. Primero, proponemos un enfoque de síntesis de texto que se basa en un procedimiento de indicación basado en analogías para generar descripciones musicales en lenguaje natural a partir de un modelo de lenguaje a gran escala (BLOOM-176B), utilizando salidas de un etiquetador musical preentrenado y un pequeño número de descripciones textuales humanas. Segundo, utilizamos estas descripciones musicales sintetizadas para entrenar un nuevo modelo trimodal, que fusiona representaciones de entrada de texto y video para consultar muestras musicales. Para el entrenamiento, introducimos un mecanismo de regularización por abandono de texto, que demostramos es crítico para el rendimiento del modelo. Nuestro diseño de modelo permite que la música recuperada coincida con las dos modalidades de entrada al igualar el estilo visual representado en el video y el género musical, estado de ánimo o instrumentación descritos en la consulta de lenguaje natural. Tercero, para evaluar nuestro enfoque, recopilamos un conjunto de datos de prueba para nuestro problema al anotar un subconjunto de 4k clips del conjunto de datos YT8M-MusicVideo con descripciones musicales en lenguaje natural, las cuales ponemos a disposición del público. Demostramos que nuestro enfoque puede igualar o superar el rendimiento de métodos anteriores en la recuperación de música a partir de video, mientras mejora significativamente la precisión de recuperación cuando se utiliza guía textual.
Los modelos preentrenados multimodales de visión y lenguaje (VLMs, por sus siglas en inglés) están ganando popularidad debido a su excepcional rendimiento en aplicaciones de visión descendente, especialmente en escenarios de pocos ejemplos (few-shot) y sin ejemplos (zero-shot). Sin embargo, seleccionar el VLM con mejor rendimiento para ciertas aplicaciones descendentes no es trivial, ya que depende del conjunto de datos y la tarea específica. Además, la evaluación exhaustiva de todos los VLMs disponibles en una aplicación novedosa no solo es demandante en términos de tiempo y recursos computacionales, sino que también requiere la recopilación de un conjunto de datos etiquetado para la evaluación. A medida que aumenta el número de variantes de VLMs de código abierto, surge la necesidad de una estrategia eficiente de selección de modelos que no requiera acceso a un conjunto de datos de evaluación curado. Este artículo propone una nueva tarea y un punto de referencia para evaluar de manera eficiente el rendimiento zero-shot de los VLMs en aplicaciones descendentes sin acceso al conjunto de datos de la tarea descendente. Específicamente, introducimos una nueva tarea llamada LOVM: Selección de Modelos de Visión Basada Solo en Lenguaje, donde se espera que los métodos realicen tanto la selección de modelos como la predicción de rendimiento basándose únicamente en una descripción textual de la aplicación descendente deseada. Luego, presentamos un extenso punto de referencia LOVM que consiste en evaluaciones de referencia de 35 VLMs preentrenados y 23 conjuntos de datos, donde se espera que los métodos clasifiquen los VLMs preentrenados y predigan su rendimiento zero-shot.
Los recientes avances en la comprensión de escenas 3D permiten el aprendizaje escalable de representaciones en grandes conjuntos de datos de escenas diversas. Como consecuencia, ahora es posible generalizar a escenas y objetos no vistos, renderizar nuevas vistas a partir de una sola o un puñado de imágenes de entrada, y generar escenas controlables que admiten ediciones. Sin embargo, el entrenamiento conjunto en un gran número de escenas suele comprometer la calidad de renderizado en comparación con modelos optimizados para una sola escena, como los NeRFs. En este artículo, aprovechamos los recientes avances en modelos de difusión para dotar a los modelos de aprendizaje de representación de escenas 3D con la capacidad de renderizar vistas novedosas de alta fidelidad, manteniendo en gran medida beneficios como la edición de escenas a nivel de objetos. En particular, proponemos DORSal, que adapta una arquitectura de difusión de vídeo para la generación de escenas 3D condicionada en representaciones basadas en slots centrados en objetos. Tanto en escenas sintéticas complejas con múltiples objetos como en el conjunto de datos a gran escala del mundo real Street View, demostramos que DORSal permite el renderizado neural escalable de escenas 3D con edición a nivel de objeto y supera a los enfoques existentes.
Recientemente, los modelos generativos basados en difusión han logrado un éxito notable en la generación y edición de imágenes. Sin embargo, su uso para la edición de videos aún enfrenta limitaciones importantes. Este artículo presenta VidEdit, un método novedoso para la edición de videos basada en texto sin necesidad de entrenamiento previo, garantizando una fuerte consistencia temporal y espacial. En primer lugar, proponemos combinar modelos de difusión basados en atlas y preentrenados para la generación de imágenes a partir de texto, ofreciendo un método de edición eficiente y sin entrenamiento que, por diseño, cumple con la suavidad temporal. En segundo lugar, aprovechamos segmentadores panópticos disponibles junto con detectores de bordes y adaptamos su uso para la edición de atlas basada en difusión condicionada. Esto asegura un control espacial preciso sobre las regiones objetivo mientras se preserva estrictamente la estructura del video original. Los experimentos cuantitativos y cualitativos muestran que VidEdit supera a los métodos más avanzados en el conjunto de datos DAVIS, en términos de fidelidad semántica, preservación de la imagen y métricas de consistencia temporal. Con este marco, procesar un solo video toma aproximadamente un minuto, y puede generar múltiples ediciones compatibles basadas en una única indicación de texto. Página del proyecto en https://videdit.github.io.
Mostramos cómo construir un modelo que permita renderizaciones realistas y de punto de vista libre de una escena bajo condiciones de iluminación novedosas a partir de video. Nuestro método, UrbanIR: Urban Scene Inverse Rendering, calcula una representación de gráficos inversos a partir del video. UrbanIR infiere conjuntamente la forma, el albedo, la visibilidad, y la iluminación solar y del cielo a partir de un único video de escenas exteriores no delimitadas con iluminación desconocida. UrbanIR utiliza videos de cámaras montadas en automóviles (en contraste con múltiples vistas de los mismos puntos en la estimación típica al estilo NeRF). Como resultado, los métodos estándar producen estimaciones de geometría deficientes (por ejemplo, techos) y hay numerosos "flotadores". Los errores en la inferencia de gráficos inversos pueden resultar en artefactos de renderización significativos. UrbanIR utiliza pérdidas novedosas para controlar estas y otras fuentes de error. UrbanIR emplea una pérdida novedosa para realizar estimaciones muy precisas de los volúmenes de sombra en la escena original. Las representaciones resultantes facilitan la edición controlable, ofreciendo renderizaciones fotorrealistas de punto de vista libre de escenas reiluminadas y objetos insertados. La evaluación cualitativa demuestra mejoras significativas con respecto al estado del arte.
En este artículo, proponemos un marco autónomo de búsqueda de información para la respuesta a preguntas visuales, denominado AVIS. Nuestro método aprovecha un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para planificar dinámicamente el uso de herramientas externas y analizar sus resultados, adquiriendo así el conocimiento indispensable necesario para responder a las preguntas planteadas. Responder a preguntas visuales que requieren conocimiento externo, como "¿Qué evento conmemora el edificio que aparece en esta imagen?", es una tarea compleja. Esta tarea presenta un espacio de búsqueda combinatorio que exige una secuencia de acciones, incluyendo la invocación de APIs, el análisis de sus respuestas y la toma de decisiones informadas. Realizamos un estudio con usuarios para recopilar diversos ejemplos de toma de decisiones humanas al enfrentarse a esta tarea. Estos datos se utilizan para diseñar un sistema compuesto por tres componentes: un planificador basado en un LLM que determina dinámicamente qué herramienta usar a continuación, un razonador basado en un LLM que analiza y extrae información clave de los resultados de las herramientas, y un componente de memoria de trabajo que retiene la información adquirida durante todo el proceso. El comportamiento recopilado de los usuarios guía nuestro sistema de dos maneras clave. Primero, creamos un gráfico de transición analizando la secuencia de decisiones tomadas por los usuarios. Este gráfico delimita estados distintos y limita el conjunto de acciones disponibles en cada estado. Segundo, utilizamos ejemplos de toma de decisiones de los usuarios para proporcionar a nuestro planificador y razonador basados en LLM instancias contextuales relevantes, mejorando su capacidad para tomar decisiones informadas. Demostramos que AVIS logra resultados de vanguardia en benchmarks de respuesta a preguntas visuales intensivas en conocimiento, como Infoseek y OK-VQA.
Los recientes avances en reconstrucción neuronal permiten la reconstrucción de objetos 3D de alta calidad a partir de colecciones de imágenes capturadas de manera casual. Las técnicas actuales analizan principalmente su progreso en colecciones de imágenes relativamente simples, donde las técnicas de Estructura a partir del Movimiento (SfM) pueden proporcionar poses de cámara de referencia (ground-truth, GT). Observamos que las técnicas SfM tienden a fallar en colecciones de imágenes del mundo real, como resultados de búsqueda de imágenes con fondos e iluminaciones variables. Para permitir un progreso sistemático en la investigación sobre la reconstrucción 3D a partir de capturas de imágenes casuales, proponemos NAVI: un nuevo conjunto de datos de colecciones de imágenes agnósticas a categorías de objetos, con escaneos 3D de alta calidad junto con alineaciones 2D-3D por imagen que proporcionan parámetros de cámara GT casi perfectos. Estas alineaciones 2D-3D nos permiten extraer anotaciones derivadas precisas, como correspondencias densas de píxeles, mapas de profundidad y segmentación. Demostramos el uso de las colecciones de imágenes de NAVI en diferentes configuraciones de problemas y mostramos que NAVI permite evaluaciones más exhaustivas que no eran posibles con conjuntos de datos existentes. Creemos que NAVI es beneficioso para el progreso sistemático de la investigación en reconstrucción 3D y estimación de correspondencias. Página del proyecto: https://navidataset.github.io.
En este trabajo, estudiamos el impacto de los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) en el Reconocimiento Automático del Habla (ASR) de videos de YouTube, que utilizamos como fuente para ASR de formato largo. Demostramos una reducción relativa de hasta el 8\% en la Tasa de Error de Palabras (WER) en conjuntos de prueba de ASR de formato largo para inglés estadounidense (en-us) e inglés indio con cambio de código (en-in), y una reducción relativa de hasta el 30\% en la Tasa de Error de Términos Relevantes (STER) sobre una línea de base sólida de primera pasada que utiliza un modelo de lenguaje basado en máxima entropía. Un procesamiento mejorado de la red de hipótesis que resulta en una red con una topología de dígrafo adecuada (no arbórea) y que lleva el contexto de la hipótesis 1-best de los segmentos anteriores produce mejoras significativas en la revaloración con LLM. También encontramos que las ganancias en rendimiento de la combinación de LLM entrenados con grandes cantidades de datos disponibles (como C4) y modelos de lenguaje neuronales convencionales son aditivas y superan significativamente una línea de base sólida de primera pasada con un modelo de lenguaje de máxima entropía.
El ajuste de hiperparámetros en modelos de aprendizaje profundo puede generar mejoras de rendimiento de órdenes de magnitud con la misma cantidad de cómputo. A pesar de esto, el ajuste sistemático es poco común, especialmente en modelos grandes, que son costosos de evaluar y tienden a tener muchos hiperparámetros, lo que requiere decisiones difíciles sobre compensaciones, presupuestos y límites de búsqueda. Para abordar estos problemas y proponer un método práctico para ajustar robustamente modelos grandes, presentamos Cost-Aware Pareto Region Bayesian Search (CARBS), un algoritmo de optimización bayesiana que realiza búsquedas locales alrededor de la frontera de Pareto de rendimiento-costo. CARBS funciona bien incluso en espacios de búsqueda ilimitados con muchos hiperparámetros, aprende relaciones de escalado para ajustar modelos a medida que se amplían, y automatiza gran parte de la "magia negra" del ajuste. Entre nuestros resultados, resolvemos efectivamente todo el benchmark ProcGen simplemente ajustando una línea base simple (PPO, como se proporciona en el artículo original de ProcGen). También reproducimos el resultado de escalado entre el tamaño del modelo y los tokens de entrenamiento del proyecto Chinchilla (Hoffmann et al. 2022), mientras descubrimos leyes de escalado para todos los demás hiperparámetros mediante un proceso automatizado sencillo que utiliza significativamente menos cómputo y es aplicable a cualquier problema de aprendizaje profundo (no solo a modelos de lenguaje).
Considere un robot encargado de ordenar un escritorio que contiene un meticulosamente construido coche deportivo de Lego. Un humano podría reconocer que no es socialmente apropiado desarmar el coche deportivo y guardarlo como parte de la "limpieza". ¿Cómo puede un robot llegar a esa conclusión? Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han utilizado recientemente para habilitar el razonamiento social, fundamentar este razonamiento en el mundo real ha sido un desafío. Para razonar en el mundo real, los robots deben ir más allá de consultar pasivamente los LLMs y *recolectar activamente información del entorno* que sea necesaria para tomar la decisión correcta. Por ejemplo, después de detectar que hay un coche oculto, el robot podría necesitar percibir activamente el coche para saber si se trata de un modelo avanzado hecho de Legos o un coche de juguete construido por un niño pequeño. Proponemos un enfoque que aprovecha un LLM y un modelo de lenguaje visual (VLM, por sus siglas en inglés) para ayudar a un robot a percibir activamente su entorno y realizar un razonamiento social fundamentado. Para evaluar nuestro marco de trabajo a gran escala, publicamos el conjunto de datos MessySurfaces, que contiene imágenes de 70 superficies del mundo real que necesitan ser limpiadas. Además, ilustramos nuestro enfoque con un robot en 2 superficies cuidadosamente diseñadas. Encontramos una mejora promedio del 12.9% en el benchmark de MessySurfaces y una mejora promedio del 15% en los experimentos con el robot en comparación con los baselines que no utilizan percepción activa. El conjunto de datos, el código y los videos de nuestro enfoque se pueden encontrar en https://minaek.github.io/groundedsocialreasoning.
Reconstruir y reiluminar objetos y escenas bajo condiciones de iluminación variables es un desafío: los métodos existentes de renderizado neuronal a menudo no pueden manejar las complejas interacciones entre materiales y luz. La incorporación de técnicas de transferencia de radiancia precalculadas permite la iluminación global, pero aún tiene dificultades con materiales que presentan efectos de dispersión subsuperficial. Proponemos un marco novedoso para aprender el campo de transferencia de radiancia mediante renderizado volumétrico y utilizar diversas señales de apariencia para refinar la geometría de extremo a extremo. Este marco amplía las capacidades de reiluminación y reconstrucción para manejar una gama más amplia de materiales de manera basada en datos. Los modelos resultantes producen resultados de renderizado plausibles en condiciones existentes y novedosas. Haremos público nuestro código y un nuevo conjunto de datos de escenario de luz con objetos que presentan efectos de dispersión subsuperficial.