Artículos de investigación en IA seleccionados diariamente con traducciones
El mapeo de superficie canónica generaliza la detección de puntos clave al asignar cada píxel de un objeto a un punto correspondiente en una plantilla 3D. Popularizado por DensePose para el análisis de humanos, los autores han intentado aplicar el concepto a más categorías, pero con éxito limitado debido al alto costo de la supervisión manual. En este trabajo, presentamos SHIC, un método para aprender mapas canónicos sin supervisión manual que logra mejores resultados que los métodos supervisados para la mayoría de las categorías. Nuestra idea es aprovechar modelos fundamentales de visión por computadora como DINO y Stable Diffusion que son de naturaleza abierta y, por lo tanto, poseen excelentes conocimientos previos sobre categorías naturales. SHIC reduce el problema de estimar correspondencias de imagen a plantilla a predecir correspondencias de imagen a imagen utilizando características de los modelos fundamentales. La reducción funciona emparejando imágenes del objeto con representaciones no fotorealistas de la plantilla, lo que emula el proceso de recopilación de anotaciones manuales para esta tarea. Estas correspondencias se utilizan luego para supervisar mapas canónicos de alta calidad para cualquier objeto de interés. También demostramos que los generadores de imágenes pueden mejorar aún más el realismo de las vistas de la plantilla, lo que proporciona una fuente adicional de supervisión para el modelo.
Los agentes autónomos que abordan tareas digitales cotidianas (por ejemplo, ordenar comestibles para un hogar) no solo deben operar múltiples aplicaciones (por ejemplo, notas, mensajería, aplicación de compras) a través de API, sino también generar código complejo con un flujo de control en forma iterativa basado en su interacción con el entorno. Sin embargo, los benchmarks existentes para el uso de herramientas son inadecuados, ya que solo cubren tareas que requieren una simple secuencia de llamadas a API. Para remediar esta brecha, construimos AppWorld Engine, un entorno de ejecución de alta calidad (60K líneas de código) de 9 aplicaciones cotidianas operables a través de 457 API y pobladas con actividades digitales realistas que simulan las vidas de ~100 usuarios ficticios. Luego creamos AppWorld Benchmark (40K líneas de código), un conjunto de 750 tareas autónomas naturales, diversas y desafiantes que requieren una generación de código rica e interactiva. Admite una evaluación programática robusta con pruebas unitarias basadas en estados, lo que permite diferentes formas de completar una tarea y también verificar cambios inesperados, es decir, daños colaterales. El LLM de vanguardia, GPT-4o, resuelve solo ~49% de nuestras tareas 'normales' y ~30% de las tareas 'desafiantes', mientras que otros modelos resuelven al menos un 16% menos. Esto destaca la dificultad del benchmark y el potencial de AppWorld para impulsar los límites de los agentes de codificación interactiva. El sitio web del proyecto está disponible en https://appworld.dev/.
Proponemos Wolf, un Marco de Resumen del Mundo (WOrLd) para la precisión en la subtitulación de videos. Wolf es un marco de subtitulación automatizado que adopta un enfoque de mezcla de expertos, aprovechando las fortalezas complementarias de los Modelos de Lenguaje de Visión (VLMs). Al utilizar tanto modelos de imagen como de video, nuestro marco captura diferentes niveles de información y los resume de manera eficiente. Nuestro enfoque se puede aplicar para mejorar la comprensión de videos, el etiquetado automático y la subtitulación. Para evaluar la calidad de los subtítulos, presentamos CapScore, una métrica basada en LLM para evaluar la similitud y calidad de los subtítulos generados en comparación con los subtítulos de referencia. Además, creamos cuatro conjuntos de datos anotados por humanos en tres dominios: conducción autónoma, escenas generales y robótica, para facilitar comparaciones exhaustivas. Mostramos que Wolf logra un rendimiento superior en la subtitulación en comparación con enfoques de vanguardia de la comunidad de investigación (VILA1.5, CogAgent) y soluciones comerciales (Gemini-Pro-1.5, GPT-4V). Por ejemplo, en comparación con GPT-4V, Wolf mejora CapScore tanto en calidad en un 55.6% como en similitud en un 77.4% en videos desafiantes de conducción. Finalmente, establecemos un punto de referencia para la subtitulación de videos e introducimos un tablero de líderes, con el objetivo de acelerar los avances en la comprensión de videos, subtitulación y alineación de datos. Tablero de líderes: https://wolfv0.github.io/leaderboard.html.
Presentamos esfuerzos sistemáticos en la construcción de un modelo de representación de texto multilingüe de largo contexto (TRM, por sus siglas en inglés) y un reordenador desde cero para la recuperación de texto. Primero introducimos un codificador de texto (tamaño base) mejorado con RoPE y desempaquetado, pre-entrenado en un contexto nativo de 8192 tokens (más largo que los 512 de los codificadores multilingües anteriores). Luego construimos un TRM híbrido y un reordenador de tipo cruzado mediante aprendizaje contrastivo. Las evaluaciones muestran que nuestro codificador de texto supera al XLM-R, estado del arte anterior del mismo tamaño. Mientras tanto, nuestro TRM y reordenador igualan el rendimiento de los modelos BGE-M3 de estado del arte de gran tamaño y logran mejores resultados en bancos de pruebas de recuperación de largo contexto. Un análisis adicional demuestra que nuestros modelos propuestos muestran una mayor eficiencia tanto durante el entrenamiento como en la inferencia. Creemos que su eficiencia y efectividad podrían beneficiar a diversas investigaciones y aplicaciones industriales.
La manipulación en mano de objetos similares a bolígrafos es una habilidad importante en nuestra vida diaria, ya que muchas herramientas como martillos y destornilladores tienen formas similares. Sin embargo, los métodos actuales basados en aprendizaje enfrentan dificultades con esta tarea debido a la falta de demostraciones de alta calidad y la brecha significativa entre la simulación y el mundo real. En este trabajo, ampliamos los límites de los sistemas de manipulación en mano basados en aprendizaje al demostrar la capacidad de hacer girar objetos similares a bolígrafos. En primer lugar, utilizamos el aprendizaje por refuerzo para entrenar una política oráculo con información privilegiada y generar un conjunto de datos de trayectorias de alta fidelidad en simulación. Esto sirve a dos propósitos: 1) preentrenar una política sensoriomotora en simulación; 2) llevar a cabo la reproducción de trayectorias en lazo abierto en el mundo real. Luego ajustamos la política sensoriomotora utilizando estas trayectorias del mundo real para adaptarla a la dinámica del mundo real. Con menos de 50 trayectorias, nuestra política aprende a rotar más de diez objetos similares a bolígrafos con diferentes propiedades físicas para múltiples revoluciones. Presentamos un análisis exhaustivo de nuestras elecciones de diseño y compartimos las lecciones aprendidas durante el desarrollo.
Los transformadores de visión han avanzado significativamente en el campo de la visión por computadora, ofreciendo capacidades de modelado robustas y un campo receptivo global. Sin embargo, sus altas demandas computacionales limitan su aplicabilidad en el procesamiento de secuencias largas. Para abordar este problema, los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) han ganado prominencia en tareas de visión al ofrecer una complejidad computacional lineal. Recientemente, el modelo de Dualidad de Espacio de Estados (SSD, por sus siglas en inglés), una variante mejorada de los SSMs, fue introducido en Mamba2 para mejorar el rendimiento y la eficiencia del modelo. Sin embargo, la naturaleza causal inherente de SSD/SSMs restringe sus aplicaciones en tareas de visión no causales. Para abordar esta limitación, presentamos el modelo de Dualidad de Espacio de Estados Visual (VSSD), que tiene un formato no causal de SSD. Específicamente, proponemos desechar la magnitud de las interacciones entre el estado oculto y los tokens mientras se preservan sus pesos relativos, lo que alivia las dependencias de la contribución del token en los tokens anteriores. Junto con la participación de estrategias de múltiples escaneos, mostramos que los resultados del escaneo pueden integrarse para lograr la no causalidad, lo que no solo mejora el rendimiento de SSD en tareas de visión, sino que también mejora su eficiencia. Realizamos experimentos extensos en varios benchmarks, incluida la clasificación, detección y segmentación de imágenes, donde VSSD supera a los modelos existentes basados en SSM líderes en el estado del arte. El código y los pesos están disponibles en https://github.com/YuHengsss/VSSD.
Los avances recientes en la reconstrucción tridimensional de objetos a partir de imágenes individuales se han centrado principalmente en mejorar la precisión de las formas de los objetos. Sin embargo, estas técnicas a menudo no logran capturar con precisión la interrelación entre el objeto, el suelo y la cámara. Como resultado, los objetos reconstruidos a menudo parecen flotar o estar inclinados cuando se colocan sobre superficies planas. Esta limitación afecta significativamente las aplicaciones de edición de imágenes con conciencia tridimensional, como la generación de sombras y la manipulación de la posición de los objetos. Para abordar este problema, presentamos ORG (Reconstrucción de Objetos con Suelo), una tarea novedosa destinada a reconstruir la geometría tridimensional del objeto en conjunto con la superficie del suelo. Nuestro método utiliza dos representaciones compactas a nivel de píxeles para representar la relación entre la cámara, el objeto y el suelo. Los experimentos muestran que el modelo ORG propuesto puede reconstruir de manera efectiva la geometría objeto-suelo en datos no vistos, mejorando significativamente la calidad de la generación de sombras y la manipulación de la posición en comparación con las técnicas convencionales de reconstrucción tridimensional a partir de una sola imagen.