Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Grandes (LLMs) y los Modelos de Visión-Lenguaje Grandes (LVLMs) han demostrado impresionantes habilidades de razonamiento de lenguaje/visión, dando inicio a la reciente tendencia de construir agentes para aplicaciones específicas como asistentes de compras o ingenieros de software de IA. Recientemente, se han propuesto muchos benchmarks de ciencia de datos para investigar su rendimiento en el ámbito de la ciencia de datos. Sin embargo, los benchmarks de ciencia de datos existentes aún quedan cortos en comparación con las aplicaciones reales de ciencia de datos debido a sus configuraciones simplificadas. Para cerrar esta brecha, presentamos DSBench, un benchmark integral diseñado para evaluar agentes de ciencia de datos con tareas realistas. Este benchmark incluye 466 tareas de análisis de datos y 74 tareas de modelado de datos, obtenidas de competencias de Eloquence y Kaggle. DSBench ofrece un entorno realista al abarcar contextos largos, antecedentes de tareas multimodales, razonamiento con archivos de datos grandes y estructuras de múltiples tablas, y realizar tareas de modelado de datos de extremo a extremo. Nuestra evaluación de los LLMs, LVLMs y agentes de vanguardia muestra que tienen dificultades con la mayoría de las tareas, siendo el mejor agente capaz de resolver solo el 34.12% de las tareas de análisis de datos y logrando una Brecha de Rendimiento Relativo (RPG) del 34.74%. Estos hallazgos subrayan la necesidad de mayores avances en el desarrollo de agentes de ciencia de datos más prácticos, inteligentes y autónomos.
Los modelos de lenguaje grandes (LLMs) muestran un potencial notable para actuar como agentes informáticos, mejorando la productividad humana y la accesibilidad del software en tareas multimodales que requieren planificación y razonamiento. Sin embargo, medir el rendimiento del agente en entornos realistas sigue siendo un desafío, ya que: (i) la mayoría de los puntos de referencia se limitan a modalidades o dominios específicos (por ejemplo, solo texto, navegación web, preguntas y respuestas, codificación) y (ii) las evaluaciones completas de los puntos de referencia son lentas (del orden de magnitud de días) dada la naturaleza secuencial de múltiples pasos de las tareas. Para abordar estos desafíos, presentamos la Arena del Agente de Windows: un entorno general y reproducible centrado exclusivamente en el sistema operativo (SO) Windows, donde los agentes pueden operar libremente dentro de un verdadero SO Windows y utilizar la misma amplia gama de aplicaciones, herramientas y navegadores web disponibles para los usuarios humanos al resolver tareas. Adaptamos el marco OSWorld (Xie et al., 2024) para crear más de 150 tareas diversas de Windows en dominios representativos que requieren habilidades del agente en planificación, comprensión de pantalla y uso de herramientas. Nuestro punto de referencia es escalable y puede ser paralelizado sin problemas en Azure para una evaluación completa del punto de referencia en tan solo 20 minutos. Para demostrar las capacidades de la Arena del Agente de Windows, también presentamos un nuevo agente multimodal, Navi. Nuestro agente logra una tasa de éxito del 19.5% en el dominio de Windows, en comparación con el rendimiento del 74.5% de un humano sin asistencia. Navi también muestra un rendimiento sólido en otro punto de referencia popular basado en la web, Mind2Web. Ofrecemos un análisis cuantitativo y cualitativo extenso del rendimiento de Navi, y proporcionamos información sobre las oportunidades para futuras investigaciones en el desarrollo de agentes y la generación de datos utilizando la Arena del Agente de Windows. Página web: https://microsoft.github.io/WindowsAgentArena Código: https://github.com/microsoft/WindowsAgentArena
Los avances recientes en modelos de lenguaje grandes (LLMs) han generado optimismo sobre su potencial para acelerar el descubrimiento científico, con un número creciente de trabajos que proponen agentes de investigación que generan y validan nuevas ideas de forma autónoma. A pesar de esto, no se han realizado evaluaciones que demuestren que los sistemas LLM pueden dar el primer paso de producir ideas novedosas a nivel experto, y mucho menos llevar a cabo todo el proceso de investigación. Abordamos esto estableciendo un diseño experimental que evalúa la generación de ideas de investigación controlando posibles factores de confusión y realizando la primera comparación directa entre investigadores expertos en procesamiento de lenguaje natural y un agente de ideación LLM. Al reclutar a más de 100 investigadores en procesamiento de lenguaje natural para escribir ideas novedosas y realizar revisiones ciegas de las ideas tanto del LLM como de los humanos, obtenemos la primera conclusión estadísticamente significativa sobre las capacidades actuales de los LLM para la ideación de investigación: encontramos que las ideas generadas por el LLM son consideradas más novedosas (p < 0.05) que las ideas de expertos humanos, aunque se consideran ligeramente menos factibles. Al estudiar detenidamente nuestros agentes de referencia, identificamos problemas abiertos en la construcción y evaluación de agentes de investigación, incluidos los fallos en la autoevaluación de los LLM y su falta de diversidad en la generación. Finalmente, reconocemos que las valoraciones humanas de la novedad pueden ser difíciles, incluso para expertos, y proponemos un diseño de estudio de extremo a extremo que recluta a investigadores para llevar a cabo estas ideas en proyectos completos, lo que nos permite estudiar si estas valoraciones de novedad y factibilidad resultan en diferencias significativas en los resultados de investigación.
Si bien los modelos de difusión de Texto a Imagen (T2I) sobresalen en la generación de imágenes visualmente atractivas de instancias individuales, tienen dificultades para posicionar y controlar con precisión la generación de características de múltiples instancias. La tarea de Diseño a Imagen (L2I) se introdujo para abordar los desafíos de posicionamiento mediante la incorporación de cuadros delimitadores como señales de control espacial, pero aún no logra generar características de instancia precisas. En respuesta, proponemos la tarea de Generación de Características de Instancia (IFG), que tiene como objetivo garantizar tanto la precisión posicional como la fidelidad de las características en las instancias generadas. Para abordar la tarea IFG, presentamos el Adaptador de Características de Instancia (IFAdapter). El IFAdapter mejora la representación de características mediante la incorporación de tokens de apariencia adicionales y utilizando un Mapa Semántico de Instancia para alinear las características a nivel de instancia con las ubicaciones espaciales. El IFAdapter guía el proceso de difusión como un módulo plug-and-play, lo que lo hace adaptable a varios modelos de la comunidad. Para la evaluación, contribuimos con un banco de pruebas de IFG y desarrollamos un pipeline de verificación para comparar objetivamente las capacidades de los modelos en la generación de instancias con posicionamiento y características precisos. Los resultados experimentales demuestran que IFAdapter supera a otros modelos tanto en evaluaciones cuantitativas como cualitativas.
Los Modelos de Lenguaje de Gran Tamaño aún enfrentan dificultades en escenarios desafiantes que aprovechan datos estructurados, razonamiento complejo o uso de herramientas. En este documento, proponemos Source2Synth: un nuevo método que puede ser utilizado para enseñar a los LLMs nuevas habilidades sin depender de anotaciones humanas costosas. Source2Synth toma como entrada una fuente de datos personalizada y produce puntos de datos sintéticos con pasos de razonamiento intermedios fundamentados en fuentes del mundo real. Source2Synth mejora la calidad del conjunto de datos al desechar generaciones de baja calidad basadas en su capacidad de respuesta. Demostramos la generalidad de este enfoque aplicándolo a dos dominios desafiantes: probamos las habilidades de razonamiento en preguntas de múltiples saltos (MHQA) y el uso de herramientas en preguntas de respuesta tabular (TQA). Nuestro método mejora el rendimiento en un 25.51% para TQA en WikiSQL y un 22.57% para MHQA en HotPotQA en comparación con las líneas de base ajustadas finamente.
Los avances recientes en modelos de texto a imagen han abierto prometedores caminos de investigación en la generación de imágenes personalizadas, permitiendo a los usuarios crear imágenes diversas de un tema específico utilizando indicaciones en lenguaje natural. Sin embargo, los métodos existentes a menudo sufren de degradación de rendimiento al recibir solo una imagen de referencia. Tienden a ajustarse demasiado a la entrada, produciendo salidas altamente similares independientemente de la indicación de texto. Este artículo aborda el desafío de la personalización de una sola toma al mitigar el sobreajuste, permitiendo la creación de imágenes controlables a través de indicaciones de texto. Específicamente, proponemos una estrategia de ajuste fino selectivo que se enfoca en el codificador de texto. Además, introducimos tres técnicas clave para mejorar el rendimiento de personalización: (1) tokens de aumento para fomentar la desentrelazación de características y aliviar el sobreajuste, (2) una pérdida de preservación de conocimiento para reducir la deriva del lenguaje y promover la generalización en diversas indicaciones, y (3) muestreo ponderado por SNR para un entrenamiento eficiente. Experimentos extensos demuestran que nuestro enfoque genera eficientemente imágenes diversas y de alta calidad utilizando solo una imagen de referencia, al tiempo que reduce significativamente los requisitos de memoria y almacenamiento.
Presentamos DreamHOI, un método novedoso para la síntesis de interacciones humano-objeto (HOIs) de cero disparos, que permite que un modelo humano en 3D interactúe de manera realista con cualquier objeto dado basado en una descripción textual. Esta tarea se complica debido a las diversas categorías y geometrías de los objetos del mundo real y la escasez de conjuntos de datos que abarquen diversas HOIs. Para evitar la necesidad de datos extensos, aprovechamos modelos de difusión de texto a imagen entrenados en miles de millones de pares de imágenes y leyendas. Optimizamos la articulación de un modelo humano con piel utilizando gradientes de Muestreo de Destilación de Puntuación (SDS) obtenidos de estos modelos, los cuales predicen ediciones en el espacio de imagen. Sin embargo, retropropagar gradientes en el espacio de imagen directamente en parámetros de articulación complejos es ineficaz debido a la naturaleza local de dichos gradientes. Para superar esto, introducimos una representación dual implícita-explicita de un modelo con piel, combinando campos de radiancia neural (NeRFs) (implícitos) con articulación de malla impulsada por esqueleto (explícita). Durante la optimización, transitamos entre formas implícitas y explícitas, fundamentando la generación de NeRF mientras refinamos la articulación de la malla. Validamos nuestro enfoque a través de experimentos extensos, demostrando su efectividad en la generación de HOIs realistas.
Impulsados por la ola de Modelos de Lenguaje Grandes (LLMs), los Modelos de Lenguaje Visual Grandes (LVLMs) han surgido como un avance fundamental, cerrando la brecha entre la imagen y el texto. Sin embargo, los videos representan un desafío para los LVLMs al tener que lidiar con la complejidad de la relación entre el lenguaje y la estructura de datos espaciales-temporales. Los recientes Modelos de Video-Lenguaje Grandes (LVidLMs) alinean características de datos visuales estáticos como imágenes en un espacio latente de características de lenguaje, mediante tareas multimodales generales para aprovechar adecuadamente las capacidades de los LLMs. En este documento, exploramos un enfoque de alineación detallada a través de trayectorias de objetos para diferentes modalidades en dimensiones espaciales y temporales simultáneamente. Por lo tanto, proponemos un nuevo LVidLM mediante la Alineación Pixel-Temporal guiada por trayectorias, denominado PiTe, que muestra una propiedad de modelo aplicable prometedora. Para lograr una alineación detallada de video-lenguaje, creamos un conjunto de datos de pre-entrenamiento multimodal PiTe-143k, que proporciona trayectorias en movimiento a nivel de píxel para todos los objetos individuales que aparecen y se mencionan tanto en el video como en la leyenda, mediante nuestro pipeline de anotación automática. Mientras tanto, PiTe demuestra capacidades asombrosas en una variedad de tareas multimodales relacionadas con videos superando ampliamente a los métodos de vanguardia.
Este estudio aborda el desafío de segmentar con precisión la dispersión gaussiana 3D a partir de máscaras 2D. Los métodos convencionales suelen depender de un descenso de gradiente iterativo para asignar a cada gaussiana una etiqueta única, lo que conlleva una optimización prolongada y soluciones subóptimas. En cambio, proponemos un solucionador directo pero globalmente óptimo para la segmentación de GS 3D. La idea central de nuestro método es que, con una escena 3D-GS reconstruida, la renderización de las máscaras 2D es esencialmente una función lineal con respecto a las etiquetas de cada gaussiana. Por lo tanto, la asignación óptima de etiquetas se puede resolver a través de programación lineal en forma cerrada. Esta solución aprovecha la característica de mezcla alfa del proceso de dispersión para la optimización en un solo paso. Al incorporar el sesgo de fondo en nuestra función objetivo, nuestro método muestra una robustez superior en la segmentación 3D contra ruidos. Notablemente, nuestra optimización se completa en 30 segundos, aproximadamente 50 veces más rápido que los mejores métodos existentes. Experimentos extensos demuestran la eficiencia y robustez de nuestro método en la segmentación de diversas escenas, y su rendimiento superior en tareas posteriores como la eliminación de objetos y el rellenado. Las demostraciones y el código estarán disponibles en https://github.com/florinshen/FlashSplat.
La detección de objetos fuera de distribución (OOD, por sus siglas en inglés) es una tarea desafiante debido a la ausencia de datos OOD de conjunto abierto. Inspirados por los avances recientes en modelos generativos de texto a imagen, como Difusión Estable, estudiamos el potencial de los modelos generativos entrenados en datos de conjunto abierto a gran escala para sintetizar muestras OOD, mejorando así la detección de objetos OOD. Presentamos SyncOOD, un método simple de curación de datos que aprovecha las capacidades de los modelos base a gran escala para extraer automáticamente datos OOD significativos de los modelos generativos de texto a imagen. Esto brinda al modelo acceso al conocimiento de mundo abierto encapsulado dentro de los modelos base listos para usar. Las muestras OOD sintéticas se utilizan luego para aumentar el entrenamiento de un detector OOD ligero y fácil de usar, optimizando de manera efectiva los límites de decisión en distribución (ID)/OOD. Experimentos extensos en múltiples benchmarks demuestran que SyncOOD supera significativamente a los métodos existentes, estableciendo un nuevo rendimiento de vanguardia con un uso mínimo de datos sintéticos.