Artículos de investigación en IA seleccionados diariamente con traducciones
La automatización web es una técnica importante que realiza tareas web complejas mediante la automatización de acciones web comunes, mejorando la eficiencia operativa y reduciendo la necesidad de intervención manual. Los métodos tradicionales, como los wrappers, presentan limitaciones en adaptabilidad y escalabilidad cuando se enfrentan a un nuevo sitio web. Por otro lado, los agentes generativos potenciados por modelos de lenguaje grandes (LLMs) muestran un rendimiento y reutilización deficientes en escenarios de mundo abierto. En este trabajo, introducimos una tarea de generación de rastreadores para páginas web de información vertical y el paradigma de combinar LLMs con rastreadores, lo que ayuda a los rastreadores a manejar entornos web diversos y cambiantes de manera más eficiente. Proponemos AutoCrawler, un marco de dos etapas que aprovecha la estructura jerárquica del HTML para una comprensión progresiva. A través de operaciones de arriba hacia abajo y de retroceso, AutoCrawler puede aprender de acciones erróneas y podar continuamente el HTML para una mejor generación de acciones. Realizamos experimentos exhaustivos con múltiples LLMs y demostramos la efectividad de nuestro marco. Los recursos de este artículo se pueden encontrar en https://github.com/EZ-hwh/AutoCrawler.
Presentamos Groma, un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) con capacidad de percepción visual fundamentada y de gran detalle. Más allá de la comprensión holística de imágenes, Groma destaca en tareas a nivel de región, como la descripción de regiones y la fundamentación visual. Estas capacidades se basan en un mecanismo de tokenización visual localizada, donde una imagen de entrada se descompone en regiones de interés y posteriormente se codifica en tokens de región. Al integrar tokens de región en las instrucciones del usuario y las respuestas del modelo, permitimos que Groma comprenda las entradas de región especificadas por el usuario y fundamente su salida textual en las imágenes. Además, para mejorar la capacidad de chat fundamentado de Groma, hemos creado un conjunto de datos de instrucciones visualmente fundamentadas aprovechando el potente GPT-4V y técnicas de indicación visual. En comparación con los MLLM que dependen del modelo de lenguaje o de un módulo externo para la localización, Groma demuestra consistentemente un rendimiento superior en puntos de referencia estándar de referencia y fundamentación, destacando las ventajas de integrar la localización en la tokenización de imágenes. Página del proyecto: https://groma-mllm.github.io/.
La respuesta visual a preguntas centradas en texto (VQA, por sus siglas en inglés) ha avanzado significativamente con el desarrollo de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés). Sin embargo, los modelos de código abierto aún no alcanzan el nivel de los modelos líderes como GPT4V y Gemini, en parte debido a la falta de datos extensos y de alta calidad para el ajuste por instrucción. Para abordar este problema, presentamos un nuevo enfoque para crear un conjunto de datos masivo y de alta calidad para el ajuste por instrucción, llamado Square-10M, el cual se genera utilizando MLLMs de código cerrado. El proceso de construcción de datos, denominado Square, consta de cuatro pasos: Autocuestionamiento, Respuesta, Razonamiento y Evaluación. Nuestros experimentos con Square-10M arrojaron tres hallazgos clave: 1) Nuestro modelo, TextSquare, supera considerablemente a los MLLMs centrados en texto de código abierto anteriores y establece un nuevo estándar en OCRBench (62.2%). Incluso supera a modelos de primer nivel como GPT4V y Gemini en 6 de 10 benchmarks centrados en texto. 2) Además, demostramos el papel crucial de los datos de razonamiento en VQA para ofrecer información contextual completa para preguntas específicas. Esto no solo mejora la precisión, sino que también mitiga significativamente las alucinaciones. En concreto, TextSquare obtiene un promedio de 75.1% en cuatro conjuntos de datos de evaluación general de VQA y alucinaciones, superando a los modelos anteriores más avanzados. 3) Notablemente, el fenómeno observado en la escalabilidad de los conjuntos de datos de VQA centrados en texto revela un patrón claro: el aumento exponencial del volumen de datos para el ajuste por instrucción es directamente proporcional a la mejora en el rendimiento del modelo, validando así la necesidad de la escala del conjunto de datos y la alta calidad de Square-10M.
Las interacciones realistas con objetos son cruciales para crear experiencias virtuales inmersivas, pero sintetizar dinámicas realistas de objetos 3D en respuesta a interacciones novedosas sigue siendo un desafío significativo. A diferencia de la generación de dinámicas incondicionales o condicionadas por texto, la generación de dinámicas condicionadas por acciones requiere percibir las propiedades físicas de los materiales de los objetos y fundamentar la predicción del movimiento 3D en estas propiedades, como la rigidez del objeto. Sin embargo, estimar las propiedades físicas de los materiales es un problema abierto debido a la falta de datos de referencia sobre materiales, ya que medir estas propiedades en objetos reales es extremadamente difícil. Presentamos PhysDreamer, un enfoque basado en física que dota a objetos 3D estáticos de dinámicas interactivas aprovechando los conocimientos previos sobre dinámicas de objetos aprendidos por modelos de generación de videos. Al destilar estos conocimientos previos, PhysDreamer permite sintetizar respuestas realistas de objetos a interacciones novedosas, como fuerzas externas o manipulaciones de agentes. Demostramos nuestro enfoque en diversos ejemplos de objetos elásticos y evaluamos el realismo de las interacciones sintetizadas mediante un estudio con usuarios. PhysDreamer da un paso hacia experiencias virtuales más atractivas y realistas al permitir que objetos 3D estáticos respondan dinámicamente a estímulos interactivos de manera físicamente plausible. Visite nuestra página del proyecto en https://physdreamer.github.io/.
La reescritura de consultas, que tiene como objetivo generar consultas más eficientes modificando la estructura de una consulta SQL sin alterar el resultado, ha sido un problema de investigación importante. Para mantener la equivalencia entre la consulta reescrita y la original durante el proceso de reescritura, los métodos tradicionales de reescritura de consultas siempre siguen ciertas reglas de reescritura. Sin embargo, persisten algunos problemas. En primer lugar, los métodos existentes para encontrar la elección óptima o la secuencia de reglas de reescritura siguen siendo limitados y el proceso siempre consume muchos recursos. Los métodos que implican el descubrimiento de nuevas reglas de reescritura suelen requerir pruebas complicadas de lógica estructural o interacciones extensas con el usuario. En segundo lugar, los métodos actuales de reescritura de consultas suelen depender en gran medida de los estimadores de costos de los sistemas de gestión de bases de datos (DBMS), que a menudo no son precisos. En este artículo, abordamos estos problemas proponiendo un nuevo método de reescritura de consultas llamado LLM-R2, que adopta un modelo de lenguaje grande (LLM) para proponer posibles reglas de reescritura para un sistema de reescritura de bases de datos. Para mejorar aún más la capacidad de inferencia del LLM en la recomendación de reglas de reescritura, entrenamos un modelo contrastivo mediante un plan de estudios para aprender representaciones de consultas y seleccionar demostraciones efectivas de consultas para el LLM. Los resultados experimentales han demostrado que nuestro método puede mejorar significativamente la eficiencia de ejecución de consultas y superar a los métodos de referencia. Además, nuestro método goza de una alta robustez en diferentes conjuntos de datos.
El método de 3D Gaussian Splatting ha sido recientemente adoptado como una técnica versátil y efectiva para la reconstrucción de escenas y la síntesis de nuevas vistas, gracias a sus resultados de alta calidad y su compatibilidad con el rasterizado por hardware. A pesar de sus ventajas, la dependencia de Gaussian Splatting en la inicialización de nubes de puntos de alta calidad mediante algoritmos de Structure-from-Motion (SFM) representa una limitación significativa que debe superarse. Con este fin, investigamos diversas estrategias de inicialización para Gaussian Splatting y exploramos cómo las reconstrucciones volumétricas obtenidas de Neural Radiance Fields (NeRF) pueden utilizarse para evitar la dependencia de los datos de SFM. Nuestros hallazgos demuestran que una inicialización aleatoria puede desempeñarse mucho mejor si se diseña cuidadosamente, y que al emplear una combinación de estrategias de inicialización mejoradas junto con la destilación de estructura a partir de modelos NeRF de bajo costo, es posible lograr resultados equivalentes, o en ocasiones incluso superiores, a los obtenidos mediante la inicialización con SFM.
Recientemente, se han propuesto múltiples técnicas de Reparación Automatizada de Programas (APR, por sus siglas en inglés) basadas en Modelos de Lenguaje de Gran Escala (LLMs) para mejorar el rendimiento en la reparación. Si bien estas técnicas se centran principalmente en la reparación a nivel de una sola línea o de un fragmento (hunk), enfrentan desafíos significativos en aplicaciones del mundo real debido al alcance limitado de las tareas de reparación y al costoso proceso de localización de fallos a nivel de declaración. Sin embargo, la APR a nivel de función, que amplía el alcance de la tarea de APR para corregir funciones completas con errores y requiere solo una localización de fallos a nivel de función más eficiente en términos de costos, sigue siendo poco explorada. En este artículo, realizamos el primer estudio exhaustivo de APR a nivel de función basado en LLMs, incluyendo la investigación del efecto del mecanismo de aprendizaje con pocos ejemplos (few-shot learning) y la información auxiliar relevante para la reparación. Específicamente, adoptamos seis LLMs ampliamente estudiados y construimos un punto de referencia en los conjuntos de datos Defects4J 1.2 y 2.0. Nuestro estudio demuestra que los LLMs con aprendizaje de cero ejemplos (zero-shot learning) ya son técnicas poderosas de APR a nivel de función, mientras que la aplicación del mecanismo de aprendizaje con pocos ejemplos conduce a un rendimiento de reparación dispar. Además, encontramos que aplicar directamente la información auxiliar relevante para la reparación a los LLMs aumenta significativamente el rendimiento de la reparación a nivel de función. Inspirados por nuestros hallazgos, proponemos una técnica de APR a nivel de función basada en LLMs, denominada SRepair, que adopta un marco de doble LLM para aprovechar el poder de la información auxiliar relevante para la reparación y mejorar el rendimiento en la reparación. Los resultados de la evaluación demuestran que SRepair puede corregir correctamente 300 errores de una sola función en el conjunto de datos Defects4J, superando ampliamente todas las técnicas de APR anteriores en al menos un 85%, sin necesidad de la costosa información de localización de fallos a nivel de declaración. Además, SRepair corrige con éxito 32 errores de múltiples funciones en el conjunto de datos Defects4J, lo que, según nuestro conocimiento, es la primera vez que se logra con cualquier técnica de APR.