Artículos de investigación en IA seleccionados diariamente con traducciones
Se ha demostrado que la Generación con Recuperación Aumentada (RAG) mejora las capacidades de conocimiento y alivia el problema de la alucinación de los LLMs. La Web es una fuente principal de conocimiento externo utilizada en los sistemas RAG, y muchos sistemas comerciales como ChatGPT y Perplexity han utilizado motores de búsqueda web como sus principales sistemas de recuperación. Típicamente, estos sistemas RAG recuperan resultados de búsqueda, descargan fuentes HTML de los resultados y luego extraen textos simples de las fuentes HTML. Documentos o fragmentos de texto simples se introducen en los LLMs para aumentar la generación. Sin embargo, gran parte de la información estructural y semántica inherente en HTML, como encabezados y estructuras de tablas, se pierde durante este proceso RAG basado en texto simple. Para aliviar este problema, proponemos HtmlRAG, que utiliza HTML en lugar de texto simple como formato de conocimiento recuperado en RAG. Creemos que HTML es mejor que el texto simple para modelar conocimiento en documentos externos, y la mayoría de los LLMs poseen capacidades sólidas para entender HTML. Sin embargo, utilizar HTML presenta nuevos desafíos. HTML contiene contenido adicional como etiquetas, JavaScript y especificaciones CSS, que aportan tokens de entrada adicionales y ruido al sistema RAG. Para abordar este problema, proponemos estrategias de limpieza, compresión y poda de HTML, para acortar el HTML minimizando la pérdida de información. Específicamente, diseñamos un método de poda basado en árboles de bloques de dos pasos que elimina bloques HTML inútiles y conserva solo la parte relevante del HTML. Experimentos en seis conjuntos de datos de preguntas y respuestas confirman la superioridad de usar HTML en sistemas RAG.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado notables capacidades de generalización y seguimiento de instrucciones con ajuste de instrucciones. Los avances en LLMs y ajuste de instrucciones han llevado al desarrollo de Modelos Grandes de Visión-Lenguaje (LVLMs). Sin embargo, la competencia de los LLMs y el ajuste de instrucciones ha sido menos explorada en el ámbito molecular. Por lo tanto, proponemos LLaMo: Asistente molecular basado en Modelo de Lenguaje Grande, que es un modelo de lenguaje gráfico molecular grande entrenado de extremo a extremo. Para superar la discrepancia entre las modalidades de lenguaje y gráfico, presentamos el proyector gráfico multinivel que transforma representaciones gráficas en tokens gráficos mediante la abstracción de las representaciones de salida de cada capa de GNN y las representaciones de motivos con el mecanismo de atención cruzada. También introducimos datos de instrucciones gráficas moleculares generadas por máquina para ajustar las instrucciones del gran modelo de lenguaje gráfico molecular para comprensión general de moléculas y lenguaje. Nuestros experimentos extensos demuestran que LLaMo muestra el mejor rendimiento en diversas tareas, como generación de descripciones moleculares, predicción de propiedades y predicción de nombres IUPAC. El código de LLaMo está disponible en https://github.com/mlvlab/LLaMo.
Las crecientes capacidades de los grandes modelos generativos y su cada vez más amplia implementación han suscitado preocupaciones sobre su fiabilidad, seguridad y posible uso indebido. Para abordar estos problemas, trabajos recientes han propuesto controlar la generación de modelos dirigiendo las activaciones del modelo para inducir o prevenir de manera efectiva la aparición de conceptos o comportamientos en la salida generada. En este documento presentamos Transporte de Activación (AcT), un marco general para dirigir activaciones guiado por la teoría del transporte óptimo que generaliza muchos trabajos previos de dirección de activaciones. AcT es agnóstico a la modalidad y proporciona un control detallado sobre el comportamiento del modelo con una sobrecarga computacional insignificante, al tiempo que afecta mínimamente las capacidades del modelo. Demostramos experimentalmente la efectividad y versatilidad de nuestro enfoque al abordar desafíos clave en grandes modelos de lenguaje (LLMs) y modelos de difusión de texto a imagen (T2Is). Para LLMs, mostramos que AcT puede mitigar efectivamente la toxicidad, inducir conceptos arbitrarios y aumentar su veracidad. En T2Is, demostramos cómo AcT permite un control detallado del estilo y la negación de conceptos.
Los sistemas de visión actuales suelen asignar representaciones de longitud fija a las imágenes, independientemente del contenido de información. Esto contrasta con la inteligencia humana, e incluso con los grandes modelos de lenguaje, que asignan capacidades representacionales variables basadas en la entropía, el contexto y la familiaridad. Inspirados en esto, proponemos un enfoque para aprender representaciones de tokens de longitud variable para imágenes 2D. Nuestra arquitectura codificador-decodificador procesa de forma recursiva tokens de imagen 2D, destilándolos en tokens latentes 1D a lo largo de múltiples iteraciones de despliegues recurrentes. Cada iteración perfecciona los tokens 2D, actualiza los tokens latentes 1D existentes y aumenta adaptativamente la capacidad representacional añadiendo nuevos tokens. Esto permite la compresión de imágenes en un número variable de tokens, que va desde 32 hasta 256. Validamos nuestro tokenizador utilizando la pérdida de reconstrucción y métricas FID, demostrando que el recuento de tokens se alinea con la entropía de la imagen, la familiaridad y los requisitos de tareas posteriores. El procesamiento recurrente de tokens con aumento de la capacidad representacional en cada iteración muestra signos de especialización de tokens, revelando un potencial para el descubrimiento de objetos/partes.
Los MLLMs han demostrado notables capacidades de comprensión y razonamiento con datos complejos de lenguaje y visuales. Estos avances han impulsado la visión de establecer un robot generalista MLLM competente en comprender instrucciones humanas complejas y llevar a cabo diversas tareas incorporadas. Sin embargo, desarrollar MLLMs para robots del mundo real es desafiante debido a las capacidades de cálculo y memoria típicamente limitadas disponibles en plataformas robóticas. Por el contrario, la inferencia de MLLMs implica almacenar miles de millones de parámetros y realizar un enorme cálculo, imponiendo demandas significativas de hardware. En nuestro artículo, proponemos un Marco Dinámico de Salida Temprana para el Modelo de Visión-Lenguaje-Acción Robótico (DeeR-VLA, o simplemente DeeR) que ajusta automáticamente el tamaño del MLLM activado en función de cada situación particular. El enfoque aprovecha una arquitectura de múltiples salidas en MLLMs, que permite al modelo terminar el procesamiento una vez que se ha activado un tamaño adecuado del modelo para una situación específica, evitando así un cálculo redundante adicional. Además, desarrollamos algoritmos novedosos que establecen criterios de terminación temprana para DeeR, condicionados a demandas predefinidas como el costo computacional promedio (es decir, consumo de energía), así como el consumo computacional pico (es decir, latencia) y el uso de memoria de GPU. Estas mejoras aseguran que DeeR opere eficientemente bajo diversas restricciones de recursos manteniendo un rendimiento competitivo. En el banco de pruebas de manipulación de robots CALVIN, DeeR muestra reducciones significativas en los costos computacionales de LLM de 5.2-6.5 veces y en la memoria de GPU de LLM de 2-6 veces sin comprometer el rendimiento. El código y los puntos de control están disponibles en https://github.com/yueyang130/DeeR-VLA.
Estudiamos métodos para alinear de manera eficiente grandes modelos de lenguaje (LLMs) con las preferencias humanas dadas las retroalimentaciones en línea con presupuesto. Primero formulamos el problema de alineación de LLM en el marco de los bandos duelistas contextuales. Esta formulación, que engloba paradigmas recientes como RLHF en línea y DPO en línea, busca inherentemente algoritmos eficientes en muestras que incorporan exploración activa en línea. Aprovechando ideas de la teoría de bandas, presentamos un algoritmo unificado basado en muestreo de Thompson y destacamos sus aplicaciones en dos escenarios de alineación de LLM distintos. El agente práctico que implementa eficientemente este algoritmo, denominado SEA (Alineación Eficiente de Muestras), se valida empíricamente a través de experimentos extensos en tres escalas de modelo (1B, 2.8B, 6.9B) y tres algoritmos de aprendizaje de preferencias (DPO, IPO, SLiC). Los resultados demuestran que SEA logra una alineación altamente eficiente en muestras con las preferencias del oráculo, superando a los métodos recientes de exploración activa para LLMs. Además, liberamos la implementación de SEA junto con una base de código eficiente diseñada para la alineación en línea de LLMs, con el objetivo de acelerar la investigación futura en este campo.
Presentamos DreamPolish, un modelo de generación de texto a 3D que destaca por producir geometría refinada y texturas de alta calidad. En la fase de construcción de la geometría, nuestro enfoque aprovecha múltiples representaciones neuronales para mejorar la estabilidad del proceso de síntesis. En lugar de depender únicamente de una difusión condicionada a la vista en las nuevas vistas muestreadas, lo cual a menudo conduce a artefactos no deseados en la superficie geométrica, incorporamos un estimador normal adicional para pulir los detalles de la geometría, condicionado a puntos de vista con diferentes campos de visión. Proponemos añadir una etapa de pulido de superficie con solo unos pocos pasos de entrenamiento, que puede refinar efectivamente los artefactos atribuidos a la orientación limitada de las etapas anteriores y producir objetos 3D con una geometría más deseable. El tema clave de la generación de texturas utilizando modelos preentrenados de texto a imagen es encontrar un dominio adecuado en la vasta distribución latente de estos modelos que contenga representaciones fotorrealistas y consistentes. En la fase de generación de texturas, introducimos un objetivo de destilación de puntuación novedoso, denominado destilación de puntuación de dominio (DSD), para guiar las representaciones neuronales hacia dicho dominio. Nos inspiramos en la orientación sin clasificador (CFG) en tareas de generación de imágenes condicionadas por texto y demostramos que CFG y la orientación de distribución variacional representan aspectos distintos en la orientación de gradientes y son ambos dominios imperativos para la mejora de la calidad de las texturas. Experimentos extensos muestran que nuestro modelo propuesto puede producir activos 3D con superficies pulidas y texturas fotorrealistas, superando a los métodos existentes de última generación.
Las funciones implícitas neuronales han traído avances impresionantes al estado del arte de la digitalización de humanos vestidos a partir de múltiples o incluso una sola imagen. Sin embargo, a pesar del progreso, las técnicas actuales aún tienen dificultades para generalizar a imágenes no vistas con deformaciones de tela complejas y poses corporales. En este trabajo, presentamos GarVerseLOD, un nuevo conjunto de datos y marco que allana el camino para lograr una robustez sin precedentes en la reconstrucción tridimensional de prendas de alta fidelidad a partir de una única imagen no restringida. Inspirados en el reciente éxito de los grandes modelos generativos, creemos que una clave para abordar el desafío de la generalización radica en la cantidad y calidad de los datos tridimensionales de prendas. Con este fin, GarVerseLOD recopila 6,000 modelos de tela de alta calidad con detalles de geometría detallados creados manualmente por artistas profesionales. Además de la escala de los datos de entrenamiento, observamos que tener granularidades de geometría disentrelazadas puede desempeñar un papel importante en impulsar la capacidad de generalización y la precisión de inferencia del modelo aprendido. Por lo tanto, diseñamos GarVerseLOD como un conjunto de datos jerárquico con niveles de detalle (LOD), que van desde formas estilizadas sin detalles hasta prendas mezcladas con poses con detalles alineados con píxeles. Esto nos permite hacer que este problema altamente subdeterminado sea abordable al factorizar la inferencia en tareas más fáciles, cada una limitada con un espacio de búsqueda más pequeño. Para garantizar que GarVerseLOD pueda generalizar bien a imágenes en entornos naturales, proponemos un nuevo paradigma de etiquetado basado en modelos de difusión condicional para generar extensas imágenes emparejadas para cada modelo de prenda con alta fotorealismo. Evaluamos nuestro método en una gran cantidad de imágenes en entornos naturales. Los resultados experimentales demuestran que GarVerseLOD puede generar piezas de prendas independientes con una calidad significativamente mejor que enfoques anteriores. Página del proyecto: https://garverselod.github.io/
Los Modelos de Lenguaje Visual (VLMs) han demostrado sólidas capacidades en diversas tareas de comprensión y razonamiento visual. Sin embargo, su implementación en el mundo real suele estar limitada por una alta latencia durante la inferencia debido al considerable cómputo necesario para procesar el gran número de tokens de entrada (principalmente de la imagen) por el LLM. Para reducir los costos de inferencia, se puede disminuir el tamaño del LLM o reducir el número de tokens de imagen de entrada, siendo este último el enfoque de muchos trabajos recientes en torno a la compresión de tokens. Sin embargo, no está claro cuál es el equilibrio óptimo, ya que ambos factores afectan directamente el rendimiento del VLM. En primer lugar, caracterizamos este equilibrio óptimo entre el número de tokens visuales y los parámetros del LLM mediante el establecimiento de leyes de escala que capturan las variaciones en el rendimiento con estos dos factores. Nuestros resultados revelan una tendencia sorprendente: para tareas de razonamiento visual, el comportamiento óptimo en la inferencia en los VLMs, es decir, el error mínimo aguas abajo en cualquier cómputo de inferencia fijo dado, se logra al utilizar el LLM más grande que quepa dentro del presupuesto de inferencia al tiempo que se minimiza el recuento de tokens visuales, a menudo hasta un solo token. Mientras que la literatura de reducción de tokens se ha centrado principalmente en mantener el rendimiento del modelo base reduciendo modestamente el recuento de tokens (por ejemplo, 5-10 veces), nuestros resultados indican que el régimen de inferencia óptimo en cómputo requiere operar bajo ratios de compresión de tokens aún más altos. Basándonos en estas percepciones, damos algunos pasos iniciales hacia la construcción de enfoques adaptados para entornos de alta compresión de tokens. El código está disponible en https://github.com/locuslab/llava-token-compression.
Las enfermedades raras presentan desafíos únicos en la atención médica, a menudo padeciendo de diagnósticos tardíos y paisajes de información fragmentados. La escasez de conocimiento confiable en estas condiciones plantea un desafío específico para los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) en el apoyo a la gestión clínica y la entrega de información precisa del paciente, subrayando la necesidad de una capacitación enfocada en estos casos 'cebra'. Presentamos Zebra-Llama, un modelo de lenguaje especializado con conciencia contextual y alta precisión en la capacidad de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), centrándonos en el Síndrome de Ehlers-Danlos (EDS) como nuestro estudio de caso. El EDS, que afecta a 1 de cada 5,000 individuos, ejemplifica las complejidades de las enfermedades raras con sus síntomas diversos, múltiples subtipos y criterios de diagnóstico en evolución. Al implementar una metodología novedosa de ajuste fino con conciencia contextual, entrenada en preguntas derivadas de literatura médica, experiencias de pacientes y recursos clínicos, junto con respuestas expertamente seleccionadas, Zebra-Llama demuestra capacidades sin precedentes en el manejo de consultas relacionadas con el EDS. En un conjunto de pruebas de preguntas del mundo real recopiladas de pacientes con EDS y clínicos, expertos médicos evaluaron las respuestas generadas por ambos modelos, revelando las mejoras sustanciales de Zebra-Llama sobre el modelo base (Llama 3.1-8B-Instruct) en exhaustividad (77.5% vs. 70.1%), precisión (83.0% vs. 78.8%), claridad (74.7% vs. 72.0%) y fiabilidad de citas (70.6% vs. 52.3%). Lanzado como un recurso de código abierto, Zebra-Llama no solo proporciona información más accesible y confiable sobre el EDS, sino que también establece un marco para el desarrollo de soluciones de IA especializadas para otras condiciones raras. Este trabajo representa un paso crucial hacia la democratización del conocimiento de nivel experto en el manejo de enfermedades raras, potencialmente transformando la forma en que los proveedores de atención médica y los pacientes navegan por el complejo panorama de las enfermedades raras.
A medida que las técnicas de detección de objetos continúan evolucionando, comprender sus relaciones con tareas visuales complementarias se vuelve crucial para optimizar las arquitecturas de modelos y los recursos computacionales. Este artículo investiga las correlaciones entre la precisión de la detección de objetos y dos tareas visuales fundamentales: la predicción de profundidad y la predicción de saliencia visual. A través de experimentos exhaustivos utilizando modelos de última generación (DeepGaze IIE, Depth Anything, DPT-Large y el modelo de Itti) en conjuntos de datos COCO y Pascal VOC, encontramos que la saliencia visual muestra correlaciones consistentemente más fuertes con la precisión de la detección de objetos (mArho de hasta 0.459 en Pascal VOC) en comparación con la predicción de profundidad (mArho de hasta 0.283). Nuestro análisis revela variaciones significativas en estas correlaciones entre las categorías de objetos, con objetos más grandes mostrando valores de correlación hasta tres veces más altos que los objetos más pequeños. Estos hallazgos sugieren que la incorporación de características de saliencia visual en las arquitecturas de detección de objetos podría ser más beneficiosa que la información de profundidad, especialmente para categorías de objetos específicas. Las variaciones observadas específicas de categoría también proporcionan información para la ingeniería de características dirigida y mejoras en el diseño de conjuntos de datos, lo que podría llevar a sistemas de detección de objetos más eficientes y precisos.