Artículos de investigación en IA seleccionados diariamente con traducciones
Permitir a los LLM mejorar sus salidas mediante el uso de más cálculos en tiempo de prueba es un paso crítico hacia la construcción de agentes generalmente auto-mejoradores que puedan operar en lenguaje natural de forma abierta. En este documento, estudiamos la escalabilidad de los cálculos en tiempo de inferencia en LLMs, centrándonos en responder a la pregunta: si a un LLM se le permite utilizar una cantidad fija pero significativa de cálculos en tiempo de inferencia, ¿cuánto puede mejorar su rendimiento en una tarea desafiante? Responder a esta pregunta tiene implicaciones no solo en el rendimiento alcanzable de los LLMs, sino también en el futuro del preentrenamiento de LLM y cómo se debe equilibrar el cálculo en tiempo de inferencia y el preentrenamiento. A pesar de su importancia, hay poca investigación que haya intentado comprender los comportamientos de escalabilidad de varios métodos de inferencia en tiempo de prueba. Además, el trabajo actual en su mayoría proporciona resultados negativos para varias de estas estrategias. En este trabajo, analizamos dos mecanismos principales para escalar el cálculo en tiempo de prueba: (1) buscar en modelos de recompensa verificadores densos basados en procesos; y (2) actualizar la distribución del modelo sobre una respuesta de forma adaptativa, dada la tarea en tiempo de prueba. Descubrimos que, en ambos casos, la efectividad de diferentes enfoques para escalar el cálculo en tiempo de prueba varía críticamente según la dificultad de la tarea. Esta observación motiva la aplicación de una estrategia de escalado "óptima en cálculo", que actúa para asignar de manera más efectiva el cálculo en tiempo de prueba de forma adaptativa por tarea. Utilizando esta estrategia óptima en cálculo, podemos mejorar la eficiencia del escalado del cálculo en tiempo de prueba en más de 4 veces en comparación con un modelo de referencia de mejor de N. Además, en una evaluación de FLOPs equiparada, descubrimos que en problemas donde un modelo base más pequeño alcanza tasas de éxito algo significativas, el cálculo en tiempo de prueba puede utilizarse para superar a un modelo 14 veces más grande.
La capacidad de procesar múltiples imágenes es crucial para que los Modelos de Visión-Lenguaje de Gran Tamaño (LVLMs) desarrollen una comprensión más exhaustiva y matizada de una escena. Los LVLMs multi-imagen recientes han comenzado a abordar esta necesidad. Sin embargo, su evaluación no ha seguido el ritmo de su desarrollo. Para llenar este vacío, presentamos el benchmark de Comprensión Multimodal Multi-imagen (MMIU), una suite de evaluación integral diseñada para evaluar LVLMs en una amplia gama de tareas multi-imagen. MMIU abarca 7 tipos de relaciones multi-imagen, 52 tareas, 77K imágenes y 11K preguntas de opción múltiple meticulosamente seleccionadas, convirtiéndolo en el benchmark más extenso de su tipo. Nuestra evaluación de 24 LVLMs populares, incluyendo modelos de código abierto y propietarios, revela desafíos significativos en la comprensión multi-imagen, especialmente en tareas que involucran comprensión espacial. Incluso los modelos más avanzados, como GPT-4o, solo logran un 55.7% de precisión en MMIU. A través de experimentos analíticos multifacéticos, identificamos brechas de rendimiento clave y limitaciones, proporcionando ideas valiosas para futuras mejoras en modelos y datos. Nuestro objetivo es que MMIU avance en la frontera de la investigación y desarrollo de LVLMs, llevándonos hacia la consecución de interacciones de usuario sofisticadas multi-modales multi-imagen.
Presentamos LLaVA-OneVision, una familia de modelos grandes multimodales abiertos (LMMs) desarrollados consolidando nuestras ideas sobre datos, modelos y representaciones visuales en la serie de blogs LLaVA-NeXT. Nuestros resultados experimentales demuestran que LLaVA-OneVision es el primer modelo único que puede empujar simultáneamente los límites de rendimiento de LMMs abiertos en tres escenarios importantes de visión por computadora: escenarios de imagen única, multiimagen y video. Es importante destacar que el diseño de LLaVA-OneVision permite un fuerte aprendizaje por transferencia entre diferentes modalidades/escenarios, generando nuevas capacidades emergentes. En particular, se demuestran una sólida comprensión de video y capacidades de transferencia de tarea de imágenes a videos.
Introducimos un nuevo enfoque para generar modelos 3D realistas con mapas UV a través de una representación denominada "Imágenes de Objeto". Este enfoque encapsula la geometría de la superficie, la apariencia y las estructuras de parches dentro de una imagen de 64x64 píxeles, convirtiendo eficazmente formas 3D complejas en un formato 2D más manejable. Al hacerlo, abordamos los desafíos de la irregularidad geométrica y semántica inherentes en mallas poligonales. Este método nos permite utilizar modelos de generación de imágenes, como los Transformadores de Difusión, directamente para la generación de formas 3D. Evaluado en el conjunto de datos ABO, nuestras formas generadas con estructuras de parches logran un FID de nube de puntos comparable a los modelos generativos 3D recientes, al mismo tiempo que admiten de forma natural la generación de material PBR.
Este documento presenta MedTrinity-25M, un conjunto de datos multimodal completo a gran escala para medicina, que abarca más de 25 millones de imágenes en 10 modalidades, con anotaciones multigranulares para más de 65 enfermedades. Estas anotaciones enriquecidas incluyen información textual global, como tipo de enfermedad/lesión, modalidad, descripciones específicas de la región y relaciones interregionales, así como anotaciones locales detalladas para regiones de interés (ROIs), que incluyen cuadros delimitadores y máscaras de segmentación. A diferencia de enfoques existentes limitados por la disponibilidad de pares imagen-texto, hemos desarrollado el primer pipeline automatizado que amplía datos multimodales mediante la generación de anotaciones visuales y textuales multigranulares (en forma de tripletes imagen-ROI-descripción) sin necesidad de descripciones de texto emparejadas. Específicamente, se han recopilado, preprocesado y fundamentado datos de más de 90 fuentes diferentes utilizando modelos expertos específicos del dominio para identificar ROIs relacionadas con regiones anormales. Luego construimos una base de conocimientos integral y guiamos a modelos de lenguaje grandes multimodales para realizar generación aumentada por recuperación con las ROIs identificadas como guía, lo que resulta en descripciones textuales multigranulares. En comparación con conjuntos de datos existentes, MedTrinity-25M proporciona las anotaciones más enriquecidas, respaldando una amplia gama de tareas multimodales como subtitulado y generación de informes, así como tareas centradas en la visión como clasificación y segmentación. Al preentrenar en MedTrinity-25M, nuestro modelo logra un rendimiento de vanguardia en VQA-RAD y PathVQA, superando tanto a modelos grandes de lenguaje multimodal como a otros enfoques representativos de vanguardia. Este conjunto de datos también puede utilizarse para respaldar el preentrenamiento a gran escala de modelos de IA médica multimodales, contribuyendo al desarrollo de futuros modelos fundamentales en el ámbito médico.
Los modelos de difusión empujan continuamente los límites de la generación de imágenes de vanguardia, pero el proceso es difícil de controlar con sutileza: la práctica demuestra que las indicaciones textuales son insuficientes para describir con precisión el estilo de una imagen o detalles estructurales finos (como rostros). ControlNet e IPAdapter abordan esta deficiencia condicionando el proceso generativo en imágenes en lugar de texto, pero cada instancia individual se limita a modelar un único posterior condicional: para casos de uso práctico, donde se desean múltiples posteriores diferentes dentro del mismo flujo de trabajo, el entrenamiento y uso de múltiples adaptadores resulta engorroso. Proponemos IPAdapter-Instruct, que combina la condicionante de imágenes naturales con indicaciones "Instruct" para alternar entre interpretaciones para la misma imagen condicionante: ¿transferencia de estilo, extracción de objetos, ambos, u otra cosa aún? IPAdapter-Instruct aprende eficientemente múltiples tareas con una pérdida mínima en calidad en comparación con modelos dedicados por tarea.
Existe una creciente línea de investigación sobre la verificación de la corrección de las salidas de los modelos de lenguaje. Al mismo tiempo, los ML se están utilizando para abordar consultas complejas que requieren razonamiento. Presentamos CoverBench, un banco de pruebas desafiante centrado en verificar las salidas de los ML en entornos de razonamiento complejo. Los conjuntos de datos que se pueden utilizar con este propósito a menudo están diseñados para otras tareas de razonamiento complejo (por ejemplo, QA) dirigidas a casos de uso específicos (por ejemplo, tablas financieras), lo que requiere transformaciones, muestreo negativo y selección de ejemplos difíciles para recopilar dicho banco de pruebas. CoverBench proporciona una evaluación diversificada para la verificación de reclamos complejos en una variedad de dominios, tipos de razonamiento, entradas relativamente largas y una variedad de estandarizaciones, como múltiples representaciones para tablas cuando estén disponibles, y un esquema consistente. Revisamos manualmente los datos para garantizar niveles bajos de ruido en las etiquetas. Finalmente, informamos una variedad de resultados de líneas base competitivos para demostrar que CoverBench es desafiante y tiene un margen de mejora muy significativo. Los datos están disponibles en https://huggingface.co/datasets/google/coverbench.
Este documento demuestra cómo utilizar modelos generativos entrenados para la síntesis de imágenes como herramientas para la minería de datos visuales. Nuestra idea clave es que dado que los modelos generativos contemporáneos aprenden una representación precisa de sus datos de entrenamiento, podemos utilizarlos para resumir los datos mediante la búsqueda de patrones visuales. Concretamente, mostramos que después de ajustar modelos de difusión condicional para sintetizar imágenes de un conjunto de datos específico, podemos utilizar estos modelos para definir una medida de tipicidad en ese conjunto de datos. Esta medida evalúa qué tan típicos son los elementos visuales para diferentes etiquetas de datos, como la ubicación geográfica, marcas de tiempo, etiquetas semánticas o incluso la presencia de una enfermedad. Este enfoque de análisis por síntesis para la minería de datos tiene dos ventajas clave. Primero, escala mucho mejor que los enfoques tradicionales basados en correspondencias, ya que no requiere comparar explícitamente todos los pares de elementos visuales. En segundo lugar, mientras que la mayoría de los trabajos previos sobre minería de datos visuales se centran en un solo conjunto de datos, nuestro enfoque funciona en conjuntos de datos diversos en cuanto a contenido y escala, incluyendo un conjunto de datos histórico de automóviles, un conjunto de datos histórico de rostros, un extenso conjunto de datos de vistas de calles a nivel mundial y un conjunto de datos de escenas aún más grande. Además, nuestro enfoque permite traducir elementos visuales entre etiquetas de clase y analizar cambios consistentes.
La sincronización labial de videos con audio proporcionado es la base para varias aplicaciones, incluida la creación de presentadores o artistas virtuales. Si bien estudios recientes exploran la sincronización labial de alta fidelidad con diferentes técnicas, sus modelos orientados a tareas requieren videos a largo plazo para entrenamiento específico del clip o presentan artefactos visibles. En este documento, proponemos un marco unificado y efectivo llamado ReSyncer, que sincroniza información facial audiovisual generalizada. El diseño clave consiste en revisitar y reconfigurar el generador basado en estilo para adoptar eficientemente la dinámica facial 3D predicha por un Transformer inyectado con estilo de manera fundamentada. Al reconfigurar simplemente los mecanismos de inserción de información dentro del espacio de ruido y estilo, nuestro marco fusiona el movimiento y la apariencia con un entrenamiento unificado. Experimentos extensos demuestran que ReSyncer no solo produce videos de sincronización labial de alta fidelidad de acuerdo con el audio, sino que también admite múltiples propiedades atractivas adecuadas para crear presentadores y artistas virtuales, incluido el ajuste fino personalizado rápido, la sincronización labial impulsada por video, la transferencia de estilos de habla e incluso el intercambio de rostros. Los recursos se pueden encontrar en https://guanjz20.github.io/projects/ReSyncer.
La evaluación es el bastón para el desarrollo de grandes modelos de lenguaje. Las evaluaciones actuales suelen emplear un paradigma de evaluación de un solo elemento para cada objetivo de prueba atómico, lo que dificulta discernir si un modelo posee genuinamente las capacidades requeridas o simplemente memoriza/adivina las respuestas a preguntas específicas. Con este fin, proponemos un nuevo marco de evaluación denominado StructEval. Partiendo de un objetivo de prueba atómico, StructEval profundiza y amplía la evaluación al realizar una evaluación estructurada en múltiples niveles cognitivos y conceptos críticos, ofreciendo así una evaluación integral, sólida y coherente para los LLMs. Experimentos en tres benchmarks ampliamente utilizados demuestran que StructEval sirve como una herramienta confiable para resistir el riesgo de contaminación de datos y reducir la interferencia de posibles sesgos, proporcionando conclusiones más fiables y consistentes sobre las capacidades del modelo. Nuestro marco también arroja luz sobre el diseño de futuros protocolos de evaluación de LLMs fundamentados y confiables.
La brecha de capacidad entre modelos de lenguaje grandes (LLMs) de código abierto y de código cerrado sigue siendo un desafío en tareas de texto a SQL. En este documento, presentamos un enfoque de datos sintéticos que combina datos producidos por modelos más grandes y potentes (modelos fuertes) con datos de información de error generados por modelos más pequeños y no bien alineados (modelos débiles). El método no solo mejora la generalización de dominio de los modelos de texto a SQL, sino que también explora el potencial de la supervisión de datos de error a través del aprendizaje de preferencias. Además, empleamos el enfoque de datos sintéticos para ajustar instrucciones en LLMs de código abierto, lo que resulta en SENSE, un modelo especializado de texto a SQL. La efectividad de SENSE se demuestra a través de resultados de vanguardia en los benchmarks SPIDER y BIRD, reduciendo la brecha de rendimiento entre modelos de código abierto y métodos impulsados por modelos de código cerrado.
Recientemente, los modelos basados en transformadores han demostrado un rendimiento notable en tareas de segmentación audiovisual (AVS). Sin embargo, su elevado costo computacional hace que la inferencia en tiempo real sea impracticable. Al caracterizar los mapas de atención de la red, identificamos dos obstáculos clave en los modelos AVS: 1) disipación de atención, que corresponde a los pesos de atención sobreconcentrados por Softmax dentro de marcos restringidos, y 2) un decodificador de transformador ineficiente y pesado, causado por patrones de enfoque estrechos en etapas tempranas. En este documento, presentamos AVESFormer, el primer transformador de Segmentación Audiovisual Eficiente en tiempo real que logra ser rápido, eficiente y ligero simultáneamente. Nuestro modelo aprovecha un generador de consultas eficiente para corregir el comportamiento de la atención cruzada. Además, proponemos el decodificador ELF para lograr una mayor eficiencia al facilitar convoluciones adecuadas para características locales y así reducir las cargas computacionales. Experimentos extensos demuestran que nuestro AVESFormer mejora significativamente el rendimiento del modelo, logrando un 79.9% en S4, 57.9% en MS3 y 31.2% en AVSS, superando el estado del arte anterior y logrando un excelente equilibrio entre rendimiento y velocidad. El código está disponible en https://github.com/MarkXCloud/AVESFormer.git.