Artículos de investigación en IA seleccionados diariamente con traducciones
Los LLMs y los sistemas RAG son ahora capaces de manejar millones de tokens de entrada o más. Sin embargo, evaluar la calidad de salida de tales sistemas en tareas de largo contexto sigue siendo un desafío, ya que tareas como Needle-in-a-Haystack carecen de complejidad. En este trabajo, argumentamos que la sumarización puede desempeñar un papel central en dicha evaluación. Diseñamos un procedimiento para sintetizar Montones de documentos, asegurando que ideas específicas se repitan entre los documentos. La tarea "Resumen de un Montón" (SummHay) luego requiere que un sistema procese el Montón y genere, dado un cuestionamiento, un resumen que identifique las ideas relevantes y cite precisamente los documentos fuente. Dado que tenemos un conocimiento preciso de qué ideas deberían aparecer en un resumen de montón y qué documentos deberían ser citados, implementamos una evaluación automática altamente reproducible que puede puntuar resúmenes en dos aspectos: Cobertura y Cita. Generamos Montones en dos dominios (conversación, noticias) y realizamos una evaluación a gran escala de 10 LLMs y 50 sistemas RAG correspondientes. Nuestros hallazgos indican que SummHay es un desafío abierto para los sistemas actuales, ya que incluso los sistemas provistos con una señal Oráculo de relevancia documental se rezagan respecto a nuestra estimación del rendimiento humano (56\%) por más de 10 puntos en una Puntuación Conjunta. Sin un recuperador, LLMs de largo contexto como GPT-4o y Claude 3 Opus obtienen puntajes por debajo del 20% en SummHay. Mostramos que SummHay también puede ser utilizado para estudiar sistemas RAG empresariales y sesgos de posición en modelos de largo contexto. Esperamos que los sistemas futuros puedan igualar y superar el rendimiento humano en SummHay.
Los recientes avances en modelos de lenguaje grandes (LLMs) han impulsado significativamente la automatización de tareas de desarrollo de software, incluida la síntesis de código, la reparación de programas y la generación de pruebas. Más recientemente, investigadores y profesionales de la industria han desarrollado varios agentes autónomos LLM para llevar a cabo tareas de desarrollo de software de principio a fin. Estos agentes están equipados con la capacidad de utilizar herramientas, ejecutar comandos, observar retroalimentación del entorno y planificar acciones futuras. Sin embargo, la complejidad de estos enfoques basados en agentes, junto con las limitadas capacidades de los LLM actuales, plantea la siguiente pregunta: ¿Realmente necesitamos emplear agentes de software autónomos complejos? Para intentar responder a esta pregunta, construimos Agentless: un enfoque sin agente para resolver automáticamente problemas de desarrollo de software. En comparación con la configuración detallada y compleja de los enfoques basados en agentes, Agentless utiliza un proceso simplista de dos fases de localización seguido de reparación, sin permitir que el LLM decida acciones futuras u opere con herramientas complejas. Nuestros resultados en el popular banco de pruebas SWE-bench Lite muestran que sorprendentemente, el simplista Agentless logra tanto el mejor rendimiento (27.33%) como el menor costo (\$0.34) en comparación con todos los agentes de software de código abierto existentes. Además, clasificamos manualmente los problemas en SWE-bench Lite y encontramos problemas con parches de verdad absoluta exactos o descripciones de problemas insuficientes/engañosas. Por lo tanto, construimos SWE-bench Lite-S excluyendo estos problemas problemáticos para realizar una evaluación y comparación más rigurosas. Nuestro trabajo destaca el potencial actualmente pasado por alto de una técnica simple e interpretable en el desarrollo de software autónomo. Esperamos que Agentless ayude a restablecer la línea base, el punto de partida y el horizonte para los agentes de software autónomos, e inspire trabajos futuros en esta dirección crucial.
La generación de texto a video (T2V) ha recibido recientemente una atención significativa gracias al gran modelo de multimodalidad Sora. Sin embargo, la generación T2V todavía enfrenta dos desafíos importantes: 1) La falta de un conjunto de datos de alta calidad, preciso y de código abierto. Los conjuntos de datos de video populares anteriores, como WebVid-10M y Panda-70M, tienen una calidad baja o son demasiado grandes para la mayoría de las instituciones de investigación. Por lo tanto, es un desafío pero crucial recopilar pares de texto-video precisos y de alta calidad para la generación T2V. 2) Ignorar el aprovechamiento total de la información textual. Los métodos recientes de T2V se han centrado en transformadores visuales, utilizando un módulo de atención cruzada simple para la generación de video, lo que no logra extraer completamente la información semántica de la indicación de texto. Para abordar estos problemas, presentamos OpenVid-1M, un conjunto de datos preciso y de alta calidad con descripciones expresivas. Este conjunto de datos de escenario abierto contiene más de 1 millón de pares de texto-video, facilitando la investigación sobre la generación T2V. Además, curamos 433K videos en 1080p de OpenVid-1M para crear OpenVidHD-0.4M, avanzando en la generación de video de alta definición. Además, proponemos un nuevo Transformador de Difusión de Video Multimodal (MVDiT) capaz de extraer tanto información estructural de tokens visuales como información semántica de tokens de texto. Experimentos extensos y estudios de ablación verifican la superioridad de OpenVid-1M sobre conjuntos de datos anteriores y la efectividad de nuestro MVDiT.
Los desafíos computacionales de la inferencia de Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) siguen siendo una barrera significativa para su implementación generalizada, especialmente a medida que las longitudes de las indicaciones continúan aumentando. Debido a la complejidad cuadrática de la computación de atención, un LLM de 8B tarda 30 minutos en procesar una indicación de 1M de tokens (es decir, la etapa de pre-llenado) en una sola GPU A100. Los métodos existentes para acelerar el pre-llenado a menudo no logran mantener una precisión o eficiencia aceptables cuando se aplican a LLMs de contexto largo. Para abordar esta brecha, presentamos MInference (Inferencia de Millontokens), un método de cálculo disperso diseñado para acelerar el procesamiento de secuencias largas en la etapa de pre-llenado. Específicamente, identificamos tres patrones únicos en las matrices de atención de contexto largo: la forma A, Vertical-Slash y Block-Sparse, que pueden aprovecharse para una computación dispersa eficiente en GPUs. Determinamos el patrón óptimo para cada cabeza de atención de forma offline y construimos dinámicamente índices dispersos basados en el patrón asignado durante la inferencia. Con el patrón e índices dispersos, realizamos cálculos de atención dispersa eficientes a través de nuestros núcleos de GPU optimizados para reducir significativamente la latencia en la etapa de pre-llenado de LLMs de contexto largo. Nuestra técnica propuesta puede aplicarse directamente a LLMs existentes sin ninguna modificación en la configuración de pre-entrenamiento o ajuste adicional. Al evaluar en una amplia gama de tareas secundarias, incluyendo InfiniteBench, RULER, PG-19 y Needle In A Haystack, y modelos que incluyen LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K y Qwen2-128K, demostramos que MInference reduce efectivamente la latencia de inferencia hasta 10 veces para el pre-llenado en una A100, manteniendo la precisión. Nuestro código está disponible en https://aka.ms/MInference.
La alineación de preferencias se ha convertido en un componente crucial para mejorar el rendimiento de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), sin embargo, su impacto en los Modelos de Lenguaje Grandes Multimodales (MLLMs) sigue siendo relativamente poco explorado. Al igual que los modelos de lenguaje, los MLLMs para tareas de comprensión de imágenes enfrentan desafíos como la alucinación. En los MLLMs, la alucinación puede ocurrir no solo al declarar hechos incorrectos, sino también al producir respuestas que son inconsistentes con el contenido de la imagen. Un objetivo principal de la alineación para MLLMs es fomentar que estos modelos alineen las respuestas de manera más cercana a la información de la imagen. Recientemente, varios trabajos han introducido conjuntos de datos de preferencias para MLLMs y han examinado diferentes métodos de alineación, incluyendo la Optimización Directa de Preferencias (DPO) y la Optimización de Política Proximal (PPO). Sin embargo, debido a variaciones en los conjuntos de datos, tipos de modelos base y métodos de alineación, sigue sin estar claro qué elementos específicos contribuyen de manera más significativa a las mejoras reportadas en estos trabajos. En este documento, analizamos de manera independiente cada aspecto de la alineación de preferencias en MLLMs. Comenzamos categorizando los algoritmos de alineación en dos grupos, offline (como DPO) y online (como online-DPO), y demostramos que combinar métodos offline y online puede mejorar el rendimiento del modelo en ciertos escenarios. Revisamos una variedad de conjuntos de datos de preferencias multimodales publicados y discutimos cómo los detalles de su construcción impactan en el rendimiento del modelo. Basándonos en estas percepciones, introducimos una nueva forma de crear datos de preferencias multimodales llamada Muestreo de Alucinación Dirigida por Sesgo (BDHS) que no requiere anotaciones adicionales ni modelos externos, y demostramos que puede lograr un rendimiento competitivo con respecto a trabajos de alineación previamente publicados para modelos multimodales en una variedad de pruebas comparativas.
Presentamos Magic Insert, un método para arrastrar y soltar sujetos de una imagen proporcionada por el usuario en una imagen objetivo de un estilo diferente de manera físicamente plausible mientras se ajusta al estilo de la imagen objetivo. Este trabajo formaliza el problema de arrastrar y soltar con conciencia de estilo y presenta un método para abordarlo al abordar dos subproblemas: personalización con conciencia de estilo e inserción realista de objetos en imágenes estilizadas. Para la personalización con conciencia de estilo, nuestro método primero ajusta finamente un modelo de difusión de texto a imagen preentrenado utilizando LoRA y tokens de texto aprendidos en la imagen del sujeto, y luego lo infunde con una representación CLIP del estilo objetivo. Para la inserción de objetos, utilizamos Adaptación de Dominio Bootstrap para adaptar un modelo de inserción de objetos fotorrealistas específico de dominio al dominio de diversos estilos artísticos. En general, el método supera significativamente en rendimiento a enfoques tradicionales como el rellenado. Finalmente, presentamos un conjunto de datos, SubjectPlop, para facilitar la evaluación y el progreso futuro en esta área. Página del proyecto: https://magicinsert.github.io/
El emparejamiento de flujos (FM) es un marco general para definir trayectorias de probabilidad a través de Ecuaciones Diferenciales Ordinarias (ODEs) para transformar entre ruido y muestras de datos. Enfoques recientes intentan enderezar estas trayectorias de flujo para generar muestras de alta calidad con menos evaluaciones de funciones, típicamente a través de métodos de rectificación iterativos o soluciones de transporte óptimo. En este artículo, presentamos el Emparejamiento de Flujos Consistente (Consistency-FM), un método de FM novedoso que hace cumplir explícitamente la autoconsistencia en el campo de velocidad. Consistency-FM define directamente flujos rectos que comienzan en diferentes momentos hacia el mismo punto final, imponiendo restricciones en los valores de velocidad. Además, proponemos un enfoque de entrenamiento de múltiples segmentos para Consistency-FM para mejorar la expresividad, logrando un mejor equilibrio entre la calidad de muestreo y la velocidad. Experimentos preliminares demuestran que nuestro Consistency-FM mejora significativamente la eficiencia de entrenamiento al converger 4.4 veces más rápido que los modelos de consistencia y 1.7 veces más rápido que los modelos de flujo rectificado, al tiempo que logra una mejor calidad de generación. Nuestro código está disponible en: https://github.com/YangLing0818/consistency_flow_matching
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) entrenados en extensos corpus inevitablemente retienen datos sensibles, como información de privacidad personal y material con derechos de autor. Los avances recientes en el olvido de conocimiento implican la actualización de parámetros de LLM para borrar conocimiento específico. Sin embargo, los paradigmas actuales de olvido están atrapados en límites vagos, a menudo borrando conocimiento indiscriminadamente. En este trabajo, presentamos KnowUnDo, un banco de pruebas que contiene contenido con derechos de autor y dominios de privacidad del usuario para evaluar si el proceso de olvido borra involuntariamente conocimiento esencial. Nuestros hallazgos indican que los métodos de olvido existentes a menudo sufren de un olvido excesivo. Para abordar esto, proponemos un método simple pero efectivo, MemFlex, que utiliza información de gradiente para apuntar y desaprender de manera precisa parámetros sensibles. Los resultados experimentales muestran que MemFlex es superior a los métodos existentes tanto en el desaprendizaje preciso de conocimiento como en la retención de conocimiento general de LLMs. El código y el conjunto de datos se publicarán en https://github.com/zjunlp/KnowUnDo.
Los recientes avances en la generación de videos basada en difusión han mostrado resultados notables, sin embargo, la brecha entre videos sintéticos y del mundo real sigue siendo poco explorada. En este estudio, examinamos esta brecha desde tres perspectivas fundamentales: apariencia, movimiento y geometría, comparando videos del mundo real con aquellos generados por un modelo de IA de última generación, Difusión de Video Estable. Para lograr esto, entrenamos tres clasificadores utilizando redes convolucionales 3D, cada uno dirigido a aspectos distintos: características del modelo de visión para apariencia, flujo óptico para movimiento y profundidad monocular para geometría. Cada clasificador muestra un rendimiento sólido en la detección de videos falsos, tanto cualitativa como cuantitativamente. Esto indica que los videos generados por IA siguen siendo fácilmente detectables, y una brecha significativa entre videos reales y falsos persiste. Además, utilizando Grad-CAM, señalamos fallas sistemáticas de los videos generados por IA en apariencia, movimiento y geometría. Finalmente, proponemos un modelo de Conjunto de Expertos que integra información de apariencia, flujo óptico y profundidad para la detección de videos falsos, lo que resulta en una mayor robustez y capacidad de generalización. Nuestro modelo es capaz de detectar videos generados por Sora con alta precisión, incluso sin exposición a ningún video de Sora durante el entrenamiento. Esto sugiere que la brecha entre videos reales y falsos puede generalizarse a través de varios modelos generativos de video. Página del proyecto: https://justin-crchang.github.io/3DCNNDetection.github.io/
Descubrir valores y opiniones latentes en grandes modelos de lenguaje (LLMs) puede ayudar a identificar sesgos y mitigar posibles daños. Recientemente, esto se ha abordado presentando a los LLMs preguntas de encuestas y cuantificando sus posturas hacia afirmaciones moral y políticamente cargadas. Sin embargo, las posturas generadas por los LLMs pueden variar considerablemente dependiendo de cómo se les incite, y hay muchas formas de argumentar a favor o en contra de una posición dada. En este trabajo, proponemos abordar esto analizando un conjunto de datos grande y robusto de 156k respuestas de LLM a las 62 proposiciones del Test de la Brújula Política (PCT) generadas por 6 LLMs utilizando 420 variaciones de estímulos. Realizamos un análisis de grano grueso de las posturas generadas y un análisis de grano fino de las justificaciones en texto plano de esas posturas. Para el análisis de grano fino, proponemos identificar tropos en las respuestas: frases semánticamente similares que son recurrentes y consistentes en diferentes estímulos, revelando patrones en el texto que un determinado LLM tiende a producir. Descubrimos que las características demográficas añadidas a los estímulos afectan significativamente los resultados en el PCT, reflejando sesgos, así como disparidades entre los resultados de pruebas al obtener respuestas de dominio cerrado frente a dominio abierto. Además, los patrones en las justificaciones en texto plano a través de tropos muestran que se generan justificaciones similares repetidamente entre modelos y estímulos, incluso con posturas dispares.
Estudiamos Neural Foley, la generación automática de efectos de sonido de alta calidad sincronizados con videos, permitiendo una experiencia audiovisual inmersiva. A pesar de su amplio rango de aplicaciones, los enfoques existentes encuentran limitaciones al sintetizar simultáneamente sonidos de alta calidad y alineados con el video (es decir, relevantes semánticamente y sincronizados temporalmente). Para superar estas limitaciones, proponemos FoleyCrafter, un marco novedoso que aprovecha un modelo pre-entrenado de texto a audio para garantizar una generación de audio de alta calidad. FoleyCrafter consta de dos componentes clave: el adaptador semántico para alineación semántica y el controlador temporal para una sincronización precisa audio-video. El adaptador semántico utiliza capas de atención cruzada paralelas para condicionar la generación de audio en las características del video, produciendo efectos de sonido realistas que son semánticamente relevantes al contenido visual. Mientras tanto, el controlador temporal incorpora un detector de inicio y un adaptador basado en marcas de tiempo para lograr una alineación precisa audio-video. Una ventaja notable de FoleyCrafter es su compatibilidad con indicaciones de texto, lo que permite el uso de descripciones de texto para lograr una generación de video a audio controlable y diversa según las intenciones del usuario. Realizamos experimentos cuantitativos y cualitativos extensos en bancos de pruebas estándar para verificar la efectividad de FoleyCrafter. Los modelos y códigos están disponibles en https://github.com/open-mmlab/FoleyCrafter.
Los avances recientes en microscopía han permitido la generación rápida de terabytes de datos de imágenes en biología celular e investigación biomédica. Los modelos visión-lenguaje (VLMs) ofrecen una solución prometedora para el análisis de imágenes biológicas a gran escala, mejorando la eficiencia de los investigadores, identificando nuevos biomarcadores de imagen y acelerando la generación de hipótesis y el descubrimiento científico. Sin embargo, existe una falta de bancos de pruebas visión-lenguaje estandarizados, diversos y a gran escala para evaluar las capacidades de percepción y cognición de los VLMs en la comprensión de imágenes biológicas. Para abordar esta brecha, presentamos {\mu}-Bench, un banco de pruebas experto que abarca 22 tareas biomédicas en diversas disciplinas científicas (biología, patología), modalidades de microscopía (electrónica, de fluorescencia, de luz), escalas (subcelular, celular, de tejido) y organismos en estados normales y anormales. Evaluamos los VLMs biomédicos, de patología y generales más avanzados en {\mu}-Bench y encontramos que: i) los modelos actuales tienen dificultades en todas las categorías, incluso para tareas básicas como distinguir modalidades de microscopía; ii) los modelos especializados actuales ajustados en datos biomédicos a menudo tienen un rendimiento inferior a los modelos generalistas; iii) el ajuste fino en dominios específicos de microscopía puede causar un olvido catastrófico, erosionando el conocimiento biomédico previo codificado en su modelo base. iv) la interpolación de pesos entre modelos ajustados y pre-entrenados ofrece una solución al olvido y mejora el rendimiento general en tareas biomédicas. Publicamos {\mu}-Bench bajo una licencia permisiva para acelerar la investigación y desarrollo de modelos fundamentales de microscopía.