Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de su notable rendimiento, el desarrollo de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) enfrenta un desafío crítico en cuanto a supervisión escalable: proporcionar retroalimentación efectiva para tareas donde la evaluación humana es difícil o donde los LLMs superan a los humanos. Aunque existe un creciente interés en utilizar LLMs para críticas, los enfoques actuales aún dependen de anotaciones humanas o modelos más potentes, dejando sin resolver el problema de mejorar las capacidades de crítica sin supervisión externa. Presentamos SCRIT (CRITico Auto-evolutivo), un marco que permite una genuina auto-evolución de las habilidades críticas. Técnicamente, SCRIT se mejora a sí mismo entrenando con datos sintéticos, generados por un auto-crítico basado en contrastes que utiliza soluciones de referencia para la crítica paso a paso, y un mecanismo de auto-validación que garantiza la calidad de la crítica a través de los resultados de corrección. Implementado con Qwen2.5-72B-Instruct, uno de los LLMs más potentes, SCRIT logra hasta un 10.3\% de mejora en los puntos de referencia de corrección de críticas e identificación de errores. Nuestro análisis revela que el rendimiento de SCRIT escala positivamente con el tamaño de los datos y del modelo, supera a los enfoques alternativos y se beneficia críticamente de su componente de auto-validación.
La Generación con Recuperación Aumentada (RAG, por sus siglas en inglés) es una estrategia poderosa para abordar el problema de generar salidas incorrectas desde el punto de vista factual en modelos base mediante la recuperación de conocimiento externo relevante a las consultas e incorporándolo en su proceso de generación. Sin embargo, los enfoques RAG existentes se han centrado principalmente en información textual, con algunos avances recientes que comienzan a considerar imágenes, y en gran medida pasan por alto los videos, una fuente rica de conocimiento multimodal capaz de representar eventos, procesos y detalles contextuales de manera más efectiva que cualquier otra modalidad. Aunque algunos estudios recientes exploran la integración de videos en el proceso de generación de respuestas, o bien predefinen videos asociados a consultas sin recuperarlos según las consultas, o convierten videos en descripciones textuales sin aprovechar su riqueza multimodal. Para abordar esto, presentamos VideoRAG, un marco novedoso que no solo recupera dinámicamente videos relevantes basados en su relevancia con las consultas, sino que también utiliza tanto la información visual como textual de los videos en la generación de salidas. Además, para operacionalizar esto, nuestro método gira en torno al reciente avance de los Modelos de Lenguaje para Videos a Gran Escala (LVLMs, por sus siglas en inglés), que permiten el procesamiento directo del contenido de video para representarlo en la recuperación e integración fluida de los videos recuperados conjuntamente con las consultas. Validamos experimentalmente la efectividad de VideoRAG, demostrando que es superior a los baselines relevantes.
El razonamiento es una capacidad fundamental para resolver problemas complejos de múltiples pasos, especialmente en contextos visuales donde la comprensión secuencial paso a paso es esencial. Los enfoques existentes carecen de un marco integral para evaluar el razonamiento visual y no enfatizan la resolución de problemas paso a paso. Con este fin, proponemos un marco integral para avanzar en el razonamiento visual paso a paso en modelos de lenguaje grandes (LLMs) a través de tres contribuciones clave. En primer lugar, presentamos un banco de pruebas de razonamiento visual específicamente diseñado para evaluar tareas de razonamiento de múltiples pasos. El banco de pruebas presenta un conjunto diverso de desafíos con ocho categorías diferentes que van desde la percepción visual compleja hasta el razonamiento científico con más de 4k pasos de razonamiento en total, lo que permite una evaluación sólida de las capacidades de los LLMs para realizar un razonamiento visual preciso e interpretable a lo largo de múltiples pasos. En segundo lugar, proponemos una métrica novedosa que evalúa la calidad del razonamiento visual en la granularidad de los pasos individuales, enfatizando tanto la corrección como la coherencia lógica. La métrica propuesta ofrece una comprensión más profunda del rendimiento de razonamiento en comparación con las métricas tradicionales de precisión de tareas finales. En tercer lugar, presentamos un nuevo modelo de razonamiento visual multimodal, llamado LlamaV-o1, entrenado utilizando un enfoque de aprendizaje de currículo de múltiples pasos, donde las tareas se organizan progresivamente para facilitar la adquisición incremental de habilidades y la resolución de problemas. El LlamaV-o1 propuesto está diseñado para el razonamiento de múltiples pasos y aprende paso a paso a través de un paradigma de entrenamiento estructurado. Experimentos extensos muestran que nuestro LlamaV-o1 supera a los modelos de código abierto existentes y se desempeña favorablemente en comparación con modelos propietarios de código cerrado. En comparación con el reciente Llava-CoT, nuestro LlamaV-o1 logra una puntuación promedio de 67.3 con una ganancia absoluta del 3.8\% en seis bancos de pruebas, siendo 5 veces más rápido durante la escalabilidad de inferencia. Nuestro banco de pruebas, modelo y código están disponibles públicamente.
El desarrollo de sistemas robóticos generales capaces de manipular en entornos no estructurados es un desafío significativo. Si bien los Modelos de Visión-Lenguaje (VLM) sobresalen en el razonamiento de sentido común de alto nivel, carecen del entendimiento espacial 3D detallado necesario para tareas de manipulación precisa. Ajustar finamente los VLM en conjuntos de datos robóticos para crear Modelos de Visión-Lenguaje-Acción (VLA) es una solución potencial, pero se ve obstaculizada por los altos costos de recopilación de datos y problemas de generalización. Para abordar estos desafíos, proponemos una representación novedosa centrada en objetos que reduce la brecha entre el razonamiento de alto nivel de los VLM y la precisión de bajo nivel requerida para la manipulación. Nuestra idea clave es que el espacio canónico de un objeto, definido por sus capacidades funcionales, proporciona una forma estructurada y semánticamente significativa de describir primitivas de interacción, como puntos y direcciones. Estas primitivas actúan como un puente, traduciendo el razonamiento de sentido común de los VLM en restricciones espaciales 3D ejecutables. En este contexto, presentamos un sistema de manipulación robótica de doble bucle cerrado y vocabulario abierto: un bucle para la planificación de alto nivel a través de re-muestreo de primitivas, renderizado de interacción y verificación de VLM, y otro para la ejecución de bajo nivel a través del seguimiento de la pose 6D. Este diseño garantiza un control robusto y en tiempo real sin necesidad de ajuste fino de los VLM. Experimentos extensos demuestran una fuerte generalización de cero disparos en diversas tareas de manipulación robótica, resaltando el potencial de este enfoque para automatizar la generación de datos de simulación a gran escala.
La Conciencia Temporal, la capacidad de razonar dinámicamente basada en la marca de tiempo en la que se plantea una pregunta, es la distinción clave entre los LLM de video en línea y fuera de línea. A diferencia de los modelos fuera de línea, que se basan en videos completos para un análisis estático y posterior, los modelos en línea procesan flujos de video de forma incremental y se adaptan dinámicamente a sus respuestas según la marca de tiempo en la que se plantea la pregunta. A pesar de su importancia, la conciencia temporal no ha sido evaluada adecuadamente en los benchmarks existentes. Para cubrir esta brecha, presentamos OVO-Bench (Online-VideO-Benchmark), un nuevo benchmark de video que enfatiza la importancia de las marcas de tiempo para la capacidad avanzada de comprensión de video en línea. OVO-Bench evalúa la capacidad de los LLM de video para razonar y responder a eventos que ocurren en marcas de tiempo específicas bajo tres escenarios distintos: (1) Rastreo hacia atrás: retroceder a eventos pasados para responder la pregunta. (2) Comprensión en tiempo real: comprender y responder a eventos a medida que se desarrollan en la marca de tiempo actual. (3) Respuesta activa hacia adelante: retrasar la respuesta hasta que esté disponible suficiente información futura para responder la pregunta con precisión. OVO-Bench consta de 12 tareas, con 644 videos únicos y aproximadamente 2,800 meta-anotaciones detalladas curadas por humanos con marcas de tiempo precisas. Combinamos pipelines de generación automatizada con curación humana. Con estas muestras de alta calidad, desarrollamos además un pipeline de evaluación para consultar sistemáticamente a los LLM de video a lo largo de la línea de tiempo del video. Las evaluaciones de nueve Video-LLMs revelan que, a pesar de los avances en benchmarks tradicionales, los modelos actuales tienen dificultades con la comprensión de video en línea, mostrando una brecha significativa en comparación con agentes humanos. Esperamos que OVO-Bench impulse el progreso en los LLM de video e inspire futuras investigaciones en razonamiento de video en línea. Nuestro benchmark y código están disponibles en https://github.com/JoeLeelyf/OVO-Bench.
El reciente avance de los Modelos de Lenguaje Multimodal Grande (MLLMs) ha mejorado significativamente su percepción detallada de imágenes individuales y comprensión general a través de múltiples imágenes. Sin embargo, los MLLMs existentes aún enfrentan desafíos para lograr un anclaje preciso en escenarios complejos de múltiples imágenes. Para abordar esto, primero exploramos un marco de Cadena de Pensamiento (CoT) que integra el anclaje de imágenes individuales con la comprensión de múltiples imágenes. Aunque parcialmente efectivo, sigue siendo inestable y tiene dificultades para capturar información visual abstracta debido a su naturaleza no de extremo a extremo. Por lo tanto, presentamos Migician, el primer modelo de anclaje de múltiples imágenes capaz de realizar anclajes libres y precisos a través de múltiples imágenes. Para respaldar esto, presentamos el conjunto de datos MGrounding-630k, que comprende datos para varias tareas de anclaje de múltiples imágenes derivadas de conjuntos de datos existentes, junto con datos recién generados de seguimiento de instrucciones de anclaje libre. Además, proponemos MIG-Bench, un banco de pruebas integral diseñado específicamente para evaluar las capacidades de anclaje de múltiples imágenes. Los resultados experimentales demuestran que nuestro modelo logra capacidades de anclaje de múltiples imágenes significativamente superiores, superando a los mejores MLLMs existentes en un 21.61% e incluso superando a modelos mucho más grandes de 70B. Nuestro código, modelo, conjunto de datos y banco de pruebas están completamente disponibles en código abierto.
Los modelos de lenguaje grandes (LLMs) han logrado un rendimiento notable en los últimos años, pero están fundamentalmente limitados por los datos de entrenamiento subyacentes. Para mejorar los modelos más allá de los datos de entrenamiento, trabajos recientes han explorado cómo los LLMs pueden ser utilizados para generar datos sintéticos para el auto-mejoramiento autónomo. Sin embargo, los pasos sucesivos de auto-mejora pueden llegar a un punto de rendimientos decrecientes. En este trabajo, proponemos un enfoque complementario hacia el auto-mejoramiento donde se aplica el ajuste fino a una sociedad multiagente de modelos de lenguaje. Un grupo de modelos de lenguaje, todos partiendo del mismo modelo base, se especializan de forma independiente mediante la actualización de cada uno utilizando datos generados a través de interacciones multiagente entre los modelos. Al entrenar cada modelo en conjuntos de datos independientes, ilustramos cómo este enfoque permite la especialización entre modelos y la diversificación sobre el conjunto de modelos. Como resultado, nuestro sistema general es capaz de preservar cadenas de razonamiento diversas y mejorar de forma autónoma durante muchas más rondas de ajuste fino que los métodos de auto-mejora de un solo agente. Ilustramos cuantitativamente la eficacia del enfoque en una amplia gama de tareas de razonamiento.
La comprensión estructurada de imágenes, como la interpretación de tablas y gráficos, requiere reenfocarse estratégicamente en diversas estructuras y textos dentro de una imagen, formando una secuencia de razonamiento para llegar a la respuesta final. Sin embargo, los actuales modelos de lenguaje multimodales de gran escala (LLMs) carecen de esta capacidad de atención selectiva de múltiples saltos. En este trabajo, presentamos ReFocus, un marco simple pero efectivo que dota a los LLMs multimodales con la capacidad de generar "pensamientos visuales" realizando edición visual en la imagen de entrada a través de código, desplazando y refinando sus enfoques visuales. Específicamente, ReFocus permite a los LLMs multimodales generar códigos Python para llamar herramientas y modificar la imagen de entrada, dibujando secuencialmente recuadros, resaltando secciones y enmascarando áreas, mejorando así el proceso de razonamiento visual. Experimentamos en una amplia gama de tareas de comprensión estructurada de imágenes que involucran tablas y gráficos. ReFocus mejora significativamente el rendimiento en todas las tareas sobre GPT-4o sin edición visual, logrando una ganancia promedio del 11.0% en tareas de tablas y del 6.8% en tareas de gráficos. Presentamos un análisis detallado de los efectos de las diferentes ediciones visuales y las razones por las cuales ReFocus puede mejorar el rendimiento sin introducir información adicional. Además, recopilamos un conjunto de entrenamiento de 14k utilizando ReFocus, y demostramos que esta cadena de pensamiento visual con información intermedia ofrece una mejor supervisión que los datos VQA estándar, alcanzando una ganancia promedio del 8.0% sobre el mismo modelo entrenado con pares de preguntas y respuestas y del 2.6% sobre CoT.
La generación de video a partir de texto ha experimentado avances notables a través de modelos de difusión. Sin embargo, la Personalización de Video Multi-Concepto (MCVC) sigue siendo un desafío significativo. Identificamos dos desafíos clave en esta tarea: 1) el problema de desacoplamiento de identidad, donde la adopción directa de métodos de personalización existentes inevitablemente mezcla atributos al manejar múltiples conceptos simultáneamente, y 2) la escasez de pares video-entidad de alta calidad, que es crucial para entrenar un modelo que represente y desacople bien varios conceptos. Para abordar estos desafíos, presentamos ConceptMaster, un marco innovador que aborda de manera efectiva los problemas críticos de desacoplamiento de identidad mientras mantiene la fidelidad conceptual en videos personalizados. Específicamente, introducimos una estrategia novedosa de aprendizaje de incrustaciones multi-concepto desacopladas que se inyectan en los modelos de difusión de manera independiente, lo que garantiza efectivamente la calidad de los videos personalizados con múltiples identidades, incluso para conceptos visuales altamente similares. Para superar aún más la escasez de datos MCVC de alta calidad, establecemos cuidadosamente un proceso de construcción de datos que permite la recopilación sistemática de datos precisos de video-entidad multi-concepto a través de diversos conceptos. Se diseña un benchmark integral para validar la efectividad de nuestro modelo desde tres dimensiones críticas: fidelidad conceptual, capacidad de desacoplamiento de identidad y calidad de generación de video en seis escenarios de composición de conceptos diferentes. Experimentos extensos demuestran que nuestro ConceptMaster supera significativamente en rendimiento a enfoques anteriores para esta tarea, allanando el camino para generar videos personalizados y semánticamente precisos a través de múltiples conceptos.
Los métodos de personalización de video nos permiten sintetizar videos con conceptos específicos como personas, mascotas y lugares. Sin embargo, los métodos existentes a menudo se centran en dominios limitados, requieren una optimización que consume mucho tiempo por sujeto o solo admiten un único sujeto. Presentamos Video Alchemist, un modelo de video con capacidades de personalización de múltiples sujetos de conjunto abierto incorporadas tanto para objetos en primer plano como para el fondo, eliminando la necesidad de una optimización que consume mucho tiempo en el momento de la prueba. Nuestro modelo se basa en un nuevo módulo de Transformador de Difusión que fusiona cada imagen de referencia condicional y su correspondiente indicación de texto a nivel de sujeto con capas de atención cruzada. El desarrollo de un modelo tan grande presenta dos desafíos principales: conjunto de datos y evaluación. En primer lugar, dado que los conjuntos de datos emparejados de imágenes de referencia y videos son extremadamente difíciles de recopilar, muestreamos fotogramas de video seleccionados como imágenes de referencia y sintetizamos un fragmento del video objetivo. Sin embargo, aunque los modelos pueden limpiar fácilmente los videos de entrenamiento dados los fotogramas de referencia, no logran generalizar a nuevos contextos. Para mitigar este problema, diseñamos un nuevo canal de construcción de datos automático con amplias aumentaciones de imagen. En segundo lugar, evaluar la personalización de video de conjunto abierto es un desafío en sí mismo. Para abordar esto, presentamos un banco de pruebas de personalización que se centra en la fidelidad precisa del sujeto y admite diversos escenarios de personalización. Finalmente, nuestros experimentos exhaustivos muestran que nuestro método supera significativamente a los métodos de personalización existentes tanto en evaluaciones cuantitativas como cualitativas.
Este estudio demuestra un enfoque novedoso para probar los límites de seguridad de los Modelos de Lenguaje de Visión Amplia (VLM/LLM) utilizando el archivo de prueba EICAR incrustado en imágenes JPEG. Ejecutamos con éxito cuatro protocolos distintos en múltiples plataformas LLM, incluyendo OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro y Anthropic Claude 3.5 Sonnet. Los experimentos validaron que un JPEG modificado que contiene la firma EICAR podría ser cargado, manipulado y potencialmente ejecutado dentro de espacios de trabajo virtuales LLM. Los hallazgos clave incluyen: 1) la capacidad consistente de enmascarar la cadena EICAR en los metadatos de la imagen sin detección, 2) la extracción exitosa del archivo de prueba utilizando manipulación basada en Python dentro de entornos LLM, y 3) la demostración de múltiples técnicas de ofuscación incluyendo codificación base64 e inversión de cadenas. Esta investigación extiende el marco "Reglas de Compromiso de Pruebas de Penetración" de Microsoft Research para evaluar los límites de seguridad de la IA generativa basada en la nube y LLM, centrándose particularmente en el manejo de archivos y capacidades de ejecución dentro de entornos contenerizados.
El tradicional proceso de producción de animación en celuloide (Cel) abarca múltiples pasos esenciales, incluyendo la creación de guiones gráficos, diseño de diseño de escenarios, animación de fotogramas clave, intercalado y colorización, que requieren un esfuerzo manual sustancial, experiencia técnica y una inversión de tiempo significativa. Estos desafíos han obstaculizado históricamente la eficiencia y escalabilidad de la producción de animación en celuloide. El surgimiento de la inteligencia artificial generativa (GenAI), que incluye grandes modelos de lenguaje, modelos multimodales y modelos de difusión, ofrece soluciones innovadoras al automatizar tareas como la generación de fotogramas intermedios, colorización y creación de guiones gráficos. Esta encuesta explora cómo la integración de GenAI está revolucionando los flujos de trabajo de animación tradicional al reducir las barreras técnicas, ampliar la accesibilidad para una gama más amplia de creadores a través de herramientas como AniDoc, ToonCrafter y AniSora, y permitir a los artistas centrarse más en la expresión creativa e innovación artística. A pesar de su potencial, cuestiones como mantener la consistencia visual, garantizar la coherencia estilística y abordar consideraciones éticas siguen planteando desafíos. Además, este documento discute las direcciones futuras y explora posibles avances en la animación asistida por inteligencia artificial. Para más exploración y recursos, por favor visite nuestro repositorio en GitHub: https://github.com/yunlong10/Awesome-AI4Animation
El post-entrenamiento adaptativo de modelos de lenguaje grandes (LLMs) ha surgido como un enfoque prometedor para dominios especializados como la medicina y las finanzas. Sin embargo, persisten desafíos significativos en la identificación de criterios óptimos de adaptación y estrategias de entrenamiento en diferentes configuraciones de datos y modelos. Para abordar estos desafíos, presentamos FINDAP, una investigación sistemática y detallada sobre el post-entrenamiento adaptativo de LLMs para el dominio financiero. Nuestro enfoque comienza identificando las capacidades fundamentales requeridas para el dominio objetivo y diseñando una suite de evaluación integral alineada con estas necesidades. Luego analizamos la efectividad de etapas clave de post-entrenamiento, incluyendo el preentrenamiento continuo, ajuste de instrucciones y alineación de preferencias. Basándonos en estos conocimientos, proponemos una receta de entrenamiento efectiva centrada en un novedoso método de destilación de datos de preferencias, que aprovecha señales de proceso de un modelo generativo de recompensas. El modelo resultante, Llama-Fin, logra un rendimiento de vanguardia en una amplia gama de tareas financieras. Nuestro análisis también destaca cómo cada etapa de post-entrenamiento contribuye a capacidades distintas, revelando desafíos específicos y soluciones efectivas, proporcionando información valiosa para la adaptación de dominio de LLMs. Página del proyecto: https://github.com/SalesforceAIResearch/FinDap