Artículos de investigación en IA seleccionados diariamente con traducciones
El avance de OpenAI o1 destaca el potencial de mejorar el razonamiento para mejorar LLM. Sin embargo, la mayoría de la investigación en razonamiento se ha centrado en tareas matemáticas, dejando dominios como la medicina poco explorados. Aunque el dominio médico es diferente de las matemáticas, también requiere un razonamiento sólido para ofrecer respuestas confiables, dadas las altas exigencias de la atención médica. Sin embargo, verificar el razonamiento médico es desafiante, a diferencia de las matemáticas. Para abordar esto, proponemos problemas médicos verificables con un verificador médico para comprobar la corrección de las salidas del modelo. Esta naturaleza verificable permite avances en el razonamiento médico a través de un enfoque de dos etapas: (1) utilizar el verificador para guiar la búsqueda de una trayectoria de razonamiento compleja para el ajuste fino de LLMs, (2) aplicar aprendizaje por refuerzo (RL) con recompensas basadas en el verificador para mejorar aún más el razonamiento complejo. Finalmente, presentamos HuatuoGPT-o1, un LLM médico capaz de razonamiento complejo, que supera a líneas de base generales y específicas de medicina utilizando solo 40K problemas verificables. Los experimentos muestran que el razonamiento complejo mejora la resolución de problemas médicos y se beneficia más del RL. Esperamos que nuestro enfoque inspire avances en el razonamiento en los dominios médico y otros especializados.
Presentamos FLUX de 1,58 bits, el primer enfoque exitoso para cuantificar el modelo de generación de texto a imagen de última generación, FLUX.1-dev, utilizando pesos de 1,58 bits (es decir, valores en {-1, 0, +1}) manteniendo un rendimiento comparable para generar imágenes de 1024 x 1024. Es destacable que nuestro método de cuantificación opera sin acceso a datos de imagen, dependiendo únicamente de la auto-supervisión del modelo FLUX.1-dev. Además, desarrollamos un kernel personalizado optimizado para operaciones de 1,58 bits, logrando una reducción de 7,7 veces en el almacenamiento del modelo, una reducción de 5,1 veces en la memoria de inferencia y una mejora en la latencia de inferencia. Evaluaciones exhaustivas en los benchmarks GenEval y T2I Compbench demuestran la efectividad de FLUX de 1,58 bits en mantener la calidad de generación mientras mejora significativamente la eficiencia computacional.
Sobre la base del modelado del lenguaje en el procesamiento del lenguaje natural, la Predicción del Próximo Token (PPT) ha evolucionado hacia un objetivo de entrenamiento versátil para tareas de aprendizaje automático en diversas modalidades, logrando un éxito considerable. A medida que los Modelos de Lenguaje Grandes (MLG) han avanzado para unificar tareas de comprensión y generación dentro de la modalidad textual, investigaciones recientes han demostrado que las tareas de diferentes modalidades también pueden encapsularse de manera efectiva dentro del marco de la PPT, transformando la información multimodal en tokens y prediciendo el siguiente dado el contexto. Esta encuesta presenta una taxonomía integral que unifica tanto la comprensión como la generación dentro del aprendizaje multimodal a través de la lente de la PPT. La taxonomía propuesta abarca cinco aspectos clave: Tokenización multimodal, arquitecturas de modelos MMNTP, representación unificada de tareas, conjuntos de datos y evaluación, y desafíos abiertos. Esta nueva taxonomía tiene como objetivo ayudar a los investigadores en su exploración de la inteligencia multimodal. Un repositorio de GitHub asociado que recopila los últimos artículos y repositorios está disponible en https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
La orientación es un atributo clave de los objetos, fundamental para comprender su posición espacial y disposición en imágenes. Sin embargo, las soluciones prácticas para una estimación precisa de la orientación a partir de una sola imagen siguen siendo poco exploradas. En este trabajo, presentamos Orient Anything, el primer modelo experto y fundamental diseñado para estimar la orientación de objetos en una imagen única y de vista libre. Debido a la escasez de datos etiquetados, proponemos extraer conocimiento del mundo 3D. Al desarrollar un proceso para anotar la cara frontal de objetos 3D y generar imágenes desde vistas aleatorias, recopilamos 2 millones de imágenes con anotaciones de orientación precisas. Para aprovechar al máximo el conjunto de datos, diseñamos un objetivo de entrenamiento robusto que modela la orientación 3D como distribuciones de probabilidad de tres ángulos y predice la orientación del objeto ajustando estas distribuciones. Además, empleamos varias estrategias para mejorar la transferencia de lo sintético a lo real. Nuestro modelo logra una precisión de estimación de orientación de vanguardia tanto en imágenes renderizadas como reales y muestra una impresionante capacidad de cero disparos en varios escenarios. Más importante aún, nuestro modelo mejora muchas aplicaciones, como la comprensión y generación de conceptos espaciales complejos y el ajuste de la posición de objetos 3D.
Los actuales modelos de lenguaje multimodales grandes (MLLMs) tienen dificultades con la comprensión detallada o precisa de las imágenes, aunque ofrecen una percepción y razonamiento exhaustivos en un espectro de aplicaciones visuales. Estudios recientes han desarrollado herramientas o unificado tareas visuales específicas en el marco autoregresivo, a menudo a expensas del rendimiento multimodal general. Para abordar este problema y mejorar los MLLMs con tareas visuales de manera escalable, proponemos la Optimización de Preferencia de Tareas (TPO), un método novedoso que utiliza preferencias de tarea diferenciables derivadas de tareas visuales típicas detalladas. TPO introduce tokens de tarea aprendibles que establecen conexiones entre múltiples cabezas específicas de tarea y el MLLM. Al aprovechar etiquetas visuales detalladas durante el entrenamiento, TPO mejora significativamente las capacidades multimodales del MLLM y el rendimiento específico de la tarea. A través del entrenamiento conjunto de múltiples tareas dentro de TPO, observamos beneficios sinérgicos que elevan el rendimiento de tareas individuales más allá de lo que es posible mediante metodologías de entrenamiento de una sola tarea. Nuestra implementación de este enfoque con VideoChat y LLaVA demuestra una mejora del 14.6% en el rendimiento multimodal en general en comparación con los modelos base. Además, MLLM-TPO muestra capacidades robustas de cero disparo en diversas tareas, con un rendimiento comparable a los modelos supervisados de última generación. El código se publicará en https://github.com/OpenGVLab/TPO.
En este trabajo, investigamos la composición automática de diseños a partir de elementos gráficos multimodales. Aunque estudios recientes han desarrollado varios modelos generativos para diseño gráfico, suelen enfrentar las siguientes limitaciones: se centran únicamente en ciertas subtareas y están lejos de lograr la tarea de composición de diseño; no consideran la información jerárquica de los diseños gráficos durante el proceso de generación. Para abordar estos problemas, introducimos el principio de diseño en capas en Modelos Multimodales Grandes (LMMs) y proponemos un enfoque novedoso, llamado LaDeCo, para llevar a cabo esta tarea desafiante. Específicamente, LaDeCo primero realiza la planificación de capas para un conjunto de elementos dado, dividiendo los elementos de entrada en diferentes capas semánticas según sus contenidos. Con base en los resultados de la planificación, posteriormente predice atributos de elementos que controlan la composición del diseño de manera por capas, e incluye la imagen renderizada de capas generadas previamente en el contexto. Con este diseño perspicaz, LaDeCo descompone la tarea difícil en pasos más pequeños y manejables, lo que hace que el proceso de generación sea más fluido y claro. Los resultados experimentales demuestran la efectividad de LaDeCo en la composición de diseño. Además, mostramos que LaDeCo permite algunas aplicaciones interesantes en diseño gráfico, como ajuste de resolución, relleno de elementos, variación de diseño, etc. Además, incluso supera a los modelos especializados en algunas subtareas de diseño sin ningún entrenamiento específico de tarea.
La generación de video personalizado sin entrenamiento previo ha ganado una atención significativa debido a su gran potencial de aplicación. Los métodos existentes dependen de modelos adicionales para extraer e inyectar características de referencia del sujeto, asumiendo que el Modelo de Difusión de Video (VDM, por sus siglas en inglés) por sí solo es insuficiente para la generación de video personalizado sin entrenamiento previo. Sin embargo, estos métodos a menudo tienen dificultades para mantener una apariencia de sujeto consistente debido a técnicas subóptimas de extracción e inyección de características. En este documento, revelamos que el VDM posee inherentemente la capacidad de extraer e inyectar características del sujeto. Alejándonos de enfoques heurísticos anteriores, introducimos un nuevo marco que aprovecha la capacidad inherente del VDM para permitir una generación de video personalizado sin entrenamiento previo de alta calidad. Específicamente, para la extracción de características, introducimos directamente imágenes de referencia en el VDM y utilizamos su proceso intrínseco de extracción de características, que no solo proporciona características detalladas, sino que también se alinea significativamente con el conocimiento pre-entrenado del VDM. Para la inyección de características, diseñamos una interacción bidireccional innovadora entre las características del sujeto y el contenido generado a través de la autoatención espacial dentro del VDM, asegurando que el VDM tenga una mejor fidelidad al sujeto al mismo tiempo que mantiene la diversidad del video generado. Experimentos tanto en la generación de video personalizado de humanos como de objetos validan la efectividad de nuestro marco.
La explosión cámbrica de modelos de difusión pre-entrenados fácilmente accesibles sugiere una demanda de métodos que combinen múltiples modelos de difusión pre-entrenados diferentes sin incurrir en la significativa carga computacional de volver a entrenar un modelo combinado más grande. En este documento, planteamos el problema de combinar múltiples modelos de difusión pre-entrenados en la etapa de generación bajo un nuevo marco propuesto denominado superposición. Teóricamente, derivamos la superposición a partir de rigurosos principios fundamentales derivados de la célebre ecuación de continuidad y diseñamos dos nuevos algoritmos hechos a medida para combinar modelos de difusión en SuperDiff. SuperDiff aprovecha un nuevo estimador de densidad de Itô escalable para la verosimilitud del logaritmo de la EDS de difusión que no conlleva una sobrecarga adicional en comparación con el conocido estimador de Hutchinson necesario para cálculos de divergencia. Demostramos que SuperDiff es escalable para grandes modelos de difusión pre-entrenados ya que la superposición se realiza únicamente a través de composición durante la inferencia, y también disfruta de una implementación sencilla al combinar diferentes campos vectoriales pre-entrenados a través de un esquema de reponderación automatizado. Es destacable que SuperDiff es eficiente durante el tiempo de inferencia, y emula operadores de composición tradicionales como el OR lógico y el AND lógico. Demostramos empíricamente la utilidad de utilizar SuperDiff para generar imágenes más diversas en CIFAR-10, una edición de imágenes condicionada a la consigna más fiel utilizando Stable Diffusion, y una mejora en el diseño de estructuras de proteínas de novo incondicional. https://github.com/necludov/super-diffusion
El ajuste fino de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para tareas posteriores es un enfoque ampliamente adoptado, pero a menudo conduce a una degradación de la seguridad en LLMs alineados con la seguridad. Actualmente, muchas soluciones abordan este problema incorporando datos de seguridad adicionales, lo cual puede ser impráctico en muchos casos. En este documento, abordamos la pregunta: ¿Cómo podemos mejorar el rendimiento de las tareas posteriores preservando la seguridad en LLMs sin depender de datos de seguridad adicionales? Proponemos un método simple y efectivo que mantiene la seguridad inherente de los LLMs mientras mejora el rendimiento de sus tareas posteriores: fusionar los pesos de modelos alineados con la seguridad pre y post-ajuste fino. Los resultados experimentales en diversas tareas posteriores, modelos y métodos de fusión demuestran que este enfoque mitiga efectivamente la degradación de la seguridad al tiempo que mejora el rendimiento de las tareas posteriores, ofreciendo una solución práctica para adaptar LLMs alineados con la seguridad.
La recuperación de datos de grafos es crucial para ampliar los modelos de lenguaje grandes (LLM) con conocimiento de dominio abierto y datos empresariales privados, y también es un componente clave en el sistema GraphRAG reciente (Edge et al., 2024). A pesar de décadas de investigación en grafos de conocimiento y respuesta a preguntas de bases de conocimiento, los principales marcos de LLM (por ejemplo, Langchain y LlamaIndex) solo tienen un soporte mínimo para la recuperación de grafos de conocimiento enciclopédico modernos como Wikidata. En este documento, analizamos la causa raíz y sugerimos que los grafos de conocimiento RDF modernos (por ejemplo, Wikidata, Freebase) son menos eficientes para los LLM debido a esquemas excesivamente grandes que superan ampliamente la ventana de contexto típica de los LLM, uso de identificadores de recursos, tipos de relaciones superpuestos y falta de normalización. Como solución, proponemos vistas de grafos de propiedades sobre el grafo RDF subyacente que pueden ser consultadas eficientemente por los LLM utilizando Cypher. Implementamos esta idea en Wikidata e introdujimos CypherBench, el primer banco de pruebas con 11 grafos de propiedades a gran escala y multidominio con 7.8 millones de entidades y más de 10,000 preguntas. Para lograr esto, abordamos varios desafíos clave, incluida la creación de un motor de conversión de RDF a grafo de propiedades, la creación de un pipeline sistemático para la generación de tareas de texto a Cypher y el diseño de nuevas métricas de evaluación.
La creación de un conjunto de datos de preguntas y respuestas sobre figuras a gran escala requiere una cantidad considerable de trabajo, desde la recopilación y selección de figuras hasta la extracción de atributos como texto, números y colores, y la generación de preguntas y respuestas. Aunque los avances recientes en Modelos de Lenguaje con Muy Grandes (LLMs, por sus siglas en inglés) han llevado a esfuerzos para sintetizar figuras, la mayoría de estos se centran principalmente en la generación de preguntas y respuestas. Además, la creación de figuras directamente utilizando LLMs a menudo se enfrenta a problemas como errores de código, figuras de apariencia similar y contenido repetitivo en las figuras. Para abordar este problema, presentamos SBSFigures (Figuras Sintéticas Etapa por Etapa), un conjunto de datos para el pre-entrenamiento de preguntas y respuestas sobre figuras. Nuestro pipeline propuesto permite la creación de figuras de gráficos con anotaciones completas de los datos visualizados y anotaciones densas de preguntas y respuestas sin ningún proceso de anotación manual. Nuestro pipeline etapa por etapa hace posible crear eficientemente figuras de diversos temas y apariencias, minimizando los errores de código. Nuestras SBSFigures demuestran un fuerte efecto de pre-entrenamiento, lo que permite lograr un entrenamiento eficiente con una cantidad limitada de datos reales de gráficos, partiendo de nuestros pesos pre-entrenados.