Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de movimiento humano juega un papel vital en aplicaciones como humanos digitales y el control de robots humanoides. Sin embargo, la mayoría de los enfoques existentes ignoran las restricciones físicas, lo que conduce a la frecuente producción de movimientos físicamente implausibles con artefactos pronunciados como flotación y deslizamiento de pies. En este documento, proponemos Morph, un marco de optimización de física libre de movimiento, que consta de un Generador de Movimiento y un módulo de Refinamiento de Física de Movimiento, para mejorar la plausibilidad física sin depender de costosos datos de movimiento del mundo real. Específicamente, el Generador de Movimiento es responsable de proporcionar datos de movimiento sintéticos a gran escala, mientras que el Módulo de Refinamiento de Física de Movimiento utiliza estos datos sintéticos para entrenar un imitador de movimiento dentro de un simulador de física, imponiendo restricciones físicas para proyectar los movimientos ruidosos en un espacio físicamente plausible. Estos movimientos físicamente refinados, a su vez, se utilizan para ajustar finamente el Generador de Movimiento, mejorando aún más su capacidad. Experimentos en tareas de generación de texto a movimiento y de música a baile demuestran que nuestro marco logra una calidad de generación de movimiento de vanguardia al tiempo que mejora drásticamente la plausibilidad física.
Los modelos de visión-lenguaje (VLMs) han demostrado avances notables en tareas de razonamiento multimodal. Sin embargo, a menudo generan respuestas inexactas o irrelevantes debido a problemas como comprensiones de imágenes alucinadas o caminos de razonamiento poco refinados. Para abordar estos desafíos, presentamos Critic-V, un marco novedoso inspirado en el paradigma Actor-Critic para potenciar la capacidad de razonamiento de los VLMs. Este marco desacopla el proceso de razonamiento y el proceso crítico al integrar dos componentes independientes: el Razonador, que genera caminos de razonamiento basados en entradas visuales y textuales, y el Crítico, que ofrece críticas constructivas para refinar estos caminos. En este enfoque, el Razonador genera respuestas de razonamiento según indicaciones de texto, que pueden evolucionar de manera iterativa como una política basada en retroalimentación del Crítico. Este proceso de interacción se basó teóricamente en un marco de aprendizaje por refuerzo donde el Crítico ofrece críticas en lenguaje natural en lugar de recompensas escalares, permitiendo una retroalimentación más matizada para potenciar la capacidad del Razonador en tareas de razonamiento complejas. El modelo Crítico se entrena utilizando Optimización de Preferencias Directas (DPO), aprovechando un conjunto de datos de preferencias de críticas clasificadas por Recompensa Basada en Reglas (RBR) para mejorar sus capacidades críticas. Los resultados de evaluación muestran que el marco Critic-V supera significativamente a los métodos existentes, incluido GPT-4V, en 5 de 8 pruebas, especialmente en cuanto a precisión y eficiencia de razonamiento. Combinar una política dinámica basada en texto para el Razonador y la retroalimentación constructiva del Crítico optimizado por preferencias permite un proceso de razonamiento multimodal más confiable y sensible al contexto. Nuestro enfoque ofrece una solución prometedora para mejorar la confiabilidad de los VLMs, mejorando su rendimiento en aplicaciones multimodales del mundo real con un fuerte componente de razonamiento, como la conducción autónoma y la inteligencia incorporada.
Este documento presenta Virtual Try-Off (VTOFF), una tarea novedosa centrada en la generación de imágenes estandarizadas de prendas a partir de fotos individuales de personas vestidas. A diferencia del tradicional Virtual Try-On (VTON), que viste digitalmente a modelos, VTOFF tiene como objetivo extraer una imagen canónica de la prenda, lo que plantea desafíos únicos en la captura de la forma, textura y patrones intrincados de la prenda. Este objetivo bien definido hace que VTOFF sea particularmente efectivo para evaluar la fidelidad de la reconstrucción en modelos generativos. Presentamos TryOffDiff, un modelo que adapta Stable Diffusion con condicionamiento visual basado en SigLIP para garantizar una alta fidelidad y retención de detalles. Experimentos realizados en un conjunto de datos modificado de VITON-HD muestran que nuestro enfoque supera a los métodos de referencia basados en transferencia de postura y prueba de vestimenta virtual con menos pasos de pre y post-procesamiento. Nuestro análisis revela que las métricas tradicionales de generación de imágenes evalúan de manera inadecuada la calidad de la reconstrucción, lo que nos lleva a depender de DISTS para una evaluación más precisa. Nuestros resultados resaltan el potencial de VTOFF para mejorar la imagen de productos en aplicaciones de comercio electrónico, avanzar en la evaluación de modelos generativos e inspirar trabajos futuros sobre reconstrucciones de alta fidelidad. Una demostración, código y modelos están disponibles en: https://rizavelioglu.github.io/tryoffdiff/
A pesar de los avances significativos en los modelos generativos de texto a imagen (T2I), los usuarios a menudo se enfrentan a un desafío de prueba y error en escenarios prácticos. Este desafío surge de la complejidad e incertidumbre de pasos tediosos como la elaboración de indicaciones adecuadas, la selección de modelos apropiados y la configuración de argumentos específicos, lo que lleva a los usuarios a recurrir a intentos laboriosos para obtener las imágenes deseadas. Este documento propone la generación automática de T2I, que tiene como objetivo automatizar estos pasos tediosos, permitiendo a los usuarios describir simplemente sus necesidades de forma libre y conversacional. Para estudiar sistemáticamente este problema, primero presentamos ChatGenBench, un nuevo banco de pruebas diseñado para el T2I automático. Presenta datos emparejados de alta calidad con entradas de estilo libre diversas, lo que permite una evaluación exhaustiva de los modelos automáticos de T2I en todos los pasos. Además, al reconocer el T2I automático como una tarea de razonamiento complejo de múltiples pasos, proponemos ChatGen-Evo, una estrategia de evolución en múltiples etapas que dota progresivamente a los modelos de habilidades de automatización esenciales. A través de una evaluación extensa en precisión paso a paso y calidad de imagen, ChatGen-Evo mejora significativamente el rendimiento sobre varias líneas de base. Nuestra evaluación también revela ideas valiosas para avanzar en el T2I automático. Todos nuestros datos, código y modelos estarán disponibles en https://chengyou-jia.github.io/ChatGen-Home
Proponemos SelfSplat, un novedoso modelo de Splatting Gaussiano en 3D diseñado para realizar una reconstrucción en 3D generalizable sin postura y sin información previa en 3D a partir de imágenes multivista no poseídas. Estos escenarios son inherentemente mal planteados debido a la falta de datos de verdad terreno, información geométrica aprendida y la necesidad de lograr una reconstrucción precisa en 3D sin ajuste fino, lo que dificulta que los métodos convencionales obtengan resultados de alta calidad. Nuestro modelo aborda estos desafíos integrando de manera efectiva representaciones explícitas en 3D con técnicas de estimación de profundidad y postura auto-supervisadas, lo que resulta en mejoras recíprocas tanto en la precisión de la postura como en la calidad de la reconstrucción en 3D. Además, incorporamos una red de estimación de postura con conciencia de emparejamiento y un módulo de refinamiento de profundidad para mejorar la consistencia geométrica entre vistas, asegurando reconstrucciones en 3D más precisas y estables. Para presentar el rendimiento de nuestro método, lo evaluamos en conjuntos de datos del mundo real a gran escala, incluidos RealEstate10K, ACID y DL3DV. SelfSplat logra resultados superiores a los métodos anteriores de vanguardia tanto en apariencia como en calidad geométrica, y también demuestra sólidas capacidades de generalización entre conjuntos de datos. Estudios de abstracción extensos y análisis también validan la efectividad de nuestros métodos propuestos. El código y los modelos pre-entrenados están disponibles en https://gynjn.github.io/selfsplat/
Los modelos de difusión han logrado resultados impresionantes en tareas generativas como la síntesis de texto a imagen (T2I) y de texto a video (T2V). Sin embargo, lograr una alineación precisa del texto en la generación T2V sigue siendo un desafío debido a la compleja dependencia temporal entre fotogramas. Los enfoques existentes basados en aprendizaje por refuerzo (RL) para mejorar la alineación del texto a menudo requieren funciones de recompensa diferenciables o están limitados a indicaciones específicas, lo que dificulta su escalabilidad y aplicabilidad. En este documento, proponemos Free^2Guide, un nuevo marco libre de gradientes para alinear videos generados con indicaciones de texto sin necesidad de entrenamiento adicional del modelo. Aprovechando los principios del control de integral de camino, Free^2Guide aproxima la guía para los modelos de difusión utilizando funciones de recompensa no diferenciables, lo que permite la integración de potentes Modelos de Visión-Lenguaje a Gran Escala (LVLMs) como modelo de recompensa. Además, nuestro marco admite el ensamblaje flexible de múltiples modelos de recompensa, incluidos modelos basados en imágenes a gran escala, para mejorar sinérgicamente la alineación sin incurrir en una sobrecarga computacional sustancial. Demostramos que Free^2Guide mejora significativamente la alineación del texto en diversas dimensiones y mejora la calidad general de los videos generados.
En una era de sobrecarga de información, anotar manualmente el vasto y creciente corpus de documentos y artículos académicos es cada vez más impráctico. La extracción automatizada de frases clave aborda este desafío al identificar términos representativos dentro de los textos. Sin embargo, la mayoría de los métodos existentes se centran en documentos cortos (hasta 512 tokens), dejando un vacío en el procesamiento de documentos con un contexto extenso. En este artículo, presentamos LongKey, un nuevo marco para extraer frases clave de documentos extensos, que utiliza un modelo de lenguaje basado en un codificador para capturar las complejidades del texto extendido. LongKey utiliza un incrustador de max-pooling para mejorar la representación de los candidatos a frases clave. Validado en los completos conjuntos de datos LDKP y seis conjuntos de datos diversos no vistos, LongKey supera consistentemente a los métodos existentes de extracción de frases clave no supervisados y basados en modelos de lenguaje. Nuestros hallazgos demuestran la versatilidad y el rendimiento superior de LongKey, marcando un avance en la extracción de frases clave para diferentes longitudes y dominios de texto.
Los recientes avances en el rendimiento de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) en bancos de preguntas médicas de opción múltiple (MCQ) han estimulado el interés de proveedores de atención médica y pacientes a nivel global. Especialmente en países de ingresos bajos y medianos (LMICs, por sus siglas en inglés) que enfrentan escasez aguda de médicos y falta de especialistas, los LLMs ofrecen un camino potencialmente escalable para mejorar el acceso a la atención médica y reducir costos. Sin embargo, su efectividad en el Sur Global, especialmente en todo el continente africano, aún está por establecerse. En este trabajo, presentamos AfriMed-QA, el primer conjunto de datos de Preguntas-Respuestas (QA) médicas de múltiples especialidades en inglés a gran escala pan-africano, con 15,000 preguntas (abiertas y cerradas) provenientes de más de 60 escuelas de medicina en 16 países, que abarcan 32 especialidades médicas. Además, evaluamos 30 LLMs en múltiples aspectos, incluyendo corrección y sesgo demográfico. Nuestros hallazgos muestran una variación significativa en el rendimiento según las especialidades y geografías, siendo evidente que el rendimiento en MCQ queda rezagado en comparación con USMLE (MedQA). Observamos que los LLMs biomédicos tienen un rendimiento inferior a los modelos generales y que los LLMs más pequeños y amigables con los recursos luchan por alcanzar una puntuación aprobatoria. Curiosamente, las evaluaciones humanas muestran una preferencia del consumidor consistente por las respuestas y explicaciones de LLM en comparación con las respuestas de los clínicos.