Artículos de investigación en IA seleccionados diariamente con traducciones
La creación de mundos 3D inmersivos y jugables a partir de textos o imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los enfoques existentes para la generación de mundos suelen dividirse en dos categorías: métodos basados en video que ofrecen una rica diversidad pero carecen de consistencia 3D y eficiencia en la renderización, y métodos basados en 3D que proporcionan consistencia geométrica pero enfrentan limitaciones debido a datos de entrenamiento escasos y representaciones ineficientes en términos de memoria. Para abordar estas limitaciones, presentamos HunyuanWorld 1.0, un marco novedoso que combina lo mejor de ambos enfoques para generar escenas 3D inmersivas, explorables e interactivas a partir de condiciones de texto e imagen. Nuestro enfoque presenta tres ventajas clave: 1) experiencias inmersivas de 360° mediante proxies panorámicos del mundo; 2) capacidades de exportación de mallas para una compatibilidad fluida con las tuberías de gráficos por computadora existentes; 3) representaciones de objetos desacopladas para una interactividad aumentada. El núcleo de nuestro marco es una representación de malla 3D semánticamente estratificada que aprovecha imágenes panorámicas como proxies de 360° para la descomposición y reconstrucción del mundo con conciencia semántica, permitiendo la generación de diversos mundos 3D. Experimentos exhaustivos demuestran que nuestro método alcanza un rendimiento de vanguardia en la generación de mundos 3D coherentes, explorables e interactivos, al tiempo que habilita aplicaciones versátiles en realidad virtual, simulación física, desarrollo de videojuegos y creación de contenido interactivo.
Se han realizado numerosos esfuerzos para extender el paradigma de "predicción del siguiente token" a contenidos visuales, con el objetivo de crear un enfoque unificado tanto para la generación como para la comprensión de imágenes. Sin embargo, los intentos de generar imágenes mediante modelado autorregresivo con tokens discretos se han visto afectados por problemas como baja fidelidad visual, distorsiones en las salidas y dificultades para seguir instrucciones complejas al renderizar detalles intrincados. Estas limitaciones probablemente se atribuyan a errores acumulativos durante la inferencia autorregresiva o a la pérdida de información ocurrida durante el proceso de discretización. Posiblemente debido a este desafío, investigaciones recientes han ido desplazándose hacia el entrenamiento conjunto de la generación de imágenes con objetivos de difusión y la generación de lenguaje con objetivos autorregresivos, alejándose de enfoques de modelado unificado. En este trabajo, demostramos que el aprendizaje por refuerzo puede mitigar eficazmente los artefactos y mejorar significativamente la calidad de generación de un método de modelado autorregresivo discreto, permitiendo así una integración fluida de la generación de imágenes y lenguaje. Nuestro marco de trabajo incluye un tokenizador semántico de imágenes, un modelo autorregresivo unificado para lenguaje e imágenes, y un decodificador de difusión offline para la generación de imágenes, denominado X-Omni. X-Omni logra un rendimiento de vanguardia en tareas de generación de imágenes utilizando un modelo de lenguaje de 7B, produciendo imágenes de alta calidad estética mientras exhibe una fuerte capacidad para seguir instrucciones y renderizar textos largos.
Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances impresionantes, su aplicación en dominios científicos como la química sigue estando limitada por una comprensión superficial del dominio y capacidades de razonamiento limitadas. En este trabajo, nos enfocamos en el campo específico de la química y desarrollamos un modelo de lenguaje de gran escala para el razonamiento químico, ChemDFM-R. Primero, construimos un conjunto de datos exhaustivo de puntos de conocimiento atomizados para mejorar la comprensión del modelo sobre los principios fundamentales y la estructura lógica de la química. Luego, proponemos una estrategia de destilación de fuentes mixtas que integra conocimiento curado por expertos con habilidades de razonamiento de dominio general, seguida de un aprendizaje por refuerzo específico del dominio para mejorar el razonamiento químico. Los experimentos en diversos benchmarks químicos demuestran que ChemDFM-R alcanza un rendimiento de vanguardia mientras proporciona resultados interpretables y basados en razonamientos. Estudios de caso adicionales ilustran cómo las cadenas de razonamiento explícitas mejoran significativamente la confiabilidad, transparencia y utilidad práctica del modelo en escenarios reales de colaboración humano-IA.
El crecimiento exponencial en la demanda de recursos de computación GPU, impulsado por el rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs), ha creado una necesidad urgente de estrategias automatizadas de optimización CUDA. Si bien los avances recientes en LLMs muestran potencial para la generación de código, los modelos actuales de última generación (por ejemplo, R1, o1) logran tasas de éxito bajas en la mejora de la velocidad CUDA. En este artículo, presentamos CUDA-L1, un marco de aprendizaje por refuerzo automatizado para la optimización CUDA. CUDA-L1 logra mejoras de rendimiento en la tarea de optimización CUDA: entrenado en NVIDIA A100, ofrece una aceleración promedio de x17.7 en los 250 núcleos CUDA de KernelBench, con picos de aceleración que alcanzan x449. Además, el modelo también demuestra una excelente portabilidad entre arquitecturas GPU, logrando aceleraciones promedio de x17.8 en H100, x19.0 en RTX 3090, x16.5 en L40, x14.7 en H800 y x13.9 en H20, a pesar de estar optimizado específicamente para A100. Más allá de estos resultados de referencia, CUDA-L1 muestra varias propiedades destacables: 1) Descubre una variedad de técnicas de optimización CUDA y aprende a combinarlas estratégicamente para lograr un rendimiento óptimo; 2) Revela principios fundamentales de la optimización CUDA; 3) Identifica cuellos de botella de rendimiento no evidentes y rechaza optimizaciones aparentemente beneficiosas que perjudican el rendimiento. Las capacidades de CUDA-L1 demuestran que el aprendizaje por refuerzo puede transformar un LLM inicialmente de bajo rendimiento en un optimizador CUDA efectivo únicamente mediante señales de recompensa basadas en la aceleración, sin necesidad de experiencia humana o conocimiento del dominio. Más importante aún, el modelo de RL entrenado extiende las habilidades de razonamiento adquiridas a nuevos núcleos. Este paradigma abre posibilidades para la optimización automatizada de operaciones CUDA y promete mejorar sustancialmente la eficiencia de las GPU, aliviando la creciente presión sobre los recursos de computación GPU.
Las interfaces cerebro-computadora (BCI, por sus siglas en inglés) permiten la comunicación directa entre el cerebro y dispositivos externos. Los modelos fundacionales recientes basados en EEG buscan aprender representaciones generalizadas en diversos paradigmas de BCI. Sin embargo, estos enfoques pasan por alto distinciones neurofisiológicas fundamentales específicas de cada paradigma, lo que limita su capacidad de generalización. Es importante destacar que, en implementaciones prácticas de BCI, el paradigma específico, como la imaginería motora (MI, por sus siglas en inglés) para la rehabilitación de accidentes cerebrovasculares o la robótica asistencial, generalmente se determina antes de la adquisición de datos. Este artículo propone MIRepNet, el primer modelo fundacional de EEG diseñado específicamente para el paradigma de MI. MIRepNet incluye una canalización de preprocesamiento de EEG de alta calidad que incorpora una plantilla de canales basada en neurofisiología, adaptable a dispositivos de EEG con configuraciones de electrodos arbitrarias. Además, introducimos una estrategia de preentrenamiento híbrida que combina la reconstrucción autosupervisada de tokens enmascarados y la clasificación supervisada de MI, facilitando una adaptación rápida y una decodificación precisa en nuevas tareas de MI con menos de 30 pruebas por clase. Evaluaciones exhaustivas en cinco conjuntos de datos públicos de MI demostraron que MIRepNet logró consistentemente un rendimiento de vanguardia, superando significativamente tanto a modelos especializados como generalizados de EEG. Nuestro código estará disponible en GitHub: https://github.com/staraink/MIRepNet.
A medida que se despliega la era de los modelos de lenguaje de gran escala (LLMs) en nombre de los usuarios, los métodos de Optimización de Preferencias (PO) se han convertido en un enfoque central para alinear los LLMs con las preferencias humanas y mejorar su rendimiento. Proponemos la Optimización de Preferencias de Máxima a Posteriori (MaPPO), un marco para aprender de las preferencias que incorpora explícitamente conocimiento previo sobre recompensas en el objetivo de optimización. Mientras que métodos existentes como la Optimización Directa de Preferencias (DPO) y sus variantes tratan el aprendizaje de preferencias como un problema de Estimación de Máxima Verosimilitud (MLE), MaPPO extiende este paradigma al integrar estimaciones previas de recompensas en un objetivo de Máxima a Posteriori (MaP) fundamentado. Esto no solo generaliza DPO y sus variantes, sino que también mejora la alineación al mitigar la clasificación binaria simplificada de respuestas. Más importante aún, MaPPO no introduce hiperparámetros adicionales y admite la optimización de preferencias tanto en entornos fuera de línea como en línea. Además, MaPPO puede utilizarse como un complemento con mejoras consistentes en las variantes de DPO, incluyendo las ampliamente utilizadas SimPO, IPO y CPO. Evaluaciones empíricas exhaustivas de diferentes tamaños de modelos y series de modelos en tres puntos de referencia estándar, incluyendo MT-Bench, AlpacaEval 2.0 y Arena-Hard, demuestran mejoras consistentes en el rendimiento de alineación sin sacrificar la eficiencia computacional.
La observación de vida silvestre desempeña un papel crucial en la conservación de la biodiversidad, lo que requiere metodologías robustas para monitorear poblaciones de fauna y las interacciones entre especies. Los avances recientes en visión por computadora han contribuido significativamente a automatizar tareas fundamentales de observación de vida silvestre, como la detección de animales y la identificación de especies. Sin embargo, la identificación precisa de especies a partir de evidencia indirecta, como huellas y heces, sigue siendo un área relativamente poco explorada, a pesar de su importancia para el monitoreo de la vida silvestre. Para abordar esta brecha, presentamos AnimalClue, el primer conjunto de datos a gran escala para la identificación de especies a partir de imágenes de evidencia indirecta. Nuestro conjunto de datos consta de 159,605 cuadros delimitadores que abarcan cinco categorías de pistas indirectas: huellas, heces, huevos, huesos y plumas. Cubre 968 especies, 200 familias y 65 órdenes. Cada imagen está anotada con etiquetas a nivel de especie, cuadros delimitadores o máscaras de segmentación, e información detallada de rasgos, incluyendo patrones de actividad y preferencias de hábitat. A diferencia de los conjuntos de datos existentes, que se centran principalmente en características visuales directas (por ejemplo, apariencias de animales), AnimalClue presenta desafíos únicos para tareas de clasificación, detección y segmentación de instancias debido a la necesidad de reconocer características visuales más detalladas y sutiles. En nuestros experimentos, evaluamos exhaustivamente modelos de visión representativos e identificamos desafíos clave en la identificación de animales a partir de sus rastros. Nuestro conjunto de datos y código están disponibles en https://dahlian00.github.io/AnimalCluePage/.
Este trabajo aborda la segmentación de objetos en videos con pocos ejemplos guiada por movimiento (FSVOS, por sus siglas en inglés), cuyo objetivo es segmentar objetos dinámicos en videos basándose en unos pocos ejemplos anotados con los mismos patrones de movimiento. Los conjuntos de datos y métodos existentes para FSVOS suelen centrarse en categorías de objetos, que son atributos estáticos que ignoran la rica dinámica temporal en los videos, limitando su aplicación en escenarios que requieren comprensión del movimiento. Para llenar este vacío, presentamos MOVE, un conjunto de datos a gran escala diseñado específicamente para FSVOS guiada por movimiento. Basándonos en MOVE, evaluamos exhaustivamente 6 métodos de vanguardia de 3 tareas relacionadas diferentes en 2 configuraciones experimentales. Nuestros resultados revelan que los métodos actuales tienen dificultades para abordar FSVOS guiada por movimiento, lo que nos lleva a analizar los desafíos asociados y proponer un método de referencia, la Red de Apariencia de Movimiento Desacoplado (DMA, por sus siglas en inglés). Los experimentos demuestran que nuestro enfoque logra un rendimiento superior en la comprensión del movimiento con pocos ejemplos, estableciendo una base sólida para futuras investigaciones en esta dirección.
Las poblaciones de vida silvestre en África enfrentan graves amenazas, con una disminución de más del 65% en el número de vertebrados en las últimas cinco décadas. En respuesta, la clasificación de imágenes mediante aprendizaje profundo ha surgido como una herramienta prometedora para el monitoreo y la conservación de la biodiversidad. Este artículo presenta un estudio comparativo de modelos de aprendizaje profundo para la clasificación automática de imágenes de vida silvestre africana, centrándose en el aprendizaje por transferencia con extractores de características congelados. Utilizando un conjunto de datos público de cuatro especies: búfalo, elefante, rinoceronte y cebra; evaluamos el rendimiento de DenseNet-201, ResNet-152, EfficientNet-B4 y el Transformer de Visión ViT-H/14. DenseNet-201 logró el mejor rendimiento entre las redes convolucionales (67% de precisión), mientras que ViT-H/14 alcanzó la mayor precisión general (99%), pero con un costo computacional significativamente mayor, lo que plantea preocupaciones sobre su implementación. Nuestros experimentos destacan las compensaciones entre precisión, requisitos de recursos y capacidad de implementación. La CNN con mejor rendimiento (DenseNet-201) se integró en un espacio Gradio de Hugging Face para uso en tiempo real en el campo, demostrando la viabilidad de implementar modelos ligeros en entornos de conservación. Este trabajo contribuye a la investigación de IA con base en África al ofrecer ideas prácticas sobre la selección de modelos, la preparación de conjuntos de datos y la implementación responsable de herramientas de aprendizaje profundo para la conservación de la vida silvestre.
Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado avances considerables en tareas de visión y lenguaje, aunque también generan contenido potencialmente dañino o poco confiable. A pesar de los esfuerzos sustanciales para investigar la confiabilidad de los modelos de lenguaje, la capacidad de los MLLMs para actuar con honestidad, especialmente frente a preguntas visualmente irresolubles, sigue siendo en gran medida inexplorada. Este trabajo presenta la primera evaluación sistemática de los comportamientos de honestidad en diversos MLLMs. Basamos la honestidad en los comportamientos de respuesta de los modelos ante preguntas visuales irresolubles, definimos cuatro tipos representativos de dichas preguntas y construimos MoHoBench, un benchmark de honestidad a gran escala para MLLMs, que consta de más de 12,000 muestras de preguntas visuales, cuya calidad está garantizada por un filtrado en múltiples etapas y verificación humana. Utilizando MoHoBench, evaluamos la honestidad de 28 MLLMs populares y realizamos un análisis exhaustivo. Nuestros hallazgos muestran que: (1) la mayoría de los modelos no se niegan adecuadamente a responder cuando es necesario, y (2) la honestidad de los MLLMs no es únicamente un problema de modelado del lenguaje, sino que está profundamente influenciada por la información visual, lo que requiere el desarrollo de métodos dedicados para la alineación de la honestidad multimodal. Por lo tanto, implementamos métodos iniciales de alineación utilizando aprendizaje supervisado y basado en preferencias para mejorar el comportamiento de honestidad, sentando las bases para futuros trabajos en MLLMs confiables. Nuestros datos y código están disponibles en https://github.com/DSTTSD/MoHoBench.