Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs) destacan en razonamiento, aunque el entrenamiento posterior sigue siendo crucial para alinear su comportamiento con los objetivos de la tarea. Los métodos existentes de aprendizaje por refuerzo (RL) suelen depender de costosas anotaciones humanas o de modelos externos de recompensa. Proponemos el Aprendizaje por Refuerzo mediante Autoconfianza (RLSC), que utiliza la propia confianza del modelo como señales de recompensa, eliminando la necesidad de etiquetas, modelos de preferencia o ingeniería de recompensas. Aplicado a Qwen2.5-Math-7B con solo 16 muestras por pregunta y 10 o 20 pasos de entrenamiento, RLSC mejora la precisión en un +13.4% en AIME2024, +21.2% en MATH500, +21.7% en Minerva Math, +20.8% en Olympiadbench y +9.7% en AMC23. RLSC ofrece un método simple y escalable de entrenamiento posterior para modelos de inferencia, requiriendo solo un pequeño número de muestras y supervisión no etiquetada.
Los avances notables en el modelado de difusión han impulsado mejoras rápidas en la generación de videos, aunque los modelos fundamentales actuales aún enfrentan desafíos críticos para equilibrar simultáneamente el seguimiento de instrucciones, la plausibilidad del movimiento y la calidad visual. En este informe, presentamos Seedance 1.0, un modelo de generación de videos de alto rendimiento y eficiencia en la inferencia que integra varias mejoras técnicas clave: (i) curación de datos de múltiples fuentes complementada con subtitulación precisa y significativa de videos, lo que permite un aprendizaje integral en diversos escenarios; (ii) un diseño de arquitectura eficiente con un paradigma de entrenamiento propuesto, que permite soportar nativamente la generación de múltiples tomas y el aprendizaje conjunto de tareas de texto a video e imagen a video; (iii) enfoques de posentrenamiento cuidadosamente optimizados que aprovechan el ajuste fino supervisado de grano fino y el RLHF específico para video con mecanismos de recompensa multidimensional para mejoras integrales en el rendimiento; (iv) una excelente aceleración del modelo que logra un aumento de velocidad en la inferencia de ~10x mediante estrategias de destilación en múltiples etapas y optimizaciones a nivel de sistema. Seedance 1.0 puede generar un video de 5 segundos en resolución 1080p en solo 41.4 segundos (NVIDIA-L20). En comparación con los modelos de generación de videos más avanzados, Seedance 1.0 destaca por su generación de videos de alta calidad y rápida, con una fluidez espacio-temporal superior y estabilidad estructural, adherencia precisa a instrucciones en contextos complejos con múltiples sujetos, y coherencia narrativa nativa en múltiples tomas con representación consistente del sujeto.
Los modelos existentes de generación de video a gran escala son computacionalmente intensivos, lo que impide su adopción en aplicaciones interactivas y en tiempo real. En este trabajo, proponemos el entrenamiento adversario autoregresivo posterior (AAPT, por sus siglas en inglés) para transformar un modelo de difusión de video latente preentrenado en un generador de video interactivo y en tiempo real. Nuestro modelo genera de manera autoregresiva un fotograma latente a la vez utilizando una única evaluación de función neuronal (1NFE). El modelo puede transmitir el resultado al usuario en tiempo real y recibir respuestas interactivas como controles para generar el siguiente fotograma latente. A diferencia de los enfoques existentes, nuestro método explora el entrenamiento adversario como un paradigma efectivo para la generación autoregresiva. Esto no solo nos permite diseñar una arquitectura más eficiente para la generación en un solo paso mientras se utiliza completamente la caché KV, sino que también posibilita entrenar el modelo de manera forzada por el estudiante, lo que ha demostrado ser efectivo para reducir la acumulación de errores durante la generación de videos largos. Nuestros experimentos demuestran que nuestro modelo de 8B logra la generación de video en tiempo real a 24 fps, con una resolución de 736x416 en una sola H100, o 1280x720 en 8xH100, hasta un minuto de duración (1440 fotogramas). Visite nuestro sitio web de investigación en https://seaweed-apt.com/2.
Los Modelos de Lenguaje Autoregresivos a Gran Escala (AR-LLMs, por sus siglas en inglés) frecuentemente exhiben paralelismo implícito en la generación secuencial. Inspirados por esto, presentamos Multiverse, un nuevo modelo generativo que permite la generación nativamente paralela. Multiverse internaliza un paradigma MapReduce, generando automáticamente a través de tres etapas: (i) una etapa Map para la descomposición adaptativa de tareas, (ii) una etapa Process para la ejecución paralela de subtareas, y (iii) una etapa Reduce para la síntesis sin pérdida de resultados. A continuación, construimos un modelo de razonamiento Multiverse del mundo real con un co-diseño de datos, algoritmo y sistema, permitiendo una transferencia rápida y fluida desde los AR-LLMs más avanzados. Partiendo de cadenas de razonamiento secuenciales, creamos Multiverse 1K convirtiéndolas en datos de entrenamiento estructurados utilizando una canalización automatizada asistida por LLM, evitando costosas anotaciones humanas. Algorítmicamente, diseñamos Multiverse Attention para separar pasos de razonamiento paralelos mientras mantenemos la compatibilidad con la atención causal para un entrenamiento eficiente. Sistemáticamente, implementamos Multiverse Engine para permitir inferencia paralela. Cuenta con un planificador dedicado que cambia dinámicamente entre generación secuencial y paralela, activado directamente por el modelo. Después de un ajuste fino de 3 horas con 1K ejemplos, nuestro Multiverse-32B se posiciona como el único modelo no-AR de código abierto que logra un rendimiento comparable con los principales AR-LLMs de la misma escala, evidenciado por puntajes AIME24 y 25 de 54% y 46%, respectivamente. Además, nuestros experimentos de control de presupuesto muestran que Multiverse-32B exhibe una escalabilidad superior, superando a los AR-LLMs en un 1.87% en promedio utilizando la misma longitud de contexto. Tal escalabilidad conduce a una ganancia práctica de eficiencia, logrando hasta 2x de aceleración en diferentes tamaños de lote. Hemos liberado todo el ecosistema Multiverse, incluyendo datos, pesos del modelo, motor, herramientas de soporte, así como indicaciones completas de curación de datos y recetas detalladas de entrenamiento y evaluación.
El contenido generado por IA ha evolucionado desde modelos monolíticos hacia flujos de trabajo modulares, particularmente en plataformas como ComfyUI, permitiendo la personalización en pipelines creativos. Sin embargo, diseñar flujos de trabajo efectivos requiere un gran nivel de expertise para orquestar numerosos componentes especializados, lo que presenta una curva de aprendizaje pronunciada para los usuarios. Para abordar este desafío, presentamos ComfyUI-R1, el primer modelo de razonamiento a gran escala para la generación automatizada de flujos de trabajo. Partiendo de nuestro conjunto de datos curado de 4K flujos de trabajo, construimos datos de razonamiento de cadena larga (CoT), incluyendo selección de nodos, planificación de flujos de trabajo y representación de flujos de trabajo a nivel de código. ComfyUI-R1 se entrena mediante un marco de dos etapas: (1) ajuste fino de CoT para arranque en frío, adaptando los modelos al dominio de ComfyUI; (2) aprendizaje por refuerzo para incentivar la capacidad de razonamiento, guiado por una recompensa híbrida de reglas-métricas de grano fino, asegurando la validez del formato, la integridad estructural y la fidelidad a nivel de nodo. Los experimentos muestran que nuestro modelo de 7B parámetros alcanza una tasa de validez de formato del 97\%, junto con altas tasas de aprobación, puntuaciones F1 a nivel de nodo y gráfico, superando significativamente métodos previos de vanguardia que emplean modelos líderes de código cerrado como GPT-4o y la serie Claude. Un análisis adicional destaca el papel crítico del proceso de razonamiento y la ventaja de transformar flujos de trabajo en código. La comparación cualitativa revela nuestra fortaleza en la síntesis de flujos de trabajo intrincados con nodos diversos, subrayando el potencial del razonamiento CoT largo en la creación de arte con IA.
Presentamos PlayerOne, el primer simulador realista egocéntrico del mundo, que facilita la exploración inmersiva y sin restricciones dentro de entornos dinámicos y vívidamente detallados. Dada una imagen de escena egocéntrica proporcionada por el usuario, PlayerOne puede construir con precisión el mundo correspondiente y generar videos egocéntricos que están estrictamente alineados con el movimiento humano real de la escena capturado por una cámara excéntrica. PlayerOne se entrena mediante un enfoque de entrenamiento de lo general a lo específico, que primero realiza un preentrenamiento en pares de texto-video egocéntricos a gran escala para una comprensión egocéntrica de nivel general, seguido de un ajuste fino en datos de video-movimiento sincronizados extraídos de conjuntos de datos de video egocéntrico-excéntrico mediante nuestra canalización de construcción automática. Además, considerando la importancia variable de los diferentes componentes, diseñamos un esquema de inyección de movimiento desacoplado por partes, que permite un control preciso de los movimientos a nivel de partes. Adicionalmente, desarrollamos un marco de reconstrucción conjunta que modela progresivamente tanto la escena 4D como los fotogramas del video, garantizando la consistencia de la escena en la generación de videos de larga duración. Los resultados experimentales demuestran su gran capacidad de generalización en el control preciso de diversos movimientos humanos y el modelado consistente del mundo en escenarios diversos. Este trabajo representa el primer esfuerzo en la simulación egocéntrica del mundo real y puede abrir el camino para que la comunidad explore nuevas fronteras en el modelado del mundo y sus diversas aplicaciones.
Los avances recientes en la generación de música a partir de texto han permitido a los modelos sintetizar segmentos musicales de alta calidad, composiciones completas e incluso responder a señales de control detalladas, como progresiones de acordes. Los sistemas de vanguardia (SOTA) difieren significativamente en múltiples dimensiones, como los conjuntos de datos de entrenamiento, los paradigmas de modelado y las elecciones arquitectónicas. Esta diversidad complica los esfuerzos para evaluar los modelos de manera justa y determinar qué decisiones de diseño influyen más en el rendimiento. Si bien factores como los datos y la arquitectura son importantes, en este estudio nos centramos exclusivamente en el paradigma de modelado. Realizamos un análisis empírico sistemático para aislar sus efectos, ofreciendo información sobre las compensaciones asociadas y los comportamientos emergentes que pueden guiar futuros sistemas de generación de música a partir de texto. Específicamente, comparamos los dos paradigmas de modelado más comunes: decodificación auto-regresiva y flujo condicional coincidente (Conditional Flow-Matching). Llevamos a cabo una comparación controlada entrenando todos los modelos desde cero utilizando conjuntos de datos idénticos, configuraciones de entrenamiento similares y arquitecturas de base comparables. El rendimiento se evalúa en múltiples ejes, incluyendo la calidad de la generación, la robustez frente a configuraciones de inferencia, la escalabilidad, la adherencia tanto al condicionamiento textual como al alineado temporal, y las capacidades de edición en forma de inpainting de audio. Este estudio comparativo arroja luz sobre las fortalezas y limitaciones distintivas de cada paradigma, proporcionando información práctica que puede influir en futuras decisiones arquitectónicas y de entrenamiento en el panorama en evolución de la generación de música a partir de texto. Ejemplos de audio están disponibles en: https://huggingface.co/spaces/ortal1602/ARvsFM.
Presentamos SeerAttention-R, un marco de atención dispersa específicamente diseñado para la decodificación extensa de modelos de razonamiento. Extendido a partir de SeerAttention, SeerAttention-R conserva el diseño de aprendizaje de la dispersión de atención mediante un mecanismo de compuerta auto-distilado, mientras elimina la agrupación de consultas para adaptarse a la decodificación auto-regresiva. Con una compuerta ligera de complemento, SeerAttention-R es flexible y puede integrarse fácilmente en modelos preentrenados existentes sin modificar los parámetros originales. Demostramos que SeerAttention-R, entrenado con solo 0.4 mil millones de tokens, mantiene una precisión de razonamiento casi sin pérdidas con un presupuesto de 4K tokens en el benchmark AIME bajo tamaños de bloques de atención dispersa grandes (64/128). Utilizando TileLang, desarrollamos un núcleo de decodificación dispersa altamente optimizado que logra aceleraciones cercanas a las teóricas de hasta 9x sobre FlashAttention-3 en la GPU H100 con un 90% de dispersión. El código está disponible en: https://github.com/microsoft/SeerAttention.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son ahora fundamentales en diversos dominios y han demostrado un rendimiento impresionante. Sin embargo, el progreso depende de la premisa de que las puntuaciones de referencia sean tanto precisas como reproducibles. Demostramos que la reproducibilidad del rendimiento de los LLMs es frágil: cambios en la configuración del sistema, como el tamaño del lote de evaluación, el número de GPU y la versión de la GPU, pueden introducir diferencias significativas en las respuestas generadas. Este problema es especialmente pronunciado en los modelos de razonamiento, donde pequeñas diferencias de redondeo en los primeros tokens pueden propagarse en cadenas de pensamiento divergentes, afectando finalmente la precisión. Por ejemplo, bajo precisión bfloat16 con decodificación codiciosa, un modelo de razonamiento como DeepSeek-R1-Distill-Qwen-7B puede exhibir variaciones de hasta un 9% en precisión y una diferencia de 9,000 tokens en la longitud de la respuesta debido a diferencias en el número de GPU, el tipo y el tamaño del lote de evaluación. Rastreamos la causa raíz de esta variabilidad a la naturaleza no asociativa de la aritmética de punto flotante bajo precisión numérica limitada. Este trabajo presenta la primera investigación sistemática sobre cómo la precisión numérica afecta la reproducibilidad en la inferencia de LLMs. A través de experimentos cuidadosamente controlados en diversos entornos de hardware, software y precisión, cuantificamos cuándo y cómo divergen las salidas del modelo. Nuestro análisis revela que la precisión de punto flotante, aunque crítica para la reproducibilidad, a menudo se descuida en las prácticas de evaluación. Inspirados por esto, desarrollamos una canalización de inferencia ligera, denominada LayerCast, que almacena los pesos en precisión de 16 bits pero realiza todos los cálculos en FP32, equilibrando la eficiencia de memoria con la estabilidad numérica. El código está disponible en https://github.com/nanomaoli/llm_reproducibility.
Presentamos **SWE-Flow**, un novedoso marco de síntesis de datos basado en el Desarrollo Guiado por Pruebas (TDD, por sus siglas en inglés). A diferencia de los datos de ingeniería de software existentes que dependen de problemas enviados por humanos, **SWE-Flow** infiere automáticamente pasos de desarrollo incrementales directamente a partir de pruebas unitarias, las cuales encapsulan inherentemente requisitos de alto nivel. El núcleo de **SWE-Flow** es la construcción de un Grafo de Dependencias en Tiempo de Ejecución (RDG, por sus siglas en inglés), que captura con precisión las interacciones entre funciones, permitiendo la generación de un *cronograma de desarrollo* estructurado y paso a paso. En cada paso, **SWE-Flow** produce un código base parcial, las pruebas unitarias correspondientes y las modificaciones de código necesarias, lo que resulta en tareas de TDD completamente verificables. Con este enfoque, generamos 16,061 instancias de entrenamiento y 2,020 instancias de prueba a partir de proyectos reales de GitHub, creando el benchmark **SWE-Flow-Eval**. Nuestros experimentos muestran que el ajuste fino de modelos abiertos en este conjunto de datos mejora significativamente el rendimiento en la codificación basada en TDD. Para facilitar investigaciones futuras, publicamos todo el código, conjuntos de datos, modelos e imágenes de Docker en [Github](https://github.com/Hambaobao/SWE-Flow).
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) como o1 y DeepSeek-R1 han mostrado avances notables en el razonamiento del lenguaje natural con cadenas de pensamiento (CoT) extensas, pero siguen siendo ineficientes o imprecisos al manejar operaciones matemáticas complejas. Abordar estas limitaciones mediante herramientas computacionales (por ejemplo, bibliotecas de cálculo y solucionadores simbólicos) es prometedor, pero introduce un desafío técnico: el Intérprete de Código (CI) aporta conocimiento externo más allá de las representaciones de texto internas del modelo, por lo que la combinación directa no es eficiente. Este artículo presenta CoRT, un marco de posentrenamiento para enseñar a los LRMs a aprovechar el CI de manera efectiva y eficiente. Como primer paso, abordamos la escasez de datos sintetizando datos de razonamiento integrados con código mediante Ingeniería de Pistas (Hint-Engineering), que inserta estratégicamente diferentes pistas en posiciones adecuadas para optimizar la interacción LRM-CI. Creamos manualmente 30 muestras de alta calidad, sobre las cuales posentrenamos modelos que van desde 1.5B hasta 32B parámetros, utilizando ajuste fino supervisado, ajuste fino por rechazo y aprendizaje por refuerzo. Nuestros resultados experimentales demuestran que los modelos con Ingeniería de Pistas logran mejoras absolutas del 4% y 8% en DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Qwen-1.5B, respectivamente, en cinco conjuntos de datos desafiantes de razonamiento matemático. Además, los modelos con Ingeniería de Pistas utilizan aproximadamente un 30% menos de tokens para el modelo de 32B y un 50% menos de tokens para el modelo de 1.5B en comparación con los modelos de lenguaje natural. Los modelos y el código están disponibles en https://github.com/ChengpengLi1003/CoRT.
La animación humana de extremo a extremo con condiciones multimodales ricas, como texto, imagen y audio, ha logrado avances notables en los últimos años. Sin embargo, la mayoría de los métodos existentes solo pueden animar un único sujeto e inyectar condiciones de manera global, ignorando escenarios en los que múltiples conceptos pueden aparecer en el mismo video con interacciones ricas entre humanos y entre humanos y objetos. Esta suposición global impide un control preciso y por identidad de múltiples conceptos, incluyendo humanos y objetos, lo que dificulta las aplicaciones. En este trabajo, descartamos la suposición de entidad única e introducimos un marco novedoso que refuerza la vinculación fuerte y específica de regiones de condiciones de modalidades a la huella espacio-temporal de cada identidad. Dadas imágenes de referencia de múltiples conceptos, nuestro método puede inferir automáticamente información de diseño al aprovechar un predictor de máscaras para emparejar pistas de apariencia entre el video desruido y cada apariencia de referencia. Además, inyectamos condiciones de audio locales en su región correspondiente para garantizar una coincidencia de modalidades alineada con el diseño de manera iterativa. Este diseño permite la generación de alta calidad de videos centrados en humanos con múltiples conceptos controlables. Los resultados empíricos y los estudios de ablación validan la efectividad de nuestro control explícito de diseño para condiciones multimodales en comparación con contrapartes implícitas y otros métodos existentes.
Los LLM se utilizan predominantemente en comunicación sincrónica, donde un usuario humano y un modelo se comunican en turnos alternos. En contraste, muchos entornos del mundo real son inherentemente asincrónicos. Por ejemplo, en chats grupales, reuniones de equipo en línea o juegos sociales, no existe una noción inherente de turnos; por lo tanto, la decisión de cuándo hablar forma una parte crucial de la toma de decisiones del participante. En este trabajo, desarrollamos un agente LLM asincrónico adaptativo que, además de determinar qué decir, también decide cuándo decirlo. Para evaluar nuestro agente, recopilamos un conjunto de datos único de juegos de Mafia en línea, que incluye tanto a participantes humanos como a nuestro agente asincrónico. En general, nuestro agente se desempeña a la par de los jugadores humanos, tanto en el rendimiento del juego como en su capacidad para integrarse con los demás jugadores humanos. Nuestro análisis muestra que el comportamiento del agente al decidir cuándo hablar refleja de cerca los patrones humanos, aunque surgen diferencias en el contenido de los mensajes. Publicamos todos nuestros datos y código para apoyar y fomentar más investigaciones sobre una comunicación asincrónica más realista entre agentes LLM. Este trabajo allana el camino para la integración de LLM en entornos grupales humanos realistas, desde la asistencia en discusiones de equipo hasta entornos educativos y profesionales donde se deben navegar dinámicas sociales complejas.
A pesar del rápido progreso de los modelos de lenguaje multimodal de gran escala (MLLMs), estos han pasado por alto en gran medida la importancia del procesamiento visual. En un experimento simple pero revelador, encontramos de manera interesante que los modelos exclusivamente de lenguaje, cuando se les proporcionan descripciones de imágenes, pueden lograr un rendimiento comparable o incluso mejor que los MLLMs que consumen entradas visuales en bruto. Esto sugiere que los MLLMs actuales pueden generar descripciones visuales precisas, pero fallan en integrarlas efectivamente durante el razonamiento. Motivados por esto, proponemos un marco simple de perturbación visual que mejora la robustez perceptual sin requerir modificaciones algorítmicas ni datos adicionales de entrenamiento. Nuestro enfoque introduce tres perturbaciones específicas: concatenación de distractores, mezcla que preserva la dominancia y rotación aleatoria, que pueden integrarse fácilmente en los pipelines existentes post-entrenamiento, incluyendo SFT, DPO y GRPO. A través de extensos experimentos en múltiples conjuntos de datos, demostramos mejoras consistentes en el rendimiento del razonamiento matemático, con ganancias comparables a las logradas mediante cambios algorítmicos. Además, alcanzamos un rendimiento competitivo entre los modelos de 7B ajustados con RL de código abierto al entrenar Qwen2.5-VL-7B con perturbación visual. Mediante estudios de ablación exhaustivos, analizamos la efectividad de las diferentes estrategias de perturbación, revelando que cada tipo de perturbación contribuye de manera única a diferentes aspectos del razonamiento visual. Nuestros hallazgos destacan el papel crítico de la perturbación visual en el razonamiento matemático multimodal: un mejor razonamiento comienza con una mejor visión. Nuestro código está disponible en https://github.com/YutingLi0606/Vision-Matters.
Aunque los modelos de visión-lenguaje-acción (VLAs) han demostrado comportamientos robóticos prometedores en una diversidad de tareas de manipulación, logran tasas de éxito limitadas cuando se despliegan en tareas novedosas sin ajustes previos. Para permitir que estas políticas interactúen de manera segura con sus entornos, necesitamos un detector de fallos que proporcione una alerta oportuna para que el robot pueda detenerse, retroceder o solicitar ayuda. Sin embargo, los detectores de fallos existentes se entrenan y prueban solo en una o unas pocas tareas específicas, mientras que los VLAs requieren que el detector generalice y detecte fallos también en tareas no vistas y entornos novedosos. En este artículo, introducimos el problema de detección de fallos multitarea y proponemos SAFE, un detector de fallos para políticas robóticas generalistas como los VLAs. Analizamos el espacio de características de los VLAs y encontramos que estos poseen suficiente conocimiento de alto nivel sobre el éxito y el fracaso de las tareas, el cual es genérico entre diferentes tareas. Basándonos en esta observación, diseñamos SAFE para aprender a partir de las características internas de los VLAs y predecir un único escalar que indique la probabilidad de fallo en la tarea. SAFE se entrena tanto en ejecuciones exitosas como fallidas y se evalúa en tareas no vistas. SAFE es compatible con diferentes arquitecturas de políticas. Lo probamos en OpenVLA, pi_0 y pi_0-FAST tanto en entornos simulados como en el mundo real de manera extensiva. Comparamos SAFE con diversas líneas base y demostramos que SAFE alcanza un rendimiento de detección de fallos de vanguardia y el mejor equilibrio entre precisión y tiempo de detección utilizando predicción conformal. Más resultados cualitativos pueden encontrarse en https://vla-safe.github.io/.
El lenguaje proporciona una interfaz natural para especificar y evaluar el rendimiento en tareas visuales. Para materializar esta posibilidad, los modelos de lenguaje visual (VLMs, por sus siglas en inglés) deben integrar con éxito la información visual y lingüística. Nuestro trabajo compara los VLMs con una lectura directa de sus codificadores visuales para comprender su capacidad de integrar estas modalidades. A través de una serie de benchmarks centrados en visión (por ejemplo, estimación de profundidad, correspondencia), encontramos que los VLMs tienen un rendimiento sustancialmente peor que sus codificadores visuales, cayendo a niveles cercanos al azar. Investigamos estos resultados mediante una serie de análisis en todo el VLM: específicamente 1) la degradación de las representaciones visuales, 2) la fragilidad ante el prompt de la tarea, y 3) el papel del modelo de lenguaje en la resolución de la tarea. Descubrimos que el cuello de botella en la ejecución de estas tareas centradas en la visión radica en esta tercera categoría; los VLMs no están utilizando eficazmente la información visual que es fácilmente accesible en todo el modelo, y heredan los sesgos lingüísticos presentes en el LLM. Nuestro trabajo ayuda a diagnosticar los modos de fallo de los VLMs de código abierto y presenta una serie de evaluaciones útiles para futuras investigaciones sobre la comprensión visual dentro de los VLMs.
Los recientes avances en la generación de objetos 3D han mejorado significativamente tanto la calidad como la eficiencia. Sin embargo, la mayoría de los métodos existentes generan una única malla con todas las partes fusionadas, lo que limita la capacidad de editar o manipular partes individuales. Un desafío clave es que diferentes objetos pueden tener un número variable de partes. Para abordar esto, proponemos un nuevo marco de trabajo integral para la generación de objetos 3D a nivel de partes. Dada una única imagen de entrada, nuestro método genera objetos 3D de alta calidad con un número arbitrario de partes completas y semánticamente significativas. Introducimos una estrategia de empaquetamiento de volumen dual que organiza todas las partes en dos volúmenes complementarios, permitiendo la creación de partes completas e intercaladas que se ensamblan en el objeto final. Los experimentos muestran que nuestro modelo logra una mejor calidad, diversidad y generalización que los métodos anteriores de generación a nivel de partes basados en imágenes.
La correspondencia densa de imágenes es fundamental para muchas aplicaciones, como la odometría visual, la reconstrucción 3D, la asociación de objetos y la reidentificación. Históricamente, la correspondencia densa se ha abordado por separado para escenarios de línea base amplia y la estimación de flujo óptico, a pesar del objetivo común de emparejar contenido entre dos imágenes. En este artículo, desarrollamos un modelo unificado de flujo y correspondencia (UFM, por sus siglas en inglés), que se entrena con datos unificados para píxeles que son co-visibles tanto en la imagen fuente como en la imagen objetivo. UFM utiliza una arquitectura de transformador simple y genérica que regresa directamente el flujo (u, v). Es más fácil de entrenar y más preciso para flujos grandes en comparación con los volúmenes de costos de grano grueso a fino utilizados en trabajos previos. UFM es un 28% más preciso que los métodos de flujo más avanzados (Unimatch), mientras que también tiene un 62% menos de error y es 6.7 veces más rápido que los emparejadores de línea base amplia densa (RoMa). UFM es el primero en demostrar que el entrenamiento unificado puede superar a enfoques especializados en ambos dominios. Este resultado permite una correspondencia rápida y de propósito general, y abre nuevas direcciones para tareas de correspondencia multimodal, de largo alcance y en tiempo real.
La inferencia referencial de la mirada—la capacidad de deducir hacia dónde están mirando los demás—es un componente crítico de una teoría de la mente que sustenta la interacción natural entre humanos e inteligencia artificial. En un estudio controlado, evaluamos esta habilidad en 111 Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) utilizando fotografías tomadas con dificultad y variabilidad manipuladas, comparando su rendimiento con el de participantes humanos (N = 65), y analizamos los comportamientos mediante modelos de efectos mixtos. Descubrimos que 94 de los 111 VLMs no superaron el azar, mientras que los humanos alcanzaron una precisión casi máxima. Los VLMs incluso respondieron con cada opción casi con la misma frecuencia. ¿Están adivinando al azar? Aunque la mayoría de los VLMs tienen dificultades, al enfocarnos en cinco de los VLMs de mayor rendimiento con un desempeño superior al azar, encontramos que su rendimiento disminuyó al aumentar la dificultad de la tarea, pero varió solo ligeramente entre diferentes indicaciones y objetos de la escena. Estas características conductuales no pueden explicarse considerándolos como adivinadores aleatorios. En cambio, es probable que utilicen una combinación de heurísticas y conjeturas, de modo que su rendimiento depende de la dificultad de la tarea pero es robusto frente a variaciones perceptivas. Esto sugiere que los VLMs, al carecer de capacidad de inferencia de la mirada, aún no se han convertido en tecnologías que puedan interactuar de manera natural con los humanos, pero el potencial sigue existiendo.
El ajuste fino de modelos de difusión de video (VDMs) a nivel de usuario para generar videos que reflejen atributos específicos de los datos de entrenamiento presenta desafíos notables, y sigue siendo un área poco explorada a pesar de su importancia práctica. Mientras tanto, trabajos recientes como Alineación de Representaciones (REPA) han mostrado promesa al mejorar la convergencia y calidad de modelos de difusión de imágenes basados en DiT, al alinear o asimilar sus estados ocultos internos con características visuales preentrenadas externas, lo que sugiere su potencial para el ajuste fino de VDMs. En este trabajo, primero proponemos una adaptación directa de REPA para VDMs y demostramos empíricamente que, aunque es efectivo para la convergencia, no es óptimo para preservar la consistencia semántica entre fotogramas. Para abordar esta limitación, introducimos Alineación de Representaciones entre Fotogramas (CREPA), una novedosa técnica de regularización que alinea los estados ocultos de un fotograma con características externas de fotogramas vecinos. Las evaluaciones empíricas en VDMs a gran escala, como CogVideoX-5B y Hunyuan Video, demuestran que CREPA mejora tanto la fidelidad visual como la coherencia semántica entre fotogramas cuando se ajusta con métodos eficientes en parámetros como LoRA. Además, validamos CREPA en diversos conjuntos de datos con atributos variados, confirmando su amplia aplicabilidad. Página del proyecto: https://crepavideo.github.io
Es crucial que los Modelos de Lenguaje a Gran Escala (LLM) sean conscientes de los límites de su conocimiento y del mecanismo para identificar consultas conocidas y desconocidas. Este tipo de conciencia puede ayudar a los modelos a realizar inferencias adaptativas, como invocar RAG (Recuperación Aumentada por Generación), participar en un pensamiento lento y profundo, o adoptar mecanismos de abstención, lo cual es beneficioso para el desarrollo de IA eficiente y confiable. En este trabajo, proponemos un método para detectar los límites del conocimiento mediante la Incertidumbre a Nivel de Consulta, que tiene como objetivo determinar si el modelo es capaz de abordar una consulta dada sin generar ningún token. Para ello, introducimos un método novedoso y sin necesidad de entrenamiento llamado Confianza Interna, que aprovecha autoevaluaciones a través de capas y tokens. Los resultados empíricos en tareas de preguntas y respuestas factuales y de razonamiento matemático demuestran que nuestra confianza interna puede superar a varias líneas base. Además, mostramos que nuestro método propuesto puede utilizarse para RAG eficiente y cascadas de modelos, lo que permite reducir los costos de inferencia manteniendo el rendimiento.
La inteligencia artificial (IA) se ha convertido en una herramienta fundamental para asistir a los clínicos en el análisis de imágenes oftálmicas, como la tomografía de coherencia óptica (OCT). Sin embargo, el desarrollo de modelos de IA suele requerir una extensa anotación, y los modelos existentes tienden a tener un rendimiento inferior en datos independientes y no vistos. Los modelos base (FMs, por sus siglas en inglés), grandes modelos de IA entrenados con vastos conjuntos de datos no etiquetados, han mostrado potencial para superar estos desafíos. No obstante, los FMs disponibles para oftalmología carecen de una validación extensa, especialmente para tareas de segmentación, y se centran en una única modalidad de imagen. En este contexto, proponemos MIRAGE, un nuevo FM multimodal para el análisis de imágenes de OCT y oftalmoscopia con láser de barrido (SLO). Además, proponemos un nuevo punto de referencia de evaluación con tareas de clasificación y segmentación de OCT/SLO. La comparación con FMs generales y especializados, así como con métodos de segmentación, muestra la superioridad de MIRAGE en ambos tipos de tareas, destacando su idoneidad como base para el desarrollo de sistemas de IA robustos para el análisis de imágenes de OCT retinal. Tanto MIRAGE como el punto de referencia de evaluación están disponibles públicamente: https://github.com/j-morano/MIRAGE.
Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están impulsando el rápido avance de la inteligencia artificial, entrenar de manera efectiva y confiable estos modelos grandes sigue siendo uno de los desafíos más significativos en el campo. Para abordar este desafío, proponemos POET, un novedoso algoritmo de entrenamiento reparametrizado que utiliza Transformación de Equivalencia Ortogonal para optimizar las neuronas. Específicamente, POET reparametriza cada neurona con dos matrices ortogonales aprendibles y una matriz de pesos aleatoria fija. Debido a su capacidad comprobada para preservar las propiedades espectrales de las matrices de pesos, POET puede optimizar de manera estable la función objetivo con una mejora en la generalización. Además, desarrollamos aproximaciones eficientes que hacen que POET sea flexible y escalable para entrenar redes neuronales de gran escala. Experimentos extensivos validan la efectividad y escalabilidad de POET en el entrenamiento de LLMs.
La Respuesta Visual a Preguntas Médicas (MedVQA, por sus siglas en inglés) es un campo prometedor para el desarrollo de sistemas de apoyo a la toma de decisiones clínicas, aunque el progreso suele verse limitado por los conjuntos de datos disponibles, que pueden carecer de complejidad clínica y diversidad visual. Para abordar estas brechas, presentamos Kvasir-VQA-x1, un nuevo conjunto de datos a gran escala para endoscopia gastrointestinal (GI). Nuestro trabajo amplía significativamente el conjunto original Kvasir-VQA al incorporar 159,549 nuevos pares de preguntas-respuestas diseñados para evaluar un razonamiento clínico más profundo. Desarrollamos un método sistemático utilizando modelos de lenguaje de gran escala para generar estas preguntas, las cuales están estratificadas por complejidad para evaluar mejor las capacidades de inferencia de un modelo. Para asegurar que nuestro conjunto de datos prepare a los modelos para escenarios clínicos del mundo real, también hemos introducido una variedad de aumentos visuales que imitan artefactos comunes en las imágenes. El conjunto de datos está estructurado para apoyar dos evaluaciones principales: una para el rendimiento estándar de VQA y otra para probar la robustez del modelo frente a estas perturbaciones visuales. Al proporcionar un punto de referencia más desafiante y clínicamente relevante, Kvasir-VQA-x1 tiene como objetivo acelerar el desarrollo de sistemas de IA multimodal más confiables y efectivos para su uso en entornos clínicos. El conjunto de datos es completamente accesible y se adhiere a los principios FAIR de datos, lo que lo convierte en un recurso valioso para la comunidad investigadora en general. Código y datos: https://github.com/Simula/Kvasir-VQA-x1 y https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Predecir las trayectorias intermedias entre una distribución inicial y una objetivo es un problema central en el modelado generativo. Los enfoques existentes, como el emparejamiento de flujos y el emparejamiento de puentes de Schrödinger, aprenden eficazmente mapeos entre dos distribuciones modelando una única trayectoria estocástica. Sin embargo, estos métodos están intrínsecamente limitados a transiciones unimodales y no pueden capturar evoluciones ramificadas o divergentes desde un origen común hacia múltiples resultados distintos. Para abordar esto, presentamos el Emparejamiento de Puentes de Schrödinger Ramificados (BranchSBM), un marco novedoso que aprende puentes de Schrödinger ramificados. BranchSBM parametriza múltiples campos de velocidad dependientes del tiempo y procesos de crecimiento, permitiendo la representación de la divergencia a nivel de población en múltiples distribuciones terminales. Demostramos que BranchSBM no solo es más expresivo, sino también esencial para tareas que involucran la navegación de superficies multipath, el modelado de bifurcaciones del destino celular a partir de estados progenitores homogéneos y la simulación de respuestas celulares divergentes a perturbaciones.
Los modelos de lenguaje de gran escala frecuentemente enfrentan conflictos entre su conocimiento paramétrico y la entrada contextual, lo que a menudo resulta en inconsistencias factuales o alucinaciones. Proponemos el Debate Autoreflexivo para la Confiabilidad Contextual (SR-DCR, por sus siglas en inglés), un marco ligero que integra la autoconfianza a nivel de token con un debate asimétrico multiagente para resolver dichos conflictos. Un crítico, privado de contexto, desafía a un defensor que argumenta a partir del pasaje dado; un modelo juez evalúa el debate y determina la confiabilidad del contexto. La respuesta final se selecciona combinando el veredicto con la confianza del modelo. Los experimentos en el punto de referencia ClashEval demuestran que SR-DCR mejora consistentemente la robustez frente a contextos engañosos, manteniendo la precisión en entradas confiables, superando tanto los debates clásicos como las líneas base basadas únicamente en la confianza, con un mínimo sobrecosto computacional. El código está disponible en https://github.com/smiles724/Self-Reflective-Debates.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes en una amplia gama de tareas, incluyendo problemas matemáticos de nivel olímpico, lo que indica evidencia de sus habilidades de razonamiento complejo. Si bien muchos benchmarks de razonamiento se centran en el dominio STEM, la capacidad de los LRMs para razonar correctamente en dominios de tareas más amplios sigue siendo poco explorada. En este trabajo, presentamos TTT-Bench, un nuevo benchmark diseñado para evaluar habilidades básicas de razonamiento estratégico, espacial y lógico en LRMs a través de un conjunto de cuatro juegos de dos jugadores al estilo Tic-Tac-Toe que los humanos pueden resolver sin esfuerzo desde una edad temprana. Proponemos un enfoque programático simple pero escalable para generar problemas verificables de juegos de dos jugadores para TTT-Bench. Aunque estos juegos son triviales para los humanos, requieren razonar sobre las intenciones del oponente, así como sobre las configuraciones espaciales del tablero, para asegurar una victoria. Evaluamos un conjunto diverso de LRMs de última generación y descubrimos que los modelos que sobresalen en problemas matemáticos difíciles a menudo fallan en estos juegos de razonamiento simples. Pruebas adicionales revelan que nuestros modelos de razonamiento evaluados obtienen en promedio un 41\% y un 5\% menos en TTT-Bench en comparación con MATH 500 y AIME 2024, respectivamente, con modelos más grandes logrando un mayor rendimiento utilizando trazas de razonamiento más cortas, donde la mayoría de los modelos tienen dificultades en situaciones de razonamiento estratégico a largo plazo en tareas simples y nuevas de TTT-Bench.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a muchos investigadores a centrarse en la construcción de agentes de IA completamente autónomos. Este documento de posición cuestiona si este enfoque es el camino correcto, ya que estos sistemas autónomos aún presentan problemas de fiabilidad, transparencia y comprensión de los requisitos reales de los humanos. Proponemos un enfoque diferente: los Sistemas Humano-Agente basados en LLM (LLM-HAS, por sus siglas en inglés), donde la IA trabaja con los humanos en lugar de reemplazarlos. Al mantener a los humanos involucrados para proporcionar orientación, responder preguntas y mantener el control, estos sistemas pueden ser más confiables y adaptables. Al examinar ejemplos de atención médica, finanzas y desarrollo de software, demostramos cómo el trabajo en equipo entre humanos y IA puede manejar tareas complejas mejor que la IA trabajando sola. También discutimos los desafíos de construir estos sistemas colaborativos y ofrecemos soluciones prácticas. Este documento argumenta que el progreso en la IA no debe medirse por cuán independientes se vuelven los sistemas, sino por cuán bien pueden trabajar con los humanos. El futuro más prometedor para la IA no está en los sistemas que asumen roles humanos, sino en aquellos que mejoran las capacidades humanas a través de una asociación significativa.