Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas, pero aún enfrentan dificultades con el razonamiento matemático complejo. La investigación existente se centra principalmente en la construcción de conjuntos de datos y la optimización de métodos, a menudo pasando por alto dos aspectos críticos: el diseño integral basado en el conocimiento y el modelado del espacio de datos centrado en el modelo. En este artículo, presentamos We-Math 2.0, un sistema unificado que integra un sistema estructurado de conocimiento matemático, el modelado del espacio de datos centrado en el modelo y un paradigma de entrenamiento basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar de manera integral las habilidades de razonamiento matemático de los MLLMs. Las contribuciones clave de We-Math 2.0 son cuatro: (1) Sistema de Conocimiento MathBook: Construimos un sistema jerárquico de cinco niveles que abarca 491 puntos de conocimiento y 1,819 principios fundamentales. (2) MathBook-Standard & Pro: Desarrollamos MathBook-Standard, un conjunto de datos que garantiza una amplia cobertura conceptual y flexibilidad mediante una expansión dual. Además, definimos un espacio de dificultad tridimensional y generamos 7 variantes progresivas por problema para construir MathBook-Pro, un conjunto de datos desafiante para un entrenamiento robusto. (3) MathBook-RL: Proponemos un marco de RL de dos etapas que comprende: (i) Ajuste Fino de Arranque en Frío, que alinea el modelo con el razonamiento en cadena de pensamiento orientado al conocimiento; y (ii) RL de Alineación Progresiva, que aprovecha el aprendizaje de recompensa promedio y la programación dinámica de datos para lograr una alineación progresiva en los niveles de dificultad. (4) MathBookEval: Introducimos un punto de referencia integral que cubre los 491 puntos de conocimiento con distribuciones diversas de pasos de razonamiento. Los resultados experimentales muestran que MathBook-RL compite favorablemente con las líneas base existentes en cuatro puntos de referencia ampliamente utilizados y obtiene resultados sólidos en MathBookEval, sugiriendo una prometedora generalización en el razonamiento matemático.
Los modelos autorregresivos (AR) predominantes para la generación de imágenes a partir de texto dependen de modelos de difusión pesados y computacionalmente intensivos para procesar tokens de imagen continuos, o emplean cuantización vectorial (VQ) para obtener tokens discretos con pérdida de cuantización. En este artículo, avanzamos el paradigma autorregresivo con NextStep-1, un modelo autorregresivo de 14B acompañado de una cabeza de emparejamiento de flujo de 157M, entrenado con tokens de texto discretos y tokens de imagen continuos utilizando objetivos de predicción del siguiente token. NextStep-1 logra un rendimiento de vanguardia entre los modelos autorregresivos en tareas de generación de imágenes a partir de texto, demostrando una fuerte capacidad para la síntesis de imágenes de alta fidelidad. Además, nuestro método muestra un rendimiento sólido en la edición de imágenes, destacando el poder y la versatilidad de nuestro enfoque unificado. Para fomentar la investigación abierta, liberaremos nuestro código y modelos a la comunidad.
Presentamos PRELUDE, un punto de referencia para evaluar la comprensión de contextos extensos a través de la tarea de determinar si la historia precuela de un personaje es consistente con la narrativa canónica del libro original. Nuestra tarea exige una mayor demanda de comprensión global y razonamiento profundo en comparación con los puntos de referencia existentes, ya que las precuelas no forman parte de la historia original y evaluar su plausibilidad generalmente requiere buscar e integrar información que solo está indirectamente relacionada. Empíricamente, el 88% de los casos requieren evidencia de múltiples partes de la narrativa. Los resultados experimentales destacan el desafío de nuestra tarea: el aprendizaje en contexto, RAG y el entrenamiento en dominio con modelos de lenguaje de última generación, así como los servicios comerciales de DeepResearch, se quedan atrás de los humanos en más del 15%. Un estudio adicional con humanos revela que los modelos a menudo producen respuestas correctas con un razonamiento defectuoso, lo que resulta en una brecha de más del 30% en la precisión del razonamiento en comparación con los humanos. Estos hallazgos subrayan el margen sustancial de mejora en la comprensión y el razonamiento de contextos extensos.
La producción tradicional de caricaturas y anime implica etapas de keyframing, inbetweening y colorización, que requieren un esfuerzo manual intensivo. A pesar de los recientes avances en IA, los métodos existentes suelen manejar estas etapas por separado, lo que genera acumulación de errores y artefactos. Por ejemplo, los enfoques de inbetweening tienen dificultades con movimientos amplios, mientras que los métodos de colorización requieren bocetos densos por fotograma. Para abordar esto, presentamos ToonComposer, un modelo generativo que unifica el inbetweening y la colorización en una única etapa posterior al keyframing. ToonComposer emplea un mecanismo de inyección de bocetos dispersos para proporcionar un control preciso utilizando bocetos de keyframes. Además, utiliza un método de adaptación de caricatura con un adaptador espacial de bajo rango para ajustar un modelo de video moderno al dominio de las caricaturas, manteniendo intacto su conocimiento temporal. Requiriendo tan solo un boceto y un fotograma de referencia coloreado, ToonComposer destaca con entradas dispersas, al mismo tiempo que admite múltiples bocetos en cualquier ubicación temporal para un control de movimiento más preciso. Esta doble capacidad reduce la carga de trabajo manual y mejora la flexibilidad, empoderando a los artistas en escenarios del mundo real. Para evaluar nuestro modelo, creamos PKBench, un punto de referencia que incluye bocetos dibujados por humanos que simulan casos de uso del mundo real. Nuestra evaluación demuestra que ToonComposer supera a los métodos existentes en calidad visual, consistencia de movimiento y eficiencia de producción, ofreciendo una solución superior y más flexible para la producción de caricaturas asistida por IA.
Presentamos UI-Venus, un agente de interfaz de usuario nativo que toma únicamente capturas de pantalla como entrada, basado en un modelo de lenguaje multimodal de gran escala. UI-Venus logra un rendimiento de vanguardia (SOTA) tanto en tareas de anclaje como de navegación en interfaces de usuario, utilizando solo varios cientos de miles de muestras de entrenamiento de alta calidad mediante un ajuste fino basado en refuerzo (RFT) sobre Qwen2.5-VL. Específicamente, las variantes de 7B y 72B de UI-Venus obtienen un 94.1% / 50.8% y un 95.3% / 61.9% en los benchmarks estándar de anclaje, es decir, Screenspot-V2 / Pro, superando a los baselines SOTA anteriores, incluyendo el modelo de código abierto GTA1 y el modelo de código cerrado UI-TARS-1.5. Para demostrar la capacidad de resumen y planificación de UI-Venus, también lo evaluamos en AndroidWorld, una arena de navegación de interfaz de usuario en línea, donde nuestras variantes de 7B y 72B logran tasas de éxito del 49.1% y 65.9%, superando también a los modelos existentes. Para lograr esto, introdujimos funciones de recompensa cuidadosamente diseñadas tanto para tareas de anclaje como de navegación, junto con estrategias eficientes de limpieza de datos correspondientes. Para mejorar aún más el rendimiento en navegación, proponemos la Alineación de Historial de Trayectorias Autoevolutiva y la Mejora de Acciones Dispersas, que refinan los rastros de razonamiento histórico y equilibran la distribución de acciones dispersas pero críticas, lo que conduce a una planificación más coherente y una mejor generalización en tareas complejas de interfaz de usuario. Nuestras contribuciones incluyen la publicación de agentes de interfaz de usuario de código abierto SOTA, protocolos integrales de limpieza de datos y un marco novedoso de autoevolución para mejorar el rendimiento en navegación, lo que fomenta una mayor investigación y desarrollo en la comunidad. El código está disponible en https://github.com/antgroup/UI-Venus.
Los Modelos de Lenguaje de Difusión (DLMs, por sus siglas en inglés) están surgiendo rápidamente como una alternativa poderosa y prometedora al paradigma autoregresivo (AR) dominante. Al generar tokens en paralelo a través de un proceso iterativo de eliminación de ruido, los DLMs poseen ventajas inherentes en la reducción de la latencia de inferencia y la captura de contexto bidireccional, lo que permite un control más fino sobre el proceso de generación. Aunque logran una aceleración de varias veces, los avances recientes han permitido que los DLMs muestren un rendimiento comparable al de sus contrapartes autoregresivas, convirtiéndolos en una opción atractiva para diversas tareas de procesamiento del lenguaje natural. En este estudio, proporcionamos una visión holística del panorama actual de los DLMs. Rastreamos su evolución y relación con otros paradigmas, como los modelos autoregresivos y los modelos de lenguaje enmascarado, y cubrimos tanto los principios fundamentales como los modelos de vanguardia. Nuestro trabajo ofrece una taxonomía actualizada y exhaustiva, junto con un análisis en profundidad de las técnicas actuales, desde estrategias de pre-entrenamiento hasta métodos avanzados de post-entrenamiento. Otra contribución de este estudio es una revisión detallada de las estrategias y optimizaciones de inferencia de los DLMs, incluyendo mejoras en el paralelismo de decodificación, mecanismos de almacenamiento en caché y calidad de generación. También destacamos los últimos enfoques en las extensiones multimodales de los DLMs y delineamos sus aplicaciones en diversos escenarios prácticos. Además, nuestra discusión aborda las limitaciones y desafíos de los DLMs, incluyendo la eficiencia, el manejo de secuencias largas y los requisitos de infraestructura, al tiempo que se esbozan direcciones futuras de investigación para sostener el progreso en este campo en rápida evolución. El proyecto GitHub está disponible en https://github.com/VILA-Lab/Awesome-DLMs.
Las aplicaciones interactivas modernas demandan cada vez más contenido 3D dinámico, sin embargo, la transformación de modelos 3D estáticos en recursos animados constituye un cuello de botella significativo en los flujos de trabajo de creación de contenido. Si bien los avances recientes en IA generativa han revolucionado la creación de modelos 3D estáticos, el rigging y la animación siguen dependiendo en gran medida de la intervención experta. Presentamos Puppeteer, un marco integral que aborda tanto el rigging automático como la animación para diversos objetos 3D. Nuestro sistema primero predice estructuras esqueléticas plausibles mediante un transformador autorregresivo que introduce una estrategia de tokenización basada en articulaciones para una representación compacta y una metodología de ordenamiento jerárquico con perturbación estocástica que mejora las capacidades de aprendizaje bidireccional. Luego, infiere los pesos de skinning mediante una arquitectura basada en atención que incorpora atención conjunta consciente de la topología, codificando explícitamente las relaciones entre articulaciones basadas en distancias del grafo esquelético. Finalmente, complementamos estos avances en rigging con una canalización de animación basada en optimización diferenciable que genera animaciones estables y de alta fidelidad, siendo computacionalmente más eficiente que los enfoques existentes. Evaluaciones exhaustivas en múltiples benchmarks demuestran que nuestro método supera significativamente a las técnicas de vanguardia tanto en precisión de predicción esquelética como en calidad de skinning. El sistema procesa de manera robusta contenido 3D diverso, que va desde recursos de juegos diseñados profesionalmente hasta formas generadas por IA, produciendo animaciones temporalmente coherentes que eliminan los problemas de vibración comunes en los métodos existentes.
Presentamos STream3R, un enfoque novedoso para la reconstrucción 3D que reformula la predicción de mapas de puntos como un problema de Transformer de solo decodificación. Los métodos actuales más avanzados para la reconstrucción multivista dependen de una optimización global costosa o se basan en mecanismos de memoria simplistas que escalan deficientemente con la longitud de la secuencia. En contraste, STream3R introduce un marco de trabajo en flujo que procesa secuencias de imágenes de manera eficiente utilizando atención causal, inspirado en avances en el modelado moderno del lenguaje. Al aprender priors geométricos de conjuntos de datos 3D a gran escala, STream3R generaliza bien a escenarios diversos y desafiantes, incluyendo escenas dinámicas donde los métodos tradicionales suelen fallar. Experimentos exhaustivos muestran que nuestro método supera consistentemente trabajos previos en benchmarks tanto de escenas estáticas como dinámicas. Además, STream3R es inherentemente compatible con infraestructuras de entrenamiento estilo LLM, permitiendo un preentrenamiento y ajuste fino eficiente a gran escala para diversas tareas 3D posteriores. Nuestros resultados subrayan el potencial de los modelos Transformer causales para la percepción 3D en línea, allanando el camino para la comprensión 3D en tiempo real en entornos de flujo continuo. Más detalles pueden encontrarse en nuestra página del proyecto: https://nirvanalan.github.io/projects/stream3r.
El aprendizaje por refuerzo con recompensas verificables (RLVR), que típicamente adopta Pass@1 como recompensa, ha enfrentado problemas para equilibrar la exploración y la explotación, lo que lleva a las políticas a preferir acciones conservadoras y converger a un óptimo local. Por lo tanto, identificar una métrica de recompensa adecuada es crucial. Respecto a trabajos previos, aunque Pass@k se ha utilizado en la evaluación, su conexión con la capacidad de exploración de los modelos de lenguaje (LLM) en RLVR ha sido ampliamente ignorada. Para investigar esto, primero utilizamos Pass@k como recompensa para entrenar el modelo de política (es decir, Entrenamiento con Pass@k) y observamos la mejora en su capacidad de exploración. A continuación, derivamos una solución analítica para la ventaja del Entrenamiento con Pass@k, lo que conduce a un proceso eficiente y efectivo. Basándonos en esto, nuestro análisis revela que la exploración y la explotación no son objetivos inherentemente conflictivos, sino que pueden potenciarse mutuamente. Además, el Entrenamiento con Pass@k con derivación analítica implica esencialmente diseñar directamente la función de ventaja. Inspirados por esto, exploramos preliminarmente el diseño de ventajas para RLVR, mostrando resultados prometedores y destacando una dirección futura potencial.
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) muestran un inmenso potencial para lograr interacciones verdaderamente humanas, el progreso se ve obstaculizado por la falta de marcos de evaluación detallados para escenarios centrados en el ser humano, que abarcan tanto la comprensión de intenciones humanas complejas como la provisión de respuestas empáticas y conscientes del contexto. Aquí presentamos HumanSense, un punto de referencia integral diseñado para evaluar las capacidades de percepción e interacción centradas en el ser humano de los MLLMs, con un enfoque particular en la comprensión profunda de contextos multimodales extendidos y la formulación de retroalimentación racional. Nuestra evaluación revela que los MLLMs líderes aún tienen un margen considerable de mejora, especialmente para tareas avanzadas orientadas a la interacción. Complementar la entrada visual con información de audio y texto produce mejoras sustanciales, y los modelos omni-modales muestran ventajas en estas tareas. Además, argumentamos que la retroalimentación apropiada surge de un análisis contextual de las necesidades y emociones del interlocutor, con la capacidad de razonamiento como la clave para desbloquearla. En consecuencia, empleamos un aprendizaje por refuerzo progresivo en múltiples etapas y modalidades para mejorar las capacidades de razonamiento de un modelo omni, logrando ganancias sustanciales en los resultados de evaluación. Adicionalmente, observamos que los procesos de razonamiento exitosos exhiben patrones de pensamiento altamente consistentes. Al diseñar indicaciones correspondientes, también mejoramos el rendimiento de modelos sin razonamiento de manera libre de entrenamiento. Página del proyecto: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Trabajos previos han analizado la robustez de los codificadores visuales frente a transformaciones y corrupciones de imágenes, particularmente en casos donde dichas alteraciones no se han visto durante el entrenamiento. Cuando esto ocurre, introducen una forma de cambio de distribución en el momento de la prueba, lo que a menudo conduce a una degradación del rendimiento. El enfoque principal ha estado en corrupciones severas que, cuando se aplican de manera agresiva, distorsionan las señales útiles necesarias para predicciones semánticas precisas. Adoptamos una perspectiva diferente al analizar parámetros del proceso de adquisición de imágenes y transformaciones que pueden ser sutiles o incluso imperceptibles para el ojo humano. Descubrimos que dichos parámetros están sistemáticamente codificados en las representaciones visuales aprendidas y pueden recuperarse fácilmente. Más sorprendentemente, su presencia puede tener un impacto profundo, ya sea positivo o negativo, en las predicciones semánticas. Este efecto depende de si existe una fuerte correlación o anti-correlación entre las etiquetas semánticas y estas etiquetas basadas en la adquisición o el procesamiento. Nuestro código y datos están disponibles en: https://github.com/ryan-caesar-ramos/visual-encoder-traces
Los recientes avances en el aprendizaje automático han impulsado un creciente interés en la evaluación automatizada de la calidad de la interpretación. Sin embargo, la investigación existente adolece de un examen insuficiente de la calidad del uso del lenguaje, una efectividad de modelado insatisfactoria debido a la escasez y el desequilibrio de datos, y una falta de esfuerzos para explicar las predicciones del modelo. Para abordar estas brechas, proponemos un marco de modelado multidimensional que integra la ingeniería de características, la ampliación de datos y el aprendizaje automático explicable. Este enfoque prioriza la explicabilidad sobre las predicciones de "caja negra" al utilizar únicamente características transparentes y relevantes para el constructo, y al realizar un análisis de valores de Shapley (SHAP). Nuestros resultados demuestran un fuerte rendimiento predictivo en un nuevo conjunto de datos de interpretación consecutiva inglés-chino, identificando que las puntuaciones BLEURT y CometKiwi son las características predictivas más fuertes para la fidelidad, las características relacionadas con las pausas para la fluidez, y las métricas de diversidad fraseológica específicas del chino para el uso del lenguaje. En general, al enfatizar particularmente la explicabilidad, presentamos una alternativa escalable, confiable y transparente a la evaluación humana tradicional, facilitando la provisión de retroalimentación diagnóstica detallada para los estudiantes y apoyando las ventajas del aprendizaje autorregulado que no ofrecen las puntuaciones automatizadas de forma aislada.
En el estudio del Procesamiento del Lenguaje Natural (PLN) confiable, han surgido varios campos de investigación importantes, incluyendo la explicabilidad y la privacidad. Aunque el interés en la investigación tanto del PLN explicable como del que preserva la privacidad ha aumentado considerablemente en los últimos años, aún falta investigación en la intersección de ambos. Esto deja un vacío considerable en la comprensión de si es posible lograr tanto la explicabilidad como la privacidad, o si estos dos objetivos están en conflicto. En este trabajo, realizamos una investigación empírica sobre la relación entre privacidad y explicabilidad en el contexto del PLN, guiados por los métodos predominantes de Privacidad Diferencial (DP) y Explicabilidad Post-hoc. Nuestros hallazgos incluyen una visión de la compleja relación entre privacidad y explicabilidad, que está influenciada por varios factores, como la naturaleza de la tarea específica y la elección del método de privatización de texto y explicabilidad. En este sentido, destacamos el potencial para que la privacidad y la explicabilidad coexistan, y resumimos nuestros hallazgos en una colección de recomendaciones prácticas para futuros trabajos en esta importante intersección.