Artículos de investigación en IA seleccionados diariamente con traducciones
Las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido un enfoque de investigación de larga data. Trabajos recientes han mejorado aún más estas capacidades utilizando aprendizaje por refuerzo (RL, por sus siglas en inglés), con muchos métodos nuevos que afirman mejoras significativas con una supervisión externa mínima o nula. Sorprendentemente, algunos estudios incluso sugieren que señales de recompensa aleatorias o incorrectas pueden mejorar el rendimiento en el razonamiento. Sin embargo, estos avances se reportan principalmente en la familia de modelos Qwen2.5 y se evalúan en puntos de referencia conocidos como MATH-500, AMC y AIME, mientras que no logran resultados similares en otros modelos como Llama, lo que justifica una investigación más profunda. Nuestro análisis muestra que, aunque Qwen2.5 alcanza un fuerte rendimiento en razonamiento matemático, su preentrenamiento en corpus web a gran escala lo hace vulnerable a la contaminación de datos en puntos de referencia populares. Como resultado, las conclusiones derivadas de estos puntos de referencia pueden ser poco confiables. Para abordar este problema, introducimos un generador que produce problemas aritméticos completamente sintéticos de longitud y dificultad arbitrarias, generando un conjunto de datos limpio que denominamos RandomCalculation. Utilizando estos conjuntos de datos libres de fugas, demostramos que solo las señales de recompensa precisas mejoran consistentemente el rendimiento, mientras que las señales ruidosas o incorrectas no lo hacen. Abogamos por la evaluación de métodos de RL en puntos de referencia no contaminados y en diversas familias de modelos para garantizar conclusiones confiables.
El escalado de modelos de lenguaje desbloquea capacidades impresionantes, pero las demandas computacionales y de memoria asociadas hacen que tanto el entrenamiento como la implementación sean costosos. Los esfuerzos existentes en eficiencia suelen enfocarse en el uso compartido de parámetros o en el cálculo adaptativo, dejando abierta la cuestión de cómo lograr ambos simultáneamente. Presentamos Mixture-of-Recursions (MoR), un marco unificado que combina estos dos ejes de eficiencia dentro de un único Transformer Recursivo. MoR reutiliza una pila compartida de capas a través de los pasos de recursión para lograr eficiencia en parámetros, mientras que enrutadores ligeros permiten un pensamiento adaptativo a nivel de token al asignar dinámicamente diferentes profundidades de recursión a tokens individuales. Esto permite que MoR enfoque el cálculo de atención cuadrática solo entre los tokens aún activos en una profundidad de recursión dada, mejorando aún más la eficiencia de acceso a la memoria al almacenar selectivamente solo sus pares clave-valor. Más allá de estos mecanismos centrales, también proponemos una variante de uso compartido de KV que reutiliza los pares KV de la primera recursión, diseñada específicamente para reducir la latencia de prellenado y la huella de memoria. En escalas de modelos que van desde 135M hasta 1.7B de parámetros, MoR forma una nueva frontera de Pareto: con igual cantidad de FLOPs de entrenamiento y tamaños de modelo más pequeños, reduce significativamente la perplejidad de validación y mejora la precisión en pocos ejemplos, al tiempo que ofrece un mayor rendimiento en comparación con líneas base recursivas existentes y modelos convencionales. Estas ganancias demuestran que MoR es un camino efectivo hacia la calidad de modelos grandes sin incurrir en el costo de modelos grandes.
El rápido desarrollo de modelos a gran escala ha catalizado avances significativos en el dominio de los humanos digitales. Estas metodologías avanzadas ofrecen soluciones de alta fidelidad para la animación y renderizado de avatares, lo que ha llevado a la academia a enfocarse en el próximo gran desafío: el humano virtual interactivo audiovisual diádico. Para facilitar la investigación en esta área emergente, presentamos el conjunto de datos SpeakerVid-5M, el primer conjunto de datos a gran escala y de alta calidad diseñado para la generación de humanos virtuales interactivos audiovisuales diádicos. Con un total de más de 8,743 horas, SpeakerVid-5M contiene más de 5.2 millones de clips de video de retratos humanos. Abarca diversas escalas y tipos de interacción, incluyendo monólogos, escucha activa y conversaciones diádicas. Es crucial destacar que el conjunto de datos está estructurado en dos dimensiones clave: tipo de interacción y calidad de los datos. En primer lugar, se categoriza en cuatro tipos (rama de diálogo, rama única, rama de escucha y rama de múltiples turnos) según el escenario de interacción. En segundo lugar, se estratifica en un subconjunto de preentrenamiento a gran escala y un subconjunto curado de alta calidad para el Ajuste Fino Supervisado (SFT). Esta estructura dual permite abordar una amplia gama de tareas relacionadas con humanos virtuales 2D. Además, proporcionamos una línea base de chat de video basada en autoregresión (AR) entrenada con estos datos, acompañada de un conjunto dedicado de métricas y datos de prueba que sirven como referencia VidChatBench para trabajos futuros. Tanto el conjunto de datos como el código correspondiente de procesamiento de datos serán publicados públicamente. Página del proyecto: https://dorniwang.github.io/SpeakerVid-5M/
Los modelos avanzados recientes de visión y lenguaje (VLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas pasivas y fuera de línea de comprensión de imágenes y videos. Sin embargo, su efectividad en entornos corporizados, que requieren interacción en línea y comprensión activa de escenas, sigue siendo limitada. En tales escenarios, un agente percibe el entorno desde una perspectiva en primera persona, donde cada acción moldea dinámicamente las observaciones posteriores. Incluso modelos de última generación como GPT-4o, Claude 3.5 Sonnet y Gemini 2.5 Pro enfrentan dificultades en interacciones en entornos abiertos, mostrando limitaciones claras en razonamiento espacial y planificación a largo plazo. Para abordar esta brecha, presentamos EmRACE-3K, un conjunto de datos de más de 3,000 tareas guiadas por lenguaje situadas en diversos entornos fotorrealistas construidos utilizando Unreal Engine y el marco UnrealCV-Zoo. Las tareas abarcan una amplia gama de desafíos corporizados, incluyendo navegación, manipulación de objetos y ejecución de objetivos en múltiples etapas. Cada tarea se desarrolla como una trayectoria de múltiples pasos, emparejando observaciones visuales en primera persona con instrucciones de alto nivel, acciones fundamentadas y justificaciones en lenguaje natural que expresan la intención del agente en cada paso. Utilizando EmRACE-3K, establecemos un punto de referencia para evaluar las capacidades de razonamiento corporizado de los VLMs en tres dimensiones clave: Exploración, Razonamiento Espacial-Semántico Dinámico y Ejecución de Objetivos en Múltiples Etapas. En configuraciones de cero disparos, todos los modelos logran tasas de éxito inferiores al 20%, subrayando el desafío que plantea nuestro punto de referencia y las limitaciones actuales de los VLMs en entornos interactivos. Para demostrar la utilidad de EmRACE-3K, ajustamos Qwen2.5-VL-7B mediante aprendizaje supervisado seguido de aprendizaje por refuerzo. Este enfoque produce mejoras sustanciales en las tres categorías de desafíos, destacando la efectividad del conjunto de datos para permitir el desarrollo de capacidades de razonamiento corporizado.
Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han logrado avances notables en benchmarks específicos para tareas, pero sus métodos de evaluación siguen limitados por paradigmas aislados de resolución de problemas. Los benchmarks existentes evalúan predominantemente el razonamiento de preguntas únicas mediante pruebas secuenciales, lo que resulta en limitaciones críticas: (1) vulnerabilidad a la contaminación de datos y menor nivel de desafío (por ejemplo, DeepSeek-R1 alcanza un 97.0% en MATH500), lo que obliga a la creación costosa y perpetua de nuevas preguntas con grandes esfuerzos humanos, (2) incapacidad para evaluar modelos bajo presión de múltiples contextos, un requisito clave para su implementación en el mundo real. Para cerrar esta brecha, presentamos REST (Evaluación de Razonamiento mediante Pruebas Simultáneas), un marco de pruebas de estrés que expone a los LRMs a múltiples problemas de manera simultánea. Más allá del razonamiento básico, REST evalúa específicamente varias capacidades poco probadas: asignación de prioridad contextual, resistencia a la interferencia entre problemas y gestión dinámica de la carga cognitiva. Nuestra evaluación revela varios hallazgos sorprendentes: incluso modelos de última generación (SOTA) como DeepSeek-R1 muestran una degradación sustancial del rendimiento bajo pruebas de estrés. Crucialmente, REST demuestra un poder discriminativo más fuerte que los benchmarks existentes, revelando diferencias pronunciadas en el rendimiento entre modelos que exhiben un rendimiento similar y cercano al máximo en evaluaciones de preguntas únicas. Algunas ideas mecanísticas clave surgen de nuestro análisis: (1) la "trampa de sobrepensar" es un factor crítico que contribuye a la degradación del rendimiento; (2) los modelos entrenados con la técnica "long2short" preservan más precisión en su rendimiento de problemas únicos bajo REST, superando a sus contrapartes entrenadas de manera estándar. Estos resultados establecen a REST como un paradigma de evaluación rentable y preparado para el futuro que refleja mejor las demandas de razonamiento del mundo real, al tiempo que reduce la dependencia de la anotación humana continua.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) destacan en la comprensión y generación de lenguaje natural, pero siguen siendo vulnerables a errores factuales, lo que limita su confiabilidad en tareas intensivas en conocimiento. Si bien las estrategias en tiempo de decodificación ofrecen una solución eficiente prometedora sin necesidad de entrenamiento, los métodos existentes suelen tratar las señales a nivel de token y a nivel de capa de manera aislada, pasando por alto la dinámica conjunta entre ellas. En este trabajo, presentamos un método de decodificación contrastiva localizado por capas y consciente de los tokens, que alinea tipos específicos de tokens con sus capas de transformadores más influyentes para mejorar la generación factual. A través de un análisis empírico de atención, identificamos dos patrones clave: los tokens de puntuación reciben atención dominante en las capas iniciales, mientras que los tokens conceptuales gobiernan el razonamiento semántico en las capas intermedias. Al suprimir selectivamente la atención a estos tipos de tokens en sus respectivas profundidades, logramos la inducción de una degradación factual controlada y derivamos señales contrastivas para guiar la decodificación factual final. Nuestro método no requiere entrenamiento adicional ni modificaciones del modelo, y los experimentos demuestran que mejora consistentemente la factualidad en múltiples LLMs y diversos benchmarks.
Presentamos MoVieS, un modelo novedoso de propagación directa que sintetiza vistas dinámicas 4D a partir de videos monoculares en un segundo. MoVieS representa escenas 3D dinámicas utilizando mallas alineadas por píxeles de primitivas gaussianas, supervisando explícitamente su movimiento variable en el tiempo. Esto permite, por primera vez, el modelado unificado de apariencia, geometría y movimiento, y habilita la síntesis de vistas, la reconstrucción y el seguimiento de puntos 3D dentro de un único marco basado en aprendizaje. Al conectar la síntesis de vistas novedosas con la reconstrucción de geometría dinámica, MoVieS posibilita el entrenamiento a gran escala en diversos conjuntos de datos con una dependencia mínima de supervisión específica de tareas. Como resultado, también admite de manera natural una amplia gama de aplicaciones de cero disparos, como la estimación de flujo de escena y la segmentación de objetos en movimiento. Experimentos exhaustivos validan la eficacia y eficiencia de MoVieS en múltiples tareas, logrando un rendimiento competitivo mientras ofrece aceleraciones de varios órdenes de magnitud.
Recientemente, el papel de los LLM como evaluadores (LLM-as-judge) en la valoración de modelos de lenguaje grandes ha cobrado relevancia. Sin embargo, los modelos evaluadores actuales adolecen de una especialización estrecha y una robustez limitada, lo que socava su capacidad para realizar evaluaciones integrales. En este trabajo, presentamos CompassJudger-2, un novedoso modelo evaluador generalista que supera estas limitaciones mediante una estrategia de curación de datos multi-dominio impulsada por tareas. El núcleo de nuestro enfoque es supervisar tareas de juicio con recompensas verificables, guiando el razonamiento crítico intrínseco a través del muestreo por rechazo para fomentar capacidades de juicio robustas y generalizables. Introducimos un objetivo de aprendizaje refinado con una función de pérdida de gradiente de política con margen para mejorar el rendimiento. Empíricamente, CompassJudger-2 logra resultados superiores en múltiples benchmarks de evaluación y recompensas, y nuestro modelo de 7B demuestra una precisión de juicio competitiva con modelos significativamente más grandes como DeepSeek-V3 y Qwen3-235B-A22B. Además, proponemos JudgerBenchV2, un benchmark integral que evalúa la precisión de juicio en múltiples dominios y la consistencia en la clasificación para estandarizar la evaluación de modelos evaluadores. Estas contribuciones avanzan hacia un juicio robusto y escalable de LLM y establecen nuevos estándares de rendimiento y evaluación.
El desarrollo de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) requiere puntos de referencia robustos que abarquen no solo dominios académicos, sino también campos industriales para evaluar eficazmente su aplicabilidad en escenarios del mundo real. En este artículo, presentamos dos puntos de referencia de nivel experto en coreano. KMMLU-Redux, reconstruido a partir del KMMLU existente, consta de preguntas de los exámenes de Calificación Técnica Nacional de Corea, con errores críticos eliminados para mejorar la confiabilidad. KMMLU-Pro se basa en los exámenes de Licencia Profesional Nacional de Corea para reflejar el conocimiento profesional en el país. Nuestros experimentos demuestran que estos puntos de referencia representan de manera integral el conocimiento industrial en Corea. Hacemos público nuestro conjunto de datos.
La generación consistente de sujetos (SCG, por sus siglas en inglés), que busca mantener una identidad de sujeto consistente en diversas escenas, sigue siendo un desafío para los modelos de texto a imagen (T2I). Los métodos existentes de SCG sin entrenamiento a menudo logran consistencia a costa de la diversidad de disposición y pose, lo que dificulta la narración visual expresiva. Para abordar esta limitación, proponemos un marco T2I consistente en sujetos y diverso en poses, denominado CoDi, que permite la generación de sujetos consistentes con diversas poses y disposiciones. Motivados por la naturaleza progresiva de la difusión, donde las estructuras gruesas emergen temprano y los detalles finos se refinan más tarde, CoDi adopta una estrategia de dos etapas: Transporte de Identidad (IT) y Refinamiento de Identidad (IR). IT opera en los primeros pasos de eliminación de ruido, utilizando transporte óptimo para transferir características de identidad a cada imagen objetivo de manera consciente de la pose. Esto promueve la consistencia del sujeto mientras preserva la diversidad de poses. IR se aplica en los pasos posteriores de eliminación de ruido, seleccionando las características de identidad más destacadas para refinar aún más los detalles del sujeto. Los resultados cualitativos y cuantitativos extensos en consistencia de sujetos, diversidad de poses y fidelidad al prompt demuestran que CoDi logra tanto una mejor percepción visual como un rendimiento más sólido en todas las métricas. El código se proporciona en https://github.com/NJU-PCALab/CoDi.
Presentamos DreamPoster, un marco de generación de Texto a Imagen que sintetiza de manera inteligente carteles de alta calidad a partir de imágenes y textos proporcionados por el usuario, manteniendo la fidelidad del contenido y permitiendo salidas flexibles en resolución y diseño. Específicamente, DreamPoster se basa en nuestro modelo T2I, Seedream3.0, para procesar de manera uniforme diferentes tipos de generación de carteles. Para la construcción del conjunto de datos, proponemos una canalización sistemática de anotación de datos que etiqueta con precisión el contenido textual y la información jerárquica tipográfica dentro de las imágenes de los carteles, mientras emplea metodologías exhaustivas para construir conjuntos de datos emparejados que incluyen materiales de origen (por ejemplo, gráficos/textos en bruto) y sus correspondientes salidas finales de carteles. Además, implementamos una estrategia de entrenamiento progresivo que permite al modelo adquirir jerárquicamente capacidades de generación multitarea mientras mantiene una generación de alta calidad. Las evaluaciones en nuestros puntos de referencia de prueba demuestran la superioridad de DreamPoster sobre los métodos existentes, alcanzando una tasa de usabilidad del 88.55\%, en comparación con GPT-4o (47.56\%) y SeedEdit3.0 (25.96\%). DreamPoster estará disponible en Jimeng y otras aplicaciones de Bytedance.
Mejorar el razonamiento matemático de los Modelos de Lenguaje de Gran Escala (LLMs) es un desafío crucial para avanzar en las capacidades de la IA. Si bien el Ajuste Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) son los paradigmas de entrenamiento dominantes, una metodología sistemática para combinarlos y maximizar tanto la precisión como la eficiencia sigue siendo en gran medida inexplorada. Este artículo introduce una receta de entrenamiento práctica y efectiva que integra estratégicamente un SFT extendido con RL a partir de inferencia en línea (GRPO). Postulamos que estos métodos desempeñan roles complementarios, no competitivos: una fase prolongada de SFT primero lleva la precisión del modelo a sus límites, después de lo cual una fase de GRPO mejora drásticamente la eficiencia en el uso de tokens mientras preserva este rendimiento máximo. Nuestros experimentos revelan que extender el SFT hasta 10 épocas es crucial para lograr avances significativos en el rendimiento, y que el papel principal del GRPO en este marco es optimizar la longitud de las soluciones. La eficacia de nuestra receta se valida rigurosamente a través de un rendimiento de primer nivel en benchmarks desafiantes, incluyendo una alta clasificación entre más de 2,200 equipos en la estrictamente libre de fugas Olimpiada Matemática de IA (AIMO). Este trabajo proporciona a la comunidad un plan probado en batalla para desarrollar razonadores matemáticos de vanguardia que sean excepcionalmente precisos y prácticamente eficientes. Para garantizar la completa reproducibilidad y empoderar futuras investigaciones, liberaremos todo nuestro marco de trabajo, incluyendo todo el código, puntos de control del modelo y configuraciones de entrenamiento en https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
Este artículo presenta un método novedoso de esteganografía ejecutable que utiliza la capa de transparencia alfa de archivos de imagen ICO para incrustar y entregar cargas útiles de JavaScript autodescomprimibles dentro de los navegadores web. Al enfocarse en el bit menos significativo (LSB) de los valores de la capa alfa no transparente de la imagen, el método propuesto logra ocultar código JavaScript comprimido dentro de una imagen de favicon sin afectar la fidelidad visual. El tráfico web global carga 294 mil millones de favicons diariamente y consume 0.9 petabytes de ancho de banda de red. Una implementación de prueba de concepto demuestra que una imagen ICO de 64x64 puede incrustar hasta 512 bytes sin comprimir, o 0.8 kilobytes al usar una compresión ligera de dos pasos. Al cargar una página, el navegador recupera el favicon como parte de su comportamiento estándar, permitiendo que un script de carga incrustado extraiga y ejecute la carga útil completamente en memoria utilizando las API nativas de JavaScript y el acceso a píxeles del lienzo. Esto crea un canal encubierto de dos etapas que no requiere solicitudes adicionales de red o del usuario. Las pruebas en múltiples navegadores, tanto en entornos de escritorio como móviles, confirman la ejecución exitosa y silenciosa del script incrustado. Evaluamos el modelo de amenaza, lo relacionamos con ataques de phishing polimórficos que evitan la detección basada en favicons, y analizamos la evasión de políticas de seguridad de contenido y escáneres antivirus. Mapeamos nueve objetivos del Marco MITRE ATT&CK a una sola línea de JavaScript para ejecutar arbitrariamente en archivos ICO. Se discuten las defensas existentes de estegoanálisis y saneamiento, destacando las limitaciones en la detección o neutralización de exploits en el canal alfa. Los resultados demuestran una superficie de ataque sigilosa y reutilizable que difumina los límites tradicionales entre imágenes estáticas y contenido ejecutable. Dado que los navegadores modernos reportan errores silenciosos cuando los desarrolladores no cargan específicamente archivos ICO, esta superficie de ataque ofrece un ejemplo interesante de comportamientos web necesarios que, a su vez, comprometen la seguridad.
Como valiosos activos digitales, las redes neuronales profundas requieren una protección robusta de la propiedad, posicionando el marcado de agua en redes neuronales (NNW, por sus siglas en inglés) como una solución prometedora. Entre los diversos enfoques de NNW, los métodos basados en pesos son preferidos por su simplicidad y practicidad; sin embargo, siguen siendo vulnerables a ataques de falsificación y sobrescritura. Para abordar estos desafíos, proponemos NeuralMark, un método robusto construido alrededor de un filtro de marca de agua con hash. Específicamente, utilizamos una función hash para generar una marca de agua binaria irreversible a partir de una clave secreta, la cual se utiliza como filtro para seleccionar los parámetros del modelo en los que se incrustará. Este diseño entrelaza hábilmente los parámetros de incrustación con la marca de agua con hash, proporcionando una defensa robusta contra ataques de falsificación y sobrescritura. También se incorpora un promedio de agrupación (average pooling) para resistir ataques de ajuste fino y poda. Además, puede integrarse sin problemas en diversas arquitecturas de redes neuronales, asegurando una amplia aplicabilidad. Teóricamente, analizamos su límite de seguridad. Empíricamente, verificamos su efectividad y robustez en 13 arquitecturas distintas de Convolucional y Transformer, abarcando cinco tareas de clasificación de imágenes y una tarea de generación de texto. Los códigos fuente están disponibles en https://github.com/AIResearch-Group/NeuralMark.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la comprensión y generación del lenguaje natural, pero presentan problemas de consistencia lógica en las salidas que generan. ¿Cómo podemos aprovechar el conocimiento paramétrico de amplio alcance de los LLMs en el razonamiento formal a pesar de su inconsistencia? Presentamos un método para integrar directamente un LLM en la función de interpretación de la semántica formal de una lógica paraconsistente. Proporcionamos evidencia experimental de la viabilidad del método mediante la evaluación de la función utilizando conjuntos de datos creados a partir de varios puntos de referencia de factualidad en formato breve. A diferencia de trabajos previos, nuestro método ofrece un marco teórico para el razonamiento neuro-simbólico que aprovecha el conocimiento de un LLM mientras preserva las propiedades de solidez y completitud de la lógica subyacente.