Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes web como Deep Research han demostrado capacidades cognitivas sobrehumanas, capaces de resolver problemas altamente desafiantes de búsqueda de información. Sin embargo, la mayoría de las investigaciones siguen siendo principalmente centradas en texto, pasando por alto la información visual del mundo real. Esto hace que el Deep Research multimodal sea extremadamente desafiante, ya que dichos agentes requieren habilidades de razonamiento mucho más fuertes en percepción, lógica, conocimiento y el uso de herramientas más sofisticadas en comparación con los agentes basados en texto. Para abordar esta limitación, presentamos WebWatcher, un agente multimodal para Deep Research equipado con capacidades mejoradas de razonamiento visual-lingüístico. Este aprovecha trayectorias multimodales sintéticas de alta calidad para un entrenamiento eficiente de arranque en frío, utiliza diversas herramientas para un razonamiento profundo y mejora aún más la generalización mediante aprendizaje por refuerzo. Para evaluar mejor las capacidades de los agentes multimodales, proponemos BrowseComp-VL, un punto de referencia con estilo BrowseComp que requiere una recuperación compleja de información que involucra tanto datos visuales como textuales. Los resultados experimentales muestran que WebWatcher supera significativamente a la línea base propietaria, al flujo de trabajo RAG y a los agentes de código abierto en cuatro desafiantes puntos de referencia de VQA, lo que allana el camino para resolver tareas complejas de búsqueda de información multimodal.
La generación de mundos 3D explorables a partir de una sola imagen o un texto descriptivo constituye un pilar fundamental de la inteligencia espacial. Trabajos recientes utilizan modelos de video para lograr la generación de mundos 3D de amplio alcance y generalizables. Sin embargo, los enfoques existentes suelen adolecer de un alcance limitado en las escenas generadas. En este trabajo, proponemos Matrix-3D, un marco que utiliza representaciones panorámicas para la generación de mundos 3D omnidireccionales explorables de amplia cobertura, combinando la generación condicional de videos y la reconstrucción panorámica en 3D. Primero entrenamos un modelo de difusión de video panorámico guiado por trayectorias que emplea representaciones de mallas de escenas como condición, permitiendo la generación de videos de escenas de alta calidad y geométricamente consistentes. Para elevar el video panorámico de la escena a un mundo 3D, proponemos dos métodos separados: (1) un modelo de reconstrucción de panoramas grandes de avance rápido para la reconstrucción rápida de escenas 3D y (2) una canalización basada en optimización para la reconstrucción precisa y detallada de escenas 3D. Para facilitar un entrenamiento efectivo, también presentamos el conjunto de datos Matrix-Pano, la primera colección sintética a gran escala que comprende 116K secuencias de video panorámico estático de alta calidad con anotaciones de profundidad y trayectorias. Experimentos exhaustivos demuestran que nuestro marco propuesto alcanza un rendimiento de vanguardia en la generación de videos panorámicos y la generación de mundos 3D. Más información en https://matrix-3d.github.io.
Los recientes avances en agentes basados en LLM han demostrado capacidades notables para manejar tareas complejas y con gran demanda de conocimiento mediante la integración de herramientas externas. Entre las diversas opciones de herramientas, las herramientas de búsqueda desempeñan un papel fundamental en el acceso a vastos conocimientos externos. Sin embargo, los agentes de código abierto aún no alcanzan un nivel experto en Inteligencia de Búsqueda, es decir, la capacidad de resolver consultas ambiguas, generar búsquedas precisas, analizar resultados y realizar exploraciones exhaustivas. Los enfoques existentes carecen de escalabilidad, eficiencia y calidad de datos. Por ejemplo, los límites reducidos de turnos en los métodos actuales de RL en línea, como <=10, restringen el aprendizaje de estrategias complejas. Este artículo presenta ASearcher, un proyecto de código abierto para el entrenamiento a gran escala de agentes de búsqueda mediante RL. Nuestras contribuciones clave incluyen: (1) Un entrenamiento RL completamente asíncrono y escalable que permite búsquedas de largo horizonte manteniendo una alta eficiencia en el entrenamiento. (2) Un agente LLM basado en prompts que sintetiza de manera autónoma preguntas y respuestas (QA) de alta calidad y desafiantes, creando un conjunto de datos QA a gran escala. Mediante el entrenamiento RL, nuestro agente QwQ-32B basado en prompts logra mejoras sustanciales, con ganancias de 46.7% y 20.8% en Avg@4 en xBench y GAIA, respectivamente. Notablemente, nuestro agente exhibe búsquedas de extremo largo horizonte, con llamadas a herramientas que superan los 40 turnos y tokens de salida que exceden los 150k durante el tiempo de entrenamiento. Con un diseño de agente simple y sin LLMs externos, ASearcher-Web-QwQ alcanza puntajes Avg@4 de 42.1 en xBench y 52.8 en GAIA, superando a los agentes de código abierto de 32B existentes. Hemos liberado nuestros modelos, datos de entrenamiento y códigos en https://github.com/inclusionAI/ASearcher.
La capacidad de seguir instrucciones ha impulsado la era reciente de los Modelos de Lenguaje de Gran Escala (LLMs) y constituye la habilidad fundamental que sustenta capacidades más avanzadas, como el razonamiento y los comportamientos agentivos. A medida que las tareas se vuelven más desafiantes, las estructuras lógicas incrustadas en las instrucciones en lenguaje natural se tornan cada vez más intrincadas. Sin embargo, el desempeño de los LLMs en instrucciones ricas en lógica sigue siendo poco explorado. Proponemos LogicIFGen y LogicIFEval. LogicIFGen es un marco escalable y automatizado para generar instrucciones verificables a partir de funciones de código, que pueden expresar de manera natural lógica compleja, como condicionales, anidamientos, recursión y llamadas a funciones. Además, seleccionamos una colección de funciones de código complejas y utilizamos LogicIFGen para construir LogicIFEval, un benchmark que comprende 426 instrucciones verificables y ricas en lógica. Nuestros experimentos demuestran que los LLMs más avanzados actualmente aún tienen dificultades para seguir correctamente las instrucciones en LogicIFEval. La mayoría de los LLMs solo pueden seguir menos del 60% de las instrucciones, lo que revela deficiencias significativas en su capacidad para seguir instrucciones. Código y Benchmark: https://github.com/mianzhang/LogicIF
En este artículo, proponemos CharacterShot, un marco de animación de personajes 4D controlable y consistente que permite a cualquier diseñador individual crear personajes 3D dinámicos (es decir, animación de personajes 4D) a partir de una única imagen de referencia de un personaje y una secuencia de poses 2D. Comenzamos preentrenando un potente modelo de animación de personajes 2D basado en un modelo de imagen a video de última generación basado en DiT, que permite utilizar cualquier secuencia de poses 2D como señal controlable. Luego, elevamos el modelo de animación de 2D a 3D mediante la introducción de un módulo de doble atención junto con un prior de cámara para generar videos multivista con consistencia espacio-temporal y espacio-visual. Finalmente, aplicamos una novedosa optimización de splatting gaussiano 4D con restricciones de vecindad sobre estos videos multivista, obteniendo representaciones de personajes 4D continuas y estables. Además, para mejorar el rendimiento centrado en el personaje, construimos un conjunto de datos a gran escala, Character4D, que contiene 13,115 personajes únicos con apariencias y movimientos diversos, renderizados desde múltiples puntos de vista. Experimentos exhaustivos en nuestro nuevo benchmark, CharacterBench, demuestran que nuestro enfoque supera a los métodos actuales más avanzados. El código, modelos y conjuntos de datos estarán disponibles públicamente en https://github.com/Jeoyal/CharacterShot.
Los modelos de lenguaje de difusión a gran escala (dLLMs) generan texto a través de un proceso iterativo de eliminación de ruido, aunque las estrategias de decodificación actuales descartan predicciones intermedias ricas en favor de la salida final. Nuestro trabajo revela un fenómeno crítico, la oscilación temporal, donde las respuestas correctas a menudo emergen en el proceso intermedio, pero son sobrescritas en pasos posteriores de eliminación de ruido. Para abordar este problema, introducimos dos métodos complementarios que explotan la consistencia temporal: 1) Votación de Autoconsistencia Temporal, una estrategia de decodificación en tiempo de prueba que no requiere entrenamiento y agrega predicciones a lo largo de los pasos de eliminación de ruido para seleccionar la salida más consistente; y 2) un método posterior al entrenamiento denominado Refuerzo de Consistencia Temporal, que utiliza la Entropía Semántica Temporal (TSE), una medida de estabilidad semántica en las predicciones intermedias, como señal de recompensa para fomentar generaciones estables. Los resultados empíricos en múltiples benchmarks demuestran la efectividad de nuestro enfoque. Utilizando únicamente la recompensa negativa de TSE, observamos una mejora promedio notable del 24.7% en el conjunto de datos Countdown sobre un dLLM existente. Combinado con la recompensa de precisión, logramos ganancias absolutas del 2.0% en GSM8K, 4.3% en MATH500, 6.6% en SVAMP y 25.3% en Countdown, respectivamente. Nuestros hallazgos subrayan el potencial no explotado de la dinámica temporal en los dLLMs y ofrecen dos herramientas simples pero efectivas para aprovecharlas.
Recientemente, los modelos de razonamiento a gran escala han demostrado fuertes habilidades matemáticas y de codificación, y la búsqueda profunda aprovecha sus capacidades de razonamiento en tareas desafiantes de recuperación de información. Los trabajos existentes en búsqueda profunda generalmente se limitan a una única fuente de conocimiento, ya sea local o la Web. Sin embargo, las empresas a menudo requieren sistemas de búsqueda profunda privados que puedan aprovechar herramientas de búsqueda tanto en corpus locales como en la Web. Entrenar un agente equipado con múltiples herramientas de búsqueda utilizando aprendizaje por refuerzo (RL) plano es una idea directa, pero presenta problemas como la baja eficiencia en el uso de datos de entrenamiento y un dominio deficiente de herramientas complejas. Para abordar este problema, proponemos un marco de búsqueda profunda agéntica jerárquica, HierSearch, entrenado con RL jerárquico. En el nivel inferior, se entrena un agente de búsqueda profunda local y un agente de búsqueda profunda en la Web para recuperar evidencia de sus dominios correspondientes. En el nivel superior, un agente planificador coordina a los agentes de nivel inferior y proporciona la respuesta final. Además, para evitar la copia directa de respuestas y la propagación de errores, diseñamos un refinador de conocimiento que filtra las alucinaciones y la evidencia irrelevante devuelta por los agentes de nivel inferior. Los experimentos muestran que HierSearch logra un mejor rendimiento en comparación con RL plano, y supera a varias líneas base de búsqueda profunda y generación aumentada con recuperación de múltiples fuentes en seis benchmarks que abarcan dominios generales, financieros y médicos.
Presentamos VertexRegen, un novedoso marco de generación de mallas que permite la generación en un nivel continuo de detalle. Los métodos autorregresivos existentes generan mallas de manera parcial-a-completa, por lo que los pasos intermedios de la generación representan estructuras incompletas. VertexRegen se inspira en las mallas progresivas y reformula el proceso como la inversión del colapso de aristas, es decir, la división de vértices, aprendida a través de un modelo generativo. Los resultados experimentales demuestran que VertexRegen produce mallas de calidad comparable a los métodos más avanzados, ofreciendo de manera única una generación en cualquier momento con la flexibilidad de detenerse en cualquier paso para obtener mallas válidas con distintos niveles de detalle.
Los modelos de visión-lenguaje han demostrado capacidades impresionantes como agentes de uso informático (CUA, por sus siglas en inglés) capaces de automatizar diversas tareas en computadoras. A medida que su potencial comercial crece, los detalles críticos de los sistemas CUA más avanzados permanecen cerrados. Dado que estos agentes mediarán cada vez más las interacciones digitales y ejecutarán decisiones importantes en nuestro nombre, la comunidad de investigación necesita acceso a marcos CUA abiertos para estudiar sus capacidades, limitaciones y riesgos. Para cerrar esta brecha, proponemos OpenCUA, un marco integral de código abierto para escalar datos y modelos base de CUA. Nuestro marco consta de: (1) una infraestructura de anotación que captura de manera fluida demostraciones de uso informático humano; (2) AgentNet, el primer conjunto de datos a gran escala de tareas de uso informático que abarca 3 sistemas operativos y más de 200 aplicaciones y sitios web; (3) una canalización escalable que transforma demostraciones en pares estado-acción con razonamiento reflexivo de Cadena de Pensamiento (Chain-of-Thought) que sostiene ganancias robustas de rendimiento a medida que los datos escalan. Nuestros modelos de agentes de extremo a extremo demuestran un rendimiento sólido en los puntos de referencia de CUA. En particular, OpenCUA-32B logra una tasa de éxito promedio del 34.8% en OSWorld-Verified, estableciendo un nuevo estado del arte (SOTA) entre los modelos de código abierto y superando al CUA de OpenAI (GPT-4o). Un análisis adicional confirma que nuestro enfoque generaliza bien en diversos dominios y se beneficia significativamente de un mayor cómputo en tiempo de prueba. Publicamos nuestra herramienta de anotación, conjuntos de datos, código y modelos para construir bases abiertas para futuras investigaciones en CUA.
La fundamentación de Interfaces Gráficas de Usuario (GUI, por sus siglas en inglés), la tarea de mapear instrucciones en lenguaje natural a coordenadas precisas en pantalla, es fundamental para los agentes autónomos de GUI. Si bien los métodos existentes logran un rendimiento sólido mediante entrenamiento supervisado extensivo o aprendizaje por refuerzo con recompensas etiquetadas, siguen limitados por el costo y la disponibilidad de anotaciones a nivel de píxeles. Observamos que, cuando los modelos generan múltiples predicciones para el mismo elemento de GUI, los patrones de superposición espacial revelan señales de confianza implícitas que pueden guiar una localización más precisa. Aprovechando esta idea, proponemos GUI-RC (Consistencia de Región), un método de escalado en tiempo de prueba que construye cuadrículas de votación espacial a partir de múltiples predicciones muestreadas para identificar regiones de consenso donde los modelos muestran el mayor acuerdo. Sin necesidad de entrenamiento, GUI-RC mejora la precisión en un 2-3% en varias arquitecturas en los benchmarks de ScreenSpot. Además, introducimos GUI-RCPO (Optimización de Política de Consistencia de Región), que transforma estos patrones de consistencia en recompensas para el aprendizaje por refuerzo en tiempo de prueba. Al calcular qué tan bien cada predicción se alinea con el consenso colectivo, GUI-RCPO permite que los modelos refinen iterativamente sus salidas en datos no etiquetados durante la inferencia. Experimentos extensivos demuestran la generalidad de nuestro enfoque: GUI-RC aumenta el rendimiento de Qwen2.5-VL-3B-Instruct de 80.11% a 83.57% en ScreenSpot-v2, mientras que GUI-RCPO lo mejora aún más a 85.14% mediante optimización auto-supervisada. Nuestro enfoque revela el potencial no explotado del escalado en tiempo de prueba y del aprendizaje por refuerzo en tiempo de prueba para la fundamentación de GUI, ofreciendo un camino prometedor hacia agentes de GUI más robustos y eficientes en términos de datos.
Trabajos recientes sobre la mejora de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) han introducido el control explícito de longitud como un medio para limitar el costo computacional mientras se preserva la precisión. Sin embargo, los enfoques existentes dependen de presupuestos de entrenamiento de longitud fija, que no aprovechan la progresión natural desde la exploración hasta la compresión durante el aprendizaje. En este trabajo, proponemos una estrategia de aprendizaje curricular para el razonamiento controlado por longitud utilizando Optimización de Política Relativa de Grupo (GRPO). Nuestro método comienza con presupuestos de tokens generosos y los reduce gradualmente durante el entrenamiento, incentivando a los modelos a descubrir primero estrategias de solución efectivas y luego destilarlas en trazas de razonamiento más concisas. Aumentamos GRPO con una función de recompensa que equilibra tres señales: corrección de la tarea (mediante retroalimentación del verificador), eficiencia de longitud y adherencia al formato (mediante etiquetas estructurales). Los experimentos en GSM8K, MATH500, SVAMP, College Math y GSM+ demuestran que el entrenamiento basado en currículo supera consistentemente a las líneas base de presupuesto fijo con el mismo presupuesto final, logrando mayor precisión y una eficiencia de tokens significativamente mejorada. Además, analizamos el impacto del peso de la recompensa y el diseño del esquema de decaimiento, mostrando que la restricción progresiva sirve como un poderoso sesgo inductivo para entrenar modelos de razonamiento eficientes. Nuestro código y puntos de control se publican en: https://github.com/hammoudhasan/curriculum_grpo.
Los modelos de difusión actuales para la generación de videos de avatares impulsados por audio enfrentan dificultades para sintetizar videos largos con sincronización natural del audio y consistencia de identidad. Este artículo presenta StableAvatar, el primer transformador de difusión de video de extremo a extremo que sintetiza videos de alta calidad de longitud infinita sin postprocesamiento. Condicionado por una imagen de referencia y audio, StableAvatar integra módulos de entrenamiento e inferencia personalizados para permitir la generación de videos de longitud infinita. Observamos que la razón principal que impide a los modelos existentes generar videos largos radica en su modelado de audio. Estos suelen depender de extractores de terceros para obtener embeddings de audio, que luego se inyectan directamente en el modelo de difusión mediante atención cruzada. Dado que los backbones de difusión actuales carecen de conocimientos previos relacionados con el audio, este enfoque provoca una acumulación severa de errores en la distribución latente a lo largo de los clips de video, haciendo que la distribución latente de los segmentos subsiguientes se aleje gradualmente de la distribución óptima. Para abordar esto, StableAvatar introduce un nuevo Adaptador de Audio Consciente del Paso de Tiempo que previene la acumulación de errores mediante modulación consciente del paso de tiempo. Durante la inferencia, proponemos un Mecanismo de Guía Nativa de Audio para mejorar aún más la sincronización del audio, aprovechando la predicción conjunta audio-latente en evolución de la difusión como una señal de guía dinámica. Para mejorar la suavidad de los videos de longitud infinita, introducimos una Estrategia de Ventana Deslizante con Ponderación Dinámica que fusiona los latentes a lo largo del tiempo. Los experimentos en benchmarks muestran la efectividad de StableAvatar tanto cualitativa como cuantitativamente.
La generación de texto a imagen (T2I) ha sido ampliamente estudiada utilizando Modelos de Difusión y Modelos Autoregresivos. Recientemente, los Transformadores Generativos Enmascarados han ganado atención como una alternativa a los Modelos Autoregresivos para superar las limitaciones inherentes de la atención causal y la decodificación autoregresiva mediante la atención bidireccional y la decodificación paralela, permitiendo una generación de imágenes eficiente y de alta calidad. Sin embargo, la generación composicional de T2I sigue siendo un desafío, ya que incluso los Modelos de Difusión más avanzados a menudo fallan en vincular con precisión los atributos y lograr una alineación adecuada entre el texto y la imagen. Aunque los Modelos de Difusión han sido extensamente estudiados para este problema, los Transformadores Generativos Enmascarados exhiben limitaciones similares pero no han sido explorados en este contexto. Para abordar esto, proponemos Unmasking with Contrastive Attention Guidance (UNCAGE), un método novedoso que no requiere entrenamiento y que mejora la fidelidad composicional al aprovechar los mapas de atención para priorizar el desenmascaramiento de tokens que representan claramente objetos individuales. UNCAGE mejora consistentemente el rendimiento tanto en evaluaciones cuantitativas como cualitativas en múltiples benchmarks y métricas, con un sobrecosto de inferencia insignificante. Nuestro código está disponible en https://github.com/furiosa-ai/uncage.
Presentamos Aryabhata 1.0, un modelo compacto de razonamiento matemático con 7B parámetros optimizado para el examen académico indio, el Joint Entrance Examination (JEE). A pesar del rápido progreso en los modelos de lenguaje grandes (LLMs), los modelos actuales a menudo siguen siendo inadecuados para uso educativo. Aryabhata 1.0 se construye fusionando modelos de razonamiento de código abierto de alto rendimiento, seguido de un ajuste fino supervisado (SFT) con aprendizaje curricular basado en trazas verificadas de cadena de pensamiento (CoT) curadas mediante muestreo de rechazo best-of-n. Para mejorar aún más el rendimiento, aplicamos aprendizaje por refuerzo con recompensas verificables (RLVR) utilizando el objetivo A2C con estimación de ventaja relativa grupal junto con estrategias de exploración novedosas como Redimensionamiento Adaptativo de Grupos y Escalado de Temperatura. Evaluado tanto en puntos de referencia dentro de la distribución (JEE Main 2025) como fuera de la distribución (MATH, GSM8K), Aryabhata supera a los modelos existentes en precisión y eficiencia, al mismo tiempo que ofrece un razonamiento paso a paso pedagógicamente útil. Lanzamos Aryabhata como un modelo base para avanzar en modelos de lenguaje pequeños de código abierto centrados en exámenes. Este es nuestro primer lanzamiento abierto para recibir comentarios de la comunidad (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 en Hugging Face}); PW está entrenando activamente modelos futuros para mejorar aún más los resultados de aprendizaje de los estudiantes.
El uso efectivo de herramientas es esencial para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) interactúen de manera significativa con su entorno. Sin embargo, el progreso se ve limitado por la falta de marcos de aprendizaje por refuerzo (RL, por sus siglas en inglés) eficientes diseñados específicamente para el uso de herramientas, debido a los desafíos en la construcción de entornos de entrenamiento estables y el diseño de mecanismos de recompensa verificables. Para abordar esto, proponemos una canalización automatizada de construcción de entornos, que incorpora descomposición de escenarios, generación de documentos, integración de funciones, escalado de complejidad y despliegue localizado. Esto permite la creación de entornos de entrenamiento de alta calidad que proporcionan retroalimentación detallada y medible sin depender de herramientas externas. Además, introducimos un mecanismo de recompensa verificable que evalúa tanto la precisión en el uso de herramientas como la completitud en la ejecución de tareas. Cuando se combina con datos de trayectoria recopilados de los entornos construidos, este mecanismo se integra perfectamente con algoritmos estándar de RL para facilitar el entrenamiento del modelo basado en retroalimentación. Los experimentos realizados con LLMs de diferentes escalas demuestran que nuestro enfoque mejora significativamente el rendimiento en el uso de herramientas sin degradar sus capacidades generales, independientemente de los modos de inferencia o los algoritmos de entrenamiento. Nuestro análisis sugiere que estas mejoras resultan de una mejor comprensión del contexto y razonamiento, impulsados por actualizaciones en los parámetros de las capas MLP inferiores de los modelos.
La generación efectiva de múltiples tomas exige transiciones intencionales, similares a las cinematográficas, y una estricta continuidad fílmica. Sin embargo, los métodos actuales suelen priorizar la consistencia visual básica, descuidando patrones de edición cruciales (por ejemplo, toma/contra-toma, planos de corte) que impulsan el flujo narrativo para una narración convincente. Esto produce resultados que pueden ser visualmente coherentes, pero carecen de sofisticación narrativa y de una verdadera integridad cinematográfica. Para abordar esto, presentamos Next Shot Generation (NSG): la síntesis de una toma posterior de alta calidad que se ajusta críticamente a los patrones de edición profesional mientras mantiene una rigurosa continuidad cinematográfica. Nuestro marco, Cut2Next, aprovecha un Transformer de Difusión (DiT). Emplea ajuste en contexto guiado por una novedosa estrategia de Multi-Prompting Jerárquico. Esta estrategia utiliza Relational Prompts para definir el contexto general y los estilos de edición entre tomas. Luego, Individual Prompts especifican el contenido por toma y los atributos cinematográficos. Juntos, estos guían a Cut2Next para generar tomas posteriores cinematográficamente apropiadas. Innovaciones arquitectónicas, como la Inyección de Condición Consciente del Contexto (CACI) y la Máscara de Atención Jerárquica (HAM), integran estas diversas señales sin introducir nuevos parámetros. Construimos los conjuntos de datos RawCuts (a gran escala) y CuratedCuts (refinados), ambos con prompts jerárquicos, e introducimos CutBench para la evaluación. Los experimentos muestran que Cut2Next sobresale en consistencia visual y fidelidad textual. Crucialmente, estudios de usuario revelan una fuerte preferencia por Cut2Next, particularmente por su adherencia a los patrones de edición deseados y la continuidad cinematográfica general, validando su capacidad para generar tomas posteriores de alta calidad, expresivas narrativamente y coherentes cinematográficamente.
Una mano diestra capaz de agarrar objetos de manera generalizable es fundamental para el desarrollo de IA encarnada de propósito general. Sin embargo, los métodos anteriores se centran de manera limitada en métricas de estabilidad de agarre de bajo nivel, descuidando el posicionamiento consciente de las posibilidades de acción y las posturas similares a las humanas, que son cruciales para la manipulación posterior. Para abordar estas limitaciones, proponemos AffordDex, un marco novedoso con entrenamiento en dos etapas que aprende una política de agarre universal con una comprensión inherente tanto de los antecedentes de movimiento como de las posibilidades de acción de los objetos. En la primera etapa, un imitador de trayectorias se pre-entrena en un gran corpus de movimientos de manos humanas para inculcar un fuerte antecedente de movimiento natural. En la segunda etapa, un módulo residual se entrena para adaptar estos movimientos generales similares a los humanos a instancias específicas de objetos. Este refinamiento está críticamente guiado por dos componentes: nuestro módulo de Segmentación Consciente de Posibilidades de Acción Negativas (NAA), que identifica regiones de contacto funcionalmente inapropiadas, y un proceso de destilación privilegiado entre maestro y estudiante que asegura que la política final basada en visión sea altamente exitosa. Experimentos extensos demuestran que AffordDex no solo logra un agarre diestro universal, sino que también mantiene posturas notablemente similares a las humanas y es funcionalmente apropiado en la ubicación del contacto. Como resultado, AffordDex supera significativamente a los baselines de última generación en objetos vistos, instancias no vistas e incluso categorías completamente nuevas.
Presentamos el primer conjunto de herramientas de evaluación que permite que cualquier modelo de lenguaje grande (LLM, por sus siglas en inglés) local, sin modificaciones previas, juegue partidas completas de Diplomacy sin necesidad de ajuste fino o entrenamiento especializado. Trabajos anteriores requerían el uso de LLMs de vanguardia o ajuste fino debido a la alta complejidad y densidad de información del estado del juego en Diplomacy. Combinado con la alta variabilidad de las partidas, estos factores hacían que el estudio de Diplomacy fuera prohibitivo. En este trabajo, utilizamos iteración basada en datos para optimizar una representación textual del estado del juego, de modo que un modelo de 24B pueda completar partidas de manera confiable sin ningún ajuste fino. Desarrollamos herramientas para facilitar la prueba de hipótesis y el análisis estadístico, y presentamos estudios de casos sobre persuasión, estilos de juego agresivos y rendimiento en una variedad de modelos. Realizamos una serie de experimentos en varios LLMs populares, encontrando que los modelos más grandes tienen el mejor desempeño, aunque los modelos más pequeños aún juegan de manera adecuada. También introducimos el Análisis de Estado Crítico: un protocolo experimental para iterar y analizar rápidamente momentos clave en un juego con profundidad. Nuestro conjunto de herramientas democratiza la evaluación del razonamiento estratégico en LLMs al eliminar la necesidad de ajuste fino, y proporciona insights sobre cómo estas capacidades emergen naturalmente en LLMs ampliamente utilizados. Nuestro código está disponible en el material complementario y será de código abierto.
Gracias al desarrollo de modelos multimodales, la recuperación de texto a video (T2VR, por sus siglas en inglés) está avanzando rápidamente, pero su robustez sigue siendo en gran medida inexplorada. Los ataques existentes contra T2VR están diseñados para alejar los videos de las consultas, es decir, suprimir el ranking de los videos, mientras que los ataques que acercan los videos a consultas seleccionadas, es decir, promover el ranking de los videos, permanecen en gran medida sin explorar. Estos ataques pueden ser más impactantes, ya que los atacantes podrían obtener más vistas/clics para beneficios económicos y difundir (des)información de manera generalizada. Con este fin, somos pioneros en el primer ataque contra T2VR para promover videos de manera adversaria, denominado Ataque de Promoción de Video (ViPro). Además, proponemos el Refinamiento Modal (MoRe) para capturar la interacción más detallada y compleja entre las modalidades visual y textual, mejorando así la transferibilidad en entornos de caja negra. Los experimentos exhaustivos cubren 2 líneas base existentes, 3 modelos líderes de T2VR, 3 conjuntos de datos predominantes con más de 10k videos, evaluados bajo 3 escenarios. Todos los experimentos se realizan en un entorno de múltiples objetivos para reflejar escenarios realistas donde los atacantes buscan promover el video en relación con múltiples consultas simultáneamente. También evaluamos nuestros ataques en términos de defensas e imperceptibilidad. En general, ViPro supera a otras líneas base en más de un 30/10/4% en promedio para configuraciones de caja blanca/gris/negra. Nuestro trabajo destaca una vulnerabilidad pasada por alto, proporciona un análisis cualitativo sobre los límites superior/inferior de nuestros ataques y ofrece ideas sobre posibles contramedidas. El código estará disponible públicamente en https://github.com/michaeltian108/ViPro.
Este artículo presenta una regularización simple pero efectiva para el modelo de lenguaje interno inducido por el decodificador en modelos de reconocimiento automático del habla (ASR) de tipo codificador-decodificador, mejorando así la robustez y generalización tanto en entornos dentro como fuera del dominio. El método propuesto, denominado Regularización Centrada en el Decodificador en Codificador-Decodificador (DeCRED), añade clasificadores auxiliares al decodificador, permitiendo la predicción del siguiente token mediante logits intermedios. Empíricamente, DeCRED reduce la perplejidad media del modelo de lenguaje interno en BPE en un 36.6% en relación con 11 conjuntos de prueba. Además, esto se traduce en mejoras reales en la tasa de error de palabras (WER) respecto a la línea base en 5 de 7 conjuntos de prueba dentro del dominio y en 3 de 4 conjuntos fuera del dominio, reduciendo la WER macro de 6.4% a 6.3% y de 18.2% a 16.2%, respectivamente. En TEDLIUM3, DeCRED alcanza un 7.0% de WER, superando a la línea base y a la regularización InterCTC centrada en el codificador en 0.6% y 0.5%, respectivamente. Finalmente, comparamos DeCRED con OWSM v3.1 y Whisper-medium, mostrando tasas de error competitivas a pesar de entrenarse con muchos menos datos y parámetros.
Los asistentes de codificación basados en IA, como GitHub Copilot, están transformando rápidamente el desarrollo de software, pero su seguridad sigue siendo profundamente incierta, especialmente en dominios de alto riesgo como la ciberseguridad. Las herramientas actuales de red-teaming a menudo dependen de puntos de referencia fijos o indicaciones poco realistas, pasando por alto muchas vulnerabilidades del mundo real. Presentamos ASTRA, un sistema de agentes automatizado diseñado para descubrir sistemáticamente fallos de seguridad en la generación de código impulsada por IA y en los sistemas de orientación de seguridad. ASTRA funciona en tres etapas: (1) construye grafos de conocimiento específicos del dominio que modelan tareas complejas de software y debilidades conocidas; (2) realiza una exploración en línea de vulnerabilidades de cada modelo objetivo mediante el sondeo adaptativo tanto de su espacio de entrada, es decir, la exploración espacial, como de sus procesos de razonamiento, es decir, la exploración temporal, guiado por los grafos de conocimiento; y (3) genera casos de alta calidad que inducen violaciones para mejorar la alineación del modelo. A diferencia de métodos anteriores, ASTRA se centra en entradas realistas—solicitudes que los desarrolladores podrían realmente hacer—y utiliza tanto el modelado de dominio guiado por abstracción fuera de línea como la adaptación en línea del grafo de conocimiento del dominio para revelar vulnerabilidades en casos extremos. En dos dominios principales de evaluación, ASTRA encuentra entre un 11 % y un 66 % más de problemas que las técnicas existentes y produce casos de prueba que conducen a un 17 % más de efectividad en el entrenamiento de alineación, demostrando su valor práctico para construir sistemas de IA más seguros.
En este artículo, proponemos AimBot, una técnica ligera de aumento visual que proporciona señales espaciales explícitas para mejorar el aprendizaje de políticas visuomotoras en la manipulación robótica. AimBot superpone líneas de disparo y retículas de mira en imágenes RGB de múltiples vistas, ofreciendo una guía visual auxiliar que codifica el estado del efector final. Las superposiciones se calculan a partir de imágenes de profundidad, extrínsecos de la cámara y la pose actual del efector final, transmitiendo explícitamente las relaciones espaciales entre la pinza y los objetos en la escena. AimBot incurre en un sobrecargo computacional mínimo (menos de 1 ms) y no requiere cambios en las arquitecturas del modelo, ya que simplemente reemplaza las imágenes RGB originales con versiones aumentadas. A pesar de su simplicidad, nuestros resultados muestran que AimBot mejora consistentemente el rendimiento de diversas políticas visuomotoras tanto en entornos de simulación como en el mundo real, destacando los beneficios de la retroalimentación visual basada en fundamentos espaciales.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversos dominios, con la generación de código emergiendo como un área clave de enfoque. Si bien se han propuesto numerosos puntos de referencia para evaluar sus habilidades en la generación de código, estos enfrentan varias limitaciones críticas. En primer lugar, a menudo dependen de anotaciones manuales, que consumen mucho tiempo y son difíciles de escalar en diferentes lenguajes de programación y niveles de complejidad de problemas. En segundo lugar, la mayoría de los puntos de referencia existentes se centran principalmente en Python, mientras que los pocos puntos de referencia multilingües adolecen de una dificultad limitada y una distribución desigual de lenguajes. Para abordar estos desafíos, proponemos AutoCodeGen, un método automatizado para generar conjuntos de datos multilingües de alta dificultad para la generación de código sin anotaciones manuales. AutoCodeGen asegura la corrección y completitud de los casos de prueba generando entradas de prueba con LLMs y obteniendo salidas de prueba a través de un entorno de pruebas multilingüe, logrando una alta calidad de datos mediante la generación de problemas en orden inverso y múltiples pasos de filtrado. Utilizando este método novedoso, presentamos AutoCodeBench, un punto de referencia a gran escala para la generación de código que comprende 3,920 problemas distribuidos uniformemente en 20 lenguajes de programación. Está específicamente diseñado para evaluar LLMs en tareas multilingües desafiantes, diversas y prácticas. Evaluamos más de 30 LLMs líderes, tanto de código abierto como propietarios, en AutoCodeBench y su versión simplificada AutoCodeBench-Lite. Los resultados muestran que incluso los LLMs más avanzados tienen dificultades con la complejidad, diversidad y naturaleza multilingüe de estas tareas. Además, presentamos AutoCodeBench-Complete, específicamente diseñado para modelos base con el fin de evaluar sus capacidades de generación de código en pocos ejemplos. Esperamos que la serie AutoCodeBench sirva como un recurso valioso e inspire a la comunidad a enfocarse en escenarios de generación de código multilingüe más desafiantes y prácticos.
Se ha demostrado que los LLM (Modelos de Lenguaje de Gran Escala) tienen un buen desempeño en traducción automática (MT) mediante el uso de aprendizaje en contexto (ICL), rivalizando con modelos supervisados al traducir a idiomas de alta disponibilidad de recursos (HRLs). Sin embargo, su rendimiento es inferior al traducir a idiomas de baja disponibilidad de recursos (LRLs). La selección de ejemplos mediante búsqueda por similitud y el ajuste fino supervisado ayudan, pero las mejoras que ofrecen están limitadas por el tamaño, la calidad y la diversidad de los conjuntos de datos paralelos existentes. Una técnica común en MT de baja disponibilidad de recursos es la creación de datos paralelos sintéticos, siendo la más frecuente la retro-traducción, donde textos existentes en el idioma objetivo se traducen automáticamente al idioma fuente. Sin embargo, esto supone la existencia de textos de alta calidad y relevantes en el idioma objetivo, los cuales no están fácilmente disponibles para muchos LRLs. En este artículo, presentamos TopXGen, un enfoque basado en LLM para la generación de datos de alta calidad y diversidad temática en múltiples LRLs, que luego pueden ser retro-traducidos para producir textos paralelos útiles y diversos para ICL y ajuste fino. Nuestra intuición es que, aunque los LLM tienen dificultades para traducir a LRLs, su capacidad para traducir bien a HRLs y su multilingüismo les permiten generar textos de alta calidad y naturales en el idioma objetivo, los cuales pueden traducirse bien a un idioma fuente de alta disponibilidad de recursos. Demostramos que TopXGen mejora el rendimiento de traducción de LLM durante el ajuste fino y el aprendizaje en contexto. El código y los resultados están disponibles en https://github.com/ArmelRandy/topxgen.
Aunque los modelos de lenguaje grandes (LLMs) son cada vez más capaces, sigue siendo poco razonable esperar que sobresalgan en tareas que están subrepresentadas en Internet. Aprovechar los LLMs para aplicaciones especializadas, particularmente en lenguajes de programación de nicho y dominios privados, sigue siendo un desafío y en gran medida no resuelto. En este trabajo, abordamos esta brecha presentando un enfoque integral y de código abierto para adaptar los LLMs al lenguaje de programación Q, una herramienta popular en finanzas cuantitativas que está mucho menos presente en Internet en comparación con Python, C, Java y otros lenguajes "principales", y por lo tanto no es una fortaleza de los modelos de IA de propósito general. Introducimos un nuevo conjunto de datos de evaluación estilo Leetcode para Q, evaluamos los principales modelos de vanguardia en este conjunto de datos, y luego realizamos preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo para entrenar una serie de modelos de razonamiento y no razonamiento basados en la serie Qwen-2.5, que abarca cinco tamaños de parámetros (1.5B, 3B, 7B, 14B, 32B). Nuestro mejor modelo alcanza una precisión pass@1 del 59 por ciento en nuestra evaluación de Q, superando al modelo de vanguardia mejor posicionado, Claude Opus-4, en un 29.5 por ciento. Además, todos los modelos, incluso nuestro modelo de 1.5B, superan a GPT-4.1 en esta tarea. Además de publicar modelos, código y datos, proporcionamos un plan detallado para la construcción de conjuntos de datos, el preentrenamiento de modelos, el ajuste fino supervisado y el aprendizaje por refuerzo. Nuestra metodología es ampliamente aplicable, y discutimos cómo estas técnicas pueden extenderse a otras tareas, incluyendo aquellas en las que la evaluación puede depender de señales suaves o subjetivas.
La tarea de transferencia de estilo para splats Gaussianos 3D ha sido explorada en numerosos trabajos previos, pero estos requieren reconstruir o ajustar el splat mientras se incorpora información de estilo o se optimiza una red de extracción de características sobre la representación del splat. Proponemos un enfoque libre de reconstrucción y optimización para estilizar splats Gaussianos 3D. Esto se logra generando una estructura de gráficos a través de la superficie implícita de la representación del splat. Luego, se utiliza un método de estilización basado en superficie de avance directo y se interpola de vuelta a los splats individuales en la escena. Esto permite utilizar cualquier imagen de estilo y splat Gaussiano 3D sin necesidad de entrenamiento adicional u optimización. Además, permite una estilización rápida de los splats, alcanzando velocidades inferiores a 2 minutos incluso en hardware de consumo. Demostramos los resultados de calidad que este enfoque logra y lo comparamos con otros métodos de transferencia de estilo para splats Gaussianos 3D. El código está disponible públicamente en https://github.com/davidmhart/FastSplatStyler.
La implementación de la teoría de juegos cuánticos en hardware real es un desafío debido al ruido, la decoherencia y la conectividad limitada de los qubits; sin embargo, estas demostraciones son esenciales para validar predicciones teóricas. Presentamos una de las primeras realizaciones experimentales completas del juego de la Batalla de los Sexos bajo el marco de Eisert-Wilkens-Lewenstein (EWL) en el procesador superconductor ibm_sherbrooke de IBM Quantum. Se evaluaron cuatro estrategias cuánticas (I, H, R(π/4), R(π)) en 31 valores de entrelazamiento γ en [0, π] utilizando 2048 ejecuciones por configuración, lo que permitió una comparación directa entre las predicciones analíticas y la ejecución en hardware. Para mitigar el ruido y la variabilidad, introducimos un método de Mapeo de Circuitos Guiado (GCM, por sus siglas en inglés) que selecciona dinámicamente pares de qubits y optimiza el enrutamiento basado en datos de topología y calibración en tiempo real. El modelo analítico predice una mejora en el rendimiento de hasta el 108% sobre el equilibrio clásico, y a pesar de las desviaciones inducidas por el hardware, los resultados experimentales con GCM preservan las tendencias esperadas de rendimiento dentro de un error relativo del 3.5%-12%. Estos hallazgos demuestran que las ventajas cuánticas en la coordinación estratégica pueden persistir bajo condiciones realistas de NISQ, proporcionando una vía hacia aplicaciones prácticas de la teoría de juegos cuánticos en sistemas multiagente, económicos y de toma de decisiones distribuidas.
Comprender los sesgos y estereotipos codificados en los pesos de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es crucial para desarrollar estrategias efectivas de mitigación. El comportamiento sesgado suele ser sutil y no trivial de aislar, incluso cuando se provoca deliberadamente, lo que hace que el análisis sistemático y la eliminación de sesgos sean particularmente desafiantes. Para abordar esto, presentamos BiasGym, un marco simple, rentable y generalizable para inyectar, analizar y mitigar de manera confiable asociaciones conceptuales dentro de los LLMs. BiasGym consta de dos componentes: BiasInject, que inyecta sesgos específicos en el modelo mediante ajuste fino basado en tokens mientras mantiene el modelo congelado, y BiasScope, que aprovecha estas señales inyectadas para identificar y redirigir los componentes responsables del comportamiento sesgado. Nuestro método permite la elicitación consistente de sesgos para el análisis mecanicista, apoya la eliminación de sesgos específicos sin degradar el rendimiento en tareas posteriores, y se generaliza a sesgos no vistos durante el entrenamiento. Demostramos la efectividad de BiasGym en la reducción de estereotipos del mundo real (por ejemplo, que las personas de un país sean "conductores imprudentes") y en la exploración de asociaciones ficticias (por ejemplo, que las personas de un país tengan "piel azul"), mostrando su utilidad tanto para intervenciones de seguridad como para investigación en interpretabilidad.
Los glóbulos rojos (GR) son esenciales para la salud humana, y su análisis morfológico preciso es importante para diagnosticar trastornos hematológicos. A pesar del potencial de los modelos fundacionales en el diagnóstico médico, las soluciones integrales de IA para el análisis de GR siguen siendo escasas. Presentamos RedDino, un modelo fundacional de autoaprendizaje diseñado para el análisis de imágenes de GR. RedDino utiliza una adaptación específica para GR del marco de autoaprendizaje DINOv2 y se entrena con un conjunto de datos curado de 1,25 millones de imágenes de GR provenientes de diversas modalidades y fuentes de adquisición. Evaluaciones exhaustivas muestran que RedDino supera a los modelos más avanzados existentes en la clasificación de formas de GR. A través de evaluaciones que incluyen pruebas lineales y clasificación por vecinos más cercanos, confirmamos sus sólidas representaciones de características y capacidad de generalización. Nuestras principales contribuciones son: (1) un modelo fundacional adaptado para el análisis de GR, (2) estudios de ablación que exploran configuraciones de DINOv2 para el modelado de GR, y (3) una evaluación detallada del rendimiento de generalización. RedDino aborda desafíos clave en la hematología computacional al capturar características morfológicas sutiles, avanzando en el desarrollo de herramientas de diagnóstico confiables. El código fuente y los modelos preentrenados de RedDino están disponibles en https://github.com/Snarci/RedDino, y los modelos preentrenados pueden descargarse de nuestra colección en Hugging Face en https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
La urbanización, el cambio climático y el estrés agrícola están aumentando la demanda de un monitoreo ambiental preciso y oportuno. La Temperatura de la Superficie Terrestre (LST, por sus siglas en inglés) es una variable clave en este contexto y se obtiene a partir de satélites de teledetección. Sin embargo, estos sistemas enfrentan un compromiso entre la resolución espacial y temporal. Aunque los métodos de fusión espacio-temporal ofrecen soluciones prometedoras, pocos han abordado la estimación diaria de LST a una resolución de 10 m. En este estudio, presentamos WGAST, una Red Generativa Débilmente Supervisada para la Estimación Diaria de LST a 10 m mediante la Fusión Espacio-Temporal de Terra MODIS, Landsat 8 y Sentinel-2. WGAST es el primer marco de aprendizaje profundo de extremo a extremo diseñado para esta tarea. Adopta una arquitectura generativa adversarial condicional, con un generador compuesto por cuatro etapas: extracción de características, fusión, reconstrucción de LST y supresión de ruido. La primera etapa emplea un conjunto de codificadores para extraer representaciones latentes de múltiples niveles a partir de las entradas, que luego se fusionan en la segunda etapa utilizando similitud coseno, normalización y mecanismos de atención temporal. La tercera etapa decodifica las características fusionadas en LST de alta resolución, seguida de un filtro gaussiano para suprimir el ruido de alta frecuencia. El entrenamiento sigue una estrategia débilmente supervisada basada en principios de promediado físico y reforzada por un discriminador PatchGAN. Los experimentos demuestran que WGAST supera a los métodos existentes tanto en evaluaciones cuantitativas como cualitativas. En comparación con la línea base de mejor rendimiento, en promedio, WGAST reduce el RMSE en un 17.18% y mejora el SSIM en un 11.00%. Además, WGAST es robusto frente a LST inducida por nubes y captura eficazmente patrones térmicos a escala fina, como se ha validado con 33 sensores terrestres. El código está disponible en https://github.com/Sofianebouaziz1/WGAST.git.
La capacidad de aprendizaje continuo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para avanzar hacia la inteligencia artificial general. Sin embargo, el ajuste fino continuo de los LLMs en diversos dominios suele verse afectado por el olvido catastrófico, caracterizado por: 1) un olvido significativo de sus capacidades generales, y 2) una disminución abrupta en el rendimiento de tareas previamente aprendidas. Para abordar simultáneamente ambos problemas de manera simple y estable, proponemos General Sample Replay (GeRe), un marco que utiliza textos de preentrenamiento habituales para una eficiente prevención del olvido. Más allá de revisar las prácticas más comunes basadas en repetición bajo GeRe, aprovechamos los estados neuronales para introducir un método de optimización restringida de estados de activación mejorado, utilizando una función de pérdida basada en umbrales (TM, por sus siglas en inglés), que mantiene la consistencia de los estados de activación durante el aprendizaje por repetición. Somos los primeros en validar que un conjunto pequeño y fijo de muestras generales de repetición previamente recolectadas es suficiente para resolver ambas preocupaciones: retener las capacidades generales mientras se mejora el rendimiento general en tareas secuenciales. De hecho, lo primero puede facilitar inherentemente lo segundo. A través de experimentos controlados, comparamos sistemáticamente TM con diferentes estrategias de repetición bajo el marco GeRe, incluyendo ajuste de etiquetas básico, imitación de logits mediante divergencia KL e imitación de características mediante pérdidas L1/L2. Los resultados demuestran que TM mejora consistentemente el rendimiento y exhibe una mayor robustez. Nuestro trabajo allana el camino para una repetición eficiente de LLMs en el futuro. Nuestro código y datos están disponibles en https://github.com/Qznan/GeRe.
Los puntos de referencia actuales para el razonamiento matemático en modelos de lenguaje de gran escala (LLMs) están alcanzando niveles de saturación, con algunos logrando una precisión superior al 90%, y se ven cada vez más comprometidos por la contaminación de los conjuntos de entrenamiento. Presentamos Putnam-AXIOM, un punto de referencia compuesto por 522 problemas de nivel universitario extraídos del prestigioso William Lowell Putnam Mathematical Competition, y Putnam-AXIOM Variation, un conjunto complementario de 100 variantes funcionales generadas mediante la perturbación programática de variables y constantes. El protocolo de variación produce un flujo ilimitado de instancias igualmente difíciles y no vistas anteriormente, lo que resulta en un banco de pruebas resistente a la contaminación. En el conjunto Original, el modelo o1-preview de OpenAI —el más fuerte evaluado— obtiene un 41.9% de precisión, pero esta disminuye en un 19.6% (una reducción relativa del 46.8%) en las Variaciones emparejadas. Los dieciocho modelos restantes muestran la misma tendencia a la baja, con diez de ellos presentando intervalos de confianza del 95% que no se superponen. Estas brechas sugieren memorización y resaltan la necesidad de puntos de referencia dinámicos. Complementamos la precisión "en caja" con la Precisión Forzada por el Profesor (TFA), una métrica ligera que evalúa directamente las trazas de razonamiento y automatiza la evaluación de pruebas en lenguaje natural. Por lo tanto, Putnam-AXIOM proporciona un marco de evaluación riguroso y resistente a la contaminación para evaluar el razonamiento matemático avanzado de los LLMs. Los datos y el código de evaluación están disponibles públicamente en https://github.com/brando90/putnam-axiom.
La superficie de la Tierra está en constante cambio, y detectar estos cambios proporciona información valiosa que beneficia diversos aspectos de la sociedad humana. Si bien los métodos tradicionales de detección de cambios se han utilizado para identificar alteraciones a partir de imágenes bi-temporales, estos enfoques generalmente requieren conocimientos expertos para una interpretación precisa. Para permitir un acceso más amplio y flexible a la información de cambios por parte de usuarios no expertos, se ha introducido la tarea de Respuesta Visual a Preguntas sobre Detección de Cambios (CDVQA, por sus siglas en inglés). Sin embargo, los métodos existentes de CDVQA se han desarrollado bajo el supuesto de que los conjuntos de datos de entrenamiento y prueba comparten distribuciones similares. Este supuesto no se cumple en aplicaciones del mundo real, donde a menudo ocurren cambios de dominio. En este artículo, se revisa la tarea de CDVQA con un enfoque en abordar el cambio de dominio. Con este fin, se introduce un nuevo conjunto de datos multimodal y multidominio, BrightVQA, para facilitar la investigación en generalización de dominios en CDVQA. Además, se propone un nuevo modelo de espacio de estados, denominado Modelo de Espacio de Estados Condicionado por Texto (TCSSM, por sus siglas en inglés). El marco TCSSM está diseñado para aprovechar tanto las imágenes bi-temporales como la información textual relacionada con desastres geológicos de manera unificada, con el fin de extraer características invariantes al dominio. Los parámetros dependientes de la entrada en TCSSM se predicen dinámicamente utilizando tanto las imágenes bi-temporales como las descripciones relacionadas con desastres geológicos, facilitando así la alineación entre los datos visuales bi-temporales y las descripciones textuales asociadas. Se realizan experimentos exhaustivos para evaluar el método propuesto frente a modelos de última generación, demostrando un rendimiento superior de manera consistente. El código y el conjunto de datos estarán disponibles públicamente tras su aceptación en https://github.com/Elman295/TCSSM.
La transferencia de estilo artístico ha sido posible durante mucho tiempo gracias a los avances en redes neuronales basadas en convoluciones y transformadores. La mayoría de los algoritmos aplican la transferencia de estilo artístico a toda la imagen, pero los usuarios individuales pueden necesitar aplicar la transferencia de estilo únicamente a una región específica de la imagen. La práctica estándar es simplemente enmascarar la imagen después de la estilización. Este trabajo demuestra que este enfoque tiende a capturar de manera incorrecta las características del estilo en la región de interés. Proponemos una red de transferencia de estilo basada en convoluciones parciales que aplica con precisión las características del estilo exclusivamente a la región de interés. Además, presentamos técnicas de fusión interna en la red que tienen en cuenta las imperfecciones en la selección de la región. Mostramos que esto mejora visual y cuantitativamente la estilización utilizando ejemplos del conjunto de datos SA-1B. El código está disponible públicamente en https://github.com/davidmhart/StyleTransferMasked.
Las vocalizaciones paralingüísticas, que incluyen sonidos no verbales como la risa y la respiración, así como interjecciones lexicalizadas como "eh" y "oh", son fundamentales para la comunicación oral natural. A pesar de su importancia en la transmisión de afecto, intención y señales interactivas, estas señales siguen siendo en gran medida ignoradas en los sistemas convencionales de reconocimiento automático del habla (ASR, por sus siglas en inglés) y de conversión de texto a voz (TTS). Presentamos NVSpeech, una canalización integrada y escalable que conecta el reconocimiento y la síntesis de vocalizaciones paralingüísticas, abarcando la construcción de conjuntos de datos, el modelado de ASR y el TTS controlable. (1) Introducimos un conjunto de datos anotado manualmente de 48,430 expresiones habladas por humanos con 18 categorías paralingüísticas a nivel de palabra. (2) Desarrollamos el modelo ASR consciente de lo paralingüístico, que trata las señales paralingüísticas como tokens decodificables en línea (por ejemplo, "Eres tan gracioso [Risa]"), permitiendo la transcripción conjunta de elementos léxicos y no verbales. Este modelo se utiliza luego para anotar automáticamente un gran corpus, el primer conjunto de datos a gran escala en chino de 174,179 expresiones (573 horas) con alineación a nivel de palabra y señales paralingüísticas. (3) Ajustamos modelos TTS de cero disparos tanto en datos etiquetados manualmente como automáticamente para permitir un control explícito sobre las vocalizaciones paralingüísticas, facilitando la inserción consciente del contexto en posiciones de token arbitrarias para una síntesis de voz más humana. Al unificar el reconocimiento y la generación de vocalizaciones paralingüísticas, NVSpeech ofrece la primera canalización abierta, a gran escala y anotada a nivel de palabra para el modelado de habla expresiva en mandarín, integrando reconocimiento y síntesis de manera escalable y controlable. El conjunto de datos y demostraciones de audio están disponibles en https://nvspeech170k.github.io/.