Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Qwen-Image, un modelo base de generación de imágenes de la serie Qwen que logra avances significativos en la representación de texto complejo y la edición precisa de imágenes. Para abordar los desafíos de la representación de texto complejo, diseñamos una canalización de datos integral que incluye recopilación de datos a gran escala, filtrado, anotación, síntesis y equilibrio. Además, adoptamos una estrategia de entrenamiento progresivo que comienza con la representación de no texto a texto, evoluciona desde entradas textuales simples hasta complejas, y escala gradualmente hasta descripciones a nivel de párrafo. Este enfoque de aprendizaje curricular mejora sustancialmente las capacidades nativas de representación de texto del modelo. Como resultado, Qwen-Image no solo se desempeña excepcionalmente bien en lenguas alfabéticas como el inglés, sino que también logra un progreso notable en lenguas logográficas más desafiantes como el chino. Para mejorar la consistencia en la edición de imágenes, introducimos un paradigma mejorado de entrenamiento multitarea que incorpora no solo las tareas tradicionales de texto a imagen (T2I) y texto-imagen a imagen (TI2I), sino también la reconstrucción de imagen a imagen (I2I), alineando efectivamente las representaciones latentes entre Qwen2.5-VL y MMDiT. Además, alimentamos por separado la imagen original en Qwen2.5-VL y el codificador VAE para obtener representaciones semánticas y reconstructivas, respectivamente. Este mecanismo de doble codificación permite que el módulo de edición logre un equilibrio entre preservar la consistencia semántica y mantener la fidelidad visual. Qwen-Image alcanza un rendimiento de vanguardia, demostrando sus sólidas capacidades tanto en la generación como en la edición de imágenes en múltiples benchmarks.
La generación aumentada por recuperación (RAG, por sus siglas en inglés) sobre documentos largos generalmente implica dividir el texto en fragmentos más pequeños, que sirven como unidades básicas para la recuperación. Sin embargo, debido a las dependencias presentes en el documento original, la información contextual suele ser esencial para interpretar con precisión cada fragmento. Para abordar esto, trabajos previos han explorado la codificación de ventanas de contexto más largas para generar incrustaciones (embeddings) de fragmentos más extensos. A pesar de estos esfuerzos, las mejoras en la recuperación y las tareas posteriores siguen siendo limitadas. Esto se debe a que (1) los fragmentos más largos sobrecargan la capacidad de los modelos de incrustación debido a la mayor cantidad de información que deben codificar, y (2) muchas aplicaciones del mundo real aún requieren devolver evidencia localizada debido a limitaciones en el ancho de banda del modelo o humano. Proponemos un enfoque alternativo para este desafío al representar fragmentos cortos de una manera que esté condicionada por una ventana de contexto más amplia para mejorar el rendimiento de la recuperación, es decir, situar el significado de un fragmento dentro de su contexto. Además, demostramos que los modelos de incrustación existentes no están bien equipados para codificar de manera efectiva dicho contexto situado y, por lo tanto, introducimos un nuevo paradigma de entrenamiento y desarrollamos los modelos de incrustación situada (SitEmb). Para evaluar nuestro método, creamos un conjunto de datos de recuperación de tramas de libros diseñado específicamente para evaluar las capacidades de recuperación situada. En este punto de referencia, nuestro modelo SitEmb-v1 basado en BGE-M3 supera sustancialmente a los modelos de incrustación más avanzados, incluidos varios con hasta 7-8 mil millones de parámetros, con solo 1 mil millones de parámetros. Nuestro modelo SitEmb-v1.5 de 8 mil millones de parámetros mejora aún más el rendimiento en más del 10% y muestra resultados sólidos en diferentes idiomas y varias aplicaciones posteriores.
La modelización de células virtuales representa una frontera emergente en la intersección de la inteligencia artificial y la biología, con el objetivo de predecir cantidades como respuestas a diversas perturbaciones de manera cuantitativa. Sin embargo, construir modelos computacionales para células virtuales de forma autónoma es un desafío debido a la complejidad de los sistemas biológicos, la heterogeneidad de las modalidades de datos y la necesidad de experiencia específica en múltiples disciplinas. Aquí presentamos CellForge, un sistema agéntico que aprovecha un marco de trabajo multiagente para transformar directamente conjuntos de datos biológicos y objetivos de investigación en modelos computacionales optimizados para células virtuales. Más específicamente, dado únicamente datos crudos de multiómica de células individuales y descripciones de tareas como entrada, CellForge genera tanto una arquitectura de modelo optimizada como código ejecutable para entrenar modelos de células virtuales e inferencia. El marco integra tres módulos principales: Análisis de Tareas para la caracterización del conjunto de datos presentado y la recuperación de literatura relevante, Diseño de Métodos, donde agentes especializados colaboran en el desarrollo de estrategias de modelización optimizadas, y Ejecución de Experimentos para la generación automatizada de código. Los agentes en el módulo de Diseño se dividen en expertos con perspectivas diferentes y un moderador central, y deben intercambiar soluciones de manera colaborativa hasta alcanzar un consenso razonable. Demostramos las capacidades de CellForge en la predicción de perturbaciones en células individuales, utilizando seis conjuntos de datos diversos que abarcan eliminaciones génicas, tratamientos con fármacos y estimulaciones con citoquinas en múltiples modalidades. CellForge supera consistentemente a los métodos más avanzados específicos para cada tarea. En general, CellForge demuestra cómo la interacción iterativa entre agentes de LLM con perspectivas diferentes proporciona soluciones mejores que abordar directamente un desafío de modelización. Nuestro código está disponible públicamente en https://github.com/gersteinlab/CellForge.
Los modelos de razonamiento sobresalen en la resolución de problemas complejos, pero presentan una preocupante compensación entre sus capacidades de razonamiento y su habilidad para seguir instrucciones. Los enfoques existentes para mejorar el seguimiento de instrucciones dependen de modelos externos más potentes, lo que genera cuellos de botella metodológicos y limitaciones prácticas, incluyendo mayores costos y restricciones de accesibilidad. Proponemos un marco de aprendizaje por refuerzo (RL) autosupervisado que aprovecha las señales internas de los propios modelos de razonamiento para mejorar su capacidad de seguir instrucciones sin supervisión externa. Experimentos exhaustivos demuestran que nuestro marco mejora significativamente la capacidad de seguimiento de instrucciones mientras mantiene el rendimiento en razonamiento, ofreciendo un enfoque escalable y rentable para mejorar esta habilidad en modelos de razonamiento. Los datos y el código están disponibles públicamente en https://github.com/Rainier-rq/verl-if.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable en muchos dominios, aunque su integración en aplicaciones de ciberseguridad sigue siendo limitada debido a la falta de datos de ciberseguridad de propósito general, la complejidad representacional y las preocupaciones de seguridad y normativas. Para abordar esta brecha, previamente presentamos Foundation-Sec-8B, un LLM enfocado en ciberseguridad adecuado para ajustes en tareas posteriores. Sin embargo, ese modelo no fue diseñado para interacciones estilo chat o para seguir instrucciones. En este informe, lanzamos Foundation-Sec-8B-Instruct: un modelo específicamente entrenado para diálogos de ciberseguridad de propósito general. Construido sobre Foundation-Sec-8B, combina conocimiento específico del dominio con la capacidad de seguir instrucciones, habilidades conversacionales y alineación con las preferencias humanas para producir respuestas relevantes y de alta calidad. Evaluaciones exhaustivas muestran que Foundation-Sec-8B-Instruct supera a Llama 3.1-8B-Instruct en una variedad de tareas de ciberseguridad, al tiempo que iguala su rendimiento en la capacidad de seguir instrucciones. También es competitivo con GPT-4o-mini en tareas de inteligencia de amenazas cibernéticas y de seguimiento de instrucciones. Visualizamos que Foundation-Sec-8B-Instruct se convierta en un asistente indispensable en los flujos de trabajo diarios de los profesionales de ciberseguridad. Publicamos el modelo en https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
La mayoría de las proteínas humanas permanecen sin ser objeto de fármacos, ya que más del 96% de las proteínas humanas no han sido explotadas por terapias aprobadas. Aunque el cribado virtual basado en estructuras promete expandir el proteoma farmacológicamente accesible, los métodos existentes carecen de precisión a nivel atómico y no logran predecir la aptitud de unión, lo que limita su impacto traslacional. Presentamos AuroBind, un marco escalable de cribado virtual que ajusta un modelo estructural personalizado a nivel atómico utilizando datos quimio-genómicos a escala de millones. AuroBind integra la optimización directa de preferencias, la auto-distilación a partir de complejos de alta confianza y una estrategia de aceleración maestro-estudiante para predecir conjuntamente estructuras ligadas a ligandos y la aptitud de unión. Los modelos propuestos superan a los modelos de vanguardia en pruebas estructurales y funcionales, permitiendo un cribado 100,000 veces más rápido en bibliotecas de compuestos ultra-grandes. En un cribado prospectivo de diez objetivos relevantes para enfermedades, AuroBind logró tasas de acierto experimental del 7-69%, con compuestos principales que alcanzaron potencias de sub-nanomolar a picomolar. Para los GPCR huérfanos GPR151 y GPR160, AuroBind identificó tanto agonistas como antagonistas con tasas de éxito del 16-30%, y ensayos funcionales confirmaron la modulación de GPR160 en modelos de cáncer de hígado y próstata. AuroBind ofrece un marco generalizable para el aprendizaje de estructura-función y el cribado molecular de alto rendimiento, cerrando la brecha entre la predicción de estructuras y el descubrimiento terapéutico.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado un progreso impresionante en la comprensión y generación omni-modal. Sin embargo, entrenar LLMs omni-modales sigue siendo un desafío significativo debido a las arquitecturas de modelos heterogéneas necesarias para procesar diversas modalidades, lo que requiere un diseño de sistema sofisticado para un entrenamiento a gran escala eficiente. Los marcos existentes suelen entrelazar la definición del modelo con la lógica paralela, lo que resulta en una escalabilidad limitada y una sobrecarga de ingeniería sustancial para el entrenamiento omni-modal de extremo a extremo. % Presentamos \veomni, un marco de entrenamiento modular y eficiente para acelerar el desarrollo de LLMs omni-modales. \veomni introduce recetas distribuidas centradas en el modelo que desacoplan la comunicación del cálculo, permitiendo un paralelismo 3D eficiente en LLMs omni-modales. \veomni también cuenta con una interfaz de configuración flexible que permite la integración sin problemas de nuevas modalidades con cambios mínimos en el código. % Utilizando \veomni, un modelo omni-modal de mezcla de expertos (MoE) con 30 mil millones de parámetros puede entrenarse con un rendimiento de más de 2,800 tokens/segundo/GPU y escalar a longitudes de contexto de 160K mediante paralelismo 3D en 128 GPUs, demostrando su eficiencia y escalabilidad superiores para entrenar LLMs omni-modales de gran escala.
Para operar eficazmente en el mundo real, los robots deben integrar el razonamiento multimodal con la generación precisa de acciones. Sin embargo, los modelos existentes de visión-lenguaje-acción (VLA) a menudo sacrifican uno por el otro, limitan sus capacidades a datos de manipulación específicos de tareas y sufren un olvido catastrófico de las capacidades preentrenadas de visión-lenguaje. Para cerrar esta brecha, presentamos InstructVLA, un modelo VLA de extremo a extremo que preserva el razonamiento flexible de los grandes modelos de visión-lenguaje (VLM) mientras ofrece un rendimiento líder en manipulación. InstructVLA introduce un nuevo paradigma de entrenamiento, el Ajuste por Instrucción de Visión-Lenguaje-Acción (VLA-IT), que emplea entrenamiento multimodal con adaptación de mezcla de expertos para optimizar conjuntamente el razonamiento textual y la generación de acciones tanto en corpus estándar de VLM como en un conjunto de datos VLA-IT curado de 650K muestras. En tareas de SimplerEnv dentro del dominio, InstructVLA logra una mejora del 30.5% sobre SpatialVLA. Para evaluar la generalización, presentamos SimplerEnv-Instruct, un benchmark de 80 tareas que requiere control en bucle cerrado y comprensión de instrucciones de alto nivel, donde supera a un OpenVLA ajustado por un 92% y a un experto en acciones asistido por GPT-4o por un 29%. Además, InstructVLA supera a los VLM de referencia en tareas multimodales y exhibe escalado en tiempo de inferencia al aprovechar el razonamiento textual para mejorar el rendimiento en manipulación tanto en entornos simulados como en el mundo real. Estos resultados demuestran el potencial de InstructVLA para conectar la interacción humano-robot intuitiva y dirigible con el aprendizaje eficiente de políticas.
Los conjuntos de datos a gran escala son fundamentales para la investigación y el desarrollo en el procesamiento del lenguaje natural. Sin embargo, los enfoques actuales enfrentan tres desafíos clave: (1) dependencia de fuentes con licencias ambiguas que restringen su uso, compartición y obras derivadas; (2) lanzamientos estáticos de conjuntos de datos que impiden las contribuciones de la comunidad y reducen su longevidad; y (3) procesos de garantía de calidad limitados a los equipos de publicación en lugar de aprovechar la experiencia de la comunidad. Para abordar estas limitaciones, presentamos dos contribuciones: el enfoque Dynaword y Danish Dynaword. El enfoque Dynaword es un marco para crear conjuntos de datos abiertos a gran escala que pueden actualizarse continuamente mediante la colaboración comunitaria. Danish Dynaword es una implementación concreta que valida este enfoque y demuestra su potencial. Danish Dynaword contiene más de cuatro veces la cantidad de tokens en comparación con lanzamientos similares, está exclusivamente bajo licencias abiertas y ha recibido múltiples contribuciones tanto de la industria como de la investigación. El repositorio incluye pruebas ligeras para garantizar el formato, la calidad y la documentación de los datos, estableciendo un marco sostenible para contribuciones comunitarias continuas y la evolución del conjunto de datos.
La compresión de tokens visuales es crucial para que los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés) procesen de manera eficiente entradas de alta resolución. Los métodos existentes, que generalmente adoptan ratios de compresión fijos, no pueden adaptarse a escenas de complejidad variable, lo que a menudo provoca una poda imprecisa que descarta tokens visuales informativos y resulta en un rendimiento degradado del modelo. Para abordar este problema, presentamos un marco de poda dinámica, GlimpsePrune, inspirado en la cognición humana. Este enfoque toma una "mirada" basada en datos y poda los tokens visuales irrelevantes en un solo paso hacia adelante antes de la generación de respuestas. Este método poda el 92.6% de los tokens visuales mientras que, en promedio, retiene completamente el rendimiento de referencia en tareas de preguntas y respuestas de forma libre. El costo computacional reducido también permite un ajuste fino más efectivo: una versión mejorada, GlimpsePrune+, alcanza el 110% del rendimiento de referencia mientras mantiene una tasa de poda igualmente alta. Nuestro trabajo abre un nuevo camino para construir LVLMs más potentes y eficientes.
Los Modelos de Lenguaje de Gran Escala basados en Difusión (dLLMs) permiten avances en razonamiento y decodificación paralela, pero sufren de una complejidad computacional cuadrática prohibitiva y un alto consumo de memoria durante la inferencia. Las técnicas actuales de almacenamiento en caché aceleran la decodificación al guardar estados completos de las capas, pero imponen un uso sustancial de memoria que limita las aplicaciones de contexto largo. Nuestro análisis de los patrones de atención en dLLMs revela una esparsidad persistente entre capas, donde los tokens clave permanecen destacados a lo largo de los pasos de decodificación y los tokens de baja relevancia siguen siendo poco importantes, lo que motiva la expulsión selectiva de la caché. Proponemos Sparse-dLLM, el primer marco libre de entrenamiento que integra la expulsión dinámica de la caché con atención dispersa mediante un almacenamiento en caché bidireccional disperso y retardado. Al aprovechar la estabilidad de la relevancia de los tokens a lo largo de los pasos, retiene los tokens críticos y expulsa dinámicamente las entradas de prefijo/sufijo poco importantes utilizando una estrategia guiada por la atención. Experimentos extensos en las series LLaDA y Dream demuestran que Sparse-dLLM logra un rendimiento hasta 10 veces mayor que los dLLMs convencionales, con un desempeño comparable y costos de memoria máxima similares, superando a métodos anteriores en eficiencia y efectividad.
Presentamos Voxlect, un nuevo punto de referencia para modelar dialectos y lenguas regionales a nivel mundial utilizando modelos fundamentales de habla. Específicamente, reportamos evaluaciones exhaustivas de referencia sobre variedades dialectales y lenguas regionales en inglés, árabe, mandarín y cantonés, tibetano, lenguas índicas, tailandés, español, francés, alemán, portugués brasileño e italiano. Nuestro estudio utilizó más de 2 millones de expresiones de entrenamiento provenientes de 30 corpus de habla disponibles públicamente que incluyen información dialectal. Evaluamos el rendimiento de varios modelos fundamentales de habla ampliamente utilizados en la clasificación de dialectos del habla. Analizamos la robustez de los modelos dialectales en condiciones ruidosas y presentamos un análisis de errores que destaca resultados de modelado alineados con la continuidad geográfica. Además de establecer un punto de referencia para la clasificación de dialectos, demostramos varias aplicaciones posteriores habilitadas por Voxlect. En particular, mostramos que Voxlect puede aplicarse para enriquecer conjuntos de datos existentes de reconocimiento de habla con información dialectal, permitiendo un análisis más detallado del rendimiento de ASR a través de variaciones dialectales. Voxlect también se utiliza como herramienta para evaluar el rendimiento de sistemas de generación de habla. Voxlect está disponible públicamente bajo la licencia de la familia RAIL en: https://github.com/tiantiaf0627/voxlect.
La atribución de obras de arte en general y de pinturas en particular siempre ha sido un tema relevante en el ámbito artístico. El surgimiento de modelos de inteligencia artificial potentes capaces de generar y analizar imágenes plantea nuevos desafíos para la atribución de pinturas. Por un lado, los modelos de IA pueden crear imágenes que imitan el estilo de un pintor, las cuales podrían ser atribuidas incorrectamente, por ejemplo, por otros modelos de IA. Por otro lado, los modelos de IA podrían no ser capaces de identificar correctamente al artista de pinturas reales, lo que llevaría a los usuarios a atribuir las obras de manera errónea. En este artículo, ambos problemas se estudian experimentalmente utilizando modelos de IA de vanguardia para la generación y análisis de imágenes en un conjunto de datos amplio que incluye cerca de 40,000 pinturas de 128 artistas. Los resultados muestran que los modelos de lenguaje visual tienen capacidades limitadas para: 1) realizar atribuciones de lienzos y 2) identificar imágenes generadas por IA. Dado que los usuarios dependen cada vez más de consultas a modelos de IA para obtener información, estos resultados evidencian la necesidad de mejorar las capacidades de los modelos de lenguaje visual para realizar atribuciones de artistas y detección de imágenes generadas por IA de manera confiable, con el fin de prevenir la difusión de información incorrecta.
Los modelos de difusión de texto a imagen han revolucionado la generación de contenido visual, pero los mecanismos de seguridad actuales aplican estándares uniformes que a menudo no tienen en cuenta las preferencias individuales de los usuarios. Estos modelos pasan por alto los diversos límites de seguridad moldeados por factores como la edad, la salud mental y las creencias personales. Para abordar esto, proponemos Alineación de Seguridad Personalizada (PSA, por sus siglas en inglés), un marco que permite un control específico del usuario sobre los comportamientos de seguridad en los modelos generativos. PSA integra perfiles de usuario personalizados en el proceso de difusión, ajustando el comportamiento del modelo para que coincida con las preferencias de seguridad individuales mientras preserva la calidad de la imagen. Introducimos un nuevo conjunto de datos, Sage, que captura las preferencias de seguridad específicas del usuario e incorpora estos perfiles a través de un mecanismo de atención cruzada. Los experimentos muestran que PSA supera a los métodos existentes en la supresión de contenido dañino y alinea mejor el contenido generado con las restricciones del usuario, logrando puntuaciones más altas en Tasa de Éxito y Tasa de Aprobación. Nuestro código, datos y modelos están disponibles públicamente en https://torpedo2648.github.io/PSAlign/.
Presentamos RoboMemory, un marco de memoria múltiple inspirado en el cerebro para el aprendizaje continuo en sistemas físicos embebidos, abordando desafíos críticos en entornos del mundo real: aprendizaje continuo, latencia de memoria multi-módulo, captura de correlación de tareas y mitigación de bucles infinitos en planificación de circuito cerrado. Basado en la neurociencia cognitiva, integra cuatro módulos principales: el Preprocesador de Información (similar al tálamo), el Sistema de Memoria Embebida de Aprendizaje Continuo (similar al hipocampo), el Módulo de Planificación de Circuito Cerrado (similar al lóbulo prefrontal) y el Ejecutor de Bajo Nivel (similar al cerebelo) para permitir planificación a largo plazo y aprendizaje acumulativo. El Sistema de Memoria Embebida de Aprendizaje Continuo, central en el marco, alivia los problemas de velocidad de inferencia en marcos de memoria complejos mediante actualizaciones/recuperaciones paralelizadas en los submódulos Espacial, Temporal, Episódico y Semántico. Incorpora un Grafo de Conocimiento (KG) dinámico y un diseño arquitectónico consistente para mejorar la coherencia y escalabilidad de la memoria. Las evaluaciones en EmbodiedBench muestran que RoboMemory supera la línea de base de código abierto (Qwen2.5-VL-72B-Ins) en un 25% en la tasa de éxito promedio y supera el Estado del Arte (SOTA) de código cerrado (Claude3.5-Sonnet) en un 5%, estableciendo un nuevo SOTA. Los estudios de ablación validan componentes clave (crítico, memoria espacial, memoria a largo plazo), mientras que el despliegue en el mundo real confirma su capacidad de aprendizaje continuo con tasas de éxito significativamente mejoradas en tareas repetidas. RoboMemory mitiga los desafíos de alta latencia con escalabilidad, sirviendo como una referencia fundamental para la integración de sistemas de memoria multimodal en robots físicos.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de ingeniería de software cuando se entrenan con entornos de ejecución ejecutables, particularmente en la resolución de problemas en GitHub. Sin embargo, dichos entornos de ejecución a menudo no están disponibles en otros dominios, especialmente en ciberseguridad, donde las configuraciones de desafíos y los contextos de ejecución son efímeros o restringidos. Presentamos Cyber-Zero, el primer marco de trabajo libre de ejecución para sintetizar trayectorias de agentes de alta calidad con el fin de entrenar LLMs en ciberseguridad. Cyber-Zero aprovecha los writeups públicamente disponibles de CTF (Capture The Flag) y emplea simulaciones basadas en LLMs guiadas por personajes para revertir comportamientos de ejecución y generar secuencias de interacción realistas y de largo alcance sin entornos reales. Utilizando trayectorias sintetizadas por Cyber-Zero, entrenamos agentes basados en LLMs que logran mejoras de rendimiento absoluto de hasta un 13.1% sobre los modelos de referencia en tres destacados benchmarks de CTF: InterCode-CTF, NYU CTF Bench y Cybench. Nuestro mejor modelo, Cyber-Zero-32B, establece un nuevo estado del arte en rendimiento entre los modelos de peso abierto, igualando las capacidades de sistemas propietarios como DeepSeek-V3-0324 y Claude-3.5-Sonnet, mientras ofrece una relación costo-efectividad superior, y demuestra que la síntesis de trayectorias libre de ejecución puede democratizar efectivamente el desarrollo de agentes de ciberseguridad de última generación.
Los recientes avances en la reconstrucción densa 3D han llevado a un progreso significativo, aunque lograr una predicción geométrica unificada y precisa sigue siendo un gran desafío. La mayoría de los métodos existentes se limitan a predecir una única cantidad geométrica a partir de imágenes de entrada. Sin embargo, cantidades geométricas como la profundidad, las normales de superficie y los mapas de puntos están intrínsecamente correlacionados, y estimarlas de forma aislada a menudo no garantiza consistencia, lo que limita tanto la precisión como la aplicabilidad práctica. Esto nos motiva a explorar un marco unificado que modele explícitamente el acoplamiento estructural entre diferentes propiedades geométricas para permitir una regresión conjunta. En este artículo, presentamos Dens3R, un modelo fundacional 3D diseñado para la predicción densa geométrica conjunta y adaptable a una amplia gama de tareas posteriores. Dens3R adopta un marco de entrenamiento de dos etapas para construir progresivamente una representación de mapas de puntos que sea tanto generalizable como intrínsecamente invariante. Específicamente, diseñamos una arquitectura ligera de codificador-decodificador compartido e introducimos codificación posicional rotatoria interpolada para mantener el poder expresivo mientras se mejora la robustez frente a entradas de alta resolución. Al integrar características de emparejamiento de pares de imágenes con el modelado de invariancia intrínseca, Dens3R regresa con precisión múltiples cantidades geométricas, como normales de superficie y profundidad, logrando una percepción geométrica consistente desde entradas de vista única hasta multivista. Además, proponemos una canalización de postprocesamiento que soporta inferencia multivista geométricamente consistente. Experimentos extensos demuestran el rendimiento superior de Dens3R en diversas tareas de predicción densa 3D y resaltan su potencial para aplicaciones más amplias.
Garantizar una exploración suficiente es un desafío central al entrenar agentes de meta-aprendizaje por refuerzo (meta-RL) para resolver entornos novedosos. Las soluciones convencionales al dilema de exploración-explotación inyectan incentivos explícitos, como la aleatorización, bonificaciones por incertidumbre o recompensas intrínsecas, para fomentar la exploración. En este trabajo, planteamos la hipótesis de que un agente entrenado únicamente para maximizar un objetivo codicioso (solo explotación) puede, no obstante, exhibir un comportamiento exploratorio emergente, siempre que se cumplan tres condiciones: (1) Estructura Ambiental Recurrente, donde el entorno presenta regularidades repetibles que permiten que la experiencia pasada informe decisiones futuras; (2) Memoria del Agente, que permite al agente retener y utilizar datos históricos de interacción; y (3) Asignación de Crédito a Largo Plazo, donde el aprendizaje propaga las recompensas en un marco temporal suficiente para que los beneficios retrasados de la exploración informen las decisiones actuales. A través de experimentos en bandidos multi-brazo estocásticos y mundos de cuadrícula temporalmente extendidos, observamos que, cuando tanto la estructura como la memoria están presentes, una política entrenada con un objetivo estrictamente codicioso exhibe un comportamiento exploratorio de búsqueda de información. Además, demostramos, mediante ablaciones controladas, que la exploración emergente desaparece si falta la estructura ambiental o la memoria del agente (Condiciones 1 y 2). Sorprendentemente, eliminar la asignación de crédito a largo plazo (Condición 3) no siempre impide la exploración emergente, un resultado que atribuimos al efecto pseudo-Thompson Sampling. Estos hallazgos sugieren que, bajo los prerrequisitos adecuados, la exploración y la explotación no necesitan tratarse como objetivos ortogonales, sino que pueden surgir de un proceso unificado de maximización de recompensas.
El escalado en tiempo de prueba (TTS, por sus siglas en inglés) mejora el rendimiento de los modelos de lenguaje grandes (LLMs) al asignar recursos computacionales adicionales durante la inferencia. Sin embargo, la investigación existente se centra principalmente en TTS para tareas de una sola etapa, mientras que muchos problemas del mundo real son tareas complejas de múltiples etapas, compuestas por una secuencia de subtareas heterogéneas, donde cada subtarea requiere un LLM con capacidades específicas. Por lo tanto, estudiamos un problema novedoso: el escalado computacional óptimo en tiempo de prueba para tareas complejas de múltiples etapas, con el objetivo de seleccionar modelos adecuados y asignar presupuestos por subtarea para maximizar el rendimiento general. El TTS en tareas de múltiples etapas introduce dos desafíos fundamentales: (i) El espacio de búsqueda combinatorio de asignaciones de modelos y presupuestos, combinado con el alto costo de la inferencia, hace que la búsqueda por fuerza bruta sea inviable. (ii) Las asignaciones óptimas de modelos y presupuestos entre subtareas son interdependientes, lo que aumenta la complejidad de la búsqueda computacional óptima. Para abordar esta brecha, realizamos extensos experimentos piloto en cuatro tareas a través de seis conjuntos de datos, obteniendo tres ideas empíricas que caracterizan el comportamiento de los LLMs en tareas complejas de múltiples etapas. Basándonos en estas ideas, proponemos AgentTTS, un marco basado en agentes LLM que busca de manera autónoma asignaciones computacionales óptimas mediante interacciones iterativas impulsadas por retroalimentación con el entorno de ejecución. Los resultados experimentales demuestran que AgentTTS supera significativamente a los enfoques tradicionales y otros basados en LLMs en eficiencia de búsqueda, además de mostrar una mayor robustez frente a variaciones en el tamaño de los conjuntos de entrenamiento y una mejor interpretabilidad.
En los modelos de lenguaje de gran escala, la demanda para modelar contextos largos está en constante aumento, pero la complejidad cuadrática del mecanismo de autoatención estándar suele convertirse en un cuello de botella. Aunque los mecanismos de atención dispersa existentes han mejorado la eficiencia, aún pueden enfrentar problemas como patrones estáticos o pérdida de información. Introducimos un mecanismo de atención dispersa con máscara dinámica entrenable, denominado Atención con Máscara Dinámica (Dynamic Mask Attention, DMA), que utiliza eficazmente la dispersión consciente del contenido y la posición. DMA logra esto mediante dos innovaciones clave: primero, genera dinámicamente máscaras dispersas conscientes del contenido a partir de las representaciones de valor, permitiendo que el modelo identifique y se enfoque en información crítica de manera adaptativa. Segundo, implementa un cálculo de atención dispersa consciente de la posición que omite eficazmente regiones de cálculo innecesarias. Este diseño de doble dispersión permite que el modelo reduzca significativamente la complejidad computacional de la información importante mientras retiene la información completa, logrando un equilibrio excelente entre la fidelidad de la información y la eficiencia computacional. Hemos verificado el rendimiento de DMA mediante experimentos exhaustivos. Estudios comparativos muestran que DMA supera a la atención multi-cabeza, la atención de ventana deslizante, la atención latente multi-cabeza y la atención dispersa nativa en términos de perplejidad bajo los ajustes de la Ley de Escalamiento Chinchilla. Además, en tareas desafiantes de recuperación asociativa multi-consulta, DMA también demuestra un rendimiento y eficiencia superiores en comparación con estos métodos. Crucialmente, en la evaluación de un modelo de 1.7B parámetros, DMA supera significativamente a la atención multi-cabeza tanto en el rendimiento de benchmarks estándar como en la tarea desafiante de "aguja en un pajar". Estos resultados experimentales destacan su capacidad para equilibrar eficazmente la eficiencia del modelo y la capacidad de modelar contextos largos.
La generación de Texto a Movimiento (T2M) tiene como objetivo sintetizar secuencias de movimiento humano realistas y semánticamente alineadas a partir de descripciones en lenguaje natural. Sin embargo, los enfoques actuales enfrentan desafíos duales: los modelos generativos (por ejemplo, los modelos de difusión) sufren de diversidad limitada, acumulación de errores e implausibilidad física, mientras que los métodos de Generación Aumentada por Recuperación (RAG) exhiben inercia de difusión, colapso parcial de modos y artefactos asincrónicos. Para abordar estas limitaciones, proponemos ReMoMask, un marco unificado que integra tres innovaciones clave: 1) Un Modelo de Texto-Movimiento de Momento Bidireccional desacopla la escala de muestras negativas del tamaño del lote mediante colas de momento, mejorando sustancialmente la precisión de la recuperación multimodal; 2) Un mecanismo de Atención Espacio-temporal Semántica impone restricciones biomecánicas durante la fusión a nivel de partes para eliminar artefactos asincrónicos; 3) La Guía Libre de Clases RAG incorpora una generación incondicional menor para mejorar la generalización. Basado en el RVQ-VAE de MoMask, ReMoMask genera eficientemente movimientos temporalmente coherentes en un número mínimo de pasos. Experimentos extensos en benchmarks estándar demuestran el rendimiento de vanguardia de ReMoMask, logrando una mejora del 3.88% y 10.97% en las puntuaciones FID en HumanML3D y KIT-ML, respectivamente, en comparación con el método SOTA anterior RAG-T2M. Código: https://github.com/AIGeeksGroup/ReMoMask. Sitio web: https://aigeeksgroup.github.io/ReMoMask.
Las Máquinas de Vectores de Soporte Cuánticas enfrentan desafíos de escalabilidad debido a los estados cuánticos de alta dimensionalidad y las limitaciones del hardware. Proponemos una arquitectura cuántico-clásica consciente del embedding que combina la destilación de k-means con balance de clases con embeddings preentrenados de Vision Transformers. Nuestro hallazgo clave: los embeddings de ViT permiten de manera única una ventaja cuántica, logrando mejoras de precisión de hasta 8.02% sobre SVMs clásicos en Fashion-MNIST y 4.42% en MNIST, mientras que las características de CNN muestran degradación en el rendimiento. Utilizando una simulación de red tensorial de 16 qubits mediante cuTensorNet, proporcionamos la primera evidencia sistemática de que la ventaja del kernel cuántico depende críticamente de la elección del embedding, revelando una sinergia fundamental entre la atención de los transformers y los espacios de características cuánticos. Esto ofrece una vía práctica para el aprendizaje automático cuántico escalable que aprovecha las arquitecturas neuronales modernas.
El rico panorama lingüístico del mundo árabe se caracteriza por una brecha significativa entre el árabe estándar moderno (MSA), el lenguaje de la comunicación formal, y los diversos dialectos regionales utilizados en la vida cotidiana. Esta diglosia representa un desafío formidable para el procesamiento del lenguaje natural, particularmente en la traducción automática. Este artículo presenta SHAMI-MT, un sistema de traducción automática bidireccional específicamente diseñado para cerrar la brecha comunicativa entre el MSA y el dialecto sirio. Presentamos dos modelos especializados, uno para la traducción de MSA a Shami y otro para la traducción de Shami a MSA, ambos basados en la arquitectura de última generación AraT5v2-base-1024. Los modelos fueron ajustados utilizando el conjunto de datos Nabra y evaluados rigurosamente con datos no vistos del corpus MADAR. Nuestro modelo de MSA a Shami obtuvo una puntuación de calidad promedio sobresaliente de 4.01 sobre 5.0 cuando fue evaluado por el modelo GPT-4.1 de OPENAI, demostrando su capacidad para producir traducciones no solo precisas, sino también auténticamente dialectales. Este trabajo proporciona una herramienta crucial y de alta fidelidad para un par lingüístico previamente desatendido, avanzando en el campo de la traducción dialectal del árabe y ofreciendo aplicaciones significativas en la localización de contenidos, el patrimonio cultural y la comunicación intercultural.
Investigamos si indicadores socioeconómicos como la riqueza del hogar dejan huellas recuperables en imágenes satelitales (que capturan características físicas) y en textos obtenidos de Internet (que reflejan narrativas históricas/económicas). Utilizando datos de las Encuestas Demográficas y de Salud (DHS) de vecindarios africanos, emparejamos imágenes de Landsat con descripciones textuales generadas por modelos de lenguaje (LLM) condicionadas por ubicación/año, y textos recuperados por un agente de búsqueda basado en IA de fuentes web. Desarrollamos un marco multimodal que predice la riqueza del hogar (Índice Internacional de Riqueza) a través de cinco enfoques: (i) un modelo de visión en imágenes satelitales, (ii) un LLM que utiliza solo ubicación/año, (iii) un agente de IA que busca y sintetiza textos web, (iv) un codificador conjunto de imagen-texto, y (v) un ensamblaje de todas las señales. Nuestro marco aporta tres contribuciones. Primero, la fusión de visión y texto de agente/LLM supera a los enfoques basados solo en visión en la predicción de riqueza (por ejemplo, un R-cuadrado de 0.77 frente a 0.63 en divisiones fuera de la muestra), donde el conocimiento interno del LLM resulta más efectivo que el texto recuperado por el agente, mejorando la robustez en generalización fuera del país y del tiempo. Segundo, encontramos una convergencia representacional parcial: los embeddings fusionados de las modalidades de visión y lenguaje se correlacionan moderadamente (similitud coseno mediana de 0.60 después de la alineación), sugiriendo un código latente compartido de bienestar material mientras retienen detalles complementarios, consistente con la Hipótesis de Representación Platónica. Aunque el texto generado solo por el LLM supera a los datos recuperados por el agente, desafiando nuestra Hipótesis de Novedad Inducida por el Agente, las modestas ganancias al combinar datos del agente en algunas divisiones apoyan débilmente la idea de que la información recopilada por el agente introduce estructuras representativas únicas no capturadas completamente por el conocimiento estático del LLM. Tercero, publicamos un conjunto de datos multimodal a gran escala que comprende más de 60,000 clusters de DHS vinculados a imágenes satelitales, descripciones generadas por LLM y textos recuperados por el agente.
Los modelos de lenguaje de gran escala han demostrado capacidades notables en tareas complejas de razonamiento matemático, pero inevitablemente generan errores a lo largo de soluciones de múltiples pasos. Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) han mostrado un gran potencial al proporcionar supervisión y evaluación en cada paso intermedio, mejorando así de manera efectiva las habilidades de razonamiento de los modelos. Sin embargo, entrenar PRMs efectivos requiere datos de recompensa de proceso de alta calidad, y los métodos existentes para construir dichos datos suelen ser laboriosos o ineficientes. En este artículo, proponemos un marco basado en la incertidumbre para la construcción automatizada de datos de recompensa de proceso, abarcando tanto la generación como los procesos de anotación para PRMs. Además, identificamos las limitaciones tanto del voto mayoritario como de los PRMs, e introducimos dos métodos genéricos de agregación de salidas conscientes de la incertidumbre: Voto Híbrido de Recompensa Mayoritaria y Voto Ponderado de Frecuencia de Recompensa, que combinan las fortalezas del voto mayoritario con los PRMs. Experimentos extensivos en ProcessBench, MATH y GSMPlus muestran la efectividad y eficiencia del marco propuesto para la construcción de datos de PRM, y demuestran que los dos métodos de agregación de salidas mejoran aún más las habilidades de razonamiento matemático en diversos PRMs. El código y los datos estarán disponibles públicamente en https://github.com/Jiuzhouh/UnPRM.