Artículos de investigación en IA seleccionados diariamente con traducciones
La tarea de geolocalización de imágenes tiene como objetivo predecir la ubicación donde se tomó una imagen en cualquier parte del mundo utilizando pistas visuales. Los enfoques existentes basados en grandes modelos de visión y lenguaje (LVLM) aprovechan el conocimiento mundial, el razonamiento de cadena de pensamiento y las capacidades agentivas, pero pasan por alto una estrategia común utilizada por los humanos: el uso de mapas. En este trabajo, primero dotamos al modelo de la capacidad de Pensar con Mapas y lo formulamos como un bucle agente-en-el-mapa. Desarrollamos un esquema de optimización de dos etapas para ello, que incluye aprendizaje por refuerzo (RL) agentico seguido de escalado paralelo en tiempo de prueba (TTS). El RL fortalece la capacidad agentica del modelo para mejorar la eficiencia del muestreo, y el TTS paralelo permite al modelo explorar múltiples rutas candidatas antes de realizar la predicción final, lo cual es crucial para la geolocalización. Para evaluar nuestro método con imágenes actualizadas y del mundo real, presentamos además MAPBench, un benchmark integral de entrenamiento y evaluación para geolocalización compuesto enteramente por imágenes reales. Los resultados experimentales muestran que nuestro método supera a los modelos existentes de código abierto y cerrado en la mayoría de las métricas, mejorando específicamente Acc@500m del 8.0% al 22.1% en comparación con Gemini-3-Pro con modo basado en Búsqueda/Mapas de Google.
La autoformalización, que traduce matemáticas en lenguaje natural a enunciados formales para permitir el razonamiento automático, enfrenta desafíos fundamentales en entornos no controlados debido a la naturaleza multimodal del mundo físico, donde la física requiere inferir restricciones ocultas (por ejemplo, masa o energía) a partir de elementos visuales. Para abordar esto, proponemos MMFormalizer, que extiende la autoformalización más allá del texto integrando una fundamentación adaptativa con entidades de dominios matemáticos y físicos del mundo real. MMFormalizer construye recursivamente proposiciones formales a partir de primitivas perceptualmente fundamentadas mediante una fundamentación recursiva y composición axiomática, con una terminación recursiva adaptativa que garantiza que cada abstracción esté respaldada por evidencia visual y anclada en una fundamentación dimensional o axiomática. Evaluamos MMFormalizer en un nuevo benchmark, PhyX-AF, que comprende 115 muestras seleccionadas de MathVerse, PhyX, Geometría Sintética y Geometría Analítica, cubriendo diversas tareas de autoformalización multimodal. Los resultados muestran que modelos de vanguardia como GPT-5 y Gemini-3-Pro logran la mayor precisión de compilación y semántica, con GPT-5 destacándose en el razonamiento físico, mientras que la geometría sigue siendo el dominio más desafiante. En general, MMFormalizer proporciona un marco escalable para la autoformalización multimodal unificada, tendiendo un puente entre la percepción y el razonamiento formal. Hasta donde sabemos, este es el primer método de autoformalización multimodal capaz de manejar mecánica clásica (derivada del Hamiltoniano), así como relatividad, mecánica cuántica y termodinámica. Más detalles están disponibles en nuestra página del proyecto: MMFormalizer.github.io
Se presenta un marco de trabajo fotorrealista y controlable para la caricaturización 3D de rostros. Comenzamos con una técnica de exageración superficial basada en la curvatura gaussiana intrínseca, que, al combinarse con la textura, tiende a producir renderizados demasiado suavizados. Para solucionarlo, recurrimos al *Splatting* de Gaussianas 3D (3DGS), que recientemente ha demostrado generar avatares realistas de vista libre. Dada una secuencia multivista, extraemos una malla FLAME, resolvemos una ecuación de Poisson ponderada por la curvatura y obtenemos su forma exagerada. Sin embargo, deformar directamente las Gaussianas produce resultados deficientes, lo que nos obliga a sintetizar imágenes de caricatura pseudo-ground-truth deformando cada fotograma hacia su representación 2D exagerada mediante transformaciones afines locales. Luego, diseñamos un esquema de entrenamiento que alterna entre supervisión real y sintetizada, permitiendo que una única colección de Gaussianas represente tanto avatares naturales como exagerados. Este esquema mejora la fidelidad, admite ediciones locales y permite un control continuo de la intensidad de la caricatura. Para lograr deformaciones en tiempo real, se introduce una interpolación eficiente entre las superficies original y exagerada. Además, analizamos y demostramos que esta interpolación tiene una desviación acotada respecto a las soluciones de forma cerrada. Tanto en evaluaciones cuantitativas como cualitativas, nuestros resultados superan a trabajos anteriores, ofreciendo avatares caricaturizados fotorrealistas y controlados geométricamente.
Los modelos de lenguaje grandes (LLM) a menudo no logran aprender un razonamiento efectivo de cadena de pensamiento larga (Long CoT) a partir de la imitación de humanos o de LLMs que no utilizan Long CoT. Para entender esto, proponemos que las trayectorias Long CoT efectivas y aprendibles presentan estructuras moleculares estables en una visión unificada, las cuales están formadas por tres tipos de interacción: Razonamiento Profundo (similar a enlace covalente), Auto-Reflexión (similar a enlace de hidrógeno) y Auto-Exploración (similar a fuerzas de van der Waals). El análisis de trayectorias destiladas revela que estas estructuras emergen del ajuste fino con Long CoT, no de la imitación de palabras clave. Introducimos el concepto de Isómeros Semánticos Efectivos y demostramos que solo los enlaces que promueven una convergencia rápida de la entropía sustentan un aprendizaje Long CoT estable, mientras que la competencia estructural perjudica el entrenamiento. Basándonos en estos hallazgos, presentamos Mole-Syn, un método de transferencia de distribución basado en grafos que guía la síntesis de estructuras Long CoT efectivas, mejorando el rendimiento y la estabilidad del aprendizaje por refuerzo en diversos puntos de referencia.
En este informe, presentamos las series de modelos Qwen3-VL-Embedding y Qwen3-VL-Reranker, las extensiones más recientes de la familia Qwen construidas sobre el modelo base Qwen3-VL. Juntas, proporcionan una canalización integral (pipeline) para búsqueda multimodal de alta precisión, mapeando diversas modalidades —incluyendo texto, imágenes, imágenes de documentos y video— hacia un espacio de representación unificado. El modelo Qwen3-VL-Embedding emplea un paradigma de entrenamiento multietapa, que progresa desde un preentrenamiento contrastivo a gran escala hasta la destilación del modelo de reranking, para generar vectores de alta dimensión semánticamente ricos. Soporta Matryoshka Representation Learning, lo que permite dimensiones de embedding flexibles, y maneja entradas de hasta 32.000 tokens. Complementando esto, Qwen3-VL-Reranker realiza una estimación de relevancia de grano fino para pares consulta-documento utilizando una arquitectura de codificador cruzado (cross-encoder) con mecanismos de atención cruzada (cross-attention). Ambas series de modelos heredan las capacidades multilingües de Qwen3-VL, soportando más de 30 idiomas, y se publican en tamaños de 2B y 8B de parámetros para adaptarse a diversos requisitos de despliegue. Las evaluaciones empíricas demuestran que la serie Qwen3-VL-Embedding logra resultados de vanguardia en diversos puntos de referencia (benchmarks) de evaluación de embedding multimodal. Específicamente, Qwen3-VL-Embedding-8B alcanza una puntuación global de 77.8 en MMEB-V2, ocupando el primer puesto entre todos los modelos (a 8 de enero de 2025). Este informe presenta la arquitectura, la metodología de entrenamiento y las capacidades prácticas de la serie, demostrando su eficacia en diversas tareas de recuperación multimodal, como la recuperación imagen-texto, la respuesta a preguntas visuales y la coincidencia video-texto.
El aprendizaje por refuerzo (RL) se ha consolidado como una técnica fundamental para mejorar los agentes de búsqueda profunda basados en LLM. Sin embargo, los enfoques existentes se basan principalmente en recompensas de resultado binario, que no logran capturar la exhaustividad y la factualidad del proceso de razonamiento de los agentes, y a menudo conducen a comportamientos indeseables como la explotación de atajos y las alucinaciones. Para abordar estas limitaciones, proponemos Citation-aware Rubric Rewards (CaRR), un marco de recompensas de grano fino para agentes de búsqueda profunda que enfatiza la exhaustividad del razonamiento, el fundamento fáctico y la conectividad de la evidencia. CaRR descompone preguntas complejas en rúbricas verificables de un solo salto y exige a los agentes que satisfagan estas rúbricas identificando explícitamente entidades ocultas, respaldándolas con citas correctas y construyendo cadenas de evidencia completas que enlacen con la respuesta predicha. Además, presentamos Citation-aware Group Relative Policy Optimization (C-GRPO), que combina CaRR y las recompensas de resultado para entrenar agentes de búsqueda profunda robustos. Los experimentos demuestran que C-GRPO supera consistentemente a los baselines estándar de RL basados en resultados en múltiples benchmarks de búsqueda profunda. Nuestro análisis también valida que C-GRPO disuade efectivamente la explotación de atajos, promueve un razonamiento exhaustivo y fundamentado en evidencias, y exhibe una fuerte generalización a tareas de investigación profunda de respuesta abierta. Nuestro código y datos están disponibles en https://github.com/THUDM/CaRR.
Se espera que los grandes modelos de lenguaje (LLM) sean entrenados para actuar como agentes en diversos entornos del mundo real, pero este proceso depende de entornos de pruebas (sandboxes) ricos y variados para la interacción con herramientas. Sin embargo, el acceso a sistemas reales suele estar restringido; los entornos simulados por LLM son propensos a alucinaciones e inconsistencias; y los entornos de prueba construidos manualmente son difíciles de escalar. En este artículo, proponemos EnvScaler, un marco automatizado para entornos escalables de interacción con herramientas mediante síntesis programática. EnvScaler comprende dos componentes. Primero, SkelBuilder construye diversos esqueletos de entorno mediante minería de temas, modelado lógico y evaluación de calidad. Luego, ScenGenerator genera múltiples escenarios de tareas y funciones de validación de trayectorias basadas en reglas para cada entorno. Con EnvScaler, sintetizamos 191 entornos y aproximadamente 7.000 escenarios, y los aplicamos al Fine-Tuning Supervisado (SFT) y al Aprendizaje por Refuerzo (RL) para los modelos de la serie Qwen3. Los resultados en tres benchmarks muestran que EnvScaler mejora significativamente la capacidad de los LLM para resolver tareas en entornos complejos que involucran interacciones multi-turno y multi-herramienta. Publicamos nuestro código y datos en https://github.com/RUC-NLPIR/EnvScaler.
Los recientes avances en los modelos de lenguaje extensos (LLM) permiten sistemas agentes entrenados con aprendizaje por refuerzo (RL) sobre trayectorias de interacción multiturno, pero el despliegue práctico encuentra un cuello de botella en el rápido crecimiento de los historiales textuales, que inflan los presupuestos de tokens y el uso de memoria. Presentamos AgentOCR, un marco que explota la densidad de información superior de los tokens visuales representando el historial acumulado de observación-acción como una imagen renderizada compacta. Para hacer escalables los despliegues multiturno, AgentOCR propone el almacenamiento en caché óptico por segmentos. Al descomponer el historial en segmentos hasheables y mantener una caché visual, este mecanismo elimina el re-renderizado redundante. Más allá del renderizado fijo, AgentOCR introduce la auto-compresión agentica, donde el agente emite activamente una tasa de compresión y es entrenado con una recompensa consciente de la compresión para equilibrar de manera adaptativa el éxito de la tarea y la eficiencia de tokens. Realizamos extensos experimentos en benchmarks agentes desafiantes, ALFWorld y preguntas y respuestas basadas en búsqueda. Notablemente, los resultados demuestran que AgentOCR preserva más del 95% del rendimiento del agente basado en texto, mientras reduce sustancialmente el consumo de tokens (>50%), logrando una eficiencia consistente en tokens y memoria. Nuestro análisis adicional valida una aceleración de 20x en el renderizado gracias al almacenamiento en caché óptico por segmentos y el equilibrio estratégico efectivo de la auto-compresión.
Los agentes autónomos de aprendizaje automático han revolucionado el descubrimiento científico, pero siguen limitados por un paradigma de Generar-Ejecutar-Retroalimentación. Los enfoques anteriores adolecen de un severo Cuello de Botella en la Ejecución, ya que la evaluación de hipótesis depende estrictamente de una costosa ejecución física. Para superar estas limitaciones físicas, internalizamos *priors* de ejecución para sustituir las costosas comprobaciones en tiempo de ejecución con un razonamiento predictivo instantáneo, inspirándonos en los Modelos del Mundo. En este trabajo, formalizamos la tarea de Preferencia de Solución Centrada en Datos y construimos un corpus exhaustivo de 18,438 comparaciones por pares. Demostramos que los LLM exhiben capacidades predictivas significativas cuando se preparan con un Informe de Análisis de Datos Verificado, alcanzando un 61.5% de precisión y una robusta calibración de confianza. Finalmente, instanciamos este marco en FOREAGENT, un agente que emplea un bucle Predecir-y-Verificar, logrando una aceleración de 6x en la convergencia mientras supera a los baselines basados en ejecución en un +6%. Nuestro código y dataset estarán disponibles públicamente pronto en https://github.com/zjunlp/predict-before-execute.
Los recientes avances en generación de vídeo han estado dominados por modelos de difusión y flow-matching, que producen resultados de alta calidad pero siguen siendo computacionalmente intensivos y difíciles de escalar. En este trabajo, presentamos VideoAR, el primer marco de trabajo de Visual Autoregresivo (VAR) a gran escala para generación de vídeo que combina la predicción de siguiente fotograma multiescala con el modelado autoregresivo. VideoAR desentrelaza las dependencias espaciales y temporales mediante la integración del modelado VAR intra-fotograma con la predicción causal de siguiente fotograma, respaldado por un tokenizador 3D multiescala que codifica eficientemente la dinámica espacio-temporal. Para mejorar la consistencia a largo plazo, proponemos RoPE Temporal Multiescala, Corrección de Errores Inter-fotograma y Enmascaramiento Aleatorio de Fotogramas, que mitigan colectivamente la propagación de errores y estabilizan la coherencia temporal. Nuestra canalización de preentrenamiento multietapa alinea progresivamente el aprendizaje espacial y temporal a través de resoluciones y duraciones crecientes. Empíricamente, VideoAR logra nuevos resultados state-of-the-art entre los modelos autoregresivos, mejorando el FVD en UCF-101 de 99.5 a 88.6 mientras reduce los pasos de inferencia en más de 10x, y alcanza una puntuación VBench de 81.74, competitiva con modelos basados en difusión un orden de magnitud más grandes. Estos resultados demuestran que VideoAR reduce la brecha de rendimiento entre los paradigmas autoregresivo y de difusión, ofreciendo una base escalable, eficiente y temporalmente consistente para la futura investigación en generación de vídeo.
La sintonización de preferencias alinea los modelos de lenguaje preentrenados con los juicios humanos sobre calidad, utilidad o seguridad, optimizando a partir de señales explícitas de preferencia en lugar de basarse únicamente en la verosimilitud. Trabajos previos han demostrado que la sintonización de preferencias degrada el rendimiento y reduce la utilidad cuando se evalúa fuera del dominio de entrenamiento. Sin embargo, el grado en que las estrategias de adaptación mitigan este cambio de dominio sigue sin explorarse. Abordamos este desafío realizando un estudio exhaustivo y sistemático de la generalización de la alineación bajo cambio de dominio. Comparamos cinco objetivos de alineación populares y varias estrategias de adaptación de la fuente al objetivo, incluyendo el ajuste fino supervisado en el dominio objetivo y la pseudo-etiquetación, en tareas de utilidad de resumen y respuesta a preguntas. Nuestros hallazgos revelan diferencias sistemáticas en la generalización entre los objetivos de alineación bajo cambio de dominio. Demostramos que las estrategias de adaptación basadas en pseudo-etiquetado pueden reducir sustancialmente la degradación por cambio de dominio.
A medida que los Modelos de Lenguaje a Gran Escala (LLM) se despliegan cada vez más en entornos del mundo real, la corrección por sí sola es insuficiente. Un despliegue confiable requiere mantener creencias veraces bajo perturbaciones contextuales. Las evaluaciones existentes se basan en gran medida en medidas de confianza puntuales como la Autoconsistencia, que puede enmascarar creencias frágiles. Demostramos que incluso hechos respondidos con autoconsistencia perfecta pueden colapsar rápidamente bajo interferencias contextuales leves. Para abordar esta brecha, proponemos la Creencia de Consistencia Vecinal (NCB), una medida estructural de la robustez de la creencia que evalúa la coherencia de las respuestas en un vecindario conceptual. Para validar la eficiencia de NCB, introducimos un nuevo protocolo de prueba de estrés cognitivo que sondea la estabilidad de las salidas bajo interferencia contextual. Los experimentos con múltiples LLM muestran que el rendimiento de los datos con alta NCB es relativamente más resistente a la interferencia. Finalmente, presentamos el Entrenamiento Consciente de la Estructura (SAT), que optimiza la estructura de creencias invariante al contexto y reduce la fragilidad del conocimiento de cola larga en aproximadamente un 30%. El código estará disponible en https://github.com/zjunlp/belief.
Los recientes avances en generación de vídeo han permitido el desarrollo de "modelos del mundo" capaces de simular futuros potenciales para la robótica y la planificación. Sin embargo, especificar objetivos precisos para estos modelos sigue siendo un desafío; las instrucciones de texto suelen ser demasiado abstractas para capturar matices físicos, mientras que las imágenes objetivo a menudo no son factibles de especificar para tareas dinámicas. Para abordar esto, presentamos Goal Force, un marco novedoso que permite a los usuarios definir objetivos mediante vectores de fuerza explícitos y dinámicas intermedias, reflejando cómo los humanos conceptualizan tareas físicas. Entrenamos un modelo de generación de vídeo en un conjunto de datos curando de primitivas causales sintéticas—como colisiones elásticas y fichas de dominó cayendo—enseñándole a propagar fuerzas a través del tiempo y el espacio. A pesar de estar entrenado con datos de física simple, nuestro modelo exhibe una notable generalización zero-shot a escenarios complejos del mundo real, incluyendo la manipulación de herramientas y cadenas causales multi-objeto. Nuestros resultados sugieren que, al fundamentar la generación de vídeo en interacciones físicas fundamentales, los modelos pueden surgir como simuladores de física neuronal implícitos, permitiendo una planificación precisa y consciente de la física sin depender de motores externos. Publicamos todos los conjuntos de datos, código, pesos del modelo y demostraciones de vídeo interactivas en nuestra página del proyecto.
Los grandes modelos de lenguaje han experimentado una rápida evolución, emergiendo como una tecnología pivotal para la inteligencia en operaciones financieras. Sin embargo, los puntos de referencia existentes suelen estar limitados por inconvenientes como la dependencia de muestras simuladas o de propósito general y un enfoque en escenarios estáticos, singulares y fuera de línea. En consecuencia, no logran alinearse con los requisitos de autenticidad y capacidad de respuesta en tiempo real de los servicios financieros, lo que genera una discrepancia significativa entre el rendimiento en los benchmarks y la eficacia operativa real. Para abordar esto, presentamos BizFinBench.v2, el primer punto de referencia de evaluación a gran escala basado en datos empresariales auténticos de los mercados de valores de China y EE. UU., integrando evaluación en línea. Realizamos un análisis de conglomerados sobre consultas de usuarios reales de plataformas financieras, resultando en ocho tareas fundamentales y dos tareas en línea a través de cuatro escenarios empresariales centrales, totalizando 29,578 pares de preguntas y respuestas de nivel experto. Los resultados experimentales demuestran que ChatGPT-5 alcanza un prominente 61.5% de precisión en las tareas principales, aunque persiste una brecha sustancial en comparación con los expertos financieros; en las tareas en línea, DeepSeek-R1 supera a todos los demás LLMs comerciales. El análisis de errores identifica además las deficiencias específicas de capacidad de los modelos existentes dentro de contextos prácticos de negocio financiero. BizFinBench.v2 trasciende las limitaciones de los benchmarks actuales, logrando una deconstrucción a nivel de negocio de las capacidades financieras de los LLM y proporcionando una base precisa para evaluar la eficacia en el despliegue generalizado de LLM dentro del dominio financiero. Los datos y el código están disponibles en https://github.com/HiThink-Research/BizFinBench.v2.
La estimación de profundidad monocular tiene como objetivo recuperar la información de profundidad de escenas 3D a partir de imágenes 2D. Los trabajos recientes han logrado avances significativos, pero su dependencia de conjuntos de datos a gran escala y decodificadores complejos ha limitado su eficiencia y capacidad de generalización. En este artículo, proponemos un marco de trabajo ligero y centrado en los datos para la estimación de profundidad monocular de tipo zero-shot. En primer lugar, adoptamos DINOv3 como codificador visual para obtener características densas de alta calidad. En segundo lugar, para abordar las desventajas inherentes de la estructura compleja del DPT, diseñamos el Transformer de Profundidad Simple (SDT), un decodificador compacto basado en transformers. En comparación con el DPT, utiliza un proceso de fusión de características y muestreo ascendente de una sola vía para reducir la sobrecarga computacional de la fusión de características multi-escala, logrando una mayor precisión mientras reduce el número de parámetros en aproximadamente un 85%-89%. Además, proponemos una estrategia de filtrado basada en la calidad para eliminar muestras perjudiciales, reduciendo así el tamaño del conjunto de datos mientras se mejora la calidad general del entrenamiento. Experimentos exhaustivos en cinco benchmarks demuestran que nuestro marco supera al DPT en precisión. Este trabajo subraya la importancia de equilibrar el diseño del modelo y la calidad de los datos para lograr una estimación de profundidad zero-shot eficiente y generalizable. Código: https://github.com/AIGeeksGroup/AnyDepth. Sitio web: https://aigeeksgroup.github.io/AnyDepth.
Los modelos de lenguaje extenso (LLM) se han aplicado ampliamente en diversos ámbitos de las finanzas. Dado que sus datos de entrenamiento proceden en gran medida de corpus creados por humanos, los LLM pueden heredar una serie de sesgos humanos. Los sesgos conductuales pueden generar inestabilidad e incertidumbre en la toma de decisiones, especialmente al procesar información financiera. Sin embargo, la investigación existente sobre los sesgos en los LLM se ha centrado principalmente en interrogatorios directos o en entornos simplificados de propósito general, con una consideración limitada de los complejos entornos financieros del mundo real y de las tareas de detección de desinformación financiera multilingüe, de alto riesgo y sensibles al contexto (\mfmd). En este trabajo, proponemos \mfmdscen, un benchmark integral para evaluar los sesgos conductuales de los LLM en \mfmd a través de diversos escenarios económicos. En colaboración con expertos financieros, construimos tres tipos de escenarios financieros complejos: (i) basados en roles y personalidad, (ii) basados en roles y región, y (iii) escenarios basados en roles que incorporan etnicidad y creencias religiosas. Además, desarrollamos un conjunto de datos multilingüe de desinformación financiera que cubre inglés, chino, griego y bengalí. Al integrar estos escenarios con afirmaciones de desinformación, \mfmdscen permite una evaluación sistemática de 22 LLM principales. Nuestros hallazgos revelan que persisten sesgos conductuales pronunciados tanto en modelos comerciales como de código abierto. Este proyecto estará disponible en https://github.com/lzw108/FMD.
Los agentes de búsqueda basados en modelos de lenguaje grande (LLM) han demostrado ser prometedores para abordar problemas intensivos en conocimiento mediante la incorporación de capacidades de recuperación de información. Los trabajos existentes se centran principalmente en optimizar los paradigmas de razonamiento de los agentes de búsqueda, pero la calidad de las consultas de búsqueda intermedias durante el razonamiento sigue siendo ignorada. Como resultado, las consultas generadas suelen ser inexactas, lo que conduce a resultados de recuperación inesperados y, en última instancia, limita la eficacia general de los agentes de búsqueda. Para mitigar este problema, presentamos SmartSearch, un marco basado en dos mecanismos clave: (1) Recompensas de proceso, que proporcionan supervisión granular para la calidad de cada consulta de búsqueda intermedia mediante una Evaluación de Crédito de Doble Nivel. (2) Refinamiento de consultas, que promueve la optimización de la generación de consultas mediante el refinamiento selectivo de consultas de búsqueda de baja calidad y la regeneración de rondas de búsqueda posteriores basadas en estos refinamientos. Para permitir que el agente de búsqueda internalice progresivamente la capacidad de mejorar la calidad de las consultas bajo la guía de las recompensas de proceso, diseñamos un marco de aprendizaje curricular de tres etapas. Este marco guía al agente a través de una progresión desde la imitación, pasando por la alineación, hasta alcanzar la generalización. Los resultados experimentales muestran que SmartSearch supera consistentemente los baselines existentes, y análisis cuantitativos adicionales confirman sus ganancias significativas tanto en eficiencia de búsqueda como en calidad de consultas. El código está disponible en https://github.com/MYVAE/SmartSearch.
Este trabajo presenta Orient Anything V2, un modelo de base mejorado para la comprensión unificada de la orientación y rotación 3D de objetos a partir de imágenes individuales o pareadas. Partiendo de Orient Anything V1, que define la orientación mediante una única cara frontal única, la versión V2 amplía esta capacidad para manejar objetos con diversas simetrías rotacionales y estimar directamente rotaciones relativas. Estas mejoras son posibles gracias a cuatro innovaciones clave: 1) Activos 3D escalables sintetizados por modelos generativos, que garantizan una amplia cobertura de categorías y una distribución equilibrada de los datos; 2) Un sistema de anotación eficiente con el modelo en el bucle, que identifica de forma robusta de 0 a N caras frontales válidas para cada objeto; 3) Una función de pérdida que ajusta distribuciones periódicas consciente de la simetría, capturando todas las orientaciones frontales plausibles y modelando eficazmente la simetría rotacional del objeto; 4) Una arquitectura multifotograma que predice directamente las rotaciones relativas de los objetos. Experimentos exhaustivos demuestran que Orient Anything V2 logra un rendimiento de cero disparos de vanguardia en estimación de orientación, estimación de pose 6DoF y reconocimiento de simetría de objetos en 11 puntos de referencia ampliamente utilizados. El modelo demuestra una fuerte generalización, ampliando significativamente la aplicabilidad de la estimación de orientación en diversas tareas posteriores.
La Mezcla de Expertos (MoE) se ha convertido en un paradigma prominente para escalar Modelos de Lenguaje a Gran Escala (LLMs). El ajuste fino eficiente en parámetros (PEFT), como LoRA, es ampliamente adoptado para adaptar los LLMs de MoE preentrenados a tareas específicas. Sin embargo, los enfoques existentes asignan el mismo rango de LoRA a todos los expertos, pasando por alto la especialización funcional intrínseca dentro de los LLMs de MoE. Esta asignación uniforme genera una desalineación de recursos: los expertos relevantes para la tarea reciben capacidad insuficiente, mientras que los menos relevantes obtienen parámetros redundantes. Proponemos un marco de LoRA de Rango Dinámico llamado DR-LoRA, que incrementa dinámicamente el rango de LoRA de los expertos durante el ajuste fino basándose en las demandas específicas de la tarea. DR-LoRA emplea un mecanismo de Puntuación de Relevancia del Experto que integra la frecuencia de enrutamiento del experto y la importancia del rango de LoRA para cuantificar la demanda de capacidad adicional de cada experto. Los expertos con puntuaciones de relevancia más altas son priorizados para la expansión de rango, permitiendo la formación automática de una distribución de rangos heterogénea adaptada a la tarea objetivo. Experimentos en múltiples benchmarks demuestran que DR-LoRA supera consistentemente a LoRA estándar y a las estrategias de asignación estática bajo el mismo presupuesto de parámetros, logrando un rendimiento superior en la tarea con una utilización de parámetros más eficiente.
Los modelos de lenguaje de gran tamaño (LLM) aumentados con búsqueda destacan en tareas que requieren gran conocimiento al integrar recuperación externa. Sin embargo, frecuentemente realizan búsquedas excesivas (over-searching) —invocando innecesariamente la herramienta de búsqueda incluso cuando no mejora la calidad de la respuesta—, lo que genera ineficiencia computacional y alucinaciones al incorporar contexto irrelevante. En este trabajo, realizamos una evaluación sistemática de la búsqueda excesiva en múltiples dimensiones, incluyendo tipos de consulta, categorías de modelos, condiciones de recuperación y conversaciones multiturno. Nuestros hallazgos muestran que: (i) la búsqueda generalmente mejora la precisión de las respuestas en consultas respondibles, pero perjudica la abstención en las irrespondibles; (ii) la búsqueda excesiva es más pronunciada en modelos de razonamiento complejo y sistemas de investigación profunda, se ve exacerbada por recuperación ruidosa y se acumula en conversaciones multiturno; y (iii) la composición de la evidencia recuperada es crucial, ya que la presencia de evidencia negativa mejora la abstención. Para cuantificar la búsqueda excesiva, introducimos Tokens por Corrección (TPC), una métrica de evaluación que captura la relación rendimiento-costo para LLMs aumentados con búsqueda. Finalmente, investigamos enfoques de mitigación a nivel de consulta y recuperación, y publicamos OverSearchQA para fomentar la investigación continua en LLMs aumentados con búsqueda eficientes.
Los Sistemas Multi-Agente (MAS) se han convertido en un paradigma poderoso para construir aplicaciones inteligentes de alto rendimiento. Dentro de estos sistemas, el enrutador responsable de determinar qué agentes expertos deben manejar una consulta dada juega un papel crucial en el rendimiento general. Las estrategias de enrutamiento existentes generalmente se dividen en dos categorías: enrutamiento por rendimiento, que equilibra la latencia y el costo entre modelos de diferentes tamaños, y enrutamiento por tarea, que asigna consultas a expertos en dominios específicos para mejorar la precisión. En aplicaciones empresariales del mundo real, el enrutamiento por tarea es más adecuado; sin embargo, la mayoría de los enfoques existentes se basan en decisiones estáticas de etiqueta única, lo que introduce dos limitaciones principales: (i) dificultad para integrar perfectamente nuevos agentes a medida que se expanden los dominios comerciales, y (ii) conflictos de enrutamiento causados por capacidades superpuestas de los agentes, lo que finalmente degrada la precisión y la robustez. Para abordar estos desafíos, proponemos TCAndon-Router (TCAR): un enrutador de razonamiento adaptativo para la colaboración multi-agente. A diferencia de los enrutadores tradicionales, TCAR admite la incorporación dinámica de agentes y primero genera una cadena de razonamiento en lenguaje natural antes de predecir un conjunto de agentes candidatos capaces de manejar la consulta. Además, diseñamos una canalización de ejecución colaborativa en la que los agentes seleccionados producen respuestas de forma independiente, que luego son agregadas y refinadas en una única respuesta de alta calidad por un Agente de Refinamiento dedicado. Los experimentos en conjuntos de datos públicos y datos empresariales reales demuestran que TCAR mejora significativamente la precisión del enrutamiento, reduce los conflictos de enrutamiento y se mantiene robusto en escenarios ambiguos. Hemos publicado TCAR en https://huggingface.co/tencent/TCAndon-Router para apoyar futuras investigaciones sobre enrutamiento multi-agente explicable y colaborativo.
Los modelos de lenguaje de gran escala (LLM) se despliegan cada vez más como agentes inteligentes que razonan, planifican e interactúan con su entorno. Para escalar eficazmente a escenarios de largo horizonte, una capacidad clave para dichos agentes es un mecanismo de memoria que pueda retener, organizar y recuperar experiencias pasadas para respaldar la toma de decisiones subsiguiente. Sin embargo, la mayoría de los enfoques existentes organizan y almacenan los recuerdos de manera plana y dependen de técnicas de recuperación simples basadas en similitudes. Incluso cuando se introduce memoria estructurada, los métodos existentes a menudo luchan por capturar explícitamente las relaciones lógicas entre experiencias o unidades de memoria. Además, el acceso a la memoria está en gran medida desvinculado de la estructura construida y aún depende de una recuperación semántica superficial, lo que impide que los agentes razonen lógicamente sobre dependencias de largo horizonte. En este trabajo, proponemos CompassMem, un marco de memoria centrado en eventos inspirado en la Teoría de la Segmentación de Eventos. CompassMem organiza la memoria como un Grafo de Eventos segmentando incrementalmente las experiencias en eventos y vinculándolos mediante relaciones lógicas explícitas. Este grafo sirve como un mapa lógico, permitiendo a los agentes realizar una navegación estructurada y orientada a objetivos sobre la memoria que va más allá de la recuperación superficial, reuniendo progresivamente recuerdos valiosos para apoyar el razonamiento de largo horizonte. Los experimentos en LoCoMo y NarrativeQA demuestran que CompassMem mejora consistentemente tanto el rendimiento de recuperación como el de razonamiento en múltiples modelos base.
A medida que los modelos generativos se vuelven omnipresentes, existe una necesidad crítica de control detallado sobre el proceso de generación. Sin embargo, mientras los métodos de generación controlada, desde el prompting hasta el fine-tuning, proliferan, una pregunta fundamental permanece sin respuesta: ¿son estos modelos verdaderamente controlables en primer lugar? En este trabajo, proporcionamos un marco teórico para responder formalmente a esta pregunta. Enmarcando la interacción humano-modelo como un proceso de control, proponemos un nuevo algoritmo para estimar los conjuntos controlables de los modelos en un entorno de diálogo. Notablemente, ofrecemos garantías formales sobre el error de estimación en función de la complejidad muestral: derivamos límites probablemente aproximadamente correctos para las estimaciones de conjuntos controlables que son libres de distribución, no emplean suposiciones excepto la acotación de la salida, y funcionan para cualquier sistema de control no lineal de caja negra (es decir, cualquier modelo generativo). Demostramos empíricamente el marco teórico en diferentes tareas de control de procesos de diálogo, tanto para modelos de lenguaje como para generación de texto a imagen. Nuestros resultados muestran que la controlabilidad del modelo es sorprendentemente frágil y altamente dependiente de la configuración experimental. Esto subraya la necesidad de un análisis riguroso de la controlabilidad, desplazando el enfoque de simplemente intentar controlar a comprender primero sus límites fundamentales.
La alineación de la inteligencia artificial (IA) abarca tanto el problema normativo de especificar cómo deben actuar los sistemas de IA como el problema técnico de garantizar que estos sistemas cumplan con dichas especificaciones. Hasta la fecha, la alineación de la IA generalmente ha pasado por alto una fuente importante de conocimiento y práctica para abordar estos problemas: el derecho. En este artículo, pretendemos llenar este vacío explorando cómo las normas, principios y métodos jurídicos pueden aprovecharse para abordar los problemas de alineación e informar el diseño de sistemas de IA que operen de manera segura y ética. Este campo emergente —la alineación legal— se centra en tres direcciones de investigación: (1) diseñar sistemas de IA para que cumplan con el contenido de las normas jurídicas desarrolladas mediante instituciones y procesos legítimos, (2) adaptar métodos de la interpretación legal para guiar cómo los sistemas de IA razonan y toman decisiones, y (3) aprovechar conceptos jurídicos como un plan estructural para enfrentar los desafíos de confiabilidad, confianza y cooperación en los sistemas de IA. Estas direcciones de investigación presentan nuevas cuestiones conceptuales, empíricas e institucionales, que incluyen examinar el conjunto específico de leyes que deben seguir sistemas particulares de IA, crear evaluaciones para valorar su cumplimiento legal en entornos del mundo real y desarrollar marcos de gobernanza para apoyar la implementación práctica de la alineación legal. Abordar estas cuestiones requiere experiencia en derecho, informática y otras disciplinas, ofreciendo a estas comunidades la oportunidad de colaborar en el diseño de una IA para el bien común.
Los recientes avances en Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) para el razonamiento de Modelos de Lenguaje a Gran Escala (LLM) se han visto obstaculizados por un desafío persistente: el colapso exploratorio. La homogeneidad semántica de las simulaciones aleatorias a menudo atrapa a los modelos en comportamientos estrechos y sobreoptimizados. Si bien los métodos existentes aprovechan la entropía de la política para fomentar la exploración, enfrentan limitaciones inherentes. La regularización de entropía global es susceptible a la manipulación de recompensas, lo que puede inducir verbosidad sin sentido, mientras que las actualizaciones locales selectivas por token luchan contra el fuerte sesgo inductivo de los modelos preentrenados. Para abordar esto, proponemos la Optimización de Políticas Latentes mediante el Cuello de Botella de Información Iterativo (IIB-LPO), un enfoque novedoso que desplaza la exploración desde la perturbación estadística de distribuciones de tokens hacia la ramificación topológica de trayectorias de razonamiento. IIB-LPO activa ramificaciones latentes en estados de alta entropía para diversificar las rutas de razonamiento y emplea el principio del Cuello de Botella de Información tanto como filtro de trayectorias como mecanismo de autorrecompensa, garantizando una exploración concisa e informativa. Los resultados empíricos en cuatro benchmarks de razonamiento matemático demuestran que IIB-LPO logra un rendimiento de vanguardia, superando a métodos anteriores con márgenes de hasta el 5.3% en precisión y el 7.4% en métricas de diversidad.
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs) los han posicionado como un paradigma prometedor para agentes, surgiendo la planificación a largo plazo y la toma de decisiones como capacidades centrales de propósito general para adaptarse a diversos escenarios y tareas. Los juegos de estrategia en tiempo real (RTS) sirven como un banco de pruebas ideal para evaluar estas dos capacidades, ya que su jugabilidad inherente requiere tanto una planificación estratégica a nivel macro como una adaptación táctica y ejecución de acciones a nivel micro. Los entornos existentes basados en juegos RTS adolecen de demandas computacionales relativamente altas o carecen de soporte para observaciones textuales, lo que ha limitado el uso de estos juegos para la evaluación de LLMs. Motivados por esto, presentamos TowerMind, un nuevo entorno basado en el subgénero de defensa de torres (TD) de los juegos RTS. TowerMind preserva las fortalezas clave de evaluación de los juegos RTS para valorar LLMs, a la vez que presenta bajas demandas computacionales y un espacio de observación multimodal, que incluye representaciones basadas en píxeles, textuales y del estado estructurado del juego. Además, TowerMind permite evaluar las alucinaciones de los modelos y ofrece un alto grado de personalización. Diseñamos cinco niveles de referencia para evaluar varios LLMs ampliamente utilizados bajo diferentes configuraciones de entrada multimodal. Los resultados revelan una clara brecha de rendimiento entre los LLMs y los expertos humanos en las dimensiones de capacidad y alucinación. Los experimentos destacan además limitaciones clave en el comportamiento de los LLMs, como una validación de planificación inadecuada, una falta de multifinalidad en la toma de decisiones y un uso ineficiente de las acciones. También evaluamos dos algoritmos clásicos de aprendizaje por refuerzo: Ape-X DQN y PPO. Al ofrecer un diseño ligero y multimodal, TowerMind complementa el panorama existente de entornos basados en juegos RTS e introduce un nuevo punto de referencia para el campo de los agentes de IA. El código fuente está disponible públicamente en GitHub (https://github.com/tb6147877/TowerMind).
La Evaluación de la Calidad de Imágenes de Rostros (FIQA) es esencial para sistemas de reconocimiento facial confiables. Los enfoques actuales explotan principalmente solo las representaciones de la capa final, mientras que los métodos que no requieren entrenamiento necesitan múltiples pasadas hacia adelante o retropropagación. Proponemos ViTNT-FIQA, un enfoque que no requiere entrenamiento y que mide la estabilidad de la evolución de los *embeddings* de parches a través de los bloques intermedios de los Transformadores de Visión (ViT). Demostramos que las imágenes faciales de alta calidad exhiben trayectorias de refinamiento de características estables a lo largo de los bloques, mientras que las imágenes degradadas muestran transformaciones erráticas. Nuestro método calcula las distancias euclidianas entre los *embeddings* de parches normalizados por L2 de bloques de transformadores consecutivos y los agrega en puntuaciones de calidad a nivel de imagen. Validamos empíricamente esta correlación en un conjunto de datos sintético etiquetado por calidad con niveles de degradación controlados. A diferencia de los enfoques existentes que no requieren entrenamiento, ViTNT-FIQA requiere solo una única pasada hacia adelante, sin retropropagación o modificaciones arquitectónicas. Mediante una evaluación exhaustiva en ocho benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostramos que ViTNT-FIQA logra un rendimiento competitivo con los métodos de vanguardia, manteniendo al mismo tiempo la eficiencia computacional y la aplicabilidad inmediata a cualquier modelo de reconocimiento facial preentrenado basado en ViT.
Proponemos un marco que amortiza el coste del razonamiento en tiempo de inferencia convirtiendo críticas transitorias en directrices recuperables, mediante un sistema de memoria basado en archivos y llamadas a herramientas controladas por agentes. Evaluamos este método en Rubric Feedback Bench, un nuevo conjunto de datos para el aprendizaje basado en rúbricas. Los experimentos demuestran que nuestros LLMs aumentados igualan rápidamente el rendimiento de las canalizaciones de refinamiento en tiempo de prueba, reduciendo drásticamente el coste de inferencia.
La autocompletación multimodal en tiempo real es esencial para asistentes digitales, chatbots, herramientas de diseño y consultas de salud, donde las entradas del usuario dependen de un contexto visual compartido. Presentamos la Autocompletación Multimodal (MAC), una tarea que predice los caracteres siguientes en chats en vivo utilizando texto parcialmente escrito y señales visuales. A diferencia de la autocompletación tradicional basada únicamente en texto (TAC), MAC fundamenta las predicciones en un contexto multimodal para capturar mejor la intención del usuario. Para habilitar esta tarea, adaptamos MMDialog e ImageChat para crear conjuntos de datos de referencia. Evaluamos los principales modelos de visión y lenguaje (VLM) frente a sólidas líneas base textuales, destacando las compensaciones entre precisión y eficiencia. Presentamos Router-Suggest, un marco de enrutador que selecciona dinámicamente entre modelos textuales y VLMs basándose en el contexto del diálogo, junto con una variante ligera para entornos con recursos limitados. Router-Suggest logra una aceleración de 2.3x a 10x sobre el VLM de mejor rendimiento. Un estudio de usuario muestra que los VLMs superan significativamente a los modelos textuales en satisfacción del usuario, destacándose por ahorrar esfuerzo de escritura y mejorar la calidad de las completaciones en conversaciones multiturno. Estos hallazgos subrayan la necesidad del contexto multimodal en las autocompletaciones, conduciendo a asistentes más inteligentes y conscientes del usuario.
África alberga más de un tercio de los idiomas del mundo, pero sigue estando infrarrepresentada en la investigación de IA. Presentamos Afri-MCQA, el primer benchmark de preguntas y respuestas culturales multilingüe que abarca 7.500 pares de preguntas y respuestas en 15 lenguas africanas de 12 países. El benchmark ofrece pares de preguntas y respuestas paralelos inglés-lengua africana a través de modalidades de texto y voz, y fue creado íntegramente por hablantes nativos. La evaluación de modelos de lenguaje grandes (LLMs) en Afri-MCQA muestra que los modelos de pesos abiertos tienen un rendimiento deficiente en las culturas evaluadas, con una precisión cercana a cero en VQA de respuesta abierta cuando se consulta en lengua nativa o por voz. Para evaluar la competencia lingüística, incluimos experimentos de control diseñados para valorar este aspecto específico de forma separada del conocimiento cultural, y observamos brechas significativas de rendimiento entre las lenguas nativas y el inglés, tanto en texto como en voz. Estos hallazgos subrayan la necesidad de enfoques centrados en el habla, preentrenamiento culturalmente fundamentado y transferencia cultural crosslingüe. Para apoyar un desarrollo de IA multimodal más inclusivo en lenguas africanas, publicamos nuestro Afri-MCQA bajo licencia académica o CC BY-NC 4.0 en HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
El condicionamiento de personalidad puede considerarse un previo conductual para los modelos de lenguaje grande (LLM) y a menudo se asume que confiere experiencia y mejora la seguridad de manera monótona. Sin embargo, sus efectos en la toma de decisiones clínicas de alto riesgo permanecen escasamente caracterizados. Evaluamos sistemáticamente el control basado en personalidades en LLM clínicos, examinando cómo los roles profesionales (por ejemplo, médico de Urgencias, enfermero/a) y los estilos de interacción (audaz vs. cauteloso) influyen en el comportamiento entre modelos y tareas médicas. Evaluamos el rendimiento en tareas de triaje clínico y seguridad del paciente utilizando evaluaciones multidimensionales que capturan la precisión de la tarea, la calibración y el comportamiento de riesgo relevante para la seguridad. Encontramos efectos sistemáticos, dependientes del contexto y no monótonos: las personalidades médicas mejoran el rendimiento en tareas de cuidados críticos, produciendo ganancias de hasta ~+20% en precisión y calibración, pero degradan el rendimiento en entornos de atención primaria por márgenes comparables. El estilo de interacción modula la propensión y sensibilidad al riesgo, pero es altamente dependiente del modelo. Si bien las clasificaciones agregadas de jueces-LLM favorecen a las personalidades médicas sobre las no médicas en casos críticos de seguridad, encontramos que los médicos humanos muestran una concordancia moderada en el cumplimiento de seguridad (κ de Cohen promedio = 0.43) pero indican una baja confianza en el 95.9% de sus respuestas sobre la calidad del razonamiento. Nuestro trabajo demuestra que las personalidades funcionan como previos conductuales que introducen compensaciones dependientes del contexto en lugar de garantías de seguridad o experiencia. El código está disponible en https://github.com/rsinghlab/Persona_Paradox.