Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos DuPO, un marco de optimización de preferencias basado en aprendizaje dual que genera retroalimentación sin anotaciones mediante una dualidad generalizada. DuPO aborda dos limitaciones clave: la dependencia de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) en etiquetas costosas y su aplicabilidad restringida a tareas verificables, y la restricción del aprendizaje dual tradicional a pares de tareas estrictamente duales (por ejemplo, traducción y retro-traducción). Específicamente, DuPO descompone la entrada de una tarea principal en componentes conocidos y desconocidos, luego construye su tarea dual para reconstruir la parte desconocida utilizando la salida principal y la información conocida (por ejemplo, revertir soluciones matemáticas para recuperar variables ocultas), ampliando la aplicabilidad a tareas no invertibles. La calidad de esta reconstrucción sirve como recompensa auto-supervisada para optimizar la tarea principal, sinergizando con la capacidad de los LLMs para instanciar ambas tareas mediante un solo modelo. Empíricamente, DuPO logra mejoras sustanciales en diversas tareas: aumenta la calidad promedio de traducción en 2.13 COMET en 756 direcciones, incrementa la precisión de razonamiento matemático en un promedio de 6.4 puntos en tres benchmarks desafiantes, y mejora el rendimiento en 9.3 puntos como un reranker en tiempo de inferencia (intercambiando computación por precisión). Estos resultados posicionan a DuPO como un paradigma escalable, general y libre de anotaciones para la optimización de LLMs.
La predicción del futuro es una tarea compleja para los agentes de LLM, que requiere un alto nivel de pensamiento analítico, recopilación de información, comprensión contextual y toma de decisiones bajo incertidumbre. Los agentes no solo deben recopilar e interpretar grandes cantidades de información dinámica, sino también integrar diversas fuentes de datos, sopesar incertidumbres y adaptar las predicciones en función de tendencias emergentes, tal como lo hacen expertos humanos en campos como la política, la economía y las finanzas. A pesar de su importancia, no existe un punto de referencia a gran escala para evaluar a los agentes en la predicción del futuro, en gran parte debido a los desafíos en el manejo de actualizaciones en tiempo real y la obtención de respuestas oportunas y precisas. Para abordar esto, presentamos FutureX, un punto de referencia de evaluación dinámico y en vivo diseñado específicamente para agentes de LLM que realizan tareas de predicción del futuro. FutureX es el punto de referencia en vivo más grande y diverso para la predicción del futuro, que admite actualizaciones diarias en tiempo real y elimina la contaminación de datos mediante una canalización automatizada para la recopilación de preguntas y respuestas. Evaluamos 25 modelos de LLM/agentes, incluidos aquellos con capacidades de razonamiento, búsqueda e integración de herramientas externas, como el agente de investigación profunda de código abierto y los modelos de investigación profunda de código cerrado. Esta evaluación integral analiza el razonamiento adaptativo y el rendimiento de los agentes en entornos dinámicos. Además, proporcionamos análisis detallados de los modos de falla y los puntos débiles en el rendimiento de los agentes en tareas orientadas al futuro, incluyendo la vulnerabilidad a páginas web falsas y la validez temporal. Nuestro objetivo es establecer un estándar de evaluación dinámico y libre de contaminación que impulse el desarrollo de agentes de LLM capaces de desempeñarse al nivel de analistas humanos profesionales en razonamiento complejo y pensamiento predictivo.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mostrado potencial para aplicaciones financieras, aunque su idoneidad para este dominio de alto riesgo sigue siendo en gran medida no probada debido a las deficiencias en los puntos de referencia existentes. Los puntos de referencia actuales se basan únicamente en evaluaciones a nivel de puntuación, resumiendo el rendimiento con una sola puntuación que oscurece la comprensión matizada de lo que los modelos realmente saben y sus limitaciones precisas. Además, dependen de conjuntos de datos que cubren solo un subconjunto estrecho de conceptos financieros, pasando por alto otros elementos esenciales para aplicaciones del mundo real. Para abordar estas brechas, presentamos FinCDM, el primer marco de evaluación de diagnóstico cognitivo diseñado específicamente para LLMs financieros, que permite evaluar los LLMs a nivel de conocimiento-habilidad, identificando qué habilidades y conocimientos financieros poseen o carecen en función de sus patrones de respuesta en tareas etiquetadas por habilidad, en lugar de un único número agregado. Construimos CPA-QKA, el primer conjunto de datos de evaluación financiera cognitivamente informado derivado del examen de Contador Público Certificado (CPA, por sus siglas en inglés), con una cobertura integral de habilidades contables y financieras del mundo real. Está rigurosamente anotado por expertos en el dominio, quienes redactan, validan y anotan preguntas con un alto acuerdo entre anotadores y etiquetas de conocimiento detalladas. Nuestros extensos experimentos en 30 LLMs propietarios, de código abierto y específicos del dominio muestran que FinCDM revela brechas de conocimiento ocultas, identifica áreas poco evaluadas, como el razonamiento fiscal y regulatorio, pasadas por alto por los puntos de referencia tradicionales, y descubre agrupaciones conductuales entre los modelos. FinCDM introduce un nuevo paradigma para la evaluación de LLMs financieros al permitir un diagnóstico interpretable y consciente de las habilidades que respalda un desarrollo de modelos más confiable y dirigido. Todos los conjuntos de datos y scripts de evaluación se publicarán públicamente para apoyar investigaciones futuras.
La reconstrucción de objetos 3D en programas editables es fundamental para aplicaciones como la ingeniería inversa y la edición de formas. Sin embargo, los métodos existentes a menudo dependen de lenguajes específicos de dominio (DSL) limitados y conjuntos de datos de pequeña escala, lo que restringe su capacidad para modelar geometrías y estructuras complejas. Para abordar estos desafíos, presentamos MeshCoder, un marco novedoso que reconstruye objetos 3D complejos a partir de nubes de puntos en scripts editables de Python para Blender. Desarrollamos un conjunto completo de APIs expresivas en Python para Blender, capaces de sintetizar geometrías intrincadas. Aprovechando estas APIs, construimos un conjunto de datos a gran escala de objetos emparejados con su código, donde el código de cada objeto se descompone en partes semánticas distintas. Posteriormente, entrenamos un modelo de lenguaje multimodal de gran escala (LLM) que traduce nubes de puntos 3D en scripts ejecutables de Python para Blender. Nuestro enfoque no solo logra un rendimiento superior en tareas de reconstrucción de forma a código, sino que también facilita la edición intuitiva de geometrías y topologías mediante modificaciones convenientes del código. Además, nuestra representación basada en código mejora las capacidades de razonamiento de los LLM en tareas de comprensión de formas 3D. En conjunto, estas contribuciones establecen a MeshCoder como una solución poderosa y flexible para la reconstrucción y comprensión programática de formas 3D.
Presentamos Tinker, un marco versátil para la edición de alta fidelidad en 3D que opera tanto en regímenes de una sola toma como de pocas tomas, sin necesidad de ajustes específicos por escena. A diferencia de técnicas anteriores que requieren una optimización extensa por escena para garantizar la consistencia multivista o para producir docenas de vistas editadas consistentes, Tinker ofrece ediciones robustas y consistentes en múltiples vistas a partir de tan solo una o dos imágenes. Esta capacidad surge de la reutilización de modelos de difusión preentrenados, lo que desbloquea su conciencia latente en 3D. Para impulsar la investigación en este ámbito, hemos creado el primer conjunto de datos y canalización de datos a gran escala para la edición multivista, abarcando diversas escenas y estilos. Basándonos en este conjunto de datos, desarrollamos nuestro marco capaz de generar vistas editadas consistentes en múltiples vistas sin entrenamiento específico por escena, el cual consta de dos componentes novedosos: (1) Editor multivista referencial: Permite ediciones precisas y guiadas por referencias que permanecen coherentes en todos los puntos de vista. (2) Sintetizador de cualquier vista a video: Aprovecha los antecedentes espacio-temporales de la difusión de video para realizar la completación de escenas de alta calidad y la generación de nuevas vistas incluso a partir de entradas escasas. A través de experimentos exhaustivos, Tinker reduce significativamente la barrera para la creación de contenido 3D generalizable, logrando un rendimiento de vanguardia en tareas de edición, síntesis de nuevas vistas y mejora de renderizado. Creemos que Tinker representa un paso clave hacia la edición 3D verdaderamente escalable y de cero tomas. Página del proyecto: https://aim-uofa.github.io/Tinker.
El Protocolo de Contexto del Modelo (MCP) ha surgido como un estándar transformador para conectar modelos de lenguaje grandes (LLMs) con fuentes de datos externas y herramientas, ganando rápidamente adopción entre los principales proveedores de IA y plataformas de desarrollo. Sin embargo, los puntos de referencia existentes son demasiado simplistas y no logran capturar los desafíos de aplicaciones reales, como el razonamiento a largo plazo y espacios de herramientas grandes y desconocidos. Para abordar esta brecha crítica, presentamos MCP-Universe, el primer punto de referencia integral diseñado específicamente para evaluar LLMs en tareas realistas y complejas mediante la interacción con servidores MCP del mundo real. Nuestro punto de referencia abarca 6 dominios principales que cubren 11 servidores MCP diferentes: Navegación de Ubicación, Gestión de Repositorios, Análisis Financiero, Diseño 3D, Automatización de Navegadores y Búsqueda Web. Para garantizar una evaluación rigurosa, implementamos evaluadores basados en ejecución, incluyendo evaluadores de formato para el cumplimiento del formato del agente, evaluadores estáticos para la coincidencia de contenido invariante en el tiempo y evaluadores dinámicos que recuperan automáticamente la verdad fundamental en tiempo real para tareas sensibles al tiempo. A través de una evaluación extensa de los principales LLMs, encontramos que incluso modelos de última generación como GPT-5 (43.72%), Grok-4 (33.33%) y Claude-4.0-Sonnet (29.44%) muestran limitaciones significativas en su rendimiento. Además, nuestro punto de referencia plantea un desafío significativo de contexto largo para los agentes LLM, ya que el número de tokens de entrada aumenta rápidamente con el número de pasos de interacción. Además, introduce un desafío de herramientas desconocidas, ya que los agentes LLM a menudo carecen de familiaridad con el uso preciso de los servidores MCP. Notablemente, agentes de nivel empresarial como Cursor no pueden lograr un mejor rendimiento que los marcos ReAct estándar. Más allá de la evaluación, liberamos nuestro marco de evaluación extensible con soporte de interfaz de usuario, permitiendo que investigadores y profesionales integren sin problemas nuevos agentes y servidores MCP, fomentando la innovación en el ecosistema MCP en rápida evolución.
Presentamos Nemotron-Nano-9B-v2, un modelo de lenguaje híbrido Mamba-Transformer diseñado para aumentar el rendimiento en tareas de razonamiento mientras alcanza una precisión de vanguardia en comparación con modelos de tamaño similar. Nemotron-Nano-9B-v2 se basa en la arquitectura Nemotron-H, en la que la mayoría de las capas de autoatención de la arquitectura Transformer común se reemplazan con capas Mamba-2, logrando una velocidad de inferencia mejorada al generar las largas trazas de pensamiento necesarias para el razonamiento. Creamos Nemotron-Nano-9B-v2 preentrenando primero un modelo de 12 mil millones de parámetros (Nemotron-Nano-12B-v2-Base) en 20 billones de tokens utilizando una receta de entrenamiento FP8. Después de alinear Nemotron-Nano-12B-v2-Base, empleamos la estrategia Minitron para comprimir y destilar el modelo con el objetivo de permitir la inferencia en hasta 128k tokens en una sola GPU NVIDIA A10G (22GiB de memoria, precisión bfloat16). En comparación con modelos existentes de tamaño similar (por ejemplo, Qwen3-8B), demostramos que Nemotron-Nano-9B-v2 alcanza una precisión igual o mejor en benchmarks de razonamiento, logrando hasta 6 veces mayor rendimiento de inferencia en configuraciones de razonamiento como 8k tokens de entrada y 16k tokens de salida. Estamos liberando los checkpoints de Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base y Nemotron-Nano-9B-v2-Base, junto con la mayoría de nuestros conjuntos de datos de preentrenamiento y postentrenamiento, en Hugging Face.
La inteligencia artificial (IA) está transformando el descubrimiento científico, evolucionando desde herramientas computacionales especializadas hasta convertirse en socios de investigación autónomos. Posicionamos la Ciencia Agéntica como una etapa pivotal dentro del paradigma más amplio de IA para la Ciencia, donde los sistemas de IA avanzan desde la asistencia parcial hacia la agencia científica completa. Habilitada por modelos de lenguaje de gran escala (LLMs), sistemas multimodales y plataformas de investigación integradas, la IA agéntica demuestra capacidades en la generación de hipótesis, diseño experimental, ejecución, análisis y refinamiento iterativo, comportamientos que alguna vez se consideraron exclusivamente humanos. Este estudio ofrece una revisión orientada por dominio del descubrimiento científico autónomo en ciencias de la vida, química, ciencia de materiales y física. Unificamos tres perspectivas previamente fragmentadas —orientadas al proceso, a la autonomía y al mecanismo— a través de un marco integral que conecta capacidades fundamentales, procesos centrales y realizaciones específicas de dominio. Basándonos en este marco, (i) trazamos la evolución de la IA para la Ciencia, (ii) identificamos cinco capacidades centrales que sustentan la agencia científica, (iii) modelamos el descubrimiento como un flujo de trabajo dinámico de cuatro etapas, (iv) revisamos aplicaciones en los dominios mencionados y (v) sintetizamos los desafíos clave y las oportunidades futuras. Este trabajo establece una síntesis orientada por dominio del descubrimiento científico autónomo y posiciona la Ciencia Agéntica como un paradigma estructurado para avanzar en la investigación impulsada por IA.
Los recientes avances en los modelos de lenguaje de difusión a gran escala (dLLMs, por sus siglas en inglés) han introducido una alternativa prometedora a los modelos de lenguaje autoregresivos (AR) para tareas de generación de lenguaje natural, aprovechando estrategias de atención completa y decodificación basada en eliminación de ruido. Sin embargo, el despliegue de estos modelos en dispositivos de borde sigue siendo un desafío debido a su enorme escala de parámetros y altas demandas de recursos. Si bien la cuantización posterior al entrenamiento (PTQ, por sus siglas en inglés) ha surgido como una técnica ampliamente adoptada para comprimir modelos AR, su aplicabilidad a los dLLMs sigue siendo en gran medida inexplorada. En este trabajo, presentamos el primer estudio sistemático sobre la cuantización de modelos de lenguaje basados en difusión. Comenzamos identificando la presencia de valores atípicos en las activaciones, caracterizados por valores de activación anormalmente grandes que dominan el rango dinámico. Estos valores atípicos representan un desafío clave para la cuantización de bajo bit, ya que dificultan la preservación de la precisión para la mayoría de los valores. Más importante aún, implementamos métodos de PTQ de vanguardia y realizamos una evaluación exhaustiva en múltiples tipos de tareas y variantes de modelos. Nuestro análisis se estructura en torno a cuatro dimensiones clave: ancho de bit, método de cuantización, categoría de tarea y tipo de modelo. A través de esta evaluación multiperspectiva, ofrecemos ideas prácticas sobre el comportamiento de cuantización de los dLLMs bajo diferentes configuraciones. Esperamos que nuestros hallazgos proporcionen una base para futuras investigaciones en el despliegue eficiente de dLLMs. Todos los códigos y configuraciones experimentales se liberarán para apoyar a la comunidad.
Presentamos RynnEC, un modelo de lenguaje multimodal de video diseñado para la cognición corporeizada. Construido sobre un modelo base de visión-lenguaje de propósito general, RynnEC incorpora un codificador de regiones y un decodificador de máscaras, permitiendo una interacción flexible a nivel de región en videos. A pesar de su arquitectura compacta, RynnEC logra un rendimiento de vanguardia en la comprensión de propiedades de objetos, segmentación de objetos y razonamiento espacial. Conceptualemente, ofrece un paradigma de video centrado en regiones para el cerebro de agentes corporeizados, proporcionando una percepción detallada del mundo físico y permitiendo interacciones más precisas. Para mitigar la escasez de conjuntos de datos 3D anotados, proponemos un pipeline basado en video egocéntrico para generar datos de cognición corporeizada. Además, presentamos RynnEC-Bench, un punto de referencia centrado en regiones para evaluar capacidades cognitivas corporeizadas. Anticipamos que RynnEC impulsará el desarrollo de núcleos cognitivos de propósito general para agentes corporeizados y facilitará la generalización en diversas tareas corporeizadas. El código, puntos de control del modelo y el punto de referencia están disponibles en: https://github.com/alibaba-damo-academy/RynnEC
Los sistemas de inteligencia artificial están transformando el descubrimiento científico al acelerar tareas específicas de investigación, desde la predicción de estructuras proteicas hasta el diseño de materiales, aunque siguen limitados a dominios estrechos que requieren una supervisión humana considerable. El crecimiento exponencial de la literatura científica y la creciente especialización en dominios restringen la capacidad de los investigadores para sintetizar conocimientos entre disciplinas y desarrollar teorías unificadoras, lo que motiva la exploración de sistemas de IA más generalistas para la ciencia. Aquí demostramos que un sistema de IA agéntico y agnóstico al dominio puede navegar de manera independiente el flujo de trabajo científico, desde la generación de hipótesis hasta la recopilación de datos y la preparación de manuscritos. El sistema diseñó y ejecutó de forma autónoma tres estudios psicológicos sobre la memoria de trabajo visual, la rotación mental y la viveza de las imágenes, llevó a cabo una nueva recopilación de datos en línea con 288 participantes, desarrolló pipelines de análisis mediante sesiones de codificación continuas de más de 8 horas y produjo manuscritos completos. Los resultados demuestran la capacidad de los pipelines de descubrimiento científico basados en IA para llevar a cabo investigaciones no triviales con razonamiento teórico y rigor metodológico comparables a los de investigadores experimentados, aunque con limitaciones en la sutileza conceptual y la interpretación teórica. Este es un paso hacia una IA encarnada que pueda probar hipótesis mediante experimentos en el mundo real, acelerando el descubrimiento al explorar de manera autónoma regiones del espacio científico que las limitaciones cognitivas y de recursos humanos podrían dejar sin explorar. Esto plantea preguntas importantes sobre la naturaleza del entendimiento científico y la atribución del crédito científico.
La complejidad cuadrática de la auto-atención limita su aplicabilidad y escalabilidad en mallas grandes no estructuradas. Presentamos Fast Low-rank Attention Routing Engine (FLARE), un mecanismo de auto-atención de complejidad lineal que dirige la atención a través de secuencias latentes de longitud fija. Cada cabeza de atención realiza comunicación global entre N tokens proyectando la secuencia de entrada en una secuencia latente de longitud fija de M ll N tokens utilizando tokens de consulta aprendibles. Al dirigir la atención a través de una secuencia de cuello de botella, FLARE aprende una forma de atención de bajo rango que puede aplicarse con un costo de O(NM). FLARE no solo escala a tamaños de problemas sin precedentes, sino que también ofrece una precisión superior en comparación con los sustitutos de EDP neuronales más avanzados en diversos puntos de referencia. También publicamos un nuevo conjunto de datos de fabricación aditiva para fomentar más investigaciones. Nuestro código está disponible en https://github.com/vpuri3/FLARE.py.
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) y el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) son dos paradigmas destacados de posentrenamiento para refinar las capacidades y alinear el comportamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Los enfoques existentes que integran SFT y RL a menudo enfrentan el riesgo de perturbar los patrones establecidos del modelo y provocar un sobreajuste a los datos expertos. Para abordar esto, presentamos una investigación novedosa sobre la visión unificada de SFT y RL a través de una perspectiva fuera de política (off-policy) versus dentro de política (on-policy). Proponemos CHORD, un marco para la Armonización Controlable del Aprendizaje por Refuerzo dentro y fuera de Política mediante Ponderación Dinámica, que replantea el SFT no como una etapa separada, sino como un objetivo auxiliar dinámicamente ponderado dentro del proceso de RL dentro de política. Basándonos en un análisis de la influencia de los datos expertos fuera de política tanto a nivel holístico como granular, incorporamos un mecanismo de control dual en CHORD. Específicamente, el marco primero emplea un coeficiente global para guiar holísticamente la transición de la imitación fuera de política a la exploración dentro de política, y luego aplica una función de ponderación por token que permite un aprendizaje granular a partir de tokens expertos, lo que preserva la exploración dentro de política y mitiga la perturbación de los datos fuera de política. Realizamos extensos experimentos en puntos de referencia ampliamente utilizados, proporcionando evidencia empírica de que CHORD logra un proceso de aprendizaje estable y eficiente. Al armonizar efectivamente los datos expertos fuera de política con la exploración dentro de política, CHORD demuestra mejoras significativas sobre los enfoques de referencia. Publicamos la implementación en https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord para inspirar futuras investigaciones.
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) demuestran capacidades notables en tareas multimodales en inglés, pero su rendimiento en lenguajes de bajos recursos con contenido educativo genuinamente multimodal sigue siendo en gran medida inexplorado. En este trabajo, evaluamos cómo se desempeñan los VLMs en evaluaciones educativas vietnamitas, investigando si los VLMs entrenados predominantemente con datos en inglés pueden manejar razonamientos multimodales multilingües en el mundo real. Nuestro trabajo presenta la primera evaluación integral de las capacidades de los VLMs en exámenes multimodales vietnamitas mediante la propuesta de ViExam, un punto de referencia que contiene 2,548 preguntas multimodales. Encontramos que los VLMs de última generación alcanzan solo un 57.74% de precisión, mientras que los modelos de código abierto logran un 27.70% de precisión promedio en 7 dominios académicos, incluyendo Matemáticas, Física, Química, Biología, Geografía, Examen de Conducción y Prueba de CI. La mayoría de los VLMs tienen un rendimiento inferior al de los examinadores humanos promedio (66.54%), con solo el VLM de pensamiento o3 (74.07%) superando el rendimiento humano promedio, aunque aún quedando muy por debajo del mejor rendimiento humano (99.60%). El uso de instrucciones en inglés mientras se mantiene el contenido en vietnamita no mejora el rendimiento, disminuyendo la precisión en 1 punto porcentual para los VLMs de última generación. La colaboración con humanos en el ciclo puede mejorar parcialmente el rendimiento de los VLMs en 5 puntos porcentuales. El código y los datos están disponibles en: https://vi-exam.github.io.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en tareas de razonamiento mediante métodos como el razonamiento en cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, a menudo presentan limitaciones en tareas que requieren cálculos precisos. El Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) ha surgido como una solución al incorporar herramientas externas en el proceso de razonamiento. No obstante, la generalización del TIR para mejorar la capacidad de razonamiento de los LLMs aún no está clara. Además, queda por estudiar si el TIR ha mejorado el comportamiento de razonamiento del modelo y ha ayudado al modelo a pensar. Presentamos ReasonZoo, un benchmark integral que abarca nueve categorías diversas de razonamiento, para evaluar la efectividad del TIR en varios dominios. Además, proponemos dos métricas novedosas, Costo Consciente del Rendimiento (PAC, por sus siglas en inglés) y Área Bajo la Curva de Rendimiento-Costo (AUC-PCC, por sus siglas en inglés), para evaluar la eficiencia del razonamiento. Nuestra evaluación empírica demuestra que los modelos habilitados con TIR superan consistentemente a sus contrapartes sin TIR tanto en tareas matemáticas como no matemáticas. Además, el TIR mejora la eficiencia del razonamiento, como lo evidencian las mejoras en PAC y AUC-PCC, lo que indica una reducción del sobrepensamiento y un razonamiento más fluido. Estos hallazgos subrayan los beneficios generales del TIR en diversos dominios y su potencial para avanzar las capacidades de los LLMs en tareas de razonamiento complejo.
La variación de escala es un desafío fundamental en visión por computadora. Los objetos de la misma clase pueden tener diferentes tamaños, y su tamaño percibido se ve aún más afectado por la distancia a la cámara. Estas variaciones son locales a los objetos, es decir, diferentes tamaños de objetos pueden cambiar de manera distinta dentro de la misma imagen. Para manejar eficazmente las variaciones de escala, presentamos un canonizador de equilibrio profundo (DEC, por sus siglas en inglés) para mejorar la equivariancia de escala local de un modelo. DEC puede incorporarse fácilmente en arquitecturas de red existentes y puede adaptarse a un modelo preentrenado. Cabe destacar que demostramos que, en el competitivo benchmark de ImageNet, DEC mejora tanto el rendimiento del modelo como la consistencia de escala local en cuatro redes profundas preentrenadas populares, como ViT, DeiT, Swin y BEiT. Nuestro código está disponible en https://github.com/ashiq24/local-scale-equivariance.
Este artículo presenta un enfoque novedoso para calcular la distancia de Levenshtein (edición) dentro del marco de la Cifra Totalmente Homomórfica (FHE, por sus siglas en inglés), centrándose específicamente en esquemas de tercera generación como TFHE. Los cálculos de distancia de edición son esenciales en aplicaciones de finanzas y genómica, como el alineamiento de secuencias de ADN. Introducimos un algoritmo optimizado que reduce significativamente el costo de los cálculos de distancia de edición, denominado Leuvenshtein. Este algoritmo reduce específicamente el número de arranques programables (PBS, por sus siglas en inglés) necesarios por celda del cálculo, disminuyéndolo de aproximadamente 94 operaciones —requeridas por el algoritmo convencional de Wagner-Fisher— a solo 1. Además, proponemos un método eficiente para realizar verificaciones de igualdad en caracteres, reduciendo las comparaciones de caracteres ASCII a solo 2 operaciones PBS. Finalmente, exploramos el potencial para mejoras adicionales en el rendimiento mediante la utilización de preprocesamiento cuando una de las cadenas de entrada no está cifrada. Nuestro algoritmo Leuvenshtein logra un rendimiento hasta 278 veces más rápido en comparación con la mejor implementación disponible de TFHE y hasta 39 veces más rápido que una implementación optimizada del algoritmo de Wagner-Fisher. Además, cuando es posible realizar preprocesamiento offline debido a la presencia de una entrada no cifrada en el lado del servidor, se puede lograr una aceleración adicional de 3 veces.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) reforzados con razonamiento han demostrado capacidades notables en tareas de razonamiento complejo. Sin embargo, el mecanismo subyacente a su utilización de diferentes habilidades de razonamiento humano sigue siendo poco investigado, especialmente en el caso del razonamiento de sentido común multilingüe que involucra conocimientos cotidianos en diferentes idiomas y culturas. Para abordar esta brecha, proponemos un punto de referencia multilingüe y escalable para el razonamiento de sentido común basado en habilidades (mSCoRe). Nuestro punto de referencia incorpora tres componentes clave diseñados para evaluar sistemáticamente las capacidades de razonamiento de los LLMs, incluyendo: (1) una taxonomía novedosa de habilidades de razonamiento que permite un análisis detallado de los procesos de razonamiento de los modelos, (2) una robusta pipeline de síntesis de datos específicamente adaptada para la evaluación del razonamiento de sentido común, y (3) un marco de escalado de complejidad que permite que la dificultad de las tareas se ajuste dinámicamente junto con las futuras mejoras en las capacidades de los LLMs. Experimentos extensos en ocho LLMs de última generación de diversos tamaños y enfoques de entrenamiento demuestran que mSCoRe sigue siendo significativamente desafiante para los modelos actuales, particularmente en niveles de complejidad más altos. Nuestros resultados revelan las limitaciones de estos modelos reforzados con razonamiento cuando se enfrentan a matices de sentido común general y cultural multilingüe. Además, proporcionamos un análisis detallado de los procesos de razonamiento de los modelos, sugiriendo direcciones futuras para mejorar las capacidades de razonamiento de sentido común multilingüe.
El sistema de recomendación multimodal se centra en utilizar información modal rica (es decir, imágenes y descripciones textuales) de los elementos para mejorar el rendimiento de las recomendaciones. Los métodos actuales han logrado un éxito notable gracias a la potente capacidad de modelado estructural de las redes neuronales de grafos. Sin embargo, estos métodos a menudo se ven obstaculizados por la escasez de datos en escenarios del mundo real. Aunque se emplean el aprendizaje contrastivo y la homografía (es decir, grafos homogéneos) para abordar el desafío de la escasez de datos, los métodos existentes aún presentan dos limitaciones principales: 1) Los contrastes simples de características multimodales no logran producir representaciones efectivas, lo que genera características compartidas ruidosas y la pérdida de información valiosa en las características únicas de cada modalidad; 2) La falta de exploración de las relaciones homográficas entre los intereses del usuario y la co-ocurrencia de elementos resulta en una minería incompleta de la interacción usuario-elemento. Para abordar estas limitaciones, proponemos un marco novedoso para el refinamiento del aprendizaje contrastivo multimodal y las relaciones de homografía (REARM). Específicamente, complementamos el aprendizaje contrastivo multimodal mediante el empleo de estrategias de meta-red y restricciones ortogonales, que filtran el ruido en las características compartidas y retienen la información relevante para las recomendaciones en las características únicas de cada modalidad. Para explotar eficazmente las relaciones homogéneas, integramos un nuevo grafo de intereses del usuario y un grafo de co-ocurrencia de elementos con los grafos existentes de co-ocurrencia de usuarios y semántica de elementos para el aprendizaje de grafos. Los extensos experimentos en tres conjuntos de datos del mundo real demuestran la superioridad de REARM frente a varios métodos de vanguardia. Nuestra visualización muestra además una mejora lograda por REARM en la distinción entre características compartidas y únicas de cada modalidad. El código está disponible {aquí}.