Artículos de investigación en IA seleccionados diariamente con traducciones
El código ha surgido como un medio preciso y ejecutable para el razonamiento y la acción en la era de los agentes. Sin embargo, el progreso se ha centrado principalmente en tareas centradas en el lenguaje, como la síntesis y depuración de programas, dejando la codificación centrada en lo visual poco explorada. Inspirados en cómo los humanos razonan sobre bocetos, proponemos el código SVG como una representación visual compacta, interpretable y ejecutable. Presentamos VCode, un benchmark que replantea la comprensión multimodal como generación de código: dada una imagen, un modelo debe producir SVG que preserve el significado simbólico para un razonamiento posterior. VCode abarca tres dominios: sentido común general (MM-Vet), disciplinas profesionales (MMMU) y percepción centrada en lo visual (CV-Bench). Para evaluar la fidelidad simbólica, proponemos CodeVQA, un novedoso protocolo de evaluación en el que un modelo de política responde preguntas sobre SVG renderizados; las respuestas correctas indican una preservación simbólica fiel. Empíricamente, los modelos de lenguaje visual (VLM) de vanguardia tienen dificultades para generar SVG fieles, revelando una brecha persistente entre la codificación centrada en el lenguaje y la centrada en lo visual. Para cerrar esta brecha, presentamos VCoder, un marco agéntico que aumenta los VLM en dos ejes: (i) Pensar con Revisión, que analiza iterativamente las discrepancias y refina el código SVG; y (ii) Actuar con Herramientas Visuales, donde detectores y analizadores proporcionan pistas estructuradas como objetos, formas y texto más allá de la capacidad intrínseca del modelo. En todos los benchmarks, los VLM de vanguardia con fuertes capacidades de razonamiento obtienen buenas puntuaciones generales, pero siguen siendo limitados en conocimiento profesional y razonamiento 3D. VCoder ofrece una ganancia general de 12.3 puntos sobre el mejor modelo, Claude-4-Opus. Estudios humanos muestran que tanto humanos como VLM obtienen peores resultados en SVG renderizados; sin embargo, su consistencia revela la promesa de la representación visual simbólica. El benchmark y el código están disponibles en https://github.com/CSU-JPG/VCode.
El creciente éxito de los modelos Visión-Lenguaje-Acción (VLA) surge de la premisa de que los modelos de lenguaje visual (VLM) preentrenados pueden dotar a los agentes de conocimiento del mundo transferible y de una base de visión-lenguaje (VL), sentando las bases para modelos de acción con una generalización más amplia. Sin embargo, cuando estos VLM se adaptan a la modalidad de acción, sigue sin estar claro hasta qué punto se conservan sus representaciones y conocimientos VL originales. En este trabajo, realizamos un estudio sistemático de la retención de representaciones durante el ajuste fino de modelos VLA, demostrando que un ajuste fino de la acción ingenuo conduce a la degradación de las representaciones visuales. Para caracterizar y medir estos efectos, examinamos las representaciones ocultas de los VLA y analizamos los mapas de atención; además, diseñamos un conjunto de tareas y métodos específicos que contrastan los modelos VLA con sus VLM equivalentes, aislando los cambios en las capacidades VL inducidos por el ajuste fino de la acción. Evaluamos además una gama de estrategias para alinear las representaciones visuales e introducimos un método simple pero efectivo que mitiga la degradación y produce una mejor generalización a escenarios fuera de distribución (OOD). En conjunto, nuestro análisis clarifica la compensación entre el ajuste fino de la acción y la degradación de las representaciones VL y destaca enfoques prácticos para recuperar las capacidades VL heredadas. El código está disponible públicamente: https://blind-vla-paper.github.io
Proponemos MIRA, un nuevo benchmark diseñado para evaluar modelos en escenarios donde la generación de imágenes visuales intermedias es esencial para un razonamiento exitoso. A diferencia de los métodos CoT tradicionales que se basan únicamente en texto, las tareas en MIRA requieren que los modelos generen y utilicen imágenes intermedias —como bocetos, diagramas estructurales o dibujos de trayectorias— para guiar su proceso de razonamiento. Esta configuración refleja fielmente cómo los humanos resuelven problemas complejos mediante el "dibujar para pensar". Para abordar esto, MIRA se centra en tareas intrínsecamente desafiantes que implican estructuras complejas, relaciones espaciales o pasos de razonamiento difíciles de expresar únicamente mediante el lenguaje. Para garantizar que nuestros datos de evaluación sean de alta calidad, incluimos 546 problemas multimodales, anotados con imágenes visuales intermedias y respuestas finales. También proponemos un protocolo de evaluación unificado para MIRA que abarca tres niveles de entrada de evaluación: entrada directa con solo imagen y pregunta, entrada CoT solo de texto con imagen y sugerencias de pensamiento, y entrada Visual-CoT con tanto pistas de imagen anotadas como sugerencias de pensamiento textual. Para explorar el límite superior de la capacidad de los modelos en nuestro benchmark, también reportamos las precisiones pass@k y de votación mayoritaria bajo diferentes configuraciones de k. Los resultados experimentales muestran que los modelos lingüísticos grandes multimodales existentes, incluidos los modelos privados más potentes y los modelos de código abierto más sólidos, tienen un rendimiento deficiente cuando dependen únicamente de indicaciones textuales. Sin embargo, cuando se proporcionan pistas visuales intermedias, el rendimiento del modelo mejora consistentemente, produciendo una ganancia relativa promedio del 33.7% en todos los modelos y tareas. También exploramos el límite superior expandiendo el espacio de búsqueda y diseñando indicaciones textuales alineadas con Visual-CoT, pero ambas estrategias produjeron solo mejoras limitadas en comparación con nuestra configuración Visual-CoT. Estos resultados subrayan el papel crítico de la información visual imaginada para permitir un razonamiento exitoso en MIRA.
Presentamos Step-Audio-EditX, el primer modelo de audio de código abierto basado en LLM que sobresale en la edición de audio expresiva e iterativa, abarcando emoción, estilo de habla y rasgos paralingüísticos, junto con sólidas capacidades de conversión de texto a voz (TTS) en modo zero-shot. Nuestra innovación principal reside en el aprovechamiento exclusivo de datos sintéticos de gran margen, lo que elimina la necesidad de priores basados en *embeddings* o módulos auxiliares. Este enfoque de aprendizaje de gran margen permite tanto el control iterativo como una alta expresividad entre diferentes voces, y representa un cambio fundamental con respecto al enfoque convencional centrado en el desentrelazado a nivel de representación. Los resultados de la evaluación demuestran que Step-Audio-EditX supera tanto a MiniMax-2.6-hd como a Doubao-Seed-TTS-2.0 en tareas de edición de emociones y otras tareas de control de grano fino.
Los modelos lingüísticos multimodales de gran escala (MLLMs) deben resolver conflictos cuando diferentes modalidades proporcionan información contradictoria, un proceso que denominamos seguimiento de modalidad. Trabajos anteriores midieron este comportamiento únicamente con estadísticas generales a nivel de conjunto de datos, pasando por alto la influencia de la confianza del modelo en el razonamiento unimodal. En este artículo, presentamos un nuevo marco que descompone el seguimiento de modalidad en dos factores fundamentales: la incertidumbre relativa del razonamiento (la brecha de confianza específica del caso entre las predicciones unimodales) y la preferencia modal inherente (un sesgo estable del modelo cuando las incertidumbres están equilibradas). Para validar este marco, construimos un conjunto de datos controlable que varía sistemáticamente la dificultad de razonamiento de las entradas visuales y textuales. Utilizando la entropía como métrica de incertidumbre de grano fino, descubrimos una ley universal: la probabilidad de seguir una modalidad disminuye monótonamente a medida que su incertidumbre relativa aumenta. En el nivel de dificultad relativa donde el modelo tiende a seguir ambas modalidades con probabilidad comparable —lo que llamamos el punto de equilibrio— encontramos un indicador práctico de la preferencia inherente del modelo. A diferencia de las proporciones macro tradicionales, esta medida ofrece una forma más fundamentada y menos confundida de caracterizar el sesgo modal, desentrañándolo de las capacidades unimodales y los artefactos del conjunto de datos. Además, al sondear las predicciones capa por capa, revelamos el mecanismo interno de la oscilación: en regiones ambiguas cerca del punto de equilibrio, los modelos vacilan entre modalidades a lo largo de las capas, lo que explica la indecisión observada externamente. En conjunto, estos hallazgos establecen la incertidumbre relativa y la preferencia inherente como los dos principios rectores del seguimiento de modalidad, ofreciendo tanto un marco cuantitativo como una comprensión mecanicista de cómo los MLLMs resuelven información conflictiva.
La trayectoria del desarrollo de la IA sugiere que dependeremos cada vez más de sistemas basados en agentes compuestos por agentes desarrollados de forma independiente, con información, privilegios y herramientas diferentes. El éxito de estos sistemas dependerá críticamente de una colaboración efectiva entre estos agentes heterogéneos, incluso bajo condiciones de observabilidad parcial. A pesar del gran interés, pocos estudios empíricos han evaluado dicha colaboración agente-agente a gran escala. Proponemos un benchmark de resolución de laberintos colaborativo que (i) aísla las capacidades colaborativas, (ii) modula la complejidad del problema, (iii) permite una evaluación automatizada escalable y (iv) no impone restricciones de formato de salida, preservando la plausibilidad ecológica. Utilizando este marco, evaluamos 32 modelos líderes, tanto de código abierto como cerrado, en configuraciones individuales, homogéneas en parejas y heterogéneas en parejas. Nuestros resultados revelan una "brecha de colaboración": los modelos que rinden bien en solitario a menudo se degradan sustancialmente cuando se les exige colaborar. La colaboración puede romperse drásticamente; por ejemplo, pequeños modelos destilados que resuelven laberintos bien por sí solos pueden fallar casi por completo en ciertos emparejamientos. Encontramos que comenzar con el agente más fuerte a menudo mejora los resultados, lo que motiva un enfoque de "inferencia por relevos" donde el agente más fuerte lidera antes de pasar el testigo al más débil, cerrando así gran parte de la brecha. Nuestros hallazgos abogan por (1) una evaluación consciente de la colaboración, (2) estrategias de entrenamiento desarrolladas para mejorar las capacidades colaborativas, y (3) un diseño de interacción que elicite de forma fiable las habilidades latentes de los agentes, una guía aplicable tanto a la colaboración IA-IA como humano-IA.
La reconstrucción de imágenes vistas por personas a partir de sus registros cerebrales de resonancia magnética funcional (fMRI) proporciona una ventana no invasiva al cerebro humano. A pesar del progreso reciente habilitado por los modelos de difusión, los métodos actuales a menudo carecen de fidelidad a las imágenes vistas realmente. Presentamos "Brain-IT", un enfoque inspirado en el cerebro que aborda este desafío mediante un Transformer de Interacción Cerebral (BIT, por sus siglas en inglés), permitiendo interacciones efectivas entre grupos de vóxeles cerebrales funcionalmente similares. Estos grupos funcionales son compartidos por todos los sujetos, sirviendo como bloques de construcción para integrar información tanto dentro como entre cerebros. Todos los componentes del modelo son compartidos por todos los grupos y sujetos, permitiendo un entrenamiento eficiente con una cantidad limitada de datos. Para guiar la reconstrucción de la imagen, BIT predice dos características de imagen localizadas a nivel de parche que son complementarias: (i) características semánticas de alto nivel que dirigen el modelo de difusión hacia el contenido semántico correcto de la imagen; y (ii) características estructurales de bajo nivel que ayudan a inicializar el proceso de difusión con el diseño general correcto de la imagen. El diseño de BIT permite el flujo directo de información desde los grupos de vóxeles cerebrales hasta las características de imagen localizadas. A través de estos principios, nuestro método logra reconstrucciones de imágenes a partir de fMRI que reconstruyen fielmente las imágenes vistas, y supera a los enfoques actuales del estado del arte tanto visualmente como mediante métricas objetivas estándar. Además, con solo 1 hora de datos de fMRI de un nuevo sujeto, logramos resultados comparables a los métodos actuales entrenados con registros completos de 40 horas.
Los modelos de lenguaje grande (LLM) entrenados para razonamiento paso a paso suelen volverse excesivamente verbosos, incrementando el costo de inferencia. Los flujos estándar de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) filtran los problemas "fáciles" para eficiencia del entrenamiento, haciendo que el modelo se entrene principalmente en problemas más difíciles que requieren cadenas de razonamiento más largas. Esto sesga la distribución de longitud de las salidas hacia arriba, resultando en un modelo que confunde "pensar más tiempo" con "pensar mejor". En este trabajo, demostramos que retener y ponderar moderadamente los problemas moderadamente fáciles actúa como un regularizador de longitud implícito. Exponer el modelo a tareas resolubles de cadenas cortas restringe su distribución de salida y previene la verbosidad descontrolada. El resultado es *brevedad emergente gratuita*: el modelo aprende a resolver problemas más difíciles sin inflar la longitud de la salida, a pesar de la ausencia de cualquier penalización explícita de longitud. Los experimentos RLVR que utilizan este enfoque en Qwen3-4B-Thinking-2507 (con un límite de 16k tokens) alcanzan la precisión pass@1 de referencia AIME25 mientras generan soluciones que son, en promedio, casi dos veces más cortas. El código está disponible en https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, con conjuntos de datos y modelos en https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
Los modelos multimodales grandes (LMMs) a menudo sufren de una severa ineficiencia en la inferencia debido al gran número de tokens visuales introducidos por los codificadores de imágenes. Si bien los métodos recientes de compresión de tokens, como la poda y la fusión, han mostrado potencial para reducir la redundancia, su evaluación sigue siendo fragmentada e inconsistente. En este trabajo, presentamos UniPruneBench, un benchmark unificado y extensible para la poda de tokens visuales en LLMs multimodales. UniPruneBench proporciona protocolos estandarizados en seis dimensiones de capacidad y diez conjuntos de datos, cubriendo diez algoritmos de compresión representativos y tres familias de LMMs (LLaVA-v1.5, Intern-VL3 y Qwen2.5-VL). Más allá de la precisión en las tareas, incorpora métricas a nivel de sistema, como el tiempo de ejecución y la latencia de precarga, para ofrecer una visión holística. Nuestros experimentos revelan varios hallazgos clave: (1) la poda aleatoria es una línea base sorprendentemente sólida, (2) ningún método supera consistentemente a los demás en todos los escenarios, (3) la sensibilidad a la poda varía significativamente entre tareas, siendo el OCR el más vulnerable, y (4) la proporción de poda es el factor dominante que gobierna la degradación del rendimiento. Creemos que UniPruneBench servirá como una base confiable para la investigación futura sobre modelado multimodal eficiente.
Los puntos de referencia actuales para la codificación evalúan los modelos de lenguaje (LM) en tareas concretas y bien especificadas, como corregir errores específicos o escribir pruebas dirigidas. Sin embargo, los programadores humanos no pasan todo el día abordando incansablemente tareas aisladas. Por el contrario, el desarrollo de software en el mundo real se basa en la búsqueda de objetivos de alto nivel, como mejorar la retención de usuarios o reducir costes. Evaluar si los LM también pueden desarrollar código de forma iterativa para cumplir mejor objetivos abiertos sin ninguna guía explícita sigue siendo un desafío pendiente. Para abordar esto, presentamos CodeClash, un punto de referencia donde los LM compiten en torneos de múltiples rondas para construir la mejor base de código para lograr un objetivo competitivo. Cada ronda procede en dos fases: los agentes editan su código, luego sus bases de código compiten cara a cara en una arena de código que determina a los ganadores en función de objetivos como la maximización de puntuación, la adquisición de recursos o la supervivencia. Ya sea escribiendo notas, escrutando documentación, analizando registros de la competencia o creando suites de pruebas, los modelos deben decidir por sí mismos cómo mejorar sus bases de código, tanto en términos absolutos como frente a sus oponentes. Ejecutamos 1680 torneos (25,200 rondas en total) para evaluar 8 LM en 6 arenas. Nuestros resultados revelan que, si bien los modelos exhiben estilos de desarrollo diversos, comparten limitaciones fundamentales en el razonamiento estratégico. Los modelos también tienen dificultades con el mantenimiento a largo plazo de la base de código, ya que los repositorios se vuelven progresivamente desordenados y redundantes. Estas limitaciones son evidentes: los mejores modelos pierden cada ronda contra programadores humanos expertos. Liberamos CodeClash como código abierto para avanzar en el estudio del desarrollo de código autónomo y orientado a objetivos.
Los datos a gran escala han impulsado avances en robótica, desde modelos de lenguaje hasta modelos visión-lenguaje-acción en manipulación bimanual. Sin embargo, la robótica humanoide carece de marcos de recolección de datos igualmente efectivos. Los sistemas de teleoperación humanoide existentes utilizan control desacoplado o dependen de costosas configuraciones de captura de movimiento. Presentamos TWIST2, un sistema portátil y libre de mocap para teleoperación y recolección de datos humanoide que preserva el control completo de cuerpo entero mientras avanza en la escalabilidad. Nuestro sistema aprovecha PICO4U VR para obtener movimientos humanos de cuerpo completo en tiempo real, con un cuello robótico personalizado de 2 GDL (costo aproximado de $250) para visión egocéntrica, permitiendo un control holístico de humano a humanoide. Demostramos habilidades humanoides diestras y móviles de largo horizonte y podemos recolectar 100 demostraciones en 15 minutos con una tasa de éxito de casi el 100%. Sobre esta base, proponemos un marco de política visuomotora jerárquica que controla autónomamente el cuerpo humanoide completo basándose en visión egocéntrica. Nuestra política visuomotora demuestra con éxito tareas de manipulación diestra de cuerpo completo y patadas dinámicas. El sistema completo es totalmente reproducible y de código abierto en https://yanjieze.com/TWIST2. Nuestro conjunto de datos recopilado también es de código abierto en https://twist-data.github.io.
Los paradigmas actuales de evaluación de modelos de lenguaje grandes (LLM) representan un punto ciego crítico en la investigación de IA: dependen de métricas numéricas opacas que ocultan limitaciones fundamentales en el razonamiento espacial, sin proporcionar una comprensión intuitiva de las capacidades del modelo. Esta deficiencia crea una desconexión peligrosa entre el rendimiento reportado y las habilidades prácticas, particularmente para aplicaciones que requieren comprensión del mundo físico. Presentamos LTD-Bench, un benchmark innovador que transforma la evaluación de LLM de puntuaciones abstractas a resultados visuales directamente observables, al requerir que los modelos generen dibujos mediante matrices de puntos o código ejecutable. Este enfoque hace que las limitaciones del razonamiento espacial sean inmediatamente aparentes incluso para no expertos, cerrando la brecha fundamental entre el rendimiento estadístico y la evaluación intuitiva. LTD-Bench implementa una metodología integral con tareas de generación complementarias (que prueban la imaginación espacial) y tareas de reconocimiento (que evalúan la percepción espacial) en tres niveles de dificultad progresivamente desafiantes, evaluando metódicamente ambas direcciones del mapeo crítico lenguaje-espacio. Nuestros extensos experimentos con modelos de vanguardia exponen una brecha de capacidades alarmante: incluso los LLM que logran resultados impresionantes en benchmarks tradicionales demuestran deficiencias profundas para establecer mapeos bidireccionales entre el lenguaje y los conceptos espaciales, una limitación fundamental que socava su potencial como modelos genuinos del mundo. Además, los resultados visuales de LTD-Bench permiten un potente análisis diagnóstico, ofreciendo un enfoque potencial para investigar la similitud entre modelos.
Las pruebas en máquinas reales son indispensables para los algoritmos de control robótico. En el contexto de los algoritmos basados en aprendizaje, especialmente los modelos VLA, la demanda de evaluaciones a gran escala, es decir, probar una gran cantidad de modelos en una gran cantidad de tareas, se está volviendo cada vez más urgente. Sin embargo, hacerlo correctamente es altamente complejo, especialmente cuando se considera la escalabilidad y la reproducibilidad. En este informe, describimos nuestra metodología para construir RoboChallenge, un sistema de evaluación en línea para probar algoritmos de control robótico, y nuestro estudio de los modelos VLA más recientes y avanzados utilizando nuestro punto de referencia inicial Table30.
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades notables en numerosas aplicaciones del mundo real. Si bien la gran mayoría de la investigación realizada desde una perspectiva experimental avanza rápidamente, esta requiere un sustancial poder computacional, datos y otros recursos. Por lo tanto, cómo abrir la caja negra de los LLMs desde un punto de vista teórico se ha convertido en un desafío crítico. Este artículo toma como punto de partida la teoría de la función tasa-distorsión, la información dirigida y la causalidad de Granger para investigar los principios de la teoría de la información detrás de los LLMs, lo que conduce al desarrollo de una teoría de la información semántica para LLMs, donde la unidad fundamental es el *token*, en lugar de los bits que carecen de significado semántico. Al definir el modelo probabilístico de los LLMs, discutimos medidas de teoría de la información independientes de la estructura, como la función tasa-distorsión dirigida en el pre-entrenamiento, la función tasa-recompensa dirigida en el post-entrenamiento y el flujo de información semántica en la fase de inferencia. Este artículo también profundiza en la teoría de la incrustación semántica a nivel de *token* y en el método de vectorización óptimo desde la perspectiva de la teoría de la información. A partir de esto, proponemos una definición general de LLM autorregresivo, a partir de la cual la arquitectura Transformer y su rendimiento, como la ELBO, la cota del error de generalización, la capacidad de memoria y las medidas de información semántica, pueden derivarse teóricamente. Otras arquitecturas, como Mamba/Mamba2 y LLaDA, también se discuten en nuestro marco teórico. En consecuencia, este artículo proporciona un marco teórico para comprender los LLMs desde la perspectiva de la teoría de la información semántica, lo que también ofrece las herramientas teóricas necesarias para futuras investigaciones en profundidad.
Presentamos iFlyBot-VLA, un modelo a gran escala de Visión-Lenguaje-Acción (VLA) entrenado bajo un marco novedoso. Las principales contribuciones se enumeran a continuación: (1) un modelo de acción latente entrenado exhaustivamente sobre videos a gran escala de manipulaciones humanas y robóticas; (2) un marco de representación de acción de doble nivel que supervisa conjuntamente tanto el Modelo de Visión-Lenguaje (VLM) como el experto en acción durante el entrenamiento; (3) una estrategia de entrenamiento mixto que combina datos de trayectorias robóticas con conjuntos de datos generales de Preguntas-Respuestas (QA) y de QA espacial, mejorando efectivamente las capacidades de percepción 3D y razonamiento del backbone del VLM. Específicamente, el VLM se entrena para predecir dos formas complementarias de acciones: acciones latentes, derivadas de nuestro modelo de acción latente preentrenado en datos de manipulación de encarnación cruzada, que capturan intenciones implícitas de alto nivel; y tokens de acción discretos estructurados, obtenidos mediante transformaciones en el dominio de la frecuencia de señales de control continuas, que codifican dinámicas explícitas de bajo nivel. Esta supervisión dual alinea los espacios de representación del lenguaje, la visión y la acción, permitiendo que el VLM contribuya directamente a la generación de acciones. Los resultados experimentales en el benchmark LIBERO Franka demuestran la superioridad de nuestro marco, mientras que las evaluaciones en el mundo real muestran además que iFlyBot-VLA logra tasas de éxito competitivas en diversas tareas de manipulación desafiantes. Además, planeamos hacer de código abierto una porción de nuestro conjunto de datos de construcción propia para apoyar futuras investigaciones en la comunidad.
Los modelos de lenguaje grande han demostrado un alto rendimiento en muchos puntos de referencia de razonamiento establecidos. Sin embargo, estos benchmarks evalúan principalmente habilidades estructuradas, como la resolución de problemas cuantitativos, dejando un vacío en la evaluación de las capacidades de razonamiento flexibles y multifacéticas que son centrales para la inteligencia humana. Estas habilidades requieren integrar la deducción lógica con la conciencia espacial y la satisfacción de restricciones, aspectos que las evaluaciones actuales no miden adecuadamente. Para abordar esto, presentamos RiddleBench, un benchmark de 1.737 acertijos desafiantes en inglés diseñado para sondear estas capacidades de razonamiento centrales. La evaluación de modelos de última generación en RiddleBench revela debilidades fundamentales. Incluso los mejores modelos propietarios, como Gemini 2.5 Pro, o3 y Claude 4 Sonnet, logran una precisión apenas superior al 60% (60.30%, 63.37% y 63.16%, respectivamente). El análisis revela además fallos profundos, incluyendo cascadas de alucinación (aceptar razonamientos defectuosos de otros modelos) y una pobre capacidad de autocorrección debido a un fuerte sesgo de autoconfirmación. Su razonamiento también es frágil, degradándose significativamente cuando se reordenan las restricciones o se introduce información irrelevante. RiddleBench funciona como una herramienta de diagnóstico para estos problemas y como un recurso para guiar el desarrollo de modelos de lenguaje más robustos y confiables.
Las tareas complejas de comprensión de gráficos exigen capacidades avanzadas de reconocimiento visual y razonamiento por parte de los modelos de lenguaje multimodal (MLLM). Sin embargo, la investigación actual ofrece una cobertura limitada de escenarios de gráficos complejos y tareas de razonamiento computacionalmente intensivas, predominantes en aplicaciones del mundo real. Este estudio propone un pipeline automatizado de múltiples etapas basado en código para generar sistemáticamente conjuntos de datos de razonamiento visual que aborden estas limitaciones. El pipeline integra la generación aumentada por recuperación (RAG) para recuperar plantillas de gráficos profesionales y emplea estrategias de cadena de pensamiento (CoT) para generar códigos de razonamiento que simulen distribuciones de datos reales, impulsando así la renderización de gráficos y los cálculos estadísticos relacionados con las preguntas. Mediante evaluación basada en modelos, el pipeline mejora la diversidad de gráficos y la calidad de los datos. Utilizando este marco, construimos ChartM^3, un conjunto de datos multidimensional y de múltiples pasos que contiene 38K gráficos y 142K pares de preguntas y respuestas para entrenamiento, junto con 2,871 muestras de evaluación de alta calidad que permiten una valoración práctica del rendimiento. Los experimentos de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL) demuestran que nuestro conjunto de datos mejora significativamente las capacidades de razonamiento y el rendimiento de generalización cruzada, permitiendo que modelos más pequeños logren un rendimiento comparable al de modelos a gran escala en la comprensión de gráficos complejos.
La comprensión y predicción de emociones a partir de vídeos ha captado una atención significativa en estudios recientes, impulsada por los avances en los modelos de lenguaje grande para vídeo (VideoLLMs). Si bien los métodos avanzados han logrado progresos en el análisis de emociones en vídeo, la naturaleza intrínseca de las emociones plantea desafíos importantes. Las emociones se caracterizan por propiedades dinámicas y dependientes de claves, lo que dificulta la comprensión de estados emocionales complejos y en evolución con una justificación razonable. Para abordar estos desafíos, proponemos un novedoso marco de razonamiento guiado por claves afectivas que unifica la percepción de atributos fundamentales, el análisis de expresiones y la comprensión emocional de alto nivel de manera escalonada. El núcleo de nuestro enfoque es una familia de modelos fundamentales de emoción en vídeo (VidEmo), diseñados específicamente para el razonamiento emocional y el seguimiento de instrucciones. Estos modelos se someten a un proceso de ajuste en dos etapas: primero, un aprendizaje emocional curricular para inyectar conocimiento emocional, seguido de un aprendizaje por refuerzo basado en árbol afectivo para el razonamiento emocional. Además, establecemos una infraestructura de datos fundamental e introducimos un conjunto de datos detallado centrado en emociones (Emo-CFG) que consta de 2.1 millones de muestras diversas basadas en instrucciones. Emo-CFG incluye preguntas y respuestas emocionales explicables, descripciones detalladas y las justificaciones asociadas, proporcionando recursos esenciales para avanzar en las tareas de comprensión emocional. Los resultados experimentales demuestran que nuestro enfoque logra un rendimiento competitivo, estableciendo un nuevo hito en 15 tareas de percepción facial.
En este trabajo, proponemos LiveSecBench, un benchmark de seguridad dinámico y de actualización continua diseñado específicamente para escenarios de aplicación de LLM en idioma chino. LiveSecBench evalúa los modelos en seis dimensiones críticas (Legalidad, Ética, Veracidad, Privacidad, Robustez Adversarial y Seguridad del Razonamiento) fundamentadas en los marcos legales y sociales chinos. Este benchmark mantiene su relevancia mediante un programa de actualización dinámica que incorpora nuevos vectores de amenaza, como la inclusión planificada de Seguridad en Generación de Texto a Imagen y Seguridad de Agentes en la próxima actualización. Por ahora, LiveSecBench (v251030) ha evaluado 18 LLM, ofreciendo una panorámica de la seguridad de la IA en el contexto del idioma chino. La tabla de clasificación es de acceso público en https://livesecbench.intokentech.cn/.
A medida que la carga global de la enfermedad de Alzheimer (EA) continúa creciendo, la detección temprana y precisa se ha vuelto cada vez más crítica, especialmente en regiones con acceso limitado a herramientas de diagnóstico avanzadas. Proponemos BRAINS (Inteligencia Biomédica Aumentada por Recuperación para el Cribado de Neurodegeneración) para abordar este desafío. Este novedoso sistema aprovecha las potentes capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs) para la detección y monitorización del Alzheimer. BRAINS presenta una arquitectura de doble módulo: un módulo de diagnóstico cognitivo y un módulo de recuperación de casos. El Módulo de Diagnóstico utiliza LLMs afinados con conjuntos de datos cognitivos y de neuroimagen —que incluyen puntuaciones MMSE, CDR y métricas de volumen cerebral— para realizar evaluaciones estructuradas del riesgo de Alzheimer. Mientras tanto, el Módulo de Recuperación de Casos codifica los perfiles de los pacientes en representaciones latentes y recupera casos similares de una base de conocimiento curada. Estos casos auxiliares se fusionan con el perfil de entrada a través de una Capa de Fusión de Casos para mejorar la comprensión contextual. La representación combinada se procesa luego con instrucciones clínicas para la inferencia. Las evaluaciones en conjuntos de datos del mundo real demuestran la efectividad de BRAINS en la clasificación de la gravedad de la enfermedad y la identificación de signos tempranos de deterioro cognitivo. Este sistema no solo muestra un gran potencial como herramienta de asistencia para una detección escalable, explicable y en etapas tempranas de la enfermedad de Alzheimer, sino que también ofrece esperanza para futuras aplicaciones en el campo.
Los grandes modelos lingüísticos actuales sobresalen en tareas generales y amplias, pero presentan un rendimiento consistentemente inferior cuando se enfrentan a dominios altamente especializados que requieren un profundo conocimiento cultural, lingüístico y temático. En particular, sistemas médicos tradicionales como el Ayurveda incorporan siglos de conocimiento textual y clínico matizado que los LLM convencionales no logran interpretar o aplicar con precisión. Presentamos AyurParam-2.9B, un modelo lingüístico bilingüe especializado en este dominio, afinado a partir de Param-1-2.9B utilizando un extenso conjunto de datos de Ayurveda curado meticulosamente por expertos, que abarca textos clásicos y guías clínicas. El conjunto de datos de AyurParam incorpora preguntas y respuestas de estilo objetivo, de razonamiento y conscientes del contexto, tanto en inglés como en hindi, con protocolos de anotación rigurosos para garantizar la precisión factual y la claridad instructiva. Evaluado en BhashaBench-Ayur, AyurParam no solo supera a todos los modelos de código abierto ajustados por instrucción de su categoría de tamaño (1.5-3B parámetros), sino que también demuestra un rendimiento competitivo o superior en comparación con modelos mucho más grandes. Los resultados de AyurParam subrayan la necesidad de una adaptación de dominio auténtica y una supervisión de alta calidad para ofrecer una IA confiable y culturalmente congruente para el conocimiento médico especializado.
Los modelos de difusión de texto a imagen (T2I) han logrado un alto rendimiento en la alineación semántica, pero aún presentan dificultades para generar la cantidad correcta de objetos especificada en las instrucciones. Los enfoques existentes suelen incorporar redes de conteo auxiliares como críticos externos para mejorar la capacidad numérica. Sin embargo, dado que estos críticos deben proporcionar guía de gradiente durante la generación, están restringidos a modelos basados en regresión que son inherentemente diferenciables, excluyendo así a los modelos basados en detectores con capacidad de conteo superior, cuya naturaleza de "contar-mediante-enumeración" no es diferenciable. Para superar esta limitación, proponemos Detector-a-Diferenciable (D2D), un marco novedoso que transforma modelos de detección no diferenciables en críticos diferenciables, aprovechando así su capacidad de conteo superior para guiar la generación numérica. Específicamente, diseñamos funciones de activación personalizadas para convertir los logits del detector en indicadores binarios suaves, que luego se utilizan para optimizar el previo de ruido en el momento de la inferencia con modelos T2I preentrenados. Nuestros extensos experimentos en SDXL-Turbo, SD-Turbo y Pixart-DMD a través de cuatro puntos de referencia de complejidad variable (escenarios de baja densidad, alta densidad y múltiples objetos) demuestran mejoras consistentes y sustanciales en la precisión del conteo de objetos (por ejemplo, aumentando hasta un 13.7% en D2D-Small, un punto de referencia de baja densidad con 400 instrucciones), con una degradación mínima en la calidad general de la imagen y sobrecarga computacional.
El razonamiento complejo sobre datos tabulares es crucial en el análisis de datos del mundo real, sin embargo, los grandes modelos de lenguaje (LLM) a menudo tienen un rendimiento inferior debido a consultas complejas, datos ruidosos y capacidades numéricas limitadas. Para abordar estos problemas, proponemos \method, un marco que consiste en: (1) un descomponedor de consultas que desglosa preguntas complejas, (2) un saneador de tablas que limpia y filtra tablas ruidosas, y (3) un razonador basado en programas de pensamiento (PoT) que genera código ejecutable para derivar la respuesta final a partir de la tabla saneada. Para garantizar una evaluación imparcial y mitigar la filtración de datos, presentamos un nuevo conjunto de datos, CalTab151, diseñado específicamente para el razonamiento numérico complejo sobre tablas. Los resultados experimentales demuestran que \method supera consistentemente a los métodos existentes, logrando un rendimiento de vanguardia (SOTA) con una mejora de precisión del 8,79%, 6,08% y 19,87% en TAT-QA, TableBench y \method, respectivamente. Además, nuestro marco se integra perfectamente con los LLM principales, proporcionando una solución robusta para el razonamiento numérico tabular complejo. Estos hallazgos resaltan la efectividad de nuestro marco para mejorar el rendimiento de los LLM en el razonamiento numérico tabular complejo. Los datos y el código están disponibles bajo petición.
El aprendizaje no supervisado de profundidad y ego-movimiento, dos tareas fundamentales de percepción 3D, ha logrado avances significativos en los últimos años. Sin embargo, la mayoría de los métodos tratan el ego-movimiento como una tarea auxiliar, ya sea mezclando todos los tipos de movimiento o excluyendo los movimientos rotacionales independientes de la profundidad en la supervisión. Dichos diseños limitan la incorporación de fuertes restricciones geométricas, reduciendo la fiabilidad y robustez bajo diversas condiciones. Este estudio introduce un tratamiento discriminativo de los componentes del movimiento, aprovechando las regularidades geométricas de sus flujos rígidos respectivos para beneficiar tanto la estimación de profundidad como la de ego-movimiento. Dados fotogramas de vídeo consecutivos, las salidas de la red primero alinean los ejes ópticos y los planos de imagen de las cámaras fuente y objetivo. Los flujos ópticos entre fotogramas se transforman mediante estas alineaciones, y las desviaciones se cuantifican para imponer restricciones geométricas individualmente en cada componente del ego-movimiento, permitiendo un refinamiento más específico. Estas alineaciones reformulan además el proceso de aprendizaje conjunto en formas coaxial y coplanar, donde la profundidad y cada componente de traslación pueden derivarse mutuamente a través de relaciones geométricas de forma cerrada, introduciendo restricciones complementarias que mejoran la robustez de la profundidad. DiMoDE, un marco general de aprendizaje conjunto de profundidad y ego-movimiento que incorpora estos diseños, logra un rendimiento de vanguardia en múltiples conjuntos de datos públicos y en un nuevo conjunto de datos del mundo real diverso recopilado, particularmente bajo condiciones desafiantes. Nuestro código fuente estará disponible públicamente en mias.group/DiMoDE tras su publicación.
Estudios recientes han identificado la Optimización Directa de Preferencias (DPO) como un enfoque eficiente y libre de recompensas para mejorar la calidad en la generación de videos. Sin embargo, los métodos existentes siguen en gran medida paradigmas del dominio de las imágenes y se han desarrollado principalmente en modelos de pequeña escala (aproximadamente 2B parámetros), lo que limita su capacidad para abordar los desafíos únicos de las tareas de video, como la costosa construcción de datos, la inestabilidad en el entrenamiento y el alto consumo de memoria. Para superar estas limitaciones, presentamos un GT-Pair que construye automáticamente pares de preferencia de alta calidad utilizando videos reales como positivos y videos generados por el modelo como negativos, eliminando la necesidad de cualquier anotación externa. Además, presentamos Reg-DPO, que incorpora la pérdida SFT como término de regularización en el objetivo de DPO para mejorar la estabilidad del entrenamiento y la fidelidad en la generación. Adicionalmente, al combinar el marco FSDP con múltiples técnicas de optimización de memoria, nuestro enfoque logra una capacidad de entrenamiento casi tres veces mayor que utilizando solo FSDP. Experimentos exhaustivos en tareas de I2V y T2V en múltiples conjuntos de datos demuestran que nuestro método supera consistentemente a los enfoques existentes, ofreciendo una calidad de generación de video superior.