Artículos de investigación en IA seleccionados diariamente con traducciones
El ajuste fino por refuerzo (RFT), un marco de trabajo de dos etapas que consiste en el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL), ha mostrado resultados prometedores para mejorar la capacidad de razonamiento de los grandes modelos de lenguaje (LLMs). Sin embargo, extender el RFT a los grandes modelos de video y lenguaje (LVLMs) sigue siendo un desafío. Proponemos VideoP2R, un novedoso marco de RFT para video consciente del proceso que mejora el razonamiento en video al modelar la percepción y el razonamiento como procesos distintos. En la etapa de SFT, desarrollamos un pipeline de tres pasos para generar VideoP2R-CoT-162K, un conjunto de datos de cadena de pensamiento (CoT) de alta calidad y consciente del proceso para la percepción y el razonamiento. En la etapa de RL, presentamos un novedoso algoritmo de optimización de políticas relativas por grupos consciente del proceso (PA-GRPO) que proporciona recompensas separadas para la percepción y el razonamiento. Experimentos exhaustivos muestran que VideoP2R logra un rendimiento de vanguardia (SotA) en seis de siete benchmarks de razonamiento y comprensión de video. Estudios de ablación confirman además la efectividad de nuestro modelado consciente del proceso y del PA-GRPO, y demuestran que la salida de percepción del modelo contiene información suficiente para el razonamiento subsiguiente.
Mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), especialmente bajo restricciones de parámetros, es crucial para aplicaciones del mundo real. Trabajos previos proponen transformadores recurrentes, que asignan un número fijo de iteraciones adicionales por token para mejorar la calidad de la generación. Después de la primera pasada estándar, en lugar de verbalizar, los estados ocultos de la última capa se retroalimentan como entradas para iteraciones adicionales y así refinar las predicciones de tokens. Sin embargo, identificamos un fenómeno de sobrepensamiento latente: predicciones de tokens fáciles que ya son correctas después de la primera pasada a veces se revisan y convierten en errores en iteraciones adicionales. Para abordar esto, proponemos Think-at-Hard (TaH), un método de pensamiento latente dinámico que itera más profundamente solo en los tokens difíciles. Emplea un decisor neuronal ligero para activar iteraciones latentes solo en tokens que probablemente sean incorrectos después de la pasada estándar. Durante las iteraciones latentes, los módulos de Adaptación de Bajo Rango (LoRA) cambian el objetivo del LLM de la predicción general del siguiente token al refinamiento enfocado de tokens difíciles. Además, introducimos un mecanismo de atención causal doble que extiende la atención desde la dimensión de secuencia de tokens a una dimensión adicional de profundidad de iteración. Esto permite el flujo de información entre iteraciones manteniendo el paralelismo secuencial completo. Los experimentos muestran que TaH mejora el rendimiento de razonamiento de los LLMs en cinco benchmarks desafiantes manteniendo el mismo recuento de parámetros. En comparación con líneas base que iteran dos veces para todos los tokens de salida, TaH ofrece ganancias de precisión del 8.1-11.3% mientras exime al 94% de los tokens de la segunda iteración. Frente a los fuertes modelos Qwen3 de iteración única ajustados con los mismos datos, también ofrece ganancias de precisión del 4.0-5.0%. Cuando se permiten menos del 3% de parámetros adicionales de LoRA y el decisor de iteración, las ganancias aumentan al 8.5-12.6% y 5.3-5.4%, respectivamente. Nuestro código está disponible en https://github.com/thu-nics/TaH.
La estilización visual innovadora es un pilar fundamental de la creación artística, sin embargo, generar estilos visuales novedosos y consistentes sigue siendo un desafío significativo. Los enfoques generativos existentes generalmente dependen de extensos prompts textuales, imágenes de referencia o ajustes finos eficientes en parámetros para guiar la generación de imágenes consciente del estilo, pero a menudo luchan con la consistencia estilística, la creatividad limitada y las representaciones de estilo complejas. En este artículo, afirmamos que un estilo vale un código numérico mediante la introducción de la novedosa tarea de generación de imágenes de código a estilo, que produce imágenes con estilos visuales novedosos y consistentes condicionados únicamente por un código de estilo numérico. Hasta la fecha, este campo ha sido explorado principalmente por la industria (por ejemplo, Midjourney), sin que exista investigación de código abierto por parte de la comunidad académica. Para llenar este vacío, proponemos CoTyle, el primer método de código abierto para esta tarea. Específicamente, primero entrenamos un codebook de estilos discretos a partir de una colección de imágenes para extraer incrustaciones de estilo. Estas incrustaciones sirven como condiciones para un modelo de difusión de texto a imagen (T2I-DM) para generar imágenes estilizadas. Posteriormente, entrenamos un generador de estilos autorregresivo sobre las incrustaciones de estilo discretas para modelar su distribución, permitiendo la síntesis de incrustaciones de estilo novedosas. Durante la inferencia, un código de estilo numérico se mapea a una incrustación de estilo única por el generador de estilos, y esta incrustación guía al T2I-DM para generar imágenes en el estilo correspondiente. A diferencia de los métodos existentes, nuestro método ofrece una simplicidad y diversidad sin igual, desbloqueando un vasto espacio de estilos reproducibles a partir de una entrada mínima. Experimentos exhaustivos validan que CoTyle convierte efectivamente un código numérico en un controlador de estilo, demostrando que un estilo vale un código.
Presentamos AraLingBench: un punto de referencia completamente anotado por humanos para evaluar la competencia lingüística en árabe de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Este punto de referencia abarca cinco categorías principales: gramática, morfología, ortografía, comprensión lectora y sintaxis, a través de 150 preguntas de opción múltiple diseñadas por expertos que evalúan directamente la comprensión estructural del lenguaje. La evaluación de 35 LLMs en árabe y bilingües revela que los modelos actuales demuestran un fuerte dominio superficial, pero presentan dificultades en el razonamiento gramatical y sintáctico más profundo. AraLingBench destaca una brecha persistente entre los puntajes altos en puntos de referencia basados en conocimiento y el verdadero dominio lingüístico, mostrando que muchos modelos tienen éxito a través de la memorización o el reconocimiento de patrones en lugar de una comprensión auténtica. Al aislar y medir habilidades lingüísticas fundamentales, AraLingBench proporciona un marco diagnóstico para el desarrollo de LLMs en árabe. El código completo de evaluación está disponible públicamente en GitHub.
Los modelos fundacionales han revolucionado la inteligencia artificial en numerosos dominios, aunque su potencial transformador permanece en gran medida sin explotar en la Clasificación Multietiqueta Extrema (XMC). En XMC, las consultas se asocian con etiquetas relevantes de espacios de etiquetas extremadamente grandes, donde es fundamental lograr un equilibrio entre eficiencia y rendimiento. Por ello, muchos enfoques recientes plantean eficientemente XMC como una búsqueda de máximo producto interno entre incrustaciones aprendidas de pequeñas arquitecturas transformadoras de solo codificador. En este artículo, abordamos dos aspectos importantes en XMC: cómo aprovechar efectivamente modelos más grandes de solo decodificador, y cómo explotar información visual manteniendo la eficiencia computacional. Demostramos que ambos desempeñan un papel crítico en XMC por separado y pueden combinarse para mejorar el rendimiento. Mostramos que un decodificador de algunos miles de millones de parámetros puede ofrecer mejoras sustanciales manteniendo manejable la sobrecarga computacional. Además, nuestro marco de Aprendizaje Multietiqueta Extremo Mejorado por Visión (ViXML) integra eficientemente modelos fundacionales de visión mediante la agrupación de una única incrustación por imagen. Esto limita el crecimiento computacional mientras desbloquea capacidades multimodales. Notablemente, ViXML con pequeños codificadores supera al decodificador de solo texto en la mayoría de los casos, demostrando que una imagen vale miles de millones de parámetros. Finalmente, presentamos una extensión de conjuntos de datos existentes de solo texto para explotar metadatos visuales y los ponemos a disposición para futuras evaluaciones comparativas. Experimentos exhaustivos en cuatro conjuntos de datos públicos de solo texto y sus correspondientes versiones mejoradas con imágenes validan la efectividad de nuestras propuestas, superando el estado del arte anterior hasta en +8.21\% en P@1 en el conjunto de datos más grande. El código de ViXML está disponible en https://github.com/DiegoOrtego/vixml.
Si bien el prompting de Cadena de Pensamiento (CoT, por sus siglas en inglés) permite un razonamiento simbólico sofisticado en los LLM, permanece confinado al texto discreto y no puede simular la dinámica continua, gobernada por la física, del mundo real. Los recientes modelos de generación de video han surgido como simuladores mundiales potenciales a través del razonamiento de Cadena de Fotogramas (CoF, por sus siglas en inglés) — materializando el pensamiento como secuencias visuales fotograma a fotograma, donde cada fotograma representa un paso de razonamiento con base física. A pesar de demostraciones convincentes, persiste un desafío: los puntos de referencia existentes, que se centran en la fidelidad o la alineación, no evalúan el razonamiento CoF y, por lo tanto, no pueden medir las capacidades cognitivas centrales en la planificación de múltiples pasos, la lógica algorítmica o la extrapolación de patrones abstractos. Este vacío en la evaluación impide una comprensión sistemática de las capacidades del modelo y una guía fundamentada para su mejora. Presentamos Gen-ViRe (Punto de Referencia de Razonamiento Visual Generativo), un marco basado en la ciencia cognitiva y las aplicaciones de IA del mundo real, que descompone el razonamiento CoF en seis dimensiones cognitivas — desde la lógica perceptual hasta la planificación abstracta — y 24 subtareas. Mediante la curación de datos de múltiples fuentes, protocolos de prompting mínimos y una evaluación híbrida asistida por VLM con criterios detallados, Gen-ViRe ofrece la primera evaluación cuantitativa de los modelos de video como razonadores. Nuestros experimentos en sistemas de última generación (SOTA) revelan discrepancias sustanciales entre la impresionante calidad visual y la profundidad real de razonamiento, estableciendo líneas base y herramientas de diagnóstico para avanzar en el desarrollo de simuladores mundiales genuinos.
Los mecanismos de autorreflexión que dependen de procesos de repensado puramente basados en texto funcionan bien en la mayoría de las tareas multimodales. Sin embargo, cuando se aplican directamente a escenarios de comprensión de vídeos de formato largo, presentan limitaciones evidentes. Las razones fundamentales radican en dos puntos: (1) la comprensión de vídeos largos implica una entrada visual más rica y dinámica, lo que significa que repensar solo la información textual es insuficiente y requiere un proceso de reflexión adicional dirigido específicamente a la información visual; (2) los mecanismos de reflexión puramente textuales carecen de capacidades de interacción multimodal, lo que les impide integrar plenamente la información visual durante la reflexión. Motivados por estas observaciones, proponemos REVISOR (REflective VIsual Segment Oriented Reasoning), un novedoso marco para la reflexión multimodal aumentada con herramientas. REVISOR permite a los MLLM construir colaborativamente procesos de reflexión introspectiva a través de las modalidades textual y visual, mejorando significativamente su capacidad de razonamiento para la comprensión de vídeos largos. Para garantizar que REVISOR aprenda a revisar con precisión segmentos de vídeo altamente relevantes para la pregunta durante el aprendizaje por refuerzo, diseñamos el mecanismo de Recompensa Disociada de Doble Atribución (DADR). Integrado en la estrategia de entrenamiento GRPO, este mecanismo impone una alineación causal entre el razonamiento del modelo y la evidencia de vídeo seleccionada. Cabe destacar que el marco REVISOR mejora significativamente la capacidad de comprensión de vídeos largos de los MLLM sin requerir ajuste supervisado suplementario ni modelos externos, logrando resultados impresionantes en cuatro benchmarks, incluyendo VideoMME, LongVideoBench, MLVU y LVBench.
Evaluar la robustez de los Modelos Grandes de Visión y Lenguaje (LVLM, por sus siglas en inglés) es esencial para su desarrollo continuo y su implementación responsable en aplicaciones del mundo real. Sin embargo, los puntos de referencia de robustez existentes suelen centrarse en alucinaciones o entradas de texto engañosas, pasando por alto en gran medida el desafío igualmente crítico que plantean las entradas visuales engañosas en la evaluación de la comprensión visual. Para llenar este importante vacío, presentamos MVI-Bench, el primer punto de referencia integral diseñado específicamente para evaluar cómo las Entradas Visuales Engañosas (MVI) socavan la robustez de los LVLM. Basado en primitivas visuales fundamentales, el diseño de MVI-Bench se centra en tres niveles jerárquicos de entradas visuales engañosas: Concepto Visual, Atributo Visual y Relación Visual. Utilizando esta taxonomía, seleccionamos seis categorías representativas y compilamos 1,248 instancias de Preguntas y Respuestas Visuales (VQA) anotadas por expertos. Para facilitar una evaluación de robustez detallada, presentamos además MVI-Sensibilidad, una nueva métrica que caracteriza la robustez de los LVLM a un nivel granular. Los resultados empíricos en 18 LVLM de vanguardia revelan vulnerabilidades pronunciadas a las entradas visuales engañosas, y nuestros análisis en profundidad en MVI-Bench proporcionan información práctica que puede guiar el desarrollo de LVLM más confiables y robustos. El punto de referencia y el código base se pueden acceder en https://github.com/chenyil6/MVI-Bench.
Presentamos Orion, un marco de agente visual capaz de procesar cualquier modalidad y generar cualquier modalidad. Utilizando un marco agentico con capacidades múltiples de llamada a herramientas, Orion está diseñado para tareas de IA visual y logra resultados de vanguardia. A diferencia de los modelos visión-lenguaje tradicionales que producen salidas descriptivas, Orion orquesta un conjunto de herramientas especializadas de visión por computadora, que incluyen detección de objetos, localización de puntos clave, segmentación panóptica, reconocimiento óptico de caracteres y análisis geométrico, para ejecutar flujos de trabajo visuales complejos y multi-etapa. El sistema logra un rendimiento competitivo en MMMU, MMBench, DocVQA y MMLongBench, al tiempo que extiende los modelos monolíticos visión-lenguaje hacia una inteligencia visual de grado productivo. Al combinar la percepción neuronal con la ejecución simbólica, Orion permite el razonamiento visual autónomo, marcando una transición desde la comprensión visual pasiva hacia una inteligencia visual activa e impulsada por herramientas.
Los Modelos de Lenguaje Grandes (LLM) son cada vez más explorados para construir Agentes capaces de interactuar activamente con el entorno (por ejemplo, mediante el uso de herramientas) para resolver problemas complejos. El Aprendizaje por Refuerzo (RL) se considera una tecnología clave con un potencial significativo para entrenar dichos Agentes; sin embargo, la aplicación efectiva de RL a los Agentes basados en LLM aún se encuentra en sus etapas iniciales y enfrenta desafíos considerables. Actualmente, este campo emergente carece de una exploración en profundidad de los enfoques de RL específicamente adaptados al contexto de los Agentes LLM, junto con una escasez de marcos de entrenamiento flexibles y fácilmente extensibles diseñados para este propósito. Para ayudar a avanzar en esta área, este artículo primero revisa y clarifica las metodologías de Aprendizaje por Refuerzo para Agentes LLM mediante la extensión sistemática del marco de Procesos de Decisión de Markov (MDP) para definir de manera integral los componentes clave de un Agente LLM. En segundo lugar, presentamos Agent-R1, un marco de entrenamiento modular, flexible y fácil de usar para Agentes LLM basados en RL, diseñado para una adaptación sencilla a diversos escenarios de tareas y entornos interactivos. Realizamos experimentos en tareas de referencia de QA Multihop, proporcionando una validación inicial de la efectividad de nuestros métodos y marco propuestos.
Los modelos de lenguaje grandes omnimodales (OmniLLMs) han atraído una creciente atención investigadora recientemente hacia la comprensión unificada de audio y vídeo, aunque el procesamiento de secuencias de tokens audiovisuales crea un cuello de botella computacional significativo. Sin embargo, los métodos existentes de compresión de tokens aún no han cubierto esta necesidad emergente de comprimir conjuntamente tokens multimodales. Para cerrar esta brecha, presentamos OmniZip, un marco de compresión de tokens audiovisuales guiado por audio y sin necesidad de entrenamiento, que optimiza la representación de tokens multimodales y acelera la inferencia. Específicamente, OmniZip primero identifica los tokens de audio más relevantes, luego calcula una puntuación de retención de audio para cada grupo temporal para capturar la densidad de información, guiando dinámicamente la poda de tokens de vídeo y preservando las claves de los anclajes de audio mejorados por la similitud cross-modal. Para cada ventana temporal, OmniZip comprime los tokens de vídeo utilizando un esquema espaciotemporal intercalado. Resultados empíricos exhaustivos demuestran las ventajas de OmniZip: logra una aceleración de la inferencia de 3.42X y una reducción de memoria de 1.4X sobre otras alternativas de alto rendimiento, manteniendo el rendimiento sin necesidad de entrenamiento.
El rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs) ha provocado una saturación en el rendimiento en muchos puntos de referencia establecidos, lo que cuestiona su capacidad para distinguir modelos de vanguardia. Simultáneamente, los puntos de referencia existentes de alta dificultad suelen adolecer de un enfoque disciplinario estrecho, formatos de respuesta simplificados y vulnerabilidad a la contaminación de datos, creando una brecha de fidelidad con la investigación científica del mundo real. Para abordar estos desafíos, presentamos ATLAS (Banco de Pruebas Orientado a la AGI para la Aplicación Lógica en la Ciencia), un conjunto de evaluación a gran escala, de alta dificultad y multidisciplinar compuesto por aproximadamente 800 problemas originales. Desarrollado por expertos de dominio (con nivel de doctorado o superior), ATLAS abarca siete campos científicos principales: matemáticas, física, química, biología, informática, ciencias de la tierra y ciencia de materiales. Sus características clave incluyen: (1) Alta Originalidad y Resistencia a la Contaminación, ya que todas las preguntas son de nueva creación o están sustancialmente adaptadas para evitar la filtración de datos de prueba; (2) Enfoque Multidisciplinar, diseñado para evaluar la capacidad de los modelos para integrar conocimientos y razonar a través de dominios científicos; (3) Respuestas de Alta Fidelidad, priorizando respuestas complejas y abiertas que implican razonamiento multi-etapa y expresiones formateadas en LaTeX sobre simples preguntas de opción múltiple; y (4) Control de Calidad Riguroso, empleando un proceso multi-etapa de revisión por pares expertos y pruebas adversarias para garantizar la dificultad de las preguntas, su valor científico y su corrección. También proponemos un paradigma de evaluación robusto utilizando un panel de jueces basados en LLMs para una evaluación automatizada y matizada de respuestas complejas. Los resultados preliminares en modelos líderes demuestran la efectividad de ATLAS para diferenciar sus capacidades avanzadas de razonamiento científico. Planeamos desarrollar ATLAS como una plataforma abierta, a largo plazo y impulsada por la comunidad para proporcionar una "regla" confiable del progreso hacia la Inteligencia Artificial General.
Los modelos fundacionales han surgido como arquitecturas eficaces para numerosas tareas de visión por computador. Sin embargo, las características auto-supervisadas actuales entrelazan la semántica de alto nivel con factores físicos de bajo nivel, como la geometría y la iluminación, lo que dificulta su uso en tareas que requieren un razonamiento físico explícito. En este artículo, presentamos Φeat, una novedosa arquitectura visual basada en principios físicos que fomenta una representación sensible a la identidad del material, incluyendo claves de reflectancia y mesoestructura geométrica. Nuestra idea clave consiste en emplear una estrategia de pre-entrenamiento que contrasta recortes espaciales y aumentaciones físicas de un mismo material bajo distintas formas y condiciones de iluminación. Si bien datos similares se han utilizado en tareas supervisadas avanzadas como la descomposición intrínseca o la estimación de materiales, demostramos que una estrategia de entrenamiento puramente auto-supervisada, sin etiquetas explícitas, ya proporciona un fuerte antecedente para tareas que requieren características robustas e invariantes a factores físicos externos. Evaluamos las representaciones aprendidas mediante análisis de similitud de características y selección de materiales, mostrando que Φeat captura una estructura basada en la física que va más allá de la agrupación semántica. Estos resultados destacan la promesa del aprendizaje no supervisado de características físicas como base para la percepción consciente de la física en visión y gráficos por computador.
Los modelos de lenguaje de gran tamaño (LLM) son aprendices potentes en contextos de cero y pocos ejemplos. Sin embargo, al predecir sobre un conjunto de opciones candidatas, los LLM sufren de sesgos de etiqueta, y los métodos de calibración existentes pasan por alto los sesgos que surgen de las etiquetas de clase compuestas por múltiples tokens. Abordamos un problema que denominamos sesgo por longitud de etiqueta, donde las etiquetas de diferentes longitudes se tratan de manera inconsistente, incluso después de la normalización de longitud estándar. Para mitigarlo, proponemos la calibración contextual normalizada (NCC), un método efectivo que normaliza y calibra las predicciones a nivel de etiqueta completa. NCC logra mejoras estadísticamente significativas sobre enfoques previos en múltiples conjuntos de datos y modelos, con ganancias de hasta un 10% en F1. Además, NCC extiende la mitigación de sesgos a tareas más amplias, como la respuesta a preguntas de opción múltiple. Nuestro análisis muestra que, cuando se combina con el aprendizaje en contexto, NCC es menos sensible a la selección de ejemplos en pocos intentos, requiere menos ejemplos para un rendimiento competitivo y produce estimaciones de confianza más fiables. Estos hallazgos subrayan la importancia de mitigar los sesgos a nivel de etiqueta completa para mejorar el rendimiento y la robustez de los métodos basados en LLM, particularmente en aplicaciones del mundo real donde las etiquetas de clase constan naturalmente de múltiples tokens.
Presentamos asistentes auditivos proactivos que identifican y separan automáticamente a los interlocutores del usuario, sin necesidad de indicaciones explícitas. Nuestro sistema opera sobre audio binaural egocéntrico y utiliza la voz propia del usuario como ancla, aprovechando el comportamiento de turnos de palabra y la dinámica del diálogo para inferir a los interlocutores y suprimir a otros. Para permitir un funcionamiento en tiempo real y en el dispositivo, proponemos una arquitectura de doble modelo: un modelo ligero de transmisión continua se ejecuta cada 12.5 ms para una extracción de baja latencia de los interlocutores, mientras que un modelo más lento se ejecuta con menos frecuencia para capturar dinámicas conversacionales de mayor alcance. Los resultados en conjuntos de prueba de conversaciones realistas con 2 y 3 hablantes, recopilados con hardware egocéntrico binaural de 11 participantes totalizando 6.8 horas, muestran una generalización en la identificación y aislamiento de interlocutores en entornos con múltiples conversaciones. Nuestro trabajo representa un paso hacia asistentes auditivos que se adaptan proactivamente a la dinámica conversacional y al compromiso interactivo. Se puede encontrar más información en nuestro sitio web: https://proactivehearing.cs.washington.edu/
Las herramientas de codificación con agencia reciben objetivos escritos en lenguaje natural como entrada, los desglosan en tareas específicas y escriben o ejecutan el código real con mínima intervención humana. Central a este proceso son los archivos de contexto del agente ("READMEs para agentes") que proporcionan instrucciones persistentes a nivel de proyecto. En este artículo, realizamos el primer estudio empírico a gran escala de 2.303 archivos de contexto de agentes de 1.925 repositorios para caracterizar su estructura, mantenimiento y contenido. Encontramos que estos archivos no son documentación estática, sino artefactos complejos y difíciles de leer que evolucionan como código de configuración, mantenidos mediante adiciones frecuentes y pequeñas. Nuestro análisis de contenido de 16 tipos de instrucciones muestra que los desarrolladores priorizan el contexto funcional, como comandos de compilación y ejecución (62,3%), detalles de implementación (69,9%) y arquitectura (67,7%). También identificamos una brecha significativa: los requisitos no funcionales como seguridad (14,5%) y rendimiento (14,5%) rara vez se especifican. Estos hallazgos indican que, si bien los desarrolladores utilizan los archivos de contexto para hacer que los agentes sean funcionales, proporcionan pocas barreras de protección para garantizar que el código escrito por el agente sea seguro o eficiente, destacando la necesidad de mejores herramientas y prácticas.
A pesar de los avances recientes en los LLMs 3D, estos siguen presentando limitaciones para anclar con precisión el lenguaje a los elementos visuales y espaciales en entornos 3D. Esta limitación surge en parte de datos de entrenamiento que se centran en el razonamiento lingüístico en lugar de la comprensión espacial, debido a la escasez de recursos 3D, lo que deja sin resolver los sesgos inherentes de anclaje. Para abordar esto, proponemos la edición de escenas 3D como un mecanismo clave para generar contrafactuales visuales precisos que mitiguen estos sesgos mediante una manipulación espacial de grano fino, sin requerir una costosa reconstrucción de escenas o una recolección de datos 3D a gran escala. Además, para que estas ediciones sean específicas y aborden directamente las debilidades particulares del modelo, presentamos DEER-3D, un marco de trabajo impulsado por errores que sigue un flujo de trabajo estructurado de "Descomponer, Evaluación Diagnóstica, Editar y Re-entrenar", en lugar de aumentar los datos de forma amplia o aleatoria como en los enfoques convencionales. Específicamente, al identificar un fallo de anclaje del LLM 3D, nuestro marco primero diagnostica el error exacto a nivel de predicado (por ejemplo, un atributo o una relación espacial). Luego ejecuta ediciones mínimas de la escena 3D alineadas con el predicado, como cambiar el color o reposicionar objetos, para producir una supervisión contrafáctica dirigida para el ajuste fino iterativo del modelo, mejorando significativamente la precisión del anclaje. Evaluamos nuestra pipeline de edición en múltiples benchmarks para tareas de anclaje 3D y comprensión de escenas, demostrando consistentemente mejoras en todos los conjuntos de datos evaluados mediante refinamiento iterativo. DEER-3D subraya la efectividad de la edición de escenas dirigida e impulsada por errores para conectar las capacidades de razonamiento lingüístico con el anclaje espacial en los LLMs 3D.
Las emociones humanas son difíciles de transmitir mediante palabras y a menudo se abstraen en el proceso; sin embargo, las señales de electroencefalograma (EEG) pueden ofrecer una visión más directa de la actividad cerebral emocional. Estudios recientes demuestran que los modelos de aprendizaje profundo pueden procesar estas señales para realizar reconocimiento de emociones con alta precisión. No obstante, muchos enfoques existentes pasan por alto la interacción dinámica entre distintas regiones cerebrales, que puede ser crucial para comprender cómo las emociones se despliegan y evolucionan en el tiempo, lo que potencialmente ayudaría a un reconocimiento emocional más preciso. Para abordar esto, proponemos RBTransformer, una arquitectura de red neuronal basada en Transformer que modela la dinámica neural inter-cortical del cerebro en un espacio latente para capturar mejor las interacciones neurales estructuradas y lograr un reconocimiento efectivo de emociones basado en EEG. Primero, las señales EEG se convierten en tokens de Entropía Diferencial de Banda (BDE), que luego pasan por incrustaciones de Identidad de Electrodo para conservar la procedencia espacial. Estos tokens se procesan a través de bloques sucesivos de atención multi-cabezal inter-cortical que construyen una matriz de atención electrodo x electrodo, permitiendo al modelo aprender las dependencias neurales inter-corticales. Las características resultantes se pasan luego a un cabezal de clasificación para obtener la predicción final. Realizamos experimentos exhaustivos, específicamente en configuraciones dependientes del sujeto, en los conjuntos de datos SEED, DEAP y DREAMER, sobre las tres dimensiones (Valencia, Activación y Dominancia para DEAP y DREAMER), tanto en configuraciones de clasificación binaria como multi-clase. Los resultados demuestran que el RBTransformer propuesto supera a todos los métodos anteriores de vanguardia en los tres conjuntos de datos, en las tres dimensiones y bajo ambas configuraciones de clasificación. El código fuente está disponible en: https://github.com/nnilayy/RBTransformer.
La Ingeniería del Caos (IC) es una técnica de ingeniería destinada a mejorar la resiliencia de los sistemas distribuidos. Consiste en inyectar fallos intencionadamente en un sistema para probar su resiliencia, descubrir puntos débiles y solucionarlos antes de que provoquen fallos en el entorno de producción. Las herramientas modernas de IC automatizan la ejecución de experimentos de IC predefinidos. Sin embargo, la planificación de dichos experimentos y la mejora del sistema basada en los resultados experimentales siguen siendo procesos manuales. Estos procesos son intensivos en mano de obra y requieren experiencia multidisciplinar. Para abordar estos desafíos y permitir que cualquier persona pueda construir sistemas resilientes a bajo coste, este artículo propone ChaosEater, un sistema que automatiza todo el ciclo de la IC mediante Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). El sistema predefine un flujo de trabajo basado en agentes de acuerdo con un ciclo sistemático de IC y asigna los procesos subdivididos dentro del flujo a los LLMs. ChaosEater se centra en la IC para sistemas de software construidos sobre Kubernetes. Por lo tanto, los LLMs en ChaosEater completan los ciclos de IC a través de tareas de ingeniería de software, que incluyen la definición de requisitos, la generación de código, las pruebas y la depuración. Evaluamos ChaosEater mediante estudios de caso en sistemas Kubernetes de pequeña y gran escala. Los resultados demuestran que completa sistemáticamente ciclos de IC razonables con unos costes temporales y monetarios significativamente bajos. Sus ciclos también son validados cualitativamente por ingenieros humanos y por LLMs.
Los Modelos Grandes de Visión y Lenguaje (LVLM) suelen alinear características visuales de un codificador con un Modelo de Lenguaje Grande (LLM) preentrenado. Sin embargo, esto convierte al módulo de percepción visual en un cuello de botella, lo que restringe las capacidades generales de los LVLM. Los puntos de referencia de evaluación convencionales, aunque ricos en semántica visual, a menudo contienen atajos locales inevitables que pueden llevar a una sobreestimación de las habilidades perceptivas de los modelos. Aquí presentamos TopoPerception, un punto de referencia que aprovecha las propiedades topológicas para evaluar rigurosamente las capacidades de percepción visual global de los LVLM en varias granularidades. Dado que la topología depende de la estructura global de una imagen y es invariante a las características locales, TopoPerception permite una evaluación libre de atajos de la percepción global, distinguiéndose fundamentalmente de las tareas semánticamente ricas. Evaluamos modelos de última generación en TopoPerception y encontramos que incluso en la granularidad perceptual más gruesa, todos los modelos no superan el azar, lo que indica una profunda incapacidad para percibir características visuales globales. Notablemente, surge una tendencia consistente dentro de las familias de modelos: los modelos más potentes con capacidades de razonamiento más fuertes exhiben una precisión menor. Esto sugiere que simplemente escalar los modelos es insuficiente para abordar este déficit e incluso puede exacerbarlo. El progreso puede requerir nuevos paradigmas de entrenamiento o arquitecturas. TopoPerception no solo expone un cuello de botella crítico en los LVLM actuales, sino que también ofrece una perspectiva y una dirección para mejorar su percepción visual global. Los datos y el código están disponibles públicamente en: https://github.com/Wenhao-Zhou/TopoPerception.