Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Being-H0.5, un modelo fundamental Visión-Lenguaje-Acción (VLA) diseñado para una robusta generalización cruzada entre distintas plataformas robóticas. Mientras que los modelos VLA existentes a menudo tienen dificultades con la heterogeneidad morfológica y la escasez de datos, proponemos un paradigma de aprendizaje centrado en el humano que trata los rastros de interacción humana como una "lengua materna" universal para la interacción física. Para respaldar esto, presentamos UniHand-2.0, la receta de pre-entrenamiento corporizado más grande hasta la fecha, que comprende más de 35,000 horas de datos multimodales en 30 embodimientos robóticos distintos. Nuestro enfoque introduce un Espacio de Acción Unificado que mapea los controles heterogéneos de los robots en espacios semánticamente alineados, permitiendo que los robots con pocos recursos inicialicen habilidades a partir de datos humanos y de plataformas con muchos recursos. Construido sobre esta base centrada en el humano, diseñamos un paradigma unificado de modelado secuencial y pre-entrenamiento multi-tarea para tender un puente entre las demostraciones humanas y la ejecución robótica. Arquitectónicamente, Being-H0.5 utiliza un diseño de Mezcla de Transformadores (Mixture-of-Transformers) que presenta un novedoso marco de Mezcla de Flujos (Mixture-of-Flow, MoF) para desacoplar primitivas motoras compartidas de expertos especializados específicos de cada embodimiento. Finalmente, para que las políticas de cross-embodiment sean estables en el mundo real, introducimos una Compuerta que Preserva la Variedad (Manifold-Preserving Gating) para robustez bajo cambios sensoriales y Fragmentación Asíncrona Universal (Universal Async Chunking) para universalizar el control fragmentado entre embodimientos con diferentes perfiles de latencia y control. Demostramos empíricamente que Being-H0.5 logra resultados de vanguardia en benchmarks de simulación, como LIBERO (98.9%) y RoboCasa (53.9%), al mismo tiempo que exhibe sólidas capacidades de cross-embodiment en cinco plataformas robóticas.
La resolución de incidencias, una tarea compleja de Ingeniería del Software (IS) integral al desarrollo en entornos reales, ha surgido como un desafío fascinante para la inteligencia artificial. El establecimiento de puntos de referencia como SWE-bench reveló que esta tarea es extremadamente difícil para los modelos de lenguaje grandes, acelerando así significativamente la evolución de los agentes de codificación autónomos. Este artículo presenta un estudio sistemático de este dominio emergente. Comenzamos examinando las canalizaciones de construcción de datos, cubriendo enfoques de recopilación automatizada y síntesis. A continuación, proporcionamos un análisis exhaustivo de las metodologías, abarcando desde marcos libres de entrenamiento con sus componentes modulares hasta técnicas basadas en entrenamiento, incluyendo el ajuste fino supervisado y el aprendizaje por refuerzo. Posteriormente, discutimos análisis críticos sobre la calidad de los datos y el comportamiento de los agentes, junto con aplicaciones prácticas. Finalmente, identificamos desafíos clave y esbozamos direcciones prometedoras para la investigación futura. Se mantiene un repositorio de código abierto en https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution para servir como un recurso dinámico en este campo.
En los últimos años ha aumentado el interés por extender los grandes modelos de lenguaje hacia sistemas con capacidad de agencia. Si bien la efectividad de los agentes ha seguido mejorando, la eficiencia, que es crucial para el despliegue en escenarios reales, a menudo ha sido pasada por alto. Este artículo investiga, por tanto, la eficiencia desde tres componentes centrales de los agentes: la memoria, el aprendizaje del uso de herramientas y la planificación, considerando costes como la latencia, el número de tokens, los pasos de ejecución, etc. Con el objetivo de realizar una investigación exhaustiva que aborde la eficiencia del propio sistema de agencia, revisamos un amplio abanico de enfoques recientes que difieren en su implementación pero que frecuentemente convergen en principios de alto nivel compartidos, incluyendo, entre otros, la limitación del contexto mediante compresión y gestión, el diseño de recompensas en el aprendizaje por refuerzo para minimizar la invocación de herramientas, y el empleo de mecanismos de búsqueda controlada para mejorar la eficiencia, aspectos que discutimos en detalle. En consecuencia, caracterizamos la eficiencia de dos formas complementarias: comparando la efectividad bajo un presupuesto de coste fijo, y comparando el coste necesario para alcanzar un nivel comparable de efectividad. Esta relación de compromiso también puede visualizarse mediante la frontera de Pareto entre la efectividad y el coste. Desde esta perspectiva, también examinamos benchmarks orientados a la eficiencia resumiendo los protocolos de evaluación para estos componentes y consolidando las métricas de eficiencia comúnmente reportadas tanto en estudios de evaluación comparativa como metodológicos. Además, discutimos los principales desafíos y direcciones futuras, con el objetivo de ofrecer perspectivas prometedoras.
Comprender y razonar sobre el mundo físico requiere inteligencia espacial: la capacidad de interpretar geometría, perspectiva y relaciones espaciales más allá de la percepción 2D. Si bien los grandes modelos de visión (VLMs) recientes sobresalen en comprensión visual, siguen siendo fundamentalmente perceptores 2D y tienen dificultades con el razonamiento 3D genuino. Presentamos Think3D, un marco que permite a los agentes VLM pensar con el espacio 3D. Al aprovechar modelos de reconstrucción 3D que recuperan nubes de puntos y poses de cámara a partir de imágenes o videos, Think3D permite al agente manipular activamente el espacio mediante operaciones basadas en cámara y cambio de vista ego/global, transformando el razonamiento espacial en un proceso interactivo de cadena de pensamiento 3D. Sin entrenamiento adicional, Think3D mejora significativamente el rendimiento de razonamiento espacial de modelos avanzados como GPT-4.1 y Gemini 2.5 Pro, logrando ganancias promedio de +7.8% en BLINK Multi-view y MindCube, y +4.7% en VSI-Bench. Además, mostramos que los modelos más pequeños, que luchan con la exploración espacial, se benefician significativamente de una política de aprendizaje por refuerzo que permite al modelo seleccionar puntos de vista y operaciones informativos. Con AR, el beneficio del uso de herramientas aumenta de +0.7% a +6.8%. Nuestros hallazgos demuestran que la exploración espacial aumentada con herramientas y sin entrenamiento es un camino viable hacia un razonamiento 3D más flexible y similar al humano en agentes multimodales, estableciendo una nueva dimensión de la inteligencia multimodal. El código y los pesos se publican en https://github.com/zhangzaibin/spagent.
La Interpretabilidad Mecanicista (MI) ha surgido como un enfoque vital para desmitificar la opaca toma de decisiones de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, las revisiones existentes tratan principalmente a la MI como una ciencia observacional, resumiendo hallazgos analíticos mientras carecen de un marco sistemático para una intervención accionable. Para cerrar esta brecha, presentamos una encuesta práctica estructurada en torno al pipeline: "Localizar, Dirigir y Mejorar". Categorizamos formalmente los métodos de Localización (diagnóstico) y Dirección (intervención) basándonos en Objetos Interpretables específicos para establecer un protocolo de intervención riguroso. Además, demostramos cómo este marco permite mejoras tangibles en Alineación, Capacidad y Eficiencia, operacionalizando efectivamente la MI como una metodología accionable para la optimización de modelos. La lista curada de artículos de este trabajo está disponible en https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Los videos transmiten información más rica que las imágenes o el texto, capturando tanto dinámicas espaciales como temporales. Sin embargo, la mayoría de los métodos existentes de personalización de videos se basan en imágenes de referencia o conocimientos previos temporales específicos de tareas, sin explotar plenamente la rica información espacio-temporal inherente a los videos, lo que limita la flexibilidad y generalización en la generación de videos. Para abordar estas limitaciones, proponemos OmniTransfer, un marco unificado para la transferencia espacio-temporal de videos. Este aprovecha la información multi-vista entre fotogramas para mejorar la consistencia aparente y explota señales temporales para permitir un control temporal de grano fino. Para unificar diversas tareas de transferencia de video, OmniTransfer incorpora tres diseños clave: Sesgo Posicional Consciente de la Tarea, que aprovecha adaptativamente la información del video de referencia para mejorar la alineación temporal o la consistencia aparente; Aprendizaje Causal con Referencia Desacoplada, que separa las ramas de referencia y objetivo para permitir una transferencia precisa de referencia mientras mejora la eficiencia; y Alineación Multimodal Adaptativa a la Tarea, que utiliza guías semánticas multimodales para distinguir y abordar dinámicamente diferentes tareas. Experimentos exhaustivos demuestran que OmniTransfer supera a los métodos existentes en transferencia aparente (identidad y estilo) y temporal (movimiento de cámara y efectos de video), mientras iguala a los métodos guiados por pose en transferencia de movimiento sin utilizar pose, estableciendo un nuevo paradigma para la generación de videos flexibles y de alta fidelidad.
Si bien los Modelos de Lenguaje Multimodales Grandes (MLLM) demuestran una fuerte percepción omni-modal, su capacidad para predecir eventos futuros a partir de señales audiovisuales sigue siendo en gran medida inexplorada, ya que los puntos de referencia existentes se centran principalmente en la comprensión retrospectiva. Para cerrar esta brecha, presentamos FutureOmni, el primer punto de referencia diseñado para evaluar la predicción futura omni-modal a partir de entornos audiovisuales. Se requiere que los modelos evaluados realicen razonamiento causal y temporal multimodal, así como que aprovechen efectivamente el conocimiento interno para predecir eventos futuros. FutureOmni se construye mediante una canalización escalable asistida por LLM con intervención humana y contiene 919 videos y 1,034 pares de preguntas y respuestas de opción múltiple en 8 dominios principales. Las evaluaciones en 13 modelos omni-modales y 7 modelos solo de video muestran que los sistemas actuales tienen dificultades con la predicción futura audiovisual, particularmente en escenarios con alto contenido de habla, con una precisión máxima del 64.8% lograda por Gemini 3 Flash. Para mitigar esta limitación, recopilamos un conjunto de datos de ajuste por instrucciones de 7,000 muestras y proponemos una estrategia de entrenamiento de Predicción Futura Omni-Modal (OFF). Las evaluaciones en FutureOmni y en puntos de referencia populares audiovisuales y solo de video demuestran que OFF mejora la predicción futura y la generalización. Publicamos todo el código (https://github.com/OpenMOSS/FutureOmni) y los conjuntos de datos (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
Las investigaciones existentes adoptan cada vez más mecanismos centrados en la memoria para procesar contextos largos de manera segmentada, siendo la gestión eficaz de la memoria una de las capacidades clave que permite a los modelos de lenguaje extenso propagar información a lo largo de toda la secuencia. Por tanto, es crucial utilizar modelos de recompensa (MR) para evaluar automáticamente y con fiabilidad la calidad de la memoria. En este trabajo presentamos MemoryRewardBench, el primer benchmark diseñado para estudiar sistemáticamente la capacidad de los MR para evaluar procesos de gestión de memoria a largo plazo. MemoryRewardBench abarca tanto tareas de comprensión de contextos extensos como de generación de contenido prolongado, incluyendo 10 escenarios distintos con diferentes patrones de gestión de memoria y longitudes de contexto que van desde 8.000 hasta 128.000 tokens. Las evaluaciones realizadas sobre 13 MR de vanguardia revelan una reducción en la brecha de rendimiento entre modelos de código abierto y propietarios, observándose que los modelos de nueva generación superan consistentemente a sus predecesores independientemente de su número de parámetros. Además, exponemos las capacidades y limitaciones fundamentales de los MR actuales para evaluar la gestión de memoria en modelos de lenguaje extenso bajo diversos escenarios.
Presentamos LightOnOCR-2-1B, un modelo de visión y lenguaje multilingüe de extremo a extremo con 1B de parámetros que convierte imágenes de documentos (por ejemplo, archivos PDF) en texto limpio y ordenado de forma natural, sin necesidad de frágiles pipelines de OCR. Entrenado con una mezcla de destilación a gran escala y de alta calidad que abarca ampliamente escaneos, documentos en francés y PDFs científicos, LightOnOCR-2 logra resultados de vanguardia en OlmOCR-Bench, siendo 9 veces más pequeño y sustancialmente más rápido que los mejores modelos anteriores. Además, extendemos el formato de salida para predecir cuadros delimitadores normalizados para imágenes incrustadas, introduciendo localización durante el preentrenamiento mediante una estrategia de reanudación y refinándola con RLVR utilizando recompensas basadas en IoU. Finalmente, mejoramos la robustez mediante promediado de checkpoints y fusión por aritmética de tareas. Publicamos los checkpoints del modelo bajo licencia Apache 2.0, y liberamos públicamente el conjunto de datos y la evaluación LightOnOCR-bbox-bench bajo sus respectivas licencias.
Lograr un rendimiento a nivel humano en Navegación con Visión y Lenguaje (VLN) requiere que un agente embodado comprenda conjuntamente instrucciones multimodales y contexto visual-espacial, mientras razona sobre largas secuencias de acciones. Trabajos recientes, como NavCoT y NavGPT-2, demuestran el potencial del razonamiento en Cadena de Pensamiento (CoT) para mejorar la interpretabilidad y la planificación a largo plazo. Además, extensiones multimodales como OctoNav-R1 y CoT-VLA validan aún más al CoT como una vía prometedora hacia un razonamiento de navegación similar al humano. Sin embargo, los enfoques existentes presentan desventajas críticas: los CoT puramente textuales carecen de fundamentación espacial y se sobreajustan fácilmente a las anotaciones escasas de los pasos de razonamiento, mientras que los CoT multimodales incurren en una severa inflación de *tokens* al generar observaciones visuales imaginadas, haciendo impracticable la navegación en tiempo real. En este trabajo, proponemos FantasyVLN, un marco de razonamiento implícito unificado que preserva los beneficios del razonamiento CoT sin la sobrecarga explícita de *tokens*. Específicamente, los *tokens* visuales imaginados se codifican en un espacio latente compacto utilizando un AutoRegresor Visual (VAR) preentrenado durante el entrenamiento del razonamiento CoT, y el modelo aprende conjuntamente a partir de modos CoT textuales, visuales y multimodales bajo una estrategia unificada de multi-CoT. En la inferencia, nuestro modelo realiza un mapeo directo de instrucción a acción mientras sigue beneficiándose de representaciones conscientes del razonamiento. Experimentos exhaustivos en LH-VLN muestran que nuestro enfoque logra una navegación consciente del razonamiento y en tiempo real, mejorando las tasas de éxito y la eficiencia mientras reduce la latencia de inferencia en un orden de magnitud en comparación con los métodos CoT explícitos.
La búsqueda agéntica ha surgido recientemente como un paradigma poderoso, en el que un agente intercala razonamiento de múltiples pasos con recuperación bajo demanda para resolver preguntas complejas. A pesar de su éxito, cómo diseñar un recuperador para la búsqueda agéntica sigue estando en gran medida inexplorado. Los agentes de búsqueda existentes suelen depender de recuperadores basados en similitud, mientras que los pasajes similares no siempre son útiles para la generación de la respuesta final. En este artículo, proponemos un novedoso marco de entrenamiento para recuperadores específicamente diseñado para la búsqueda agéntica. A diferencia de los recuperadores diseñados para la generación aumentada por recuperación (RAG) de un solo turno, que solo dependen de la utilidad local del pasaje, proponemos utilizar tanto la relevancia local consulta-pasaje como la corrección global de la respuesta para medir la utilidad del pasaje en una búsqueda agéntica de múltiples turnos. Además, introducimos una estrategia de entrenamiento iterativo, en la que el agente de búsqueda y el recuperador se optimizan bidireccional e iterativamente. A diferencia de los recuperadores RAG, que se entrenan una sola vez con preguntas fijas, nuestro recuperador se mejora continuamente utilizando consultas evolutivas y de mayor calidad provenientes del agente. Experimentos exhaustivos en siete benchmarks de QA de salto único y múltiples saltos demuestran que nuestro recuperador, denominado , supera consistentemente a los baselines sólidos en diferentes agentes de búsqueda. Nuestros códigos están disponibles en: https://github.com/8421BCD/Agentic-R.
A pesar de los avances recientes, los modelos fundacionales médicos aún tienen dificultades para unificar la comprensión visual y la generación, ya que estas tareas tienen objetivos inherentemente conflictivos: abstracción semántica versus reconstrucción a nivel de píxel. Los enfoques existentes, típicamente basados en arquitecturas autorregresivas de parámetros compartidos, frecuentemente conducen a un rendimiento comprometido en una o ambas tareas. Para abordar esto, presentamos UniX, un modelo fundacional médico unificado de próxima generación para la comprensión y generación de radiografías de tórax. UniX desacopla las dos tareas en una rama autorregresiva para la comprensión y una rama de difusión para la generación de alta fidelidad. Crucialmente, se introduce un mecanismo de autoatención cross-modal para guiar dinámicamente el proceso de generación con características de comprensión. Junto con un riguroso pipeline de limpieza de datos y una estrategia de entrenamiento multi-etapa, esta arquitectura permite una colaboración sinérgica entre tareas mientras aprovecha las fortalezas de los modelos de difusión para una generación superior. En dos benchmarks representativos, UniX logra una mejora del 46.1% en el rendimiento de comprensión (Micro-F1) y una ganancia del 24.2% en la calidad de generación (FD-RadDino), utilizando solo un cuarto de los parámetros de LLM-CXR. Al lograr un rendimiento comparable al de modelos específicos por tarea, nuestro trabajo establece un paradigma escalable para la comprensión y generación sinérgica de imágenes médicas. Los códigos y modelos están disponibles en https://github.com/ZrH42/UniX.
Los métodos de búsqueda guiada por recompensas han demostrado un gran potencial para mejorar los agentes que utilizan herramientas al guiar eficazmente el muestreo y la exploración en espacios de acción complejos. Como diseño central, estos métodos de búsqueda utilizan modelos de recompensa de proceso (PRM) para proporcionar recompensas a nivel de paso, permitiendo una monitorización más granular. Sin embargo, existe una falta de benchmarks de evaluación sistemáticos y fiables para los PRM en entornos de uso de herramientas. En este artículo, presentamos ToolPRMBench, un benchmark a gran escala diseñado específicamente para evaluar PRM para agentes que utilizan herramientas. ToolPRMBench se construye sobre varios benchmarks representativos de uso de herramientas y convierte las trayectorias de los agentes en casos de prueba a nivel de paso. Cada caso contiene el historial de interacción, una acción correcta, una alternativa plausible pero incorrecta y metadatos relevantes de las herramientas. Utilizamos respectivamente el muestreo offline para aislar errores locales de un solo paso y el muestreo online para capturar fallos realistas de múltiples pasos a partir de ejecuciones completas de los agentes. Se propone un pipeline de verificación con múltiples LLM para reducir el ruido en las etiquetas y garantizar la calidad de los datos. Realizamos extensos experimentos con grandes modelos de lenguaje, PRM generales y PRM especializados en herramientas en ToolPRMBench. Los resultados revelan diferencias claras en la efectividad de los PRM y destacan el potencial de los PRM especializados para el uso de herramientas. El código y los datos se publicarán en https://github.com/David-Li0406/ToolPRMBench.
Los Modelos de Lenguaje a Gran Escala (LLM) actuales exhiben una desconexión modal crítica: poseen un vasto conocimiento semántico pero carecen de una base procedimental para respetar las leyes inmutables del mundo físico. En consecuencia, aunque estos agentes funcionan implícitamente como modelos del mundo, sus simulaciones a menudo sufren de alucinaciones físicas, generando planes que son lógicamente sólidos pero físicamente inejecutables. Las estrategias de alineación existentes se basan predominantemente en entrenamiento o ajuste fino intensivos en recursos, que intentan comprimir reglas ambientales dinámicas en parámetros de modelo estáticos. Sin embargo, dicha encapsulación paramétrica es inherentemente rígida, luchando por adaptarse a la variabilidad abierta de las dinámicas físicas sin un costoso reentrenamiento continuo. Para cerrar esta brecha, presentamos WorldMind, un marco que construye autónomamente un Repositorio de Conocimiento Mundial simbólico mediante la síntesis de retroalimentación ambiental. Específicamente, unifica la Experiencia de Procesos para hacer cumplir la viabilidad física a través de errores de predicción y la Experiencia de Objetivos para guiar la optimalidad de la tarea mediante trayectorias exitosas. Los experimentos en EB-ALFRED y EB-Habitat demuestran que WorldMind logra un rendimiento superior en comparación con los modelos de referencia, con una notable transferibilidad entre modelos y entornos.
El autoaprendizaje con modelos de lenguaje grandes ha surgido como un paradigma prometedor para lograr una inteligencia artificial con capacidad de auto-mejora. Sin embargo, los marcos de autoaprendizaje existentes a menudo sufren de inestabilidad en la optimización, debido a (i) objetivos no estacionarios inducidos por la retroalimentación de recompensas dependientes del resolvedor para el cuestionador, y (ii) errores de *bootstrapping* provenientes de pseudoetiquetas autogeneradas utilizadas para supervisar al resolvedor. Para mitigar estos desafíos, presentamos DARC (*Decoupled Asymmetric Reasoning Curriculum*), un marco de trabajo en dos etapas que estabiliza el proceso de auto-evolución. Primero, entrenamos al cuestionador para sintetizar preguntas calibradas en dificultad, condicionadas por niveles de dificultad explícitos y corpus externos. Segundo, entrenamos al resolvedor con un mecanismo de auto-destilación asimétrico, donde un profesor aumentado con documentos genera pseudoetiquetas de alta calidad para supervisar al estudiante (resolvedor) que carece de acceso a documentos. Los resultados empíricos demuestran que DARC es independiente del modelo, produciendo una mejora promedio de 10.9 puntos en nueve benchmarks de razonamiento y tres modelos base. Además, DARC supera consistentemente a todas las líneas base y se aproxima al rendimiento de modelos totalmente supervisados sin depender de anotaciones humanas.El código está disponible en https://github.com/RUCBM/DARC.
Los sistemas de LLM en producción a menudo dependen de modelos separados para la seguridad y otros pasos con alta carga de clasificación, lo que incrementa la latencia, la huella de VRAM y la complejidad operativa. Nosotros, en cambio, reutilizamos el cómputo que ya ha sido pagado por el LLM de servicio: entrenamos sondas ligeras sobre sus estados ocultos y predecimos las etiquetas en la misma pasada hacia adelante utilizada para la generación. Enmarcamos la clasificación como una selección de representaciones sobre el tensor completo de estados ocultos (token-capa), en lugar de comprometernos con un token fijo o una capa fija (por ejemplo, los logits del primer token o el pooling de la última capa). Para implementar esto, introducimos un agregador de dos etapas que (i) resume los tokens dentro de cada capa y (ii) agrega los resúmenes de las capas para formar una única representación para la clasificación. Instanciamos esta plantilla con pooling directo, una compuerta de atención puntuadora de 100K parámetros, y una sonda de autoatención multi-cabezal (MHA) de precisión reducida con hasta 35 millones de parámetros entrenables. En diversos benchmarks de seguridad y sentimiento, nuestras sondas mejoran el rendimiento respecto a la reutilización basada únicamente en logits (por ejemplo, MULI) y son competitivas con líneas base específicas de tarea sustancialmente más grandes, mientras preservan una latencia cercana a la del servicio y evitan los costes de VRAM y latencia de un pipeline separado con modelo de guardia.
Las explicaciones basadas en conceptos cuantifican cómo los conceptos de alto nivel (por ejemplo, el género o la experiencia) influyen en el comportamiento del modelo, lo cual es crucial para los responsables de la toma de decisiones en dominios de alto riesgo. Trabajos recientes evalúan la fidelidad de dichas explicaciones comparándolas con efectos causales de referencia estimados a partir de contrafactuales. En la práctica, los puntos de referencia existentes dependen de contrafactuales costosos escritos por humanos que sirven como un proxy imperfecto. Para abordar esto, presentamos un marco para construir conjuntos de datos que contienen pares contrafactuales estructurales: LIBERTy (Punto de Referencia Intervencional Basado en LLM para Explicabilidad con Objetivos de Referencia). LIBERTy se basa en Modelos Causales Estructurales (SCM) explícitamente definidos de la generación de texto; las intervenciones sobre un concepto se propagan a través del SCM hasta que un LLM genera el contrafactual. Introducimos tres conjuntos de datos (detección de enfermedades, cribado de currículos y predicción de violencia en el lugar de trabajo) junto con una nueva métrica de evaluación, la fidelidad de orden. Utilizándolos, evaluamos una amplia gama de métodos en cinco modelos e identificamos un margen de mejora sustancial para las explicaciones basadas en conceptos. LIBERTy también permite un análisis sistemático de la sensibilidad del modelo a las intervenciones: encontramos que los LLM propietarios muestran una sensibilidad notablemente reducida a los conceptos demográficos, probablemente debido a mitigaciones posteriores al entrenamiento. En general, LIBERTy proporciona un punto de referencia muy necesario para desarrollar métodos de explicabilidad fieles.
Los agentes de aprendizaje por refuerzo basados en píxeles a menudo fallan ante cambios puramente visuales en la distribución, incluso cuando la dinámica latente y las recompensas permanecen inalteradas. Sin embargo, los puntos de referencia existentes entrelazan múltiples fuentes de variación y dificultan un análisis sistemático. Presentamos KAGE-Env, una plataforma 2D nativa de JAX que factoriza el proceso de observación en ejes visuales controlables de forma independiente, manteniendo fijo el problema de control subyacente. Por diseño, la variación de un eje visual afecta al rendimiento únicamente a través de la distribución de acciones condicionada al estado inducida en una política de píxeles, proporcionando una abstracción limpia para la generalización visual. Sobre este entorno, definimos KAGE-Bench, un benchmark de seis suites de ejes conocidos que comprende 34 pares de configuraciones de entrenamiento-evaluación que aíslan cambios visuales individuales. Utilizando un baseline estándar PPO-CNN, observamos fallos importantes dependientes del eje: los cambios en el fondo y las variaciones fotométricas suelen colapsar el éxito, mientras que las alteraciones en la apariencia del agente son comparativamente benignas. Varios cambios preservan el movimiento hacia adelante pero interrumpen la finalización de la tarea, demostrando que la recompensa por sí sola puede ocultar fallos de generalización. Finalmente, la implementación completamente vectorizada en JAX permite hasta 33 millones de pasos de entorno por segundo en una sola GPU, posibilitando barridos rápidos y reproducibles sobre factores visuales. Código: https://avanturist322.github.io/KAGEBench/.
Las trayectorias de razonamiento de cadena de pensamiento (CoT) largas proporcionan señales de supervisión ricas para destilar el razonamiento desde los LLMs maestros hacia los estudiantiles. Sin embargo, tanto trabajos previos como nuestros experimentos muestran que las trayectorias de maestros más potentes no necesariamente producen estudiantes mejores, lo que subraya la importancia de la idoneidad de los datos para el estudiante en la destilación. Los métodos existentes evalúan la idoneidad principalmente mediante la verosimilitud del estudiante, favoreciendo trayectorias que se alinean estrechamente con el comportamiento actual del modelo pero pasando por alto otras más informativas. Para abordar esto, proponemos la *Ratio de Sorpresa por Rango* (RSR, por sus siglas en inglés), una métrica simple que captura tanto la alineación como la informatividad para evaluar la idoneidad de una trayectoria de razonamiento. La RSR está motivada por la observación de que las trayectorias efectivas suelen combinar una probabilidad absoluta baja con tokens relativamente bien rankeados bajo el modelo estudiante, equilibrando la fuerza de la señal de aprendizaje y la alineación conductual. Concretamente, la RSR se define como la ratio entre el rango promedio por token de una trayectoria y su log-verosimilitud negativa promedio, y es sencilla de calcular e interpretar. En cinco modelos estudiantiles y trayectorias de razonamiento de 11 maestros diversos, la RSR se correlaciona fuertemente con el rendimiento posterior al entrenamiento (Spearman promedio de 0.86), superando a las métricas existentes. Además, demostramos su utilidad práctica tanto en la selección de trayectorias como en la selección de maestros.
El reconocimiento fonético (RF) constituye la interfaz atómica para el modelado independiente del idioma en el procesamiento del habla multilingüe y el análisis fonético. A pesar de los esfuerzos prolongados en el desarrollo de sistemas de RF, las evaluaciones actuales solo miden la precisión superficial de la transcripción. Presentamos PRiSM, el primer benchmark de código abierto diseñado para exponer puntos ciegos en la percepción fonética mediante la evaluación intrínseca y extrínseca de sistemas de RF. PRiSM estandariza la evaluación basada en transcripción y evalúa la utilidad descendente en entornos clínicos, educativos y multilingües mediante sondas de transcripción y representación. Nuestros hallazgos indican que la exposición diversa a idiomas durante el entrenamiento es clave para el rendimiento del RF, los modelos codificador-CTC son los más estables, y los modelos de RF especializados aún superan a los Modelos de Lenguaje de Audio a Gran Escala. PRiSM publica código, recetas y conjuntos de datos para impulsar el campo hacia modelos de habla multilingües con capacidad fonética robusta: https://github.com/changelinglab/prism.
El aprendizaje por refuerzo (RL) basado en resultados ha demostrado ser eficaz para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLM). Sin embargo, el RL estándar asigna crédito únicamente a nivel de la respuesta final, penalizando trazas de razonamiento completas cuando el resultado es incorrecto y reforzando uniformemente todos los pasos cuando es correcto. Como consecuencia, los pasos intermedios correctos pueden verse desincentivados en trazas fallidas, mientras que pasos espurios pueden ser reforzados en las exitosas. Nos referimos a este modo de fallo como el problema de la asignación de crédito. Aunque un remedio natural es entrenar un modelo de recompensa de proceso, optimizar dichos modelos con precisión para identificar pasos de razonamiento correctivos sigue siendo un desafío. Introducimos *Intervention Training* (InT), un paradigma de entrenamiento en el que el modelo realiza una asignación de crédito de grano fino sobre sus propias trazas de razonamiento, proponiendo correcciones breves y específicas que redirigen las trayectorias hacia una mayor recompensa. Utilizando las soluciones de referencia comúnmente disponibles en los conjuntos de datos de razonamiento matemático y explotando el hecho de que verificar una solución generada por el modelo es más fácil que generar una correcta desde cero, el modelo identifica el primer error en su razonamiento y propone una intervención de un solo paso para redirigir la trayectoria hacia la solución correcta. Luego aplicamos el ajuste fino supervisado (SFT) al *rollout on-policy* hasta el punto del error concatenado con la intervención, localizando así el error en el paso específico que causó el fallo. Demostramos que el modelo resultante sirve como una inicialización mucho mejor para el entrenamiento con RL. Tras ejecutar InT y el posterior ajuste fino con RL, mejoramos la precisión en casi un 14% respecto a un modelo base de 4B de parámetros en IMO-AnswerBench, superando a modelos de código abierto más grandes como gpt-oss-20b.
Presentamos una metodología híbrida para generar conjuntos de datos a gran escala de relaciones semánticas en lenguas de recursos limitados, demostrada mediante un corpus integral de relaciones semánticas para el turco. Nuestro enfoque integra tres fases: (1) embeddings de FastText con Agrupamiento Jerárquico Aglomerativo para identificar clusters semánticos, (2) Gemini 2.5-Flash para la clasificación automática de relaciones semánticas, y (3) integración con fuentes léxicas curadas. El conjunto de datos resultante comprende 843,000 pares semánticos únicos en turco, distribuidos en tres tipos de relaciones (sinónimos, antónimos, co-hipónimos), lo que representa un incremento de escala de 10x sobre los recursos existentes a un costo mínimo (65 USD). Validamos el conjunto de datos mediante dos tareas posteriores: un modelo de embeddings que logra un 90% de precisión top-1 en recuperación y un modelo de clasificación que alcanza un 90% de F1-macro. Nuestro protocolo escalable aborda la escasez crítica de datos en PLN para el turco y demuestra aplicabilidad para otras lenguas de recursos limitados. Liberamos públicamente el conjunto de datos y los modelos.
Los embeddings neuronales presentan una notable limitación: no pueden distinguir de forma fiable entre sinónimos y antónimos. En consecuencia, aumentar los umbrales de similitud a menudo no logra evitar que los opuestos se agrupen. Hemos construido un sistema de agrupación semántica a gran escala diseñado específicamente para abordar este problema de frente. Nuestra canalización procesa 15 millones de elementos léxicos, evalúa 520 millones de relaciones potenciales y genera finalmente 2.9 millones de agrupaciones semánticas de alta precisión. El sistema realiza tres contribuciones principales. Primero, presentamos un conjunto de datos etiquetado de 843,000 pares de conceptos que abarcan sinonimia, antonimia y co-hiponimia, construido mediante aumentación con el modelo de lenguaje grande Gemini 2.5-Flash y verificado utilizando recursos diccionariales curados por humanos. Segundo, proponemos un discriminador especializado de relaciones semánticas de tres vías que alcanza un 90% de F1-macro, permitiendo una desambiguación robusta más allá de la similitud cruda de embeddings. Tercero, introducimos un novedoso algoritmo de agrupación de blanda a dura que mitiga la deriva semántica, previniendo cadenas transitivas erróneas (por ejemplo, calor -> picante -> dolor -> depresión) mientras resuelve simultáneamente la polisemia. Nuestro enfoque emplea un procedimiento de expansión-poda en dos etapas consciente de la topología, con votación topológica, asegurando que cada término sea asignado a exactamente un grupo semánticamente coherente. El recurso resultante permite una búsqueda semántica y una generación aumentada por recuperación de alta precisión, particularmente para lenguas morfológicamente ricas y de bajos recursos donde las bases de datos de sinónimos existentes siguen siendo escasas.
A medida que los modelos de lenguaje grande (LLM) se entrenan con corpus cada vez más opacos, se han propuesto ataques de inferencia de membresía (MIA) para auditar si se utilizaron textos protegidos por derechos de autor durante el entrenamiento, a pesar de las crecientes preocupaciones sobre su fiabilidad en condiciones realistas. Nos preguntamos si los MIAs pueden servir como prueba admisible en disputas de derechos de autor adversarias, donde un desarrollador de modelos acusado podría ofuscar los datos de entrenamiento preservando el contenido semántico, y formalizamos este escenario mediante un protocolo de comunicación juez-fiscal-acusado. Para probar la robustez bajo este protocolo, presentamos SAGE (Extracción Guiada por SAE con Conciencia Estructural), un marco de paráfrasis guiado por Autoencoders Dispersos (SAE) que reescribe los datos de entrenamiento para alterar la estructura léxica mientras preserva el contenido semántico y la utilidad subsiguiente. Nuestros experimentos muestran que los MIAs de vanguardia se degradan cuando los modelos se ajustan con paráfrasis generadas por SAGE, lo que indica que sus señales no son robustas a transformaciones que preservan la semántica. Aunque persiste cierta filtración en ciertos regímenes de ajuste fino, estos resultados sugieren que los MIAs son frágiles en entornos adversarios e insuficientes, por sí solos, como mecanismo independiente para la auditoría de derechos de autor de LLMs.
Presentamos SciCoQA, un conjunto de datos para detectar discrepancias entre publicaciones científicas y sus bases de código, con el fin de garantizar implementaciones fieles. Construimos SciCoQA a partir de issues de GitHub y artículos de reproducibilidad, y para escalar nuestro conjunto de datos, proponemos un método de generación de datos sintéticos para construir discrepancias artículo-código. Analizamos en detalle las discrepancias artículo-código y proponemos tipos y categorías de discrepancias para comprender mejor los desajustes que se producen. En total, nuestro conjunto de datos consta de 611 discrepancias artículo-código (81 reales, 530 sintéticas), que abarcan diversas disciplinas de la ciencia computacional, como la IA, la Física, la Biología Cuantitativa y otras. Nuestra evaluación de 21 LLM subraya la dificultad de SciCoQA, particularmente para los casos que implican detalles omitidos en el artículo, entradas de contexto largo y datos ajenos al corpus de preentrenamiento de los modelos. El modelo con mejor rendimiento en nuestra evaluación, GPT-5, solo puede detectar el 45.7% de las discrepancias artículo-código del mundo real.
El Descenso de Gradiente Estocástico con Privacidad Diferencial (DP-SGD) es el paradigma dominante para el entrenamiento privado, pero sus limitaciones fundamentales bajo las definiciones de privacidad adversaria del peor caso siguen sin comprenderse bien. Analizamos DP-SGD en el marco de la privacidad diferencial f, que caracteriza la privacidad mediante curvas de compensación de prueba de hipótesis, y estudiamos el muestreo barajado en una sola época con M actualizaciones de gradiente. Derivamos una cota superior subóptima explícita para la curva de compensación alcanzable. Este resultado induce una cota inferior geométrica para la separación κ, que es la distancia máxima entre la curva de compensación del mecanismo y la línea ideal de adivinación aleatoria. Dado que una gran separación implica una ventaja adversaria significativa, una privacidad significativa requiere un κ pequeño. Sin embargo, demostramos que imponer una separación pequeña conlleva una cota inferior estricta para el multiplicador de ruido gaussiano σ, lo que limita directamente la utilidad alcanzable. En particular, bajo el modelo adversario estándar del peor caso, el DP-SGD barajado debe satisfacer σ ≥ 1/√(2 ln M) o κ ≥ 1/8 (1 - 1/(4π ln M)), y por lo tanto no puede lograr simultáneamente una privacidad fuerte y una alta utilidad. Aunque esta cota se desvanece asintóticamente cuando M → ∞, la convergencia es extremadamente lenta: incluso para números de actualizaciones relevantes en la práctica, la magnitud de ruido requerida sigue siendo sustancial. Además, demostramos que la misma limitación se extiende al submuestreo de Poisson hasta factores constantes. Nuestros experimentos confirman que los niveles de ruido implicados por esta cota conducen a una degradación significativa de la precisión en configuraciones de entrenamiento realistas, mostrando así un cuello de botella crítico en DP-SGD bajo los supuestos adversarios estándar del peor caso.
La sintonización por instrucciones es un paradigma estándar para adaptar modelos de lenguaje grandes (LLM), pero los conjuntos de datos de instrucciones modernos son extensos, ruidosos y redundantes, lo que hace que el ajuste fino con todos los datos sea costoso y a menudo innecesario. Los métodos de selección de datos existentes o bien construyen almacenes de datos de gradientes costosos o asignan puntuaciones estáticas a partir de un proxy débil, ignorando en gran medida la incertidumbre evolutiva y, por lo tanto, pasando por alto una fuente clave de interpretabilidad de los LLM. Proponemos GRADFILTERING, un marco de selección de datos agnóstico al objetivo y consciente de la incertidumbre, que utiliza un pequeño proxy GPT-2 con un conjunto de LoRA y agrega los gradientes por ejemplo en una utilidad de Relación Señal-Ruido del Gradiente (G-SNR). Nuestro método iguala o supera a subconjuntos aleatorios y líneas de base sólidas en la mayoría de las evaluaciones de LLM-como-juez, así como en la evaluación humana. Además, los subconjuntos seleccionados por GRADFILTERING convergen más rápido que los filtros competitivos bajo el mismo presupuesto computacional, lo que refleja el beneficio de una puntuación consciente de la incertidumbre.
La detección de cambios por teledetección tiene como objetivo localizar y caracterizar modificaciones en escenas entre dos instantes temporales, siendo fundamental en aplicaciones como la monitorización ambiental y la evaluación de desastres. Paralelamente, los modelos visuales autorregresivos (VAR) han demostrado recientemente una capacidad impresionante para la generación de imágenes, pero su adopción en tareas discriminativas a nivel de píxel sigue siendo limitada debido a su escasa controlabilidad, un rendimiento subóptimo en predicción densa y el sesgo de exposición. Presentamos RemoteVAR, un nuevo marco de detección de cambios basado en VAR que aborda estas limitaciones condicionando la predicción autorregresiva sobre características bitemporales fusionadas multi-resolución mediante atención cruzada, y empleando una estrategia de entrenamiento autorregresivo diseñada específicamente para la predicción de mapas de cambio. Experimentos exhaustivos en benchmarks estándar de detección de cambios demuestran que RemoteVAR proporciona mejoras consistentes y significativas respecto a líneas base sólidas basadas en difusión y transformers, estableciendo una alternativa autorregresiva competitiva para la detección de cambios en teledetección. El código estará disponible en https://github.com/yilmazkorkmaz1/RemoteVAR.
Los agentes de datos basados en LLM recientes buscan automatizar tareas de ciencia de datos, desde análisis de datos hasta aprendizaje profundo. Sin embargo, la naturaleza abierta de los problemas reales de ciencia de datos, que a menudo abarcan múltiples taxonomías y carecen de respuestas estándar, plantea un desafío significativo para la evaluación. Para abordar esto, presentamos DSAEval, un benchmark que comprende 641 problemas reales de ciencia de datos basados en 285 conjuntos de datos diversos, cubriendo tanto datos estructurados como no estructurados (por ejemplo, visión y texto). DSAEval incorpora tres características distintivas: (1) Percepción del Entorno Multimodal, que permite a los agentes interpretar observaciones de múltiples modalidades incluyendo texto y visión; (2) Interacciones de Múltiples Consultas, que reflejan la naturaleza iterativa y acumulativa de los proyectos reales de ciencia de datos; y (3) Evaluación Multidimensional, que proporciona una evaluación holística a través del razonamiento, código y resultados. Evaluamos sistemáticamente 11 LLMs agentes avanzados utilizando DSAEval. Nuestros resultados muestran que Claude-Sonnet-4.5 logra el rendimiento general más fuerte, GPT-5.2 es el más eficiente, y MiMo-V2-Flash es el más rentable. Además, demostramos que la percepción multimodal mejora consistentemente el rendimiento en tareas relacionadas con visión, con ganancias que van del 2.04% al 11.30%. En general, mientras que los agentes de ciencia de datos actuales se desempeñan bien en datos estructurados y flujos de trabajo de análisis de datos rutinarios, persisten desafíos sustanciales en dominios no estructurados. Finalmente, ofrecemos perspectivas críticas y delineamos futuras direcciones de investigación para avanzar en el desarrollo de agentes de ciencia de datos.
Muchos estudiantes carecen de acceso a mentores expertos en investigación. Nos preguntamos si un mentor de IA puede guiar a estudiantes universitarios desde una idea hasta un artículo científico. Desarrollamos METIS, un asistente aumentado con herramientas y consciente de las etapas del proceso, que incluye búsqueda bibliográfica, pautas curadas, verificaciones metodológicas y memoria. Evaluamos METIS frente a GPT-5 y Claude Sonnet 4.5 en seis etapas de escritura, utilizando preferencias por pares con LLM-como-juez, rúbricas con personajes estudiantiles, tutorías multiturno breves y verificaciones de evidencia/cumplimiento. En 90 indicaciones de un solo turno, los jueces LLM prefirieron a METIS sobre Claude Sonnet 4.5 en un 71% y sobre GPT-5 en un 54%. Las puntuaciones de los estudiantes (claridad/accionabilidad/adecuación a restricciones; 90 indicaciones x 3 jueces) son más altas en todas las etapas. En sesiones multiturno (cinco escenarios/agente), METIS produce una calidad final ligeramente superior a la de GPT-5. Las mejoras se concentran en las etapas basadas en documentos (D-F), lo que es coherente con el enrutamiento consciente de la etapa y el uso de fundamentos. Los modos de fallo incluyen enrutamiento prematuro de herramientas, fundamentación superficial y ocasional clasificación errónea de la etapa.
Las expresiones lingüísticas de emociones como la depresión, la ansiedad y los estados relacionados con el trauma son omnipresentes en las notas clínicas, los diálogos de consejería y las comunidades de salud mental en línea. El reconocimiento preciso de estas emociones es esencial para el triaje clínico, la evaluación de riesgos y la intervención oportuna. Aunque los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han demostrado una fuerte capacidad de generalización en tareas de análisis de emociones, su fiabilidad diagnóstica en entornos médicos de alto riesgo y con gran carga contextual sigue siendo muy sensible al diseño de los *prompts*. Además, los métodos existentes enfrentan dos desafíos clave: la comorbilidad emocional, en la que múltiples estados emocionales interconectados complican la predicción, y la exploración ineficiente de indicios clínicamente relevantes. Para abordar estos desafíos, proponemos APOLO (Optimización Automatizada de *Prompts* para el Diagnóstico Lingüístico de Emociones), un marco que explora sistemáticamente un espacio de *prompts* más amplio y de grano más fino para mejorar la eficiencia y robustez diagnósticas. APOLO formula el refinamiento de instrucciones como un Proceso de Decisión Markoviano Parcialmente Observable y adopta un mecanismo de colaboración multiagente que involucra los roles de Planificador, Maestro, Crítico, Estudiante y Objetivo. Dentro de este marco de bucle cerrado, el Planificador define una trayectoria de optimización, mientras que los agentes Maestro-Crítico-Estudiante refinan iterativamente los *prompts* para mejorar la estabilidad y efectividad del razonamiento, y el agente Objetivo determina si continuar la optimización basándose en la evaluación del rendimiento. Los resultados experimentales muestran que APOLO mejora consistentemente la precisión y robustez diagnósticas en puntos de referencia estratificados y específicos del dominio, demostrando un paradigma escalable y generalizable para aplicaciones confiables de LLM en la atención de la salud mental.
El aprendizaje activo (AL) tiene el potencial de reducir drásticamente los costes de anotación en la segmentación de imágenes biomédicas 3D, donde el etiquetado experto de datos volumétricos es a la vez lento y costoso. Sin embargo, los métodos de AL existentes no logran superar de forma consistente a los baselines mejorados de muestreo aleatorio adaptados a datos 3D, dejando al campo sin una solución fiable. Presentamos Class-stratified Scheduled Power Predictive Entropy (ClaSP PE), una estrategia de consulta simple y efectiva que aborda dos limitaciones clave de los métodos estándar de AL basados en incertidumbre: el desequilibrio de clases y la redundancia en las selecciones iniciales. ClaSP PE combina una consulta estratificada por clases para garantizar la cobertura de estructuras infrarrepresentadas y la aplicación de ruido de potencia en escala logarítmica con un programa de decaimiento para imponer diversidad en las consultas durante las etapas iniciales del AL y fomentar la explotación posterior. En nuestra evaluación en 24 escenarios experimentales utilizando cuatro conjuntos de datos biomédicos 3D dentro del benchmark integral nnActive, ClaSP PE es el único método que generalmente supera a los baselines aleatorios mejorados en términos de calidad de segmentación con ganancias estadísticamente significativas, manteniéndose además eficiente en anotaciones. Además, simulamos explícitamente la aplicación en el mundo real probando nuestro método en cuatro conjuntos de datos nunca vistos sin adaptación manual, donde todos los parámetros del experimento se establecen según directrices predefinidas. Los resultados confirman que ClaSP PE se generaliza robustamente a nuevas tareas sin requerir ajustes específicos por conjunto de datos. Dentro del marco nnActive, presentamos evidencia convincente de que un método de AL puede superar consistentemente a los baselines aleatorios adaptados a la segmentación 3D, tanto en rendimiento como en eficiencia de anotación, en un escenario realista y cercano a la producción. Nuestra implementación de código abierto y nuestras directrices de despliegue claras lo hacen fácilmente aplicable en la práctica. El código está disponible en https://github.com/MIC-DKFZ/nnActive.