Artículos de investigación en IA seleccionados diariamente con traducciones
La evolución de los Modelos de Lenguaje a Gran Escala (LLMs) hacia agentes autónomos ha ampliado el alcance de la codificación con IA, desde la generación de código localizada hasta la resolución de problemas complejos a nivel de repositorio y basada en ejecución. Sin embargo, los puntos de referencia actuales evalúan predominantemente la lógica del código en contextos estáticos, descuidando los requisitos dinámicos de proceso completo de la ingeniería del mundo real, particularmente en el desarrollo backend que exige una configuración rigurosa del entorno y el despliegue de servicios. Para abordar esta brecha, presentamos ABC-Bench, un punto de referencia diseñado explícitamente para evaluar la codificación backend agéntica dentro de un flujo de trabajo realista y ejecutable. Utilizando una canalización automatizada escalable, seleccionamos 224 tareas prácticas que abarcan 8 lenguajes y 19 frameworks de repositorios de código abierto. A diferencia de evaluaciones anteriores, ABC-Bench requiere que los agentes gestionen todo el ciclo de vida del desarrollo, desde la exploración del repositorio hasta la instanciación de servicios containerizados, y que superen pruebas externas de API de extremo a extremo. Nuestra evaluación exhaustiva revela que incluso los modelos más avanzados tienen dificultades para ofrecer un rendimiento confiable en estas tareas holísticas, destacando una disparidad sustancial entre las capacidades actuales de los modelos y las demandas de la ingeniería backend práctica. Nuestro código está disponible en https://github.com/OpenMOSS/ABC-Bench.
Los modelos de lenguaje grandes suelen resolver tareas de razonamiento complejo de manera más efectiva mediante el Pensamiento en Cadena (CoT), pero a costa de generar secuencias de tokens largas y de bajo ancho de banda. Los humanos, en cambio, a menudo razonan de forma flexible manteniendo una distribución sobre los siguientes pasos plausibles. Motivados por esto, proponemos Pensamiento Multiplex, un mecanismo de razonamiento flexible estocástico que, en cada paso de pensamiento, muestrea K tokens candidatos y agrega sus *embeddings* en un único token multiplex continuo. Esto preserva el *prior* de los *embeddings* del vocabulario y la dinámica de muestreo de la generación discreta estándar, a la vez que induce una distribución de probabilidad manejable sobre las secuencias multiplex. En consecuencia, las trayectorias multiplex pueden optimizarse directamente con aprendizaje por refuerzo (RL) *on-policy*. Es importante destacar que el Pensamiento Multiplex es auto-adaptativo: cuando el modelo está seguro, el token multiplex es casi discreto y se comporta como el CoT estándar; cuando está inseguro, representa de forma compacta múltiples siguientes pasos plausibles sin aumentar la longitud de la secuencia. En diversos benchmarks desafiantes de razonamiento matemático, el Pensamiento Multiplex supera consistentemente a los sólidos baselines de CoT discreto y RL, desde Pass@1 hasta Pass@1024, a la vez que produce secuencias más cortas. El código y los *checkpoints* están disponibles en https://github.com/GMLR-Penn/Multiplex-Thinking.
Los modelos fundacionales de segmentación con capacidad de interacción mediante prompts, como SAM3, han demostrado una fuerte capacidad de generalización a través de indicaciones interactivas y basadas en conceptos. Sin embargo, su aplicabilidad directa a la segmentación de imágenes médicas sigue siendo limitada debido a severos cambios de dominio, la ausencia de indicaciones espaciales privilegiadas y la necesidad de razonar sobre estructuras anatómicas y volumétricas complejas. Aquí presentamos Medical SAM3, un modelo fundacional para la segmentación universal de imágenes médicas guiada por prompts, obtenido mediante el ajuste fino completo de SAM3 en conjuntos de datos de imágenes médicas 2D y 3D a gran escala y heterogéneos, con máscaras de segmentación emparejadas y prompts de texto. Mediante un análisis sistemático de SAM3 original, observamos que su rendimiento se degrada sustancialmente en datos médicos, dependiendo su aparente competitividad en gran medida de fuertes priores geométricos, como las cajas delimitadoras derivadas de la verdad de terreno. Estos hallazgos motivan una adaptación completa del modelo que va más allá de la simple ingeniería de prompts. Al ajustar los parámetros del modelo SAM3 en 33 conjuntos de datos que abarcan 10 modalidades de imagen médica, Medical SAM3 adquiere representaciones robustas específicas del dominio mientras preserva la flexibilidad impulsada por prompts. Experimentos exhaustivos en órganos, modalidades de imagen y dimensionalidades demuestran ganancias de rendimiento consistentes y significativas, particularmente en escenarios desafiantes caracterizados por ambigüedad semántica, morfología compleja y contexto 3D de largo alcance. Nuestros resultados establecen a Medical SAM3 como un modelo fundacional de segmentación universal y guiado por texto para imágenes médicas, y destacan la importancia de la adaptación holística del modelo para lograr una segmentación robusta impulsada por prompts bajo un severo cambio de dominio. El código y el modelo estarán disponibles en https://github.com/AIM-Research-Lab/Medical-SAM3.
Evaluar con precisión la confianza del modelo es esencial para implementar modelos de lenguaje a gran escala (LLM) en dominios factuales de misión crítica. Si bien la generación aumentada por recuperación (RAG) se adopta ampliamente para mejorar el fundamento, la calibración de la confianza en entornos RAG sigue siendo poco comprendida. Realizamos un estudio sistemático en cuatro benchmarks, revelando que los LLM exhiben un rendimiento de calibración deficiente debido a contextos recuperados ruidosos. Específicamente, la evidencia contradictoria o irrelevante tiende a inflar la falsa certeza del modelo, conduciendo a una severa sobreconfianza. Para abordar esto, proponemos las Reglas NAACL (Reglas de Calibración de Confianza Conscientes del Ruido) para proporcionar una base fundamentada para resolver la sobreconfianza bajo ruido. Además, diseñamos NAACL, un marco de calibración consciente del ruido que sintetiza supervisión a partir de aproximadamente 2K ejemplos de HotpotQA guiados por estas reglas. Al realizar un ajuste fino supervisado (SFT) con estos datos, NAACL dota a los modelos de una conciencia intrínseca del ruido sin depender de modelos maestro más potentes. Los resultados empíricos muestran que NAACL produce ganancias sustanciales, mejorando las puntuaciones ECE en un 10.9% dentro del dominio y un 8.0% fuera del dominio. Al cerrar la brecha entre el ruido de recuperación y la calibración verbal, NAACL allana el camino para LLM tanto precisos como epistémicamente confiables.
Los modelos de lenguaje de gran tamaño pueden representar diversas personalidades, pero normalmente adoptan por defecto una identidad de Asistente útil cultivada durante el posentrenamiento. Investigamos la estructura del espacio de personalidades del modelo extrayendo direcciones de activación correspondientes a diversos arquetipos de personajes. En varios modelos diferentes, encontramos que el componente principal de este espacio de personalidades es un "Eje del Asistente", que captura el grado en que un modelo opera en su modo predeterminado de Asistente. Dirigirse hacia la dirección del Asistente refuerza comportamientos útiles e inofensivos; alejarse de ella aumenta la tendencia del modelo a identificarse con otras entidades. Además, alejarse con valores más extremos a menudo induce un estilo de expresión místico y teatral. Descubrimos que este eje también está presente en modelos preentrenados, donde principalmente promueve arquetipos humanos útiles como consultores y entrenadores, e inhibe los espirituales. Medir las desviaciones a lo largo del Eje del Asistente predice la "deriva de personalidad", un fenómeno en el que los modelos caen en comportamientos dañinos o extraños que no son característicos de su personalidad habitual. Encontramos que la deriva de personalidad a menudo es impulsada por conversaciones que exigen meta-reflexión sobre los procesos del modelo o que presentan usuarios emocionalmente vulnerables. Demostramos que restringir las activaciones a una región fija a lo largo del Eje del Asistente puede estabilizar el comportamiento del modelo en estos escenarios, incluso frente a jailbreaks adversarios basados en personalidades. Nuestros resultados sugieren que el posentrenamiento dirige a los modelos hacia una región particular del espacio de personalidades, pero solo los sujeta débilmente a ella, lo que motiva trabajar en estrategias de entrenamiento y dirección que anclen más profundamente a los modelos a una personalidad coherente.
La dirección de Modelos de Lenguaje Grandes (LLMs) mediante intervenciones en las activaciones ha surgido como una alternativa ligera al ajuste fino para la alineación y personalización. Trabajos recientes sobre Optimización de Preferencias Bidireccional (BiPO) demuestran que es posible aprender vectores de dirección densos directamente a partir de datos de preferencias, de manera similar a la Optimización Directa de Preferencias (DPO), lo que permite controlar la veracidad, las alucinaciones y los comportamientos de seguridad. Sin embargo, los vectores de dirección densos a menudo entrelazan múltiples factores latentes debido a la multi-semanticidad de las neuronas, lo que limita su efectividad y estabilidad en entornos de grano fino, como la alineación cultural, donde es necesario distinguir valores y comportamientos estrechamente relacionados (por ejemplo, entre culturas de Oriente Medio). En este artículo, proponemos Yet another Policy Optimization (YaPO), un método sin referencia que aprende vectores de dirección dispersos en el espacio latente de un Autoencoder Disperso (SAE). Al optimizar códigos dispersos, YaPO produce direcciones de dirección desenredadas, interpretables y eficientes. Empíricamente, demostramos que YaPO converge más rápido, logra un rendimiento más sólido y exhibe una estabilidad de entrenamiento mejorada en comparación con los métodos base que utilizan vectores densos. Más allá de la alineación cultural, YaPO se generaliza a una gama de comportamientos relacionados con la alineación, incluyendo alucinaciones, búsqueda de riqueza, jailbreak y búsqueda de poder. Es importante destacar que YaPO preserva el conocimiento general, sin mostrar degradación medible en MMLU. En general, nuestros resultados muestran que YaPO proporciona una receta general para la alineación eficiente, estable y de grano fino de los LLMs, con amplias aplicaciones en la controlabilidad y adaptación de dominio. El código y los datos asociados están disponibles públicamente en https://github.com/MBZUAI-Paris/YaPO.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) es muy eficaz para mejorar el razonamiento de los LLM; sin embargo, evidencia reciente muestra que modelos como Qwen 2.5 logran ganancias significativas incluso con recompensas espurias o incorrectas. Investigamos este fenómeno e identificamos una "Paradoja de la Perplejidad": el RLVR espurio desencadena una divergencia en la que la perplejidad de los tokens de respuesta disminuye mientras se degrada la coherencia en el lado del *prompt*, lo que sugiere que el modelo está eludiendo el razonamiento en favor de la memorización. Utilizando Path Patching, Logit Lens, análisis JSD y Ecuaciones Diferenciales Neuronales, descubrimos un circuito oculto de Anclaje-Adaptador que facilita este atajo. Localizamos un Anclaje Funcional en las capas medias (L18-20) que desencadena la recuperación de soluciones memorizadas, seguido de Adaptadores Estructurales en capas posteriores (L21+) que transforman las representaciones para acomodar la señal de atajo. Finalmente, demostramos que escalar claves específicas de MLP dentro de este circuito permite una dirección causal bidireccional: amplificando o suprimiendo artificialmente el rendimiento impulsado por la contaminación. Nuestros resultados proporcionan una hoja de ruta mecanicista para identificar y mitigar la contaminación de datos en modelos ajustados con RLVR. El código está disponible en https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
La animación de imágenes de personajes está adquiriendo una importancia significativa en diversos ámbitos, impulsada por la demanda de representación multi-sujeto robusta y flexible. Si bien los métodos existentes sobresalen en la animación de un solo personaje, presentan dificultades para manejar cantidades arbitrarias de sujetos, diversos tipos de personajes y desalineación espacial entre la imagen de referencia y las poses conductoras. Atribuimos estas limitaciones a una vinculación espacial excesivamente rígida que fuerza una alineación estricta píxel a píxel entre la pose y la referencia, y a una incapacidad para revincular consistentemente el movimiento a los sujetos deseados. Para abordar estos desafíos, proponemos CoDance, un novedoso marco de trabajo Desvincular-Revincular que permite la animación de cantidades arbitrarias de sujetos, tipos y configuraciones espaciales condicionada por una única secuencia de poses, potencialmente desalineada. Específicamente, el módulo Desvincular emplea un novedoso codificador de desplazamiento de poses para romper la vinculación espacial rígida entre la pose y la referencia introduciendo perturbaciones estocásticas tanto en las poses como en sus características latentes, obligando así al modelo a aprender una representación del movimiento independiente de la ubicación. Para garantizar un control preciso y la asociación de sujetos, diseñamos luego un módulo Revincular, que aprovecha la guía semántica de textos descriptivos y la guía espacial de máscaras de sujetos para dirigir el movimiento aprendido a los personajes deseados. Además, para facilitar una evaluación exhaustiva, presentamos un nuevo benchmark multi-sujeto, CoDanceBench. Experimentos exhaustivos en CoDanceBench y conjuntos de datos existentes muestran que CoDance alcanza un rendimiento de vanguardia (SOTA), exhibiendo una generalización notable en diversos sujetos y disposiciones espaciales. El código y los pesos se publicarán como código abierto.
Evaluar si los modelos de lenguaje multimodal realmente comprenden artículos científicos extensos sigue siendo un desafío: las métricas basadas únicamente en respuestas y las pruebas sintéticas "Aguja-en-un-Pajar" a menudo premian la coincidencia de respuestas sin requerir una traza de razonamiento causal vinculada a evidencias en el documento. Proponemos el paradigma "Pez-en-el-Océano" (FITO), que exige a los modelos construir cadenas de evidencia explícitas y multimodales dentro de documentos científicos nativos. Para operacionalizar FITO, construimos SIN-Data, un corpus científico intercalado que preserva la disposición nativa de texto y figuras. Sobre este, construimos SIN-Bench con cuatro tareas progresivas que cubren descubrimiento de evidencias (SIN-Find), verificación de hipótesis (SIN-Verify), preguntas y respuestas fundamentadas (SIN-QA) y síntesis anclada en evidencias (SIN-Summary). Además, introducimos "Sin Evidencia, Sin Puntuación", evaluando predicciones solo cuando están fundamentadas en anclajes verificables y diagnosticando la calidad de la evidencia mediante coincidencia, relevancia y lógica. Los experimentos en ocho MLLMs muestran que la fundamentación es el principal cuello de botella: Gemini-3-pro logra el mejor puntaje general promedio (0.573), mientras que GPT-5 alcanza la mayor precisión en respuestas SIN-QA (0.767) pero tiene un rendimiento inferior en puntajes generales alineados con evidencias, exponiendo una brecha entre la corrección y el soporte trazable.
PubMed-OCR es un corpus centrado en OCR de artículos científicos derivado de los archivos PDF de acceso abierto de PubMed Central. Cada imagen de página se anota con Google Cloud Vision y se publica en un esquema JSON compacto con cuadros delimitadores a nivel de palabra, línea y párrafo. El corpus abarca 209,5 mil artículos (1,5 millones de páginas; ~1.300 millones de palabras) y admite el modelado consciente del diseño, preguntas y respuestas basadas en coordenadas y la evaluación de flujos de trabajo dependientes de OCR. Analizamos las características del corpus (por ejemplo, la cobertura de revistas y las características de diseño detectadas) y discutimos las limitaciones, incluida la dependencia de un único motor de OCR y la reconstrucción heurística de líneas. Publicamos los datos y el esquema para facilitar la investigación posterior e invitamos a extensiones.
Para enseñar a los robots tareas de manipulación complejas, es una práctica común ajustar (fine-tune) un modelo preentrenado de visión-lenguaje-acción (VLA) con datos específicos de la tarea. Sin embargo, dado que este método actualiza las representaciones existentes, no es adecuado para una operación a largo plazo en el mundo real, donde los robots deben adaptarse continuamente a nuevas tareas y entornos, al mismo tiempo que retienen el conocimiento ya adquirido. Los métodos existentes de aprendizaje continuo en robótica suelen requerir el almacenamiento de datos previos (ejemplares), tienen dificultades con secuencias largas de tareas o dependen de identificadores de tarea para su despliegue. Para abordar estas limitaciones, proponemos CLARE, un marco general y eficiente en parámetros para el aprendizaje continuo sin ejemplares con VLAs. CLARE introduce adaptadores modulares ligeros en capas feedforward seleccionadas y expande el modelo de forma autónoma solo donde es necesario al aprender una nueva tarea, guiado por la similitud de características por capas. Durante el despliegue, un mecanismo de enrutamiento basado en autoencoders activa dinámicamente los adaptadores más relevantes sin necesidad de etiquetas de tarea. Mediante experimentos exhaustivos en el benchmark LIBERO, demostramos que CLARE logra un alto rendimiento en nuevas tareas sin el olvido catastrófico de tareas anteriores, superando significativamente incluso a los métodos basados en ejemplares. El código y los datos están disponibles en https://tum-lsy.github.io/clare.