Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje multimodal de gran escala (MLLMs) han logrado un progreso notable en tareas de comprensión visual. Sin embargo, la mayoría de los MLLMs existentes dependen de la generación autorregresiva, lo que limita su eficiencia en tareas de percepción que requieren el etiquetado de múltiples regiones. En este trabajo, proponemos PerceptionDLM, un modelo de lenguaje multimodal de difusión optimizado para la percepción paralela eficiente de regiones. Construido sobre PerceptionDLM-Base, una línea base fundamental sólida que alcanza un rendimiento de vanguardia entre los MLLMs de difusión de código abierto, nuestra arquitectura aprovecha plenamente la naturaleza de decodificación paralela de los DLMs. Específicamente, introducimos indicaciones eficientes y enmascaramiento de atención estructurado para permitir la percepción simultánea de múltiples regiones enmascaradas, lo que permite que el modelo genere descripciones de regiones en paralelo tanto a nivel de secuencia como de token. Este diseño mejora significativamente la eficiencia de inferencia en comparación con los enfoques existentes que procesan las regiones de forma secuencial. Para evaluar sistemáticamente la propiedad de paralelismo de la capacidad de percepción visual en los DLMs, construimos un nuevo punto de referencia de etiquetado localizado detallado paralelo (ParaDLC-Bench) escalando el DLC-Bench para incluir múltiples máscaras de región por imagen, lo que permite una evaluación conjunta tanto de la calidad del etiquetado como de la eficiencia de inferencia. Los experimentos demuestran que PerceptionDLM mantiene un rendimiento competitivo en el etiquetado de regiones, logrando al mismo tiempo mejoras sustanciales en velocidad para tareas de percepción de múltiples regiones. Nuestros resultados destacan el potencial de los modelos de lenguaje multimodal de difusión para la percepción visual eficiente y paralela. Hasta donde sabemos, somos los primeros en lograr el etiquetado y la percepción paralela de regiones aprovechando las ventajas de los modelos de lenguaje de difusión. Se publican el código, los modelos y los conjuntos de datos.
La generación de presentaciones personalizadas requiere algo más que condicionar una indicación o plantilla actual: los agentes deben conservar preferencias de usuario estables entre tareas, retener nuevas preferencias y restricciones introducidas durante la revisión en múltiples turnos, y realizar ediciones locales de manera confiable. Proponemos MemSlides, un marco de memoria jerárquica para agentes de presentaciones personalizadas que separa la memoria a largo plazo de la memoria de trabajo, y además divide la memoria a largo plazo en memoria de perfil de usuario y memoria de herramientas. La memoria de perfil de usuario almacena perfiles condicionados por intención para la personalización en ronda 0; la memoria de trabajo transporta preferencias activas y restricciones de sesión a través de rondas de revisión; y la memoria de herramientas almacena experiencia de ejecución reutilizable para ediciones localizadas fiables. MemSlides combina este diseño de memoria con una revisión local de diapositivas con alcance, de modo que las actualizaciones dirigidas actúan sobre la región afectada más pequeña en lugar de regenerar repetidamente toda la presentación. En experimentos controlados, la memoria de perfil de usuario mejora los juicios de alineación con la persona en un banco de perfiles de múltiples personas y múltiples intenciones; la inyección de memoria de herramientas mejora el comportamiento de modificación en bucle cerrado en configuraciones diagnósticas de pares emparejados; y los casos cualitativos ilustran la capacidad de la memoria de trabajo para transferir preferencias. En conjunto, estos resultados sugieren que la personalización efectiva en la creación de presentaciones depende de separar los perfiles de usuario persistentes, la memoria de trabajo a nivel de sesión y la experiencia de ejecución reutilizable, tanto en la generación como en la revisión localizada.
Los puntos de referencia de memoria para agentes LLM asumen en gran medida entornos de usuario único, dejando poco estudiados los asistentes compartidos para hospitales, lugares de trabajo, campus y hogares. En estos despliegues, múltiples principales escriben en un grupo de memoria común y lo consultan bajo diferentes roles, alcances y relaciones, por lo que la calidad de la memoria requiere tanto gobernanza como recuperación. Presentamos GateMem, un punto de referencia para agentes de memoria compartida con múltiples principales. GateMem evalúa conjuntamente la utilidad para solicitudes legítimas de horizonte largo con actualizaciones de estado, control de acceso a través de límites de autorización contextual y olvido activo orientado al agente después de solicitudes explícitas de eliminación. Abarca los dominios médico, de oficina, educativo y doméstico, con episodios largos de múltiples partes, inyección incremental de memoria, puntos de control ocultos, evaluación estructurada y anotaciones de objetivos de fuga. A través de diversas líneas base y modelos base, ningún método logra simultáneamente una utilidad sólida, un control de acceso robusto y un olvido fiable. El prompting de contexto largo a menudo produce la mejor puntuación de gobernanza a un alto costo de tokens, mientras que los métodos basados en recuperación y memoria externa reducen el costo pero aún filtran información no autorizada o eliminada. Estos resultados muestran que los agentes de memoria actuales siguen lejos de un despliegue institucional compartido fiable.
Mientras que el razonamiento en modelos autorregresivos (AR) suele realizarse mediante razonamiento de cadena de pensamiento y reflexión, su refinamiento de salidas prevadas sigue dependiendo de una generación completamente secuencial, incluso cuando solo se necesitan ediciones locales. Por el contrario, el mecanismo de enmascaramiento en los Modelos de Difusión con Máscaras (MDMs) respalda de forma natural las ediciones locales explícitas en salidas anteriores, lo que permite un refinamiento selectivo sin descartar respuestas previas ni generar otras desde cero. Aunque esta propiedad se alinea más estrechamente con la forma en que los humanos corrigen errores mediante un refinamiento local iterativo, los MDMs existentes no admiten el enmascaramiento y la eliminación de ruido en múltiples turnos. Proponemos el Enmascaramiento Reflexivo (RM), que induce dicha capacidad de razonamiento intrínseca en los MDMs mediante un post-entrenamiento ligero. RM proporciona un escalado nativo en tiempo de prueba, donde un MDM revisita y revisa iterativamente sus salidas previas basándose en un contexto en evolución. Para aprovechar los conocimientos de turnos anteriores, similar al razonamiento AR, introducimos la Referencia de Historial, un mecanismo sin parámetros que utiliza estados intermedios de eliminación de ruido durante la revisión. Nuestro enfoque no requiere cambios arquitectónicos y es fácilmente aplicable a los MDMs existentes. En diversas tareas y modalidades, que incluyen generación de texto, Sudoku y edición de imágenes, el Enmascaramiento Reflexivo supera consistentemente a las líneas base estándar basadas en enmascaramiento y demuestra una gran generalidad, posicionando a RM como una primitiva fundamental para el razonamiento en MDMs.
Los sistemas de generación aumentada por recuperación (RAG) dependen críticamente de cómo se fragmentan y buscan los documentos. Los fragmentos de granularidad fina pueden mejorar la precisión de la recuperación, pero amplían el espacio de búsqueda, aumentando la latencia y el coste; los fragmentos más grandes reducen el número de candidatos, pero hacen que la similitud densa sea menos fiable, ya que la representación de cada fragmento mezcla múltiples temas e introduce más ruido semántico. Esta disyuntiva se vuelve especialmente limitante en tareas de investigación profunda, donde la recuperación debe ser rápida y precisa en corpus grandes y heterogéneos. Presentamos MCompassRAG, un marco de recuperación guiado por metadatos que utiliza señales a nivel de tema como una brújula semántica para seleccionar evidencia relevante. En lugar de depender únicamente de la similitud coseno entre consultas y representaciones de fragmentos ruidosas, MCompassRAG enriquece las representaciones de los fragmentos con metadatos de tema en el mismo espacio de incrustación y entrena un recuperador ligero mediante destilación de profesor-LLM. En tiempo de inferencia, MCompassRAG realiza una recuperación consciente del tema sin necesidad de llamadas adicionales al LLM, mejorando tanto la eficiencia como la calidad de la evidencia. En seis puntos de referencia complejos de recuperación, MCompassRAG mejora la eficiencia de la información (IE) en un 8,24% de media, con una latencia más de 5 veces inferior a la de los modelos de referencia RAG eficientes más potentes. El código está disponible en https://github.com/AmirAbaskohi/MCompassRAG.
Los sistemas de generación aumentada por recuperación (RAG) deben equilibrar la granularidad de la recuperación con la coherencia contextual, un desafío que los métodos existentes abordan mediante la fragmentación guiada por LLM, la expansión de contexto de un solo nivel o el resumen jerárquico. Estos enfoques dependen de costosas llamadas a LLM durante la indexación o la recuperación, limitan la agregación de contexto a un solo nivel de granularidad o introducen pérdida de información mediante el resumen. Presentamos SproutRAG, un marco RAG jerárquico guiado por atención que aborda esta compensación organizando fragmentos a nivel de oración en unidades progresivamente más grandes pero semánticamente coherentes, utilizando la atención entre oraciones aprendida para construir un árbol de fragmentación binario. A diferencia de enfoques anteriores que dependen de LLM externos, expansión de contexto fija o resumen con pérdida, SproutRAG aprende qué cabezas y capas de atención capturan mejor la estructura semántica del documento, permitiendo la recuperación de múltiples granularidades sin llamadas adicionales a LLM ni resúmenes comprimidos. En el momento de la recuperación, SproutRAG utiliza búsqueda de haz jerárquica para recuperar candidatos en múltiples granularidades, capturando relevancia entre oraciones más allá de la recuperación plana. El marco se entrena de extremo a extremo con un objetivo conjunto que mejora tanto las incrustaciones como la estructura del árbol. Experimentos en cuatro puntos de referencia que abarcan entornos científicos, legales y de dominio abierto demuestran que SproutRAG mejora la eficiencia de información (EI) en un 6.1% en promedio sobre la línea base más fuerte. El código está disponible en https://github.com/AmirAbaskohi/SproutRAG.
La resonancia magnética cerebral tridimensional (3D) es fundamental en neurología clínica y neurooncología, donde los modelos generativos podrían aumentar cohortes subrepresentadas, simular trayectorias de enfermedades y apoyar el intercambio de datos que preserva la privacidad. La difusión latente ha sido la solución preferida para modelar datos de imágenes, pero impone dos demandas contrapuestas sobre el tokenizador: los embeddings del codificador deben retener la información clínica sobre la que actúan las tareas posteriores, y el decodificador debe reconstruir volúmenes anatómicamente fieles. Los tokenizadores existentes impulsados por reconstrucción logran el segundo objetivo a expensas del primero. Para abordar esto, presentamos un tokenizador basado en autoencoder enmascarado (MAE) completamente volumétrico para difusión latente de resonancia magnética cerebral 3D, que desacopla codificador y decodificador: un codificador MAE 3D congelado produce embeddings clínicamente informativos, mientras que un decodificador CNN dedicado reconstruye vóxeles a partir de una proyección lineal de esos embeddings. Preentrenamos el codificador en 35,309 volúmenes de 18 cohortes públicas que abarcan cuatro modalidades, diez categorías de enfermedades y más de 200 sitios de adquisición, y demostramos su doble utilidad en dos entornos. Primero, en un punto de referencia de sondeo lineal de 23 tareas, el codificador supera o iguala a los modelos de última generación (BrainIAC, BrainSegFounder y MedicalNet) en 21 de las 23 tareas. Segundo, un transformador de difusión condicional (DiT) entrenado con estos embeddings clínicamente informativos admite tanto generación condicional en seis variables como pronóstico longitudinal específico del paciente. En conjunto, estos resultados establecen un espacio de embeddings único para resonancia magnética cerebral 3D capaz de realizar tanto tareas clínicas posteriores como generación controlable.
Los sistemas de visión-lenguaje-acción generalistas necesitan evidencia 3D centrada en objetos y experiencia de manipulación reutilizable para planificar trayectorias robóticas fiables. GeneralVLA ofrece una interfaz jerárquica para convertir observaciones de lenguaje y RGB-D en trayectorias 3D del efector final, pero persisten dos cuellos de botella. Primero, la reconstrucción de objetos en 3D al estilo SAM3D monocular puede alucinar la pose y la geometría no visible, mientras que la manipulación se beneficia de una forma de objeto estable cuando se dispone de observaciones multivista calibradas. Segundo, el KnowledgeBank original principalmente recupera fragmentos semánticamente similares y añade nuevo conocimiento, lo que dificulta controlar la calidad de la memoria, conflictos, confianza y relevancia geométrica. Para abordar el primer desafío, presentamos GeoFuse-MV3D, una rama de reconstrucción MV-SAM3D guiada por prioridad geométrica que verifica las señales geométricas externas con las máscaras de la vista de entrada, aplica soporte de casco visual suave, realiza refinamiento por eje y fusiona solo la geometría preservando la apariencia. Para abordar el segundo desafío, mejoramos KnowledgeBank convirtiéndolo en un sistema de memoria a largo plazo gobernado con metadatos explícitos de calidad, confianza, ciclo de vida, verificador y conflicto, junto con una recuperación orientada a la precisión. Finalmente, evaluamos la rama de reconstrucción en GSO-30 y el módulo de memoria en Terminal-Bench 2.0 y SWE-Bench Verified; GeoFuse-MV3D mejora con respecto a la línea base MV-SAM3D reduciendo CD y LPIPS en un 2.20% y 2.02%, mientras aumenta PSNR y SSIM en un 2.36% y 1.03%, y KnowledgeBank mejora con respecto a ReasoningBank en un 4.53% en la tasa SR de Terminal-Bench y un 3.73% en la tasa de resolución de SWE-Bench, mientras reduce AS en un 4.95% y 5.65%, respectivamente. Código: https://github.com/AIGeeksGroup/GeneralVLA-2. Sitio web: https://aigeeksgroup.github.io/GeneralVLA-2.
Para asistir a humanos durante períodos prolongados en hogares reales, los agentes encarnados deben recordar rutinas de usuarios, estados del mundo e interacciones pasadas. Los benchmarks existentes de memoria a largo plazo evalúan principalmente la recuperación de información y respuesta a preguntas centradas en lenguaje, mientras que los benchmarks encarnados suelen enfocarse en la ejecución de tareas a corto plazo sin evaluar el uso de memoria a largo plazo en entornos dinámicos. Presentamos WorldLines, un benchmark impulsado por proyectos para la asistencia doméstica encarnada a largo plazo. Este construye trazas domésticas temporalmente extendidas con diálogos, acciones, retroalimentación de ejecución, cambios en objetos y estados de dispositivos, y las convierte en muestras vinculadas a evidencia para Memory QA y Planificación de Tareas Encarnadas. Además, proponemos ObsMem, un marco de memoria fundamentado en el observador que mantiene memorias conscientes de visibilidad y rastros de estado nativos de acciones para decisiones conscientes del estado. Los experimentos revelan desafíos persistentes en la observabilidad parcial, estados del mundo sobrescritos y la traducción de memoria a largo plazo en planes encarnados, mientras que ObsMem ofrece una arquitectura de referencia más sólida para este escenario.
Los avatares de cabeza 4D de alta calidad a partir de uno o varios retratos fuente son fundamentales para la telepresencia, la realidad aumentada/realidad virtual (RA/RV) y la interacción humano-digital. El Splatting de Gaussianas 3D (3DGS) se ha consolidado como la representación dominante, con dos regímenes complementarios (predictores feed-forward generalizables y refinadores por sujeto) que maduran en paralelo. Sin embargo, los predictores feed-forward existentes se entrenan en una única familia de conjuntos de datos con un número fijo de fuentes predefinido, heredando el sesgo de dominio correspondiente. Los refinadores por sujeto requieren entre 300K y 600K iteraciones y dependen de un engrosamiento adaptativo que destruye las configuraciones Gaussianas ascendentes, impidiendo que ambos regímenes compartan una representación de extremo a extremo. Para unir ambos regímenes, proponemos SpatialAvatar-0 sobre una representación Gaussiana ligada a la malla FLAME compartida: un generador feed-forward con un agrupamiento medio (mean-pool) de K fuentes sin parámetros y un programa de dos fases (temporal monocular a espacial multivista) que evita que el prior de identidad colapse en el conjunto multivista más pequeño. Además, introducimos un bucle de refinamiento por sujeto de 10K iteraciones que conserva el diseño, congela la unión a FLAME y el número de Gaussianas, y reemplaza el engrosamiento por una regularización anti-picos de tres componentes. En el entorno zero-shot entre dominios VFHQ/HDTF, superamos al líder dentro del dominio GAGAvatar en +1.5 dB de PSNR, a pesar de nunca haber entrenado en ninguno de los dominios de prueba, y en el benchmark monocular SplattingAvatar lideramos todas las métricas reportadas, superando a GeoAvatar (300K iteraciones) en +1.3 dB de PSNR con un programa por sujeto hasta 60 veces más corto que las líneas base SOTA comunes. Sitio web: https://spatialwalk.github.io/SpatialAvatar-0.
La composición narrativa de los corpus de preentrenamiento de modelos de lenguaje a gran escala (LLMs) sigue siendo en gran medida inexplorada, a pesar de que la narrativa es un modo fundamental de comunicación humana. Presentamos el primer estudio detallado de las características narrativas en Dolma, un corpus de preentrenamiento abierto de 3 billones de tokens. Basándonos en la teoría narrativa, diseñamos un marco que abarca tres elementos narrativos centrales (agencia, entorno y eventos), operacionalizados en 11 dimensiones interpretables. Tras muestrear y anotar un conjunto diverso de 400 pasajes, ajustamos y validamos NarraBERT, un modelo basado en RoBERTa para la predicción narrativa detallada. Aplicamos NarraBERT a 3 millones de pasajes, generando un nuevo conjunto de datos, NarraDolma. Encontramos que (i) la estructura narrativa es medible a gran escala en datos extremadamente heterogéneos, (ii) descubrimos una estructura narrativa continua y multidimensional subyacente al texto web, y (iii) las cualidades narrativas se distribuyen de manera desigual entre las fuentes y los temas de preentrenamiento, de formas que las prácticas actuales de curación no miden ni consideran. Nuestro marco, conjunto de datos y análisis proporcionan una base para comprender cómo se distribuyen las cualidades narrativas en los datos de preentrenamiento de LLMs y para estudiar cómo la composición de los datos afecta las tareas de razonamiento narrativo. Publicamos públicamente NarraDolma y NarraBERT.
Los modelos de lenguaje grandes multimodales (MLLMs) se despliegan cada vez más en entornos de consecuencias personales y sociales, pero las señales visuales que moldean cómo estos modelos juzgan a las personas siguen siendo poco comprendidas. Trabajos previos a menudo comparan diferentes (grupos de) individuos, lo que dificulta separar los efectos de la apariencia de las diferencias de identidad. Introducimos StylisticBias, un punto de referencia controlado para evaluar el sesgo social a nivel de atributos en los MLLMs. Generamos 500 rostros base fotorrealistas y creamos aproximadamente 50 variaciones de un solo atributo por rostro, produciendo alrededor de 25,000 imágenes. Este diseño mantiene fija la identidad y cambia un atributo visual a la vez, permitiéndonos medir cómo señales específicos alteran los juicios del modelo. Evaluamos seis MLLMs en 25 escenarios de juicio social binarios. Encontramos que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y otras señales visuales impulsan los mayores cambios a nivel de atributos. Además, hallamos que aproximadamente 15 atributos representan casi el 80% de la variación total, lo que muestra que el sesgo se concentra en un conjunto reducido de señales visuales. La sensibilidad es más fuerte en juicios que están semánticamente alineados con la apariencia, especialmente en juicios socioeconómicos y relacionados con el estilo. Publicamos StylisticBias como un punto de referencia para la evaluación detallada del sesgo en modelos multimodales. Código y conjunto de datos: https://github.com/timo-cavelius/StylisticBias y https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.
El aprendizaje en contexto (ICL) es el método estándar para la clasificación con recursos limitados, aunque su eficacia en dominios especializados sigue sin explorarse en gran medida. Abordamos el desafío de clasificar conversaciones B2B multipartitas semánticamente complejas, donde el ICL tradicional encuentra limitaciones significativas, especialmente a medida que la longitud del contexto aumenta debido a la concatenación de múltiples ejemplos de pocas muestras. Presentamos el conjunto de datos Call Playbook, que incluye cinco tareas de clasificación derivadas de conversaciones B2B reales centradas en conceptos clave de ventas. Para cerrar la brecha entre el rendimiento y la utilidad práctica, proponemos métodos novedosos de extracción de conocimiento que destilan ejemplos extensos en representaciones compactas e interpretables de criterios de clasificación estructurados y descripciones de tareas precisas. Nuestro enfoque logra una reducción del 99% en el uso de tokens y mejora el AUC macro-promedio hasta en un 7% en comparación con el ICL tradicional. Notablemente, se mantiene robusto a medida que el contexto crece, a diferencia de las líneas base avanzadas de compresión de tokens que se degradan en más de 9 puntos de F1. Es importante destacar que nuestro marco permite el refinamiento directo de la lógica de clasificación, abordando necesidades críticas de transparencia, eficiencia e interacción del usuario en aplicaciones reales de PLN.
Los datos tabulares médicos son omnipresentes en la investigación clínica, pero el aprendizaje profundo para tablas sigue siendo poco explorado porque las etiquetas fiables a menudo requieren una costosa adjudicación de expertos, aunque las variables clínicas estructuradas están disponibles rutinariamente en forma tabular. El aprendizaje autosupervisado puede aprovechar estas tablas no etiquetadas, y los recientes pretextos basados en discretización ofrecen un sesgo inductivo prometedor, pero los objetivos existentes fijan una única discretización global por cuantiles y aplican una supervisión agnóstica respecto a las características. Proponemos Discretización Adaptativa, un pretexto de discretización adaptativa al entrenamiento para el aprendizaje autosupervisado en tablas que acopla la discretización al aprendizaje mediante un plan de estudios de grueso a fino por característica. Motivado por el sesgo espectral de las redes neuronales y los principios del aprendizaje curricular, nuestro método refina progresivamente la discretización por característica al detectar mesetas y selecciona divisiones conscientes de la representación para mejorar conjuntamente la concentración en el espacio de valores y la coherencia en el espacio de representación. Un objetivo consciente de la heterogeneidad unifica la reconstrucción categórica con la supervisión ordinal para características numéricas, y experimentos en conjuntos de datos tabulares médicos públicos bajo protocolos de evaluación unificados muestran ganancias consistentes en evaluación lineal y ajuste fino sin necesidad de ajuste de discretización específico del conjunto de datos. Además, introducimos un punto de referencia para aprendizaje autosupervisado en tablas médicas con protocolos estandarizados para apoyar el progreso reproducible en este dominio poco explorado. Nuestro código está disponible en https://github.com/labhai/Adaptive-Binning.