Artículos de investigación en IA seleccionados diariamente con traducciones
Se espera cada vez más que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) vayan más allá de consultas factuales simples hacia tareas de Investigación Profunda que requieren descomponer preguntas en subproblemas, coordinar razonamientos de múltiples pasos y sintetizar evidencia de diversas fuentes. Formalizamos las tareas de Investigación Profunda con respuestas verificables como Problemas de Satisfacción de Restricciones Jerárquicas (HCSPs, por sus siglas en inglés), los cuales son fundamentalmente diferentes de formulaciones de CSP de restricción única, de múltiples saltos o planas. Sin embargo, los puntos de referencia existentes (por ejemplo, Natural Questions, HotpotQA) no logran capturar esta complejidad, mientras que los conjuntos de datos sintéticos recientes a menudo introducen razonamientos abreviados, fugas de conocimiento o carecen de suficiente profundidad estructural. Para abordar esta brecha, presentamos InfoSeek, un marco escalable para sintetizar tareas complejas de Investigación Profunda. InfoSeek utiliza un sistema de doble agente para construir recursivamente un Árbol de Investigación a partir de páginas web a gran escala, difuminando nodos intermedios en subproblemas válidos y convirtiendo estos árboles en preguntas en lenguaje natural que requieren recorrer la jerarquía completa. También permite una escalabilidad rápida, generando más de 50K ejemplos de entrenamiento, un conjunto de pruebas curado y trayectorias de razonamiento generadas mediante muestreo por rechazo. Los experimentos muestran que los modelos entrenados con InfoSeek superan consistentemente a las líneas base sólidas. En un punto de referencia desafiante, BrowseComp-Plus, los LLMs de 3B optimizados con InfoSeek superan a modelos mucho más grandes de 32B y a APIs comerciales ligeras (por ejemplo, Gemini2.5-Flash), mientras alcanzan un rendimiento comparable a APIs más potentes (por ejemplo, Gemini2.5-Pro). Al preservar metainformación como pasos intermedios y etiquetas de recuperación, InfoSeek además respalda estrategias avanzadas de optimización, incluyendo diseño de recompensas compuestas y exploración a nivel de trayectoria. Proporcionamos nuestros códigos y conjuntos de datos en https://github.com/VectorSpaceLab/InfoSeek{este repositorio}.
Presentamos Robix, un modelo unificado que integra el razonamiento robótico, la planificación de tareas y la interacción en lenguaje natural dentro de una única arquitectura visión-lenguaje. Funcionando como la capa cognitiva de alto nivel en un sistema robótico jerárquico, Robix genera dinámicamente comandos atómicos para el controlador de bajo nivel y respuestas verbales para la interacción humana, permitiendo que los robots sigan instrucciones complejas, planifiquen tareas a largo plazo e interactúen de manera natural con los humanos dentro de un marco de extremo a extremo. Robix introduce además capacidades novedosas como el diálogo proactivo, el manejo de interrupciones en tiempo real y el razonamiento de sentido común contextual durante la ejecución de tareas. En su núcleo, Robix aprovecha el razonamiento en cadena de pensamiento y adopta una estrategia de entrenamiento en tres etapas: (1) preentrenamiento continuo para mejorar las habilidades fundamentales de razonamiento encarnado, incluyendo la comprensión espacial 3D, el anclaje visual y el razonamiento centrado en tareas; (2) ajuste fino supervisado para modelar la interacción humano-robot y la planificación de tareas como una secuencia unificada de razonamiento-acción; y (3) aprendizaje por refuerzo para mejorar la consistencia entre razonamiento y acción, así como la coherencia en tareas a largo plazo. Experimentos exhaustivos demuestran que Robix supera tanto a líneas base de código abierto como comerciales (por ejemplo, GPT-4o y Gemini 2.5 Pro) en la ejecución interactiva de tareas, mostrando una fuerte generalización en diversos tipos de instrucciones (por ejemplo, abiertas, multi-etapa, restringidas, inválidas e interrumpidas) y en varias tareas que involucran al usuario, como la limpieza de mesas, la compra de comestibles y el filtrado dietético.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma predominante para tareas de razonamiento matemático, ofreciendo mejoras estables en la capacidad de razonamiento. Sin embargo, los Modelos de Recompensa por Resultados (ORMs, por sus siglas en inglés) en RLVR son demasiado generales para distinguir razonamientos defectuosos dentro de respuestas correctas o razonamientos válidos dentro de respuestas incorrectas. Esta falta de granularidad introduce gradientes ruidosos y engañosos de manera significativa, lo que obstaculiza un mayor progreso en la calidad del proceso de razonamiento. Aunque los Modelos de Recompensa por Procesos (PRMs, por sus siglas en inglés) ofrecen una guía detallada para los pasos intermedios, con frecuencia sufren de imprecisiones y son susceptibles a la manipulación de recompensas. Para resolver este dilema, presentamos el Filtro de Consistencia de Procesos (PROF, por sus siglas en inglés), un método efectivo de curación de datos que armoniza las recompensas de procesos detalladas pero ruidosas con las recompensas de resultados generales pero precisas. En lugar de combinar de manera ingenua los PRM y ORM en la función objetivo (arXiv:archive/2506.18896), PROF aprovecha sus fortalezas complementarias mediante la selección de muestras basada en la consistencia. Nuestro enfoque retiene respuestas correctas con valores de proceso promediados más altos y respuestas incorrectas con valores de proceso promediados más bajos, manteniendo un equilibrio entre muestras de entrenamiento positivas y negativas. Experimentos extensivos demuestran que nuestro método no solo mejora consistentemente la precisión final en más del 4% en comparación con los enfoques de combinación, sino que también fortalece la calidad de los pasos intermedios de razonamiento. Los códigos y recetas de entrenamiento están disponibles en https://github.com/Chenluye99/PROF.
Los modelos de lenguaje (LMs) impulsan cada vez más aplicaciones del mundo real que requieren conocimiento general. Sin embargo, los procesos internos a través de los cuales los modelos transforman los datos en representaciones de conocimiento y creencias sobre el mundo están poco comprendidos. Comprender estos procesos podría allanar el camino para desarrollar LMs con representaciones de conocimiento más consistentes, robustas y completas. Para facilitar el estudio de estas cuestiones, presentamos LMEnt, un conjunto de herramientas para analizar la adquisición de conocimiento en LMs durante el preentrenamiento. LMEnt introduce: (1) un corpus de preentrenamiento rico en conocimiento, completamente anotado con menciones de entidades, basado en Wikipedia, (2) un método de recuperación basado en entidades sobre los datos de preentrenamiento que supera a enfoques anteriores hasta en un 80.4%, y (3) 12 modelos preentrenados con hasta 1B de parámetros y 4K puntos de control intermedios, con un rendimiento comparable a modelos de código abierto populares en benchmarks de conocimiento. En conjunto, estos recursos proporcionan un entorno controlado para analizar las conexiones entre las menciones de entidades en el preentrenamiento y el rendimiento en tareas posteriores, así como los efectos de intervenciones causales en los datos de preentrenamiento. Demostramos la utilidad de LMEnt estudiando la adquisición de conocimiento a través de los puntos de control, encontrando que la frecuencia de los hechos es clave, pero no explica completamente las tendencias de aprendizaje. Publicamos LMEnt para apoyar estudios sobre el conocimiento en LMs, incluyendo representaciones de conocimiento, plasticidad, edición, atribución y dinámicas de aprendizaje.
La planificación efectiva requiere modelos sólidos del mundo, pero los modelos de alto nivel que pueden comprender y razonar sobre acciones con abstracción semántica y temporal siguen en gran medida subdesarrollados. Presentamos el Modelo de Mundo de Lenguaje Visual (VLWM, por sus siglas en inglés), un modelo base entrenado para el modelado del mundo basado en lenguaje en videos naturales. Dadas observaciones visuales, el VLWM primero infiere los logros generales del objetivo y luego predice una trayectoria compuesta por acciones intercaladas y cambios en el estado del mundo. Estos objetivos se extraen mediante un proceso iterativo de Autorefinamiento de LLM condicionado en observaciones futuras comprimidas representadas por un Árbol de Subtítulos. El VLWM aprende tanto una política de acciones como un modelo de dinámica, lo que facilita respectivamente la decodificación reactiva de planes del sistema 1 y la planificación reflexiva del sistema 2 mediante la minimización de costos. El costo evalúa la distancia semántica entre los estados futuros hipotéticos proporcionados por las simulaciones del VLWM y el estado objetivo esperado, y se mide mediante un modelo crítico que entrenamos de manera autosupervisada. El VLWM logra un rendimiento de vanguardia en Planificación Visual para Asistencia (VPA) tanto en evaluaciones de referencia como en nuestras evaluaciones humanas propuestas en PlannerArena, donde el sistema 2 mejora la puntuación Elo en un +27% respecto al sistema 1. Los modelos VLWM también superan a los sólidos modelos de referencia VLM en los benchmarks de RoboVQA y Predicción del Mundo.
La generación controlable de rostros plantea desafíos críticos en el modelado generativo debido al intrincado equilibrio requerido entre la controlabilidad semántica y el fotorrealismo. Mientras que los enfoques existentes luchan por desacoplar los controles semánticos de las tuberías de generación, revisitamos el potencial arquitectónico de los Transformadores de Difusión (DiTs) desde la perspectiva de la especialización de expertos. Este artículo presenta Face-MoGLE, un marco novedoso que incluye: (1) Modelado latente desacoplado semánticamente mediante factorización del espacio condicionada por máscaras, permitiendo una manipulación precisa de atributos; (2) Una mezcla de expertos globales y locales que capturan la estructura holística y la semántica a nivel de región para una controlabilidad de grano fino; (3) Una red de compuertas dinámicas que produce coeficientes dependientes del tiempo, los cuales evolucionan con los pasos de difusión y las ubicaciones espaciales. Face-MoGLE ofrece una solución potente y flexible para la generación de rostros de alta calidad y controlable, con un fuerte potencial en aplicaciones de modelado generativo y seguridad. Experimentos extensivos demuestran su efectividad en configuraciones de generación de rostros multimodales y monomodales, así como su robusta capacidad de generalización en cero-shot. La página del proyecto está disponible en https://github.com/XavierJiezou/Face-MoGLE.
La generación personalizada multi-sujeto presenta desafíos únicos en la mantención de la fidelidad de identidad y la coherencia semántica al sintetizar imágenes condicionadas por múltiples sujetos de referencia. Los métodos existentes suelen sufrir de mezcla de identidades y filtración de atributos debido a un modelado inadecuado de cómo los diferentes sujetos deberían interactuar dentro de espacios de representación compartidos. Presentamos MOSAIC, un marco centrado en la representación que replantea la generación multi-sujeto mediante correspondencia semántica explícita y desentrelazamiento ortogonal de características. Nuestra idea clave es que la generación multi-sujeto requiere una alineación semántica precisa a nivel de representación: saber exactamente qué regiones en la imagen generada deben atender a qué partes de cada referencia. Para habilitar esto, introducimos SemAlign-MS, un conjunto de datos meticulosamente anotado que proporciona correspondencias semánticas detalladas entre múltiples sujetos de referencia e imágenes objetivo, previamente no disponible en este dominio. Sobre esta base, proponemos la pérdida de atención por correspondencia semántica para imponer una alineación semántica precisa de punto a punto, asegurando una alta consistencia desde cada referencia a sus regiones designadas. Además, desarrollamos la pérdida de desentrelazamiento multi-referencia para empujar a diferentes sujetos hacia subespacios de atención ortogonales, previniendo la interferencia de características mientras se preservan las características individuales de identidad. Experimentos extensivos demuestran que MOSAIC alcanza un rendimiento de vanguardia en múltiples benchmarks. Notablemente, mientras los métodos existentes típicamente se degradan más allá de 3 sujetos, MOSAIC mantiene una alta fidelidad con 4+ sujetos de referencia, abriendo nuevas posibilidades para aplicaciones complejas de síntesis multi-sujeto.
La manipulación robótica moderna se basa principalmente en observaciones visuales en un espacio de color 2D para el aprendizaje de habilidades, pero sufre de una pobre generalización. En contraste, los humanos, que habitan en un mundo 3D, dependen más de propiedades físicas—como la distancia, el tamaño y la forma—que de la textura al interactuar con objetos. Dado que dicha información geométrica 3D puede obtenerse a partir de cámaras de profundidad ampliamente disponibles, parece factible dotar a los robots de capacidades perceptivas similares. Nuestro estudio piloto encontró que el uso de cámaras de profundidad para la manipulación es desafiante, principalmente debido a su precisión limitada y su susceptibilidad a diversos tipos de ruido. En este trabajo, proponemos los Modelos de Profundidad de Cámara (CDMs, por sus siglas en inglés) como un complemento simple para cámaras de profundidad de uso diario, que toman imágenes RGB y señales de profundidad en bruto como entrada y generan una profundidad métrica precisa y libre de ruido. Para lograrlo, desarrollamos un motor de datos neuronal que genera datos emparejados de alta calidad a partir de la simulación, modelando el patrón de ruido de una cámara de profundidad. Nuestros resultados muestran que los CDMs alcanzan una precisión en la predicción de profundidad casi a nivel de simulación, cerrando efectivamente la brecha entre simulación y realidad para tareas de manipulación. Notablemente, nuestros experimentos demuestran, por primera vez, que una política entrenada con datos de profundidad simulada en bruto, sin necesidad de añadir ruido o ajustes en el mundo real, se generaliza sin problemas a robots en el mundo real en dos tareas desafiantes de horizonte largo que involucran objetos articulados, reflectantes y delgados, con poca o ninguna degradación en el rendimiento. Esperamos que nuestros hallazgos inspiren futuras investigaciones en la utilización de datos de simulación e información 3D en políticas robóticas generales.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento general notables. Sin embargo, evaluar y mejorar sistemáticamente estas capacidades de razonamiento es un desafío debido a la falta de herramientas controlables y escalables para un análisis detallado. Los puntos de referencia y conjuntos de datos existentes a menudo carecen del control de variables necesario para un análisis y entrenamiento sistemático y multidimensional, o presentan tipos y formatos de problemas limitados. Para abordar estas limitaciones, presentamos SATQuest, un verificador sistemático diseñado para evaluar y mejorar el razonamiento lógico en LLMs mediante la generación de diversos problemas de razonamiento lógico basados en Satisfacibilidad directamente a partir de instancias de Forma Normal Conjuntiva (CNF). SATQuest estructura estos problemas en tres dimensiones ortogonales: escala de la instancia, tipo de problema y formato de la pregunta, empleando generación de problemas aleatorizada basada en SAT y verificación objetiva de respuestas mediante PySAT. Este diseño mitiga problemas de memorización, permite obtener insights detallados sobre el rendimiento del razonamiento y posibilita un afinamiento efectivo mediante refuerzo. Nuestra evaluación extensiva de varios LLMs utilizando SATQuest identificó limitaciones significativas en su razonamiento lógico, particularmente en la generalización más allá de formatos matemáticos familiares. Además, demostramos que el afinamiento mediante refuerzo con recompensas de SATQuest mejora sustancialmente el rendimiento en tareas específicas y generaliza a instancias más complejas, al tiempo que resalta los desafíos restantes en la adaptación entre formatos. A través de estas demostraciones, mostramos el potencial de SATQuest como una herramienta fundamental y un punto de partida valioso para avanzar en el razonamiento lógico de los LLMs.