Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de razonamiento han demostrado una fuerte capacidad de resolución de problemas, pero las tareas del mundo real a menudo requieren herramientas externas e interacciones de largo horizonte. Los marcos de agentes existentes suelen seguir flujos de trabajo predefinidos, lo que limita la finalización autónoma y global de tareas. En este artículo, presentamos DeepAgent, un agente de razonamiento profundo de extremo a extremo que realiza pensamiento autónomo, descubrimiento de herramientas y ejecución de acciones dentro de un único proceso de razonamiento coherente. Para abordar los desafíos de las interacciones de largo horizonte, particularmente la explosión en la longitud del contexto debido a múltiples llamadas a herramientas y la acumulación del historial de interacciones, introducimos un mecanismo autónomo de plegado de memoria que comprime las interacciones pasadas en memorias episódicas, de trabajo y de herramientas estructuradas, reduciendo la acumulación de errores mientras preserva información crítica. Para enseñar el uso de herramientas de propósito general de manera eficiente y estable, desarrollamos una estrategia de aprendizaje por refuerzo de extremo a extremo, denominada ToolPO, que aprovecha APIs simuladas por LLM y aplica atribución de ventaja en llamadas a herramientas para asignar crédito granular a los tokens de invocación de herramientas. Experimentos exhaustivos en ocho benchmarks, incluyendo tareas de uso general de herramientas (ToolBench, API-Bank, TMDB, Spotify, ToolHop) y aplicaciones descendentes (ALFWorld, WebShop, GAIA, HLE), demuestran que DeepAgent supera consistentemente a los baselines tanto en escenarios de recuperación de herramientas etiquetadas como de conjunto abierto. Este trabajo da un paso hacia agentes más generales y capaces para aplicaciones del mundo real. El código y la demo están disponibles en https://github.com/RUC-NLPIR/DeepAgent.
Los modelos de razonamiento de vanguardia han exhibido capacidades increíbles en una amplia gama de disciplinas, impulsados por el post-entrenamiento de grandes modelos de lenguaje (LLMs) con aprendizaje por refuerzo (RL). Sin embargo, a pesar del éxito generalizado de este paradigma, gran parte de la literatura se ha dedicado a desentrañar comportamientos verdaderamente novedosos que emergen durante el RL pero que no están presentes en los modelos base. En nuestro trabajo, abordamos esta pregunta desde un ángulo diferente, preguntándonos en cambio si capacidades de razonamiento comparables pueden ser elicitadas de los modelos base en tiempo de inferencia mediante muestreo puro, sin ningún entrenamiento adicional. Inspirados por las técnicas de Monte Carlo mediante cadenas de Markov (MCMC) para muestrear distribuciones afiladas, proponemos un algoritmo de muestreo iterativo simple que aprovecha las verosimilitudes de los modelos base. En diferentes modelos base, mostramos que nuestro algoritmo ofrece mejoras sustanciales en el razonamiento que casi igualan e incluso superan a las del RL en una amplia variedad de tasks de una sola toma, incluyendo MATH500, HumanEval y GPQA. Además, nuestro muestreador evita el colapso en la diversidad sobre múltiples muestras que es característico del post-entrenamiento con RL. Crucialmente, nuestro método no requiere entrenamiento, conjuntos de datos curados ni un verificador, lo que sugiere una amplia aplicabilidad más allá de dominios fácilmente verificables.
El control semántico unificado y generalizable en la generación de vídeo sigue siendo un desafío abierto crítico. Los métodos existentes introducen artefactos al imponer priores inapropiados a nivel de píxel desde controles basados en estructura, o dependen de ajustes específicos de condición no generalizables o arquitecturas específicas para cada tarea. Presentamos Video-As-Prompt (VAP), un nuevo paradigma que replantea este problema como una generación en contexto. VAP aprovecha un vídeo de referencia como prompt semántico directo, guiando un Transformer de Difusión de Vídeo (DiT) congelado mediante un experto Mixture-of-Transformers (MoT) plug-and-play. Esta arquitectura previene el olvido catastrófico y se guía por una codificación posicional con sesgo temporal que elimina los priores de mapeo espurios para una recuperación de contexto robusta. Para potenciar este enfoque y catalizar la investigación futura, construimos VAP-Data, el conjunto de datos más grande para generación de vídeo con control semántico, con más de 100K vídeos emparejados en 100 condiciones semánticas. Como modelo único unificado, VAP establece un nuevo estado del arte para los métodos de código abierto, logrando una tasa de preferencia de usuario del 38.7% que rivaliza con los principales modelos comerciales específicos por condición. La fuerte generalización zero-shot de VAP y su soporte para diversas aplicaciones posteriores marcan un avance significativo hacia la generación de vídeo controlable de propósito general.
Abordamos el desafío de generar mundos 3D infinitamente extensibles —entornos grandes y continuos con geometría coherente y apariencia realista. Los métodos existentes enfrentan problemas clave: los enfoques basados en elevación 2D adolecen de inconsistencias geométricas y de apariencia entre vistas, las representaciones implícitas 3D son difíciles de escalar, y los modelos fundacionales 3D actuales están mayormente centrados en objetos, lo que limita su aplicabilidad a la generación a nivel de escena. Nuestra idea clave es aprovechar los fuertes *priors* de generación de modelos 3D preentrenados para la generación estructurada de bloques de escena. Con este fin, proponemos WorldGrow, un marco jerárquico para la síntesis ilimitada de escenas 3D. Nuestro método cuenta con tres componentes centrales: (1) un *pipeline* de curación de datos que extrae bloques de escena de alta calidad para el entrenamiento, haciendo que las representaciones latentes estructuradas 3D sean adecuadas para la generación de escenas; (2) un mecanismo de inpaintado de bloques 3D que permite la extensión de la escena con conciencia del contexto; y (3) una estrategia de generación de grueso a fino que garantiza tanto la plausibilidad del diseño global como la fidelidad geométrica y textural local. Evaluado en el conjunto de datos a gran escala 3D-FRONT, WorldGrow logra un rendimiento de vanguardia (SOTA) en reconstrucción geométrica, a la vez que admite de forma única la generación infinita de escenas con resultados fotorrealistas y estructuralmente coherentes. Estos resultados destacan su capacidad para construir entornos virtuales a gran escala y su potencial para construir futuros modelos de mundo.
La falta de una definición concreta de la Inteligencia General Artificial (AGI) oscurece la brecha entre la IA especializada actual y la cognición de nivel humano. Este artículo presenta un marco cuantificable para abordar este problema, definiendo la AGI como la capacidad de igualar la versatilidad y competencia cognitiva de un adulto con educación superior. Para operacionalizar esto, fundamentamos nuestra metodología en la teoría Cattell-Horn-Carroll, el modelo de cognición humana con mayor validación empírica. El marco desglosa la inteligencia general en diez dominios cognitivos fundamentales —incluyendo razonamiento, memoria y percepción— y adapta baterías psicométricas humanas consolidadas para evaluar sistemas de IA. La aplicación de este marco revela un perfil cognitivo muy "irregular" en los modelos contemporáneos. Si bien son competentes en dominios que requieren amplio conocimiento, los sistemas de IA actuales presentan déficits críticos en maquinaria cognitiva fundamental, particularmente en el almacenamiento de memoria a largo plazo. Las puntuaciones de AGI resultantes (por ejemplo, GPT-4 en un 27%, GPT-5 en un 58%) cuantifican concretamente tanto el rápido progreso como la brecha sustancial que aún persiste antes de alcanzar la AGI.
La Optimización de Políticas Relativas a Grupos (GRPO) ha demostrado un gran potencial para la generación de imágenes a partir de texto (T2I) basada en flow matching, pero se enfrenta a dos limitaciones clave: la atribución imprecisa de ventajas y la desatención de la dinámica temporal de la generación. En este trabajo, sostenemos que cambiar el paradigma de optimización del nivel de paso al nivel de fragmento puede aliviar eficazmente estos problemas. Basándonos en esta idea, proponemos Chunk-GRPO, el primer enfoque basado en GRPO a nivel de fragmento para la generación T2I. La idea clave es agrupar pasos consecutivos en "fragmentos" coherentes que capturen la dinámica temporal intrínseca del flow matching y optimizar las políticas a nivel de fragmento. Además, introducimos una estrategia opcional de muestreo ponderado para mejorar aún más el rendimiento. Experimentos exhaustivos muestran que Chunk-GRPO logra resultados superiores tanto en alineación de preferencias como en calidad de imagen, destacando la promesa de la optimización a nivel de fragmento para los métodos basados en GRPO.
Los modelos de difusión discreta han surgido como una dirección prometedora para las tareas de visión y lenguaje, ofreciendo modelado contextual bidireccional y paralelización teórica. Sin embargo, su aplicación práctica se ve severamente obstaculizada por una discrepancia entre el entrenamiento y la inferencia, lo que conduce a cascadas de errores catastróficas: los errores iniciales en los tokens durante la decodificación paralela contaminan el contexto de generación, desencadenando una reacción en cadena de errores acumulativos que resultan en errores sintácticos y alucinaciones semánticas. Para abordar este desafío fundamental, replanteamos el proceso de generación desde una eliminación pasiva de ruido hacia un refinamiento activo. Introducimos ReDiff, un marco de difusión mejorado con refinamiento que enseña al modelo a identificar y corregir sus propios errores. Nuestro enfoque presenta un proceso de entrenamiento en dos etapas: primero, inculcamos una capacidad de revisión fundamental entrenando al modelo para revisar errores sintéticos; segundo, implementamos un novedoso bucle de autocorrección en línea donde el modelo es entrenado explícitamente para revisar sus propios borradores defectuosos aprendiendo de las correcciones de un experto. Este aprendizaje impulsado por errores dota al modelo de la capacidad crucial de revisar y refinar su salida ya generada, rompiendo efectivamente la cascada de errores. Experimentos exhaustivos demuestran que ReDiff mejora significativamente la coherencia y la precisión factual del contenido generado, permitiendo una generación paralela estable y eficiente muy superior a los métodos tradicionales de eliminación de ruido. Nuestros códigos y modelos están disponibles en https://rediff-hku.github.io/.
Escalar la longitud de contexto de los modelos de lenguaje grandes (LLM) ofrece beneficios significativos, pero resulta computacionalmente costoso. Este costo proviene principalmente del mecanismo de autoatención, cuya complejidad O(N^2) con respecto a la longitud de la secuencia representa un cuello de botella importante tanto para la memoria como para la latencia. Afortunadamente, la matriz de atención a menudo es dispersa, particularmente para secuencias largas, lo que sugiere una oportunidad de optimización. La atención bloque-dispersa ha surgido como una solución prometedora que divide las secuencias en bloques y omite el cálculo para un subconjunto de estos bloques. Sin embargo, la efectividad de este método depende en gran medida de los patrones de atención subyacentes, lo que puede generar una dispersión a nivel de bloques subóptima. Por ejemplo, los tokens clave importantes para las consultas dentro de un solo bloque pueden estar dispersos en numerosos otros bloques, lo que genera redundancia computacional. En este trabajo, proponemos Permuted Block-Sparse Attention (PBS-Attn), un método plug-and-play que aprovecha las propiedades de permutación de la atención para aumentar la dispersión a nivel de bloques y mejorar la eficiencia computacional del prellenado de LLM. Realizamos experimentos exhaustivos en conjuntos de datos desafiantes del mundo real de contexto largo, demostrando que PBS-Attn supera consistentemente a los métodos de atención bloque-dispersa existentes en precisión del modelo y se acerca mucho al baseline de atención completa. Impulsado por nuestros kernels personalizados de permuted-FlashAttention, PBS-Attn logra una aceleración de extremo a extremo de hasta 2.75 veces en el prellenado de contexto largo, lo que confirma su viabilidad práctica. Código disponible en https://github.com/xinghaow99/pbs-attn.
La fundamentación de interfaces gráficas (GUI), que mapea instrucciones en lenguaje natural a elementos de interfaz de usuario accionables, es una capacidad fundamental de los agentes de GUI. Los trabajos previos tratan mayormente las instrucciones como un proxy estático de la intención del usuario, pasando por alto el impacto de la diversidad y calidad de las instrucciones en el rendimiento de la fundamentación. Mediante una investigación minuciosa de los conjuntos de datos de fundamentación existentes, encontramos una tasa de error del 23.3% en sus instrucciones y demostramos que la explotación de la diversidad de instrucciones en tiempo de inferencia produce una mejora de rendimiento relativa sustancial de hasta el 76%. En este artículo, presentamos el paradigma Instrucción-como-Razonamiento, tratando las instrucciones como vías analíticas dinámicas que ofrecen perspectivas distintas y permitiendo al modelo seleccionar la vía más efectiva durante el razonamiento. Para lograrlo, proponemos un marco de entrenamiento en dos etapas: ajuste fino supervisado (SFT) en instrucciones sintetizadas y diversas para inculcar un razonamiento multiperspectiva, seguido de aprendizaje por refuerzo (RL) para optimizar la selección y composición de vías. Nuestros modelos resultantes, UI-Ins-7B y UI-Ins-32B, logran resultados de vanguardia en cinco benchmarks desafiantes de fundamentación y exhiben razonamiento emergente, componiendo y sintetizando selectivamente nuevas vías de instrucción en la inferencia. En particular, UI-Ins-32B alcanza la mejor precisión de fundamentación, con un 87.3% en UI-I2E-Bench, 57.0% en ScreenSpot-Pro y 84.9% en MMBench-GUI L2. Además, nuestro modelo demuestra un fuerte potencial agéntico, logrando una tasa de éxito del 74.1% en AndroidWorld usando UI-Ins-7B como ejecutor. Nuestro análisis en profundidad revela perspectivas adicionales, como cómo se puede formular el razonamiento para mejorar en lugar de obstaculizar el rendimiento de la fundamentación, y cómo nuestro método mitiga el colapso de políticas en el marco SFT+RL. Todo el código y los puntos de control de los modelos se publicarán en https://github.com/alibaba/UI-Ins.
En este artículo demostramos que los modelos de difusión visual pueden funcionar como solucionadores geométricos efectivos: pueden razonar directamente sobre problemas geométricos operando en el espacio de píxeles. Primero demostramos esto con el Problema del Cuadrado Inscrito, un problema de geometría de larga data que pregunta si toda curva de Jordán contiene cuatro puntos que forman un cuadrado. Luego extendemos el enfoque a otros dos problemas geométricos complejos conocidos: el Problema del Árbol de Steiner y el Problema del Polígono Simple. Nuestro método trata cada instancia del problema como una imagen y entrena un modelo de difusión visual estándar que transforma ruido gaussiano en una imagen que representa una solución aproximada válida que se ajusta estrechamente a la solución exacta. El modelo aprende a transformar estructuras geométricas ruidosas en configuraciones correctas, reformulando efectivamente el razonamiento geométrico como generación de imágenes. A diferencia de trabajos previos que requieren arquitecturas especializadas y adaptaciones específicas del dominio al aplicar difusión a representaciones geométricas paramétricas, nosotros empleamos un modelo de difusión visual estándar que opera sobre la representación visual del problema. Esta simplicidad resalta un puente sorprendente entre el modelado generativo y la resolución de problemas geométricos. Más allá de los problemas específicos estudiados aquí, nuestros resultados apuntan hacia un paradigma más amplio: operar en el espacio de imagen proporciona un marco general y práctico para aproximar problemas notoriamente difíciles, y abre la puerta para abordar una clase mucho más amplia de tareas geométricas desafiantes.
Los Modelos de Lenguaje Grandes de Video (VideoLLMs) amplían las capacidades de los modelos de visión y lenguaje hacia entradas espacio-temporales, permitiendo tareas como la respuesta a preguntas sobre video (VideoQA). A pesar de los recientes avances en VideoLLMs, sus mecanismos internos sobre dónde y cómo extraen y propagan la información de video y textual han sido menos explorados. En este estudio, investigamos el flujo interno de información de los VideoLLMs utilizando técnicas de interpretabilidad mecanicista. Nuestro análisis revela patrones consistentes en diversas tareas de VideoQA: (1) el razonamiento temporal en los VideoLLMs se inicia con interacciones activas entre frames en las capas tempranas a medias, (2) seguidas por una integración progresiva de video y lenguaje en las capas medias. Esto es facilitado por una alineación entre las representaciones de video y los embeddings lingüísticos que contienen conceptos temporales. (3) Una vez completada esta integración, el modelo está listo para generar respuestas correctas en las capas medias a tardías. (4) Basándonos en nuestro análisis, demostramos que los VideoLLMs pueden mantener su rendimiento en VideoQA seleccionando estas vías de información efectivas mientras suprimen una cantidad sustancial de conexiones de atención, por ejemplo, un 58% en LLaVA-NeXT-7B-Video-FT. Estos hallazgos proporcionan un plano de cómo los VideoLLMs realizan el razonamiento temporal y ofrecen perspectivas prácticas para mejorar la interpretabilidad del modelo y su generalización para tareas posteriores. Nuestra página del proyecto con el código fuente está disponible en https://map-the-flow.github.io.
La fusión de modelos es una estrategia eficiente de post-entrenamiento para integrar el conocimiento de múltiples puntos de control ajustados de un modelo base compartido. Los métodos existentes operan en el espacio de parámetros, combinando vectores de tareas para mitigar conflictos, pero siguen limitados por inconsistencias paramétricas. Proponemos Anclajes Duales Funcionales (FDA), un marco que, en cambio, modela el espacio de representación de entradas. Los FDA son entradas sintéticas cuyos grados inducidos se alinean con los vectores de tareas, capturando desplazamientos funcionales específicos de cada tarea en relación con el modelo preentrenado. Esta perspectiva tiende un puente entre el entrenamiento multitarea conjunto y la fusión post-hoc, ofreciendo tanto robustez como flexibilidad. Además, presentamos un esquema de inicialización fundamentado y demostramos que los FDA son complementarios a la fusión de modelos en el espacio de parámetros. Experimentos exhaustivos demuestran la efectividad de los FDA en la fusión de modelos.
El diseño de prompts juega un papel crucial en la generación de texto a video (T2V), sin embargo, los prompts proporcionados por los usuarios suelen ser breves, no estructurados y están desalineados con los datos de entrenamiento, lo que limita el potencial generativo de los modelos T2V basados en difusión. Presentamos RAPO++, un marco de optimización de prompts de etapas cruzadas que unifica el refinamiento alineado con los datos de entrenamiento, el escalado iterativo en tiempo de prueba y el ajuste fino de modelos de lenguaje grande (LLM) para mejorar sustancialmente la generación T2V sin modificar la columna vertebral generativa subyacente. En la Etapa 1, la Optimización de Prompts Aumentada por Recuperación (RAPO) enriquece los prompts del usuario con modificadores semánticamente relevantes recuperados de un grafo de relaciones y los refactoriza para que coincidan con las distribuciones de entrenamiento, mejorando la composicionalidad y la fidelidad multi-objeto. La Etapa 2 introduce la Optimización de Prompts Específica de la Muestra (SSPO), un mecanismo de bucle cerrado que refina iterativamente los prompts utilizando retroalimentación multi-fuente —incluyendo alineación semántica, fidelidad espacial, coherencia temporal y señales específicas de la tarea como el flujo óptico— produciendo una calidad de generación de video progresivamente mejorada. La Etapa 3 aprovecha pares de prompts optimizados de la SSPO para ajustar finamente el LLM reescritor, internalizando patrones de optimización específicos de la tarea y permitiendo una generación de prompts eficiente y de alta calidad incluso antes de la inferencia. Experimentos exhaustivos en cinco modelos T2V de última generación y cinco benchmarks demuestran que RAPO++ logra ganancias significativas en alineación semántica, razonamiento composicional, estabilidad temporal y plausibilidad física, superando a los métodos existentes por amplios márgenes. Nuestros resultados destacan a RAPO++ como una solución agnóstica al modelo, rentable y escalable que establece un nuevo estándar para la optimización de prompts en la generación T2V. El código está disponible en https://github.com/Vchitect/RAPO.
Revelamos que las representaciones internas en los modelos de lenguaje a gran escala (LLMs) funcionan como proxies confiables del conocimiento aprendido, y proponemos RECALL, un novedoso marco de fusión de modelos consciente de las representaciones para el aprendizaje continuo sin acceso a datos históricos. RECALL calcula la similitud inter-modelo a partir de representaciones ocultas por capas sobre muestras típicas agrupadas, y realiza una fusión de parámetros adaptativa y jerárquica para alinear el conocimiento entre modelos. Este diseño permite preservar características de dominio general en las capas superficiales mientras permite la adaptación específica de tareas en las capas más profundas. A diferencia de métodos anteriores que requieren etiquetas de tareas o incurren en compensaciones de rendimiento, RECALL logra una integración multidominio sin interrupciones y una fuerte resistencia al olvido catastrófico. Experimentos exhaustivos en cinco tareas de PLN y múltiples escenarios de aprendizaje continuo demuestran que RECALL supera a los métodos base tanto en retención de conocimiento como en generalización, ofreciendo una solución escalable y libre de datos para la evolución de los LLMs.
Las métricas tradicionales de Recuperación de Información (RI), como nDCG, MAP y MRR, asumen que los usuarios humanos examinan los documentos de forma secuencial, con una atención decreciente hacia los rangos inferiores. Esta suposición se desmorona en los sistemas de Generación Aumentada por Recuperación (RAG), donde los resultados de búsqueda son consumidos por Modelos de Lenguaje Grandes (LLMs), los cuales, a diferencia de los humanos, procesan todos los documentos recuperados como un conjunto en lugar de hacerlo secuencialmente. Adicionalmente, las métricas tradicionales de RI no tienen en cuenta los documentos relacionados pero irrelevantes que degradan activamente la calidad de la generación, en lugar de ser simplemente ignorados. Debido a estos dos desajustes principales, a saber, el descuento posicional humano versus máquina y la relevancia humana versus la utilidad para la máquina, las métricas clásicas de RI no predicen con precisión el rendimiento de los sistemas RAG. Introducimos un esquema de anotación basado en utilidad que cuantifica tanto la contribución positiva de los pasajes relevantes como el impacto negativo de los distractores. Sobre esta base, proponemos UDCG (Ganancia Acumulada Consciente de la Utilidad y la Distracción), una métrica que utiliza un descuento posicional orientado a LLMs para optimizar directamente la correlación con la precisión de la respuesta de extremo a extremo. Los experimentos en cinco conjuntos de datos y seis LLMs demuestran que UDCG mejora la correlación hasta en un 36% en comparación con las métricas tradicionales. Nuestro trabajo representa un paso crítico hacia la alineación de la evaluación de RI con los consumidores LLM y permite una evaluación más fiable de los componentes RAG.
Técnicas recientes como la generación aumentada por recuperación o el razonamiento de cadena de pensamiento han dado lugar a contextos más largos y a un aumento de los costes de inferencia. Las técnicas de compresión de contexto pueden reducir estos costes, pero los enfoques más efectivos requieren ajustar el modelo objetivo o incluso modificar su arquitectura. Esto puede degradar sus capacidades generales cuando no se utiliza para este propósito específico. Aquí exploramos un enfoque alternativo: un codificador que comprime el contexto en representaciones continuas que reemplazan a los *embeddings* de tokens en los LLMs decodificadores. En primer lugar, realizamos un estudio sistemático de las estrategias de entrenamiento y las opciones de arquitectura para el codificador. Nuestros hallazgos condujeron al diseño de un Compresor de Representaciones de Texto Adaptable, denominado ARC-Encoder, que genera x veces menos representaciones continuas (típicamente x ∈ {4,8}) que tokens de texto. Evaluamos ARC-Encoder en una variedad de escenarios de uso de LLMs, que van desde el aprendizaje en contexto hasta la extensión de la ventana de contexto, tanto en decodificadores base como de instrucciones. Los resultados muestran que ARC-Encoder alcanza un rendimiento de vanguardia en varios benchmarks mientras mejora la eficiencia computacional en la inferencia. Finalmente, demostramos que nuestros modelos pueden adaptarse a múltiples decodificadores simultáneamente, permitiendo que un único codificador generalice a través de diferentes LLMs decodificadores. Esto convierte a ARC-Encoder en una solución flexible y eficiente para codificadores portables que funcionan perfectamente con múltiples LLMs. Publicamos el código de entrenamiento en https://github.com/kyutai-labs/ARC-Encoder, y el conjunto de datos para ajuste fino y los modelos preentrenados están disponibles en https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
Recientemente, se han logrado avances significativos en el aprendizaje continuo multimodal, cuyo objetivo es aprender nuevas tareas de forma secuencial en entornos multimodales preservando el rendimiento en las tareas aprendidas previamente. Sin embargo, los métodos existentes se centran principalmente en tareas de grano grueso, con limitaciones para abordar el entrelazamiento de modalidades en entornos de aprendizaje continuo de grano fino. Para cubrir esta laguna, presentamos una nueva tarea de Segmentación Audio-Visual Continua (CAVS), que tiene como objetivo segmentar continuamente nuevas clases guiada por el audio. Mediante un análisis exhaustivo, se identifican dos desafíos críticos: 1) la deriva semántica multimodal, donde un objeto sonoro se etiqueta como fondo en tareas secuenciales; 2) la confusión por co-ocurrencia, donde las clases que co-ocurren frecuentemente tienden a confundirse. En este trabajo, se diseña un marco de trabajo de Repaso Multimodal Basado en Colisión (CMR) para abordar estos desafíos. Específicamente, para la deriva semántica multimodal, se propone una estrategia de Selección de Muestras Multimodal (MSS) para seleccionar muestras con alta consistencia modal para el repaso. Mientras tanto, para la confusión por co-ocurrencia, se diseña un mecanismo de Repaso de Muestras Basado en Colisión (CSR), que permite aumentar la frecuencia de muestras de repaso de aquellas clases confundibles durante el proceso de entrenamiento. Además, construimos tres escenarios incrementales audio-visuales para verificar la efectividad de nuestro método. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los métodos de aprendizaje continuo unimodal.
Los modelos de lenguaje grandes (LLM) se despliegan cada vez más en sistemas agentes que interactúan con un entorno externo; esto los hace susceptibles a inyecciones de *prompts* al manejar datos no confiables. Para superar esta limitación, proponemos SIC (Soft Instruction Control), un bucle simple pero efectivo de saneamiento iterativo de *prompts* diseñado para agentes LLM aumentados con herramientas. Nuestro método inspecciona repetidamente los datos entrantes en busca de instrucciones que puedan comprometer el comportamiento del agente. Si se encuentra dicho contenido, el contenido malicioso se reescribe, enmascara o elimina, y el resultado se reevalúa. El proceso continúa hasta que la entrada está limpia o se alcanza un límite máximo de iteraciones; si permanece contenido imperativo similar a una instrucción, el agente se detiene para garantizar la seguridad. Al permitir múltiples pasadas, nuestro enfoque reconoce que las reescrituras individuales pueden fallar, pero permite que el sistema detecte y corrija inyecciones omitidas en pasos posteriores. Aunque es útil de inmediato, el análisis del peor caso muestra que SIC no es infalible; un adversario fuerte aún puede lograr una Tasa de Éxito de Ataque (ASR) del 15% incrustando flujos de trabajo no imperativos. No obstante, esto eleva la barrera de seguridad.
Los recientes avances en modelos de razonamiento a gran escala (LRM) han introducido un proceso intermedio de "pensamiento" previo a la generación de respuestas finales, mejorando sus capacidades de razonamiento en tareas complejas posteriores. Sin embargo, el potencial de los LRM como evaluadores de la calidad de la traducción automática (TA) sigue estando poco explorado. Presentamos el primer análisis sistemático del enfoque "LRM como juez" en la evaluación de TA. Identificamos desafíos clave, revelando que los LRM requieren materiales de evaluación adaptados, tienden a "sobrepensar" instancias más simples y presentan problemas con los mecanismos de puntuación que conducen a sobreestimaciones. Para abordar esto, proponemos calibrar el pensamiento de los LRM entrenándolos con trayectorias de pensamiento sintéticas similares a las humanas. Nuestros experimentos en los benchmarks de WMT24 Metrics demuestran que este enfoque reduce considerablemente el costo computacional de pensamiento en ~35x mientras mejora simultáneamente el rendimiento evaluador en diferentes escalas de LRM desde 7B hasta 32B (por ejemplo, R1-Distill-Qwen-7B logra una mejora de +8.7 puntos de correlación). Estos hallazgos resaltan el potencial de los LRM eficientemente calibrados para avanzar en la evaluación automática de TA de grano fino.
Los modelos de mundo interactivos que simulan la dinámica de objetos son cruciales para la robótica, la realidad virtual (RV) y la realidad aumentada (RA). Sin embargo, sigue siendo un desafío significativo aprender modelos de dinámica consistentes con la física a partir de datos limitados de vídeo del mundo real, especialmente para objetos deformables con propiedades físicas que varían espacialmente. Para superar el desafío de la escasez de datos, proponemos PhysWorld, un marco novedoso que utiliza un simulador para sintetizar demostraciones físicamente plausibles y diversas, con el fin de aprender modelos de mundo eficientes. Específicamente, primero construimos un gemelo digital físicamente consistente dentro del simulador MPM mediante la selección de modelos constitutivos y la optimización global-local de las propiedades físicas. Posteriormente, aplicamos perturbaciones conscientes de las partes a las propiedades físicas y generamos varios patrones de movimiento para el gemelo digital, sintetizando así demostraciones extensas y diversas. Finalmente, utilizando estas demostraciones, entrenamos un modelo de mundo ligero basado en GNN que incorpora propiedades físicas. El vídeo real puede utilizarse para refinar aún más las propiedades físicas. PhysWorld logra predicciones futuras precisas y rápidas para varios objetos deformables, y también se generaliza bien a interacciones novedosas. Los experimentos muestran que PhysWorld tiene un rendimiento competitivo mientras permite velocidades de inferencia 47 veces más rápidas que el método reciente de vanguardia, PhysTwin.
Aplicamos teoría de categorías para extraer la estructura multimodal de documentos, lo que nos lleva a desarrollar medidas de teoría de la información, resumen y extensión de contenido, y mejora autosupervisada de modelos grandes preentrenados. Primero, desarrollamos una representación matemática de un documento como una categoría de pares pregunta-respuesta. Segundo, desarrollamos un procedimiento de ortogonalización para dividir la información contenida en uno o más documentos en partes no superpuestas. Las estructuras extraídas en el primer y segundo paso nos llevan a desarrollar métodos para medir y enumerar la información contenida en un documento. También nos basamos en esos pasos para desarrollar nuevas técnicas de resumen, así como para desarrollar una solución a un nuevo problema, a saber, la exégesis que resulta en una extensión del documento original. Nuestra metodología de pares pregunta-respuesta permite un novedoso análisis de tasa-distorsión de las técnicas de resumen. Implementamos nuestras técnicas utilizando modelos grandes preentrenados y proponemos una extensión multimodal de nuestro marco matemático general. Finalmente, desarrollamos un método novedoso autosupervisado utilizando RLVR para mejorar modelos grandes preentrenados mediante restricciones de consistencia, como la componibilidad y el cierre bajo ciertas operaciones que surgen naturalmente de nuestro marco de teoría de categorías.
El aprendizaje por refuerzo (RL) se ha consolidado como un enfoque crucial para mejorar las capacidades de los modelos de lenguaje grandes. Sin embargo, en los modelos de Mezcla de Expertos (MoE), el mecanismo de enrutamiento a menudo introduce inestabilidad, llegando incluso a provocar un colapso catastrófico del entrenamiento por RL. Analizamos la consistencia entrenamiento-inferencia de los modelos MoE e identificamos una discrepancia notable en los comportamientos de enrutamiento entre ambas fases. Además, incluso en condiciones idénticas, el marco de enrutamiento puede producir selecciones de expertos divergentes en diferentes pasadas hacia adelante. Para abordar esta inconsistencia fundamental, proponemos Rollout Routing Replay (R3), un método que registra las distribuciones de enrutamiento del motor de inferencia y las reproduce durante el entrenamiento. R3 reduce significativamente la divergencia KL de las políticas entre entrenamiento e inferencia y mitiga las discrepancias extremas sin comprometer la velocidad de entrenamiento. Experimentos exhaustivos en varios entornos confirman que R3 logra estabilizar el entrenamiento por RL, previniendo el colapso y superando a métodos como GSPO y TIS. Creemos que este trabajo puede ofrecer una nueva solución para estabilizar el RL en modelos MoE.
Foley Control es un enfoque ligero para la Foley guiada por video que mantiene congelados los modelos preentrenados de modalidad única y aprende únicamente un pequeño puente de atención cruzada entre ellos. Conectamos los embeddings de video de V-JEPA2 a un modelo congelado Stable Audio Open DiT de texto a audio (T2A) insertando una atención cruzada de video compacta después de la atención cruzada de texto existente del modelo, de modo que los 'prompts' establecen la semántica global mientras que el video refina la sincronización y la dinámica local. Los 'backbones' congelados retienen distribuciones marginales sólidas (video; audio dado texto) y el puente aprende la dependencia audio-video necesaria para la sincronización, sin reentrenar el 'prior' de audio. Para reducir la memoria y estabilizar el entrenamiento, agrupamos los 'tokens' de video antes del condicionamiento. En benchmarks curados de video-audio, Foley Control ofrece una alineación temporal y semántica competitiva con muchos menos parámetros entrenables que los sistemas multimodales recientes, preservando al mismo tiempo la capacidad de control mediante 'prompts' y una modularidad apta para producción (intercambiar/actualizar codificadores o el 'backbone' T2A sin reentrenamiento de extremo a extremo). Aunque nos centramos en Video-a-Foley, el mismo diseño de puente puede extenderse potencialmente a otras modalidades de audio (por ejemplo, habla).
Los agentes de IA tienen el potencial de revolucionar la productividad científica mediante la automatización de revisiones bibliográficas, la replicación de experimentos, el análisis de datos e incluso la propuesta de nuevas líneas de investigación; de hecho, actualmente existen numerosos agentes de este tipo, que abarcan desde sistemas generalistas de "investigación profunda" hasta agentes especializados en ciencia, como AI Scientist y AIGS. La evaluación rigurosa de estos agentes es crucial para el progreso. Sin embargo, los puntos de referencia existentes presentan deficiencias en varios frentes: (1) no ofrecen mediciones holísticas e informadas por el producto de casos de uso del mundo real, como la investigación científica; (2) carecen de herramientas de agente reproducibles necesarias para una comparación controlada de las capacidades agentivas centrales; (3) no tienen en cuenta variables de confusión como el coste del modelo y el acceso a herramientas; (4) no proporcionan interfaces estandarizadas para la prototipación y evaluación rápida de agentes; y (5) carecen de agentes de referencia integrales necesarios para identificar avances reales. En respuesta, definimos principios y herramientas para evaluar agentes de manera más rigurosa. Utilizándolos, presentamos AstaBench, un conjunto que proporciona la primera medida holística de la capacidad agentiva para realizar investigación científica, comprendiendo más de 2400 problemas que abarcan todo el proceso de descubrimiento científico y múltiples dominios científicos, e incluyendo muchos problemas inspirados en solicitudes reales de usuarios a agentes Asta desplegados. Nuestro conjunto incluye el primer entorno de investigación científica con herramientas de búsqueda de grado productivo que permiten una evaluación controlada y reproducible, teniendo mejor en cuenta las variables de confusión. Adicionalmente, proporcionamos un conjunto integral de nueve clases optimizadas para ciencia de agentes Asta y numerosas referencias. Nuestra evaluación exhaustiva de 57 agentes en 22 clases de agentes revela varios hallazgos interesantes, siendo el más importante que, a pesar de los progresos significativos en ciertos aspectos individuales, la IA aún está lejos de resolver el desafío de la asistencia en investigación científica.
El razonamiento visual en los modelos de lenguaje grandes multimodales (MLLMs) se ha estudiado principalmente en entornos estáticos y completamente observables, lo que limita su eficacia en entornos del mundo real donde la información a menudo es incompleta debido a oclusiones o un campo de visión limitado. Los humanos, en contraste, exploran e interactúan activamente con su entorno —moviéndose, examinando y manipulando objetos— para recopilar información a través de un proceso de bucle cerrado que integra percepción, razonamiento y acción. Inspirados por esta capacidad humana, presentamos la tarea de Razonamiento Visual Activo (AVR), que extiende el razonamiento visual a entornos interactivos y parcialmente observables. AVR requiere que los agentes: (1) adquieran información activamente mediante acciones físicas secuenciales, (2) integren observaciones a lo largo de múltiples pasos para un razonamiento coherente, y (3) ajusten dinámicamente las decisiones basándose en la retroalimentación visual en evolución. Para evaluar rigurosamente AVR, presentamos CLEVR-AVR, un benchmark de simulación que presenta entornos interactivos de múltiples rondas diseñados para evaluar tanto la corrección del razonamiento como la eficiencia en la recolección de información. Presentamos AVR-152k, un conjunto de datos a gran escala que ofrece anotaciones ricas de Cadena de Pensamiento (CoT) que detallan el razonamiento iterativo para la identificación de incertidumbre, la predicción de ganancia de información condicionada a la acción y la selección de acciones que maximizan la información, cruciales para entrenar agentes en un Proceso de Decisión de Markov de orden superior. Sobre esta base, desarrollamos PhysVLM-AVR, un MLLM que logra un rendimiento de vanguardia en CLEVR-AVR, razonamiento encarnado (OpenEQA, RoboVQA) y razonamiento visual pasivo (GeoMath, Geometry30K). Nuestro análisis también revela que los MLLMs encarnados actuales, a pesar de detectar la incompletitud de la información, tienen dificultades para adquirir e integrar activamente nueva información a través de la interacción, lo que subraya una brecha fundamental en las capacidades de razonamiento activo.
Los sensores LiDAR 3D son esenciales para la navegación autónoma, el monitoreo ambiental y la cartografía de precisión en aplicaciones de teledetección. Para procesar eficientemente las nubes de puntos masivas generadas por estos sensores, los datos LiDAR a menudo se proyectan en imágenes de rango 2D que organizan los puntos según sus posiciones angulares y distancias. Si bien estas representaciones de imágenes de rango permiten un procesamiento eficiente, los métodos de proyección convencionales adolecen de inconsistencias geométricas fundamentales que causan una pérdida irreversible de información, comprometiendo las aplicaciones de alta fidelidad. Presentamos ALICE-LRI (Estimación de Calibración Intrínseca LiDAR Automática para Imágenes de Rango sin Pérdidas), el primer método general e independiente del sensor que logra una generación de imágenes de rango sin pérdidas a partir de nubes de puntos LiDAR rotativos, sin requerir metadatos del fabricante ni archivos de calibración. Nuestro algoritmo reconstruye automáticamente la geometría intrínseca de cualquier sensor LiDAR rotativo mediante la inferencia de parámetros críticos, incluyendo la configuración del haz láser, las distribuciones angulares y las correcciones de calibración por haz, permitiendo una proyección sin pérdidas y una reconstrucción completa de la nube de puntos con pérdida cero de puntos. La evaluación exhaustiva en los conjuntos de datos completos de KITTI y DurLAR demuestra que ALICE-LRI logra una preservación perfecta de puntos, con cero puntos perdidos en todas las nubes de puntos. La precisión geométrica se mantiene dentro de los límites de precisión del sensor, estableciendo una pérdida geométrica nula con rendimiento en tiempo real. También presentamos un estudio de caso de compresión que valida beneficios sustanciales posteriores, demostrando mejoras significativas de calidad en aplicaciones prácticas. Este cambio de paradigma, de proyecciones LiDAR aproximadas a sin pérdidas, abre nuevas posibilidades para aplicaciones de teledetección de alta precisión que requieren una preservación geométrica completa.