Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos GLM-4.1V-Thinking, un modelo de lenguaje visual (VLM) diseñado para avanzar en el razonamiento multimodal de propósito general. En este informe, compartimos nuestros hallazgos clave en el desarrollo del marco de entrenamiento centrado en el razonamiento. Primero desarrollamos un modelo base de visión capaz con un potencial significativo a través de un preentrenamiento a gran escala, lo que establece, sin duda, el límite superior para el rendimiento final. El Aprendizaje por Refuerzo con Muestreo Curricular (RLCS) luego desbloquea todo el potencial del modelo, lo que conduce a una mejora integral de capacidades en una amplia gama de tareas, incluyendo la resolución de problemas STEM, la comprensión de videos, el reconocimiento de contenido, la codificación, la fundamentación, agentes basados en GUI y la comprensión de documentos largos, entre otros. Para facilitar la investigación en este campo, liberamos el código de GLM-4.1V-9B-Thinking, que logra un rendimiento de vanguardia entre modelos de tamaño comparable. En una evaluación exhaustiva en 28 benchmarks públicos, nuestro modelo supera a Qwen2.5-VL-7B en casi todas las tareas y alcanza un rendimiento comparable o incluso superior en 18 benchmarks en relación con el significativamente más grande Qwen2.5-VL-72B. Notablemente, GLM-4.1V-9B-Thinking también demuestra un rendimiento competitivo o superior en comparación con modelos de código cerrado como GPT-4o en tareas desafiantes, incluyendo la comprensión de documentos largos y el razonamiento STEM, lo que subraya aún más sus fuertes capacidades. El código, los modelos y más información se publican en https://github.com/THUDM/GLM-4.1V-Thinking.
El razonamiento matemático se ha convertido en el estandarte del progreso en los modelos de lenguaje de gran escala (LLMs), con nuevos modelos superando rápidamente el rendimiento humano en benchmarks como MATH y AIME. Pero a medida que los rankings de matemáticas mejoran semana tras semana, vale la pena preguntarse: ¿estas mejoras reflejan una capacidad más amplia para resolver problemas o simplemente un sobreajuste específico? Para responder a esta pregunta, evaluamos más de 20 modelos de razonamiento ajustados y de código abierto en una amplia gama de tareas, incluyendo matemáticas, preguntas y respuestas científicas, planificación de agentes, programación y seguimiento de instrucciones estándar. Sorprendentemente, encontramos que la mayoría de los modelos que tienen éxito en matemáticas no logran transferir sus avances a otros dominios. Para estudiar rigurosamente este fenómeno, realizamos experimentos controlados en modelos Qwen3-14B utilizando únicamente datos matemáticos pero con diferentes métodos de ajuste. Descubrimos que los modelos ajustados con aprendizaje por refuerzo (RL) generalizan bien en varios dominios, mientras que los modelos ajustados con fine-tuning supervisado (SFT) a menudo olvidan capacidades generales. Los análisis de representación en el espacio latente y de cambios en la distribución del espacio de tokens revelan que el SFT induce un desplazamiento sustancial en las representaciones y salidas, mientras que el RL preserva la estructura del dominio general. Nuestros resultados sugieren la necesidad de reconsiderar las recetas estándar de post-entrenamiento, particularmente la dependencia de datos destilados mediante SFT para avanzar en modelos de razonamiento.
Presentamos SciArena, una plataforma abierta y colaborativa para evaluar modelos fundacionales en tareas relacionadas con la literatura científica. A diferencia de los benchmarks tradicionales para la comprensión y síntesis de literatura científica, SciArena involucra directamente a la comunidad investigadora, siguiendo el enfoque de evaluación de Chatbot Arena mediante votaciones comunitarias en comparaciones de modelos. Al aprovechar la inteligencia colectiva, SciArena ofrece una evaluación impulsada por la comunidad del rendimiento de los modelos en tareas científicas abiertas que requieren respuestas extensas y fundamentadas en la literatura. La plataforma actualmente admite 23 modelos fundacionales, tanto de código abierto como propietarios, y ha recopilado más de 13,000 votos de investigadores confiables en diversos dominios científicos. Analizamos los datos recopilados hasta ahora y confirmamos que las preguntas enviadas son diversas, están alineadas con las necesidades reales de la literatura y que los investigadores participantes muestran una fuerte autoconsistencia y acuerdo interanotador en sus evaluaciones. Discutimos los resultados y las conclusiones basadas en la tabla de clasificación de modelos. Para fomentar aún más la investigación en la construcción de sistemas automatizados de evaluación basados en modelos para tareas de literatura, lanzamos SciArena-Eval, un benchmark de meta-evaluación basado en nuestros datos de preferencias recopilados. El benchmark mide la precisión de los modelos al juzgar la calidad de las respuestas comparando sus evaluaciones por pares con los votos humanos. Nuestros experimentos resaltan los desafíos del benchmark y enfatizan la necesidad de métodos de evaluación automatizada más confiables.
Los modelos de incrustación multimodal, construidos sobre modelos de lenguaje visual causal (VLMs), han mostrado resultados prometedores en diversas tareas. Sin embargo, los enfoques actuales enfrentan tres limitaciones clave: el uso de atención causal en los backbones de los VLMs es subóptimo para tareas de incrustación; problemas de escalabilidad debido a la dependencia de datos etiquetados de alta calidad para el aprendizaje contrastivo; y una diversidad limitada en los objetivos y datos de entrenamiento. Para abordar estos problemas, proponemos MoCa, un marco de trabajo en dos etapas para transformar VLMs preentrenados en modelos efectivos de incrustación multimodal bidireccional. La primera etapa, el Preentrenamiento Continuo con Conciencia de Modalidad, introduce un objetivo de reconstrucción conjunta que desruye simultáneamente entradas intercaladas de texto e imágenes, mejorando el razonamiento bidireccional consciente del contexto. La segunda etapa, el Ajuste Fino Contrastivo Heterogéneo, aprovecha datos multimodales diversos y semánticamente ricos más allá de simples pares imagen-texto para mejorar la generalización y alineación. Nuestro método aborda las limitaciones mencionadas al introducir atención bidireccional mediante el preentrenamiento continuo, escalando eficazmente con grandes conjuntos de datos no etiquetados a través de objetivos de reconstrucción conjunta, y utilizando datos multimodales diversos para mejorar la robustez de las representaciones. Los experimentos demuestran que MoCa mejora consistentemente el rendimiento en los benchmarks MMEB y ViDoRe-v2, logrando nuevos resultados de vanguardia, y exhibe una fuerte escalabilidad tanto en el tamaño del modelo como en los datos de entrenamiento en MMEB.
Los recientes avances en los modelos de difusión han permitido la generación de videos de alta calidad, pero la dimensión temporal adicional aumenta significativamente los costos computacionales, haciendo que el entrenamiento y la inferencia en videos largos sean prohibitivamente costosos. En este artículo, identificamos un fenómeno que denominamos Decaimiento de Energía Espaciotemporal en los modelos de difusión de video: las puntuaciones de atención post-softmax disminuyen a medida que aumenta la distancia espacial y temporal entre los tokens, similar al decaimiento físico de señales u ondas en el espacio y el tiempo en la naturaleza. Motivados por esto, proponemos Atención Radial, un mecanismo de atención dispersa escalable con complejidad O(n log n) que traduce el decaimiento de energía en una densidad de cómputo que decae exponencialmente, lo que es significativamente más eficiente que la atención densa estándar O(n^2) y más expresivo que la atención lineal. Específicamente, la Atención Radial emplea una máscara de atención estática y simple donde cada token atiende a tokens espacialmente cercanos, con el tamaño de la ventana de atención reduciéndose con la distancia temporal. Además, permite que los modelos de difusión de video preentrenados extiendan su longitud de generación con un ajuste fino eficiente basado en LoRA. Experimentos extensos muestran que la Atención Radial mantiene la calidad del video en Wan2.1-14B, HunyuanVideo y Mochi 1, logrando una aceleración de hasta 1.9 veces sobre la atención densa original. Con un ajuste mínimo, permite la generación de videos hasta 4 veces más largos mientras reduce los costos de entrenamiento hasta 4.4 veces en comparación con el ajuste fino directo y acelera la inferencia hasta 3.7 veces en comparación con la inferencia de atención densa.
Los modelos de lenguaje de difusión a gran escala (dLLMs, por sus siglas en inglés) son alternativas convincentes a los modelos autorregresivos (AR) porque sus modelos de eliminación de ruido operan sobre la secuencia completa. Las características de planificación global y refinamiento iterativo de los dLLMs son particularmente útiles para la generación de código. Sin embargo, los mecanismos actuales de entrenamiento e inferencia para dLLMs en el ámbito de la codificación aún están poco explorados. Para desentrañar el comportamiento de decodificación de los dLLMs y desbloquear su potencial en la codificación, investigamos sistemáticamente sus procesos de eliminación de ruido y métodos de aprendizaje por refuerzo (RL). Entrenamos un dLLM de 7B, llamado DiffuCoder, con 130B tokens de código. Utilizando este modelo como banco de pruebas, analizamos su comportamiento de decodificación, revelando cómo difiere del de los modelos AR: (1) los dLLMs pueden decidir cuán causal debe ser su generación sin depender de la decodificación semi-AR, y (2) aumentar la temperatura de muestreo no solo diversifica las elecciones de tokens, sino también su orden de generación. Esta diversidad crea un espacio de búsqueda rico para las iteraciones de RL. Para el entrenamiento de RL, con el fin de reducir la varianza de las estimaciones de verosimilitud de los tokens y mantener la eficiencia del entrenamiento, proponemos coupled-GRPO, un esquema de muestreo novedoso que construye ruido de máscara complementario para las completaciones utilizadas en el entrenamiento. En nuestros experimentos, coupled-GRPO mejora significativamente el rendimiento de DiffuCoder en benchmarks de generación de código (+4.4% en EvalPlus) y reduce la dependencia de la causalidad AR durante la decodificación. Nuestro trabajo proporciona una visión más profunda del funcionamiento de la generación en dLLMs y ofrece un marco de entrenamiento de RL efectivo y nativo para la difusión. https://github.com/apple/ml-diffucoder.
¿Pueden las máquinas realmente pensar, razonar y actuar en dominios como los humanos? Esta pregunta perdurable continúa moldeando la búsqueda de la Inteligencia General Artificial (AGI). A pesar de las crecientes capacidades de modelos como GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 y Grok 3, que exhiben fluidez multimodal y razonamiento parcial, estos sistemas siguen siendo fundamentalmente limitados por su dependencia de la predicción a nivel de tokens y la falta de agencia fundamentada. Este artículo ofrece una síntesis interdisciplinaria del desarrollo de la AGI, abarcando inteligencia artificial, neurociencia cognitiva, psicología, modelos generativos y sistemas basados en agentes. Analizamos los fundamentos arquitectónicos y cognitivos de la inteligencia general, destacando el papel del razonamiento modular, la memoria persistente y la coordinación multiagente. En particular, enfatizamos el auge de los marcos Agentic RAG que combinan recuperación, planificación y uso dinámico de herramientas para permitir un comportamiento más adaptativo. Discutimos estrategias de generalización, incluyendo compresión de información, adaptación en tiempo de prueba y métodos libres de entrenamiento, como vías críticas hacia una inteligencia flexible y agnóstica de dominio. Los Modelos de Visión-Lenguaje (VLMs) se reexaminan no solo como módulos de percepción, sino como interfaces en evolución para la comprensión encarnada y la finalización colaborativa de tareas. También argumentamos que la verdadera inteligencia surge no solo de la escala, sino de la integración de la memoria y el razonamiento: una orquestación de componentes modulares, interactivos y automejorables donde la compresión permite un comportamiento adaptativo. Basándonos en avances en sistemas neurosimbólicos, aprendizaje por refuerzo y andamiaje cognitivo, exploramos cómo las arquitecturas recientes comienzan a cerrar la brecha entre el aprendizaje estadístico y la cognición dirigida a objetivos. Finalmente, identificamos los desafíos científicos, técnicos y éticos clave en el camino hacia la AGI.
Con el rápido avance de los modelos de lenguaje multimodal de gran escala, la capacidad para comprender e interpretar profundamente las intenciones humanas ha surgido como una habilidad crítica, que requiere un razonamiento detallado y reflexivo. En estudios recientes, el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado potencial para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). Sin embargo, los desafíos asociados con la adaptación del RL a datos y formatos multimodales siguen siendo en gran medida no abordados. En este artículo, identificamos dos problemas en los modelos de razonamiento multimodal existentes: la comprensión insuficiente del contexto global y los problemas de atajos. La comprensión insuficiente del contexto puede ocurrir cuando un modelo malinterpreta el contexto multimodal, lo que resulta en respuestas incorrectas. El problema de los atajos ocurre cuando el modelo pasa por alto pistas cruciales en las entradas multimodales, abordando directamente la consulta sin considerar la información multimodal. Para abordar estos problemas, enfatizamos la necesidad de que el modelo razone con una comprensión clara del contexto global dentro de las entradas multimodales. Esta comprensión del contexto global puede prevenir efectivamente que el modelo pase por alto señales clave multimodales y asegurar un proceso de razonamiento exhaustivo. Para garantizar la interpretación precisa de la información de contexto multimodal, implementamos una recompensa de contexto juzgada por un modelo de lenguaje de gran escala, junto con recompensas de formato y precisión. Además, para mejorar la capacidad de razonamiento complejo, empleamos el LLM para evaluar la recompensa lógica, determinando si el proceso de razonamiento integra exitosamente la información multimodal con métodos lógicos. También presentamos un punto de referencia omni-modal de razonamiento, IntentBench, destinado a evaluar modelos en la comprensión de intenciones y emociones humanas complejas. Nuestro método propuesto demuestra un rendimiento avanzado en múltiples puntos de referencia omni-modales en comparación con otros modelos omni-modales de código abierto.
La segmentación amodal y la completación de contenido amodal requieren el uso de conocimientos previos sobre objetos para estimar máscaras ocluidas y características de objetos en escenas complejas. Hasta ahora, ningún conjunto de datos ha proporcionado una dimensión adicional para el contexto de los objetos: la posibilidad de múltiples cámaras compartiendo una vista de una escena. Presentamos MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, el mayor conjunto de datos de segmentación amodal y el primero en contenido amodal hasta la fecha. Se simulan escenas desordenadas de objetos domésticos genéricos en video multicámara. MOVi-MC-AC contribuye a la creciente literatura sobre detección, seguimiento y segmentación de objetos al incluir dos nuevas aportaciones al mundo del aprendizaje profundo para visión por computadora. Los entornos de Múltiples Cámaras (MC), donde los objetos pueden ser identificados y rastreados entre diversas perspectivas únicas de cámara, son raros tanto en video sintético como en el mundo real. Introducimos una nueva complejidad al video sintético al proporcionar identificadores de objetos consistentes para detecciones y segmentaciones entre fotogramas y múltiples cámaras, cada una con características y patrones de movimiento únicos en una sola escena. El Contenido Amodal (AC) es una tarea reconstructiva en la que los modelos predicen la apariencia de objetos objetivo a través de oclusiones. En la literatura de segmentación amodal, se han publicado algunos conjuntos de datos con etiquetas de detección, seguimiento y segmentación amodal. Mientras que otros métodos dependen de esquemas lentos de cortar y pegar para generar pseudoetiquetas de contenido amodal, estos no tienen en cuenta las oclusiones naturales presentes en las máscaras modales. MOVi-MC-AC proporciona etiquetas para ~5.8 millones de instancias de objetos, estableciendo un nuevo máximo en la literatura de conjuntos de datos amodales, además de ser el primero en ofrecer contenido amodal de referencia. El conjunto de datos completo está disponible en https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado capacidades notables de razonamiento visual en imágenes naturales, documentos ricos en texto y diseños gráficos. Sin embargo, su habilidad para interpretar partituras musicales sigue siendo poco explorada. Para cerrar esta brecha, presentamos MusiXQA, el primer conjunto de datos integral para evaluar y avanzar en la comprensión de partituras por parte de los MLLMs. MusiXQA incluye partituras sintéticas de alta calidad generadas mediante MusiXTeX, con anotaciones estructuradas que abarcan la altura y duración de las notas, acordes, claves, indicaciones de compás y texto, permitiendo diversas tareas de preguntas y respuestas visuales. A través de evaluaciones exhaustivas, revelamos limitaciones significativas de los MLLMs más avanzados actualmente en este dominio. Más allá de la evaluación comparativa, desarrollamos Phi-3-MusiX, un MLLM ajustado en nuestro conjunto de datos, logrando mejoras significativas en el rendimiento sobre métodos basados en GPT. El conjunto de datos y el modelo propuestos establecen una base para futuros avances en los MLLMs para la comprensión de partituras. El código, los datos y el modelo se publicarán tras su aceptación.
Los datos son fundamentales para el entrenamiento de los modelos de lenguaje (LM). Investigaciones recientes se han dedicado a la eficiencia de los datos, cuyo objetivo es maximizar el rendimiento seleccionando un subconjunto mínimo u óptimo de datos de entrenamiento. Técnicas como el filtrado, muestreo y selección de datos desempeñan un papel crucial en este ámbito. Para complementarlo, definimos la Eficacia de los Datos, que se centra en maximizar el rendimiento optimizando la organización de los datos de entrenamiento y sigue siendo un área relativamente poco explorada. Este trabajo introduce un paradigma general, DELT, para considerar la eficacia de los datos en el entrenamiento de LM, destacando la importancia de la organización de los datos de entrenamiento. DELT consta de tres componentes: Puntuación de Datos, Selección de Datos y Ordenación de Datos. Entre estos componentes, diseñamos la Puntuación de Aprendibilidad-Calidad (LQS), como una nueva instancia de Puntuación de Datos, que considera tanto la aprendibilidad como la calidad de cada muestra de datos desde la perspectiva de la consistencia del gradiente. También ideamos la Ordenación Plegable (FO), como una novedosa instancia de Ordenación de Datos, que aborda problemas como el olvido del modelo y el sesgo en la distribución de los datos. Experimentos exhaustivos validan la eficacia de los datos en el entrenamiento de LM, demostrando lo siguiente: En primer lugar, diversas instancias del propuesto DELT mejoran el rendimiento de los LM en distintos grados sin aumentar la escala de datos ni el tamaño del modelo. En segundo lugar, entre estas instancias, la combinación de nuestra propuesta LQS para la puntuación de datos y Folding para la ordenación de datos logra la mejora más significativa. Por último, la eficacia de los datos puede lograrse junto con la eficiencia de los datos aplicando la selección de datos. Por lo tanto, creemos que la eficacia de los datos es un área fundamental prometedora en el entrenamiento de LM.
Los recientes avances en los modelos de generación de video han permitido la creación de videos cortos de alta calidad a partir de indicaciones de texto. Sin embargo, extender estos modelos a videos más largos sigue siendo un desafío significativo, principalmente debido a la degradación de la consistencia temporal y la fidelidad visual. Nuestras observaciones preliminares muestran que aplicar de manera ingenua los modelos de generación de videos cortos a secuencias más largas conduce a una degradación notable de la calidad. Un análisis más profundo identifica una tendencia sistemática en la que los componentes de alta frecuencia se distorsionan cada vez más a medida que aumenta la duración del video, un problema que denominamos distorsión de alta frecuencia. Para abordar esto, proponemos FreeLong, un marco sin necesidad de entrenamiento diseñado para equilibrar la distribución de frecuencia de las características de videos largos durante el proceso de eliminación de ruido. FreeLong logra esto combinando características globales de baja frecuencia, que capturan la semántica holística a lo largo de todo el video, con características locales de alta frecuencia extraídas de ventanas temporales cortas para preservar los detalles finos. Basándose en esto, FreeLong++ extiende el diseño de doble rama de FreeLong a una arquitectura de múltiples ramas con varias ramas de atención, cada una operando en una escala temporal distinta. Al organizar múltiples tamaños de ventana desde lo global hasta lo local, FreeLong++ permite la fusión de frecuencias en múltiples bandas, desde las bajas hasta las altas frecuencias, asegurando tanto la continuidad semántica como la dinámica de movimiento detallada en secuencias de video más largas. Sin necesidad de entrenamiento adicional, FreeLong++ puede integrarse en modelos existentes de generación de video (por ejemplo, Wan2.1 y LTX-Video) para producir videos más largos con una consistencia temporal y fidelidad visual sustancialmente mejoradas. Demostramos que nuestro enfoque supera a los métodos anteriores en tareas de generación de videos más largos (por ejemplo, 4x y 8x de la longitud nativa). También admite la generación coherente de videos con múltiples indicaciones, con transiciones suaves entre escenas, y permite la generación controlada de videos utilizando secuencias largas de profundidad o pose.
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) destacan en tareas descriptivas, pero sigue siendo incierto si realmente comprenden escenas a partir de observaciones visuales. Presentamos IR3D-Bench, un punto de referencia que desafía a los VLMs a demostrar comprensión a través de la creación activa en lugar del reconocimiento pasivo. Basado en el paradigma de análisis por síntesis, IR3D-Bench asigna a los Agentes de Visión y Lenguaje (VLAs) la tarea de utilizar activamente herramientas de programación y renderizado para recrear la estructura 3D subyacente de una imagen de entrada, logrando una representación inversa mediante el uso de herramientas. Este enfoque de "comprensión mediante la creación" explora la capacidad generativa de los VLAs en el uso de herramientas, yendo más allá de la capacidad descriptiva o conversacional medida por los puntos de referencia tradicionales de comprensión de escenas. Proporcionamos un conjunto integral de métricas para evaluar la precisión geométrica, las relaciones espaciales, los atributos de apariencia y la plausibilidad general. Los experimentos iniciales sobre la representación inversa impulsada por varios VLMs de última generación destacan las limitaciones actuales, particularmente en la precisión visual más que en el uso básico de herramientas. IR3D-Bench, que incluye datos y protocolos de evaluación, se ha publicado para facilitar el estudio sistemático y el desarrollo de VLAs que utilicen herramientas con el objetivo de lograr una comprensión genuina de escenas mediante la creación.
Un informe de la Agencia de Aplicación de la Ley de la Unión Europea predice que, para 2026, hasta el 90 por ciento del contenido en línea podría estar generado sintéticamente, lo que ha generado preocupación entre los responsables políticos, quienes advirtieron que "la IA generativa podría actuar como un multiplicador de fuerza para la desinformación política. El efecto combinado del texto, las imágenes, los videos y el audio generativos podría superar la influencia de cualquier modalidad individual". En respuesta, el proyecto de ley AB 3211 de California exige la marca de agua en imágenes, videos y audio generados por IA. Sin embargo, persisten las preocupaciones sobre la vulnerabilidad de las técnicas de marca de agua invisible a la manipulación y la posibilidad de que actores maliciosos las eludan por completo. Los ataques de eliminación de marcas de agua impulsados por IA generativa, especialmente el recién introducido ataque de paráfrasis visual, han demostrado la capacidad de eliminar completamente las marcas de agua, lo que resulta en una paráfrasis de la imagen original. Este artículo presenta PECCAVI, la primera técnica de marca de agua en imágenes segura frente a ataques de paráfrasis visual y libre de distorsiones. En los ataques de paráfrasis visual, una imagen se altera preservando sus regiones semánticas centrales, denominadas Puntos No Fundentes (NMPs, por sus siglas en inglés). PECCAVI incrusta estratégicamente las marcas de agua dentro de estos NMPs y emplea marcas de agua en el dominio de frecuencia multicanal. También incorpora un bruñido ruidoso para contrarrestar los esfuerzos de ingeniería inversa destinados a localizar los NMPs y alterar la marca de agua incrustada, mejorando así su durabilidad. PECCAVI es independiente del modelo. Todos los recursos y códigos relevantes se publicarán como código abierto.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) destacan en tareas complejas mediante técnicas avanzadas de *prompting*, como *Chain-of-Thought* (CoT) y *Tree-of-Thought* (ToT). Sin embargo, su dependencia de *prompts* específicos para cada tarea, elaborados manualmente, limita su adaptabilidad y eficiencia. Presentamos *Mixture of Reasoning* (MoR), un marco de entrenamiento que integra diversas estrategias de razonamiento en los LLMs para un razonamiento autónomo y adaptable a la tarea, sin necesidad de ingeniería externa de *prompts*. MoR consta de dos fases: *Generación de Pensamientos*, que crea plantillas de cadenas de razonamiento utilizando modelos como GPT-4o, y *Construcción del Conjunto de Datos SFT*, que empareja estas plantillas con conjuntos de datos de referencia para un ajuste fino supervisado. Nuestros experimentos demuestran que MoR mejora significativamente el rendimiento, con MoR150 alcanzando 0.730 (una mejora del 2.2%) utilizando *prompting* CoT y 0.734 (una mejora del 13.5%) en comparación con los baselines. MoR elimina la necesidad de *prompts* específicos para cada tarea, ofreciendo una solución generalizable para un razonamiento robusto en diversas tareas.
Presentamos a Ella, un agente social encarnado capaz de aprendizaje continuo dentro de una comunidad en un mundo abierto en 3D, donde los agentes acumulan experiencias y adquieren conocimiento a través de observaciones visuales cotidianas e interacciones sociales. En el núcleo de las capacidades de Ella se encuentra un sistema de memoria multimodal estructurado y a largo plazo que almacena, actualiza y recupera información de manera efectiva. Este sistema consta de una memoria semántica centrada en nombres para organizar el conocimiento adquirido y una memoria episódica espaciotemporal para capturar experiencias multimodales. Al integrar este sistema de memoria continua con modelos fundacionales, Ella recupera información relevante para la toma de decisiones, planifica actividades diarias, construye relaciones sociales y evoluciona de manera autónoma mientras coexiste con otros seres inteligentes en el mundo abierto. Realizamos evaluaciones orientadas a capacidades en un mundo abierto en 3D dinámico donde 15 agentes participan en actividades sociales durante varios días y son evaluados con una serie de pruebas controladas no vistas previamente. Los resultados experimentales muestran que Ella puede influir, liderar y cooperar eficazmente con otros agentes para alcanzar objetivos, demostrando su capacidad para aprender de manera efectiva a través de la observación y la interacción social. Nuestros hallazgos resaltan el potencial transformador de combinar sistemas de memoria estructurada con modelos fundacionales para avanzar en la inteligencia encarnada. Más videos pueden encontrarse en https://umass-embodied-agi.github.io/Ella/.
La modelización precisa de materiales es crucial para lograr renderizados fotorrealistas, cerrando la brecha entre las imágenes generadas por computadora y las fotografías del mundo real. Mientras que los enfoques tradicionales dependen de datos tabulados de BRDF, trabajos recientes han girado hacia representaciones neuronales implícitas, las cuales ofrecen marcos compactos y flexibles para una variedad de tareas. Sin embargo, su comportamiento en el dominio de la frecuencia sigue siendo poco comprendido. Para abordar esto, presentamos FreNBRDF, una representación neuronal de materiales rectificada en frecuencia. Al aprovechar los armónicos esféricos, integramos consideraciones del dominio de la frecuencia en la modelización neuronal de BRDF. Proponemos una nueva función de pérdida rectificada en frecuencia, derivada de un análisis de frecuencia de materiales neuronales, y la incorporamos en una canalización de reconstrucción y edición generalizable y adaptable. Este marco mejora la fidelidad, adaptabilidad y eficiencia. Experimentos exhaustivos demuestran que FreNBRDF mejora la precisión y robustez de la reconstrucción y edición de la apariencia de materiales en comparación con los métodos de referencia más avanzados, permitiendo tareas y aplicaciones posteriores más estructuradas e interpretables.
El método de 3D Gaussian Splatting permite una representación en tiempo real de alta calidad, pero a menudo genera millones de splats, lo que resulta en un exceso de almacenamiento y sobrecarga computacional. Proponemos un novedoso método de compresión con pérdida basado en puntuaciones de confianza aprendibles modeladas como distribuciones Beta. La confianza de cada splat se optimiza mediante pérdidas conscientes de la reconstrucción, lo que permite eliminar splats de baja confianza mientras se preserva la fidelidad visual. El enfoque propuesto es independiente de la arquitectura y puede aplicarse a cualquier variante de Gaussian Splatting. Además, los valores promedio de confianza sirven como una nueva métrica para evaluar la calidad de la escena. Experimentos exhaustivos demuestran un equilibrio favorable entre compresión y fidelidad en comparación con trabajos anteriores. Nuestro código y datos están disponibles públicamente en https://github.com/amirhossein-razlighi/Confident-Splatting.